CN110660398A - 声纹特征更新方法、装置、计算机设备及存储介质 - Google Patents

声纹特征更新方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110660398A
CN110660398A CN201910888746.3A CN201910888746A CN110660398A CN 110660398 A CN110660398 A CN 110660398A CN 201910888746 A CN201910888746 A CN 201910888746A CN 110660398 A CN110660398 A CN 110660398A
Authority
CN
China
Prior art keywords
voice
driver
feature
features
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910888746.3A
Other languages
English (en)
Other versions
CN110660398B (zh
Inventor
李世杰
陈欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910888746.3A priority Critical patent/CN110660398B/zh
Publication of CN110660398A publication Critical patent/CN110660398A/zh
Application granted granted Critical
Publication of CN110660398B publication Critical patent/CN110660398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种声纹特征更新方法、装置、计算机设备及存储介质,属于计算机技术领域。方法包括:从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,电话语音数据为通话过程中录制得到的语音数据,行程语音数据为出行订单的进行过程中录制得到的语音数据;获取多条语音数据对应的语音特征;基于获取的多个语音特征,更新原始司机声纹特征。匹配结果更加准确,能够更加准确地确定当前司机是否为在终端注册的司机,以防止有些司机冒用他人账号,进而提高了网约车的安全性。

Description

声纹特征更新方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种声纹特征更新方法、装置、计算机设备及存储介质。
背景技术
随着语音处理技术的发展,越来越多的计算机设备用到了语音处理技术。用户可以通过语音数据控制设备执行相应地操作,例如,语音开锁、语音支付等。
相关技术中,用户在控制设备之前需要在设备上注册声纹特征。之后,用户在设备上输入语音数据,设备通过判断该语音数据对应的语音特征与声纹特征是否匹配,确定是否允许当前用户控制该设备。
发明内容
本发明实施例提供了一种声纹特征更新方法、装置、计算机设备及存储介质,能够解决环境中其他语音源影响匹配结果的准确性的问题。该技术方案如下:
一方面,提供了一种声纹特征更新方法,该方法包括:
从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,所述多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,所述电话语音数据为通话过程中录制得到的语音数据,所述行程语音数据为出行订单的进行过程中录制得到的语音数据;
获取所述多条语音数据对应的语音特征;
基于获取的多个语音特征,更新所述原始司机声纹特征。
一方面,提供了一种声纹特征更新装置,该装置包括:
第一获取模块,用于从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,所述多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,所述电话语音数据为通话过程中录制得到的语音数据,所述行程语音数据为出行订单的进行过程中录制得到的语音数据;
第二获取模块,用于获取所述多条语音数据对应的语音特征;
更新模块,用于基于获取的多个语音特征,更新所述原始司机声纹特征。
在一种可能实现方式中,所述装置还包括:
分离模块,用于对于所述多条语音数据中的任一语音数据,当所述语音数据为双声道语音数据时,将所述语音数据进行分离处理,得到左声道语音数据和右声道语音数据;或者,
切分模块,用于对每条语音数据进行切分,得到包含目标帧数的多个语音数据片段;或者,
筛选模块,用于对每条语音数据进行筛选处理,过滤掉所述多条语音数据中的无效语音数据,所述无效语音数据包括噪声数据或者静音数据中的至少一项。
在一种可能实现方式中,所述第二获取模块,用于当所述多条语音数据中包括电话语音数据时,获取所述电话语音数据对应的第一语音特征;
所述第二获取模块,还用于当所述多条语音数据中包括行程语音数据时,获取所述行程语音数据对应的第二语音特征。
在一种可能实现方式中,所述更新模块,用于当所述多个语音特征中包括多个第一语音特征时,对所述多个第一语音特征进行处理,得到第一司机语音特征,对所述第一司机语音特征和所述原始司机声纹特征进行统计处理,得到更新后的司机声纹特征;或者,
所述更新模块,用于当所述多个语音特征中包括多个第二语音特征时,对所述多个第二语音特征进行处理,得到第二司机语音特征,对所述第二司机语音特征和所述原始司机声纹特征进行统计处理,得到更新后的司机声纹特征;或者,
所述更新模块,用于当所述多个语音特征中包括多个第一语音特征和多个第二语音特征时,对所述多个第一语音特征进行处理,得到第一司机语音特征,对所述多个第二语音特征进行处理,得到第二司机语音特征,对所述第一司机语音特征、所述第二司机语音特征和所述原始司机声纹特征进行统计处理,得到更新后的声纹特征。
在一种可能实现方式中,所述更新模块包括:
聚类单元,用于对所述多个第一语音特征进行聚类,得到至少一个第一语音特征簇;
选取单元,用于从所述至少一个第一语音特征簇中,选取满足预设条件的第一司机语音特征簇,所述预设条件用于指示司机在终端上输入的语音数据所满足的条件;
处理单元,用于对所述第一司机语音特征簇中的第一语音特征进行处理,得到所述第一司机语音特征;
所述聚类单元,还用于对所述多个第二语音特征进行聚类,得到至少一个第二语音特征簇;
所述选取单元,还用于从所述至少一个第二语音特征簇中,选取满足所述预设条件的第二司机语音特征簇;
所述处理单元,还用于对所述第二司机语音特征簇中的第二语音特征进行处理,得到所述第二司机语音特征。
在一种可能实现方式中,所述更新模块,用于当所述多个第一语音特征的数量不小于目标数量阈值时,对所述多个第一语音特征进行处理,得到所述第一司机语音特征;
所述更新模块,还用于当所述多个第二语音特征的数量不小于所述目标数量阈值时,对所述多个第二语音特征进行处理,得到所述第二司机声纹特征。
在一种可能实现方式中,所述装置还包括:
提示模块,用于若所述多个第一语音特征的数量小于所述目标数量阈值,且所述多个第二语音特征的数量小于所述目标数量阈值,则发出第一提示信息,所述第一提示信息指示用户身份存疑。
在一种可能实现方式中,所述原始司机声纹特征包括原始电话声纹特征和原始行程声纹特征,所述原始电话声纹特征基于电话语音数据得到,所述原始行程声纹特征基于行程语音数据得到;
所述更新模块,包括:
第一更新单元,用于对所述第一司机语音特征和所述原始电话声纹特征进行统计处理,得到更新后的电话声纹特征;
第二更新单元,用于对所述第二司机语音特征和所述原始行程声纹特征进行统计处理,得到更新后的行程声纹特征。
在一种可能实现方式中,所述第一更新单元,用于当所述第一司机语音特征和所述原始电话声纹特征之间的差异度大于目标差异度阈值时,对所述第一司机语音特征和所述原始电话声纹特征进行统计处理,得到所述更新后的电话声纹特征;
所述第二更新单元,用于当所述第二司机语音特征和所述原始行程声纹特征之间的差异度大于目标差异度阈值时,对所述第二司机语音特征和所述原始行程声纹特征进行统计处理,得到所述更新后的行程声纹特征。
在一种可能实现方式中,所述更新模块,用于将所述第一司机语音特征、所述第二司机语音特征和所述原始司机声纹特征进行平均处理,得到更新后的司机声纹特征。
在一种可能实现方式中,所述装置还包括:
丢弃模块,用于将所述多条语音数据对应的语音特征中,与所述原始司机声纹特征不匹配的语音特征丢弃。
在一种可能实现方式中,所述装置还包括:
所述第一获取模块,还用于获取当前通话过程中录制得到的语音数据;
提示模块,用于当所述语音数据对应的语音特征与更新后的司机声纹特征不匹配时,发出第二提示信息,所述第二提示信息用于指示当前司机不是在终端注册的司机;当所述语音数据对应的语音特征与所述更新后的司机声纹特征匹配时,确定当前司机为在终端注册的司机。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条指令,该至少一条指令由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的声纹特征更新方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的声纹特征更新方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例提供的声纹特征更新方法、装置、计算机设备及存储介质,会从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,对已注册的原始司机声纹特征进行更新,由于用于更新的语音数据是在注册原始司机声纹特征之后获取到的,因此只需获取增量语音数据,无需获取全量语音数据,在保证更新效果的基础上,减少了需要处理的数据的数量,加快了更新速度,并且节约了系统资源。并且,多条语音数据中包括电话语音数据和行程语音数据中的至少一种,而电话语音数据和行程语音数据均是在司机在使用终端时输入的,基于这些语音数据对原始司机声纹特征进行更新,避免了由于外界环境的干扰而导致当前语音数据的语音特征与已注册的司机声纹特征不匹配的问题,能够更加准确地确定当前司机是否为在终端注册的司机,提高了匹配结果的准确性,进而提高了网约车的安全性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种实施环境的示意图;
图2是本发明实施例提供的一种声纹特征更新方法的流程图;
图3是本发明实施例提供的一种声纹特征更新方法的流程图;
图4是本发明实施例提供的一种注册声纹特征方法的流程图;
图5是本发明实施例提供的一种获取语音特征方法的流程图;
图6是本发明实施例提供的一种筛选语音特征方法的流程图;
图7是本发明实施例提供的一种声纹特征更新方法的流程图;
图8是本发明实施例提供的一种聚类方法的流程图;
图9是本发明实施例提供的一种声纹特征更新方法的流程图;
图10是本发明实施例提供的一种声纹特征更新装置结构示意图;
图11是本发明实施例提供的另一种声纹特征更新装置结构示意图;
图12是本发明实施例提供的一种终端的结构示意图;
图13是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供的声纹特征更新方法可以应用于计算机设备中,在一种可能实现方式中,计算机设备可以为手机、电脑、平板电脑等安装有应用的终端。司机在使用终端时可能会生成语音数据,在终端上已有原始司机声纹特征时,终端不仅可以基于原始司机声纹特征对司机输入的语音数据进行识别,确定输入该语音数据的司机是否为在终端注册的司机,终端还可以根据接收到的语音数据对原始司机声纹特征进行更新。其中,原始司机声纹特征为终端上已注册的声纹特征。
在另一种可能实现方式中,计算机设备还可以是与终端上安装的应用相关的服务器。图1是本发明实施例提供的一种实施环境的示意图,参见图1,该实施环境包括:终端101和服务器102。
该终端101可以为手机、电脑、平板电脑等安装有应用或者具有安装应用功能的终端,该服务器102可以是一台服务器,也可以是若干台服务器组成的服务器集群,或者是一个云计算服务中心。
司机在终端101上输入语音数据之后,终端101可以将该语音数据发送至服务器102,服务器102可以根据终端101上传的语音数据对已注册的原始司机声纹特征进行更新。
本发明实施例可以应用于使用网约车应用的场景下,司机在终端上注册了原始司机声纹特征,为了保证乘客的安全,服务器会判断实际搭载乘客的司机是否为在该终端上进行注册的司机。采用本发明实施例提供的方法,在乘客上车之前,司机可能与乘客通过电话联系,终端可以对该通话过程进行录音,得到电话语音数据上传至服务器中。在乘客上车之后,终端还可以获取行程语音数据,将该行程语音数据上传至服务器中。服务器基于终端上传的语音数据,获取在注册原始司机声纹特征之后记录的多条语音数据,该多条语音数据中包括电话语音数据或者行程语音数据中的至少一种;服务器获取该多条语音数据对应的语音特征,基于获取的多个语音特征,更新原始司机声纹特征。之后,服务器可以将司机当前输入的语音数据对应的语音特征与更新后的司机声纹特征进行匹配,确定该司机是否为在该终端上进行注册的司机。
图2是本发明实施例提供的一种声纹特征更新方法的流程图。参见图2,该实施例包括:
201、从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,该多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,该电话语音数据为通话过程中录制得到的语音数据,该行程语音数据为出行订单的进行过程中录制得到的语音数据。
202、获取该多条语音数据对应的语音特征。
203、基于获取的多个语音特征,更新该原始司机声纹特征。
本发明实施例提供的声纹特征更新方法,会从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,对已注册的原始司机声纹特征进行更新,由于用于更新的语音数据是在注册原始司机声纹特征之后获取到的,因此只需获取增量语音数据,无需获取全量语音数据,在保证更新效果的基础上,减少了需要处理的数据的数量,加快了更新速度,并且节约了系统资源。并且,多条语音数据中包括电话语音数据和行程语音数据中的至少一种,而电话语音数据和行程语音数据均是在司机在使用终端时输入的,基于这些语音数据对原始司机声纹特征进行更新,避免了由于外界环境的干扰而导致当前语音数据的语音特征与已注册的司机声纹特征不匹配的问题,能够更加准确地确定当前司机是否为在终端注册的司机,以防止有些司机冒用他人账号,进而提高了网约车的安全性。
图3是本发明实施例提供的一种声纹特征更新方法的流程图,参见图3,本发明实施例以服务器为执行主体为例进行说明,该实施例包括:
301、服务器从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,该多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,电话语音数据为通话过程中录制得到的语音数据,行程语音数据为出行订单的进行过程中录制得到的语音数据。
司机在使用终端时,可能会生成语音数据,终端可以将生成的语音数据存储到历史语音记录中,该历史语音记录可以存储在终端上,后续服务器从终端上获取多条语音数据进行更新。该历史语音记录也可以存储在服务器上,终端在生成语音数据之后,可以实时将语音数据发送至服务器上,也可以每隔预设时长将该预设时长内生成的语音数据发送至服务器,服务器在获取该语音数据之后,将该语音数据存储到历史语音记录中。本发明实施例对历史语音记录的存储位置不做限定。
司机在使用应用时,由于应用提供的功能不同,可能由于该功能的特点,使得司机在使用不同的功能输入语音数据时,与终端的距离可能会不同。在司机与终端的距离不同时,输入的语音数据掺杂的环境中的其他语音数据也不相同,在根据司机当前输入的语音数据,确定该司机是否为在终端上注册的司机时,匹配结果的准确率会较低。因此,可以在注册司机声纹特征之后,基于司机输入的语音数据,对原始司机声纹特征进行更新。
其中,原始司机声纹特征是指本次更新前注册的声纹特征。原始司机声纹特征可以为司机首次注册的声纹特征,该声纹特征可以是司机主动注册的,也可以是终端提示司机注册的,还可以是终端自动注册的。例如,如图4所示,终端提示司机输入语音数据,根据司机输入的语音数据获取该语音数据的语音特征,将该语音特征作为司机声纹特征,保存该司机声纹特征。其中,司机声纹特征是能够确定唯一司机的特征,该司机声纹特征可以为向量形式、矩阵形式或者模型形式等,本发明实施例对司机声纹特征的具体形式不做限定。
原始司机声纹特征还可以是经过一次或多次更新后的司机声纹特征,本发明实施例提供的声纹特征更新方法可以周期性执行,在司机的使用过程中,随着司机输入的语音数据,不断更新注册的司机声纹特征,使得基于声纹特征的匹配越来越精确。
服务器在获取语音数据时,可以获取在注册原始司机声纹特征之后记录的语音数据,来对原始司机声纹特征进行更新,而无需获取历史语音记录中的全部语音数据,由于更新过程可以是周期性循环的,因此只需获取在注册原始司机声纹特征之后记录的语音数据,在减少了需要处理的语音数据的基础上,还能保证更新效果。
其中,历史语音记录中还可以包括语音数据的生成时间,根据语音数据的生成时间,确定该语音数据是否是在注册原始司机声纹特征之后获取的。
考虑到在通过司机声纹特征对司机的身份进行验证时,获取的是司机在网约车应用上输入的语音数据,因此,可以通过获取司机在网约车应用上输入的语音数据,对原始司机声纹特征进行更新。
司机的终端上可以安装有网约车应用,司机在使用网约车应用时,可以生成出行订单,在乘客上车之前,司机会通过电话联系乘客用户,确定乘客的地址信息、乘车人数信息等,终端可以在通话过程中进行录音,还可以将录制的电话语音数据发送至服务器;在乘客上车后,出行订单处于进行状态,终端在出行订单的进行过程中进行录音,还可以将录制的行程语音数据发送至服务器。可选地,为了保证乘客与司机的安全,网约车应用可以自动开启录音功能。
其中,司机与乘客通过电话联系时,由于电话的收音效果较好,并且司机与终端之间的距离较近,获取的电话语音数据中存在的环境声音较少,环境声音对司机声音的干扰也较小。而终端在车辆的行车过程中进行录音时,终端会收集车内的全部声音,获取的语音数据中可能会包括乘客的声音、司机的声音、汽车行驶的声音、风声等。可以认为,这两种语音数据是在不同环境下输入的,且行程语音数据中可以包括多种环境下输入的语音数据。
由于电话语音数据和行程语音数据的特点不同,因此在基于多条语音数据对原始司机声纹特征进行更新时,获取的多条语音数据中包括电话语音数据和行程语音数据的至少一种。
例如,司机在说话的时候,外界环境中存在风声,则终端接收到的语音数据中既包括司机输入的语音数据,也包括与风声相关的语音数据,则在对接收到的语音数据进行特征提取时,提取到的语音特征中既包括与司机相关的特征,也能提取到与风声相关的特征,从而使得在对原始司机声纹特征进行更新时,考虑到了外界环境因素,降低了外界环境因素对匹配结果的影响。
服务器执行上述步骤301的时机可以包括:服务器每隔预设时长执行一次上述步骤301,该预设时长可以为一天、一个月等任一时长,该预设时长可以是系统默认设置的,也可以是由司机设置的。
服务器执行上述步骤301的时机还可以包括:当接收到司机触发的更新指令时,执行上述步骤301。由于环境等因素的影响,可能会造成匹配结果不准确的问题,从而影响终端司机正常使用终端,相应地,终端可以为司机提供相应的更新按钮,当检测到司机对该更新按钮的触发操作时,向服务器发送更新指令,服务器触发更新流程。其中,该触发操作可以是点击操作、触摸操作或者滑动操作等,本发明实施例对触发更新指令的方式不做限定。
其中,服务器获取多条历史语音数据的具体实现方式可以包括:服务器获取原始司机声纹特征的注册时间,从历史语音记录中,获取在注册该原始司机声纹特征之后记录的多条语音数据。其中,多条语音数据可以是在注册该原始司机声纹特征之后,生成的全部的语音数据,也可以是在注册该原始司机声纹特征之后,生成的部分的语音数据。
本发明实施例中,仅是以录制通话过程中的语音数据和录制出行订单的进行过程中的语音数据为例进行说明,当网约车应用提供其他功能,司机在使用该功能时会产生语音数据,还可以获取司机使用该功能输入的语音数据,对原始声纹特征进行更新。
302、服务器获取多条电话语音数据对应的第一语音特征和多条行程语音数据对应的第二语音特征。
语音特征为语音数据的特征,每个人发出的语音数据的语音特征不同,因此,可以基于语音特征来区分不同的人。其中,语音特征可以为向量或者其他形式,本发明实施例对语音特征的具体形式不做限定。
本发明实施例在服务器获取第一语音特征和第二语音特征的具体实现方式进行介绍时,以服务器获取第一语音特征为例进行说明,获取第一语音特征的方式与获取第二语音特征的方式类似,在此不再一一赘述。
服务器可以直接对获取的多条电话语音数据进行处理,得到多条电话语音数据对应的第一语音特征,其具体过程可以包括:将电话语音数据输入至语音特征提取模型,获取该语音特征提取模型输出的语音特征,该语音特征为该电话语音数据对应的第一语音特征。依次将多条电话语音数据输入至语音特征提取模型,获取到每条电话语音数据对应的第一语音特征。该语音特征提取模型可以为i-vector(identity-vector,身份向量)声学模型、x-vector(x向量)声学模型等任一能够提取语音特征向量的模型。
其中,语音特征提取模型可以通过样本训练得到,其训练过程可以为:准备大量的语音数据,根据这些语音数据的MFCC(Mel-Frequency Cepstrum Coefficients,梅尔频率倒谱系数)对这些语音数据进行标注,将标注后的语音数据输入至声学模型中进行训练,得到训练完成的语音特征提取模型。
另外,在一种可能实现方式中,服务器还可以先对多条电话语音数据进行预处理,得到处理后的多条电话语音数据,获取处理后的多条电话语音数据对应的语音特征。即上述步骤302可以包括步骤3021和步骤3022。
3021、对多条电话语音数据进行预处理,可以包括以下至少一个步骤:
(1)当电话语音数据为双声道语音数据时,将电话语音数据进行分离处理,得到左声道语音数据和右声道语音数据,其中,左声道语音数据和右声道语音数据均为单声道语音数据。
(2)对多条电话语音数据进行切分,得到包含目标帧数的多个电话语音数据片段。
其中,对多条电话语音数据进行切分的过程可以包括:通过包含固定帧数的窗口对电话语音数据进行分帧处理,本发明实施例对切分的具体方式不做限定。
(3)对多条电话语音数据进行筛选,过滤掉无效语音数据,该无效语音数据可以为噪声数据、静音数据等。
(4)建立每个电话语音数据与该电话语音数据的描述信息的对应关系,该描述信息可以为电话语音数据的生成时间信息等。在一种可能实现方式中,建立每个电话语音数据与该电话语音数据的描述信息的对应关系的具体方式可以为:基于该电话语音数据的描述信息,为该电话语音数据进行编号。例如,当该电话语音数据的生成时间为2015年7月3号12点18分,该电话语音数据的编号可以为201507031218。
其中,预处理过程可以包括上述任意一个或者多个步骤,本发明实施例对预处理的具体过程不做限定。在一种可能实现方式中,服务器对多条电话语音数据进行预处理的过程包括上述4个步骤:当多条电话语音数据中包括双声道的电话语音数据时,将双声道的电话语音数据进行分离处理,得到两个单声道的电话语音数据,该两个单声道的电话语音数据为左声道语音数据和右声道语音数据。将多条单声道的电话语音数据进行切分,得到包含目标帧数的多个电话语音数据片段,对多个电话语音数据进行筛选,将无效语音片段丢弃。根据每个电话语音数据的描述信息,建立每个电话语音数据片段与所属的电话语音数据的描述信息的对应关系。
3022、服务器获取多条处理后的电话语音数据对应的语音特征。
以处理后的电话语音数据为通过上述4个步骤进行处理得到的电话语音数据片段为例进行说明,如图5所示,服务器将多个电话语音数据片段依次输入至语音特征提取模型,获取该语音特征提取模型输出的电话语音数据片段对应的语音特征。
需要说明的是,服务器在获取语音特征时,可以先获取电话语音数据对应的第一语音特征,也可以先获取行程语音数据对应的第二语音特征,还可以同时获取电话语音数据对应的第一语音特征和行程语音数据对应的第二语音特征。本发明实施例对获取第一语音特征和第二语音特征的顺序不做限定。
需要说明的是,在本发明实施例中,在获取多条语音数据对应的语音特征时,可以是分别对多条语音数据中的电话语音数据和行程语音数据进行处理,还可以是直接获取多条语音数据对应的语音特征,得到的语音特征中不区分第一语音特征和第二语音特征。
303、服务器将获取到的多个第一语音特征和多个第二语音特征中,与原始司机声纹特征不匹配的语音特征丢弃。
由于电话语音数据和行程语音数据中除了包括司机的声音之外,可能还包括乘客的声音、以及外界环境的声音等,因此,可以将第一语音特征和第二语音特征,分别与原始司机声纹特征进行匹配,得到多个第一语音特征和多个第二语音特征中,属于司机的语音特征,进而基于属于司机的语音特征对原始司机声纹特征进行更新。
其中,步骤303的实现方式可以包括以下步骤:如图6所示,服务器将每个第一语音特征与原始司机声纹特征进行对比,当第一语音特征与原始司机声纹特征匹配时,将该第一语音特征保留,当第一语音特征与原始司机声纹特征不匹配时,将该第一语音特征丢弃;服务器将每个第二语音特征与原始司机声纹特征进行对比,当第二语音特征与原始司机声纹特征匹配时,将该第二语音特征保留,当第二语音特征与原始司机声纹特征不匹配时,将该第二语音特征丢弃。
在一种可能实现方式中,服务器获取每个第一语音特征和原始司机声纹特征的相似度,将相似度小于目标相似度阈值的第一语音特征丢弃;获取每个第二语音特征和原始司机声纹特征的相似度,将相似度小于目标相似度阈值的第二语音特征丢弃。
其中,服务器获取每个第一语音特征和原始司机声纹特征的相似度的具体实现方式可以包括:将原始司机声纹特征和第一语音特征(或第二语音特征)输入至概率线性鉴别分析(Probabilistic Linear Discriminant Analysis,PLDA)得分模型中,通过该PLDA得分模型获取第一语音特征(或第二语音特征)的分值,其中,第一语音特征(或第二语音特征)与原始司机声纹特征的相似度越高,该第一语音特征(或第二语音特征)的分值越高,也即,该分值可以用于表示第一语音特征(或第二语音特征)与原始司机声纹特征的相似度。
另外,原始司机声纹特征还可以包括原始电话声纹特征和原始行程声纹特征,原始电话声纹特征基于电话语音数据得到,原始行程声纹特征基于行程语音数据得到。在一种可能实现方式中,如图6所示,服务器将每个第一语音特征与原始电话声纹特征进行对比,当第一语音特征与原始电话声纹特征匹配时,将该第一语音特征保留,当第一语音特征与原始电话声纹特征不匹配时,将该第一语音特征丢弃;服务器将每个第二语音特征与原始行程声纹特征进行对比,当第二语音特征与原始行程声纹特征匹配时,将该第二语音特征保留,当第二语音特征与原始行程声纹特征不匹配时,将该第二语音特征丢弃。
其中,基于原始电话声纹特征筛选多个第一语音特征的方式、基于原始行程声纹特征筛选多个第二语音特征的方式均与基于原始司机声纹特征筛选多个第一语音特征和多个第二语音特征的方式类似,在此不再一一赘述。
在基于原始司机声纹特征筛选获取到的第一语音特征和第二语音特征之后,可以基于剩余的第一语音特征的数量和第二语音特征的数量,来确定是否继续进行更新。在一种可能实现方式中,如图7所示,当剩余的至少一个第一语音特征的数量不小于目标数量阈值时,或者,当剩余的至少一个第二语音特征的数量不小于目标数量阈值时,基于剩余的至少一个第一语音特征和至少一个第二语音特征,更新原始司机声纹特征。若剩余的至少一个第一语音特征的数量小于目标数量阈值,且剩余的至少一个第二语音特征的数量小于目标数量阈值,服务器可以发出第一提示信息,停止更新原始司机声纹特征,该第一提示信息指示用户身份存疑。
其中,至少一个第一语音特征或至少一个第二语音特征的数量小于目标数量阈值,可能是由于司机输入的语音数据较少,使得至少一个第一语音特征或至少一个第二语音特征的数量较少,还有可能是由于输入语音数据的司机不是在终端注册的司机,从而使得至少一个第一语音特征的数量较少。因此,至少一个第一语音特征的数量和至少一个第二语音特征均小于目标数量阈值时,服务器可以发出第一提示信息,该第一提示信息指示用户身份存疑。
在一种可能实现方式中,服务器可以将该第一提示信息发送至终端,由当前司机基于该第一提示信息对终端进行管理。当前司机可以根据自身使用终端输入语音数据的情况,确定是否是输入的语音数据较少。当前司机为在终端上注册的司机时,可以重新输入语音数据,由服务器对该语音数据进行验证。
在另一种可能实现方式中,服务器可以将该第一提示信息发送至管理终端,由管理终端对该司机的身份进行验证,例如,管理终端向终端发送验证请求、要求终端再次进行身份验证,或者,管理人员根据服务器获取的多条电话语音数据、多条行程语音数据以及注册原始司机声纹特征的语音数据,人工确定该司机是否为在终端上注册的司机等,本发明实施例对管理终端验证司机身份的具体方式不做限定。
另外,服务器在确定至少一个第一语音特征的数量和至少一个第二语音特征的数量均小于目标数量阈值之后,还可以开启对该用户身份的验证过程,该验证过程可以包括:服务器获取该用户最新输入的语音数据,基于原始司机声纹特征,对该语音数据进行分析,当该语音数据对应的语音特征与原始司机声纹特征匹配时,确定该司机为在终端上注册的司机;当该语音数据对应的语音特征与原始司机声纹特征不匹配时,确定该司机不是在该终端上注册的司机。
例如,服务器上安装有网约车应用,服务器在获取到司机的电话语音数据和行程语音数据后,获取电话语音数据对应的第一语音特征和行程语音数据对应的第二语音特征,当获取的多个第一语音特征和多个第二语音特征中,与原始司机声纹特征匹配的语音特征较少时,说明实际使用该终端的司机可能与在终端上进行注册的司机不是同一人,为了保证乘客用户的安全,服务器可以向管理终端发送第一提示信息,管理终端在接收到第一提示信息后,向终端发送身份验证请求,只有在终端通过身份验证请求之后,当前司机才可以继续使用终端。或者,服务器获取该司机当前输入的语音数据,根据该语音数据确定该司机与在终端上进行注册的司机是否为同一人,当不是同一人时,服务器还可以向乘客终端发送第二提示信息,通过第二提示信息告知乘客该司机与在终端上进行注册的司机不是同一人,提醒乘客注意安全。
304、服务器对剩余的至少一个第一语音特征和至少一个第二语音特征分别进行聚类,得到至少一个第一语音特征簇和至少一个第二语音特征簇。
其中,服务器对剩余的至少一个第一语音特征和至少一个第二语音特征分别进行聚类,得到至少一个第一语音特征簇和至少一个第二语音特征簇的具体方式可以包括:对多个第一语音特征进行聚类,得到至少一个第一语音特征簇,对多个第二语音特征进行聚类,得到至少一个第二语音特征簇。
其中,服务器对多个第一语音特征进行聚类的具体方式可以包括:如图8所示,计算每两个语音特征之间的距离,根据每两个语音特征之间的距离可以确定语音特征的分布密度,按照该分布密度,对多个第一语音特征进行聚类,得到至少一个第一语音特征簇,将与每个第一语音特征簇的簇中心的距离值超过目标距离阈值的第一语音特征丢弃。
在另一种可能实现方式中,服务器对多个第一语音特征进行聚类的具体方式可以包括:随机选定K个中心,对每个中心点执行下述步骤:计算每个第一语音特征与该中心的距离,对于每个第一语音特征,通过该第一语音特征与中心点的距离,将这个第一语音特征分类到与其距离最短的中心点所在的第一语音特征簇中。对于每一个第一语音特征簇,获取该第一语音特征簇中所有第一语音特征的向量均值,将该向量均值作为该第一语音特征簇新的簇中心;基于新的簇中心,将与新的簇中心距离超过目标距离阈值的第一语音特征丢弃,得到新的第一语音特征簇,之后,重复执行基于新的第一语音特征簇,重新确定簇中心,将与新的簇中心距离超过目标距离阈值的第一语音特征丢弃的过程,直至簇中心不再变化或者重复次数达到目标次数。
其中,上述获取距离时可以采用的算法包括:PLDA得分算法、欧式距离算法、余弦距离算法等任一种能够计算相似度距离的算法。本发明实施例对计算相似度距离的方式不做限定。
需要说明的是,服务器对至少一个第二语音特征进行聚类的方式与服务器对至少一个第一语音特征进行聚类的方式类似,在此不再一一赘述。
需要说明的是,服务器在对多条语音数据对应的语音特征进行聚类时,可以不区分第一语音特征和第二语音特征,对多条语音数据的语音特征一起进行聚类处理。在一种可能实现方式中,服务器对多个语音特征进行聚类,得到至少一个语音特征簇,从至少一个语音特征簇中,选取满足预设条件的司机语音特征簇,该司机语音特征簇中包括至少一个第一语音特征和至少一个第二语音特征。
在另一种可能实现方式中,服务器对多个语音特征进行聚类得到至少两个语音特征簇,从至少两个语音特征簇中,选取满足预设条件的第一司机语音特征簇和第二司机语音特征簇,其中,第一司机语音特征簇中包括至少一个第一语音特征,第二司机语音特征簇中包括至少一个第二语音特征。
需要说明的是,在本发明实施例中仅是以执行步骤303为例,对获取的多条语音数据的语音特征进行筛选为例进行说明,而在另一实施例中,服务器还可以不执行步骤303,在执行完步骤302之后,直接执行步骤304。在步骤304中,可以对多条语音数据对应的语音特征进行聚类,从而将司机的语音特征和其他语音特征区分开来。
305、服务器从至少一个第一语音特征簇和至少一个第二语音特征簇中,选取满足预设条件的第一司机语音特征簇和第二司机语音特征簇。
其中,预设条件用于指示在终端上已注册的司机在终端上输入的语音数据所满足的条件。
服务器获取的多条电话语音数据中包括司机的语音数据,还可能包括其他语音源的语音数据。例如,服务器获取的多条电话语音数据为终端上的电话录音,该电话录音中不仅包括司机的语音数据,还包括与该司机进行通话的联系人的语音数据,并且,如果司机多次与该联系人进行通话,且该联系人的声音与该司机的声音比较相像,则基于原始司机声纹特征筛选后的至少一个第一语音特征中可能包括该联系人的语音特征。因此,需要对至少一个第一语音特征簇进行筛选,才能得到司机的语音数据对应的第一语音特征簇。
其中,服务器从至少一个第一语音特征簇中选取满足预设条件的至少一个第一语音特征簇的过程可以包括以下至少一个步骤:
(1)第一语音特征簇中的第一语音特征数目最大。
由于电话语音数据中可能除了包括司机的语音数据之外,还包括其他语音源的语音数据,但是由于其他语音源的语音数据数量较少,因此,其对应的语音特征的数量也较少。服务器可以获取每个第一语音特征簇的语音特征数目,从至少一个第一语音特征簇中,选取第一语音特征数目最大的第一语音特征簇,作为第一司机语音特征簇。
(2)第一语音特征簇中的每个第一语音特征与第一语音特征簇的簇中心之间的距离之和最小。
若第一语音特征簇中的每个第一语音特征与第一语音特征簇的簇中心之间的距离之和越大,则该第一语音特征簇中可能包括距离簇中心较远的第一语音特征,也即,该第一语音特征簇中的多个第一语音特征的相似度较低,聚类效果较差,因此,可以从至少一个第一语音特征簇中,选取每个第一语音特征与第一语音特征簇的簇中心之间的距离之和最小的第一语音特征簇,作为第一司机语音特征簇。
(3)第一语音特征簇的语音特征密度最大。
若第一语音特征簇的语音特征密度越小,则说明该第一语音特征簇中的数量不够多,相似度也不够高,该第一语音特征簇的聚类效果较差。因此,服务器可以从至少一个第一语音特征簇中,选取语音特征密度最大的第一语音特征簇,作为第一司机语音特征簇。
(4)从筛选后的至少一个第一语音特征簇中选取满足时间分布条件的语音特征簇,作为该第一司机语音特征簇,该时间分布条件为第一司机语音特征簇的时间段数目大于其他第一语音特征簇的时间段数目,该第一语音特征簇的时间段为该第一语音特征簇中的第一语音特征对应的电话语音数据的生成时间所属的时间段。
由于司机在使用终端的过程中,会在多个时刻生成语音数据,服务器在获取电话语音数据中,可能会包括多个时刻生成的司机的语音数据,还包括某个时刻生成的其他用户的语音数据。例如,司机上午通过电话联系第一联系人,服务器通过获取电话录音,获取到了司机的语音数据和第一联系人的语音数据。司机下午通过电话联系第二联系人,服务器通过获取电话录音,获取到了司机的语音数据和第二联系人的语音数据。由此可知,服务器获取的多条电话语音数据中司机的语音数据的生成时间段较多,其他用户的语音数据的生成时间段较少。
服务器在对电话语音数据进行预处理时,已经建立了电话语音数据与描述信息的对应关系或者电话语音数据片段与描述信息的对应关系,并且无论建立了哪种对应关系,都可以根据该对应关系确定该语音特征簇中语音特征对应的描述信息,该描述信息中包括生成时间信息。其中,确定第一语音特征对应的描述信息的过程可以包括:根据第一语音特征可以确定第一语音特征对应的电话语音数据,获取该电话语音数据对应的描述信息,该描述信息为该第一语音特征对应的描述信息。确定第一语音特征对应的描述信息的过程还可以包括:根据第一语音特征,确定该第一语音特征对应的电话语音数据片段,获取该电话语音数据片段对应的描述信息,该描述信息为第一语音特征对应的描述信息。
对于任一个第一语音特征簇,可以获取该第一语音特征簇中每个第一语音特征的描述信息,基于每个第一语音特征的描述信息,可以确定该第一语音特征簇中第一语音特征的生成时间信息。在一种可能实现方式中,基于第一类历史语音数据或者第一类历史语音数据片段的编号,确定第一语音特征簇中第一语音特征的生成时间信息,基于每个第一语音特征的生成时间信息,确定该生成时间信息所属的时间段,从而获取每个第一语音特征簇对应的时间段数目。
在获取每个第一语音特征簇对应的时间段数目之后,将时间段数目最大的第一语音特征簇作为第一司机语音特征簇,在一种可能实现方式中,根据每个第一语音特征簇的时间段数目,按照从大到小的顺序,对至少一个第一语音特征簇进行排序,选取位于第一位的第一语音特征簇,作为第一司机语音特征簇。
需要说明的是,本发明实施例仅是以上述四个步骤对满足预设条件进行说明,在一些实施例中,满足预设条件还可以是语音特征簇中的每个语音特征的得分方差小于预设和值,本发明实施例对预设条件的具体内容不做限定,本发明实施例只需保证筛选出的司机语音特征簇是属于司机的,上述条件可以任选一种或者多种组合。
需要说明的是,由于已经将多个第一语音特征(或多个第二语音特征)与原始司机声纹特征进行了对比,筛选掉了与原始司机声纹特征不匹配的第一语音特征(或第二语音特征),保证了剩余的语音特征属于司机,因此,上述步骤304至步骤305为可选执行步骤,可以根据实际应用情况选择执行或者不执行。
306、服务器根据第一司机语音特征簇中的第一语音特征和第二司机语音特征簇中的第二语音特征,更新原始语音特征。
其中,上述步骤306的具体实现方式可以包括:服务器从第一司机语音特征簇中选取至少一个第一语音特征,从第二司机语音特征簇中选取至少一个第二语音特征,基于至少一个第一语音特征和至少一个第二语音特征,更新原始司机声纹特征。
在一种可能实现方式中,服务器对第一司机语音特征簇中的第一语音特征进行处理,得到第一司机语音特征,服务器对第二司机语音特征簇中的第二语音特征进行处理,得到第二司机语音特征,服务器对第一司机语音特征、第二司机语音特征和原始司机声纹特征进行统计处理,得到更新后的司机声纹特征。
其中,服务器对第一司机语音特征簇中的第一语音特征进行处理,得到第一司机语音特征,对第二司机语音特征簇中的第二语音特征进行处理,得到第二司机语音特征的可以包括以下两种实现方式:
(1)服务器从第一司机语音特征簇中选取多个第一语音特征,将多个第一语音特征合并为一个语音特征,作为第一司机语音特征,该多个第一语音特征可以为第一司机语音特征簇中的全部第一语音特征,也可以是第一司机语音特征簇中的部分第一语音特征。其中,若选取部分第一语音特征进行合并,则可以选择与原始司机声纹特征最匹配的目标数目的语音特征。
其中,在将多个第一语音特征合并为一个语音特征的过程可以包括:服务器对该多个第一语音特征进行平均处理,得到该多个第一语音特征的平均向量,将该平均向量作为第一司机语音特征。可选的,在得到平均向量之后,还可以对平均向量进行向量长度的归一化处理,将得到的归一化向量作为第一司机语音特征。
其中,服务器得到第二司机语音特征的方式可以与上述方式类似,在此不再一一赘述。
(2)服务器从第一司机语音特征簇中选取一个第一语音特征,该第一语音特征为第一司机语音特征簇中与原始司机声纹特征最匹配的第一语音特征。此时将该第一语音特征作为第一司机语音特征,或者还可以将第一语音特征进行向量长度的归一化处理,将得到的归一化向量作为第一司机语音特征。
其中,服务器得到第二司机语音特征的方式可以与上述方式类似,在此不再一一赘述。
服务器对第一司机语音特征、第二司机语音特征和原始司机声纹特征进行统计处理,得到更新后的声纹特征,可以包括以下六种实现方式:
(1)当原始司机声纹特征中只有一个声纹特征时,将第一司机语音特征、第二司机语音特征和原始司机声纹特征进行平均处理。
其中,语音特征可以为向量形式或者其他形式,声纹特征可以为向量形式、矩阵形式或者模型形式,本发明实施例对语音特征和声纹特征的具体形式不做限定。
当第一司机语音特征、第二司机语音特征和原始司机声纹特征均为向量形式时,可以将第一司机语音特征、第二司机语音特征和原始司机声纹特征进行向量平均处理。
由于服务器根据更新后的声纹特征对后续用户输入的语音数据进行识别分析时,更新后的声纹特征的向量长度与用户输入语音数据对应的语音特征的向量长度不同时,可能会影响到识别分析的结果,因此,服务器还可以将平均向量做向量长度的归一化处理,在提取用户输入的语音数据的语音特征后,也将该语音特征做向量长度的归一化处理,这样可以避免向量长度不同对识别分析结果的影响。
可选的,在第一司机语音特征、第二司机语音特征和原始司机声纹特征进行平均处理之前,先将第一司机语音特征、第二司机语音特征和原始司机声纹特征先进行向量长度的归一化处理,以保证第一司机语音特征、第二司机语音特征和原始司机声纹特征的向量长度一致。
(2)当原始司机声纹特征中只有一个声纹特征时,服务器将第一司机语音特征、第二司机语音特征和原始司机声纹特征合并为一个声纹特征,作为更新后的司机声纹特征。
可选地,该原始司机声纹特征可以为矩阵形式,该当原始声纹矩阵为矩阵形式时,可以将第一司机语音特征、第二司机语音特征和原始司机声纹特征合并为一个新的矩阵,该矩阵为更新后的司机声纹特征。
(3)当原始司机声纹特征中只有一个声纹特征时,服务器删除原始司机声纹特征,将第一司机语音特征注册为电话声纹特征,将第二司机语音特征注册为行程声纹特征。后续,服务器根据电话声纹特征和行程声纹特征对用户输入的语音数据进行分析。
(4)当原始司机声纹特征中只有一个声纹特征时,服务器保持原始司机声纹特征不变,将第一司机语音特征注册为电话声纹特征,将第二司机语音特征注册为行程声纹特征。后续,服务器可以根据原始司机声纹特征、电话声纹特征和行程声纹特征对用户输入的语音数据进行分析。
(5)当原始司机声纹特征中包括原始电话声纹特征和原始行程声纹特征时,服务器对第一司机语音特征和原始电话声纹特征进行统计处理,得到更新后的电话声纹特征,对第二司机语音特征和原始行程声纹特征进行统计处理,得到更新后的行程声纹特征。
其中,统计处理可以包括平均处理、求和处理、分组处理等,本发明实施例对统计处理不做限定。
其中,服务器对第一司机语音特征和原始电话声纹特征进行统计处理可以包括:服务器对第一司机语音特征和原始电话声纹特征进行平均处理,得到更新后的电话声纹特征。
在一种可能实现方式中,第一司机语音特征和原始电话司机声纹特征为向量形式,将第一司机语音特征和原始电话声纹特征进行平均处理,得到一个平均向量,将该平均向量作为更新后的电话声纹特征。当第一司机语音特征和原始电话声纹特征的向量长度不一致时,还可以先将第一司机语音特征和原始行程声纹特征进行向量长度的归一化处理,再进行平均处理。
其中,服务器对第二司机语音特征和原始行程声纹特征进行统计处理的方式与服务器对第一司机语音特征和原始电话司机声纹特征进行统计处理的方式类似,在此不再一一赘述。
(6)当原始司机声纹特征中包括原始电话声纹特征和原始行程声纹特征时,服务器将第一司机语音特征作为更新后的电话声纹特征,将第二司机语音特征作为更新后的行程声纹特征。
另外,在一些实施例中,声纹特征还可以为模型形式,服务器将第一司机语音特征簇中的第一语音特征和第二司机语音特征簇中的第二语音特征,作为训练样本,训练原始司机声纹特征,得到更新后的声纹特征。其中,服务器可以将第一司机语音特征簇中的全部第一语音特征和第二司机语音特征簇中的全部第二语音特征,作为训练样本;也可以选取部分第一语音特征和第二语音特征,作为训练样本;还可以对至少一个第一语音特征进行处理,得到第一司机语音特征,对至少一个第二语音特征进行处理,得到第二司机语音特征,将第一司机语音特征和第二司机语音特征作为训练样本,更新原始司机声纹特征。
其中,服务器在基于至少一个第一语音特征和至少一个第二语音特征对原始司机声纹特征进行更新时,只需保证更新后的语音特征考虑了环境、远近声差异等因素,使得匹配结果越来越准确即可,本发明实施例对具体的更新方式不做限定。
服务器在基于第一司机语音特征、第二司机语音特征更新原始司机声纹特征时,可以直接更新,也可以在满足一定的条件之后更新。在一种可能实现方式中,如图7所示,若第一司机声纹特征或者第二司机声纹特征与原始司机声纹特征之间的差异度大于目标差异阈值,则服务器可以基于第一司机声纹特征和第二司机声纹特征,更新原始司机声纹特征。若第一司机声纹特征与原始司机声纹特征之间的差异度和第二司机声纹特征与原始司机声纹特征之间的差异度均不大于目标差异阈值,保持原始司机声纹特征不变。
当原始司机声纹特征包括原始电话声纹特征和原始行程司机声纹特征时,更新原始司机声纹特征的具体实现方式可以包括:当第一司机语音特征和原始电话声纹特征之间的差异度大于目标差异度阈值时,对第一司机语音特征和原始电话声纹特征进行统计处理,得到更新后的电话声纹特征;当第二司机语音特征和原始行程声纹特征之间的差异度大于目标差异度阈值时,对第二司机语音特征和原始行程声纹特征进行统计处理,得到更新后的行程声纹特征。
当第一司机语音特征和原始电话声纹特征之间的差异度不大于目标差异度阈值时,则说明第一司机语音特征与原始电话声纹特征相似程度较高,即便基于第一司机语音特征进行更新,更新后的电话声纹特征与原始电话声纹特征的差异也很小,不会对匹配结果造成影响,因此,当第一司机语音特征和原始电话声纹特征之间的差异度不大于目标差异度阈值时,可以不对原始电话声纹特征进行更新。基于第二司机语音特征更新原始行程司机声纹特征的方式与基于第一司机语音特征更新原始电话司机声纹特征的方式类似,在此不再一一赘述。
其中,由于步骤304至步骤305为可选执行步骤,可以不执行步骤304至步骤305,在另一实施例中,在执行步骤303之后,直接执行步骤306,也即在将多个第一语音特征和多个第二语音特征中,与原始司机声纹特征不匹配的语音特征丢弃后,基于剩余的至少一个第一语音特征和至少一个第二语音特征,更新原始司机声纹特征。
在一种可能实现方式中,对剩余的至少一个第一语音特征进行处理,得到第一司机语音特征;对剩余的至少一个第二语音特征进行处理,得到第二司机语音特征,对第一司机语音特征、第二司机语音特征和原始司机声纹特征进行统计处理,得到更新后的声纹特征。
其中,对剩余的至少一个第一语音特征(或第二语音特征)进行处理之前,可以基于至少一个第一语音特征(或第二语音特征)的数量,确定是否对至少一个第一语音特征(或第二语音特征)进行处理。例如,当至少一个第一语音特征的数量小于目标数量阈值,且至少一个第二语音特征的数量小于目标数量阈值时,不对至少一个第一语音特征进行处理,对至少一个第二语音特征进行处理,得到第二司机语音特征,基于第二司机语音特征,更新原始司机声纹特征。
另外,在步骤304中,服务器还可以对多个语音特征进行聚类,得到至少一个语音特征簇,从至少一个语音特征簇中,选取满足预设条件的司机语音特征簇,该司机语音特征簇中包括至少一个第一语音特征和至少一个第二语音特征。服务器可以基于该司机语音特征簇中的至少一个语音特征来更新原始司机声纹特征,其中,基于语音特征簇中的至少一个语音特征来更新原始司机声纹特征的方法与上述方法类似,在此不再一一赘述。
307、服务器从终端获取用户输入的语音数据。
上述步骤307可以是在获取更新后的声纹特征之后,使用该更新后的声纹特征的步骤。
终端在接收到司机输入的语音数据后,会将该语音数据上传至服务器中,服务器可以对终端上传的语音数据进行分析,确定该语音数据是否为在该终端上进行注册的司机的语音数据。
其中,服务器在对终端上传的语音数据进行分析时,可以对所有终端上传的语音数据进行分析,也可以是按照一定条件选取部分终端上传的语音数据进行分析。
在一种可能实现方式中,服务器按照一定条件选取部分终端上传的语音数据进行分析可以包括:服务器从当前上传语音数据的终端中,按照司机的使用频率,选取目标数目的终端,对该目标数目的终端上传的语音数据进行分析,该目标数目的终端对应的使用频率高于其他终端对应的使用频率,或者该目标数目的终端对应的使用频率低于其他终端对应的使用频率。
另外,服务器按照一定条件选取部分终端上传的语音数据进行分析还可以包括:服务器从当前上传语音数据的终端中,随机选取目标数目的终端,对该目标数目的终端上传的语音数据进行分析。
另外,终端上传的语音数据可以是司机当前输入的语音数据,这样服务器能够实时对司机的身份进行监控。
另外,服务器获取司机输入的语音数据时,可以获取司机输入的电话语音数据。在一种可能实现方式中,获取用户当前通话过程中录制得到的语音数据。由于通过过程中是司机与其他联系人进行交流,因此该语音数据中一定包括该司机输入的语音数据,因此对语音数据进行匹配,获取的匹配结果更加准确。
308、服务器确定该语音数据对应的语音特征与更新后的司机声纹特征是否匹配。
在获取到司机输入的语音数据之后,可以提取该语音数据对应的语音特征,其中,提取语音特征的方式与步骤302类似,确定语音数据对应的语音特征与更新后的司机声纹特征是否匹配的方式与步骤303类似,在此不再一一赘述。
309、当该语音数据对应的语音特征与更新后的声纹特征不匹配时,服务器发出第二提示信息,该第二提示信息用于指示该当前司机不是在终端上注册的司机。
其中,服务器发出第二提示信息时可以是将第二提示信息发送至司机终端,可以是将第二提示信息发送至管理终端,还可以是将第二提示信息发送至其他用户终端。
在一种可能实现方式中,服务器将第二提示信息发送至司机终端,司机通过在终端上查看第二提示信息,可以确定语音数据验证失败,此时,司机可以主动发起更新声纹特征的流程。
在另一种可能实现方式中,服务器将第二提示信息发送至管理终端,管理终端在接收到第二提示信息之后,可以向司机终端发送验证请求,在验证请求通过之后,司机终端才可正常使用。
在另一种可能实现方式中,服务器将第二提示信息发送至其他用户终端。其中,其他用户终端可以是与该司机具有关联关系的终端。
例如,司机为了防止终端或者账号被窃用,可以与其他用户终端建立绑定关系,当司机终端发生异常时,可以将第二提示信息发送至其他用户终端,其他用户在查看第二提示信息之后,可以将第二提示信息转告给司机,避免了司机终端丢失之后,司机无法接收到第二提示信息的缺陷。
若语音数据对应的语音特征与更新后的声纹特征不匹配,则说明该司机与注册的司机不是同一人,可能是该司机冒用他人账号,在一种可能实现方式中,服务器可以将第二提示信息发送至乘客用户的终端,对乘客用户进行提醒。
另外,需要说明的是,司机在使用终端的某个功能时,可能会使终端获取到语音数据,例如,司机使用终端的注册功能,注册司机声纹特征,终端会获取司机输入的语音数据,根据该语音数据获取对应的司机声纹特征。司机使用终端的通话功能时,终端可以在司机的通话过程中进行录音,得到电话录音。后续,在对司机输入的语音数据进行分析时,可能是基于注册的司机声纹特征对电话录音中的电话语音数据进行分析,但是在使用终端的注册功能时获取的语音数据和在使用终端的通话功能时获取的语音数据可能存在差异,从而导致匹配失败的问题。
因此,若后续需要对使用通话功能获取的语音数据进行匹配时,可以基于通话功能获取的电话语音数据对已注册的司机声纹特征进行更新,以使得匹配结果更加准确,本实施例仅是以注册功能和通话功能为例进行说明,在一些实施例中,还可以是录音功能等,本发明实施例对具体的更新方式不做限定。
需要说明的是,本发明实施例仅是以服务器为一个整体为例进行说明,在另一实施例中,该服务器可以包括多个模块,通过多个模块相互配合完成声纹特征的更新。
在一种可能实现方式中,服务器包括注册模块、特征提取模块、匹配模块、聚类模块和更新模块。如图9所示,注册模块用于提示司机输入语音数据,获取该语音数据对应的语音特征,作为司机声纹特征,将该司机声纹特征保存到司机声纹特征数据库中。特征提取模块用于获取多条电话语音数据和多条行程语音数据,并对该数据进行预处理,之后,将预处理后的数据输入至语音特征提取模型获取对应的第一语音特征和第二语音特征。匹配模块用于从获取的多个第一语音特征和多个第二语音特征中,获取与原始司机声纹特征匹配的至少一个第一语音特征和至少一个第二语音特征。聚类模块用于将至少一个第一语音特征和至少一个第二语音特征进行聚类,按照预设条件筛选出第一司机语音特征簇和第二司机语音特征簇。声纹更新模块用于根据第一司机语音特征簇中的第一语音特征生成第一司机声纹特征,根据第二司机语音特征簇中的第二语音特征生成第二司机声纹特征,基于第一司机声纹特征和第二司机声纹特征更新原始司机声纹特征,将更新后的司机声纹特征存储到司机声纹特征数据库中。
另外,由于本发明实施例是以服务器为执行主体,历史语音记录和原始司机声纹特征均可以保存在服务器中,因此,当用户更换终端之后,不会影响用户的正常使用,并且,若用户更换终端之后,由于终端不同,可能会存在终端收音效果不同的问题,从而导致后续语音数据匹配失败,而使用本发明实施例提供的更新方法的话,在用户更换终端之后,服务器会基于更换后终端上传的语音数据来更新司机声纹特征,从而避免了由于更换终端造成的语音数据匹配失败的问题。
本发明实施例提供的声纹特征更新方法,会从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,对已注册的原始司机声纹特征进行更新,由于用于更新的语音数据是在注册原始司机声纹特征之后获取到的,因此只需获取增量语音数据,无需获取全量语音数据,在保证更新效果的基础上,减少了需要处理的数据的数量,加快了更新速度,并且节约了系统资源。并且,多条语音数据中包括电话语音数据和行程语音数据中的至少一种,而电话语音数据和行程语音数据均是在司机在使用终端时输入的,基于这些语音数据对原始司机声纹特征进行更新,避免了由于外界环境的干扰而导致当前语音数据的语音特征与已注册的司机声纹特征不匹配的问题,能够更加准确地确定当前司机是否为在终端注册的司机,以防止有些司机冒用他人账号,进而提高了网约车的安全性。
图10是本发明实施例提供的声纹特征更新装置结构示意图,参见图10,该装置包括:第一获取模块1001、第二获取模块1002和更新模块1003。
第一获取模块1001,用于从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,电话语音数据为通话过程中录制得到的语音数据,行程语音数据为出行订单的进行过程中录制得到的语音数据;
第二获取模块1002,用于获取多条语音数据对应的语音特征;
更新模块1003,用于基于获取的多个语音特征,更新原始司机声纹特征。
如图11所示,在一种可能实现方式中,装置还包括:
分离模块1004,用于对于多条语音数据中的任一语音数据,当语音数据为双声道语音数据时,将语音数据进行分离处理,得到左声道语音数据和右声道语音数据;或者,
切分模块1005,用于对每条语音数据进行切分,得到包含目标帧数的多个语音数据片段;或者,
筛选模块1006,用于对每条语音数据进行筛选处理,过滤掉多条语音数据中的无效语音数据,无效语音数据包括噪声数据或者静音数据中的至少一项。
在一种可能实现方式中,第二获取模块1002,用于当多条语音数据中包括电话语音数据时,获取电话语音数据对应的第一语音特征;
第二获取模块1002,还用于当多条语音数据中包括行程语音数据时,获取行程语音数据对应的第二语音特征。
在一种可能实现方式中,更新模块1003,用于当多个语音特征中包括多个第一语音特征时,对多个第一语音特征进行处理,得到第一司机语音特征,对第一司机语音特征和原始司机声纹特征进行统计处理,得到更新后的司机声纹特征;或者,
更新模块1003,用于当多个语音特征中包括多个第二语音特征时,对多个第二语音特征进行处理,得到第二司机语音特征,对第二司机语音特征和原始司机声纹特征进行统计处理,得到更新后的司机声纹特征;或者,
更新模块1003,用于当多个语音特征中包括多个第一语音特征和多个第二语音特征时,对多个第一语音特征进行处理,得到第一司机语音特征,对多个第二语音特征进行处理,得到第二司机语音特征,对第一司机语音特征、第二司机语音特征和原始司机声纹特征进行统计处理,得到更新后的声纹特征。
在一种可能实现方式中,更新模块1003包括:
聚类单元10031,用于对多个第一语音特征进行聚类,得到至少一个第一语音特征簇;
选取单元10032,用于从至少一个第一语音特征簇中,选取满足预设条件的第一司机语音特征簇,预设条件用于指示司机在终端上输入的语音数据所满足的条件;
处理单元10033,用于对第一司机语音特征簇中的第一语音特征进行处理,得到第一司机语音特征;
聚类单元10031,还用于对多个第二语音特征进行聚类,得到至少一个第二语音特征簇;
选取单元10032,还用于从至少一个第二语音特征簇中,选取满足预设条件的第二司机语音特征簇;
处理单元10033,还用于对第二司机语音特征簇中的第二语音特征进行处理,得到第二司机语音特征。
在一种可能实现方式中,更新模块1003,用于当多个第一语音特征的数量不小于目标数量阈值时,对多个第一语音特征进行处理,得到第一司机语音特征;
更新模块1003,还用于当多个第二语音特征的数量不小于目标数量阈值时,对多个第二语音特征进行处理,得到第二司机声纹特征。
在一种可能实现方式中,装置还包括:
提示模块1007,用于若多个第一语音特征的数量小于目标数量阈值,且多个第二语音特征的数量小于目标数量阈值,则发出第一提示信息,第一提示信息指示用户身份存疑。
在一种可能实现方式中,原始司机声纹特征包括原始电话声纹特征和原始行程声纹特征,原始电话声纹特征基于电话语音数据得到,原始行程声纹特征基于行程语音数据得到;
更新模块1003,包括:
第一更新单元10034,用于对第一司机语音特征和原始电话声纹特征进行统计处理,得到更新后的电话声纹特征;
第二更新单元10035,用于对第二司机语音特征和原始行程声纹特征进行统计处理,得到更新后的行程声纹特征。
在一种可能实现方式中,第一更新单元10034,用于当第一司机语音特征和原始电话声纹特征之间的差异度大于目标差异度阈值时,对第一司机语音特征和原始电话声纹特征进行统计处理,得到更新后的电话声纹特征;
第二更新单元10035,用于当第二司机语音特征和原始行程声纹特征之间的差异度大于目标差异度阈值时,对第二司机语音特征和原始行程声纹特征进行统计处理,得到更新后的行程声纹特征。
在一种可能实现方式中,更新模块1003,用于将第一司机语音特征、第二司机语音特征和原始司机声纹特征进行平均处理,得到更新后的司机声纹特征。
在一种可能实现方式中,装置还包括:
丢弃模块1008,用于将多条语音数据对应的语音特征中,与原始司机声纹特征不匹配的语音特征丢弃。
在一种可能实现方式中,装置还包括:
第一获取模块1001,还用于获取当前通话过程中录制得到的语音数据;
提示模块1004,用于当语音数据对应的语音特征与更新后的司机声纹特征不匹配时,发出第二提示信息,第二提示信息用于指示当前司机不是在终端注册的司机;当语音数据对应的语音特征与更新后的司机声纹特征匹配时,确定当前司机为在终端注册的司机。
需要说明的是:上述实施例提供的声纹特征更新装置在更新原始司机声纹特征时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的声纹特征更新的装置与声纹特征更新的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12示出了本发明一个示例性实施例提供的终端1200的结构框图。该终端1200可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1200包括有:处理器1201和存储器1202。
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的声纹特征更新方法。
在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:射频电路1204、触摸显示屏1205、摄像头1206、音频电路1207、定位组件1208和电源1209中的至少一种。
外围设备接口1203可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1204包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1204还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1205用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时,显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时,显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1205可以为一个,设置终端1200的前面板;在另一些实施例中,显示屏1205可以为至少两个,分别设置在终端1200的不同表面或呈折叠设计;在再一些实施例中,显示屏1205可以是柔性显示屏,设置在终端1200的弯曲表面上或折叠面上。甚至,显示屏1205还可以设置成非矩形的不规则图形,也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还可以包括耳机插孔。
定位组件1208用于定位终端1200的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于:加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。
加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号,控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1212可以检测终端1200的机体方向及转动角度,陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1213可以设置在终端1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时,可以检测用户对终端1200的握持信号,由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时,由处理器1201根据用户对触摸显示屏1205的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1214用于采集用户的指纹,由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份,或者,由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1201授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时,指纹传感器1214可以与物理按键或厂商Logo集成在一起。
光学传感器1215用于采集环境光强度。在一个实施例中,处理器1201可以根据光学传感器1215采集的环境光强度,控制触摸显示屏1205的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1205的显示亮度;当环境光强度较低时,调低触摸显示屏1205的显示亮度。在另一个实施例中,处理器1201还可以根据光学传感器1215采集的环境光强度,动态调整摄像头组件1206的拍摄参数。
接近传感器1216,也称距离传感器,通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中,当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时,由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态;当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时,由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图13是本发明实施例提供的一种计算机设备的结构示意图,该计算机设备1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(CentralProcessing Units,CPU)1301和一个或一个以上的存储器1302,其中,该存储器1302中存储有至少一条指令,该至少一条指令由该处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条指令,该至少一条指令由该一个或多个处理器加载并执行以完成上述实施例中声纹特征更新方法所执行的操作。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中声纹特征更新方法。例如,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种声纹特征更新方法,其特征在于,所述方法包括:
从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,所述多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,所述电话语音数据为通话过程中录制得到的语音数据,所述行程语音数据为出行订单的进行过程中录制得到的语音数据;
获取所述多条语音数据对应的语音特征;
基于获取的多个语音特征,更新所述原始司机声纹特征。
2.根据权利要求1所述的方法,其特征在于,所述获取所述多条语音数据对应的语音特征之前,所述方法还包括:
对于所述多条语音数据中的任一语音数据,当所述语音数据为双声道语音数据时,将所述语音数据进行分离处理,得到左声道语音数据和右声道语音数据;或者,
对每条语音数据进行切分,得到包含目标帧数的多个语音数据片段;或者,
对每条语音数据进行筛选处理,过滤掉所述多条语音数据中的无效语音数据,所述无效语音数据包括噪声数据或者静音数据中的至少一项。
3.根据权利要求1所述的方法,其特征在于,所述获取所述多条语音数据对应的语音特征,包括:
当所述多条语音数据中包括电话语音数据时,获取所述电话语音数据对应的第一语音特征;
当所述多条语音数据中包括行程语音数据时,获取所述行程语音数据对应的第二语音特征。
4.根据权利要求3所述的方法,其特征在于,所述基于获取的多个语音特征,更新所述原始司机声纹特征,包括:
当所述多个语音特征中包括多个第一语音特征时,对所述多个第一语音特征进行处理,得到第一司机语音特征,对所述第一司机语音特征和所述原始司机声纹特征进行统计处理,得到更新后的司机声纹特征;或者,
当所述多个语音特征中包括多个第二语音特征时,对所述多个第二语音特征进行处理,得到第二司机语音特征,对所述第二司机语音特征和所述原始司机声纹特征进行统计处理,得到更新后的司机声纹特征;或者,
当所述多个语音特征中包括多个第一语音特征和多个第二语音特征时,对所述多个第一语音特征进行处理,得到第一司机语音特征,对所述多个第二语音特征进行处理,得到第二司机语音特征,对所述第一司机语音特征、所述第二司机语音特征和所述原始司机声纹特征进行统计处理,得到更新后的声纹特征。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个第一语音特征进行处理,得到第一司机语音特征,包括:
对所述多个第一语音特征进行聚类,得到至少一个第一语音特征簇;
从所述至少一个第一语音特征簇中,选取满足预设条件的第一司机语音特征簇,所述预设条件用于指示司机在终端上输入的语音数据所满足的条件;
对所述第一司机语音特征簇中的第一语音特征进行处理,得到所述第一司机语音特征;
所述对所述多个第二语音特征进行处理,得到第二司机语音特征,包括:
对所述多个第二语音特征进行聚类,得到至少一个第二语音特征簇;
从所述至少一个第二语音特征簇中,选取满足所述预设条件的第二司机语音特征簇;
对所述第二司机语音特征簇中的第二语音特征进行处理,得到所述第二司机语音特征。
6.根据权利要求4所述的方法,其特征在于,所述对所述多个第一语音特征进行处理,得到第一司机语音特征,包括:
当所述多个第一语音特征的数量不小于目标数量阈值时,对所述多个第一语音特征进行处理,得到所述第一司机语音特征;
所述对所述多个第二语音特征进行处理,得到第二司机语音特征,包括:
当所述多个第二语音特征的数量不小于所述目标数量阈值时,对所述多个第二语音特征进行处理,得到所述第二司机声纹特征。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述多个第一语音特征的数量小于所述目标数量阈值,且所述多个第二语音特征的数量小于所述目标数量阈值,则发出第一提示信息,所述第一提示信息指示用户身份存疑。
8.根据权利要求4所述的方法,其特征在于,所述原始司机声纹特征包括原始电话声纹特征和原始行程声纹特征,所述原始电话声纹特征基于电话语音数据得到,所述原始行程声纹特征基于行程语音数据得到;
所述对所述第一司机语音特征、所述第二司机语音特征和所述原始司机声纹特征进行统计处理,包括:
对所述第一司机语音特征和所述原始电话声纹特征进行统计处理,得到更新后的电话声纹特征;
对所述第二司机语音特征和所述原始行程声纹特征进行统计处理,得到更新后的行程声纹特征。
9.根据权利要求8所述的方法,其特征在于,所述对所述第一司机语音特征、所述第二司机语音特征和所述原始司机声纹特征进行统计处理,包括:
当所述第一司机语音特征和所述原始电话声纹特征之间的差异度大于目标差异度阈值时,对所述第一司机语音特征和所述原始电话声纹特征进行统计处理,得到所述更新后的电话声纹特征;
当所述第二司机语音特征和所述原始行程声纹特征之间的差异度大于目标差异度阈值时,对所述第二司机语音特征和所述原始行程声纹特征进行统计处理,得到所述更新后的行程声纹特征。
10.根据权利要求4所述的方法,其特征在于,所述对所述第一司机语音特征、所述第二司机语音特征和所述原始司机声纹特征进行统计处理,包括:
将所述第一司机语音特征、所述第二司机语音特征和所述原始司机声纹特征进行平均处理,得到更新后的司机声纹特征。
11.根据权利要求1所述的方法,其特征在于,所述基于获取的多个语音特征,更新所述原始司机声纹特征之前,所述方法还包括:
将所述多条语音数据对应的语音特征中,与所述原始司机声纹特征不匹配的语音特征丢弃。
12.根据权利要求1所述的方法,其特征在于,在所述基于获取的多个语音特征,更新所述原始司机声纹特征之后,所述方法还包括:
获取当前通话过程中录制得到的语音数据;
当所述语音数据对应的语音特征与更新后的司机声纹特征不匹配时,发出第二提示信息,所述第二提示信息用于指示当前司机不是在终端注册的司机;
当所述语音数据对应的语音特征与所述更新后的司机声纹特征匹配时,确定当前司机为在终端注册的司机。
13.一种声纹特征更新装置,其特征在于,所述装置包括:
第一获取模块,用于从历史语音记录中获取在注册原始司机声纹特征之后记录的多条语音数据,所述多条语音数据中包括电话语音数据或者行程语音数据中的至少一种,所述电话语音数据为通话过程中录制得到的语音数据,所述行程语音数据为出行订单的进行过程中录制得到的语音数据;
第二获取模块,用于获取所述多条语音数据对应的语音特征;
更新模块,用于基于获取的多个语音特征,更新所述原始司机声纹特征。
14.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的声纹特征更新方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的声纹特征更新方法所执行的操作。
CN201910888746.3A 2019-09-19 2019-09-19 声纹特征更新方法、装置、计算机设备及存储介质 Active CN110660398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910888746.3A CN110660398B (zh) 2019-09-19 2019-09-19 声纹特征更新方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910888746.3A CN110660398B (zh) 2019-09-19 2019-09-19 声纹特征更新方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110660398A true CN110660398A (zh) 2020-01-07
CN110660398B CN110660398B (zh) 2020-11-20

Family

ID=69037288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910888746.3A Active CN110660398B (zh) 2019-09-19 2019-09-19 声纹特征更新方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110660398B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243605A (zh) * 2020-01-13 2020-06-05 北京三快在线科技有限公司 业务处理方法、装置、设备及存储介质
CN111429920A (zh) * 2020-03-30 2020-07-17 北京奇艺世纪科技有限公司 用户区分方法、用户行为库确定方法、装置及设备
CN111933147A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN113140211A (zh) * 2021-04-20 2021-07-20 武汉微物云联科技有限公司 基于可信呼叫的实时音视频流的智能语音识别技术
CN117135266A (zh) * 2023-10-25 2023-11-28 Tcl通讯科技(成都)有限公司 一种信息处理方法、装置及计算机可读存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008094228A (ja) * 2006-10-11 2008-04-24 Denso Corp 車両用通話警告装置
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN105575391A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、系统
US20160300242A1 (en) * 2015-04-10 2016-10-13 Uber Technologies, Inc. Driver verification system for transport services
CN106157959A (zh) * 2015-03-31 2016-11-23 讯飞智元信息科技有限公司 声纹模型更新方法及系统
CN106549947A (zh) * 2016-10-19 2017-03-29 陆腾蛟 一种即时更新的声纹认证方法及系统
CN106782564A (zh) * 2016-11-18 2017-05-31 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN106971735A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种定期更新缓存中训练语句的声纹识别的方法及系统
CN107424614A (zh) * 2017-07-17 2017-12-01 广东讯飞启明科技发展有限公司 一种声纹模型更新方法
CN107481724A (zh) * 2017-07-28 2017-12-15 深圳智慧车联科技有限公司 识别司机开车打电话的方法、系统及机动车
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108269575A (zh) * 2018-01-12 2018-07-10 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108847243A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 声纹特征更新方法、装置、存储介质及电子设备
CN109167749A (zh) * 2017-06-29 2019-01-08 北京嘀嘀无限科技发展有限公司 一种身份认证方法及装置
US20190019133A1 (en) * 2017-07-14 2019-01-17 Allstate Insurance Company Controlling Vehicles Using Contextual Driver And/Or Rider Data Based on Automatic Passenger Detection and Mobility Status
CN109752021A (zh) * 2018-12-18 2019-05-14 维沃移动通信有限公司 一种行驶路线规划方法及装置
CN109948729A (zh) * 2019-03-28 2019-06-28 北京三快在线科技有限公司 司机身份识别方法及装置、电子设备
CN110070889A (zh) * 2019-03-15 2019-07-30 深圳壹账通智能科技有限公司 车辆监控方法、装置及存储介质、服务器
CN110210935A (zh) * 2019-05-22 2019-09-06 未来(北京)黑科技有限公司 安全认证方法及装置、存储介质、电子装置

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008094228A (ja) * 2006-10-11 2008-04-24 Denso Corp 車両用通話警告装置
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN105575391A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、系统
CN106157959A (zh) * 2015-03-31 2016-11-23 讯飞智元信息科技有限公司 声纹模型更新方法及系统
US20160300242A1 (en) * 2015-04-10 2016-10-13 Uber Technologies, Inc. Driver verification system for transport services
CN106971735A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种定期更新缓存中训练语句的声纹识别的方法及系统
CN106549947A (zh) * 2016-10-19 2017-03-29 陆腾蛟 一种即时更新的声纹认证方法及系统
CN106782564A (zh) * 2016-11-18 2017-05-31 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN109167749A (zh) * 2017-06-29 2019-01-08 北京嘀嘀无限科技发展有限公司 一种身份认证方法及装置
US20190019133A1 (en) * 2017-07-14 2019-01-17 Allstate Insurance Company Controlling Vehicles Using Contextual Driver And/Or Rider Data Based on Automatic Passenger Detection and Mobility Status
CN107424614A (zh) * 2017-07-17 2017-12-01 广东讯飞启明科技发展有限公司 一种声纹模型更新方法
CN107481724A (zh) * 2017-07-28 2017-12-15 深圳智慧车联科技有限公司 识别司机开车打电话的方法、系统及机动车
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108269575A (zh) * 2018-01-12 2018-07-10 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108847243A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 声纹特征更新方法、装置、存储介质及电子设备
CN109752021A (zh) * 2018-12-18 2019-05-14 维沃移动通信有限公司 一种行驶路线规划方法及装置
CN110070889A (zh) * 2019-03-15 2019-07-30 深圳壹账通智能科技有限公司 车辆监控方法、装置及存储介质、服务器
CN109948729A (zh) * 2019-03-28 2019-06-28 北京三快在线科技有限公司 司机身份识别方法及装置、电子设备
CN110210935A (zh) * 2019-05-22 2019-09-06 未来(北京)黑科技有限公司 安全认证方法及装置、存储介质、电子装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANDEEP GUPTA 等: ""DriverAuth: A Risk-based Multi-modal Biometric-based Driver Authentication Scheme for Ride-sharing Platforms"", 《COMPUTERS & SECURITY》 *
李政: ""嘀嘀出行安全管理问题与对策研究"", 《中国优秀硕士学位论文全文数据库(经济与管理科学辑)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243605A (zh) * 2020-01-13 2020-06-05 北京三快在线科技有限公司 业务处理方法、装置、设备及存储介质
CN111429920A (zh) * 2020-03-30 2020-07-17 北京奇艺世纪科技有限公司 用户区分方法、用户行为库确定方法、装置及设备
CN111429920B (zh) * 2020-03-30 2024-01-23 北京奇艺世纪科技有限公司 用户区分方法、用户行为库确定方法、装置及设备
CN111933147A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN111933147B (zh) * 2020-06-22 2023-02-14 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN113140211A (zh) * 2021-04-20 2021-07-20 武汉微物云联科技有限公司 基于可信呼叫的实时音视频流的智能语音识别技术
CN117135266A (zh) * 2023-10-25 2023-11-28 Tcl通讯科技(成都)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN117135266B (zh) * 2023-10-25 2024-03-22 Tcl通讯科技(成都)有限公司 一种信息处理方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN110660398B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN110660398B (zh) 声纹特征更新方法、装置、计算机设备及存储介质
CN110600040B (zh) 声纹特征注册方法、装置、计算机设备及存储介质
CN111933112B (zh) 唤醒语音确定方法、装置、设备及介质
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
CN111105788B (zh) 敏感词分数检测方法、装置、电子设备及存储介质
CN110341627B (zh) 控制车内行为的方法和装置
CN110956971B (zh) 音频处理方法、装置、终端及存储介质
CN111445901A (zh) 音频数据获取方法、装置、电子设备及存储介质
CN114299933A (zh) 语音识别模型训练方法、装置、设备、存储介质及产品
CN111613213B (zh) 音频分类的方法、装置、设备以及存储介质
CN111370025A (zh) 音频识别方法、装置及计算机存储介质
CN111462742A (zh) 基于语音的文本显示方法、装置、电子设备及存储介质
CN112667844A (zh) 检索音频的方法、装置、设备和存储介质
CN111681655A (zh) 语音控制方法、装置、电子设备及存储介质
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
CN111341317B (zh) 唤醒音频数据的评价方法、装置、电子设备及介质
CN112614507A (zh) 检测噪声的方法和装置
CN111652624A (zh) 购票处理方法、检票处理方法、装置、设备及存储介质
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
CN111028846B (zh) 免唤醒词注册的方法和装置
CN112116908B (zh) 唤醒音频确定方法、装置、设备及存储介质
CN113362836A (zh) 训练声码器方法、终端及存储介质
CN114093360A (zh) 呼叫方法、装置、电子设备及存储介质
CN109671425B (zh) 音频分类方法、装置及存储介质
CN108966094B (zh) 发声控制方法、装置、电子装置及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant