CN107945806B - 基于声音特征的用户识别方法及装置 - Google Patents

基于声音特征的用户识别方法及装置 Download PDF

Info

Publication number
CN107945806B
CN107945806B CN201711106112.5A CN201711106112A CN107945806B CN 107945806 B CN107945806 B CN 107945806B CN 201711106112 A CN201711106112 A CN 201711106112A CN 107945806 B CN107945806 B CN 107945806B
Authority
CN
China
Prior art keywords
user information
user
acoustic
voice
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711106112.5A
Other languages
English (en)
Other versions
CN107945806A (zh
Inventor
程亮
夏勇峰
樊家麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201711106112.5A priority Critical patent/CN107945806B/zh
Publication of CN107945806A publication Critical patent/CN107945806A/zh
Priority to EP18205507.9A priority patent/EP3528245A1/en
Priority to US16/186,635 priority patent/US20190147889A1/en
Application granted granted Critical
Publication of CN107945806B publication Critical patent/CN107945806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本公开是关于一种基于声音特征的用户识别方法及装置。所述方法包括:从获取的语音中提取声学特征;获取与所述声学特征匹配的用户信息;在获取到所述匹配的用户信息时,输出所述用户信息。本公开技术方案通过在接收到将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令时,获取与已输入语音的用户对应的声学子特征,并基于已输入语音的用户对应的声学子特征,可实现以与已输入语音的用户匹配的声学特征播放该文本内容匹配的语音。

Description

基于声音特征的用户识别方法及装置
技术领域
本公开涉及语音通话技术领域,尤其涉及一种基于声音特征的用户识别方法及装置。
背景技术
语音识别技术已逐渐普及到人们熟知的各个领域中,语音识别服务支持的场景也伴随着用户需求的增加而逐步增多,比如翻译、身份验证、文字输入等场景。
相关技术中,语音识别技术通常是对语音内容进行识别,例如,在翻译时可基于用户输入的语音识别出对应的文本内容,进而将该文本内容翻译为另一种语言,然而并不能基于用户输入的语音确定出执行翻译操作的用户身份,本公开需要提供一种基于语音的声学特征确定用户身份的技术方案。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种基于声音特征的用户识别方法及装置,可基于输入语音的声学特征确定出匹配的用户信息。
根据本公开实施例的第一方面,提供一种基于声音特征的用户识别方法,所述方法包括:
从获取的语音中提取声学特征;
获取与所述声学特征匹配的用户信息;
在获取到所述匹配的用户信息时,输出所述用户信息。
在一实施例中,所述方法还包括:
在没有获取到与所述声学特征匹配的用户信息时,确定所获取的语音为一个新用户的语音;
生成输入用户信息的提示消息,所述提示消息用于所述新用户输入用户信息;
当接收到用户基于所述提示消息输入的用户信息时,在预设文件中存储所述声学特征以及对应的用户信息。
在一实施例中,所述在预设文件中存储所述声学特征以及对应的用户信息,包括:
将所述声学特征按照声学单元划分为多个声学子特征;
在预设文件中存储所述多个子特征以及对应的用户信息,所述预设文件中记录有每一个已输入语音的用户的用户信息以及对应的声学子特征。
在一实施例中,所述方法还包括:
接收将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令;
获取与所述已输入语音的用户对应的声学子特征;
基于所述已输入语音的用户对应的声学子特征,确定与所述文本内容对应的语音;
输出所述语音。
根据本公开实施例的第二方面,提供一种基于声音特征的用户识别装置,所述装置包括:
特征提取模块,被配置为从获取的语音中提取声学特征;
信息获取模块,被配置为获取与所述声学特征匹配的用户信息;
信息输出模块,被配置为在所述信息获取模块获取到所述匹配的用户信息时,输出所述用户信息。
在一实施例中,还包括:
确定模块,被配置为在没有获取到与所述声学特征匹配的用户信息时,确定所获取的语音为一个新用户的语音;
提示模块,被配置为生成输入用户信息的提示消息,所述提示消息用于所述新用户输入用户信息;
存储模块,被配置为当接收到用户基于所述提示模块生成的所述提示消息输入的用户信息时,在预设文件中存储所述声学特征以及对应的用户信息。
在一实施例中,存储模块包括:
划分子模块,被配置为将所述声学特征按照声学单元划分为多个声学子特征;
存储子模块,被配置为在预设文件中存储所述多个子特征以及对应的用户信息,所述预设文件中记录有每一个已输入语音的用户的用户信息以及对应的声学子特征。
在一实施例中,装置还包括:
接收模块,被配置为接收将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令;
获取模块,被配置为获取与所述已输入语音的用户对应的声学子特征;
语音确定模块,被配置为基于所述已输入语音的用户对应的声学子特征,确定与所述文本内容对应的语音;
语音输出模块,被配置为输出所述语音。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
从获取的语音中提取声学特征;
获取与所述声学特征匹配的用户信息;
在获取到所述匹配的用户信息时,输出所述用户信息。
根据本公开实施例的第四方面,提供一种非临时计算机可读存储介质,所述存储介质上存储有计算机指令,所述指令被处理器执行时实现以下步骤:
从获取的语音中提取声学特征;
获取与所述声学特征匹配的用户信息;
在获取到所述匹配的用户信息时,输出所述用户信息。
本公开的实施例提供的技术方案可以包括以下有益效果:当获取到语音时,可从语音中提取声学特征,并获取和输出发出该语音的用户的用户信息,如用户的姓名、头像、职称等,有助于帮助收听该语音的用户确定发出语音的用户信息。
并且,在没有获取到与所获取的语音匹配的用户信息时,可确定该语音为一个新用户发出的语音,进而提示用户输入用户信息,并存储该用户的用户信息,可实现在后续获取到该用户的语音时确定输出匹配的用户信息。
通过将声学特征按照声学单元划分为多个声学子特征并存储在预设文件中,有助于在后续提取到该用户的语音时基于声学子特征确定出匹配的用户信息,提高匹配的成功率和准确率。
通过在接收到将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令时,获取与已输入语音的用户对应的声学子特征,并基于已输入语音的用户对应的声学子特征,可实现以与已输入语音的用户匹配的声学特征播放该文本内容匹配的语音。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于声音特征的用户识别方法的流程图。
图2A是根据一示例性实施例一示出的一种基于声音特征的用户识别方法的流程图。
图2B是图2A所示实施例的步骤206的流程图。
图3是根据一示例性实施例二示出的一种基于声音特征的用户识别方法的流程图。
图4是根据一示例性实施例示出的一种基于声音特征的用户识别装置的框图。
图5是根据一示例性实施例示出的另一种通话过程中自动录音的装置的框图。
图6是根据一示例性实施例示出的一种适用于通话过程中自动录音的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本公开提供的技术方案可以应用在具有语音识别功能的电子设备,如翻译机、智能手机、iPAD上,或者与翻译机、智能手机、iPAD等联网并提供语音识别功能的服务器上。
图1是根据一示例性实施例示出的一种基于声音特征的用户识别方法的流程图;该通话过程中自动录音的方法可以应用在电子设备(如翻译机,智能手机,iPAD,服务器等)上,如图1所示,该基于声音特征的用户识别方法包括以下步骤:
在步骤101中,从获取的语音中提取声学特征。
说话人识别也称声纹识别,是根据说话人所发出的语音来确定说话人的过程,也就是将语音作为身份认证依据的识别技术。
在一实施例中,声学特征提取是将输入语音进行语音信息参数化,转换成机器可以识别处理的语音特征矢量,语音参数可以包括基音周期、线性预测系数(LinearPredictive Coefficients,LPC)、声道的冲击响应、自相关系数、声道面积函数、LPCC特征、MFCC特征、感知线性预测系数(Perceptual Linear Predictive,PLP)以及差值倒谱中的一个或多个等,在此不做限定。
由于通常每一个人的音色不相同,对应相同的一段文本的声学特征也会不相同,例如,用户1以发出“您好”的语音特征矢量为矢量1,而用户2发出“您好”的语音特征矢量为矢量2,矢量1和矢量2通常不相同。
在步骤102中,获取与声学特征匹配的用户信息。
在一实施例中,电子设备中可以在一个预设文件中存储曾输入语音的用户的用户信息以及所输入的语音对应的声学特征,由此在电子设备获取到一个新的语音时,可以通过查询该预设文件,来获取匹配的用户信息。
在一实施例中,用户信息可以包括但不限于:用户的姓名、用户图像(如用户头像)、用户的职称(如用户为宣传办的办公室主任等)。
在一实施例中,预设文件可以是数据库形式;在又一实施例中,预设文件可以是列表形式;在再一实施例中,预设文件可以是表格形式;在一实施例中,预设文件还可以是其它的能够存储用户信息以及所输入的语音对应的声学特征的文件形式。
在步骤103中,在获取到匹配的用户信息时,输出用户信息。
在一实施例中,可以以文字形式输出用户信息;在一实施例中,还可以以语音形式输出用户信息。
在一实施例中,可以在输出其他信息时同时输出用户信息,例如,翻译机在接收到一种语言,并将该种语言翻译为另一种语言后,可将翻译得到的另一种语言与用户信息同时输出;再如,录音笔在接收到一个语音后,可在识别出说话人后在将声音转换成文字时同时将在转化的文字前方显示说话人的用户信息。
本实施例中,当获取到语音时,可从语音中提取声学特征,并获取和输出发出该语音的用户的用户信息,如用户的姓名、头像、职称等,有助于帮助收听该语音的用户确定发出语音的用户信息。
下面以具体实施例来说明本公开实施例提供的技术方案。
图2A是根据一示例性实施例一示出的一种基于声音特征的用户识别方法的流程图,图2B是图2A所示实施例的步骤206的流程图;本实施例利用本公开实施例提供的上述方法,以如何生成存储用户的语音声学特征和用户信息为例进行示例性说明,如图2A所示,该方法包括以下步骤:
在步骤201中,从获取的语音中提取声学特征。
在步骤202中,获取与声学特征匹配的用户信息。
在步骤203中,在获取到匹配的用户信息时,输出用户信息。
在一实施例中,步骤201-步骤203的描述可参见图1所示实施例,这里不再详述。
在步骤204中,在没有获取到与声学特征匹配的用户信息时,确定所获取的语音为一个新用户的语音。
在步骤205中,生成输入用户信息的提示消息,提示消息用于新用户输入用户信息。
在一实施例中,提示消息可以为语音提示消息,如显示“请输入说话者的姓名、头像等”文字信息;在一实施例中,提示消息可以为文字提示消息,如播放“请输入说话者的姓名、头像等”语音。
在步骤206中,当接收到用户基于提示消息输入的用户信息时,在预设文件中存储声学特征以及对应的用户信息。
在一实施例中,预设文件可以是数据库形式;在又一实施例中,预设文件可以是列表形式;在再一实施例中,预设文件可以是表格形式;在一实施例中,预设文件还可以是其它的能够存储用户信息以及所输入的语音对应的声学特征的文件形式。
如图2B所示,在预设文件存储声学特征的实现方式可参见步骤206的描述,包括以下步骤:
在步骤211中,将声学特征按照声学单元划分为多个声学子特征。
在一实施例中,声学单元可以理解为发音单元,例如,一段语音“您好,请回答近年房地产行业的前景如何”按照声学单元可划分为“您好”、“请”、“回答”、“近年”、“房地产”、“行业”、“的”、“前景”、“如何”多个子单元,每一个子单元对应一个声学子特征。
在一实施例中,将声学特征按照声学单元划分的方法可以参考将文本内容进行分词的实现方法实现。
在步骤212中,在预设文件中存储多个子特征以及对应的用户信息,预设文件中记录有每一个已输入语音的用户的用户信息以及对应的声学子特征。
在一实施例中,可以在预设文件中记录每一个用户以及所对应的声学子特征,其中还记录有声学子特征对应的文本内容,在后续该用户再输入新的语音并且基于语音确定出新的声学子特征时,可以将新的声音子特征更新并存储在预设文件中。
本实施例在上述实施例有益技术效果的基础上,还具有如下有益技术效果:在没有获取到与所获取的语音匹配的用户信息时,可确定该语音为一个新用户发出的语音,进而提示用户输入用户信息,并存储改用户的用户信息,可实现在后续获取到该用户的语音时确定输出匹配的用户信息;此外,通过将声学特征按照声学单元划分为多个声学子特征并存储在预设文件中,有助于在后续提取到该用户的语音时基于声学子特征确定出匹配的用户信息,提高匹配的成功率和准确率。
图3是根据一示例性实施例二示出的一种基于声音特征的用户识别方法的流程图,本实施例利用本公开实施例提供的上述方法,以如何将一段语音以与一个用户匹配的语音输出为例进行示例性说明,如图3所示,该方法包括如下步骤:
在步骤301中,接收将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令。
在步骤302中,获取与已输入语音的用户对应的声学子特征。
在一实施例中,可在预设文件中获取与已输入语音的用户对应的声学子特征,例如,用户曾输入语音对应的声学子特征包括文本“您好”、“请问”、“我”、“有”、“什么”、“能够”、“帮助”、“您”、“若有”、“需要”、“竭诚”、“为您”、“提供”、“服务”对应的声学子特征,在接收到将“请问我能够为您提供什么服务”以该用户的语音输出时,可从预设文件中获取“请问”、“我”、“能够”、“为您”、“提供”、“有”、“什么”、“服务”对应的声学子特征,然后组织成“请问我能够为您提供什么服务”对应的声学特征,然后以该声学特征确定待输出的语音。
在步骤303中,基于已输入语音的用户对应的声学子特征,确定与文本内容对应的语音。
在一实施例中,在步骤301-步骤303中,可在预设文件中获取与已输入语音的用户对应的声学子特征,例如,用户曾输入语音对应的声学子特征包括文本“您好”、“请问”、“我”、“有”、“什么”、“能够”、“帮助”、“您”、“若有”、“需要”、“竭诚”、“为您”、“提供”、“服务”对应的声学子特征,在接收到将“请问我能够为您提供什么服务”以该用户的语音输出时,可从预设文件中获取“请问”、“我”、“能够”、“为您”、“提供”、“有”、“什么”、“服务”对应的声学子特征,然后组织成“请问我能够为您提供什么服务”对应的声学特征,然后以该声学特征确定待输出的语音。
在步骤304中,输出语音。
本实施例在上述实施例有益技术效果的基础上,还具有如下有益技术效果:通过在接收到将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令时,获取与已输入语音的用户对应的声学子特征,并基于已输入语音的用户对应的声学子特征,可实现以与已输入语音的用户匹配的声学特征播放该文本内容匹配的语音。
与前述基于声音特征的用户识别方法的实施例相对应,本公开还提供了基于声音特征的用户识别装置的实施例。
图4是根据一示例性实施例示出的一种基于声音特征的用户识别装置的框图,该装置应用于在电子设备上,如图4所示,基于声音特征的用户识别装置包括:
特征提取模块41,被配置为从获取的语音中提取声学特征;
信息获取模块42,被配置为获取与声学特征匹配的用户信息;
信息输出模块43,被配置为在信息获取模块获取到匹配的用户信息时,输出用户信息。
图5是根据一示例性实施例示出的另一种通话过程中自动录音的装置的框图,如图5所示,在图4实施例的基础上,在一实施例中,还包括:
确定模块44,被配置为在没有获取到与声学特征匹配的用户信息时,确定所获取的语音为一个新用户的语音;
提示模块45,被配置为生成输入用户信息的提示消息,提示消息用于新用户输入用户信息;
存储模块46,被配置为当接收到用户基于提示模块生成的提示消息输入的用户信息时,在预设文件中存储声学特征以及对应的用户信息。
在一实施例中,存储模块46包括:
划分子模块461,被配置为将声学特征按照声学单元划分为多个声学子特征;
存储子模块462,被配置为在预设文件中存储多个子特征以及对应的用户信息,预设文件中记录有每一个已输入语音的用户的用户信息以及对应的声学子特征。
在一实施例中,装置还包括:
接收模块47,被配置为接收将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令;
获取模块48,被配置为获取与已输入语音的用户对应的声学子特征;
语音确定模块49,被配置为基于已输入语音的用户对应的声学子特征,确定与文本内容对应的语音;
语音输出模块50,被配置为输出语音。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
图6是根据一示例性实施例示出的一种适用于通话过程中自动录音的装置的框图,本实施例的装置应用在用户终端上。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的控制接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与数据通信,相机操作和记录操作等相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,预设的各种阈值,控制列表,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WIFI,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当存储介质中的指令由用户终端的处理器执行时,使得用户终端能够执行一种基于声音特征的用户识别方法,方法包括:从获取的语音中提取声学特征;获取与声学特征匹配的用户信息;在获取到匹配的用户信息时,输出用户信息。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于声音特征的用户识别方法,其特征在于,方法应用于翻译机,所述方法包括:
从获取的语音中提取声学特征;
获取与所述声学特征匹配的用户信息;
在获取到所述匹配的用户信息时,输出所述用户信息;
输出所述用户信息,包括:
将所述语音对应的语言翻译为另一种语言后,将翻译得到的另一种语言与用户信息同时显示。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在没有获取到与所述声学特征匹配的用户信息时,确定所获取的语音为一个新用户的语音;
生成输入用户信息的提示消息,所述提示消息用于所述新用户输入用户信息;
当接收到用户基于所述提示消息输入的用户信息时,在预设文件中存储所述声学特征以及对应的用户信息。
3.根据权利要求2所述的方法,其特征在于,所述在预设文件中存储所述声学特征以及对应的用户信息,包括:
将所述声学特征按照声学单元划分为多个声学子特征;
在预设文件中存储所述多个声学子特征以及对应的用户信息,所述预设文件中记录有每一个已输入语音的用户的用户信息以及对应的声学子特征。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
接收将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令;
获取与所述已输入语音的用户对应的声学子特征;
基于所述已输入语音的用户对应的声学子特征,确定与所述文本内容对应的语音;
输出所述语音。
5.一种基于声音特征的用户识别装置,其特征在于,装置应用于翻译机,所述装置包括:
特征提取模块,被配置为从获取的语音中提取声学特征;
信息获取模块,被配置为获取与所述声学特征匹配的用户信息;
信息输出模块,被配置为在所述信息获取模块获取到所述匹配的用户信息时,输出所述用户信息;
所述信息输出模块被配置为:
将所述语音对应的语言翻译为另一种语言后,将翻译得到的另一种语言与用户信息同时显示。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
确定模块,被配置为在没有获取到与所述声学特征匹配的用户信息时,确定所获取的语音为一个新用户的语音;
提示模块,被配置为生成输入用户信息的提示消息,所述提示消息用于所述新用户输入用户信息;
存储模块,被配置为当接收到用户基于所述提示模块生成的所述提示消息输入的用户信息时,在预设文件中存储所述声学特征以及对应的用户信息。
7.根据权利要求6所述的装置,其特征在于,所述存储模块包括:
划分子模块,被配置为将所述声学特征按照声学单元划分为多个声学子特征;
存储子模块,被配置为在预设文件中存储所述多个声学子特征以及对应的用户信息,所述预设文件中记录有每一个已输入语音的用户的用户信息以及对应的声学子特征。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
接收模块,被配置为接收将一段文本内容以与一个已输入语音的用户匹配的声学特征播放的操作命令;
获取模块,被配置为获取与所述已输入语音的用户对应的声学子特征;
语音确定模块,被配置为基于所述已输入语音的用户对应的声学子特征,确定与所述文本内容对应的语音;
语音输出模块,被配置为输出所述语音。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
从获取的语音中提取声学特征;
获取与所述声学特征匹配的用户信息;
在获取到所述匹配的用户信息时,输出所述用户信息;
输出所述用户信息,包括:
将所述语音对应的语言翻译为另一种语言后,将翻译得到的另一种语言与用户信息同时显示。
10.一种非临时计算机可读存储介质,所述存储介质上存储有计算机指令,其特征在于,所述指令被处理器执行时实现以下步骤:
从获取的语音中提取声学特征;
获取与所述声学特征匹配的用户信息;
在获取到所述匹配的用户信息时,输出所述用户信息;
输出所述用户信息,包括:
将所述语音对应的语言翻译为另一种语言后,将翻译得到的另一种语言与用户信息同时显示。
CN201711106112.5A 2017-11-10 2017-11-10 基于声音特征的用户识别方法及装置 Active CN107945806B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711106112.5A CN107945806B (zh) 2017-11-10 2017-11-10 基于声音特征的用户识别方法及装置
EP18205507.9A EP3528245A1 (en) 2017-11-10 2018-11-09 User identification method and apparatus based on acoustic features
US16/186,635 US20190147889A1 (en) 2017-11-10 2018-11-12 User identification method and apparatus based on acoustic features

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711106112.5A CN107945806B (zh) 2017-11-10 2017-11-10 基于声音特征的用户识别方法及装置

Publications (2)

Publication Number Publication Date
CN107945806A CN107945806A (zh) 2018-04-20
CN107945806B true CN107945806B (zh) 2022-03-08

Family

ID=61934758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711106112.5A Active CN107945806B (zh) 2017-11-10 2017-11-10 基于声音特征的用户识别方法及装置

Country Status (3)

Country Link
US (1) US20190147889A1 (zh)
EP (1) EP3528245A1 (zh)
CN (1) CN107945806B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735209B (zh) * 2018-04-28 2021-01-08 广东美的制冷设备有限公司 唤醒词绑定方法、智能设备及存储介质
CN110610720B (zh) * 2019-09-19 2022-02-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN112837668B (zh) * 2019-11-01 2023-04-28 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于处理语音的装置
CN111554306A (zh) * 2020-04-26 2020-08-18 兰州理工大学 一种基于多特征的声纹识别方法
CN112738499A (zh) 2020-12-25 2021-04-30 京东方科技集团股份有限公司 基于ar的信息显示方法、装置、ar设备、电子设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
CN101114447A (zh) * 2006-07-26 2008-01-30 株式会社东芝 语音翻译装置和方法
CN102592596A (zh) * 2011-01-12 2012-07-18 鸿富锦精密工业(深圳)有限公司 语音文字转换装置及方法
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识
CN102982800A (zh) * 2012-11-08 2013-03-20 鸿富锦精密工业(深圳)有限公司 具有影音文件处理功能的电子装置及影音文件处理方法
CN103516854A (zh) * 2012-06-15 2014-01-15 三星电子株式会社 终端装置及其控制方法
CN105786801A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种语音翻译方法、通讯方法及相关装置
CN106373239A (zh) * 2016-09-08 2017-02-01 佘贤栋 用户自选认证方式的可对用户透明的身份认证方法
CN106652996A (zh) * 2016-12-23 2017-05-10 北京奇虎科技有限公司 一种提示音生成方法和装置、移动终端
CN107241681A (zh) * 2017-05-24 2017-10-10 深圳市沃特沃德股份有限公司 同声翻译的实现方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
KR20230137475A (ko) * 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9767787B2 (en) * 2014-01-01 2017-09-19 International Business Machines Corporation Artificial utterances for speaker verification
CN104394137B (zh) * 2014-11-18 2017-07-21 小米科技有限责任公司 一种提醒语音通话的方法及装置
US9812131B2 (en) * 2015-11-09 2017-11-07 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Identifying and displaying call participants using voice sample
CN105489221B (zh) * 2015-12-02 2019-06-14 北京云知声信息技术有限公司 一种语音识别方法及装置
CN105895103B (zh) * 2015-12-03 2020-01-17 乐融致新电子科技(天津)有限公司 一种语音识别方法及装置
US11322157B2 (en) * 2016-06-06 2022-05-03 Cirrus Logic, Inc. Voice user interface
CN106228988A (zh) * 2016-07-29 2016-12-14 珠海市魅族科技有限公司 一种基于声纹信息的习惯信息匹配方法及装置
US20190279644A1 (en) * 2016-09-14 2019-09-12 Nec Corporation Speech processing device, speech processing method, and recording medium
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译系统
CN106534459A (zh) * 2016-11-23 2017-03-22 北京小米移动软件有限公司 语音提示方法及装置
WO2018180666A1 (ja) * 2017-03-30 2018-10-04 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
ES2800348T3 (es) * 2017-06-13 2020-12-29 Beijing Didi Infinity Technology & Dev Co Ltd Método y sistema para verificación de orador
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
CN101114447A (zh) * 2006-07-26 2008-01-30 株式会社东芝 语音翻译装置和方法
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识
CN102592596A (zh) * 2011-01-12 2012-07-18 鸿富锦精密工业(深圳)有限公司 语音文字转换装置及方法
CN103516854A (zh) * 2012-06-15 2014-01-15 三星电子株式会社 终端装置及其控制方法
CN102982800A (zh) * 2012-11-08 2013-03-20 鸿富锦精密工业(深圳)有限公司 具有影音文件处理功能的电子装置及影音文件处理方法
CN105786801A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种语音翻译方法、通讯方法及相关装置
CN106373239A (zh) * 2016-09-08 2017-02-01 佘贤栋 用户自选认证方式的可对用户透明的身份认证方法
CN106652996A (zh) * 2016-12-23 2017-05-10 北京奇虎科技有限公司 一种提示音生成方法和装置、移动终端
CN107241681A (zh) * 2017-05-24 2017-10-10 深圳市沃特沃德股份有限公司 同声翻译的实现方法和装置

Also Published As

Publication number Publication date
US20190147889A1 (en) 2019-05-16
CN107945806A (zh) 2018-04-20
EP3528245A1 (en) 2019-08-21

Similar Documents

Publication Publication Date Title
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
CN106024009B (zh) 音频处理方法及装置
CN110210310B (zh) 一种视频处理方法、装置和用于视频处理的装置
CN110634483A (zh) 人机交互方法、装置、电子设备及存储介质
CN104394265A (zh) 基于移动智能终端的自动会话方法及装置
CN110990534A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111199730B (zh) 语音识别方法、装置、终端及存储介质
CN106657543B (zh) 语音信息处理方法及装置
CN109670025B (zh) 对话管理方法及装置
CN113113044B (zh) 音频处理方法及装置、终端及存储介质
CN112820300B (zh) 音频处理方法及装置、终端、存储介质
US11354520B2 (en) Data processing method and apparatus providing translation based on acoustic model, and storage medium
CN105913841B (zh) 语音识别方法、装置及终端
CN113923517B (zh) 一种背景音乐生成方法、装置及电子设备
CN113409765B (zh) 一种语音合成方法、装置和用于语音合成的装置
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
CN112818841A (zh) 一种识别用户情绪的方法及相关装置
CN111816174A (zh) 语音识别方法、装置及计算机可读存储介质
CN109102810B (zh) 声纹识别方法和装置
CN108364631B (zh) 一种语音合成方法和装置
CN108173802B (zh) 一种通讯处理方法、装置和终端
CN112837668A (zh) 一种语音处理方法、装置和用于处理语音的装置
CN117409783A (zh) 声音特征识别模型的训练方法及装置
CN114582327A (zh) 语音识别模型训练方法、语言识别方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant