CN104751847A

CN104751847A - 一种基于声纹识别的数据获取方法及系统

Info

Publication number: CN104751847A
Application number: CN201510148223.7A
Authority: CN
Inventors: 刘畅
Original assignee: Liu Chang International Co Ltd
Current assignee: Liu Chang International Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-07-01

Abstract

本发明涉及一种基于声纹识别的数据获取系统和方法。其中数据获取系统包括：用户终端，接收待识别的语音数据并且对所述待识别的语音数据进行语音格式预处理，从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合；对待识别的语音数据进行关键词识别，获得一个或多个关键词，根据所述一个或多个关键词对从识别服务器接收的识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象，并且获取与所确定的目标对象相对应的数据；以及识别服务器，根据用户终端发送的语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。

Description

一种基于声纹识别的数据获取方法及系统

技术领域

本发明涉及声纹识别领域，并且更具体地，涉及一种基于声纹识别的数据获取方法及系统。

背景技术

随着与终端设备相关的信息技术的日益发展，用户对于通过终端设备进行数据获取的需求越来越大。通常，用户可以在终端设备处输入要访问的数据的地址，从而获取数据并对数据进行处理；或者用户可以在终端设备搜索相关数据从而获取数据并对数据进行处理。由于上述方式均需要用户在终端设备上进行手动输入，而当用户处于忙碌状态(例如，驾驶车辆)时，通常无法进行有效输入。此外，当用户听到某段语音，想获得与这段语音相关的数据时，通过上述方式无法获取数据内容。因此，需要将声纹识别技术应用到数据获取和处理的过程中。

目前，声纹识别技术广泛应用于诸如汽车导航、密码认证、智能设备等领域。声纹是指通过专用的电声转换仪器(声谱仪、语图仪等)将声波特征绘制成的波谱图形。声纹可以是各种声学特征图谱的集合。声纹是人类长期稳定的特征信号。声纹识别是把未知人的语音数据(检材)与已知人的语音数据(样本)分别通过电声转换仪器绘成声纹图谱，再根据图谱上的语音声学特征进行比较和综合分析,以得出两者是否相同的判断过程。

声纹识别广义上分为两种：语音识别和说话人识别。语音识别是根据说话人的发音辨认其所说的语音、音节、单词或单句。语音识别需要排除不同说话人的个人声音特色,确定代表各个语音单位的共性特征。说话人识别是根据语音来辨认说话人,而通常不考虑声音的内容和意义。说话人识别需要分离出每个个体的声音特性。语音识别是当前确认语音数据的文本内容的主要方式。说话人识别是当前生物信息认证方式中的一种主流方式，并且通常包括文本相关以及文本无关两种声纹识别方式，即，说话人识别包括说话人辨认和说话人确认两个方面。说话人辨认是一对多的分析过程，即判断出某段语音是若干人中哪一个所说。说话人确认是一对一的确定过程,即确认某段语音是否属于指定的某人。声纹识别通常也都包括训练、校验两个步骤。声纹识别的核心是预先录入声音样本，并提取每个样本独一无二的特征，建立特征数据库，并且在使用时将待检声音与数据库中的特征进行匹配，通过分析计算，实现说话人识别。然而，在实际应用中，文本无关型的声纹识别方式由于识别结果的不确定性，通常要和其他的生物特征认证方式共同使用，很难作为一种独立的检测方式，由此也限制了其使用的范围。

为此，需要一种能够利用稳定识别技术的数据获取方法及系统。

发明内容

为了解决上述问题，根据本发明的一个方面，提供一种基于声纹识别的数据获取系统，所述数据获取系统包括：

用户终端，接收待识别的语音数据并且对所述待识别的语音数据进行语音格式预处理，从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合；

对待识别的语音数据进行关键词识别，获得一个或多个关键词，根据所述一个或多个关键词对从识别服务器接收的识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象，并且获取与所确定的目标对象相对应的数据；以及

识别服务器，根据用户终端发送的语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合，其中在识别对象集合中按照匹配度递减的顺序对识别对象进行排序。

优选地，其中用户终端对所述待识别的语音数据进行语音格式预处理包括：利用预处理单元对所述待识别的语音数据进行分割以生成多个语音片段；对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识；以及对添加了宽带标识或窄带标识的语音片段进行音频特征提取，得到特征数据。

优选地，其中所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。

优选地，其中识别服务器根据用户终端发送的语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合包括：

识别服务器从用户终端接收语音特征集合，并且将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合。

可替换地，将语音特征集合传送至用户终端的匹配单元，用户终端的匹配单元将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合。

优选地，其中用户终端根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象包括：用户终端的目标对象确定单元根据所述一个或多个关键词在相关度数据库中进行搜索，确定待识别的语音数据与识别对象集合中每个识别对象的相关度，根据所述相关度对每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。

优选地，其中用户终端获取与所确定的目标对象相对应的数据包括：用户终端的数据获取单元根据关联规则确定与所述目标对象相对应的数据内容并且将针对数据内容的请求发送至内容服务器，从内容服务器获取所述数据内容。

根据另一方面，提供一种基于声纹识别的数据获取方法，所述数据获取方法包括：

接收待识别的语音数据；

对所述待识别的语音数据进行语音格式预处理；

从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合；

根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合，其中在识别对象集合中按照匹配度递减的顺序对识别对象进行排序；

对待识别的语音数据进行关键词识别，获得一个或多个关键词；

根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象；以及

获取与所确定的目标对象相对应的数据。

优选地，其中对所述待识别的语音数据进行语音格式预处理包括：

对所述待识别的语音数据进行分割以生成多个语音片段；

对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识；

对添加了宽带标识或窄带标识的语音片段进行音频特征提取，得到特征数据。

优选地，所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。

优选地，其中根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合包括：

将语音特征集合发送至识别服务器，识别服务器将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合。

可替换地，将语音特征集合发送至终端设备的匹配单元，终端设备的匹配单元将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合。

优选地，其中根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象包括：根据所述一个或多个关键词在相关度数据库中进行搜索，确定待识别的语音数据与从所述识别服务器获取的识别对象集合中每个识别对象的相关度，根据所述相关度对每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。

优选地，其中获取与所确定的目标对象相对应的数据包括：根据关联规则确定与所述目标对象相对应的数据内容并且将针对数据内容的请求发送至内容服务器，从内容服务器获取所述数据内容。

根据本发明的基于声纹识别的数据获取方法及系统通过关键字对声纹识别的初步结果进行进一步识别，从而能够提高声纹识别结果的准确率。

附图说明

通过结合附图阅读优选示例性实施方式的下列详细描述，可以更好地理解本发明的这些以及进一步的特点和优势，其中：

图1示出了现有技术中的用户终端的结构图；

图2示出了根据本发明优选实施方式的数据获取系统的结构图；

图3示出了根据本发明优选实施方式的用户终端的结构图；

图4示出了根据本发明优选实施方式的识别服务器的结构图；以及

图5示出了根据本发明优选实施方式的数据获取方法的流程图。

需要注意的是，这些附图意在描述方法的一般特性、在特定示例性实施方式中使用的结构和/或材料，并意在对下面提供的描述进行补充。然而，这些附图不是按比例的，并且也不是精确地反映任意给出的实施方式的精细结构或性能特性，并且也不应解释为通过示例性实施方式对所包含的数值范围或属性进行定义或限定。在各个附图中使用同样或相同的附图标记意在指示存在同样或相同的元素或特征。

具体实施方式

尽管示例性实施方式能够进行各种修改并采用替代形式，但是其实施方式作为实施例在附图中给出，并将在这里进行详细描述。然而，应当理解的是，不应将示例性实施方式限定为所公开的特定形式，相反，示例性实施方式意在涵盖落入权利要去范围内的所有修改、等同物和替代物。在整个附图的描述中，相同的附图标记表示相同的元素。

图1示出了现有技术中的用户终端的结构图。如图1所示，用户终端100包括：显示单元101、处理器102、输入单元103以及接口单元104。显示单元101可以是各种类型的显示屏。处理器102读取在用户终端100内部存储的数据并且针对数据进行处理以用于在显示单元101上进行显示。处理器102也可以读取通过输入单元103输入的数据并且针对数据进行处理。输入单元103可以接收用户输入的各种指令。例如，输入单元103可以接收用户输入的语音指令、或接收外部输入的语音数据。接口单元104用于实现用户终端100与其它设备之间的有线和/或无线通信。

如图1所示的现有技术的用户终端在进行文本无关型的声纹识别时，通常会受限于语音模板库的大小、待识别语音数据的不稳定性等因素的影响。现有技术的用户终端由于无法快速且准确地确定文本无关型的声纹识别的结果，即难以确定说话人的身份，通常会导致用户的不良体验。

图2示出了根据本发明优选实施方式的数据获取系统200的结构图。如图2所示数据获取系统200包括：一个或多个用户终端201-1，201-2，…，201-N、通信网络202和识别服务器203。

优选地，一个或多个用户终端201-1，201-2，…，201-N位于用户侧并且能够为用户提供各种服务，例如，网页浏览、语音通话、视频通话、应用或游戏等。用户终端201-1，201-2，…，201-N能够经由通信网络202发送和接收数据。用户终端201-1，201-2，…，201-N可以能够运行和存储各种应用的任意类型设备，例如个人数字助理(PDA)、智能手机、平板计算机、无线电话、移动计算设备、照相机、视频记录器、音频/视频播放器、定位设备(例如，全球定位系统(GPS)设备)、游戏设备、无线电设备或各种其它类似的设备或其组合。

优选地，用户终端201-1，201-2，…，201-N中的每一个能够接收待识别的语音数据。待识别的语音数据可以是广播、音频、视频中的语音等各种类型的语音数据。优选地，用户终端201-1，201-2，…，201-N能够利用内部的预处理单元对待识别的语音数据进行语音格式预处理。优选地，预处理单元对待识别的语音数据进行语音格式预处理包括：对待识别的语音数据进行分割以生成多个语音片段。通常可以按照语言规律或语义规则对待识别的语音数据进行分割。例如，将动词、名词等独立语义的词语作为单独的语音片段。然后，预处理单元对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识。预处理单元通过将语音片段进行宽带和窄带区分以用于进一步处理。接着，预处理单元对添加了宽带标识和窄带标识的语音片段进行音频特征提取，得到特征数据。所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。优选地，特征数据还可以包括语音片段对应的宽带标识和语音片段对应的窄带标识。

优选地，用户终端201-1，201-2，…，201-N的特征提取单元从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合。经过语音格式预处理的音频数据包括一个或多个特征数据，特征提取单元从所述一个或多个特征数据中提取语音特征并且将所提取的语音特征组成语音特征集合。

优选地，用户终端201-1，201-2，…，201-N可以包括匹配单元。虽然，本发明将匹配单元放置在识别服务器侧进行说明，但是所属领域技术人员可以了解的是，匹配单元可以位于用户终端中。所述匹配单元根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。优选地，匹配单元在识别对象集合中按照匹配度递减的顺序对识别对象进行排序。优选地，用户终端201-1，201-2，…，201-N的关键词识别单元对待识别的语音数据进行关键词识别，获得一个或多个关键词。用户终端201-1，201-2，…，201-N的目标对象确定单元根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。优选地，用户终端201-1，201-2，…，201-N的数据获取单元获取与所确定的目标对象相对应的数据。

优选地，用户终端201-1，201-2，…，201-N可通过远距离通信协议与识别服务器203进行通信，或通过远距离通信协议与其他用户终端进行通信。并且，用户终端201-1，201-2，…，201-N还可通过近距离通信协议与其他用户终端进行通信。

优选地，通信网络202可以是有线互联网、移动通信网络(码分多址(CDMA)、宽带码分多址(W-CDMA)等)连接的无线数据网络(互联网、IP多媒体子系统(IMS)等)、卫星通信网络、通过无线保真(Wi-Fi)连接的互联网等。

优选地，识别服务器203位于网络侧并且通过对用户终端发送的语音特征集合中的语音特征进行匹配来确定识别对象。识别服务器203的匹配单元根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。优选地，识别对象生成单元在识别对象集合中按照匹配度递减的顺序对识别对象进行排序。识别服务器203中的存储单元预先存储语音模型并且用于匹配单元进行匹配时使用。识别服务器203可以将预先存储的语音模型发送给用户终端，并且用户终端将上述语音模型存储于本地存储单元中。

优选地，识别服务器203也可以包括预处理单元，所述预处理单元对待识别的语音数据进行语音格式预处理。虽然，本发明将预处理单元放置在用户终端侧进行说明，但是所属领域技术人员可以了解的是，预处理单元可以位于识别服务器中。优选地，预处理单元对待识别的语音数据进行语音格式预处理包括：对待识别的语音数据进行分割以生成多个语音片段。通常可以按照语言规律或语义规则对待识别的语音数据进行分割。例如，将动词、名词等独立语义的词语作为单独的语音片段。然后，预处理单元对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识。预处理单元通过将语音片段进行宽带和窄带区分以用于进一步处理。接着，预处理单元对添加了宽带标识和窄带标识的语音片段进行音频特征提取，得到特征数据。所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。优选地，特征数据还可以包括语音片段对应的宽带标识和语音片段对应的窄带标识。

优选地，内容服务器204位于网络侧并且用于为用户终端201-1，201-2，…，201-N提供数据内容。用户终端201-1，201-2，…，201-N的数据获取单元根据关联规则确定与所述目标对象相对应的数据内容并且将针对数据内容的请求发送至内容服务器，从内容服务器获取所述数据内容。优选地，用户终端201-1，201-2，…，201-N可以根据其内部预先存储的关联规则来确定与所述目标对象相对应的数据内容，或者访问关系服务器(图中未示出)中的关联规则来确定与所述目标对象相对应的数据内容。然后，用户终端201-1，201-2，…，201-N将针对数据内容的请求发送至内容服务器204，从内容服务器204获取所述数据内容。优选地，用户终端201-1，201-2，…，201-N和识别服务器203均可以进行对所述待识别的语音数据进行语音格式预处理、从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合、或根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。

图3示出了根据本发明优选实施方式的用户终端300的结构图。如图3所示，用户终端300包括：输入单元301、预处理单元302、特征提取单元303、关键词识别单元304、目标对象确定单元305、数据获取单元306、存储单元307、处理单元308、接口单元309、和显示单元310。用户终端300从外部接收待识别的语音数据并且对所述待识别的语音数据进行语音格式预处理。随后，用户终端300从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合并且将所述语音特征集合发送给识别服务器。用户终端300从识别服务器接收识别对象集合，并且对待识别的语音数据进行关键词识别，获得一个或多个关键词。接着，用户终端300根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。最后，用户终端300获取与所确定的目标对象相对应的数据。优选地，用户终端300可以在本地进行模式匹配，即在用户终端侧根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。

当用户终端300是能够经由通信网络发送和接收数据并且获得目标对象的图像的终端时，用户终端300可以能够运行和存储各种应用的任意类型设备，例如个人数字助理(PDA)、智能手机、平板计算机、无线电话、移动计算设备、照相机、视频记录器、音频/视频播放器、定位设备(例如，全球定位系统(GPS)设备)、游戏设备、无线电设备或各种其它类似的设备或其组合。优选地，用户终端可以是固定在车辆中的设备(即不可拆卸)

优选地，输入单元301用于获取待识别的语音数据。优选地，待识别的语音数据可以是广播、音频、视频中的语音等各种类型的语音数据。输入单元301可以是麦克风等声音输入器件。优选地，输入单元301还包括用于输入信息的各种器件，例如按钮、触摸屏等。优选地，输入单元301还包括扬声器(图中未示出)。优选地，扬声器用于进行语音输入和输出。当用户终端需要进行语音识别时，扬声器可以录入待识别的语音数据。并且扬声器可以输出提示信息、确认信息等内容。

优选地，预处理单元302用于对待识别的语音数据进行语音格式预处理。优选地，预处理单元302对待识别的语音数据进行语音格式预处理包括：对待识别的语音数据进行分割以生成多个语音片段。通常可以按照语言规律或语义规则对待识别的语音数据进行分割。例如，将动词、名词等独立语义的词语作为单独的语音片段。然后，预处理单元对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识。预处理单元通过将语音片段进行宽带和窄带区分以用于进一步处理。接着，预处理单元对添加了宽带标识或窄带标识的语音片段进行音频特征提取，得到特征数据。所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。优选地，特征数据还可以包括语音片段对应的宽带标识和语音片段对应的窄带标识。优选地，预处理还包括语音信号的采样、反混叠滤波、语音增强。

优选地，特征提取单元303从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合。经过语音格式预处理的音频数据包括一个或多个特征数据，特征提取单元从所述一个或多个特征数据中提取语音特征并且将所提取的语音特征组成语音特征集合。

优选地，关键词识别单元304对待识别的语音数据进行关键词识别，获得一个或多个关键词。关键词识别单元304首先对待识别的语音数据进行处理，并且部分地消除噪声和不同说话人所引入的影响，使处理后的信号更能反映语音的内容特征。关键词识别单元304在语音数据中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点，从而完成端点检测。经过端点检测后，针对待检测的语音数据中的语音信号进行处理。关键词识别单元304将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。优选地，关键词识别单元304能够获得一个或多个关键词，并且所述关键词能够用于辅助确定多个识别对象中的哪一个是目标对象。

优选地，目标对象确定单元305根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。用户终端300通过接口单元309从识别服务器接收待识别的语音数据对应的识别对象集合。优选地，识别对象集合中包括多个识别对象，其中在识别对象集合中按照匹配度递减的顺序对识别对象进行排序。通常，识别服务器根据语音特征集合中的所有语音特征与语音模型进行匹配，并且匹配结果通常不是唯一确定的。例如，所有语音特征与语音模型匹配的结果显示识别对象可能是人物A、人物B、人物C和人物D。即，待识别的语音数据可能来自于人物A、人物B、人物C和人物D。识别服务器通过语音特征与语音模型的匹配确定与人物A、人物B、人物C和人物D的匹配度分别是90％、80％、60％和50％。由此，识别对象集合中可以按照如下方式进行排列：<人物A，90％>、<人物B，80％>、<人物C，60％>、<人物D，50％>。

优选地，目标对象确定单元305根据关键词识别单元304确定的一个或多个关键词进行加权。例如，一个或多个关键词为：篮球、NBA和扣篮等。目标对象确定单元305根据关键词对识别对象集合中的每个识别对象的匹配度进行加权。例如，人物B为篮球运动员，并且根据预设规则为匹配度的加权为15％，那么针对识别对象进行加权后，识别对象集合中可以按照如下方式进行排列：<人物B，95％>、<人物A，90％>、<人物C，60％>、<人物D，50％>。因此，目标对象确定单元305根据加权后的匹配度确定目标对象为人物B。在另一实例中，一个或多个关键词为：天黑黑、新加波和演唱会等。例如，人物A为歌手，并且根据预设规则为匹配度的加权为20％，那么针对识别对象进行加权后，识别对象集合中可以按照如下方式进行排列：<人物A，100％>、<人物B，80％>、<人物C，60％>、<人物D，50％>。因此，目标对象确定单元305根据加权后的匹配度确定目标对象为人物A。优选地，本申请最高匹配度为100％并且当出现并列最高匹配度的情况时，将具有最高匹配度的一个或多个识别对象均确定为目标对象。将一个或多个目标对象呈现给用户，并且由用户选择其中的一个作为要获取其相关数据的目标对象。

优选地，数据获取单元306获取与所确定的目标对象相对应的数据。如上所述，当确定目标对象时，数据获取单元306根据关联规则确定与所述目标对象相对应的数据内容并且将针对数据内容的请求发送至内容服务器，从内容服务器获取所述数据内容。例如，当确定目标对象是人物B时，数据获取单元306确定与人物B相对应的数据内容。优选地，人物B对应的数据内容为美国篮球联盟NBA的介绍信息、人物B的个人主页等。用户终端300将针对数据内容的请求发送至内容服务器，从而内容服务器根据用户终端300的请求将美国篮球联盟NBA的介绍信息发送给用户终端、将人物B的个人主页地址发送给用户终端300。例如，当确定目标对象是人物A时，数据获取单元306确定与人物A相对应的数据内容。优选地，人物B对应的数据内容为新歌榜单、人物B的个人主页、歌曲等。用户终端300将针对数据内容的请求发送至内容服务器，因此内容服务器根据用户终端300的请求将新歌榜单发送给用户终端、将人物B的个人主页地址发送给用户终端、或将歌曲的下载链接(或歌曲本身)发送给用户终端。

优选地，存储单元307可以存储通过利用输入单元301、接口单元309所获取的各种数据。例如，为了获得所存储的数据，处理单元308可以访问存储单元307。存储单元307通常可包括可移除或嵌入的、以静态或动态模式运行的存储器。此外，存储单元307可包括只读存储器(ROM)、随机访问存储器(RAM)以及可重写存储器(例如闪存、EPROM等)。优选地，存储单元307可以存储语音模型，以用于在用户终端侧根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合时使用。优选地，存储单元307还可以存储关键词识别单元对待识别的语音数据进行关键词识别时所使用的相关语音模型数据、中间数据等。优选地，存储单元用于存储关联则。其中，关联规则指示与目标对象相对应的数据内容。

优选地，处理单元308控制各个单元的整体操作，并且通过接口单元309控制数据的发送和接收。处理单元308控制将利用接口单元309所接收的数据存储在存储单元307中。

优选地，接口单元309用于使用户终端300能够通过远距离通信协议来接入与识别服务器进行通信的通信网络，或使用户终端300能够与近距离的其它用户终端通过近距离通信协议进行通信。例如，在使用蓝牙协议进行通信时，需要进行配对过程来确定连接对象。用户可以将用户终端300设置为作为对象设备的可搜索状态。当其他用户终端试图连接用户终端300时，用户通过各自设备分别输入相同的密码并且相互交换该输入的密码，由此完成配对处理。例如，在使用WiFi协议进行通信时，用户终端300通过WiFi协议接入互联网。

优选地，接口单元309用于使用户终端300能够与识别服务器通过远距离通信协议进行通信。用户终端300可以能够按照多个第一，第二，第三和/或第四代通信协议等中的任何协议进行操作。例如，用户终端300可以能够根据第二代(2G)无线通信协议IS-136(时分多址(TDMA))，GSM(全球移动通信系统)，和IS-95(码分多址(CDMA))，或根据第三代(3G)无线通信协议，如通用移动电信系统(UMTS)，CDMA2000，宽带CDMA(WCDMA)和时分-同步码分多址(TD-SCDMA)，和3.9G无线通信协议，例如E-UTRAN(演进的通用陆地无线接入网)，以及第四代(4G)无线通信协议等进行操作。可替换的(或附加的)，用户终端300可以能够按照非蜂窝通信机制进行操作。

优选地，显示单元310用于向用户呈现信息。显示单元310可以是各种类型的液晶屏幕，或其他屏幕。

图4示出了根据本发明优选实施方式的识别服务器400的结构图。如图4所示，识别服务器400包括：数据获取单元401、匹配单元402、识别对象生成单元403、控制单元404、存储单元405以及接口单元406。识别服务器400位于网络侧并且通过对用户终端发送的语音特征集合中的语音特征进行匹配来确定识别对象。识别服务器400的匹配单元402根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。优选地，识别对象生成单元403在识别对象集合中按照匹配度递减的顺序对识别对象进行排序。识别服务器400中的存储单元405预先存储语音模型并且用于匹配单元进行匹配时使用。识别服务器400可以将预先存储的语音模型发送给用户终端，并且用户终端将上述语音模型存储的本地存储单元中。

优选地，数据获取单元401用于获取语音特征集合并且对语音特征集合中的语音特征进行校验，以验证语音特征有效性。通常，数据获取单元401可以通过接口单元406来从用户终端获取语音特征集合。

优选地，匹配单元402根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。匹配单元402在进行语音特征与语音模型的匹配时，确定语音特征集合与多个对象之间的匹配度。匹配单元402根据系统预先设定的数量N来确定识别对象的数量。例如，系统预先设定的数量N为5，并且语音特征集合与多个对象之间的匹配度为<对象A，90％>、<对象B，80％>、<对象C，60％>、<对象D，50％>、<对象E，39％>、<对象F，36％>、<对象G，33％>、<对象H，31％>….，那么匹配单元402确定的识别对象为对象A-E。例如，系统预先设定的数量N为5，并且语音特征集合与多个对象之间的匹配度为<对象A，90％>、<对象B，80％>、<对象C，60％>、<对象D，50％>、<对象E，39％>、<对象F，39％>、<对象G，33％>、<对象H，31％>….那么匹配单元402确定的识别对象为对象A-F，并且以此类推。

优选地，识别对象生成单元403在识别对象集合中按照匹配度递减的顺序对识别对象进行排序。如上面的例子，即列表<对象A，90％>、<对象B，80％>、<对象C，60％>、<对象D，50％>、<对象E，39％>，或列表<对象A，90％>、<对象B，80％>、<对象C，60％>、<对象D，50％>、<对象E，39％>、<对象F，39％>。识别对象生成单元403将上述列表封装成分组并经由接口单元406发送给用户终端。

优选地，控制单元404控制各个单元的整体操作，并且通过利用接口单元406控制数据的发送和接收。

优选地，存储单元405用于存储识别服务器400从一个或多个用户终端接收的语音特征集合。存储单元405通常可包括可移除或嵌入的、以静态或动态模式运行的存储器。此外，存储单元405可包括只读存储器(ROM)、随机访问存储器(RAM)以及可重写存储器(例如闪存、EPROM等)。优选地，存储单元405中可以存储用于语音匹配的语音模型，以用于在用户终端侧根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合时使用。优选地，存储单元405还可以存储关键词识别单元对待识别的语音数据进行关键词识别时所使用的相关语音模型数据、中间数据等。

优选地，接口单元406用于识别服务器400与用户终端进行数据通信。接口单元406能够根据各种协议来接收或发送数据。接口单元406能够利用有线互联网，并且可以通过移动通信网络(码分多址(CDMA)、宽带码分多址(W-CDMA)等)连接的无线数据网络(互联网、IP多媒体子系统(IMS)等)、卫星通信网络、通过无线保真(Wi-Fi)连接的互联网等进行通信。

根据本发明的替代实施方式，识别服务器400也可以包括预处理单元，所述预处理单元对待识别的语音数据进行语音格式预处理。优选地，预处理单元对待识别的语音数据进行语音格式预处理包括：对待识别的语音数据进行分割以生成多个语音片段。通常可以按照语言规律或语义规则对待识别的语音数据进行分割。例如，将动词、名词等独立语义的词语作为单独的语音片段。然后，预处理单元对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识。预处理单元通过将语音片段进行宽带和窄带区分以用于进一步处理。接着，预处理单元对添加了宽带标识和窄带标识的语音片段进行音频特征提取，得到特征数据。所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。优选地，特征数据还可以包括语音片段对应的宽带标识和语音片段对应的窄带标识。

图5示出了根据本发明优选实施方式的数据获取方法的流程图。如图5所示，方法500从步骤501处开始。然后方法500进入步骤502，接收待识别的语音数据。

然后，方法500进入步骤503，对所述待识别的语音数据进行语音格式预处理。其中对所述待识别的语音数据进行语音格式预处理包括：对所述待识别的语音数据进行分割以生成多个语音片段；对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识；对添加了宽带标识或窄带标识的语音片段进行音频特征提取，得到特征数据，所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。

然后，方法500进入步骤504，从经过语音格式预处理的音频数据提取语音特征，将所提取的语音特征组成语音特征集合。

接着，方法500进入步骤505，根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合。其中根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合包括：将语音特征集合发送至识别服务器，识别服务器将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合。或者，将语音特征集合发送至终端设备的匹配单元，终端设备的匹配单元将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合

接着，方法500进入步骤506，对待识别的语音数据进行关键词识别，获得一个或多个关键词。

接着，方法500进入步骤507，根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。其中根据所述一个或多个关键词对从识别服务器获取的识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象包括：根据所述一个或多个关键词在相关度数据库中进行搜索，确定待识别的语音数据与识别对象集合中每个识别对象的相关度，根据所述相关度对每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。

接着，方法500进入步骤508，用户终端获取与所确定的目标对象相对应的数据。其中获取与所确定的目标对象相对应的数据包括：根据关联规则确定与所述目标对象相对应的数据内容并且将针对数据内容的请求发送至内容服务器，从内容服务器获取所述数据内容。最后，方法500在步骤509处结束。

Claims

1.一种基于声纹识别的数据获取系统，所述数据获取系统包括：

2.根据权利要求1所述的数据获取系统，其中用户终端对所述待识别的语音数据进行语音格式预处理包括：利用预处理单元对所述待识别的语音数据进行分割以生成多个语音片段；对多个语音片段进行宽窄带判别，对判别为宽带信号的语音片段添加宽带标识，对判别为窄带信号的语音片段添加窄带标识；以及对添加了宽带标识或窄带标识的语音片段进行音频特征提取，得到特征数据；

其中所述特征数据包括语音片段的起始时间、语音特征和音频文件名称。

3.根据权利要求1所述的数据获取系统，其中识别服务器根据用户终端发送的语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合包括：

识别服务器从用户终端接收语音特征集合，并且将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合；

或者，将语音特征集合传送至用户终端的匹配单元，用户终端的匹配单元将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合。

4.根据权利要求1所述的数据获取系统，其中用户终端根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象包括：用户终端的目标对象确定单元根据所述一个或多个关键词在相关度数据库中进行搜索，确定待识别的语音数据与识别对象集合中每个识别对象的相关度，根据所述相关度对每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。

5.根据权利要求1所述的数据获取系统，其中用户终端获取与所确定的目标对象相对应的数据包括：用户终端的数据获取单元根据关联规则确定与所述目标对象相对应的数据内容并且将针对数据内容的请求发送至内容服务器，从内容服务器获取所述数据内容。

6.一种基于声纹识别的数据获取方法，所述数据获取方法包括：

接收待识别的语音数据；

对所述待识别的语音数据进行语音格式预处理；

获取与所确定的目标对象相对应的数据。

7.根据权利要求6所述的方法，其中对所述待识别的语音数据进行语音格式预处理包括：

对所述待识别的语音数据进行分割以生成多个语音片段；

对添加了宽带标识或窄带标识的语音片段进行音频特征提取，得到特征数据；

8.根据权利要求6所述的方法，其中根据语音特征集合中的所有语音特征与语音模型进行匹配，确定所述待识别的语音数据对应的识别对象集合包括：

将语音特征集合发送至识别服务器，识别服务器将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合；

或者，将语音特征集合发送至终端设备的匹配单元，终端设备的匹配单元将语音特征集合中的所有语音特征与预先存储的语音模型进行匹配，根据匹配度确定与所述待识别的语音数据对应的至少一个识别对象，将所述至少一个识别对象组成识别对象集合。

9.根据权利要求6所述的方法，其中根据所述一个或多个关键词对识别对象集合中的每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象包括：根据所述一个或多个关键词在相关度数据库中进行搜索，确定待识别的语音数据与从所述识别服务器获取的识别对象集合中每个识别对象的相关度，根据所述相关度对每个识别对象的匹配度进行加权，根据加权后的匹配度确定目标对象。

10.根据权利要求6所述的方法，其中获取与所确定的目标对象相对应的数据包括：根据关联规则确定与所述目标对象相对应的数据内容并且将针对数据内容的请求发送至内容服务器，从内容服务器获取所述数据内容。