CN104978366B

CN104978366B - 基于移动终端的语音数据索引建立方法和系统

Info

Publication number: CN104978366B
Application number: CN201410148227.0A
Authority: CN
Inventors: 黄石磊; 王昕�; 刘轶; 程刚
Original assignee: Shenzhen Beike Risound Polytron Technologies Inc
Current assignee: Shenzhen Beike Risound Polytron Technologies Inc
Priority date: 2014-04-14
Filing date: 2014-04-14
Publication date: 2018-09-25
Anticipated expiration: 2034-04-14
Also published as: CN104978366A

Abstract

本发明提供了一种基于移动终端的语音数据索引建立方法，包括：检测是否具有通过预设连接方式来连接到指定计算机的条件；若具有条件，则通过预设连接方式连接到指定计算机，利用位于指定计算机上的第一索引生成器来建立待处理语音数据的索引；若不具有条件，则利用位于本地的第二索引生成器来生成第一类型的第二索引数据以建立待处理语音数据的索引；或者利用位于本地的第三索引生成器来生成第二类型的第三索引数据以建立待处理语音数据的索引。本发明提供的基于移动终端的语音数据索引建立方法可高效建立语音数据的索引，并优先满足语音检索的需求。本发明还提供了一种基于移动终端的语音数据索引建立系统。

Description

基于移动终端的语音数据索引建立方法和系统

技术领域

本发明涉及语音处理技术领域，特别是涉及一种基于移动终端的语音数据索引建立方法和系统。

背景技术

随着互联网技术的不断发展，信息数据中的多媒体数据量已经大大超过了文本数据量，并且仍然保持着高速增长。语音数据是多媒体信息的主要组成部分，人们的手机、平板电脑等移动终端中存储了大量的语音数据，而如何快速检索到用户所需的语音数据成为亟待解决的问题。

目前在移动终端上可以通过语音文件的文件名、文件信息或者语音标签（TAG）等来检索语音文件，但在移动终端上检索语音内容却是一个难题。具体来说就是难以通过向移动终端输入文字这样的关键词，来检索内容中包含有该关键词的语音文件。虽然目前可通过为语音文件建立语音索引来实现语音检索，但语音索引的建立是一种非常消耗计算资源的操作，若使用移动终端来建立语音索引对移动终端电池的消耗非常大，效率也不高，难以广泛应用；而若移动终端利用云端服务器来建立索引则存在泄露用户隐私的问题。

发明内容

基于此，有必要针对通过移动终端建立语音索引效率低，功耗较大；而直接采用云端服务器来建立语音数据的索引存在隐私泄露的问题，提供一种基于移动终端的语音数据索引建立方法和系统。

一种基于移动终端的语音数据索引建立方法，所述方法包括：

检测是否具有通过预设连接方式来连接到指定计算机的条件；

若具有所述条件，则通过所述预设连接方式连接到所述指定计算机，将待处理语音数据或者从待处理语音数据中提取的语音特征序列发送给所述指定计算机，使所述指定计算机将所述待处理语音数据或者所述语音特征序列输入位于所述指定计算机上的第一索引生成器来生成第一类型的第一索引数据；从所述指定计算机获取所述第一索引数据并根据所述第一索引数据建立所述待处理语音数据的索引；

若不具有所述条件，则将所述待处理语音数据或者所述语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据所述第二索引数据来建立所述待处理语音数据的索引；或者，将所述待处理语音数据或者所述语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据所述第三索引数据来建立所述待处理语音数据的索引。

一种基于移动终端的语音数据索引建立系统，所述系统包括条件检测模块和第一索引建立模块；

所述条件检测模块，用于检测是否具有通过预设连接方式来连接到指定计算机的条件；

所述第一索引建立模块，用于若具有所述条件，则通过所述预设连接方式连接到所述指定计算机，将待处理语音数据或者从待处理语音数据中提取的语音特征序列发送给所述指定计算机，使所述指定计算机将所述待处理语音数据或者所述语音特征序列输入位于所述指定计算机上的第一索引生成器来生成第一类型的第一索引数据；从所述指定计算机获取所述第一索引数据并根据所述第一索引数据建立所述待处理语音数据的索引；

所述系统还包括第二索引建立模块，用于若不具有所述条件，则将所述待处理语音数据或者所述语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据所述第二索引数据来建立所述待处理语音数据的索引；或者，

所述系统还包括第三索引建立模块，用于将所述待处理语音数据或者所述语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据所述第三索引数据来建立所述待处理语音数据的索引。

上述基于移动终端的语音数据索引建立方法和系统，当移动终端可以连接到指定计算机时，使用指定计算机上的第一索引生成器来生成第一类型的第一索引数据，从而根据所述第一索引数据在本地建立待处理语音数据的索引。当移动终端不可以连接到指定计算机时，则使用本地的第二索引生成器来生成第一类型的第二索引数据，或者是使用本地的第三索引生成器来生成第二类型的第三索引数据，从而建立待处理语音数据的索引。

这样由于通常计算机的运算能力浪费严重，计算资源没有得到有效利用，而优先依靠指定计算机强大的计算能力来生成索引，可以有效利用指定计算机的计算资源来高效地生成索引，可以有效节省移动终端的电能，且由于指定计算机是受信任的计算机，不会泄露用户隐私。当无法使用指定计算机生成索引时，也可以使用移动终端的本地资源来生成索引，从而保证建立索引的工作不被中断。进一步地，若使用指定计算机和使用移动终端来分别生成不同类型的索引数据，则可以在无法使用指定计算机生成高精确度的索引数据时，则本地生成临时的低精确度的索引数据，以高效建立待处理语音数据的索引，优先满足语音检索的需求，保证语音数据检索可以正常进行。

附图说明

图1为一个实施例中基于移动终端的语音数据索引建立方法的流程示意图；

图2为一个实施例中索引生成器的组成结构示意图；

图3为一个实施例中根据当前是否连接到外接电源或非指定计算机的判断结果，来分别采用第二索引生成器或者第三索引生成器来建立索引的步骤的流程示意图；

图4为一个实施例中欠处理语音数据重新建立索引的步骤的流程示意图；

图5为一个实施例中检索语音数据的步骤的流程示意图；

图6为一个实施例中语音数据综合检索系统的结构框图；

图7为一个实施例中基于移动终端的语音数据索引建立系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提供了一种基于移动终端的语音数据索引建立方法。该方法应用于移动终端，移动终端包括但不限于智能手机、平板电脑、个人数字助理等可与计算机连接的设备。该方法具体包括以下步骤：

步骤102，检测是否具有通过预设连接方式来连接到指定计算机的条件。若具有条件，则执行步骤104；若不具有条件，则执行步骤106。

预设连接方式包括网络连接方式和点对点连接方式中的至少一种。网络连接可以是互联网连接，也可以是局域网连接；点对点连接可以是USB（Universal Serial Bus，通用串行总线）连接，基于近场无线通信技术（NFC）的连接，无线USB（WUSB）连接等。指定计算机具有比移动终端高的计算能力，这主要是由于计算机的CPU（中央处理器）与移动终端相比更为出色，CPU设计时通常不必考虑硬件体积的因素。而且计算机用电通常由市电直接供电，不需要考虑耗电问题。因此移动终端优先尝试连接到指定计算机，借助指定计算机来建立索引。

移动终端检测是否具有通过预设连接方式来连接到指定计算机的条件，具体地，可以是检测移动终端是否通过互联网连接了指定计算机，移动终端通过互联网连接指定计算机可以通过服务器的中转；也可以是检测移动终端是否通过局域网连接了指定计算机；或者可以是检测移动终端是否通过点对点连接方式连接了指定计算机。

指定计算机是事先设定的受信任的计算机，比如用户的个人计算机，而不是云端服务器，这样移动终端和计算机均属于用户，数据处理均在用户自己的终端上，从而可以有效避免涉及用户隐私的语音数据被泄露。可通过判断待连接的计算机的计算机标识是否存在于受信任计算机标识列表中来判断待连接计算机是否为指定计算机。

步骤104，通过预设连接方式连接到指定计算机，将待处理语音数据或者从待处理语音数据中提取的语音特征序列发送给指定计算机，使指定计算机将待处理语音数据或者语音特征序列输入位于指定计算机上的第一索引生成器来生成第一类型的第一索引数据；从指定计算机获取第一索引数据并根据第一索引数据建立待处理语音数据的索引。

索引生成器用于根据输入的语音数据输出相应的索引数据，典型的索引生成器可使用语音识别技术来实现，输出相应的文本序列，以及文本序列中各个文本单元（单个字或词）的时间标记。待处理语音数据是指需要建立索引的语音数据，待处理语音数据可以是移动终端上生成的语音数据，比如通话录音，也可以是从其他设备上拷贝的语音数据。待处理语音数据还可以携带有与待处理语音数据相关的信息，比如文件名称、录制时间、文件生成时间、录制地点等，若待处理语音数据为通话录音，则待处理语音数据还可以携带有来电号码等与通话相关的信息。待处理语音数据和这些与待处理语音数据相关的信息在移动终端上对应存储。

参考图2中索引生成器（第一、第二以及第三索引生成器中的任意一种）的结构框图，索引生成器包括解码器、声学模型和语言模型。解码器用于接收语音数据，结合声学模型和语言模型寻找能够以最大概率输出的文本序列。声学模型可采用一阶隐马尔科夫模型（HMM）进行建模，语言模型可以用于描述给定词序列在语言中出现的概率的分布。其中索引生成器的输入可以是语音数据本身，或者是从语音数据中提取出的语音特征序列。当然由于语音识别存在一定的模糊性和出错的可能，因此索引生成器输出的文本序列可能包含一些近似的内容。

步骤104中，指定计算机上预设了第一索引生成器，当移动终端具有通过预设连接方式来连接到指定计算机的条件时，则连接到该指定计算机，从而将待处理语音数据发送给该指定计算机，使得该指定计算机利用指定计算机上预设的第一索引生成器，来识别待处理语音数据，从而生成第一类型的第一索引数据。移动终端获取指定计算机上的该第一索引数据，具体可通过下载方式获取第一索引数据，然后根据该第一索引数据在移动终端本地建立待处理语音数据的索引。

当移动终端通过互联网中服务器的中转而将待处理语音数据间接地发送给指定计算机时，或者当移动终端通过局域网将待处理语音数据发送给指定计算机时，可对发送的语音数据进行加密，也可以使指定计算机对返回的索引数据进行加密，以防止语音数据被泄露，从而充分保障用户语音数据的安全。

索引是用于在语音数据检索时快速查找语音内容的一种数据结构，体现的是语音数据与相应的索引数据的对应关系；其中语音内容是指语音数据中通过声音形式表示的语言信息。索引的数据组织结构可为现有的任意索引结构，在这里不做限定。每个文本序列对应一个置信度，用于表示相应的文本序列的可信程度。这样索引数据包括文本序列，还可以包括文本序列对应的时间标记和置信度。

步骤106，将待处理语音数据或者语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据第二索引数据来建立待处理语音数据的索引；或者，将待处理语音数据或者语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据第三索引数据来建立待处理语音数据的索引。

当移动终端不具有连接到指定计算机的条件时，此时无法利用指定计算机来生成索引数据，而需要依靠移动终端自身来建立索引。具体地，在一个实施例中，移动终端可使用位于移动终端本地的第二索引生成器来生成第一类型的第二索引数据，然后根据该第二索引数据来建立待处理语音数据的索引。在另一个实施例中，移动终端可使用位于移动终端本地的第三索引生成器来生成第二类型的第三索引数据，然后根据该第三索引数据来建立待处理语音数据的索引。

其中，对于相同的语音数据，通过第一索引生成器来生成索引数据所需的资源量高于通过第二索引生成器来生成索引数据所需的资源量，通过第二索引生成器来生成索引数据所需的资源量高于通过第三索引生成器来生成索引数据所需的资源量。对于相同的语音数据，据其生成的第一类型的索引数据的精确度高于据其生成的第二类型的索引数据的精确度。对于相同的语音数据，据其而生成的索引的精确度与采用何种索引生成器和索引的类型相关。

第一、第二以及第三索引生成器生成索引所需的资源量与其声学模型和语言模型直接相关。具体地，第一索引生成器具有最大等级的声学模型和语言模型，在处理的时候运算量很大。第一索引生成器位于指定计算机上，具有较大的运算能力（相对移动设备而言）。所生成的第一类型的索引数据最精确。典型的第一索引生成器的声学模型超过100MB（兆字节），语言模型超过1GB（千兆字节），若指定计算机采用2GHz（千兆赫兹）以上的双核CPU，调用第一索引生成器运算的时候CPU（双核）的占用率可能达70%以上，当然也最耗能。

第二索引生成器具有中等等级的声学模型和语言模型，调用第二索引生成器运算的时候运算量中等。第二索引生成器位于移动终端，所生成的第一类型的索引中等精确。典型的第二索引生成器的声学模型为20MB，语言模型为100MB，1GHz以上的ARM（一种中央处理器的类型）的CPU，运算时时两个核占用率超过50%，耗电能力中等。

第三索引生成器具有最小等级的声学模型和语言模型，在处理的时候运算量最小。第三索引生成器位于移动终端，其所生成的第二类型的索引精确最差。典型的第三索引生成器的声学模型为5MB，语言模型为5MB，ARM的CPU运行在500MHz，运算时时单个核占用率超过50%，也最为省电。

第一类型的索引数据和第二类型的索引数据的区别在于精确度的不同，可采用不同的表现形式。在一个实施例中，第一类型的索引数据可以以字或词为单位，第二类型的索引数据可以以音节为单位。比如若语音数据的语音内容为“今天天气很好”，那么第一索引数据可为“今天天气很好”，而第二类型的索引数据可为“jin tian tian qi hen hao”，这样第一类型的索引数据的精确度要高于第二类型的索引数据的精确度。一段语音数据，如果可能将尽量生成第一索引类型，这样检索的时候更为精确，但是需要较大的运算量。比如当使用指定计算机来生成索引时，一段1分钟的语音数据可能需要运算30秒。

上述基于移动终端的语音数据索引建立方法，当移动终端可以连接到指定计算机时，使用指定计算机上的第一索引生成器来生成第一类型的第一索引数据，从而根据第一索引数据在本地建立待处理语音数据的索引。当移动终端不可以连接到指定计算机时，则使用本地的第二索引生成器来生成第一类型的第二索引数据，或者是使用本地的第三索引生成器来生成第二类型的第三索引数据，从而建立待处理语音数据的索引。

这样由于通常指定计算机的运算能力浪费严重，计算资源没有得到有效利用，而优先依靠指定计算机强大的计算能力来生成索引，可以有效利用指定计算机的计算资源来高效地生成索引，可以有效节省移动终端的电能，且由于指定计算机是受信任的计算机，不会泄露用户隐私。当无法使用指定计算机生成索引时，也可以使用移动终端的本地资源来生成索引，从而保证建立索引的工作不被中断。进一步地，若使用指定计算机和使用移动终端来分别生成不同类型的索引数据，则可以在无法使用指定计算机生成高精确度的索引数据时，则本地生成临时的低精确度的索引数据，以高效建立待处理语音数据的索引，优先满足语音检索的需求，保证语音数据检索可以正常进行，而且可以节省移动终端的电能。

在一个实施例中，在步骤102之前，还包括：将待处理语音数据进行预处理。具体地，可将待处理语音数据转化为统一形式，还可以对待处理语音数据进行特征提取，以获得相应的语音特征序列。

在一个实施例中，为了提高检索速度，建立的待处理数据的索引可以采用反向索引，或者可称为倒排索引。采用倒排索引的索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引。

如图3所示，在一个实施例中，步骤106具体包括以下步骤：

步骤302，判断当前是否连接到外接电源或者判断是否连接到非指定计算机。若判断为是，则执行步骤304；若判断为否，则执行步骤306。

移动终端的电池是影响移动终端性能的一个重要因素，因此本实施例中通过判断移动终端是否连接到外接电源，从而进行不同的建立索引的过程。其中外接电源可以是通过移动终端的充电器连接到市电，或者可以是用于为移动终端充电或供电的外部供电装置。非指定计算机是指不是上述指定计算机的计算机，非指定计算机是不受信任或者无法判断是否受信任的计算机。

步骤304，将待处理语音数据或者语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据第二索引数据来建立待处理语音数据的索引。

当移动终端连接到外接电源时，此时可无需考虑移动终端的耗电量，而以第二索引生成器来生成第一类型的第二索引数据。或者连接到非指定计算机时，此时非指定计算机可以为移动终端供电，但因其不是受信任的计算机，存在泄露用户隐私的风险，因此不使用非指定计算机上的索引生成器来生成索引数据，而是使用移动终端上的第二索引生成器来生成第一类型的第二索引数据。这样生成的第二索引数据虽然精确度逊于指定计算机通过第一索引生成器生成的第二索引数据，但仍具有相当高的精确度，可以实现较为精确的语音数据检索。

步骤306，将待处理语音数据或者语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据第三索引数据来建立待处理语音数据的索引。

当移动终端未连接到外接电源时，此时建立索引消耗的是移动终端自身电池的电能，需要优先考虑耗电量，因而采用第三索引生成器来生成第二类型的第三索引数据。或者未连接到非指定计算机，此时移动终端也无法由非指定计算机供电，需要考虑耗电量，因而采用第三索引生成器来生成第二类型的第三索引数据。这样生成的第三索引数据虽然不够精确，但仍然可以用于检索，可以作为当移动终端未连接外接电源时的一种临时处理手段。

本实施例中，通过判断移动终端是否连接外接电源或者是否连接到非指定计算机，从而根据判断结果来采用不同的索引生成器来生成索引数据，并建立索引，从而实现移动终端耗电量和检索精确度的巧妙权衡。

如图4所示，在一个实施例中，通过预设连接方式连接到指定计算机的步骤之后，优选可以在处理完所有待处理数据之后，还包括为欠处理语音数据重新建立索引的步骤，具体包括以下步骤：

步骤402，判断本地是否存在对应第二类型的索引数据的欠处理语音数据。若存在则执行步骤404，若不存在则执行步骤408。

由于在移动终端未连接外接电源而使用电池的情况下，会使用第三索引生成器来生成第二类型的索引，这样生成的索引精确度不够，可用于建立临时的索引。为了提高检索精确度，可在移动终端连接到指定计算机时，判断本地是否存在对应第二类型的索引数据的语音数据，将该语音数据称为欠处理语音数据，因为它是临时生成的，需要在移动终端连接到指定计算机时进行进一步地处理。

步骤404，将欠处理语音数据或从欠处理语音数据提取出的语音特征序列发送给指定计算机，使指定计算机将欠处理语音数据或从欠处理语音数据提取出的语音特征序列输入位于指定计算机上的第一索引生成器来生成第一类型的第四索引数据。

与通过指定计算机来生成待处理数据的索引数据的过程相同，移动终端将欠处理语音数据或者从该欠处理语音数据中提取出的语音特征序列发送给指定计算机，该语音特征序列与上述待处理数据的语音特征序列形式一致，可以是生成该语音数据的第二类型的索引数据时所使用并存储的语音特征序列。指定计算机将欠处理语音数据或者从欠处理语音数据中提取出的语音特征序列输入位于指定计算机上的第一索引生成器来生成第一类型的第四索引数据。该第四索引数据的精确度高于移动终端上当前该欠处理语音数据所对应的索引数据的精确度。

步骤406，从指定计算机获取第四索引数据，并根据第四索引数据来更新欠处理语音数据的索引。

指定计算机可自动将第四索引数据发送给移动终端，由移动终端获取；或者移动终端可主动获取指定计算机上的第四索引数据。移动终端根据第四索引数据来更新欠处理语音数据的索引，具体地，可将欠处理语音数据对应的第二类型的索引数据删除，并建立欠处理语音数据与第一类型的第四索引数据的对应关系。

步骤408，当不存在待处理数据与欠处理数据时，结束流程。

当待处理数据均已建立索引成为已处理数据，欠处理数据也已经更新索引成为已处理数据，这样所有语音数据处理完毕，可结束流程，使得第一索引生成器和/或第二索引生成器和/或第三索引生成器进入休眠状态，减少对计算资源以及电能的消耗。

本实施例中，在移动终端连接指定计算机的情况下，通过对临时获得的欠处理语音数据的索引数据进行再次处理，以提高该欠处理语音数据的索引数据的精确度，从而可以提高检索语音数据的准确度。

如图5所示，在一个实施例中，该基于移动终端的语音数据索引建立方法还包括检索语音数据的步骤，用于从根据上述任意一实施例的基于移动终端的语音数据索引建立方法而建立了索引的语音数据库中检索语音数据。索引数据库中包括至少一个语音数据，且每个语音数据都建立了索引，索引数据库包括语音数据和相应的索引数据的对应关系，索引数据可以包括文本序列和其所对应的置信度。语音数据库还可以包括语音数据所携带的该语音数据的相关信息。该检索语音数据的步骤包括以下步骤：

步骤502，获取输入的关键词。

检索语音数据的过程，是指输入关键词从而检索到包括该关键词的语音数据的过程。移动终端可提供输入界面，获取用户在输入界面中输入的关键词。

步骤504，根据已建立的索引查找包含关键词的第一类型的索引数据。

当用户输入的关键词为多个时，则移动终端可对多个关键词进行逻辑组合，具体地，进行和、或的组合。比如用户输入两个关键词，分别为“今天”、“开会”，则可根据已建立的索引从语音数据库中查找同时包括“今天”和“开会”两个关键词的索引数据，还可以分别以“今天”或者是“开会”为关键词分别查找索引数据。移动终端先从语音数据库中第一类型的索引数据中查找是否存在包含关键词的索引数据。

步骤506，判断是否查找到包含关键词的第一类型的索引数据。若是则执行步骤508，若否则执行步骤510。

移动终端通过判断是否查找到包含关键词的第一类型的索引数据，从而执行不同的处理步骤。

步骤508，获取查找到的第一类型的索引数据所对应的语音数据。

当查找到包含关键词的第一类型的索引数据时，则可从移动终端本地的语音数据库中获取该索引数据所对应的语音数据。

步骤510，继续根据已建立的索引查找包含关键词的第二类型的索引数据。

当未查找到包含关键词的第二类型的索引数据时，则继续根据已建立的索引从语音数据库中查找包含该关键词的第二类型的索引数据。这样虽然未查找到较高精确度的索引数据，但可以检索精确度较低的索引数据，从而可实现对语音数据进行粗略的检索。

步骤512，判断是否查找到包含关键词的第二类型的索引数据。若是则执行步骤514，若否则执行步骤518。

移动终端通过判断是否查找到包含关键词的第二类型的索引数据，从而执行不同的处理步骤。

步骤514，获取查找到的第二类型的索引数据所对应的语音数据。

当查找到包含关键词的第二类型的索引数据时，则可从移动终端本地的语音数据库中获取该索引数据所对应的语音数据。

步骤516，将获取到的语音数据作为检索到的语音数据输出。

将获取到的上述查找到的第一类型的索引数据所对应的语音数据，和/或获取到的上述查找到的第二类型的索引数据所对应的语音数据作为检索到的语音数据输出，以完成语音数据的检索。具体地，移动终端还可以预设的形式显示获取到的语音数据所携带的相关信息，比如显示获取到的语音数据的名称、录制时间等，还可以显示查找到的语音数据的数量。

步骤518，结束流程。

当未检索到包含关键词的第二类型的索引数据时，说明移动终端本地不存在包含关键词的语音内容的语音数据，可结束流程，并可显示表示未查找到语音内容包括上述关键词的语音数据的提示。

本实施例中，先查找第一类型的索引数据，这样可以优先输出高精确度的第一索引数据所对应的语音数据，以保证语音数据检索的准确性。而当查找不到第一类型的索引数据时，再查找第二类型的索引数据，这样虽然第二类型的索引数据精确度不如第一类型的索引数据，但也可以实现语音数据检索，优先满足语音数据检索的需求，保证语音数据检索可以正常进行。

在一个实施例中，语音数据库中的索引数据包括置信度；该基于移动终端的语音数据索引建立方法还包括：获取检索到的多个语音数据各自对应的置信度，根据获取的置信度确定获取的置信度所对应的语音数据的信息显示顺序，并根据信息显示顺序来显示检索到的多个语音数据的相关信息。

具体地，语音数据库中的每条语音数据所对应的索引数据包括文本序列和其所对应的置信度，表示该语音数据被识别为该文本序列的可靠程度。上述查找到的语音数据为多个，此时获取检索到的多个语音数据各自对应的置信度，并根据该获取的置信度来确定获取的置信度所对应的语音数据的信息显示顺序，比如按照置信度由高到低的顺序确定获取的置信度所对应的语音数据的信息显示顺序，或者当存在多个关键词时，可根据多个关键词各自查找到的语音数据所对应的置信度计算综合得分，并可以得分由高到低的顺序来确定获取的置信度所对应的语音数据的信息显示顺序。

信息显示顺序是指获取到的多个索引数据的相关信息的先后排列顺序。比如可按行显示获取到的多个索引数据的相关信息，每行为一条记录，每条记录可包括索引数据的文字序列和/或该文字序列对应的置信度，每条记录还可以包括相应的语音数据的相关信息，比如文件名称、录制时间、来电号码等等。

在一个实施例中还可以接收对显示的相关信息的选择指令，根据选择指令选定该相关信息对应的语音数据，并执行对该选定的语音数据的预设操作；比如可播放该语音数据。还可以记录接收的选择指令，并根据记录的选择指令来调整语音数据所对应的置信度，以通过动态调整置信度来提高检索精确度。

下面用一个具体应用场景来说明上述基于移动终端的语音数据索引建立方法的原理，该应用场景以上述基于移动终端的语音数据索引建立方法应用于一种语音数据综合检索系统来进行说明。

如图6所示，语音数据综合检索系统600运行于移动终端上，包括基于移动终端的语音数据索引建立系统610和语音数据检索系统620。其中基于移动终端的语音数据索引建立系统610用于执行上述基于移动终端的语音数据索引建立方法，语音数据检索系统620用于执行上述检索语音数据的步骤。第一索引生成器运行于指定计算机上，第二、第三索引生成器运行于移动终端上。第二索引生成器和第三索引生成器可以属于基于移动终端的语音数据索引建立系统610，也可以是单独运行的可调用的模块。基于移动终端的语音数据索引建立系统610包括采集模块612、预处理模块614、语音数据库616和索引生成模式选择器618。语音数据库616包括对应存储的语音数据和索引数据。语音数据检索系统620包括检索模块622和检索结果处理模块624。

具体地，采集模块612用于采集语音数据，比如录音或从其它设备或移动终端上的预设路径拷贝语音数据。预处理模块614用于对采集的语音数据进行预处理，包括将采集的语音数据转化为统一形式，并从该语音数据中提取语音特征序列。预处理后的语音数据保存在语音数据库616中。

索引生成模式选择器618用于检测移动终端是否具有通过预设连接方式来连接到指定计算机的条件，当具有条件时，通过预设连接方式连接到该指定计算机，将语音数据库中的待处理的语音数据或该语音数据的语音特征序列发送给指定计算机，使得该指定计算机利用指定计算机上的第一索引生成器来生成第一类型的第一索引数据。索引生成模式选择器618还用于从该指定计算机获取第一索引数据并在语音数据库606中与待处理的语音数据对应存储，以建立该语音数据的索引。

索引生成模式选择器618还用于当移动终端不具有通过预设连接方式连接到指定计算机的条件时，判断移动终端是否连接到外接电源。若连接到外接电源，索引生成模式选择器618用于将待处理语音数据或者语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，在语音数据库606中与待处理的语音数据对应存储，以建立该语音数据的索引。若未连接到外接电源，则索引生成模式选择器618用于将待处理语音数据或者语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，在语音数据库606中与待处理的语音数据对应存储，以建立该语音数据的索引。

索引生成模式选择器618还用于检测语音数据库616中是否存在对应第二类型的索引数据的欠处理语音数据，若存在则将欠处理语音数据或从欠处理语音数据提取出的语音特征序列发送给指定计算机，使指定计算机将欠处理语音数据或从欠处理语音数据提取出的语音特征序列输入位于指定计算机上的第一索引生成器来生成第一类型的第四索引数据。索引生成模式选择器618还用于从指定计算机获取第四索引数据，并根据第四索引数据来更新语音数据库616中的欠处理语音数据的索引。

检索模块622用于获取输入的关键词，从语音数据库中查找包含关键词的第一类型的索引数据，当查找到时，获取查找到的第一类型的索引数据所对应的语音数据。检索模块622用于当未查找到第一类型的索引数据时，继续从语音数据库中查找包含关键词的第二类型的索引数据，当查找到时，获取查找到的第二类型的索引数据所对应的语音数据。检索模块622用于将获取到的语音数据作为检索到的语音数据输出给检索结果处理模块624。

其中语音数据库616中的索引数据包括置信度，检索结果处理模块624用于获取检索到的多个语音数据各自对应的置信度，根据获取的置信度确定获取的置信度所对应的语音数据的信息显示顺序，并根据信息显示顺序来显示检索到的多个语音数据的相关信息。

如图7所示，在一个实施例中，提供了一种基于移动终端的语音数据索引建立系统，包括：条件检测模块702和第一索引建立模块704，还包括第二索引建立模块706和/或第三索引建立模块708，且对于同一待处理语音数据由第二索引建立模块706和第三索引建立模块708二者择一进行处理。

条件检测模块702，用于检测是否具有通过预设连接方式来连接到指定计算机的条件。

预设连接方式包括网络连接方式和点对点连接方式中的至少一种。网络连接可以是互联网连接，也可以是局域网连接；点对点连接可以是USB连接，基于近场无线通信技术的连接，无线USB连接等。指定计算机具有比移动终端高的计算能力，而且指定计算机用电通常由市电直接供电，不需要考虑耗电问题。因此优先尝试连接到指定计算机，借助指定计算机来建立索引。

条件检测模块702用于检测是否具有通过预设连接方式来连接到指定计算机的条件，具体地，可以用于检测是否通过互联网连接了指定计算机，通过互联网连接指定计算机时通信数据可以通过服务器中转。条件检测模块702也可以用于检测是否通过局域网连接了指定计算机；或者可以用于检测是否通过点对点连接方式连接了指定计算机。

指定计算机是事先设定的受信任的计算机，比如用户的个人计算机，而不是云端服务器，这样移动终端和计算机均属于用户，数据处理均在用户自己的终端上，从而可以有效避免涉及用户隐私的语音数据被泄露。

第一索引建立模块704，用于若具有条件，则通过预设连接方式连接到指定计算机，将待处理语音数据或者从待处理语音数据中提取的语音特征序列发送给指定计算机，使指定计算机将待处理语音数据或者语音特征序列输入位于指定计算机上的第一索引生成器来生成第一类型的第一索引数据；从指定计算机获取第一索引数据并根据第一索引数据建立待处理语音数据的索引。

索引生成器用于根据输入的语音数据输出相应的索引数据，典型的索引生成器可使用语音识别技术来实现，输出相应的文本序列，以及文本序列中各个文本单元的时间标记。待处理语音数据是指需要建立索引的语音数据，待处理语音数据可以是本地生成的语音数据，比如通话录音，也可以是从其他设备上拷贝的语音数据。待处理语音数据还可以携带有与待处理语音数据相关的信息，比如文件名称、录制时间、文件生成时间、录制地点等，若待处理语音数据为通话录音，则待处理语音数据还可以携带有来电号码等与通话相关的信息。待处理语音数据和这些与待处理语音数据相关的信息在本地对应存储。

索引生成器包括解码器、声学模型和语言模型。解码器用于接收语音数据，结合声学模型和语言模型寻找能够以最大概率输出的文本序列。声学模型可采用一阶隐马尔科夫模型进行建模，语言模型可以用于描述给定词序列在语言中出现的概率的分布。其中索引生成器的输入可以是语音数据本身，或者是从语音数据中提取出的语音特征序列。当然由于语音识别存在一定的模糊性和出错的可能，因此索引生成器输出的文本序列可能包含一些近似的内容。

当具有通过预设连接方式来连接到指定计算机的条件时，则连接到该指定计算机，从而第一索引建立模块704用于将待处理语音数据发送给该指定计算机，使得该指定计算机利用指定计算机上预设的第一索引生成器，来识别待处理语音数据，从而生成第一类型的第一索引数据。第一索引建立模块704用于获取指定计算机上的该第一索引数据，具体可通过下载方式获取第一索引数据，然后根据该第一索引数据在本地建立待处理语音数据的索引。

当第一索引建立模块704用于通过互联网中服务器的中转而将待处理语音数据间接地发送给指定计算机时，或者当用于通过局域网将待处理语音数据发送给指定计算机时，第一索引建立模块704可用于对发送的语音数据进行加密，也可以用于使指定计算机对返回的索引数据进行加密，以防止语音数据被泄露，从而充分保障用户语音数据的安全。

第二索引建立模块706，用于若不具有条件，则将待处理语音数据或者语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据第二索引数据来建立待处理语音数据的索引。

第三索引建立模块708，用于若不具有条件，则将待处理语音数据或者语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据第三索引数据来建立待处理语音数据的索引。

第二索引建立模块706和第三索引建立模块708用于当不具有连接到指定计算机的条件时，利用本地资源来建立索引。具体地，第二索引建立模块706可用于使用位于本地的第二索引生成器来生成第一类型的第二索引数据，然后用于根据该第二索引数据来建立待处理语音数据的索引。第三索引建立模块708可用于使用位于本地的第三索引生成器来生成第二类型的第三索引数据，然后用于根据该第三索引数据来建立待处理语音数据的索引。

第二索引生成器具有中等等级的声学模型和语言模型，调用第二索引生成器运算的时候运算量中等。第二索引生成器位于本地，所生成的第一类型的索引中等精确。典型的第二索引生成器的声学模型为20MB，语言模型为100MB，1GHz以上的ARM（一种中央处理器的类型）的CPU，运算时时两个核占用率超过50%，耗电能力中等。

第三索引生成器具有最小等级的声学模型和语言模型，在处理的时候运算量最小。第三索引生成器位于本地，其所生成的第二类型的索引精确最差。典型的第三索引生成器的声学模型为5MB，语言模型为5MB，ARM的CPU运行在500MHz，运算时时单个核占用率超过50%，也最为省电。

第一类型的索引数据和第二类型的索引数据的区别在于精确度的不同，可采用不同的表现形式。在一个实施例中，第一类型的索引数据可以以字或词为单位，第二类型的索引数据可以以音节为单位。比如若语音数据的语音内容为“今天天气很好”，那么第一索引数据可为“今天天气很好”，而第二类型的索引数据可为“jin tian qi hen hao”，这样第一类型的索引数据的精确度要高于第二类型的索引数据的精确度。一段语音数据，如果可能将尽量生成第一索引类型，这样检索的时候更为精确，但是需要较大的运算量。

上述基于移动终端的语音数据索引建立系统，当可以连接到指定计算机时，使用指定计算机上的第一索引生成器来生成第一类型的第一索引数据，从而据之在本地建立待处理语音数据的索引。当不可以连接到指定计算机时，则使用本地的第二索引生成器来生成第一类型的第二索引数据，或者是使用本地的第三索引生成器来生成第二类型的第三索引数据，从而建立待处理语音数据的索引。

这样由于通常指定计算机的运算能力浪费严重，计算资源没有得到有效利用，而优先依靠指定计算机强大的计算能力来生成索引，可以有效利用指定计算机的计算资源来高效地生成索引，可以有效节省移动终端的电能，且由于指定计算机是受信任的计算机，不会泄露用户隐私。当无法使用指定计算机生成索引时，也可以使用本地资源来生成索引，从而保证建立索引的工作不被中断。进一步地，若生成不同类型的索引数据，则可以在无法使用指定计算机生成高精确度的索引数据时，则本地生成临时的低精确度的索引数据，以高效建立待处理语音数据的索引，优先满足语音检索的需求，保证语音数据检索可以正常进行，而且可以节省移动终端的电能。

在一个实施例中，该基于移动终端的语音数据索引建立方法还包括预处理模块，用于将待处理语音数据进行预处理。具体地，可用于将待处理语音数据转化为统一形式，还可以对待处理语音数据进行特征提取，以获得相应的语音特征序列。

在一个实施例中，为了提高检索速度，建立的待处理数据的索引可以采用反向索引，或者可称为倒排索引。

在一个实施例中，该基于移动终端的语音数据索引建立系统还包括第一判断模块705，用于若不具有条件，则判断当前是否连接到外接电源或者判断是否连接到非指定计算机。

第二索引建立模块706，用于若连接到外接电源或者连接到非指定计算机，则将待处理语音数据或者语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据第二索引数据来建立待处理语音数据的索引。

第三索引建立模块708，用于若未连接到外接电源或者未连接到非指定计算机，则将待处理语音数据或者语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据第三索引数据来建立待处理语音数据的索引。

非指定计算机是指不是上述指定计算机的计算机，非指定计算机是不受信任或者无法判断是否受信任的计算机。本实施例中，通过判断是否连接外接电源或者是否连接到非指定计算机，从而根据判断结果来采用不同的索引生成器来生成索引数据，并建立索引，从而实现移动终端耗电量和检索精确度的巧妙权衡。

在一个实施例中，第一索引建立模块704包括：第二判断模块704a、索引数据生成执行模块704b和索引更新模块704c。

第二判断模块704a，用于判断本地是否存在对应第二类型的索引数据的欠处理语音数据。

由于在未连接外接电源而使用电池的情况下，会使用第三索引生成器来生成第二类型的索引，这样生成的索引精确度不够，可用于建立临时的索引。为了提高检索精确度，可在连接到指定计算机时，判断本地是否存在对应第二类型的索引数据的语音数据，将该语音数据称为欠处理语音数据。

索引数据生成执行模块704b，用于当第二判断模块判断为是时，将欠处理语音数据或从欠处理语音数据提取出的语音特征序列发送给指定计算机，使指定计算机将欠处理语音数据或从欠处理语音数据提取出的语音特征序列输入位于指定计算机上的第一索引生成器来生成第一类型的第四索引数据。

与通过指定计算机来生成待处理数据的索引数据的过程相同，索引数据生成执行模块704b用于将欠处理语音数据或者从该欠处理语音数据中提取出的语音特征序列发送给指定计算机，该语音特征序列与上述待处理数据的语音特征序列形式一致，可以是生成该语音数据的第二类型的索引数据时所使用并存储的语音特征序列。指定计算机将欠处理语音数据或者从欠处理语音数据中提取出的语音特征序列输入位于指定计算机上的第一索引生成器来生成第一类型的第四索引数据。该第四索引数据的精确度高于本地当前该欠处理语音数据所对应的索引数据的精确度。

索引更新模块704c，用于从指定计算机获取第四索引数据，并根据第四索引数据来更新欠处理语音数据的索引。

索引更新模块704c可用于根据第四索引数据来更新欠处理语音数据的索引，具体地，可用于将欠处理语音数据对应的第二类型的索引数据删除，并建立欠处理语音数据与第一类型的第四索引数据的对应关系。

当待处理数据均已建立索引成为已处理数据，欠处理数据也已经更新索引成为已处理数据，此时可使得第一索引生成器和/或第二索引生成器和/或第三索引生成器进入休眠状态，减少对计算资源以及电能的消耗。

本实施例中，在连接到指定计算机的情况下，通过对临时获得的欠处理语音数据的索引数据进行再次处理，以提高该欠处理语音数据的索引数据的精确度，从而可以提高检索语音数据的准确度。

在一个实施例中，该基于移动终端的语音数据索引建立系统还包括语音数据检索模块710，用于从根据上述任一实施例的基于移动终端的语音数据索引建立系统而建立了索引的语音数据库中检索语音数据。索引数据库中包括至少一个语音数据，且每个语音数据都建立了索引，索引数据库包括语音数据和相应的索引数据的对应关系，索引数据可以包括文本序列和其所对应的置信度。语音数据库还可以包括语音数据所携带的该语音数据的相关信息。该语音数据检索模块包括：关键词获取模块710a、第一查找模块710b、第二查找模块710c和检索结果输出模块710d。

关键词获取模块710a，用于获取输入的关键词。

检索语音数据的过程，是指输入关键词从而检索到包括该关键词的语音数据的过程。关键词获取模块710a可用于提供输入界面，获取用户在输入界面中输入的关键词。

第一查找模块710b，用于根据已建立的索引查找包含关键词的第一类型的索引数据，当查找到时，获取查找到的第一类型的索引数据所对应的语音数据。

当用户输入的关键词为多个时，则第一查找模块710b可用于对多个关键词进行逻辑组合，具体地，进行和、或的组合。比如用户输入两个关键词，分别为“今天”、“开会”，则可从语音数据库中查找同时包括“今天”和“开会”两个关键词的索引数据，还可以分别以“今天”或者是“开会”为关键词分别查找索引数据。第一查找模块710b用于先从语音数据库中第一类型的索引数据中查找是否存在包含关键词的索引数据。当查找到包含关键词的第一类型的索引数据时，则第一查找模块710b可用于从本地的语音数据库中获取该索引数据所对应的语音数据。

第二查找模块710c，用于当未查找到第一类型的索引数据时，继续根据已建立的索引查找包含关键词的第二类型的索引数据，当查找到时，获取查找到的第二类型的索引数据所对应的语音数据。

当未查找到包含关键词的第二类型的索引数据时，则第二查找模块710c用于继续从语音数据库中查找包含该关键词的第二类型的索引数据。这样虽然未查找到较高精确度的索引数据，但可以检索精确度较低的索引数据，从而可实现对语音数据进行粗略的检索。当查找到包含关键词的第二类型的索引数据时，则第二查找模块710c可用于从本地的语音数据库中获取该索引数据所对应的语音数据。

检索结果输出模块710d，用于将获取到的语音数据作为检索到的语音数据输出。

检索结果输出模块710d将获取到的上述查找到的第一类型的索引数据所对应的语音数据，和/或获取到的上述查找到的第二类型的索引数据所对应的语音数据作为检索到的语音数据输出，以完成语音数据的检索。具体地，检索结果输出模块710d还可用于以预设的形式显示获取到的语音数据所携带的相关信息，比如显示获取到的语音数据的名称、录制时间等，还可以显示查找到的语音数据的数量。

在一个实施例中，语音数据库中的索引数据包括置信度；该基于移动终端的语音数据索引建立系统还包括检索结果处理模块710e，用于获取检索到的多个语音数据各自对应的置信度，根据获取的置信度确定获取的置信度所对应的语音数据的信息显示顺序，并根据信息显示顺序来显示检索到的多个语音数据的相关信息。

具体地，语音数据库中的每条语音数据所对应的索引数据包括文本序列和其所对应的置信度，表示该语音数据被识别为该文本序列的可靠程度。上述查找到的语音数据为多个，此时检索结果处理模块710e用于获取检索多个语音数据各自对应的置信度，并根据该获取的置信度来确定获取的置信度所对应的语音数据的信息显示顺序，比如按照置信度由高到低的顺序确定获取的置信度所对应的语音数据的信息显示顺序，或者当存在多个关键词时，可根据多个关键词各自查找到的语音数据所对应的置信度计算综合得分，并可以得分由高到低的顺序来确定获取的置信度所对应的语音数据的信息显示顺序。

在一个实施例中检索结果处理模块710e还可以用于接收对显示的相关信息的选择指令，根据选择指令选定该相关信息对应的语音数据，并执行对该选定的语音数据的预设操作；比如可播放该语音数据。检索结果处理模块710e还可以用于记录接收的选择指令，并根据记录的选择指令来调整语音数据所对应的置信度，以通过动态调整置信度来提高检索精确度。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于移动终端的语音数据索引建立方法，所述方法包括：

检测是否具有通过预设连接方式来连接到指定计算机的条件；指定计算机是事先设定的受信任的个人计算机；

若具有所述条件，则通过所述预设连接方式连接到所述指定计算机，将待处理语音数据或者从待处理语音数据中提取的语音特征序列发送给所述指定计算机，使所述指定计算机将所述待处理语音数据或者所述语音特征序列输入位于所述指定计算机上的第一索引生成器来生成第一类型的第一索引数据；

从所述指定计算机获取所述第一索引数据并根据所述第一索引数据建立所述待处理语音数据的索引；

若不具有所述条件，则判断当前是否连接到外接电源或者判断当前是否连接到非指定计算机；

若连接到外接电源或者连接到非指定计算机，则将所述待处理语音数据或者所述语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据所述第二索引数据来建立所述待处理语音数据的索引；

若未连接到外接电源或者未连接到非指定计算机，则将所述待处理语音数据或者所述语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据所述第三索引数据来建立所述待处理语音数据的索引。

2.根据权利要求1所述的方法，其特征在于，所述通过所述预设连接方式连接到所述指定计算机之后，还包括：

判断本地是否存在对应第二类型的索引数据的欠处理语音数据，若是，则

将所述欠处理语音数据或从所述欠处理语音数据提取出的语音特征序列发送给所述指定计算机，使所述指定计算机将所述欠处理语音数据或从所述欠处理语音数据提取出的语音特征序列输入位于所述指定计算机上的第一索引生成器来生成第一类型的第四索引数据；

从所述指定计算机获取所述第四索引数据，并根据所述第四索引数据来更新所述欠处理语音数据的索引。

3.根据权利要求1所述的方法，其特征在于，所述预设连接方式包括网络连接方式和点对点连接方式中的至少一种。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述方法还包括检索语音数据的步骤，包括：

获取输入的关键词；

根据已建立的索引查找包含所述关键词的第一类型的索引数据，当查找到时，获取所述查找到的第一类型的索引数据所对应的语音数据；

当未查找到所述第一类型的索引数据时，继续根据已建立的索引查找包含所述关键词的第二类型的索引数据，当查找到时，获取查找到的第二类型的索引数据所对应的语音数据；

将获取到的语音数据作为检索到的语音数据输出。

5.一种基于移动终端的语音数据索引建立系统，其特征在于，所述系统包括条件检测模块和第一索引建立模块；指定计算机是事先设定的受信任的个人计算机；

所述系统还包括第一判断模块，用于若不具有所述条件，则判断当前是否连接到外接电源或者判断当前是否连接到非指定计算机；

所述系统还包括第二索引建立模块用于若连接到外接电源或者连接到非指定计算机，则将所述待处理语音数据或者所述语音特征序列输入位于本地的第二索引生成器来生成第一类型的第二索引数据，并根据所述第二索引数据来建立所述待处理语音数据的索引；

所述系统还包括第三索引建立模块用于若未连接到外接电源或者未连接到非指定计算机，则将所述待处理语音数据或者所述语音特征序列输入位于本地的第三索引生成器来生成第二类型的第三索引数据，并根据所述第三索引数据来建立所述待处理语音数据的索引。

6.根据权利要求5所述的系统，其特征在于，所述第一索引建立模块包括：

第二判断模块，用于判断本地是否存在对应第二类型的索引数据的欠处理语音数据；

索引数据生成执行模块，用于当所述第二判断模块判断为是时，将所述欠处理语音数据或从所述欠处理语音数据提取出的语音特征序列发送给所述指定计算机，使所述指定计算机将所述欠处理语音数据或从所述欠处理语音数据提取出的语音特征序列输入位于所述指定计算机上的第一索引生成器来生成第一类型的第四索引数据；

索引更新模块，用于从所述指定计算机获取所述第四索引数据，并根据所述第四索引数据来更新所述欠处理语音数据的索引。

7.根据权利要求5所述的系统，其特征在于，所述预设连接方式包括网络连接方式和点对点连接方式中的至少一种。

8.根据权利要求5至7任意一项所述的系统，其特征在于，所述系统还包括语音数据检索模块，包括：

关键词获取模块，用于获取输入的关键词；

第一查找模块，用于从语音数据库中查找包含所述关键词的第一类型的索引数据，当查找到时，获取所述查找到的第一类型的索引数据所对应的语音数据；

第二查找模块，用于当未查找到第一类型的索引数据时，继续从所述语音数据库中查找包含所述关键词的第二类型的索引数据，当查找到时，获取查找到的第二类型的索引数据所对应的语音数据；

检索结果输出模块，用于将获取到的语音数据作为检索到的语音数据输出。