CN101894108A

CN101894108A - 网上搜索书源的方法及其系统

Info

Publication number: CN101894108A
Application number: CN2009100572762A
Authority: CN
Inventors: 冯威; 范黎明; 叶立飞; 张栋
Original assignee: SHANGHAI EDO ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: Yangzhou easy Electronics Technology Co., Ltd.
Priority date: 2009-05-19
Filing date: 2009-05-19
Publication date: 2010-11-24

Abstract

本发明涉及网络书源的搜索，公开了一种网上搜索书源的方法及其系统。本发明中，在阅读器和网络服务器上各设置一个语音识别引擎，以协作的方式建立用户语音模型，再在网络服务器上与库中电子书书名的语音模型进行匹配，可以实现以语音搜索网上书源的功能。也可以由阅读器将记录的用户语音发给网络服务器，由网络服务器进行语音识别和搜索。

Description

网上搜索书源的方法及其系统

技术领域

本发明涉及网络书源的搜索，特别涉及使用语音进行网络书源搜索的技术。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，简称“ASR”)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。

语音识别技术已被应用于各种领域，如语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

目前的语音操作方案，是内置了语音识别引擎，把设备中内置的汉字全部提取参数建立模型。当用户输入语音时，再把用户语音提取参数建立模型，然后和内置已建好的语音模型进行匹配，匹配成功后执行相应的命令。

电子书阅读器是一种用于阅读电子书的手持设备。有些电子书阅读器配置有无线通信模块，可以连接到互联网。而互联网上有专门提供电子书下载的站点，站点里有大量的电子书，又称为书源，书源通常可以提供检索功能。用户可以通过阅读器连接到书源的网络服务器，通过关键词搜索所需的电子书，再下载到阅读器查看。

上述语音操作方案应用于网上书源的搜索时存在问题，书源中电子书的信息不在手持设备端，无法针对书名进行提取参数和建模，从而无法在手持设备端利用语音搜索网上书源。

发明内容

本发明的目的在于提供一种网上搜索书源的方法及其系统，可以通过在阅读器上输入语音搜索网上的书源。

为解决上述技术问题，本发明的实施方式提供了一种网上搜索书源的方法，包括以下步骤：

电子书阅读器记录用户输入的语音信号；

阅读器的语音识别引擎与网络服务器的语音识别引擎进行协作处理，根据所记录的语音信号建立用户语音模型；

网络服务器的语音识别引擎将用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

本发明的实施方式还提供了一种网上搜索书源的方法，包括以下步骤：

电子书阅读器记录用户输入的语音信号；

阅读器将所记录的语音信号发送到网络服务器；

网络服务器的语音识别引擎根据所收到的语音建立用户语音模型，将该用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

本发明的实施方式还提供了一种网上搜索书源的系统，包括电子书阅读器和网络服务器；

阅读器进一步包括：

语音输入模块，用于记录用户输入的语音信号；

语音识别引擎模块，用于进行语音识别处理；

通信模块，用于和网络服务器通信；

网络服务器进一步包括：

语音识别引擎模块，用于进行语音识别处理；

通信模块，用于和阅读器通信；

阅读器的语音识别引擎与网络服务器的语音识别引擎进行协作处理，根据语音输入模块记录的语音信号建立用户语音模型；网络服务器的语音识别引擎将用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

阅读器进一步包括：

语音输入模块，用于记录用户输入的语音信号；

通信模块，用于将语音输入模块所记录的语音信号发送到网络服务器；

网络服务器进一步包括：

通信模块，用于接收来自阅读器的用户语音；

语音识别引擎模块，用于根据通信模块收到的语音信号建立用户语音模型，将该用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

本发明实施方式与现有技术相比，主要区别及其效果在于：

在阅读器和网络服务器上各设置一个语音识别引擎，以协作的方式建立用户语音模型，再在网络服务器上与库中电子书书名的语音模型进行匹配，从而实现以语音搜索网上书源的功能。

阅读器记录用户语音，发给网络服务器进行语音识别，可以减少阅读器的处理负担，阅读器不必配置语音识别引擎，充分利用服务器的强大处理能力，得到较好的语音识别结果和搜索结果。

进一步地，在阅读器进行语音识别的前置处理，可以去除非语音信号，减少了要传给网络服务器的数据量，加快了整个搜索过程。

进一步地，在阅读器侧进行声学特征参数提取，将所得的声学特征参数传给网络服务器建模，可以进一步减少要传输的数据量，加快整个搜索过程。

进一步地，在阅读器侧建立用户语音模型，将模型参数传给网络服务器，可以进一步减少要传输的数据量。

进一步地，根据阅读器与网络服务器连接的有效带宽，决定阅读器要传给网络服务器的数据类型，以及相应的语音识别工作量分配，可以充分适应当前网络环境和服务器的运算能力，在整体上较快地得到搜索结果。

附图说明

图1是本发明第一实施方式中网上搜索书源的方法流程示意图；

图2是本发明第二实施方式中网上搜索书源的方法流程示意图；

图3是本发明第三实施方式中网上搜索书源的方法流程示意图；

图4是本发明第四实施方式中网上搜索书源的方法流程示意图；

图5是本发明第六实施方式中网上搜索书源的系统结构示意图；

图6是本发明第七实施方式中网上搜索书源的系统结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种网上搜索书源的方法，其流程如图1所示。

在步骤101中，电子书阅读器记录用户输入的语音信号。

本发明各实施方式中所称的阅读器可以是各式各样的，一种典型阅读器的显示屏使用电子墨水技术，其主要功能是阅读电子书。此外，其它具有电子书阅读功能的手持终端设备也属于本发明所称的阅读器，例如手机、个人数字助理(Personal Digital Assistant，简称“PDA”)、上网本等等。

此后进入步骤102，阅读器将所记录的语音信号发送到网络服务器。

阅读器与网络服务器之间可以通过无线网络连接，例如无线保真(Wireless Fidelity，简称“WiFi”)，宽带码分多址(Wideband Code DivisionMultiple Access，简称“WCDMA”)、通用分组无线业务(General Packet Radio Service，简称“GPRS”)、时分同步码分多址(Time Division Synchronous Code Division Multiple Access，简称“TD-SCDMA”)、微波接入全球互通(Worldwide Interoperability for Microwave Access，简称“WiMAX”)等；也可以通过有线网络连接，如非对称数字用户线(Asymmetric Digital Subscriber Line，简称“ADSL”)、光纤到户(Fiber To The Home，简称“FTTH”)等。

此后进入步骤103，网络服务器的语音识别引擎根据所收到的语音建立用户语音模型

此后进入步骤104，网络服务器的语音识别引擎将该用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

此后进入步骤105，网络服务器将搜索结果发送到阅读器。

此后进入步骤106，阅读器显示搜索结果。

此后进入步骤107，阅读器根据用户的输入选择搜索结果中的一本电子书并下载。

本发明第二实施方式涉及一种网上搜索书源的方法。

第二实施方式在第一实施方式的基础上进行了改进，改进之处在于，在阅读器一侧也配置了语音识别引擎，该语音识别引擎与网络服务器的语音识别引擎协作处理，共同完成语音识别的工作。

第二实施方式的流程图如图2所示。

在步骤201中，电子书阅读器记录用户输入的语音信号。

此后进入步骤202，阅读器的语音识别引擎对语音信号进行前置处理，该前置处理中至少包括端点检测和语音增强。

前置处理可以包括预滤波、采样和量化、加窗、端点检测、语音增强等过程。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。可以采用维纳滤波的方法，该方法在噪声较大的情况下效果好于其它滤波器。

此后进入步骤203，阅读器将经前置处理的语音信号发送到网络服务器。

此后进入步骤204，网络服务器的语音识别引擎根据来自阅读器的语音信号建立用户语音模型。

此后进入步骤205，网络服务器的语音识别引擎将用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

本发明的各实施方式中，搜索结果可以只是最接近的一个电子书书名，也可以是多个最接近的电子书书名组成的列表，还可以在用户语音模型与书名语音模型差别较大时将空列表作为搜索结果。

电子书书名的语音模型可以由网络服务器的语音识别引擎预先生成。网络服务器上存有大量电子书书名的语音模型，形成一个模型库，用户语音模型与库中的各语音模型进行匹配。

本发明各实施方式中所称的模型可以由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。

此后进入步骤206，网络服务器将搜索结果发送到阅读器。

此后进入步骤207，阅读器显示搜索结果。

此后进入步骤208，阅读器根据用户的输入选择搜索结果中的一本电子书，并从网络服务器下载该电子书。

在阅读器和网络服务器上各设置一个语音识别引擎，以协作的方式建立用户语音模型，再在网络服务器上与库中电子书书名的语音模型进行匹配，可以实现以语音搜索网上书源的功能。

在阅读器进行语音识别的前置处理，可以去除非语音信号，减少了要传给网络的数据量，加快了整个搜索过程。

本发明第三实施方式涉及一种网上搜索书源的方法。

第三实施方式在第二实施方式的基础上进行了改进，主要改进之处在于：在阅读器侧进行用户声学特征参数提取，将所得的声学特征参数传给网络服务器建模，可以进一步减少要传输的数据量，加快整个搜索过程。

第三实施方式的流程图如图3所示。

在步骤301中，电子书阅读器记录用户输入的语音信号。

此后进入步骤302，阅读器的语音识别引擎对语音信号进行前置处理和声学特征参数提取。

声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。

由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。

此后进入步骤303，阅读器将所提取的声学特征参数发送到网络服务器。

此后进入步骤304，网络服务器的语音识别引擎根据声学特征参数建立用户语音模型。

此后的步骤305-308与步骤205-208类似，此处不再赘述。

本发明第四实施方式涉及一种网上搜索书源的方法。

第四实施方式在第三实施方式的基础上进行了改进，主要改进之处在于：在阅读器侧建立用户语音模型，将模型参数传给网络服务器，可以进一步减少要传输的数据量。

第四实施方式的流程图如图4所示。

在步骤401中，电子书阅读器记录用户输入的语音信号。

此后进入步骤402，阅读器的语音识别引擎对语音信号进行前置处理、声学特征参数提取。

此后进入步骤403，阅读器的语音识别引擎进一步建立用户语音模型。

此后进入步骤404，阅读器将用户语音模型的参数发送给网络服务器。

此后的步骤405-408与步骤205-208类似，此处不再赘述。

本发明第五实施方式涉及一种网上搜索书源的方法。

第五实施方式在第四实施方式的基础上进行了改进，主要改进之处在于：根据阅读器与网络服务器连接的有效带宽，决定阅读器要传给网络服务器的数据类型，以及相应的语音识别工作量分配，可以充分适应当前网络环境和服务器的运算能力，在整体上较快地得到搜索结果。

可以理解，有效带宽并不是接入带宽，也不是瞬时带宽，而是阅读器与网络服务器之间最近一段时间的实际平均带宽。阅读器采用不同的接入方式，以及网络环境变化，都会对有效带宽产生较大的影响。

具体的流程如下：

首先，电子书阅读器记录用户输入的语音信号。

此后，判断阅读器与网络服务器连接的有效带宽与各预置门限的大小关系。

如果有效带宽超过第一预置门限，则执行步骤202至208，也就是第二实施方式的方案。这个方案对阅读器的处理能力要求较少，但数据传输量较大，因为有效带宽大，所以较适合这个方案。

如果有效带宽在第一预置门限和第二预置门限之间，则执行步骤302至308，也就是第三实施方式的方案。这个方案对阅读器处理能力的要求适中，数据传输量也适中。其中第一预置门限大于第二预置门限。

如果有效带宽低于第二预置门限，则执行步骤402至408，也就是第四实施方式的方案。这个方案对阅读器处理能力的要求较高，但数据传输量较小，因为有效带宽小，所以较适合这个方案。

在第五实施方式的基础上还可以进一步修改，当有效带宽大于第三预置门限时(第三预置门限大于第一预置门限)，可以执行步骤102至107，也就是第一实施方式的方案。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable Array Logic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第六实施方式涉及一种网上搜索书源的系统。该网上搜索书源的系统包括电子书阅读器和网络服务器。本实施方式的系统结构如图5所示。

阅读器进一步包括：

语音输入模块，用于记录用户输入的语音信号。本发明各实施方式中的语音输入模块可以由麦克风、模数转换器(Analog Digital Converter，简称“ADC”)、存贮器件(如内存、闪存等)等部件组成，麦克风将检测到的声波转换成模拟电信号，经ADC转成数字信号，再保存在存贮器件中。

通信模块，用于和网络服务器通信，将语音输入模块所记录的语音信号发送到网络服务器，从网络服务器下载的电子书。

显示模块，用于显示电子书的内容。优选地，显示模块可以包括一块使用电子墨水技术的显示屏。

处理模块，用于对通信模块从网络服务器下载的电子书进行解析，并控制显示模块进行显示。

网络服务器进一步包括：

通信模块，用于和阅读器进行通信，接收来自阅读器的用户语音，将搜索结果和电子书内容发送到阅读器。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第七实施方式涉及一种网上搜索书源的系统。本实施方式的系统结构如图6所示。该系统包括电子书阅读器和网络服务器。

阅读器进一步包括：

语音输入模块，用于记录用户输入的语音信号。

语音识别引擎模块，用于进行语音识别处理。

通信模块，用于和网络服务器通信。

网络服务器进一步包括：

语音识别引擎模块，用于进行语音识别处理。

通信模块，用于和阅读器通信。

阅读器的语音识别引擎与网络服务器的语音识别引擎进行协作处理，根据语音输入模块记录的语音信号建立用户语音模型。网络服务器的语音识别引擎将用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果，再传给阅读器，由用户使用阅读器在搜索结果中选择要下载的电子书，并进行下载。

阅读器的语音识别引擎还用于对用户的操作命令语音进行语音识别，如果匹配到相应的操作命令，执行该操作命令。这些命令可以是各式各样的，例如“前翻”、“后翻”、“确认”、“取消”等等。

第二至第五实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第二至第五实施方式互相配合实施。第二至第五实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二至第五实施方式中。

需要说明的是，本发明各设备实施方式中提到的各模块都是逻辑模块，在物理上，一个逻辑模块可以是一个物理模块，也可以是一个物理模块的一部分，还可以以多个物理模块的组合实现，这些逻辑模块本身的物理实现方式并不是最重要的，这些逻辑模块所实现的功能的组合是才解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，这并不表明上述设备实施方式并不存在其它的模块。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种网上搜索书源的方法，其特征在于，包括以下步骤：

电子书阅读器记录用户输入的语音信号；

所述阅读器的语音识别引擎与网络服务器的语音识别引擎进行协作处理，根据所记录的语音信号建立用户语音模型；

所述网络服务器的语音识别引擎将所述用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

2.根据权利要求1所述的网上搜索书源的方法，其特征在于，所述协作处理的步骤包括以下子步骤：

所述阅读器的语音识别引擎对所述语音信号进行前置处理，该前置处理中至少包括端点检测和语音增强；

所述阅读器将经所述前置处理的语音信号发送到所述网络服务器；

所述网络服务器的语音识别引擎根据来自所述阅读器的语音信号建立用户语音模型。

3.根据权利要求1所述的网上搜索书源的方法，其特征在于，所述协作处理的步骤包括以下子步骤：

所述阅读器的语音识别引擎对所述语音信号进行前置处理和声学特征参数提取；

所述阅读器将所提取的声学特征参数发送到所述网络服务器；

所述网络服务器的语音识别引擎根据所述声学特征参数建立用户语音模型。

4.根据权利要求1所述的网上搜索书源的方法，其特征在于，所述协作处理的步骤包括以下子步骤：

所述阅读器的语音识别引擎对所述语音信号进行前置处理、声学特征参数提取、并建立用户语音模型；

所述阅读器将所述用户语音模型的参数发送给所述网络服务器。

5.根据权利要求1所述的网上搜索书源的方法，其特征在于，所述协作处理的步骤包括以下子步骤：

如果所述阅读器与所述网络服务器连接的有效带宽超过第一预置门限，则所述阅读器的语音识别引擎对所述语音信号进行前置处理，并将经处理的语音信号发送到所述网络服务器建立用户语音模型；

如果所述阅读器与所述网络服务器连接的有效带宽在第一预置门限和第二预置门限之间，则所述阅读器的语音识别引擎对所述语音信号进行前置处理和声学特征参数提取，将所提取的声学特征参数发送到所述网络服务器建立用户语音模型；

如果所述阅读器与所述网络服务器连接的有效带宽低于第二预置门限，则所述阅读器的语音识别引擎根据所述语音信号建立用户语音模型后，将该用户语音模型的参数发送给所述网络服务器；

其中第一预置门限大于第二预置门限。

6.根据权利要求1至5中任一项所述的网上搜索书源的方法，其特征在于，在得到搜索结果之后还包括以下步骤：

所述网络服务器将所述搜索结果发送到所述阅读器；

所述阅读器显示所述搜索结果，根据用户的输入选择搜索结果中的一本电子书，并从所述网络服务器下载该电子书。

7.一种网上搜索书源的方法，其特征在于，包括以下步骤：

电子书阅读器记录用户输入的语音信号；

所述阅读器将所记录的语音信号发送到网络服务器；

所述网络服务器的语音识别引擎根据所收到的语音建立用户语音模型，将该用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

8.一种网上搜索书源的系统，其特征在于，包括电子书阅读器和网络服务器；

所述阅读器进一步包括：

语音输入模块，用于记录用户输入的语音信号；

语音识别引擎模块，用于进行语音识别处理；

通信模块，用于和所述网络服务器通信；

所述网络服务器进一步包括：

语音识别引擎模块，用于进行语音识别处理；

通信模块，用于和所述阅读器通信；

所述阅读器的语音识别引擎与网络服务器的语音识别引擎进行协作处理，根据所述语音输入模块记录的语音信号建立用户语音模型；所述网络服务器的语音识别引擎将所述用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。

9.根据权利要求8所述的网上搜索书源的系统，其特征在于，所述阅读器的语音识别引擎还用于对用户的操作命令语音进行语音识别，如果匹配到相应的操作命令，执行该操作命令。

10.一种网上搜索书源的系统，其特征在于，包括电子书阅读器和网络服务器；

所述阅读器进一步包括：

语音输入模块，用于记录用户输入的语音信号；

通信模块，用于将所述语音输入模块所记录的语音信号发送到所述网络服务器；

所述网络服务器进一步包括：

通信模块，用于接收来自所述阅读器的用户语音；

语音识别引擎模块，用于根据所述通信模块收到的语音信号建立用户语音模型，将该用户语音模型与预先设置的电子书书名的语音模型相匹配，得到搜索结果。