CN1628338A

CN1628338A - 处理语音信息的方法和装置

Info

Publication number: CN1628338A
Application number: CN02828981.1A
Authority: CN
Inventors: 约瑟夫·瓦勒斯
Original assignee: ADNORTA AG
Current assignee: ADNORTA AG
Priority date: 2002-04-29
Filing date: 2002-04-29
Publication date: 2005-06-15
Also published as: AU2002319158A1; WO2003094153A1

Abstract

本发明涉及一种方法和实施该方法的装置，以实现基于语音的数据库，譬如存储和/或再现和/或传输，其使用输入和/或存储和/或声学再现和/或向其它装置传输语音和数据信息以在其它装置中存储和/或再现的装置，以及在存储的语音信息中搜索一个或者多个语音段的装置。本发明的目的是，开发这类方法和装置来解决现有技术的缺点，并且保证录制和搜索/再现语音信息，而不需要人工地标识和分类并且不需要规定词库，其通过：将所说出的词和/或关联句(记录)作为语音信号数字地存储在存储器中，重新说出至少一个用于搜索的词的一部分内容，并在一装置中与存储内容进行比较和评价，得出两个语音样本之间的间距值，并声学地输出具有最小间距值的词。

Description

处理语音信息的方法和装置

本发明涉及一种处理语音信息的方法和装置，用于实现以语音为基础的数据库，譬如存储和/或再现和/或传输，其具有用于输入和/或存储和/或声学的再现和/或向其它装置传输语音信息和数据信息，以在其它装置中存储和/或再现的装置，并且包含有用于在存储的语音信息中搜索一个或者多个语音段的装置。

公知有一些方法和装置可以存储语音信息，其中存储的语音信息设有数字的标识信号词，以便于再现或者传输找到的一定的语音信息。

在DE 33 33 958 A1的公开文本中，记载了一种用于存储语音信息的装置，该装置包含一个可控制的发生器，通过该发生器借助于键盘产生数字的识别信号词。这些识别信号词与语音信息一起或者与语音信息分开地录制，并且在以后的搜索中用来发现要搜索的信息。

不足的是，使用者必须把语音信息分类才能够启动搜索一定的语音信息的过程。

在US5,602,963中记载了一种电子的个人管理器，该管理器可以录制和再现语音记录。所述管理器还具有这样的功能，即使用者能够在录制一个语音记录后，通过输入一个或者多个语音词作标记，用于以后重新找寻的功能。

这种做法的缺点是，对于每个记录，只要希望进行分类，就必须由使用者在录制了记录以后详尽地进行这种分类。可以搜索的词量必须在事前确定。这些词必须在事前的一个训练阶段中说出。对管理器中的语音信号的处理是通过不同的处理功能进行的，视是否要录制该语音还是要与做了符号的词库进行比较而异。

在US 4,829,576中，为了提高正确地识别一个单词的概率提出，从一个预先给出的词库中只调出在要搜索的文本部分中包含的词用于比较。为此在一个分开的步骤中构成一个搜索词列表。

在US6,041,300中记载了一种方法和装置，根据该方法和装置，为了改善语音选择，把语音构成为一种“lefeme`n”序列，把该序列与以前存储的“lefeme-序列”进行比较。被识别出的词由存储在数据库中的“lefeme`n”序列合成和输出，以由使用者进行确认。

不足的是，作为第一步骤需要建立一个带有“lefeme”表达形式的信息的附加(波形)数据库。

本发明的目的是，开发一种这类的方法和装置，使用该方法和装置可以避免现有技术的缺点，并且可以提供一种支持语音的数据库，还可以保证录制和搜索/再现语音信息，而不需要人工标识和分类，并且不需要规定词库。

根据本发明，其目的是通过权利要求的特征来实现的。

所述方法的特征在于，所说出的词和/或关联句作为记录的语音信号被数字地录制在一存储器中，其中在时域和/或频域中分析该语音信号及其直接的表达，重新说出至少一个用于搜索的词的一部分内容(Teilumfang)，并且在一装置中与录制内容进行比较和评价，由此得出语音样本之间的间距值(Abstandswert)，并且声学地输出记录，该记录包含有一个或者多个相对于一个或者多个搜索的关键词具有小间距值的词。

与语音识别系统比较，使用者对分类时的错误具有更大的容许误差。在搜索时语音相依性并非是不利的，而是在可靠性(Vertraulichkeit)方面可以接受的副效应。

该方法不需要由使用者对一定的词的语音记录进行详尽归类，不必详尽地规定词库。也不需要训练阶段。

实施该方法的装置的特征在于，使用一电信装置，譬如带有一诸如闪存ROM之类的存储卡的手机/电话，和/或一数据处理装置，譬如配置有专用的附加软件的PC机、服务器。

根据本发明的方法和装置的基本功能可以通过两个过程来进行说明：录制和搜索/再现。

在录制时，录制单个语音关键词形式的记录，例如术语、姓名、号码或者关联句。在可靠的重新搜索中对使用者特别重要的关键词可以在一个记录中多次说出。在优选的实施方式中，在记录开始时说出关键词，并且在记录结束时再次重复。该录制既可以在装置(设备)中进行，例如一内装于手机中的存储卡，也可以借助语音/数据传输在一远程设备中进行，例如一服务器或一PC机。

为了搜索，使用者说出搜索关键词、姓名等等。在装置(例如手机)中或者在另一远程设备(服务器或者PC机)中把说出的语音样本与存储的语音信息进行比较，并且对其相似性进行评估，或者得出两个语音样本之间的间距值。然后声学地再现含有最大相似性(最小间距值)的词的记录。在找到多个位置的情况下，该再现可以按录制顺序(例如最后的记录最先播放)进行，或者按照搜索的语音样本与存储的语音信息的相似性进行。搜索指令可以含有一个或者多个关键词。在具有多个关键词的情况下，搜索可以根据含有较多或者全部关键词的记录进行。

在一优选实施方式中，首先再现含有搜索关键词最多的记录。在另一优选实施形式中，沿其录制的相反顺序彻底搜索记录，最后说的最先搜索。

在本发明的一优选实施方式中，语音信号被压缩地录制。

在实践中公知有一系列语音压缩的方法，例如ITU(国际电信协会)推荐的G.723或G.729，或者ETSI(欧洲电信标准协会)推荐的GSM 06.10。这些方法以多阶段的方式工作。在用滤波器进行预处理之后，进行区段划分和信号分析，例如借助于LPC(线性预测编码)。在此，一定的区段(语音/语音间歇、浊音/清音)以及计算出的参数(例如能含量、自相关系数、LPC系数、LSP线光谱对系数以及其它处理阶段的参数)也适用于比较语音样本。使用这样的方法分解语音和压缩存储比非压缩存储减少了所需要的存储位置。同时加快了以后的样本比较。

本发明的另一实施方式除了存储压缩的语音信息以外，还存储非压缩的信号。

该做法的目的是，可以在以后的时间采用更好的算法。录制的语音信息可能在较长的时间空间(数十年)都需要。在大多数语音压缩过程中，会丢失不重要的细节信息。因为不论是信息处理装置的性能还是用于样本比较的算法的质量都会不断地发展，所以应当保存原始信号供以后使用。存储介质预期的持续容量增长(同时价格下降)使得该供选择的方案对使用者来说是承受得起的。

同样地，根据本发明可以在输入时规定语音信息的某部分非压缩的存储。非压缩的信号也可以存放在其它存储器中，即脱机存储器中。

此外，该方法还允许隐藏地搜索。如果在一个搜索过程中找到一个语音记录，其中搜索指令的语音样本与该语音记录的语音样本的比较超过预定的相似性阈值，则再现该语音记录。在再现过程中，在背景中继续进行该搜索。由此搜索的时间消耗可以被使用者部分地隐藏。

在一优选实施方式中，在录制时进行隐藏地搜索。在说话时和录制该记录的其余部分时，搜索在录制开始时说出的关键词。如果在已经存储的记录中找到对应的语音样本，就在录制结束时声学地再现找到的语音样本。然后使用者就可以判断它是否与所搜索的相同。录制使用者的反应，例如，存储一个指向已找到的语音样本的指针，用于新录制的关键词。由此建立一个与语音样本相同的词的列表。该列表在以后的搜索过程中将用来改善命中率(Trefferrate)和提高搜索速度。在不相符合时，还可以存储一个带有一相应标识的指针。该做法避免了在以后的搜索过程中把这两个语音样本再次认为是相同的。在本发明的另一实施方式中，对已经存储了的、相同的关键词的搜索过程可能比说出新的记录所经历的时间长。

在另一实施方式中，还存储包含在搜索指令中的关键词的语音样本、找到的语音记录的指针，计算的间距值和使用者的反应。在该实施方式中，其出发点是使使用者在再现一个记录以后进行评价：GUT(好)、FALSH(错误)。该反应与指向再现的记录的指针一起被存储起来。在一个新的搜索指令的情况下，把搜索指令声学的语音样本与以前的搜索过程的语音样本进行比较。在样本相符合或者有较大的相似性的情况下，检验存储的使用者以前的反应，并且只要检验结果是肯定的，就输出由以前的搜索指令记录的指针所指示的语音记录。随后，使用者的反应再与指向输出的语音记录的指针一起被存储起来。这种做法具有多个优点：

●它缩短了搜索时间，

●连续提高对准精度，

●补偿使用者讲话中的逐渐变化或者使用者的音调，

●存储的语音样本和判断的评价可以用来优化该方法。

还可以继续彻底搜索原记录。

此外，根据本发明还可以在借助以前搜索指令的指针进行间接搜索之后，把新的搜索指令的语音样本与录制的记录的语音样本进行比较，并且使用该比较结果来确定间距值。

同样地，本发明可以把评价进行细分级：例如GANZ FALSH(完全错误)、SEHR-GUT(非常好)。

然后，GANZ FALSH(完全错误)评价无论在何种情况下都会在以后的搜索过程中禁止再现与其相应的记录。FALSH(错误)评价会把该记录放回到找到的候选的记录序列中，例如使其间距值通过与一个较大的因数相乘而加以放大。相应地，SEHR-GUT(非常好)评价会在以后的搜索中把该找到的记录，只要其间距值在规定的阈值以下，优先选进输出的序列中。

在另一实施方式中，附加于指向该记录的指针，把指向以前的搜索指令的指针与使用者的评价一起存储，用于当前搜索指令的录制。

搜索功能的附加改进扩展了搜索功能：关联(Assoziationen)。所述装置根据包含在搜索指令中的关键词进行搜索。如果所述装置在以前的搜索指令中或者一个记录中找到了所搜索的关键词，并且该以前的搜索指令或者该语音记录含有其它的关键词，那么所述装置就通过声学地再现所述关键词来询问是否要扩展围绕该关键词的搜索过程。

在另一改进中，只询问多次出现在多个找到的搜索指令或者记录中的关键词。

在该优选实施方式中，首先再现最常出现的附加的语音样本。

然后使用者可以围绕该样本扩展要搜索的语音样本的列表，忽略该样本，或者排除再现的含有该语音样本的语音记录。该功能一方面能够逐渐限定找到的语音记录的数量，另一个方面能够找到题材相近的记录。

为了在广泛的记录中加速搜索，所述装置可以寄存一个带有关键词和指向其中出现有该关键词的语音记录的指针的列表。属于一个关键词的列表可以包含一个或者多个指针。在每个关键词有多个指针的情况下，所述列表对于每个指针可以包含有索引列表中的关键词(语音样本)和参照记录中的关键词(语音样本)之间的间距。可以对使用者提供一种用于使用的特殊功能，使用者可以使用该功能对每个记录口述关键点。可选择地，可以在索引列表中自动地收入所有单个说出的词(在词的开始和词的结束处有明显的停顿)。做出这样的列表要求有计算能力。因此，优选在所述装置连接到外部电源上时，例如对畜电池充电时，制作这样的列表。该列表也可以在另一个装置(例如服务器)中制作。

此外还可以与语音信息一起存储其它数据。

在此的一个例子是将来自整合到该装置中的数字照像机的图像数据与语音记录一起存储。在此实施方式中，如前所述，借助于包含在搜索指令中的语音样本与存储的语音信号的比较来进行搜索。找到的记录与其它存储的数据一起再现。文本数据或者图像例如可以在荧光屏上再现；曲调、音乐、链路例如还可以在网站和E-mail上输出。

在本发明的一实施方式中，把图像与用于该图像的关键词和/或提示(记录)的语音样本一起存储在一个数字照像机中。之后，可以通过说出关键词以及搜索与所述图像一起录制的语音数据中的相应语音样本来重新找到所述图像，并且例如用显示器或者打印机输出。

存储其它数据的另一个例子是录制打来的电话或者其部分，带有或者不带有附加的评注或者电话号码。搜索可以根据关键词，连同电话号码，并借助于上述的根据通话对方语音样本的关联功能，例如根据在通话开始进行通报时通话对方提到的名字的语音样本进行。

在所有的搜索过程中，当然还可以在搜索中采用时间限度(在日期之间，根据日、工作日、季节等等)，以限制搜索的空间。

在本发明的一实施方式中，其中输入和输入装置(手机)借助于语音或数据传输装置与远程存储装置和计算装置连接，得出下面的附加的功能过程：脱机输入、脱机搜索、带有不同存储范围的独立存储器、加密的必要性。

脱机输入：录制新的语音记录不需要存在对远程装置的通信连接。信息例如压缩或者非压缩地缓冲寄存在一个闪存卡上。其可以收集多个记录，然后一起传输。传输可以在有利通信收费计价的时候进行，或者在使用者在第二个装置附近时进行，例如在办公室里转录到工作PC机上。

脱机搜索：如果要在远程装置上进行搜索过程，不必在两个装置之间存有持续的连接。搜索指令连同语音样本例如通过IP信息包向远程装置传输，并且同样地通过IP信息包或者回呼传输结果就可以了。

根据本发明同样能够同时把语音记录存储在不同的装置上。典型地，使用者带有一个手机形式的输入和输出装置。根据当前的存储器技术和压缩算法，可以在一个闪存卡中存储共达几个小时的语音记录。该存储器例如可以包含有上一次的记录(脱机输入)和当前的或者经常需要的记录。手机中的记录周期地(参见“脱机输入”)向远程装置传输。搜索可以在局域的装置在局域的记录中进行也可以在远程装置上进行。

所述的远程装置可以是一个较大的、由一个供应商譬如在语音箱服务器(Sprachboxdiensten)中提供的服务器。在该实施方式中，在供应商的服务器上加密地传输和加密地存储是特别重要的。用于语音和数据加密的方法是公知的。任何时候数据都不应当不加密地放到服务器上或者放到传输链路上。搜索只是在手机中借助于索引列表或者借助于关键词和以前存储的搜索指令的指针的彻底搜索而进行的。服务器只用作存储记录。

在另一实施方式中，索引表或者以前的搜索指令的录制可以部分地放到服务器上。为此，分等级地划分索引列表，在时间上细分以前的搜索指令列表。带有较早的搜索指令的列表存放在服务器上。为了进行彻底搜索，需要时就把列表传输到手机中。

除了借助于间距值(评分)和“动态编程”进行所述的搜索方法和分级方法以外，还可以采用其它的本领域普通技术人员公知的方法，譬如马尔可夫(Markov)模型或者“神经网”，以实现本发明。

下面用一个实施例详细地说明本发明。

图1示出了一个可行的通信配置的示意图。

在下面的说明中，使用者的指令通过操作按键发出。按键可以是软键。根据本发明还可以通过语音命令给出指令。

录制：使用者操作一个手机10的RECORD(记录)键，并且把其记录存储在手机10中。完成时，他按下STOP(停止)键。语音输入通过手机10的麦克风进行。模拟的语音信号在一个模数转换器中被数字化，并且被导入到DSP 11中。在DPS 11中引导信号通过一个前置滤波器(高通和低通)，然后分段(典型地10至20ms一段)。根据所使用的压缩间距叠加这些段(例如，每隔10ms)。段中的信号值通过汉明视窗函数(Hamming-Window-Funktion)加权。然后进行各个段中的信号值的自相关函数计算。由此计算出LPC系数。为了进行压缩和存储，相应于所使用的规定的压缩标准进一步处理这些系数和语音信号。为了进行样本比较，把LPC系数或者变换了的表达(例如，对数倒频谱系数、PARCOR系数)作为压缩的语音信息的组成部分存储到存储卡12中。附加地存储日期和时间标记。

取代于采用LPC方法，还可以采用例如以快速傅立叶分析(Kurzzeit-Fourier-Analyse)或者滤波器组为基础的其它的语音压缩和样本识别方法。

录制还可以借助语音/数据传输13在远程装置上进行，在此所述远程装置是一个计算机14或者服务器15。

搜索：使用者按手机10的SEARCH(搜索)键，并且在他保持按压键的同时说出要搜索的关键词。装置10搜索相应的记录，并且声学地再现第一个找到的语音信息。然后使用者可以按NEXT(下一个)键进行进一步搜索或者输出下一个找到的记录，或者按压一个用于评估(GUT、FALSH)的键，然后在需要时按压NEXT键。语音信号的处理与在“录制”步骤中所述的相似。同样地，存储语音样本。接着输入样本识别的LPC参数和变换了的表达，例如对数倒频谱系数。为了识别样本，把所述参数综合成向量。各个关键词被综合成向量的组。接着把它们与存储的语音信息比较。对样本的不同语音速度的调整采用称为“动态编程”的公知方法进行。对于每个关键词，在每个记录中得出最相似的存储的样本的间距值(评分)。根据装置的设置，输出第一个找到的，包含有其间距值在规定的阈值之下的样本的记录，并且继续搜索。在另一设置中，首先彻底搜索所有的记录，按其间距值分类这些记录，并且首先输出带有最小间距值的记录。在每次操作NEXT键时，再现带有最接近的较小间距值的记录。在再现一个记录以前，添加指向该记录的指针，用于录制搜索指令。同样地，添加使用者倾听记录之后输入的评价，以录制所述指针。

与语音识别系统的区别：

语音识别系统构成为用于其他目的。其目的在于，尽可能无差错地把一个直接输入转换成文字形式。在语音识别系统中进行把讲话的语音映射(Abbildung)到规定的总体上可扩展的词量或者函数上。相应地是算法结构。所述映射按多个步骤进行。特别地，最后的步骤与根据本发明的做法不同。它采用统计模型(至少是隐含式马尔可夫模型)，同时说明语音段(音量或者音位)之间传输的概率。其部分地在首次使用之前通过一个对使用者而言麻烦的训练阶段来产生。在根据本发明的方法中，取消了首次使用之前的训练阶段。也不用对词库(关键词)确定优先权，而是在录制和搜索时动态并自动地进行。另一个区别是：在语音识别系统中，对每个说出的词都有一个“正确的”映射，即使用者想要的映射。在根据本发明的装置中，一个关键词可以有多个正确的“命中”。

下面说明一个在闪存组件中的搜索功能的扩展。其具有两个决定性的优点：性能和写入保护(Zugangsschutz)。在图1中示出了一个带有一DSP 11和一存储卡12的手机10。存储卡12可以含有语音记录和/或索引数据。这种构形有一个缺点：在当前通用的多数小型存储卡中，例如多媒体卡、存储棒中，通过一个串行总线向主机系统传输数据。这些串行总线的带宽很小，使得只要是搜索程序在手机10或者DSP 11中进行，并且数据处于存储卡12中，搜索过程就非常缓慢。因此在本发明的一实施方式中，采用了专用的卡，该卡除了包含有用于索引数据和/或语音记录的存储器以外，还在卡上包含有一搜索处理器。由此，通过卡的接口只传输带有所属的语音样本的搜索指令、或者一指向找到的记录的指针为形式的或者以找到的记录的语音数据为形式的结果。如果存储卡12只包含索引数据，就可以把语音记录放于服务器15或者PC机14上。在卡中的搜索过程之后，接着从服务器15/PC机14调出找到的记录。

上述结构具有另一个优点：写入保护。该存储卡12可以借助于密码或者其它证明机制(例如生物统计方法)对于非法写入采取保护。如果把记录以及索引数据(只要有索引数据)放到卡存储器中，就能针对非法写入采取较好的保护。如果只在卡上存储索引数据，就可以把记录加密地存放到服务器/PC机中。找到的记录在输出之前先向该卡传输，在该卡上解码并且转发到手机10中再现。在收录语音记录时，该传输则反向进行：语音数据从手机10向存储卡12传输，只要存在索引数据，就在存储卡12上扩展该索引数据，存储和/或加密该记录的语音数据，然后向服务器15/PC机14转发。为了实时传输加密的和非加密形式的语音数据，该串行接口的带宽是足够的。

附图标记一览表

10手机

11数字信号处理器DSP

12存储卡

13语音/数据传输

14计算机

15服务器

Claims

1.处理语音信息的方法，用于实现具有存储和/或再现和/或传输功能的、以语音为基础的数据库，其中该方法使用用于输入和/或存储和/或声学再现和/或用于传输语音信息和数据信息以及带有语音数据的数字图像信息的装置，并且使用用于在存储的语音信息中搜索一个或者多个语音段的装置，

其特征在于，所说出的词和/或关联句(记录)作为语音信号数字地录制在一存储器中，在该存储器中设置有用于把语音信号转换成频域中的表达形式和/或时域中经压缩的表达形式的装置，

重新说出至少一个用于搜索的词的一部分内容，并且在一装置中与录制内容进行比较和评价，

由此基于两个语音样本在时域和/或频域中的参数得出所述两个语音样本之间的间距值，

并且声学地输出包含具有最小间距值的语音段的记录。

2.如权利要求1所述的方法，

其特征在于，

该语音信号被压缩地录制，和/或除了存储压缩的语音信息之外还存储非压缩的信号。

3.如权利要求1所述的方法，

其特征在于，

存储其它信息，譬如包含在搜索指令中的关键词的语音样本，譬如指向找到的语音记录的指针，譬如计算的间距值，以及譬如使用者的反应和/或评价，和/或在以后的搜索过程中，在考虑了录制的评价和/或使用者的反应和/或间距值和/或者指针的情况下，彻底搜索以前的搜索指令的语音样本。

4.如权利要求1所述的方法，

其特征在于，

首先再现包含所搜索的关键词的数目最多的记录。

5.如权利要求1至4所述的方法，

其特征在于，

在搜索时，把语音样本与相同的数据语句进行比较，所述数据语句也被用于再现。

6.如权利要求1至5所述的方法，

其特征在于，

在录制时隐藏地搜索，和/或在再现时隐藏地继续搜索发现位置。

7.如权利要求1至6所述的方法，

其特征在于，

以录制的样本和评价为基础优化搜索算法和参数。

8.如权利要求1至7所述的方法，

其特征在于，

加密地进行存储，并且设置写入保护。

9.如权利要求1至8所述的方法，

其特征在于，

通过麦克风、电话或者脱机地通过口述录音机、语音箱进行语音输入，并且通过耳机、扬声器、电话进行再现。

10.如权利要求1至9所述的方法，

其特征在于，

在一手机中进行短时间的存储，在一服务器上进行长时间的存储，其中周期地和/或在访问时转录到长期存储器上，或者同时在不同的装置上进行语音的录制。

11.如权利要求1至10所述的方法，

其特征在于，

建立一索引，在该索引中分开地存放单个语音样本，并设置指向录制的记录的指针，或者把指针与符合系数(评分)一起存储，和/或由使用者通过说出单个词来确定索引样本。

12.如权利要求11所述的方法，

其特征在于，

当该手机连接到电源(电网)上时，进行索引数据的制作和索引数据的优化，或者在一有工作能力的计算机上脱机进行。

13.如权利要求1至10所述的方法，

其特征在于，

进行带有给定时间的搜索。

14.用于实施如权利要求1至13所述方法的装置，

其特征在于，

使用一电信装置，譬如带有一诸如闪存ROM和/或存储卡(12)的存储介质的手机/电话(10)，和/或一数据处理装置，譬如配置有专用的附加软件(11)的PC机、服务器。

15.如权利要求14所述的用于实施上述方法的装置，

其特征在于，

在计算机(14)上，譬如带有语音输入和语音输出的PC机上，使用专用的软件。

16.如权利要求14所述的用于实施上述方法的装置，

其特征在于，

使用一电话，该电话通过网络连接到一计算机，譬如PC机，或者一专用的服务器上。

17.如权利要求14所述的用于实施上述方法的装置，

其特征在于，

除了用于索引数据和/或语音记录的存储器之外，该存储卡(12)包含有一搜索处理器和/或用于写入保护的装置。