CN1124863A

CN1124863A - 字序列的识别方法

Info

Publication number: CN1124863A
Application number: CN95105108A
Authority: CN
Inventors: H·内伊; X·奥伯特
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1994-04-15
Filing date: 1995-04-13
Publication date: 1996-06-19
Anticipated expiration: 2015-04-13
Also published as: EP0677835A2; CN1103986C; DE4412930A1; DE59508549D1; EP0677835A3; KR100374921B1; EP0677835B1; JPH08328580A

Abstract

在对连贯的口语语言识别过程中，利用动态编程法在搜索空间产生出大量的假设。当不同前趋词字的若干假设在一个字中开始，并延伸到同一个终点时，在相关终点的假设的数据被作为字结果分别存储起来。根据本发明，从这些字结果构成字的网格，在其中进行其它操作，例如考虑语言模式。在这个字网格中可行的路径的数目被减少，在其中在考虑到语言模式的同时，对每个字只有最佳的前趋词字，或最佳前趋词字串被保留下来。

Description

字序列的识别方法

本发明涉及语言信号中的字的自动识别，特别是包括一个或多个句子的自然口语语言信号的自动识别，其中语言信号中的个别字没有被停顿所间隔，因此在识别时必须自动地确定字的界限。

根据动态编程法，为了自动识别，把语言信号转变为一系列短暂的测试信号，再把该测试信号系统与代表相应字的确定词汇表的参考信号系统进行比较，以便和动态编程方法相一致。该词汇表的参考信号的令人感兴趣的组成在于它是以树状形式构成的，其中代表多个字的共同的字部分的参考信号的子系列仅出现一次，也就是说该子系列在词汇表树的多个字共用的一个分枝中。但在这种情况中遇到的主要问题是，难于考虑高级语言模式，即n＞1的n克兰姆(n-gram)语言模式。

根据动态编程法的语言识别对一个测试信号系统产生一个具有对词汇表中的每个字的最感兴趣的记分的参考信号系列；这被称为一种假设(Hypothesis)或一个字中的假设。当这样一种假设到达一个字的终点时，对于后续的测试信号假设不仅在长字中连续，而且在字的开始处连续，即在参考信号系列的开始处，或者说在调整汇表树的根部继续产生。这就导致了假设数目迅速地增多，该数目限定于一个预定的数量之内，在其中每个假设的记分连续地与一个最好超过相关时刻的最佳记分的阈值进行比较。为了进一步减少对字序列的假设数目，人们已知的是仅在开始于不同的时刻的字中的各假设中连续选择在字的终点处具有最感兴趣的记分的那个假设，即在可能不同的前趋字终点之后具有不同瞬间邻接测试信号，并且在到达字的终点时具有相同的测试信号。因此，对于这样一个字的终点仅有一个前趋词被保留下来。

1991年出版的＂Proceeding of the ICASS91，Toronto，Canada＂一书中第701至704页R.Schwardz和S.Austin所写＂AComparison of Several Approximate Algorithms ForFinding Multiple(N-BEST)Sentence Hypotheses＂的文章中介绍了一种方法，在这种方法中，一个字中的所有假设，即开始于不同时刻的假设或具有不同测试信号的假设，分别独立地持续到该字的末尾，甚至在这些假设通过相同的参考信号系列延伸时也是如此，特别是在字的末尾，只要这些假设的记分没有超过上述的阈值。在每个字的终点，这些假设的数据被存储起来，即该终止字的等同体，终点的相关时间，字中假设的起始点，和有关的前趋词的等同体，以及在这一假设中所达到的记分。这样就形成了多个不同的字序列，并且在句子的结尾处获得了若干个在句子末尾具有最佳记分的字序列。

这种已知的方法依据的思想是：一个字的最佳起始点依赖于前趋词字，但很可能不依赖于更多的前趋词字。从口语句子中获得可以从中选择相关序列的若干个字序列存在着多种可能性，但这些可能性仍然是有限的，因此很可能发生正确的字序列并不在被确定的系序列中。更何况在这种方法中没有考虑到语言模式问题。

本发明的目的是提供一种确定和供给字序列实质上较大的可能性，与已知方法实际上相同的经费，却能够以非常简单的方式顾及到高级语言模式，还能够有效地利用以词汇表树形式构成的参考信号系列。

这一目的是通过利用权利要求1中所披露的方法来完成的。

根据本发明的解决方案涉及到一种新的两段式识别方法。在第一阶段中，在声学范围上仅形成字对序列，并最优化字对内的字边界。在第二阶段中，在字的范围上把形成的字对考虑为字的网格，以及在这一范围上发生的所有进一步的步骤，例如语言模式的应用。在字的网格中，有多条路径可行，不同的字序列位于各条路径上。按照每个终止字的各种字结果其每个都属于由该终止字和一个前趋词构成的一个字对，因此同一个字可能出现不同的前趋词，在考虑到语言模式的同时可以形成一个最佳的字对。为此，到达每个字对终点的记分增加语言模式，该值是由来自终止字和前趋词字以及可能的更多的前趋词字的相关字对所确定的，只有具有最佳记分的字对才被进一步加以考虑。这种字对的确定，也就是说对每个终止字的最佳前趋词字的确定，是在上述字的网格中进行的，在这里耗费时间的声学比较已经结束，在字的网格中例如确定最佳前趋词字的计算可以很快地进行。作为连锁的结果，在其中前趋词字每次代表先前字对的终止字，并且它是由指示每个字的起始点的已知方式形成的，按照这些优选的字对，用反向追踪起始点指示作为反向指针的方法可以确定一个单一的最佳字序列。这可以在一个句子的结尾处进行，也就是说，语言信号的一个预定段是一个句子，但它也可能在一个句子中的规则的时间间隔发生。这是由于已经发现在字的网格中以上述方式形成或存留的最佳假设实际上总是很快地从该句子的起始方向到达一个点，这个点是所有假设共有的点，因此在这点以前字序列可能已经作为最终结果而被输出。

在字的网格中计算可以很快地进行这一事实也可以被用来挑选替代的字。这是因为此刻而形成的假设在字的网格中被以实际上均匀的时间间隔反向追踪，因此一个字序列从句子的开始已经被输出，错误的字检测后可以被删除，并在字的网格中可以再次进行最佳假设的确定，而不必考虑字的网格中被删除的字。因此，一旦取代被删除的错字就输出另一个字，如果这个字也是错的，那么它也被删除，操作可以重复进行。当最终输出了一个正确的字时，进一步的输出一般会偏离错字之后的原始字序列，但结果可能与实际读出的字序列相符。

本发明还有一个目的是提供一种从语言信号识别字序列的装置，其操作时识别错误率低，操作中还能考虑到高级语言模式，特别在在由词汇表树构成的参考信号系列的情况下。这一目的是由权利要求2中所述装置完成的。本发明的装置也具有一个两段结构，其中第一和第三装置形成最优化了的字界的字对。第二存储器构成对第二段接口，在第二段中这些字对被进一步处理。不用多少附加设备，第二段就可以对形成字的网格的字对进行复合处理。

以下参考附图对本发明实施例进行详细的说明。

图1以举例的方法显示了经过两个不同前趋词字的两个假设的进展过程；

图2以图示的方式显示了一个由字结果构成的，带有单个字结果存储单元内容的字的网格；

图3显示了本发明装置的框图。

图1以图示的方式显示了两个假设的进展过程，这两个假设从两个不同的前趋词字V1和V2开始，并在一个字W中继续；在本例中，为了清楚起见，它们在W中开始于不同的起始点，并延伸到同一个终点。从原理上讲，这种开始也可以是同时的。水平轴表示时间，这就是说从语言信号转变的测试信号系列i。垂直轴方向表示对于三个字V1，V2和W的参考信号系列r，R1是字V1的最后的参考信号，R2是字V2的最后参考信号，R3是字W的最后参考信号。测试信号系列i与参考信号系列进行比较；在图1的例子中，与字V2的参考信号进行比较的测试信号开始于i0，与字V1参考信号进行比较的测试信号开始于i1。通过依照如第EP0533260A1(PHD91-138)号欧洲专利中所述的动态编程法比较测试信号和参考信号，在字V1中得到一个路径，它也可以被称为在这个字中的一个假设H1。同样比较字V2中的这些测试信号，得出一个代表一个假设H2的路径。应当注意的是，一般情况下，在实际情况中会有更多的假设迟早会产生于这两个字中，但为了清楚起见，我们在这里不考虑它们。

假设H2到达最后的参考信号R2，即字V2的终点，从这个字的终点假设H2在不同的字中继续，其中后续的测试信号与这些字的第一个参考信号进行比较，在本例中只考虑在字W中的继续过程，即假设H2在字W中的继续。

以类似的方式，假设H1发展通过字V1的最后的参考信号R1，即通过了字V1的终点；在这之后，后续的测试信号也与新字的起始进行比较，即在不同的字中继续，也是只有在字W中的假设H1的继续才被加以考虑。由于这些假设的继续，字V1和V2的字边界的最佳位置i2和i3被自动地获得。

H1和H2两个假设最初是独立地在字W中延续，并最终通过同样的网格点；在最后的测试信号处，与相同的参考信号的比较得出两个假设的最佳路径。在i4假设H1和H2到达了字W的最后参考值R3，即这个字的终点。此后H1和H2两个段假设相互独立地保留下来。

当假设H1和H2在测试信号i4处到达字W的终点后，H1和H2两个假设各自得到一个字的结果，假设H1的字结果包括：以测试信号i4为指示形式的终点，或者说以相关时刻的指示形式的终点，一个关于终止字，即W的共同体的指示，和起始点i3以及与i相联系的前趋词字V1。同样地，假设H2的字结果也包括终点i4的指示，字W的指示，起始点的指示—在这里是i2—，和与之相联系的前趋词字V2的指示。另外，在字W的终点处通过假设H1和H2获得的相应的记分也包含在两个字结果中。

应当指出的是，在前趋词字V1和V2的终点，假设H1和H2的字结果也是被以类似的方式获得和存储；但这里没有对其详细描述。

与此类似，在其它的时刻，当到达其它字的终点，或是字W的终点也再次到达时，获得了更多的字结果，在大多数时刻，若干个字的终点是同时到达的，特别是在一个大的词汇表的情况下。这些被存储的字结果被考虑为一个字的网格，如基于图2中的被大大地简化的实施例所指出的那样。图2a表示字网格本身，而图2b则显示了存储单元对于这些字结果的存储内容。

假设语言信号，也就是说一个口语句子开始于时刻t0。在本例中是用时刻作为参考的而不用测试信号，但在本质上它们呈等价的。

在时刻t1到达字a的终点，字的结果被存储在图2b中指出的t1的下面，字的结果包括：与上文描述的一样，一个终点的指示，其产生时刻的指示，其前趋词字的指示。与此类似，在时刻t2到达字b的终点，在时刻t3到达字c的终点，如上述图所示，相应的字结果被存储起来。因此在这三种情况下，字的起始点都是时刻t0；它们没有前趋词字，这些字的终点的记录分别为S1，S2，S3。

接下来字a与三个字一起继续，就是说与字d，e和g一起继续；这意味着通向字a终点的假设被分为三个假设。与此类似，字b与两个字d和g一起继续，没有与其它的字，例如字e，一起继续，这是因为我们设想从字b终点发源的假设的记分超过了这些字中的阈值，因此在它们到达这些字的终点前被终止了。最后，字c与字d，e和f一起继续。

应当注意的是，为了简单起见，我们设想字a，b和c相对于一起继续的各字d，g等具有相同的终点；但并不真需要如此。另一方面，不同字的终点，例如图2a中的t1和t2，可以是重合的。对于其它字也是如此。

终止于时刻t4的字d具有三个前趋词字a，b和c，这些前趋词字中的每一个都有一个字结果存储于图2b中指出的t4的下面。字e和f终止于相同的时刻t5，所有相应的字结果存储于t5的下面，字e仅有两个前趋词字，而字f仅有一个前趋词字。终止于时刻t6的字g有两个前趋词字，即a和b，其相应的字结果存储于t6的下面。

在时刻t7到达语言信号的终点；即是说到达了h，i和k三个字的终点。字h有三个前趋词字d，f和g，每个字结果如图2b所示存储于t7的下面。与此类似，字i有相同的三个前趋词字d，g和f，它们也需要独立地存储于t7的下面；这并没有完全在图2b中示出。为了清楚起见，字k的三个字结果在图2b中被完全删除了。

以图2a所示的字网格可以清楚地看出，字网格中有许多通向不同字序列的可行路径，例如字序列a-g-i，b-d-h，c-f-k等。这些字序列可以按那种方式加以确定，即从终止于时刻t7的字h，i和k出发，通过这些字的起始点，可以找到它们每个字的前趋词字，以类似的方式还可以找到其前趋词字的前趋词字。从这些大量的字序列中可以挑选出那个终止时列于t7之下的具有最感兴趣的记分的字结果的序列。

应当注意的是，从字a至字k并不需要全部是不同的字；例如字a和字f也可以是相同的字。

然而在用语言模式，特别是用一种高级语言模式来评价这些字序列时，可以提高识别的可靠性。因此，当使用双合字母语言模式时，在每个第一字对的终点，例如字对b-g，b-d，a-g等，与语言模式相关的值被加到到达每个第二个字的终点的记分之上，对于每个第二个字d，e，f和g被保留下来的前趋词字是其记分与语言模式值的和为值小的那个前趋词字。例如，字对b-g达到的记分可能小于字对a-g的记分；但是后一个字对可能有一个实际上更感兴趣的语言模式值，因此字对a-g的语言模式值与记分的和是最小的。

与此类似，如果对每个前趋词采用一个新的记分，以字h或i或k为最后字的字对也可以把语言模式考虑进去，该新记分是由原始记分与语言模式值的和产生的。接下来从每个先行字对的记分和相应语言模式的值获得的对于每个最后字h，i和k的新的记分，这样对h，i和k每个字仅有一条通向时刻t0的起始点的路径被保留下来。从这些路径，或序列中，对最后字h或i或k取得最合适记分的一个被挑选出来。

类似的应用也可以由三合字母语言模式构成，其仅需增加少许的计算能力，因为其大部分被用来确定字中的假设，并产生与图2a一样的字网格。

图3显示了一种用于从语言信号确定字序列的装置。通过话筒10的拾取语言信号，以便转变为电信号。话筒可以是与本装置整体构成的。但它也可以被安置在一个远离的地方；例如，话筒与装置的其余部分间的连接可以由电话线构成。

如果电话筒(10)提供提一种模拟信号，在单元12中它被用周期取样的已知方法转变为数字信号，在再现时刻得到测试信号。这些测试信号代表，例如，一个预定时间间隔的—例如10ms的语言信号的—给定频率范围的语言信号的能量。

这些测试信号被送到单元16，在其中将它们与存储于存储器14中的参考信号进行比较。参考信号可以从预定的测试语句事先确定，并可以被永久地存储起来；但是也可以交替地对这些从识别字序列的过程中得到的结果导出的参考信号进行修改和补充。这类步骤的原理是已知的，并且不构成本发明的一部分，因此这里对它们不进行详细地说明。

在框16中的比较特别产生出记分，这些记分是对一个测试信号与存储于存储器14中的各种参考信号间的一致性的度量。比较是利用动态编程法以已知的方式进行的。此外，在记分形成的过程中，还进行与至少一个阈值的比较；当这个阈值被超过时，停止对相关参考信号系列的比较。在比较的过程中还对以前的历史进行更新，即特别是对一个参考信号系列与至少一个前趋词字进行比较的起始点进行更新。

存储器14中的参考信号系列代表一个给定词汇表的字；当在比较过程中到达这样一个序列的终点时，也就是到达了一个字的终点时，得出一个字结果。这是在单元18中进行的。每个字结果至少含有参考图2b说明的那些指示。随着字结果的确定，识别的第一阶段，也被称为声学阶段也就结束了，并且把字结果存储在存储器20中。

在单元24中用存储在存储器22中的语言模式的值处理字结果。如已经说明过的那样，每个字结果的记分被与该语言模式一致的值递增。被递增后的记分被再次送到单元16，使后续测试信号与参考信号系列的开始进行的比较能够继续进行，同时也考虑到语言模式。

被补充后的字结果被送到单元26，在其中根据字结果中的记分可以挑选出一个最佳的字序列。这可以在句子的终点发生；但也可以交替地在规则的间隔输出一个字的子序列，该字的子序列落后于该瞬间的位置，例如，若干个字，因为可以设想到一个给定的，先于当前时刻的点时，最佳字序列就已经知道了。最后的字序列也应当被分成几部分输出到一个输出设备28中，例如打印机或显示屏。

在输出到显示屏后，操作员可能识别出一个错误，即一个识别错误的字；操作员可以删除这个字，并再次开始最佳字序列的输出。这经常会导至一个通过字网格的不同的路径，在其中出现一个类似的字而不是被删除的字。如果这个类似的字仍然是错误的，操作可以重复进行。这由单元30指出。这使得能够对语言信号进行一种特别有兴趣的交互处理，并能实际上实现正确字序列的无差错识别。

应当指出，一些或全部单元也可以由一个据此相应设计的计算机来实现。一般地讲，至少一些存储器会有效地包括在计算机的主存储器中。

Claims

1.一种从语言信号识别预定词汇表的字的序列的方法，包括以下的步骤：

—在再现时刻对语言信号采样以便产生测试信号系列；

—对测试信号与各参考信号系列间进行逐个信号比较，由此产生记分，每个参考信号系列代表词汇表的一个字；

—在到达相应于带有第一测试信号的字的终点的参考信号系列的终点时，对这个字的每个不同的开端得出一个独立的字结果，该字结果包括：一个终止字的参考，一个作为一个字的终点的第一测试信号的参考，一个该字起始点的参考，一个在相关字起始点之前的前趋词字的参考，和一个关于该终止字的从字的起始点直到字终点的记分的参考，存储所述的字结果；

—在每个字终点之后，对每个同时终止的字重新独立地开始与参考信号系列的起始点的比较；

—对于每个第一测试信号从存储的字结果确定每个字的最佳前趋词字，考虑一个语言模式的值，该值依赖于所采用的语言模式，字结果达到取决于字，其一个及数个最佳前趋词字，与同一个字的所有其它前趋词字相比较最小的记分；

—通过存储的先行词的起始点的参考，确定和传递从最佳记分和相关的字在语言信号的预定段的终点的字序列。

2.一种从语言信号确定一个给定词汇表的字序列的装置，其包括：

—在重现时刻采样由语言信号形成的电信号和产生测试信号的第一设备(12)，

—存储参考信号系列的第一存储器(14)，每个参考信号系列代表词汇表的一个字，

—对测试信号和各参考信号系列进行逐个信号比较和产生记分的第二设备(16)，该第二设备是与第一设备和第一存储器耦合在一起的，

—第三设备(18)，该第三设备与第二设备耦合在一起，以便在相应于一个字的终点的一个参考信号系列的终点到达时产生一个字结果，每个字结果包括：一个在参考值系列终点到达的记分的参考，一个与相关的终止系列相联系的字的参考；和一个前趋词字的参考，

—一个存储字结果的第二存储器(20)，

—一个存储语言模式值的第三存储器(22)，

—第四设备(24)，该第四设备与第二存储器(20)和第三存储器(22)耦合在一起，以便用来自第三存储的语言模式的值对每个结果中的记分进行补充，并从所有具有相同终止字的字结果中挑选出具有最佳记分的字结果，还要把该最佳记分送到第二设备，

—第五设备(26，28)，用来在给定时间间隔内选择出至少一个与在时间间隔的终点被挑选出的具有最佳记分的字结果的系列相应的字序列，并把选出的字序列传送出去。