DE112010005959B4

DE112010005959B4 - Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme

Info

Publication number: DE112010005959B4
Application number: DE112010005959.4T
Authority: DE
Inventors: Si Wei; Guoping Hu; Yu Hu; Qingfeng Liu
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2010-10-29
Filing date: 2010-10-29
Publication date: 2019-08-29
Anticipated expiration: 2030-10-30
Also published as: SG189182A1; DE112010005959T5; CN102971787B; JP2013545133A; WO2012055113A1; CN102971787A; US9330667B2; KR20130071490A; KR101417975B1; US20130197911A1; JP5883014B2

Abstract

Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird, wobei das Verfahren ferner Folgendes umfasst:
Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und
Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft die Tonaufnahmesteuertechnologie und insbesondere die Technologie der automatischen Erkennung eines Endpunkts einer Tonaufnahme.
Hintergrund der Erfindung
Nach vielen Jahren der technischen Entwicklung ist eine einen Text betreffende Sprachbeurteilung in eine Praxisphase eingetreten. Die den Text betreffende Sprachbeurteilung bezieht sich darauf, dass ein bestimmter Text von einem Benutzer gelesen wird und ein Sprachbeurteilungssystem Aussprachedaten des Benutzers speichert und die Aussprachedaten beurteilt, um eine Auswertung der Beurteilung abzugeben.
Bei einem bestehenden Sprachbeurteilungssystem wird im Allgemeinen eine Benutzertonaufnahmesteuerung vom Benutzer von Hand durchgeführt. Das heißt, die Tonaufnahme beginnt, wenn der Benutzer auf eine vorgegebene Tonaufnahmebeginn-Taste bzw. -Schaltfläche drückt bzw. klickt, und die Tonaufnahme endet, wenn der Benutzer auf eine vorgegebene Tonaufnahmeende-Taste bzw. -Schaltfläche drückt bzw. klickt. Bei dieser Tonaufnahmesteuerung muss der Benutzer viele Male manuell drücken bzw. klicken; die Bedienung ist aufwendig, und dies wirkt sich auf die Benutzererfahrung aus.
Deshalb gibt es im Stand der Technik ein Verfahren für eine automatische Tonaufnahmesteuerung. Bei dem Verfahren erkennt ein Sprachbeurteilungssystem automatisch, ob sich die Benutzertonaufnahme in einem Sprech- oder einem Stummzustand befindet, und stellt das Ende der Tonaufnahme fest, wenn eine Stummzustandsdauer des Benutzers länger als ein vorgegebener Zeitschwellenwert ist. Bei dem Verfahren der automatischen Tonaufnahmesteuerung wird jedoch eine normale Sprechpause des Benutzers eventuell als Endpunkt der Tonaufnahme eingestuft, wenn der Zeitschwellenwert kürzer eingestellt ist, was dazu führt, dass das vom Benutzer Gesprochene abgeschnitten wird. Deshalb wird im Stand der Technik der Zeitschwellenwert üblicherweise als größerer Wert, zum Beispiel 2 Sekunden oder länger, eingestellt; dadurch muss der Benutzer sehr lange warten, bis der Endpunkt der Tonaufnahme vom Sprachbeurteilungssystem ermittelt und die Tonaufnahme beendet wird, nachdem der Benutzer das Sprechen beendet hat. Auf diese Weise ist die Effizienz der Ermittlung des Endpunkts der Tonaufnahme durch das Sprachbeurteilungssystem verringert, die Effizienz der Sprachbeurteilung ist vermindert, und dies wirkt sich auf die Benutzererfahrung aus.
US 5 634 086 A offenbart einen sprachkontextsensitiven Spracherkenner. Ferner wird ein sprachempfindlicher Äußerungsendpunktdetektor zum Beurteilen eines Endes einer gesprochenen Äußerung bereitgestellt, um die menschliche Redensart in der Konversationssprache zu simulieren.
Kurzfassung der Erfindung
In Anbetracht dessen besteht die von der vorliegenden Erfindung gelöste technische Aufgabe darin, ein Verfahren und ein System zur Erkennung eines Endpunkts einer Tonaufnahme zu schaffen, damit die Effizienz der Ermittlung des Endpunkts der Tonaufnahme verbessert wird.
Deshalb kommt bei einer Ausführungsform der vorliegenden Erfindung die folgende technische Lösung zum Einsatz.
Bei einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme geschaffen, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird; das Verfahren weist ferner Folgendes auf:

Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und
Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.

Das Bestimmen eines Akustikmodells für einen Textendpunkt weist Folgendes auf:

Erzeugen eines Decodiernetzwerks, das dem Text gemäß dem Tonaufnahmetext entspricht, und Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als Akustikmodell für den Textendpunkt.

Das Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen aktuellen Rahmen der Tonaufnahmedaten weist Folgendes auf:

Extrahieren eines MFCC-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
Bestimmen eines letzten Akustikmodells des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades.

Das Verfahren weist ferner Folgendes auf: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
Das Verfahren weist ferner Folgendes auf: Nachdem ein Rahmen von Tonaufnahmedaten erhalten wird,
wird die Tonaufnahme beendet, wenn der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
Das Verfahren weist ferner Folgendes auf: Vor dem Erhalten jedes Rahmens von Tonaufnahmedaten
werden die Tonaufnahmedaten empfangen und der Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
Das Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten weist Folgendes auf:

Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.

Bei einer Ausführungsform der vorliegenden Erfindung wird ferner ein System zur Erkennung eines Endpunkts einer Tonaufnahme geschaffen; ein Stummzustandsdauerschwellenwert ist als erster Zeitschwellenwert voreingestellt, und das System weist ferner Folgendes auf:

eine erste Bestimmungseinheit, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt;
eine erste erhaltende Einheit, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
eine zweite Bestimmungseinheit, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und
eine Schwellenwertbestimmungseinheit, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.

Die erste Bestimmungseinheit weist Folgendes auf:

eine erhaltende Untereinheit, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält;
eine Netzwerkherstellungsuntereinheit, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und
eine erste Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt.

Die zweite Bestimmungseinheit weist Folgendes auf:

eine Extrahierungsuntereinheit, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
eine zweite Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt.

Die Schwellenwertbestimmungseinheit ist ferner so eingerichtet, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
Das System weist ferner eine Tonaufnahmesteuereinheit auf, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
Das System weist ferner eine Empfangseinheit auf, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
Die Empfangseinheit weist Folgendes auf:

eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und
eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.

Im Folgenden werden die technischen Wirkungen der oben beschriebenen technischen Lösung dargelegt.
Das Akustikmodell des Textendpunkts wird mit dem Kenndatenakustikmodell des optimalen Decodierpfades verglichen, der dem aktuellen Rahmen der Tonaufnahmedaten entspricht. Wenn sie übereinstimmen, ist der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig und wird der Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, der bezüglich des ersten Zeitschwellenwerts kürzer ist. Die Tonaufnahme endet dann, wenn die Stummzustandsdauer des Benutzers größer als der zweite Zeitschwellenwert ist. Dadurch wird im Vergleich zum Stand der Technik durch die technische Lösung der Erfindung die Effizienz der Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Zeitdauer verkürzt, die der Benutzer nach dem Ende der Tonaufnahme abwarten muss.
Figurenliste

1 ist ein schematisches Ablaufdiagramm, in dem ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
2 ist ein schematisches Ablaufdiagramm, in dem ein weiteres Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
3 ist eine schematische Darstellung, in der ein Viterbi-Algorithmus gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
4 ist ein beispielhaftes Diagramm eines Decodiernetzwerks gemäß einer Ausführungsform der vorliegenden Erfindung,
5 ist ein schematisches Strukturdiagramm, in dem ein System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
6 ist ein schematisches Strukturdiagramm, in dem eine Ausführung einer Einheit bei einem System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der Ausführungsform der vorliegenden Erfindung gezeigt ist, und
7 ist ein schematisches Strukturdiagramm, in dem eine Ausführung einer weiteren Einheit bei einem System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der Ausführungsform der vorliegenden Erfindung gezeigt ist.

Ausführliche Beschreibung der Erfindung
Nachfolgend wird eine Ausführung eines Verfahrens und eines Systems zur Erkennung eines Endpunkts einer Tonaufnahme gemäß Ausführungsformen der vorliegenden Erfindung in Verbindung mit den beigefügten Zeichnungen im einzelnen beschrieben.
1 ist ein schematisches Ablaufdiagramm, in dem ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist. Wie in 1 gezeigt, weist das Verfahren Folgendes auf:

Voreinstellen eines Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert.

Das Verfahren weist ferner die folgenden Schritte auf:
Schritt 101: Erhalten eines Tonaufnahmetextes und Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes.
Der Tonaufnahmetext ist insbesondere ein Text, den ein Benutzer während der Tonaufnahme lesen bzw. vorlesen muss. Der Text kann in jeder Sprache, wie etwa Chinesisch und Englisch, vorliegen; dies ist hierin nicht beschränkt.
Schritt 102: Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten.
Die Tonaufnahmedaten können Sprachdaten sein, die während des Vorgangs zur Tonaufzeichnung durch eine Tonaufnahmevorrichtung erhalten werden.
Schritt 103: Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten.
Die Reihenfolge der Ausführung von Schritt 101 und der Schritte 102 bis 103 ist nicht eingeschränkt, solange sie vor Schritt 104 durchgeführt werden.
Schritt 104: Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
Bei dem in 1 gezeigten Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme wird das Akustikmodell für den Textendpunkt mit dem Kenndatenakustikmodell des optimalen Decodierpfades verglichen. Wenn sie übereinstimmen, ist der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig, und der Wert des Stummzustandsdauerschwellenwerts wird auf den zweiten Zeitschwellenwert aktualisiert, der verglichen mit dem ersten Zeitschwellenwert kürzer ist. Die Tonaufnahme endet dann, wenn die Stummzustandsdauer des Benutzers größer als der zweite Zeitschwellenwert ist. Dadurch wird im Vergleich zum Stand der Technik durch das Verfahren die Effizienz zur Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Zeitdauer verkürzt, die der Benutzer nach dem Ende der Tonaufnahme warten muss.
Anhand von 1 wird das Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung ausführlicher in Verbindung mit 2 beschrieben. Wie in 2 gezeigt, weist das Verfahren Folgendes auf:

Einstellen eines Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert.

Schritt 201: Erhalten eines Tonaufnahmetextes und Bestimmen eines Akustikmodells eines Textendpunkts entsprechend dem Endpunkt des Tonaufnahmetextes.
Das Bestimmen eines Akustikmodells eines Textendpunkts entsprechend dem Endpunkt des Tonaufnahmetextes kann Folgendes aufweisen:

Erzeugen eines entsprechenden Decodiernetzwerks gemäß dem Tonaufnahmetext, und
Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als das Akustikmodell des Textendpunkts.

Insbesondere kann das hergestellte Decodiernetzwerk ein Stummmodell des Anfangspunkts des Tonaufnahmetextes, ein Akustikmodell jedes Wortes oder jeder Phrase in dem Tonaufnahmetext und ein Stummmodell eines Endpunkts des Tonaufnahmetextes aufweisen. Das Akustikmodell des Textendpunkts kann das Stummmodell des Endpunkts des Tonaufnahmetextes sein.
Beispielsweise weist, wie in 4 gezeigt, für den Tonaufnahmetext „Hello World“ das hergestellte Decodiernetzwerk das Stummmodell Sil_Begin des Anfangspunkts des Tonaufnahmetextes, das Akustikmodell des Wortes „Hello“, das Akustikmodell des Wortes „World“ sowie das Stummmodell Sil_End des Endpunkts des Tonaufnahmetextes auf. Das Stummmodell Sil_End muss bei diesem Schritt erhalten werden.
Schritt 202: Empfangen von Tonaufnahmedaten und Speichern der Tonaufnahmedaten in einem voreingestellten Pufferspeicher.
Schritt 203: Bestimmen eines Tonaufnahmeanfangsrahmens der Tonaufnahmedaten.
Das Bestimmen eines Tonaufnahmeanfangsrahmens der Tonaufnahmedaten kann Folgendes aufweisen:

Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.

Der Schritt des Feststellens, ob die Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, kann durch eine Sprechpausenerkennungs-Richtlinie (VAD-(Voice Activity Detection)-Richtlinie) ausgeführt werden. Das Verfahren zur Bestimmung von Stummdaten oder Nicht-Stummdaten, das von der VAD-Richtlinie ausgeführt wird, ist zum Beispiel in den folgenden zwei Passagen beschrieben: „A statistical model-based voice activity detection (J. Sohn, N. S. Kim und W. Sung, IEEE Signal Process. Lett., Bd. 16, Nr. 1, S. 1-3, 1999)“ und „Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms (ETSI, ETSI ES 202 050 Rec., 2002)“, und deren Beschreibung wird weggelassen.
Eine Zeitspanne für jeden Rahmen der Tonaufnahmedaten und eine Länge eines Abtastfensters können in unterschiedlichen Anwendungsumgebungen verschieden sein, die hierin nicht beschränkt sind. Zum Beispiel kann die Zeitspanne (d.h. ein Rahmenversatz) üblicherweise so eingestellt sein, dass sie 10 ms beträgt, und die Länge des Abtastfensters kann so eingestellt sein, dass sie 25 ms beträgt.
Schritt 204: Erhalten eines Rahmens der Tonaufnahmedaten aus dem Pufferspeicher der Reihe nach, beginnend mit dem Tonaufnahmeanfangsrahmen.
Schritt 205: Decodieren eines erhaltenen aktuellen Rahmens der Tonaufnahmedaten, um ein Kenndatenakustikmodell eines optimalen Decodierpfades zu erhalten, der dem Rahmen der Tonaufnahmedaten entspricht.
Insbesondere kann das Decodieren von Tonaufnahmedaten in Schritt 205 Folgendes aufweisen:

Extrahieren eines Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC)-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad entsprechend dem Rahmen der Tonaufnahmedaten zu erhalten; und
Bestimmen des Kenndatenakustikmodells des optimalen Decodierpfades.

In Übereinstimmung mit Schritt 201 kann das letzte Akustikmodell des optimalen Decodierpfades als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt werden.
Das zur Decodierung verwendete, voreingestellte Akustikmodell kann ein Monophonmodell auf einer Phonemebene oder ein kontextabhängiges Triphonmodell sein und kann ferner ein Stummmodell enthalten.
Der MFCC-Kennwert wird unter Verwendung des voreingestellten Akustikmodells decodiert, damit der optimale Decodierpfad entsprechend der Tonaufnahmedaten erhalten wird. Der optimale Decodierpfad kann ein Pfad mit einer maximalen Wahrscheinlichkeits- oder maximalen Kostenfunktion des Modells sein.
Das Decodieren kann unter Verwendung des Viterbi-Algorithmus etc. durchgeführt werden.
Das in 3 gezeigte Decodierungsergebnis wird zum Beispiel erhalten, nachdem die Decodierung mittels Viterbi-Algorithmus durchgeführt wird. Gemäß einer Ausführungsform der vorliegenden Erfindung ist das letzte Akustikmodell des optimalen Decodierpfades ein Akustikmodell, das einem letzten Zeitpunkt t entspricht. Es wird bestimmt, dass das letzte Akustikmodell des optimalen Decodierpfades, der den Tonaufnahmedaten entspricht, als Kenndatenakustikmodell des optimalen Decodierpfades verwendet wird, der dem Rahmen der Tonaufnahmedaten entspricht.
Schritt 206: Feststellen, ob das Akustikmodell für den Textendpunkt mit dem Kenndatenakustikmodell des optimalen Decodierpfades für den Rahmen der Tonaufnahmedaten übereinstimmt; falls es übereinstimmt, weiter zu Schritt 207, ansonsten weiter zu Schritt 208.
Schritt 207: Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, bei dem der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist, und weiter zu Schritt 209.
Schritt 208: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, und weiter zu Schritt 209.
Schritt 209: Feststellen, ob der aktuelle Rahmen der aus dem Pufferspeicher erhaltenen Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind; wenn es die Stummdaten sind, weiter zu Schritt 210, ansonsten Rückkehr zu Schritt 204 und Erhalten der Tonaufnahmedaten für den nächsten Rahmen des aktuellen Rahmens aus dem Pufferspeicher.
Die Tonaufnahmedaten werden rahmenweise aufeinanderfolgend aus dem Pufferspeicher erhalten. In Schritt 209 ist der aktuelle Rahmen der Tonaufnahmedaten ein Rahmen der Tonaufnahmedaten, die gegenwärtig aus dem Pufferspeicher erhalten werden und verarbeitet werden müssen.
Der Schritt des Feststellens, ob die Tonaufnahmedaten die Stummdaten oder die Nicht-Stummdaten sind, kann auch durch eine Sprechpausenerkennungs-Richtlinie (VAD-(Voice Activity Detection)-Richtlinie) ausgeführt werden. Zum Beispiel ist das Verfahren zur Bestimmung von Stummdaten oder Nicht-Stummdaten, das von der VAD-Richtlinie ausgeführt wird, in den folgenden beiden Passagen beschrieben: „A statistical model-based voice activity detection (J. Sohn, N. S. Kim und W. Sung, IEEE Signal Process. Lett., Bd. 16, Nr. 1, S. 1-3, 1999)“ und „Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms (ETSI, ETSI ES 202 050 Rec., 2002)“, und deren Beschreibung wird weggelassen.
Schritt 210: Feststellen, ob eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist; wenn eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist, Beenden der Tonaufnahme, ansonsten Rückkehr zu Schritt 204, Erhalten der Tonaufnahmedaten für den nächsten Rahmen des aktuellen Rahmens aus dem Pufferspeicher, und Verwenden des Rahmens der Tonaufnahmedaten als den aktuellen Rahmen der Tonaufnahmedaten.
Schritt 209 ist nur zwischen Schritt 204 und Schritt 210 auszuführen, die Reihenfolge der Durchführung der Schritte 205 bis 208 ist nicht beschränkt.
In Schritt 210 ist die aktuelle Stummzustandsdauer darauf bezogen, dass die mehreren aufeinander folgenden Rahmen der Tonaufnahmedaten vor dem aktuellen Rahmen der Tonaufnahmedaten Stummdaten sind. Insbesondere kann die aktuelle Stummzustandsdauer gemäß der folgenden Formel berechnet werden:

Die aktuelle Stummzustandsdauer = (die laufende Nummer des aktuellen Rahmens - der laufenden Nummer eines Rahmens, der dem ersten Rahmen der Nicht-Stummdaten vor dem aktuellen Rahmen entspricht) * der Länge eines Rahmens.

In dem Falle, dass der (m-1)te Rahmen und der (m-2)te Rahmen der Tonaufnahmedaten beides Nicht-Stummdaten sind und der (m)te Rahmen bis (m+n)te Rahmen der Tonaufnahmedaten sämtlich Stummdaten sind, ist zum Beispiel die aktuelle Stummzustandsdauer die Länge eines Rahmens, wenn der (m)te Rahmen der Tonaufnahmedaten verarbeitet wird, ist die aktuelle Stummzustandsdauer die Länge von zwei Rahmen, wenn der (m+1)te Rahmen der Tonaufnahmedaten verarbeitet wird, ..., ist die aktuelle Stummzustandsdauer die Länge von (n+1) Rahmen, wenn der (m+n)te Rahmen der Tonaufnahmedaten verarbeitet wird.
Ferner kann in Schritt 210 der aktuelle Stummzustandsdauerschwellenwert zu verschiedenen Zeitpunkten der erste Zeitschwellenwert oder der zweite Zeitschwellenwert sein. Insbesondere ist die aktuelle Stummzustandsdauer immer der erste Zeitschwellenwert, bevor bei Schritt 206 festgestellt wird, dass es einen Rahmen der Tonaufnahmedaten gibt, deren Kenndatenakustikmodell mit dem Akustikmodell für den Textendpunkt übereinstimmt; und der Stummzustandsdauerschwellenwert wird auf den zweiten Zeitschwellenwert mit einer kürzeren zeitlichen Dauer aktualisiert, sobald bei Schritt 206 festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für einen bestimmten Rahmen mit dem Akustikmodell des Textendpunkts übereinstimmt.
Bei dem in 2 gezeigten Verfahren heißt dies, dass, wenn immer festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades sich von dem Akustikmodell des Endpunkts unterscheidet, der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes nicht beendet, und zu dieser Zeit ist der Stummzustandsdauerschwellenwert der erste Zeitschwellenwert. Die Tonaufnahme wird erst beendet, wenn die vom Benutzer eingehaltene Stummzustandsdauer größer als der aktuelle Stummzustandsdauerschwellenwert (d.h. der erste Zeitschwellenwert) ist, damit sichergestellt ist, dass die Tonaufnahme auch dann automatisch beendet werden kann, wenn der Benutzer eine unnormale Tonaufnahme ausführt (zum Beispiel tritt beim Lesen ein Fehler auf, oder das Lesen wird in der Mitte beendet). Wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell des Endpunkts übereinstimmt, so bedeutet dies, dass der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig ist, und zu diesem Zeitpunkt wird der Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, der von dem ersten Zeitschwellenwert und dem zweiten Zeitschwellenwert der kürzere ist. Damit wird die Tonaufnahme beendet, sobald die Stummzustandsdauer des Benutzers größer als der aktuelle Stummzustandsdauerschwellenwert (d.h. der zweite Zeitschwellenwert) ist. Auf diese Weise ist in dem Fall, dass der Benutzer das Lesen des Tonaufnahmetextes normal beendet, die Wartedauer des Benutzers lediglich der zweite Zeitschwellenwert. Deshalb wird die Wartedauer relativ zum ersten Zeitschwellenwert im Stand der Technik verkürzt und die Effizienz der Ermittlung des Endpunkts der Tonaufnahme verbessert.
Wird bei dem in 2 gezeigten Verfahren jedoch festgestellt, dass das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell des Textendpunkts in Schritt 206 übereinstimmt, obwohl festgestellt wird, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes beendet hat, so wird die Feststellung von Schritt 206 anschließend auch bei jedem der nachfolgenden Rahmen der Tonaufnahmedaten durchgeführt, nachdem festgestellt wird, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes beendet hat. In diesem Fall ist der Feststellschritt von Schritt 206 nicht notwendig. Wenn zum Beispiel das Ergebnis des Feststellens für den Nten Rahmen der Tonaufnahmedaten bei Schritt 206 das gleiche ist, so bedeutet dies, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes bereits im Nten Rahmen der Tonaufnahmedaten beendet hat. In diesem Fall ist es für den N+1ten Rahmen und die darauf folgenden mehreren Rahmen der Tonaufnahmedaten nicht nötig, die Feststellung von Schritt 206 durchzuführen. Deshalb werden bei der praktischen Anwendung zum Zweck der weiteren Verbesserung der Effizienz der Ermittlung und Verarbeitung des Endpunkts der Tonaufnahme die Schritte 209 bis 210 an Stelle der Schritte 205 bis 208 bei den nachfolgenden Rahmen der Tonaufnahmedaten durchgeführt, nachdem festgestellt wird, dass das Kenndatenakustikmodell der Tonaufnahmedaten mit dem Akustikmodell des Textendpunkts zur ersten Zeit in Schritt 206 übereinstimmt. Es wird nämlich nur festgestellt, ob der erhaltene aktuelle Rahmen der Tonaufnahmedaten die Stummdaten sind oder nicht, und die Stummzustandsdauer wird festgestellt, wenn der erhaltene aktuelle Rahmen der Tonaufnahmedaten die Stummdaten sind.
Entsprechend dem Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme ist, wie in 5 gezeigt, ein System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung geschaffen. Bei dem System ist ein Stummzustandsdauerschwellenwert als ein erster Zeitschwellenwert voreingestellt, und das System weist ferner Folgendes auf:

eine erste Bestimmungseinheit 510, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt;
eine erste erhaltende Einheit 520, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
eine zweite Bestimmungseinheit 530, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und
eine Schwellenwertbestimmungseinheit 540, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.

Vorzugsweise ist die Schwellenwertbestimmungseinheit 540 ferner so eingerichtet, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
Außerdem kann, wie in 5 gezeigt, das System ferner Folgendes aufweisen:

eine Tonaufnahmesteuereinheit 550, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und die aktuelle Stummzustandsdauer größer als der aktuelle Stummzustandsdauerschwellenwert ist.

Vorzugsweise kann, wie in 6 gezeigt, die erste Bestimmungseinheit 510 Folgendes aufweisen:

eine erhaltende Untereinheit 610, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält;
eine Netzwerkherstellungsuntereinheit 620, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und
eine erste Kennwertbestimmungsuntereinheit 630, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt.

Vorzugsweise kann, wie in 7 gezeigt, die zweite Bestimmungseinheit 520 Folgendes aufweisen:

eine Extrahierungsuntereinheit 710, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
eine zweite Kennwertbestimmungsuntereinheit 720, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt.

Wie in 5 gezeigt, kann das System ferner Folgendes aufweisen:

eine Empfangseinheit 500, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.

Vorzugsweise kann die Empfangseinheit 500 Folgendes aufweisen:

Der Schritt, bei dem festgestellt wird, ob die Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, wie oben beschrieben, kann durch eine VAD-Richtlinie (Sprechpausenerkennungs-Richtlinie) ausgeführt werden, und deren Beschreibung wird weggelassen.
Bei dem in den 5 bis 7 gezeigten System zur Erkennung eines Endpunkts einer Tonaufnahme vergleicht die Schwellenwertbestimmungseinheit das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell für den Endpunkt. Wenn sie übereinstimmen, bedeutet dies, dass der Benutzer mit dem Lesen bzw. Vorlesen des Tonaufnahmetextes bereits fertig ist, und der Stummzustandsdauerschwellenwert wird auf den zweiten Zeitschwellenwert aktualisiert, der kürzer als der erste Zeitschwellenwert ist. Dann endet die Tonaufnahme, wenn eine Tonaufnahmesteuereinheit feststellt, dass die aktuelle Stummzustandsdauer größer als der zweite Zeitschwellenwert ist. Auf diese Weise wird, verglichen mit dem Stand der Technik, durch das System die Wartedauer des Benutzers, nachdem die Tonaufnahme beendet ist, verkürzt, die Effizienz zur Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Benutzererfahrung verbessert.
Das Verfahren und das System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß den Ausführungsformen der vorliegenden Erfindung kann nicht nur bei einem Sprachbeurteilungssystem angewendet werden, sondern kann auch in anderen Fällen zur Anwendung kommen, bei denen ein bekannter Text gelesen bzw. vorgelesen werden muss, um die Tonaufnahme durchzuführen.
Dem Fachmann ist klar, dass der Vorgang der Implementierung des Verfahrens zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der oben genannten Ausführungsform von einer Hardware entsprechend einem Programmbefehl durchgeführt werden kann. Das Programm kann in einem lesbaren Speichermedium gespeichert sein, und das Programm führt entsprechende Schritte bei dem Verfahren bei der Ausführung aus. Das Speichermedium kann ein Festwertspeicher/Direktzugriffsspeicher, eine Magnetplatte, eine optische Platte etc. sein.
Die oben beschriebenen Ausführungsformen sind lediglich die bevorzugten Ausführungsformen der vorliegenden Erfindung. Für den Fachmann sei festgestellt, dass mehrere Verbesserungen und Abänderungen vorgenommen werden können, ohne vom Prinzip der vorliegenden Erfindung abzuweichen, und die Verbesserungen und Abänderungen innerhalb des Schutzumfangs der vorliegenden Erfindung liegen.

Claims

Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird, wobei das Verfahren ferner Folgendes umfasst: Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten; Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
Verfahren nach Anspruch 1, bei dem das Bestimmen eines Akustikmodells für einen Textendpunkt Folgendes umfasst: Erzeugen eines Decodiernetzwerks, das dem Text gemäß dem Tonaufnahmetext entspricht, und Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als Akustikmodell für den Textendpunkt.
Verfahren nach Anspruch 2, bei dem das Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen aktuellen Rahmen der Tonaufnahmedaten Folgendes umfasst: Extrahieren eines MFCC-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und Bestimmen eines letzten Akustikmodells des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem das Verfahren, nachdem ein Rahmen von Tonaufnahmedaten erhalten wird, ferner Folgendes umfasst: Beenden der Tonaufnahme, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
Verfahren nach einem der Ansprüche 1 bis 4, bei dem das Verfahren vor dem Erhalten jedes Rahmens von Tonaufnahmedaten ferner Folgendes umfasst: Empfangen der Tonaufnahmedaten und Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten.
Verfahren nach Anspruch 6, bei dem das Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten Folgendes umfasst: Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.
System zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt ist und das System ferner Folgendes umfasst: eine erste Bestimmungseinheit, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt; eine erste erhaltende Einheit, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten; eine zweite Bestimmungseinheit, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und eine Schwellenwertbestimmungseinheit, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
System nach Anspruch 8, bei dem die erste Bestimmungseinheit Folgendes umfasst: eine erhaltende Untereinheit, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält; eine Netzwerkherstellungsuntereinheit, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und eine erste Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt.
System nach Anspruch 9, bei dem die zweite Bestimmungseinheit Folgendes umfasst: eine Extrahierungsuntereinheit, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und eine zweite Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt.
System nach Anspruch 8, bei dem die Schwellenwertbestimmungseinheit ferner so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
System nach einem der Ansprüche 8 bis 11, das ferner Folgendes umfasst: eine Tonaufnahmesteuereinheit, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
System nach einem der Ansprüche 8 bis 11, das ferner Folgendes umfasst: eine Empfangseinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
System nach Anspruch 13, bei dem die Empfangseinheit Folgendes umfasst: eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.