DE112010005959B4 - Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme - Google Patents

Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme Download PDF

Info

Publication number
DE112010005959B4
DE112010005959B4 DE112010005959.4T DE112010005959T DE112010005959B4 DE 112010005959 B4 DE112010005959 B4 DE 112010005959B4 DE 112010005959 T DE112010005959 T DE 112010005959T DE 112010005959 B4 DE112010005959 B4 DE 112010005959B4
Authority
DE
Germany
Prior art keywords
sound recording
acoustic model
recording data
frame
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112010005959.4T
Other languages
English (en)
Other versions
DE112010005959T5 (de
Inventor
Si Wei
Guoping Hu
Yu Hu
Qingfeng Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of DE112010005959T5 publication Critical patent/DE112010005959T5/de
Application granted granted Critical
Publication of DE112010005959B4 publication Critical patent/DE112010005959B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird, wobei das Verfahren ferner Folgendes umfasst:
Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und
Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft die Tonaufnahmesteuertechnologie und insbesondere die Technologie der automatischen Erkennung eines Endpunkts einer Tonaufnahme.
  • Hintergrund der Erfindung
  • Nach vielen Jahren der technischen Entwicklung ist eine einen Text betreffende Sprachbeurteilung in eine Praxisphase eingetreten. Die den Text betreffende Sprachbeurteilung bezieht sich darauf, dass ein bestimmter Text von einem Benutzer gelesen wird und ein Sprachbeurteilungssystem Aussprachedaten des Benutzers speichert und die Aussprachedaten beurteilt, um eine Auswertung der Beurteilung abzugeben.
  • Bei einem bestehenden Sprachbeurteilungssystem wird im Allgemeinen eine Benutzertonaufnahmesteuerung vom Benutzer von Hand durchgeführt. Das heißt, die Tonaufnahme beginnt, wenn der Benutzer auf eine vorgegebene Tonaufnahmebeginn-Taste bzw. -Schaltfläche drückt bzw. klickt, und die Tonaufnahme endet, wenn der Benutzer auf eine vorgegebene Tonaufnahmeende-Taste bzw. -Schaltfläche drückt bzw. klickt. Bei dieser Tonaufnahmesteuerung muss der Benutzer viele Male manuell drücken bzw. klicken; die Bedienung ist aufwendig, und dies wirkt sich auf die Benutzererfahrung aus.
  • Deshalb gibt es im Stand der Technik ein Verfahren für eine automatische Tonaufnahmesteuerung. Bei dem Verfahren erkennt ein Sprachbeurteilungssystem automatisch, ob sich die Benutzertonaufnahme in einem Sprech- oder einem Stummzustand befindet, und stellt das Ende der Tonaufnahme fest, wenn eine Stummzustandsdauer des Benutzers länger als ein vorgegebener Zeitschwellenwert ist. Bei dem Verfahren der automatischen Tonaufnahmesteuerung wird jedoch eine normale Sprechpause des Benutzers eventuell als Endpunkt der Tonaufnahme eingestuft, wenn der Zeitschwellenwert kürzer eingestellt ist, was dazu führt, dass das vom Benutzer Gesprochene abgeschnitten wird. Deshalb wird im Stand der Technik der Zeitschwellenwert üblicherweise als größerer Wert, zum Beispiel 2 Sekunden oder länger, eingestellt; dadurch muss der Benutzer sehr lange warten, bis der Endpunkt der Tonaufnahme vom Sprachbeurteilungssystem ermittelt und die Tonaufnahme beendet wird, nachdem der Benutzer das Sprechen beendet hat. Auf diese Weise ist die Effizienz der Ermittlung des Endpunkts der Tonaufnahme durch das Sprachbeurteilungssystem verringert, die Effizienz der Sprachbeurteilung ist vermindert, und dies wirkt sich auf die Benutzererfahrung aus.
  • US 5 634 086 A offenbart einen sprachkontextsensitiven Spracherkenner. Ferner wird ein sprachempfindlicher Äußerungsendpunktdetektor zum Beurteilen eines Endes einer gesprochenen Äußerung bereitgestellt, um die menschliche Redensart in der Konversationssprache zu simulieren.
  • Kurzfassung der Erfindung
  • In Anbetracht dessen besteht die von der vorliegenden Erfindung gelöste technische Aufgabe darin, ein Verfahren und ein System zur Erkennung eines Endpunkts einer Tonaufnahme zu schaffen, damit die Effizienz der Ermittlung des Endpunkts der Tonaufnahme verbessert wird.
  • Deshalb kommt bei einer Ausführungsform der vorliegenden Erfindung die folgende technische Lösung zum Einsatz.
  • Bei einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme geschaffen, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird; das Verfahren weist ferner Folgendes auf:
    • Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
    • Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und
    • Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
  • Das Bestimmen eines Akustikmodells für einen Textendpunkt weist Folgendes auf:
    • Erzeugen eines Decodiernetzwerks, das dem Text gemäß dem Tonaufnahmetext entspricht, und Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als Akustikmodell für den Textendpunkt.
  • Das Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen aktuellen Rahmen der Tonaufnahmedaten weist Folgendes auf:
    • Extrahieren eines MFCC-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
    • Bestimmen eines letzten Akustikmodells des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades.
  • Das Verfahren weist ferner Folgendes auf: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
  • Das Verfahren weist ferner Folgendes auf: Nachdem ein Rahmen von Tonaufnahmedaten erhalten wird,
    wird die Tonaufnahme beendet, wenn der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
  • Das Verfahren weist ferner Folgendes auf: Vor dem Erhalten jedes Rahmens von Tonaufnahmedaten
    werden die Tonaufnahmedaten empfangen und der Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
  • Das Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten weist Folgendes auf:
    • Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.
  • Bei einer Ausführungsform der vorliegenden Erfindung wird ferner ein System zur Erkennung eines Endpunkts einer Tonaufnahme geschaffen; ein Stummzustandsdauerschwellenwert ist als erster Zeitschwellenwert voreingestellt, und das System weist ferner Folgendes auf:
    • eine erste Bestimmungseinheit, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt;
    • eine erste erhaltende Einheit, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
    • eine zweite Bestimmungseinheit, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und
    • eine Schwellenwertbestimmungseinheit, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
  • Die erste Bestimmungseinheit weist Folgendes auf:
    • eine erhaltende Untereinheit, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält;
    • eine Netzwerkherstellungsuntereinheit, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und
    • eine erste Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt.
  • Die zweite Bestimmungseinheit weist Folgendes auf:
    • eine Extrahierungsuntereinheit, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
    • eine zweite Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt.
  • Die Schwellenwertbestimmungseinheit ist ferner so eingerichtet, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
  • Das System weist ferner eine Tonaufnahmesteuereinheit auf, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
  • Das System weist ferner eine Empfangseinheit auf, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
  • Die Empfangseinheit weist Folgendes auf:
    • eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und
    • eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.
  • Im Folgenden werden die technischen Wirkungen der oben beschriebenen technischen Lösung dargelegt.
  • Das Akustikmodell des Textendpunkts wird mit dem Kenndatenakustikmodell des optimalen Decodierpfades verglichen, der dem aktuellen Rahmen der Tonaufnahmedaten entspricht. Wenn sie übereinstimmen, ist der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig und wird der Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, der bezüglich des ersten Zeitschwellenwerts kürzer ist. Die Tonaufnahme endet dann, wenn die Stummzustandsdauer des Benutzers größer als der zweite Zeitschwellenwert ist. Dadurch wird im Vergleich zum Stand der Technik durch die technische Lösung der Erfindung die Effizienz der Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Zeitdauer verkürzt, die der Benutzer nach dem Ende der Tonaufnahme abwarten muss.
  • Figurenliste
    • 1 ist ein schematisches Ablaufdiagramm, in dem ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
    • 2 ist ein schematisches Ablaufdiagramm, in dem ein weiteres Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
    • 3 ist eine schematische Darstellung, in der ein Viterbi-Algorithmus gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
    • 4 ist ein beispielhaftes Diagramm eines Decodiernetzwerks gemäß einer Ausführungsform der vorliegenden Erfindung,
    • 5 ist ein schematisches Strukturdiagramm, in dem ein System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist,
    • 6 ist ein schematisches Strukturdiagramm, in dem eine Ausführung einer Einheit bei einem System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der Ausführungsform der vorliegenden Erfindung gezeigt ist, und
    • 7 ist ein schematisches Strukturdiagramm, in dem eine Ausführung einer weiteren Einheit bei einem System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der Ausführungsform der vorliegenden Erfindung gezeigt ist.
  • Ausführliche Beschreibung der Erfindung
  • Nachfolgend wird eine Ausführung eines Verfahrens und eines Systems zur Erkennung eines Endpunkts einer Tonaufnahme gemäß Ausführungsformen der vorliegenden Erfindung in Verbindung mit den beigefügten Zeichnungen im einzelnen beschrieben.
  • 1 ist ein schematisches Ablaufdiagramm, in dem ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist. Wie in 1 gezeigt, weist das Verfahren Folgendes auf:
    • Voreinstellen eines Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert.
  • Das Verfahren weist ferner die folgenden Schritte auf:
  • Schritt 101: Erhalten eines Tonaufnahmetextes und Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes.
  • Der Tonaufnahmetext ist insbesondere ein Text, den ein Benutzer während der Tonaufnahme lesen bzw. vorlesen muss. Der Text kann in jeder Sprache, wie etwa Chinesisch und Englisch, vorliegen; dies ist hierin nicht beschränkt.
  • Schritt 102: Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten.
  • Die Tonaufnahmedaten können Sprachdaten sein, die während des Vorgangs zur Tonaufzeichnung durch eine Tonaufnahmevorrichtung erhalten werden.
  • Schritt 103: Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten.
  • Die Reihenfolge der Ausführung von Schritt 101 und der Schritte 102 bis 103 ist nicht eingeschränkt, solange sie vor Schritt 104 durchgeführt werden.
  • Schritt 104: Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
  • Bei dem in 1 gezeigten Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme wird das Akustikmodell für den Textendpunkt mit dem Kenndatenakustikmodell des optimalen Decodierpfades verglichen. Wenn sie übereinstimmen, ist der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig, und der Wert des Stummzustandsdauerschwellenwerts wird auf den zweiten Zeitschwellenwert aktualisiert, der verglichen mit dem ersten Zeitschwellenwert kürzer ist. Die Tonaufnahme endet dann, wenn die Stummzustandsdauer des Benutzers größer als der zweite Zeitschwellenwert ist. Dadurch wird im Vergleich zum Stand der Technik durch das Verfahren die Effizienz zur Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Zeitdauer verkürzt, die der Benutzer nach dem Ende der Tonaufnahme warten muss.
  • Anhand von 1 wird das Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung ausführlicher in Verbindung mit 2 beschrieben. Wie in 2 gezeigt, weist das Verfahren Folgendes auf:
    • Einstellen eines Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert.
  • Schritt 201: Erhalten eines Tonaufnahmetextes und Bestimmen eines Akustikmodells eines Textendpunkts entsprechend dem Endpunkt des Tonaufnahmetextes.
  • Das Bestimmen eines Akustikmodells eines Textendpunkts entsprechend dem Endpunkt des Tonaufnahmetextes kann Folgendes aufweisen:
    • Erzeugen eines entsprechenden Decodiernetzwerks gemäß dem Tonaufnahmetext, und
    • Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als das Akustikmodell des Textendpunkts.
  • Insbesondere kann das hergestellte Decodiernetzwerk ein Stummmodell des Anfangspunkts des Tonaufnahmetextes, ein Akustikmodell jedes Wortes oder jeder Phrase in dem Tonaufnahmetext und ein Stummmodell eines Endpunkts des Tonaufnahmetextes aufweisen. Das Akustikmodell des Textendpunkts kann das Stummmodell des Endpunkts des Tonaufnahmetextes sein.
  • Beispielsweise weist, wie in 4 gezeigt, für den Tonaufnahmetext „Hello World“ das hergestellte Decodiernetzwerk das Stummmodell Sil_Begin des Anfangspunkts des Tonaufnahmetextes, das Akustikmodell des Wortes „Hello“, das Akustikmodell des Wortes „World“ sowie das Stummmodell Sil_End des Endpunkts des Tonaufnahmetextes auf. Das Stummmodell Sil_End muss bei diesem Schritt erhalten werden.
  • Schritt 202: Empfangen von Tonaufnahmedaten und Speichern der Tonaufnahmedaten in einem voreingestellten Pufferspeicher.
  • Schritt 203: Bestimmen eines Tonaufnahmeanfangsrahmens der Tonaufnahmedaten.
  • Das Bestimmen eines Tonaufnahmeanfangsrahmens der Tonaufnahmedaten kann Folgendes aufweisen:
    • Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.
  • Der Schritt des Feststellens, ob die Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, kann durch eine Sprechpausenerkennungs-Richtlinie (VAD-(Voice Activity Detection)-Richtlinie) ausgeführt werden. Das Verfahren zur Bestimmung von Stummdaten oder Nicht-Stummdaten, das von der VAD-Richtlinie ausgeführt wird, ist zum Beispiel in den folgenden zwei Passagen beschrieben: „A statistical model-based voice activity detection (J. Sohn, N. S. Kim und W. Sung, IEEE Signal Process. Lett., Bd. 16, Nr. 1, S. 1-3, 1999)“ und „Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms (ETSI, ETSI ES 202 050 Rec., 2002)“, und deren Beschreibung wird weggelassen.
  • Eine Zeitspanne für jeden Rahmen der Tonaufnahmedaten und eine Länge eines Abtastfensters können in unterschiedlichen Anwendungsumgebungen verschieden sein, die hierin nicht beschränkt sind. Zum Beispiel kann die Zeitspanne (d.h. ein Rahmenversatz) üblicherweise so eingestellt sein, dass sie 10 ms beträgt, und die Länge des Abtastfensters kann so eingestellt sein, dass sie 25 ms beträgt.
  • Schritt 204: Erhalten eines Rahmens der Tonaufnahmedaten aus dem Pufferspeicher der Reihe nach, beginnend mit dem Tonaufnahmeanfangsrahmen.
  • Schritt 205: Decodieren eines erhaltenen aktuellen Rahmens der Tonaufnahmedaten, um ein Kenndatenakustikmodell eines optimalen Decodierpfades zu erhalten, der dem Rahmen der Tonaufnahmedaten entspricht.
  • Insbesondere kann das Decodieren von Tonaufnahmedaten in Schritt 205 Folgendes aufweisen:
    • Extrahieren eines Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC)-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad entsprechend dem Rahmen der Tonaufnahmedaten zu erhalten; und
    • Bestimmen des Kenndatenakustikmodells des optimalen Decodierpfades.
  • In Übereinstimmung mit Schritt 201 kann das letzte Akustikmodell des optimalen Decodierpfades als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt werden.
  • Das zur Decodierung verwendete, voreingestellte Akustikmodell kann ein Monophonmodell auf einer Phonemebene oder ein kontextabhängiges Triphonmodell sein und kann ferner ein Stummmodell enthalten.
  • Der MFCC-Kennwert wird unter Verwendung des voreingestellten Akustikmodells decodiert, damit der optimale Decodierpfad entsprechend der Tonaufnahmedaten erhalten wird. Der optimale Decodierpfad kann ein Pfad mit einer maximalen Wahrscheinlichkeits- oder maximalen Kostenfunktion des Modells sein.
  • Das Decodieren kann unter Verwendung des Viterbi-Algorithmus etc. durchgeführt werden.
  • Das in 3 gezeigte Decodierungsergebnis wird zum Beispiel erhalten, nachdem die Decodierung mittels Viterbi-Algorithmus durchgeführt wird. Gemäß einer Ausführungsform der vorliegenden Erfindung ist das letzte Akustikmodell des optimalen Decodierpfades ein Akustikmodell, das einem letzten Zeitpunkt t entspricht. Es wird bestimmt, dass das letzte Akustikmodell des optimalen Decodierpfades, der den Tonaufnahmedaten entspricht, als Kenndatenakustikmodell des optimalen Decodierpfades verwendet wird, der dem Rahmen der Tonaufnahmedaten entspricht.
  • Schritt 206: Feststellen, ob das Akustikmodell für den Textendpunkt mit dem Kenndatenakustikmodell des optimalen Decodierpfades für den Rahmen der Tonaufnahmedaten übereinstimmt; falls es übereinstimmt, weiter zu Schritt 207, ansonsten weiter zu Schritt 208.
  • Schritt 207: Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, bei dem der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist, und weiter zu Schritt 209.
  • Schritt 208: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, und weiter zu Schritt 209.
  • Schritt 209: Feststellen, ob der aktuelle Rahmen der aus dem Pufferspeicher erhaltenen Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind; wenn es die Stummdaten sind, weiter zu Schritt 210, ansonsten Rückkehr zu Schritt 204 und Erhalten der Tonaufnahmedaten für den nächsten Rahmen des aktuellen Rahmens aus dem Pufferspeicher.
  • Die Tonaufnahmedaten werden rahmenweise aufeinanderfolgend aus dem Pufferspeicher erhalten. In Schritt 209 ist der aktuelle Rahmen der Tonaufnahmedaten ein Rahmen der Tonaufnahmedaten, die gegenwärtig aus dem Pufferspeicher erhalten werden und verarbeitet werden müssen.
  • Der Schritt des Feststellens, ob die Tonaufnahmedaten die Stummdaten oder die Nicht-Stummdaten sind, kann auch durch eine Sprechpausenerkennungs-Richtlinie (VAD-(Voice Activity Detection)-Richtlinie) ausgeführt werden. Zum Beispiel ist das Verfahren zur Bestimmung von Stummdaten oder Nicht-Stummdaten, das von der VAD-Richtlinie ausgeführt wird, in den folgenden beiden Passagen beschrieben: „A statistical model-based voice activity detection (J. Sohn, N. S. Kim und W. Sung, IEEE Signal Process. Lett., Bd. 16, Nr. 1, S. 1-3, 1999)“ und „Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms (ETSI, ETSI ES 202 050 Rec., 2002)“, und deren Beschreibung wird weggelassen.
  • Schritt 210: Feststellen, ob eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist; wenn eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist, Beenden der Tonaufnahme, ansonsten Rückkehr zu Schritt 204, Erhalten der Tonaufnahmedaten für den nächsten Rahmen des aktuellen Rahmens aus dem Pufferspeicher, und Verwenden des Rahmens der Tonaufnahmedaten als den aktuellen Rahmen der Tonaufnahmedaten.
  • Schritt 209 ist nur zwischen Schritt 204 und Schritt 210 auszuführen, die Reihenfolge der Durchführung der Schritte 205 bis 208 ist nicht beschränkt.
  • In Schritt 210 ist die aktuelle Stummzustandsdauer darauf bezogen, dass die mehreren aufeinander folgenden Rahmen der Tonaufnahmedaten vor dem aktuellen Rahmen der Tonaufnahmedaten Stummdaten sind. Insbesondere kann die aktuelle Stummzustandsdauer gemäß der folgenden Formel berechnet werden:
    • Die aktuelle Stummzustandsdauer = (die laufende Nummer des aktuellen Rahmens - der laufenden Nummer eines Rahmens, der dem ersten Rahmen der Nicht-Stummdaten vor dem aktuellen Rahmen entspricht) * der Länge eines Rahmens.
  • In dem Falle, dass der (m-1)te Rahmen und der (m-2)te Rahmen der Tonaufnahmedaten beides Nicht-Stummdaten sind und der (m)te Rahmen bis (m+n)te Rahmen der Tonaufnahmedaten sämtlich Stummdaten sind, ist zum Beispiel die aktuelle Stummzustandsdauer die Länge eines Rahmens, wenn der (m)te Rahmen der Tonaufnahmedaten verarbeitet wird, ist die aktuelle Stummzustandsdauer die Länge von zwei Rahmen, wenn der (m+1)te Rahmen der Tonaufnahmedaten verarbeitet wird, ..., ist die aktuelle Stummzustandsdauer die Länge von (n+1) Rahmen, wenn der (m+n)te Rahmen der Tonaufnahmedaten verarbeitet wird.
  • Ferner kann in Schritt 210 der aktuelle Stummzustandsdauerschwellenwert zu verschiedenen Zeitpunkten der erste Zeitschwellenwert oder der zweite Zeitschwellenwert sein. Insbesondere ist die aktuelle Stummzustandsdauer immer der erste Zeitschwellenwert, bevor bei Schritt 206 festgestellt wird, dass es einen Rahmen der Tonaufnahmedaten gibt, deren Kenndatenakustikmodell mit dem Akustikmodell für den Textendpunkt übereinstimmt; und der Stummzustandsdauerschwellenwert wird auf den zweiten Zeitschwellenwert mit einer kürzeren zeitlichen Dauer aktualisiert, sobald bei Schritt 206 festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für einen bestimmten Rahmen mit dem Akustikmodell des Textendpunkts übereinstimmt.
  • Bei dem in 2 gezeigten Verfahren heißt dies, dass, wenn immer festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades sich von dem Akustikmodell des Endpunkts unterscheidet, der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes nicht beendet, und zu dieser Zeit ist der Stummzustandsdauerschwellenwert der erste Zeitschwellenwert. Die Tonaufnahme wird erst beendet, wenn die vom Benutzer eingehaltene Stummzustandsdauer größer als der aktuelle Stummzustandsdauerschwellenwert (d.h. der erste Zeitschwellenwert) ist, damit sichergestellt ist, dass die Tonaufnahme auch dann automatisch beendet werden kann, wenn der Benutzer eine unnormale Tonaufnahme ausführt (zum Beispiel tritt beim Lesen ein Fehler auf, oder das Lesen wird in der Mitte beendet). Wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell des Endpunkts übereinstimmt, so bedeutet dies, dass der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig ist, und zu diesem Zeitpunkt wird der Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, der von dem ersten Zeitschwellenwert und dem zweiten Zeitschwellenwert der kürzere ist. Damit wird die Tonaufnahme beendet, sobald die Stummzustandsdauer des Benutzers größer als der aktuelle Stummzustandsdauerschwellenwert (d.h. der zweite Zeitschwellenwert) ist. Auf diese Weise ist in dem Fall, dass der Benutzer das Lesen des Tonaufnahmetextes normal beendet, die Wartedauer des Benutzers lediglich der zweite Zeitschwellenwert. Deshalb wird die Wartedauer relativ zum ersten Zeitschwellenwert im Stand der Technik verkürzt und die Effizienz der Ermittlung des Endpunkts der Tonaufnahme verbessert.
  • Wird bei dem in 2 gezeigten Verfahren jedoch festgestellt, dass das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell des Textendpunkts in Schritt 206 übereinstimmt, obwohl festgestellt wird, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes beendet hat, so wird die Feststellung von Schritt 206 anschließend auch bei jedem der nachfolgenden Rahmen der Tonaufnahmedaten durchgeführt, nachdem festgestellt wird, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes beendet hat. In diesem Fall ist der Feststellschritt von Schritt 206 nicht notwendig. Wenn zum Beispiel das Ergebnis des Feststellens für den Nten Rahmen der Tonaufnahmedaten bei Schritt 206 das gleiche ist, so bedeutet dies, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes bereits im Nten Rahmen der Tonaufnahmedaten beendet hat. In diesem Fall ist es für den N+1ten Rahmen und die darauf folgenden mehreren Rahmen der Tonaufnahmedaten nicht nötig, die Feststellung von Schritt 206 durchzuführen. Deshalb werden bei der praktischen Anwendung zum Zweck der weiteren Verbesserung der Effizienz der Ermittlung und Verarbeitung des Endpunkts der Tonaufnahme die Schritte 209 bis 210 an Stelle der Schritte 205 bis 208 bei den nachfolgenden Rahmen der Tonaufnahmedaten durchgeführt, nachdem festgestellt wird, dass das Kenndatenakustikmodell der Tonaufnahmedaten mit dem Akustikmodell des Textendpunkts zur ersten Zeit in Schritt 206 übereinstimmt. Es wird nämlich nur festgestellt, ob der erhaltene aktuelle Rahmen der Tonaufnahmedaten die Stummdaten sind oder nicht, und die Stummzustandsdauer wird festgestellt, wenn der erhaltene aktuelle Rahmen der Tonaufnahmedaten die Stummdaten sind.
  • Entsprechend dem Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme ist, wie in 5 gezeigt, ein System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung geschaffen. Bei dem System ist ein Stummzustandsdauerschwellenwert als ein erster Zeitschwellenwert voreingestellt, und das System weist ferner Folgendes auf:
    • eine erste Bestimmungseinheit 510, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt;
    • eine erste erhaltende Einheit 520, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
    • eine zweite Bestimmungseinheit 530, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und
    • eine Schwellenwertbestimmungseinheit 540, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
  • Vorzugsweise ist die Schwellenwertbestimmungseinheit 540 ferner so eingerichtet, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
  • Außerdem kann, wie in 5 gezeigt, das System ferner Folgendes aufweisen:
    • eine Tonaufnahmesteuereinheit 550, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und die aktuelle Stummzustandsdauer größer als der aktuelle Stummzustandsdauerschwellenwert ist.
  • Vorzugsweise kann, wie in 6 gezeigt, die erste Bestimmungseinheit 510 Folgendes aufweisen:
    • eine erhaltende Untereinheit 610, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält;
    • eine Netzwerkherstellungsuntereinheit 620, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und
    • eine erste Kennwertbestimmungsuntereinheit 630, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt.
  • Vorzugsweise kann, wie in 7 gezeigt, die zweite Bestimmungseinheit 520 Folgendes aufweisen:
    • eine Extrahierungsuntereinheit 710, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
    • eine zweite Kennwertbestimmungsuntereinheit 720, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt.
  • Wie in 5 gezeigt, kann das System ferner Folgendes aufweisen:
    • eine Empfangseinheit 500, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
  • Vorzugsweise kann die Empfangseinheit 500 Folgendes aufweisen:
    • eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und
    • eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.
  • Der Schritt, bei dem festgestellt wird, ob die Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, wie oben beschrieben, kann durch eine VAD-Richtlinie (Sprechpausenerkennungs-Richtlinie) ausgeführt werden, und deren Beschreibung wird weggelassen.
  • Bei dem in den 5 bis 7 gezeigten System zur Erkennung eines Endpunkts einer Tonaufnahme vergleicht die Schwellenwertbestimmungseinheit das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell für den Endpunkt. Wenn sie übereinstimmen, bedeutet dies, dass der Benutzer mit dem Lesen bzw. Vorlesen des Tonaufnahmetextes bereits fertig ist, und der Stummzustandsdauerschwellenwert wird auf den zweiten Zeitschwellenwert aktualisiert, der kürzer als der erste Zeitschwellenwert ist. Dann endet die Tonaufnahme, wenn eine Tonaufnahmesteuereinheit feststellt, dass die aktuelle Stummzustandsdauer größer als der zweite Zeitschwellenwert ist. Auf diese Weise wird, verglichen mit dem Stand der Technik, durch das System die Wartedauer des Benutzers, nachdem die Tonaufnahme beendet ist, verkürzt, die Effizienz zur Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Benutzererfahrung verbessert.
  • Das Verfahren und das System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß den Ausführungsformen der vorliegenden Erfindung kann nicht nur bei einem Sprachbeurteilungssystem angewendet werden, sondern kann auch in anderen Fällen zur Anwendung kommen, bei denen ein bekannter Text gelesen bzw. vorgelesen werden muss, um die Tonaufnahme durchzuführen.
  • Dem Fachmann ist klar, dass der Vorgang der Implementierung des Verfahrens zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der oben genannten Ausführungsform von einer Hardware entsprechend einem Programmbefehl durchgeführt werden kann. Das Programm kann in einem lesbaren Speichermedium gespeichert sein, und das Programm führt entsprechende Schritte bei dem Verfahren bei der Ausführung aus. Das Speichermedium kann ein Festwertspeicher/Direktzugriffsspeicher, eine Magnetplatte, eine optische Platte etc. sein.
  • Die oben beschriebenen Ausführungsformen sind lediglich die bevorzugten Ausführungsformen der vorliegenden Erfindung. Für den Fachmann sei festgestellt, dass mehrere Verbesserungen und Abänderungen vorgenommen werden können, ohne vom Prinzip der vorliegenden Erfindung abzuweichen, und die Verbesserungen und Abänderungen innerhalb des Schutzumfangs der vorliegenden Erfindung liegen.

Claims (14)

  1. Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird, wobei das Verfahren ferner Folgendes umfasst: Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten; Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
  2. Verfahren nach Anspruch 1, bei dem das Bestimmen eines Akustikmodells für einen Textendpunkt Folgendes umfasst: Erzeugen eines Decodiernetzwerks, das dem Text gemäß dem Tonaufnahmetext entspricht, und Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als Akustikmodell für den Textendpunkt.
  3. Verfahren nach Anspruch 2, bei dem das Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen aktuellen Rahmen der Tonaufnahmedaten Folgendes umfasst: Extrahieren eines MFCC-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und Bestimmen eines letzten Akustikmodells des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades.
  4. Verfahren nach Anspruch 1, das ferner Folgendes umfasst: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
  5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem das Verfahren, nachdem ein Rahmen von Tonaufnahmedaten erhalten wird, ferner Folgendes umfasst: Beenden der Tonaufnahme, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
  6. Verfahren nach einem der Ansprüche 1 bis 4, bei dem das Verfahren vor dem Erhalten jedes Rahmens von Tonaufnahmedaten ferner Folgendes umfasst: Empfangen der Tonaufnahmedaten und Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten.
  7. Verfahren nach Anspruch 6, bei dem das Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten Folgendes umfasst: Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.
  8. System zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt ist und das System ferner Folgendes umfasst: eine erste Bestimmungseinheit, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt; eine erste erhaltende Einheit, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten; eine zweite Bestimmungseinheit, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und eine Schwellenwertbestimmungseinheit, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
  9. System nach Anspruch 8, bei dem die erste Bestimmungseinheit Folgendes umfasst: eine erhaltende Untereinheit, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält; eine Netzwerkherstellungsuntereinheit, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und eine erste Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt.
  10. System nach Anspruch 9, bei dem die zweite Bestimmungseinheit Folgendes umfasst: eine Extrahierungsuntereinheit, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und eine zweite Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt.
  11. System nach Anspruch 8, bei dem die Schwellenwertbestimmungseinheit ferner so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
  12. System nach einem der Ansprüche 8 bis 11, das ferner Folgendes umfasst: eine Tonaufnahmesteuereinheit, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
  13. System nach einem der Ansprüche 8 bis 11, das ferner Folgendes umfasst: eine Empfangseinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
  14. System nach Anspruch 13, bei dem die Empfangseinheit Folgendes umfasst: eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.
DE112010005959.4T 2010-10-29 2010-10-29 Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme Active DE112010005959B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/078223 WO2012055113A1 (zh) 2010-10-29 2010-10-29 录音结束点检测方法及系统

Publications (2)

Publication Number Publication Date
DE112010005959T5 DE112010005959T5 (de) 2013-08-14
DE112010005959B4 true DE112010005959B4 (de) 2019-08-29

Family

ID=45993073

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112010005959.4T Active DE112010005959B4 (de) 2010-10-29 2010-10-29 Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme

Country Status (7)

Country Link
US (1) US9330667B2 (de)
JP (1) JP5883014B2 (de)
KR (1) KR101417975B1 (de)
CN (1) CN102971787B (de)
DE (1) DE112010005959B4 (de)
SG (1) SG189182A1 (de)
WO (1) WO2012055113A1 (de)

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (de) 2013-02-07 2021-04-21 Apple Inc. Sprachauslöser für digitalen assistent
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104112446B (zh) * 2013-04-19 2018-03-09 华为技术有限公司 呼吸声检测方法及装置
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN104078076B (zh) * 2014-06-13 2017-04-05 科大讯飞股份有限公司 一种语音录入方法及系统
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105825870B (zh) * 2016-03-14 2019-04-02 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN108986844B (zh) * 2018-08-06 2020-08-28 东北大学 一种基于说话人语音特征的语音端点检测方法
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
CN110910905B (zh) * 2018-09-18 2023-05-02 京东科技控股股份有限公司 静音点检测方法及装置、存储介质、电子设备
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN112151073A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 一种语音处理方法、系统、设备及介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN113160854A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 语音交互系统、相关方法、装置及设备
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111583912A (zh) * 2020-05-26 2020-08-25 阳光保险集团股份有限公司 语音端点检测方法、装置以及电子设备
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5634086A (en) * 1993-03-12 1997-05-27 Sri International Method and apparatus for voice-interactive language instruction

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4870686A (en) 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
GB2303471B (en) 1995-07-19 2000-03-22 Olympus Optical Co Voice activated recording apparatus
JPH0990994A (ja) 1995-07-19 1997-04-04 Olympus Optical Co Ltd 音声起動録音装置
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6456970B1 (en) * 1998-07-31 2002-09-24 Texas Instruments Incorporated Minimization of search network in speech recognition
CN1425980A (zh) * 2003-01-14 2003-06-25 杨宏惠 个性化开放式电脑语音录入方法
CN1182513C (zh) * 2003-02-21 2004-12-29 清华大学 基于局部能量加权的抗噪声语音识别方法
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP2005242182A (ja) 2004-02-27 2005-09-08 Toshiba Corp 音声検出装置、音声認識装置、音声検出方法および音声認識方法
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US20080294433A1 (en) 2005-05-27 2008-11-27 Minerva Yeung Automatic Text-Speech Mapping Tool
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
CN100411011C (zh) * 2005-11-18 2008-08-13 清华大学 用于语言学习机的发音质量评价方法
JP4906379B2 (ja) 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2007266807A (ja) * 2006-03-28 2007-10-11 Funai Electric Co Ltd 映像音声記録再生装置
CN101025981B (zh) 2007-01-23 2010-04-07 无敌科技(西安)有限公司 一种数字录音系统及方法
CN101197084A (zh) * 2007-11-06 2008-06-11 安徽科大讯飞信息科技股份有限公司 自动化英语口语评测学习系统
JP5446874B2 (ja) 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
US20090204407A1 (en) * 2008-02-08 2009-08-13 Shields T Russell System and method for processing a spoken request from a user
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5634086A (en) * 1993-03-12 1997-05-27 Sri International Method and apparatus for voice-interactive language instruction

Also Published As

Publication number Publication date
SG189182A1 (en) 2013-05-31
DE112010005959T5 (de) 2013-08-14
CN102971787B (zh) 2014-04-23
JP2013545133A (ja) 2013-12-19
WO2012055113A1 (zh) 2012-05-03
CN102971787A (zh) 2013-03-13
US9330667B2 (en) 2016-05-03
KR20130071490A (ko) 2013-06-28
KR101417975B1 (ko) 2014-07-09
US20130197911A1 (en) 2013-08-01
JP5883014B2 (ja) 2016-03-09

Similar Documents

Publication Publication Date Title
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69829235T2 (de) Registrierung für die Spracherkennung
EP1611568B1 (de) Dreistufige einzelworterkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69818930T2 (de) Verfahren zur Ausrichtung von Text an Audiosignalen
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE19510083C2 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1134726A1 (de) Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
WO2004070702A1 (de) Generieren und löschen von aussprachevarianten zur verringerung der wortfehlerrate in der spracherkennung
EP1723636A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE112009003930B4 (de) Spracherkennungsvorrichtung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE

R081 Change of applicant/patentee

Owner name: IFLYTEK CO., LTD., HEFEI, CN

Free format text: FORMER OWNER: ANHUI USTC IFLYTEK CO., LTD., HEFEI, ANHUI, CN

Effective date: 20150518

R082 Change of representative

Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE

Effective date: 20150518

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R082 Change of representative

Representative=s name: PRINZ & PARTNER MBB PATENT- UND RECHTSANWAELTE, DE

Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE

R082 Change of representative

Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE