DE112010005959B4 - Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme - Google Patents
Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme Download PDFInfo
- Publication number
- DE112010005959B4 DE112010005959B4 DE112010005959.4T DE112010005959T DE112010005959B4 DE 112010005959 B4 DE112010005959 B4 DE 112010005959B4 DE 112010005959 T DE112010005959 T DE 112010005959T DE 112010005959 B4 DE112010005959 B4 DE 112010005959B4
- Authority
- DE
- Germany
- Prior art keywords
- sound recording
- acoustic model
- recording data
- frame
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und
Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
Description
- Gebiet der Erfindung
- Die vorliegende Erfindung betrifft die Tonaufnahmesteuertechnologie und insbesondere die Technologie der automatischen Erkennung eines Endpunkts einer Tonaufnahme.
- Hintergrund der Erfindung
- Nach vielen Jahren der technischen Entwicklung ist eine einen Text betreffende Sprachbeurteilung in eine Praxisphase eingetreten. Die den Text betreffende Sprachbeurteilung bezieht sich darauf, dass ein bestimmter Text von einem Benutzer gelesen wird und ein Sprachbeurteilungssystem Aussprachedaten des Benutzers speichert und die Aussprachedaten beurteilt, um eine Auswertung der Beurteilung abzugeben.
- Bei einem bestehenden Sprachbeurteilungssystem wird im Allgemeinen eine Benutzertonaufnahmesteuerung vom Benutzer von Hand durchgeführt. Das heißt, die Tonaufnahme beginnt, wenn der Benutzer auf eine vorgegebene Tonaufnahmebeginn-Taste bzw. -Schaltfläche drückt bzw. klickt, und die Tonaufnahme endet, wenn der Benutzer auf eine vorgegebene Tonaufnahmeende-Taste bzw. -Schaltfläche drückt bzw. klickt. Bei dieser Tonaufnahmesteuerung muss der Benutzer viele Male manuell drücken bzw. klicken; die Bedienung ist aufwendig, und dies wirkt sich auf die Benutzererfahrung aus.
- Deshalb gibt es im Stand der Technik ein Verfahren für eine automatische Tonaufnahmesteuerung. Bei dem Verfahren erkennt ein Sprachbeurteilungssystem automatisch, ob sich die Benutzertonaufnahme in einem Sprech- oder einem Stummzustand befindet, und stellt das Ende der Tonaufnahme fest, wenn eine Stummzustandsdauer des Benutzers länger als ein vorgegebener Zeitschwellenwert ist. Bei dem Verfahren der automatischen Tonaufnahmesteuerung wird jedoch eine normale Sprechpause des Benutzers eventuell als Endpunkt der Tonaufnahme eingestuft, wenn der Zeitschwellenwert kürzer eingestellt ist, was dazu führt, dass das vom Benutzer Gesprochene abgeschnitten wird. Deshalb wird im Stand der Technik der Zeitschwellenwert üblicherweise als größerer Wert, zum Beispiel 2 Sekunden oder länger, eingestellt; dadurch muss der Benutzer sehr lange warten, bis der Endpunkt der Tonaufnahme vom Sprachbeurteilungssystem ermittelt und die Tonaufnahme beendet wird, nachdem der Benutzer das Sprechen beendet hat. Auf diese Weise ist die Effizienz der Ermittlung des Endpunkts der Tonaufnahme durch das Sprachbeurteilungssystem verringert, die Effizienz der Sprachbeurteilung ist vermindert, und dies wirkt sich auf die Benutzererfahrung aus.
-
US 5 634 086 A offenbart einen sprachkontextsensitiven Spracherkenner. Ferner wird ein sprachempfindlicher Äußerungsendpunktdetektor zum Beurteilen eines Endes einer gesprochenen Äußerung bereitgestellt, um die menschliche Redensart in der Konversationssprache zu simulieren. - Kurzfassung der Erfindung
- In Anbetracht dessen besteht die von der vorliegenden Erfindung gelöste technische Aufgabe darin, ein Verfahren und ein System zur Erkennung eines Endpunkts einer Tonaufnahme zu schaffen, damit die Effizienz der Ermittlung des Endpunkts der Tonaufnahme verbessert wird.
- Deshalb kommt bei einer Ausführungsform der vorliegenden Erfindung die folgende technische Lösung zum Einsatz.
- Bei einer Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme geschaffen, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird; das Verfahren weist ferner Folgendes auf:
- Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
- Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und
- Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
- Das Bestimmen eines Akustikmodells für einen Textendpunkt weist Folgendes auf:
- Erzeugen eines Decodiernetzwerks, das dem Text gemäß dem Tonaufnahmetext entspricht, und Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als Akustikmodell für den Textendpunkt.
- Das Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen aktuellen Rahmen der Tonaufnahmedaten weist Folgendes auf:
- Extrahieren eines MFCC-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
- Bestimmen eines letzten Akustikmodells des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades.
- Das Verfahren weist ferner Folgendes auf: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
- Das Verfahren weist ferner Folgendes auf: Nachdem ein Rahmen von Tonaufnahmedaten erhalten wird,
wird die Tonaufnahme beendet, wenn der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist. - Das Verfahren weist ferner Folgendes auf: Vor dem Erhalten jedes Rahmens von Tonaufnahmedaten
werden die Tonaufnahmedaten empfangen und der Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt. - Das Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten weist Folgendes auf:
- Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.
- Bei einer Ausführungsform der vorliegenden Erfindung wird ferner ein System zur Erkennung eines Endpunkts einer Tonaufnahme geschaffen; ein Stummzustandsdauerschwellenwert ist als erster Zeitschwellenwert voreingestellt, und das System weist ferner Folgendes auf:
- eine erste Bestimmungseinheit, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt;
- eine erste erhaltende Einheit, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten;
- eine zweite Bestimmungseinheit, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und
- eine Schwellenwertbestimmungseinheit, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
- Die erste Bestimmungseinheit weist Folgendes auf:
- eine erhaltende Untereinheit, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält;
- eine Netzwerkherstellungsuntereinheit, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und
- eine erste Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt.
- Die zweite Bestimmungseinheit weist Folgendes auf:
- eine Extrahierungsuntereinheit, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und
- eine zweite Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt.
- Die Schwellenwertbestimmungseinheit ist ferner so eingerichtet, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet.
- Das System weist ferner eine Tonaufnahmesteuereinheit auf, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist.
- Das System weist ferner eine Empfangseinheit auf, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt.
- Die Empfangseinheit weist Folgendes auf:
- eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und
- eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.
- Im Folgenden werden die technischen Wirkungen der oben beschriebenen technischen Lösung dargelegt.
- Das Akustikmodell des Textendpunkts wird mit dem Kenndatenakustikmodell des optimalen Decodierpfades verglichen, der dem aktuellen Rahmen der Tonaufnahmedaten entspricht. Wenn sie übereinstimmen, ist der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig und wird der Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, der bezüglich des ersten Zeitschwellenwerts kürzer ist. Die Tonaufnahme endet dann, wenn die Stummzustandsdauer des Benutzers größer als der zweite Zeitschwellenwert ist. Dadurch wird im Vergleich zum Stand der Technik durch die technische Lösung der Erfindung die Effizienz der Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Zeitdauer verkürzt, die der Benutzer nach dem Ende der Tonaufnahme abwarten muss.
- Figurenliste
-
-
1 ist ein schematisches Ablaufdiagramm, in dem ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist, -
2 ist ein schematisches Ablaufdiagramm, in dem ein weiteres Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist, -
3 ist eine schematische Darstellung, in der ein Viterbi-Algorithmus gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist, -
4 ist ein beispielhaftes Diagramm eines Decodiernetzwerks gemäß einer Ausführungsform der vorliegenden Erfindung, -
5 ist ein schematisches Strukturdiagramm, in dem ein System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist, -
6 ist ein schematisches Strukturdiagramm, in dem eine Ausführung einer Einheit bei einem System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der Ausführungsform der vorliegenden Erfindung gezeigt ist, und -
7 ist ein schematisches Strukturdiagramm, in dem eine Ausführung einer weiteren Einheit bei einem System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der Ausführungsform der vorliegenden Erfindung gezeigt ist. - Ausführliche Beschreibung der Erfindung
- Nachfolgend wird eine Ausführung eines Verfahrens und eines Systems zur Erkennung eines Endpunkts einer Tonaufnahme gemäß Ausführungsformen der vorliegenden Erfindung in Verbindung mit den beigefügten Zeichnungen im einzelnen beschrieben.
-
1 ist ein schematisches Ablaufdiagramm, in dem ein Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt ist. Wie in1 gezeigt, weist das Verfahren Folgendes auf: - Voreinstellen eines Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert.
- Das Verfahren weist ferner die folgenden Schritte auf:
- Schritt
101 : Erhalten eines Tonaufnahmetextes und Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes. - Der Tonaufnahmetext ist insbesondere ein Text, den ein Benutzer während der Tonaufnahme lesen bzw. vorlesen muss. Der Text kann in jeder Sprache, wie etwa Chinesisch und Englisch, vorliegen; dies ist hierin nicht beschränkt.
- Schritt
102 : Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten. - Die Tonaufnahmedaten können Sprachdaten sein, die während des Vorgangs zur Tonaufzeichnung durch eine Tonaufnahmevorrichtung erhalten werden.
- Schritt
103 : Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten. - Die Reihenfolge der Ausführung von Schritt
101 und der Schritte102 bis103 ist nicht eingeschränkt, solange sie vor Schritt104 durchgeführt werden. - Schritt
104 : Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist. - Bei dem in
1 gezeigten Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme wird das Akustikmodell für den Textendpunkt mit dem Kenndatenakustikmodell des optimalen Decodierpfades verglichen. Wenn sie übereinstimmen, ist der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig, und der Wert des Stummzustandsdauerschwellenwerts wird auf den zweiten Zeitschwellenwert aktualisiert, der verglichen mit dem ersten Zeitschwellenwert kürzer ist. Die Tonaufnahme endet dann, wenn die Stummzustandsdauer des Benutzers größer als der zweite Zeitschwellenwert ist. Dadurch wird im Vergleich zum Stand der Technik durch das Verfahren die Effizienz zur Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Zeitdauer verkürzt, die der Benutzer nach dem Ende der Tonaufnahme warten muss. - Anhand von
1 wird das Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung ausführlicher in Verbindung mit2 beschrieben. Wie in2 gezeigt, weist das Verfahren Folgendes auf: - Einstellen eines Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert.
- Schritt
201 : Erhalten eines Tonaufnahmetextes und Bestimmen eines Akustikmodells eines Textendpunkts entsprechend dem Endpunkt des Tonaufnahmetextes. - Das Bestimmen eines Akustikmodells eines Textendpunkts entsprechend dem Endpunkt des Tonaufnahmetextes kann Folgendes aufweisen:
- Erzeugen eines entsprechenden Decodiernetzwerks gemäß dem Tonaufnahmetext, und
- Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als das Akustikmodell des Textendpunkts.
- Insbesondere kann das hergestellte Decodiernetzwerk ein Stummmodell des Anfangspunkts des Tonaufnahmetextes, ein Akustikmodell jedes Wortes oder jeder Phrase in dem Tonaufnahmetext und ein Stummmodell eines Endpunkts des Tonaufnahmetextes aufweisen. Das Akustikmodell des Textendpunkts kann das Stummmodell des Endpunkts des Tonaufnahmetextes sein.
- Beispielsweise weist, wie in
4 gezeigt, für den Tonaufnahmetext „Hello World“ das hergestellte Decodiernetzwerk das Stummmodell Sil_Begin des Anfangspunkts des Tonaufnahmetextes, das Akustikmodell des Wortes „Hello“, das Akustikmodell des Wortes „World“ sowie das Stummmodell Sil_End des Endpunkts des Tonaufnahmetextes auf. Das Stummmodell Sil_End muss bei diesem Schritt erhalten werden. - Schritt
202 : Empfangen von Tonaufnahmedaten und Speichern der Tonaufnahmedaten in einem voreingestellten Pufferspeicher. - Schritt
203 : Bestimmen eines Tonaufnahmeanfangsrahmens der Tonaufnahmedaten. - Das Bestimmen eines Tonaufnahmeanfangsrahmens der Tonaufnahmedaten kann Folgendes aufweisen:
- Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen.
- Der Schritt des Feststellens, ob die Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, kann durch eine Sprechpausenerkennungs-Richtlinie (VAD-(Voice Activity Detection)-Richtlinie) ausgeführt werden. Das Verfahren zur Bestimmung von Stummdaten oder Nicht-Stummdaten, das von der VAD-Richtlinie ausgeführt wird, ist zum Beispiel in den folgenden zwei Passagen beschrieben: „A statistical model-based voice activity detection (J. Sohn, N. S. Kim und W. Sung, IEEE Signal Process. Lett., Bd. 16, Nr. 1, S. 1-3, 1999)“ und „Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms (ETSI, ETSI ES 202 050 Rec., 2002)“, und deren Beschreibung wird weggelassen.
- Eine Zeitspanne für jeden Rahmen der Tonaufnahmedaten und eine Länge eines Abtastfensters können in unterschiedlichen Anwendungsumgebungen verschieden sein, die hierin nicht beschränkt sind. Zum Beispiel kann die Zeitspanne (d.h. ein Rahmenversatz) üblicherweise so eingestellt sein, dass sie 10 ms beträgt, und die Länge des Abtastfensters kann so eingestellt sein, dass sie 25 ms beträgt.
- Schritt
204 : Erhalten eines Rahmens der Tonaufnahmedaten aus dem Pufferspeicher der Reihe nach, beginnend mit dem Tonaufnahmeanfangsrahmen. - Schritt
205 : Decodieren eines erhaltenen aktuellen Rahmens der Tonaufnahmedaten, um ein Kenndatenakustikmodell eines optimalen Decodierpfades zu erhalten, der dem Rahmen der Tonaufnahmedaten entspricht. - Insbesondere kann das Decodieren von Tonaufnahmedaten in Schritt
205 Folgendes aufweisen: - Extrahieren eines Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC)-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad entsprechend dem Rahmen der Tonaufnahmedaten zu erhalten; und
- Bestimmen des Kenndatenakustikmodells des optimalen Decodierpfades.
- In Übereinstimmung mit Schritt
201 kann das letzte Akustikmodell des optimalen Decodierpfades als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt werden. - Das zur Decodierung verwendete, voreingestellte Akustikmodell kann ein Monophonmodell auf einer Phonemebene oder ein kontextabhängiges Triphonmodell sein und kann ferner ein Stummmodell enthalten.
- Der MFCC-Kennwert wird unter Verwendung des voreingestellten Akustikmodells decodiert, damit der optimale Decodierpfad entsprechend der Tonaufnahmedaten erhalten wird. Der optimale Decodierpfad kann ein Pfad mit einer maximalen Wahrscheinlichkeits- oder maximalen Kostenfunktion des Modells sein.
- Das Decodieren kann unter Verwendung des Viterbi-Algorithmus etc. durchgeführt werden.
- Das in
3 gezeigte Decodierungsergebnis wird zum Beispiel erhalten, nachdem die Decodierung mittels Viterbi-Algorithmus durchgeführt wird. Gemäß einer Ausführungsform der vorliegenden Erfindung ist das letzte Akustikmodell des optimalen Decodierpfades ein Akustikmodell, das einem letzten Zeitpunkt t entspricht. Es wird bestimmt, dass das letzte Akustikmodell des optimalen Decodierpfades, der den Tonaufnahmedaten entspricht, als Kenndatenakustikmodell des optimalen Decodierpfades verwendet wird, der dem Rahmen der Tonaufnahmedaten entspricht. - Schritt
206 : Feststellen, ob das Akustikmodell für den Textendpunkt mit dem Kenndatenakustikmodell des optimalen Decodierpfades für den Rahmen der Tonaufnahmedaten übereinstimmt; falls es übereinstimmt, weiter zu Schritt207 , ansonsten weiter zu Schritt208 . - Schritt
207 : Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, bei dem der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist, und weiter zu Schritt209 . - Schritt
208 : Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, und weiter zu Schritt209 . - Schritt
209 : Feststellen, ob der aktuelle Rahmen der aus dem Pufferspeicher erhaltenen Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind; wenn es die Stummdaten sind, weiter zu Schritt210 , ansonsten Rückkehr zu Schritt204 und Erhalten der Tonaufnahmedaten für den nächsten Rahmen des aktuellen Rahmens aus dem Pufferspeicher. - Die Tonaufnahmedaten werden rahmenweise aufeinanderfolgend aus dem Pufferspeicher erhalten. In Schritt
209 ist der aktuelle Rahmen der Tonaufnahmedaten ein Rahmen der Tonaufnahmedaten, die gegenwärtig aus dem Pufferspeicher erhalten werden und verarbeitet werden müssen. - Der Schritt des Feststellens, ob die Tonaufnahmedaten die Stummdaten oder die Nicht-Stummdaten sind, kann auch durch eine Sprechpausenerkennungs-Richtlinie (VAD-(Voice Activity Detection)-Richtlinie) ausgeführt werden. Zum Beispiel ist das Verfahren zur Bestimmung von Stummdaten oder Nicht-Stummdaten, das von der VAD-Richtlinie ausgeführt wird, in den folgenden beiden Passagen beschrieben: „A statistical model-based voice activity detection (J. Sohn, N. S. Kim und W. Sung, IEEE Signal Process. Lett., Bd. 16, Nr. 1, S. 1-3, 1999)“ und „Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front-end feature extraction algorithm; compression algorithms (ETSI, ETSI ES 202 050 Rec., 2002)“, und deren Beschreibung wird weggelassen.
- Schritt
210 : Feststellen, ob eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist; wenn eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist, Beenden der Tonaufnahme, ansonsten Rückkehr zu Schritt204 , Erhalten der Tonaufnahmedaten für den nächsten Rahmen des aktuellen Rahmens aus dem Pufferspeicher, und Verwenden des Rahmens der Tonaufnahmedaten als den aktuellen Rahmen der Tonaufnahmedaten. - Schritt
209 ist nur zwischen Schritt204 und Schritt210 auszuführen, die Reihenfolge der Durchführung der Schritte205 bis208 ist nicht beschränkt. - In Schritt
210 ist die aktuelle Stummzustandsdauer darauf bezogen, dass die mehreren aufeinander folgenden Rahmen der Tonaufnahmedaten vor dem aktuellen Rahmen der Tonaufnahmedaten Stummdaten sind. Insbesondere kann die aktuelle Stummzustandsdauer gemäß der folgenden Formel berechnet werden: - Die aktuelle Stummzustandsdauer = (die laufende Nummer des aktuellen Rahmens - der laufenden Nummer eines Rahmens, der dem ersten Rahmen der Nicht-Stummdaten vor dem aktuellen Rahmen entspricht) * der Länge eines Rahmens.
- In dem Falle, dass der (m-1)te Rahmen und der (m-2)te Rahmen der Tonaufnahmedaten beides Nicht-Stummdaten sind und der (m)te Rahmen bis (m+n)te Rahmen der Tonaufnahmedaten sämtlich Stummdaten sind, ist zum Beispiel die aktuelle Stummzustandsdauer die Länge eines Rahmens, wenn der (m)te Rahmen der Tonaufnahmedaten verarbeitet wird, ist die aktuelle Stummzustandsdauer die Länge von zwei Rahmen, wenn der (m+1)te Rahmen der Tonaufnahmedaten verarbeitet wird, ..., ist die aktuelle Stummzustandsdauer die Länge von (n+1) Rahmen, wenn der (m+n)te Rahmen der Tonaufnahmedaten verarbeitet wird.
- Ferner kann in Schritt
210 der aktuelle Stummzustandsdauerschwellenwert zu verschiedenen Zeitpunkten der erste Zeitschwellenwert oder der zweite Zeitschwellenwert sein. Insbesondere ist die aktuelle Stummzustandsdauer immer der erste Zeitschwellenwert, bevor bei Schritt206 festgestellt wird, dass es einen Rahmen der Tonaufnahmedaten gibt, deren Kenndatenakustikmodell mit dem Akustikmodell für den Textendpunkt übereinstimmt; und der Stummzustandsdauerschwellenwert wird auf den zweiten Zeitschwellenwert mit einer kürzeren zeitlichen Dauer aktualisiert, sobald bei Schritt206 festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für einen bestimmten Rahmen mit dem Akustikmodell des Textendpunkts übereinstimmt. - Bei dem in
2 gezeigten Verfahren heißt dies, dass, wenn immer festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades sich von dem Akustikmodell des Endpunkts unterscheidet, der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes nicht beendet, und zu dieser Zeit ist der Stummzustandsdauerschwellenwert der erste Zeitschwellenwert. Die Tonaufnahme wird erst beendet, wenn die vom Benutzer eingehaltene Stummzustandsdauer größer als der aktuelle Stummzustandsdauerschwellenwert (d.h. der erste Zeitschwellenwert) ist, damit sichergestellt ist, dass die Tonaufnahme auch dann automatisch beendet werden kann, wenn der Benutzer eine unnormale Tonaufnahme ausführt (zum Beispiel tritt beim Lesen ein Fehler auf, oder das Lesen wird in der Mitte beendet). Wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell des Endpunkts übereinstimmt, so bedeutet dies, dass der Benutzer mit dem Lesen des Tonaufnahmetextes bereits fertig ist, und zu diesem Zeitpunkt wird der Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, der von dem ersten Zeitschwellenwert und dem zweiten Zeitschwellenwert der kürzere ist. Damit wird die Tonaufnahme beendet, sobald die Stummzustandsdauer des Benutzers größer als der aktuelle Stummzustandsdauerschwellenwert (d.h. der zweite Zeitschwellenwert) ist. Auf diese Weise ist in dem Fall, dass der Benutzer das Lesen des Tonaufnahmetextes normal beendet, die Wartedauer des Benutzers lediglich der zweite Zeitschwellenwert. Deshalb wird die Wartedauer relativ zum ersten Zeitschwellenwert im Stand der Technik verkürzt und die Effizienz der Ermittlung des Endpunkts der Tonaufnahme verbessert. - Wird bei dem in
2 gezeigten Verfahren jedoch festgestellt, dass das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell des Textendpunkts in Schritt206 übereinstimmt, obwohl festgestellt wird, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes beendet hat, so wird die Feststellung von Schritt206 anschließend auch bei jedem der nachfolgenden Rahmen der Tonaufnahmedaten durchgeführt, nachdem festgestellt wird, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes beendet hat. In diesem Fall ist der Feststellschritt von Schritt206 nicht notwendig. Wenn zum Beispiel das Ergebnis des Feststellens für den Nten Rahmen der Tonaufnahmedaten bei Schritt206 das gleiche ist, so bedeutet dies, dass der Benutzer das Lesen bzw. Vorlesen des Tonaufnahmetextes bereits im Nten Rahmen der Tonaufnahmedaten beendet hat. In diesem Fall ist es für den N+1ten Rahmen und die darauf folgenden mehreren Rahmen der Tonaufnahmedaten nicht nötig, die Feststellung von Schritt206 durchzuführen. Deshalb werden bei der praktischen Anwendung zum Zweck der weiteren Verbesserung der Effizienz der Ermittlung und Verarbeitung des Endpunkts der Tonaufnahme die Schritte209 bis210 an Stelle der Schritte205 bis208 bei den nachfolgenden Rahmen der Tonaufnahmedaten durchgeführt, nachdem festgestellt wird, dass das Kenndatenakustikmodell der Tonaufnahmedaten mit dem Akustikmodell des Textendpunkts zur ersten Zeit in Schritt206 übereinstimmt. Es wird nämlich nur festgestellt, ob der erhaltene aktuelle Rahmen der Tonaufnahmedaten die Stummdaten sind oder nicht, und die Stummzustandsdauer wird festgestellt, wenn der erhaltene aktuelle Rahmen der Tonaufnahmedaten die Stummdaten sind. - Entsprechend dem Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme ist, wie in
5 gezeigt, ein System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß einer Ausführungsform der vorliegenden Erfindung geschaffen. Bei dem System ist ein Stummzustandsdauerschwellenwert als ein erster Zeitschwellenwert voreingestellt, und das System weist ferner Folgendes auf: - eine erste Bestimmungseinheit
510 , die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt; - eine erste erhaltende Einheit
520 , die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten; - eine zweite Bestimmungseinheit
530 , die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und - eine Schwellenwertbestimmungseinheit
540 , die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist. - Vorzugsweise ist die Schwellenwertbestimmungseinheit
540 ferner so eingerichtet, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet. - Außerdem kann, wie in
5 gezeigt, das System ferner Folgendes aufweisen: - eine Tonaufnahmesteuereinheit
550 , die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und die aktuelle Stummzustandsdauer größer als der aktuelle Stummzustandsdauerschwellenwert ist. - Vorzugsweise kann, wie in
6 gezeigt, die erste Bestimmungseinheit510 Folgendes aufweisen: - eine erhaltende Untereinheit
610 , die so eingerichtet ist, dass sie den Tonaufnahmetext erhält; - eine Netzwerkherstellungsuntereinheit
620 , die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und - eine erste Kennwertbestimmungsuntereinheit
630 , die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt. - Vorzugsweise kann, wie in
7 gezeigt, die zweite Bestimmungseinheit520 Folgendes aufweisen: - eine Extrahierungsuntereinheit
710 , die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und - eine zweite Kennwertbestimmungsuntereinheit
720 , die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt. - Wie in
5 gezeigt, kann das System ferner Folgendes aufweisen: - eine Empfangseinheit
500 , die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt. - Vorzugsweise kann die Empfangseinheit
500 Folgendes aufweisen: - eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und
- eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.
- Der Schritt, bei dem festgestellt wird, ob die Tonaufnahmedaten Stummdaten oder Nicht-Stummdaten sind, wie oben beschrieben, kann durch eine VAD-Richtlinie (Sprechpausenerkennungs-Richtlinie) ausgeführt werden, und deren Beschreibung wird weggelassen.
- Bei dem in den
5 bis7 gezeigten System zur Erkennung eines Endpunkts einer Tonaufnahme vergleicht die Schwellenwertbestimmungseinheit das Kenndatenakustikmodell des optimalen Decodierpfades mit dem Akustikmodell für den Endpunkt. Wenn sie übereinstimmen, bedeutet dies, dass der Benutzer mit dem Lesen bzw. Vorlesen des Tonaufnahmetextes bereits fertig ist, und der Stummzustandsdauerschwellenwert wird auf den zweiten Zeitschwellenwert aktualisiert, der kürzer als der erste Zeitschwellenwert ist. Dann endet die Tonaufnahme, wenn eine Tonaufnahmesteuereinheit feststellt, dass die aktuelle Stummzustandsdauer größer als der zweite Zeitschwellenwert ist. Auf diese Weise wird, verglichen mit dem Stand der Technik, durch das System die Wartedauer des Benutzers, nachdem die Tonaufnahme beendet ist, verkürzt, die Effizienz zur Ermittlung des Endpunkts der Tonaufnahme gesteigert und die Benutzererfahrung verbessert. - Das Verfahren und das System zur Erkennung eines Endpunkts einer Tonaufnahme gemäß den Ausführungsformen der vorliegenden Erfindung kann nicht nur bei einem Sprachbeurteilungssystem angewendet werden, sondern kann auch in anderen Fällen zur Anwendung kommen, bei denen ein bekannter Text gelesen bzw. vorgelesen werden muss, um die Tonaufnahme durchzuführen.
- Dem Fachmann ist klar, dass der Vorgang der Implementierung des Verfahrens zur Erkennung eines Endpunkts einer Tonaufnahme gemäß der oben genannten Ausführungsform von einer Hardware entsprechend einem Programmbefehl durchgeführt werden kann. Das Programm kann in einem lesbaren Speichermedium gespeichert sein, und das Programm führt entsprechende Schritte bei dem Verfahren bei der Ausführung aus. Das Speichermedium kann ein Festwertspeicher/Direktzugriffsspeicher, eine Magnetplatte, eine optische Platte etc. sein.
- Die oben beschriebenen Ausführungsformen sind lediglich die bevorzugten Ausführungsformen der vorliegenden Erfindung. Für den Fachmann sei festgestellt, dass mehrere Verbesserungen und Abänderungen vorgenommen werden können, ohne vom Prinzip der vorliegenden Erfindung abzuweichen, und die Verbesserungen und Abänderungen innerhalb des Schutzumfangs der vorliegenden Erfindung liegen.
Claims (14)
- Verfahren zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt wird, wobei das Verfahren ferner Folgendes umfasst: Erhalten eines Tonaufnahmetextes; Bestimmen eines Akustikmodells für einen Textendpunkt des Tonaufnahmetextes; und Erhalten jedes Rahmens von Tonaufnahmedaten der Reihe nach, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten; Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten; und Feststellen, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit dem Akustikmodell für den Endpunkt übereinstimmt; Aktualisieren des Stummzustandsdauerschwellenwerts auf einen zweiten Zeitschwellenwert, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
- Verfahren nach
Anspruch 1 , bei dem das Bestimmen eines Akustikmodells für einen Textendpunkt Folgendes umfasst: Erzeugen eines Decodiernetzwerks, das dem Text gemäß dem Tonaufnahmetext entspricht, und Bestimmen eines letzten Akustikmodells des Decodiernetzwerks als Akustikmodell für den Textendpunkt. - Verfahren nach
Anspruch 2 , bei dem das Bestimmen eines Kenndatenakustikmodells eines optimalen Decodierpfades für einen aktuellen Rahmen der Tonaufnahmedaten Folgendes umfasst: Extrahieren eines MFCC-Kennwerts, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und Bestimmen eines letzten Akustikmodells des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades. - Verfahren nach
Anspruch 1 , das ferner Folgendes umfasst: Beibehalten des Stummzustandsdauerschwellenwerts als ersten Zeitschwellenwert, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet. - Verfahren nach einem der
Ansprüche 1 bis4 , bei dem das Verfahren, nachdem ein Rahmen von Tonaufnahmedaten erhalten wird, ferner Folgendes umfasst: Beenden der Tonaufnahme, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist. - Verfahren nach einem der
Ansprüche 1 bis4 , bei dem das Verfahren vor dem Erhalten jedes Rahmens von Tonaufnahmedaten ferner Folgendes umfasst: Empfangen der Tonaufnahmedaten und Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten. - Verfahren nach
Anspruch 6 , bei dem das Bestimmen des Tonaufnahmeanfangsrahmens der Tonaufnahmedaten Folgendes umfasst: Feststellen der Reihe nach, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und Verwenden eines ersten Rahmens der Nicht-Stummdaten als Tonaufnahmeanfangsrahmen. - System zur Erkennung eines Endpunkts einer Tonaufnahme, bei dem ein Stummzustandsdauerschwellenwert als erster Zeitschwellenwert voreingestellt ist und das System ferner Folgendes umfasst: eine erste Bestimmungseinheit, die so eingerichtet ist, dass sie einen Tonaufnahmetext erhält und ein Akustikmodell für einen Textendpunkt des Tonaufnahmetextes bestimmt; eine erste erhaltende Einheit, die so eingerichtet ist, dass sie jeden Rahmen von Tonaufnahmedaten der Reihe nach erhält, beginnend mit einem Tonaufnahmeanfangsrahmen der Tonaufnahmedaten; eine zweite Bestimmungseinheit, die so eingerichtet ist, dass sie ein Kenndatenakustikmodell eines optimalen Decodierpfades für einen erhaltenen aktuellen Rahmen der Tonaufnahmedaten bestimmt; und eine Schwellenwertbestimmungseinheit, die so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert auf den zweiten Zeitschwellenwert aktualisiert, wenn festgestellt wird, dass das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten mit einem Akustikmodell für den Endpunkt übereinstimmt, wobei der zweite Zeitschwellenwert kleiner als der erste Zeitschwellenwert ist.
- System nach
Anspruch 8 , bei dem die erste Bestimmungseinheit Folgendes umfasst: eine erhaltende Untereinheit, die so eingerichtet ist, dass sie den Tonaufnahmetext erhält; eine Netzwerkherstellungsuntereinheit, die so eingerichtet ist, dass sie ein Decodiernetzwerk herstellt, das dem Text gemäß dem Tonaufnahmetext entspricht; und eine erste Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des Decodiernetzwerks als Akustikmodell für den Textendpunkt bestimmt. - System nach
Anspruch 9 , bei dem die zweite Bestimmungseinheit Folgendes umfasst: eine Extrahierungsuntereinheit, die so eingerichtet ist, dass sie einen MFCC-Kennwert, der einem voreingestellten Akustikmodell entspricht, aus dem aktuellen Rahmen der Tonaufnahmedaten extrahiert, um den optimalen Decodierpfad für den aktuellen Rahmen der Tonaufnahmedaten zu erhalten; und eine zweite Kennwertbestimmungsuntereinheit, die so eingerichtet ist, dass sie ein letztes Akustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten als Kenndatenakustikmodell des optimalen Decodierpfades bestimmt. - System nach
Anspruch 8 , bei dem die Schwellenwertbestimmungseinheit ferner so eingerichtet ist, dass sie den Stummzustandsdauerschwellenwert als den ersten Zeitschwellenwert beibehält, wenn festgestellt wird, dass sich das Kenndatenakustikmodell des optimalen Decodierpfades für den aktuellen Rahmen der Tonaufnahmedaten von dem Akustikmodell für den Endpunkt unterscheidet. - System nach einem der
Ansprüche 8 bis11 , das ferner Folgendes umfasst: eine Tonaufnahmesteuereinheit, die so eingerichtet ist, dass sie die Tonaufnahme beendet, wenn festgestellt wird, dass der erhaltene aktuelle Rahmen der Tonaufnahmedaten Stummdaten sind und eine aktuelle Stummzustandsdauer größer als ein aktueller Stummzustandsdauerschwellenwert ist. - System nach einem der
Ansprüche 8 bis11 , das ferner Folgendes umfasst: eine Empfangseinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt und den Tonaufnahmeanfangsrahmen der Tonaufnahmedaten bestimmt. - System nach
Anspruch 13 , bei dem die Empfangseinheit Folgendes umfasst: eine Empfangsuntereinheit, die so eingerichtet ist, dass sie die Tonaufnahmedaten empfängt; und eine Anfangsrahmenbestimmungsuntereinheit, die so eingerichtet ist, dass sie der Reihe nach feststellt, ob jeder Rahmen der Tonaufnahmedaten die Stummdaten oder Nicht-Stummdaten sind, und einen ersten Rahmen der Nicht-Stummdaten als den Tonaufnahmeanfangsrahmen verwendet.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2010/078223 WO2012055113A1 (zh) | 2010-10-29 | 2010-10-29 | 录音结束点检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE112010005959T5 DE112010005959T5 (de) | 2013-08-14 |
DE112010005959B4 true DE112010005959B4 (de) | 2019-08-29 |
Family
ID=45993073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112010005959.4T Active DE112010005959B4 (de) | 2010-10-29 | 2010-10-29 | Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme |
Country Status (7)
Country | Link |
---|---|
US (1) | US9330667B2 (de) |
JP (1) | JP5883014B2 (de) |
KR (1) | KR101417975B1 (de) |
CN (1) | CN102971787B (de) |
DE (1) | DE112010005959B4 (de) |
SG (1) | SG189182A1 (de) |
WO (1) | WO2012055113A1 (de) |
Families Citing this family (153)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102456343A (zh) * | 2010-10-29 | 2012-05-16 | 安徽科大讯飞信息科技股份有限公司 | 录音结束点检测方法及系统 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP3809407A1 (de) | 2013-02-07 | 2021-04-21 | Apple Inc. | Sprachauslöser für digitalen assistent |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN104112446B (zh) * | 2013-04-19 | 2018-03-09 | 华为技术有限公司 | 呼吸声检测方法及装置 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9564128B2 (en) * | 2013-12-09 | 2017-02-07 | Qualcomm Incorporated | Controlling a speech recognition process of a computing device |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
CN104078076B (zh) * | 2014-06-13 | 2017-04-05 | 科大讯飞股份有限公司 | 一种语音录入方法及系统 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) * | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105825870B (zh) * | 2016-03-14 | 2019-04-02 | 江苏时间环三维科技有限公司 | 一种语音指令数据获取方法及装置 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10339918B2 (en) * | 2016-09-27 | 2019-07-02 | Intel IP Corporation | Adaptive speech endpoint detector |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN108986844B (zh) * | 2018-08-06 | 2020-08-28 | 东北大学 | 一种基于说话人语音特征的语音端点检测方法 |
CN110827795A (zh) * | 2018-08-07 | 2020-02-21 | 阿里巴巴集团控股有限公司 | 语音输入结束判断方法、装置、设备、系统以及存储介质 |
CN110910905B (zh) * | 2018-09-18 | 2023-05-02 | 京东科技控股股份有限公司 | 静音点检测方法及装置、存储介质、电子设备 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN112151073A (zh) * | 2019-06-28 | 2020-12-29 | 北京声智科技有限公司 | 一种语音处理方法、系统、设备及介质 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN113160854A (zh) * | 2020-01-22 | 2021-07-23 | 阿里巴巴集团控股有限公司 | 语音交互系统、相关方法、装置及设备 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111583912A (zh) * | 2020-05-26 | 2020-08-25 | 阳光保险集团股份有限公司 | 语音端点检测方法、装置以及电子设备 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11984124B2 (en) | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5634086A (en) * | 1993-03-12 | 1997-05-27 | Sri International | Method and apparatus for voice-interactive language instruction |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
US4870686A (en) | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
GB2303471B (en) | 1995-07-19 | 2000-03-22 | Olympus Optical Co | Voice activated recording apparatus |
JPH0990994A (ja) | 1995-07-19 | 1997-04-04 | Olympus Optical Co Ltd | 音声起動録音装置 |
US5799065A (en) * | 1996-05-06 | 1998-08-25 | Matsushita Electric Industrial Co., Ltd. | Call routing device employing continuous speech |
US6172675B1 (en) * | 1996-12-05 | 2001-01-09 | Interval Research Corporation | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data |
US6076056A (en) * | 1997-09-19 | 2000-06-13 | Microsoft Corporation | Speech recognition system for recognizing continuous and isolated speech |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6456970B1 (en) * | 1998-07-31 | 2002-09-24 | Texas Instruments Incorporated | Minimization of search network in speech recognition |
CN1425980A (zh) * | 2003-01-14 | 2003-06-25 | 杨宏惠 | 个性化开放式电脑语音录入方法 |
CN1182513C (zh) * | 2003-02-21 | 2004-12-29 | 清华大学 | 基于局部能量加权的抗噪声语音识别方法 |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
JP2005242182A (ja) | 2004-02-27 | 2005-09-08 | Toshiba Corp | 音声検出装置、音声認識装置、音声検出方法および音声認識方法 |
KR100636317B1 (ko) * | 2004-09-06 | 2006-10-18 | 삼성전자주식회사 | 분산 음성 인식 시스템 및 그 방법 |
US20080294433A1 (en) | 2005-05-27 | 2008-11-27 | Minerva Yeung | Automatic Text-Speech Mapping Tool |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
CN100411011C (zh) * | 2005-11-18 | 2008-08-13 | 清华大学 | 用于语言学习机的发音质量评价方法 |
JP4906379B2 (ja) | 2006-03-22 | 2012-03-28 | 富士通株式会社 | 音声認識装置、音声認識方法、及びコンピュータプログラム |
JP2007266807A (ja) * | 2006-03-28 | 2007-10-11 | Funai Electric Co Ltd | 映像音声記録再生装置 |
CN101025981B (zh) | 2007-01-23 | 2010-04-07 | 无敌科技(西安)有限公司 | 一种数字录音系统及方法 |
CN101197084A (zh) * | 2007-11-06 | 2008-06-11 | 安徽科大讯飞信息科技股份有限公司 | 自动化英语口语评测学习系统 |
JP5446874B2 (ja) | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | 音声検出システム、音声検出方法および音声検出プログラム |
US20090204407A1 (en) * | 2008-02-08 | 2009-08-13 | Shields T Russell | System and method for processing a spoken request from a user |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN101685633A (zh) * | 2008-09-28 | 2010-03-31 | 富士通株式会社 | 基于韵律参照的语音合成装置和方法 |
US8315871B2 (en) * | 2009-06-04 | 2012-11-20 | Microsoft Corporation | Hidden Markov model based text to speech systems employing rope-jumping algorithm |
CN102456343A (zh) * | 2010-10-29 | 2012-05-16 | 安徽科大讯飞信息科技股份有限公司 | 录音结束点检测方法及系统 |
-
2010
- 2010-10-29 JP JP2013535238A patent/JP5883014B2/ja active Active
- 2010-10-29 WO PCT/CN2010/078223 patent/WO2012055113A1/zh active Application Filing
- 2010-10-29 CN CN201080067778.4A patent/CN102971787B/zh active Active
- 2010-10-29 KR KR1020137010783A patent/KR101417975B1/ko active IP Right Grant
- 2010-10-29 US US13/878,818 patent/US9330667B2/en active Active
- 2010-10-29 DE DE112010005959.4T patent/DE112010005959B4/de active Active
- 2010-10-29 SG SG2013023866A patent/SG189182A1/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5634086A (en) * | 1993-03-12 | 1997-05-27 | Sri International | Method and apparatus for voice-interactive language instruction |
Also Published As
Publication number | Publication date |
---|---|
SG189182A1 (en) | 2013-05-31 |
DE112010005959T5 (de) | 2013-08-14 |
CN102971787B (zh) | 2014-04-23 |
JP2013545133A (ja) | 2013-12-19 |
WO2012055113A1 (zh) | 2012-05-03 |
CN102971787A (zh) | 2013-03-13 |
US9330667B2 (en) | 2016-05-03 |
KR20130071490A (ko) | 2013-06-28 |
KR101417975B1 (ko) | 2014-07-09 |
US20130197911A1 (en) | 2013-08-01 |
JP5883014B2 (ja) | 2016-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112010005959B4 (de) | Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme | |
DE60213595T2 (de) | Hintergrundlernen von sprecherstimmen | |
DE69635655T2 (de) | Sprecherangepasste Spracherkennung | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
EP1611568B1 (de) | Dreistufige einzelworterkennung | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE69722980T2 (de) | Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen | |
DE69818930T2 (de) | Verfahren zur Ausrichtung von Text an Audiosignalen | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60115738T2 (de) | Sprachmodelle für die Spracherkennung | |
DE19510083C2 (de) | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen | |
EP1251489A2 (de) | Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten | |
DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
DE60018696T2 (de) | Robuste sprachverarbeitung von verrauschten sprachmodellen | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP1134726A1 (de) | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE19654549C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
WO2004070702A1 (de) | Generieren und löschen von aussprachevarianten zur verringerung der wortfehlerrate in der spracherkennung | |
EP1723636A1 (de) | Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE102004017486A1 (de) | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal | |
DE102005030965B4 (de) | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments | |
DE112009003930B4 (de) | Spracherkennungsvorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R082 | Change of representative |
Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE |
|
R081 | Change of applicant/patentee |
Owner name: IFLYTEK CO., LTD., HEFEI, CN Free format text: FORMER OWNER: ANHUI USTC IFLYTEK CO., LTD., HEFEI, ANHUI, CN Effective date: 20150518 |
|
R082 | Change of representative |
Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE Effective date: 20150518 |
|
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final | ||
R082 | Change of representative |
Representative=s name: PRINZ & PARTNER MBB PATENT- UND RECHTSANWAELTE, DE Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE |
|
R082 | Change of representative |
Representative=s name: PRINZ & PARTNER MBB PATENTANWAELTE RECHTSANWAE, DE |