DE102020130041A1 - Verbergen von phrasen in über luft laufendem audio - Google Patents

Verbergen von phrasen in über luft laufendem audio Download PDF

Info

Publication number
DE102020130041A1
DE102020130041A1 DE102020130041.7A DE102020130041A DE102020130041A1 DE 102020130041 A1 DE102020130041 A1 DE 102020130041A1 DE 102020130041 A DE102020130041 A DE 102020130041A DE 102020130041 A1 DE102020130041 A1 DE 102020130041A1
Authority
DE
Germany
Prior art keywords
phrase
audio
detected
audio stream
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020130041.7A
Other languages
English (en)
Inventor
Georg Stemmer
Joachim Hofer
Josef Bauer
Tobias Bocklet
Munir Nikolai Alexander Georges
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Deutschland GmbH
Intel Corp
Original Assignee
Intel Deutschland GmbH
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Deutschland GmbH, Intel Corp filed Critical Intel Deutschland GmbH
Publication of DE102020130041A1 publication Critical patent/DE102020130041A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

Eine beispielhafte Einrichtung zum Verbergen von Phrasen in Audio beinhaltet einen Empfänger zum Empfangen einer detektierten Phrase über ein Netzwerk. Die detektierte Phrase basiert auf Audio, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Die Einrichtung beinhaltet außerdem einen Spracherkenner zum Erzeugen eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält. Die Einrichtung beinhaltet ferner einen Phrasenverberger zum Verbergen des Abschnitts des Audiostroms als Reaktion auf den Auslöser.

Description

  • Hintergrund
  • Pieptöne können verwendet werden, um Phrasen wie etwa Vulgärsprache in Audio zu verbergen. Beispielsweise kann ein lauter Piepton verwendet werden, um einen Teil eines Audiostroms zu maskieren, in dem die Vulgärsprache vorhanden sein kann.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das ein beispielhaftes System zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht;
    • 2 ist ein Zustandsdiagramm, das einen beispielhaften Phrasendetektor zum Detektieren von Phrasen in durch Luft laufendem Audio veranschaulicht;
    • 3 ist ein Blockdiagramm, das ein beispielhaftes neuronales Netzwerk zum Detektieren von Phrasen in durch Luft laufendem Audio veranschaulicht;
    • 4 ist ein Flussdiagramm, das einen Prozess zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht;
    • 5 ist ein Timing-Diagramm, das einen beispielhaften Prozess zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht;
    • 6 ist ein Flussdiagramm, das ein Verfahren zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht;
    • 7 ist ein Blockdiagramm, das eine beispielhafte Rechenvorrichtung veranschaulicht, die Phrasen in durch Luft laufendem Audio verbergen kann; und
    • 8 ist ein Blockdiagramm, das computerlesbare Medien zeigt, die Code zum Verbergen von Phrasen in durch Luft laufendem Audio speichern.
  • Die gleichen Ziffern werden durchweg durch die Offenbarung und die Figuren verwendet, um sich auf gleiche Komponenten und Merkmale zu beziehen. Ziffern in der 100-Serie beziehen sich auf Merkmale, die ursprünglich in 1 aufgefunden werden; Ziffern in der 200-Serie beziehen sich auf Merkmale, die ursprünglich in 2 aufgefunden werden; und so weiter.
  • Beschreibung der Ausführungsformen
  • Das Verbergen mit Pieptönen kann verwendet werden, um Phrasen zu verbergen, die Vulgärsprache im Audio enthalten. Beispielsweise kann ein Audiostrom manuell analysiert werden. Vulgärsprache kann markiert und vor der Ausstrahlung mit einem elektronischen Ton, hierin als ein Piepton bezeichnet, ersetzt werden. Der Piepton kann ein Ton mit einer speziellen Frequenz sein. Beispielsweise kann der Ton ein hoher Reinton mit Obertönen sein. Das manuelle Analysieren von Signalen ist jedoch fehleranfällig, besonders in einer zeitkritischen Situation, in der ein Audio- oder Videostrom nicht beliebig verzögert werden kann. Beispielsweise wird eine Verzögerung von etwa sechs Sekunden verwendet, um Vulgärsprache, Versprecher, Nacktheit oder anderes unerwünschtes Material in Fernsehsendungen von Ereignissen bei Fernsehen und Radio zu verhindern.
  • Die vorliegende Offenbarung betrifft allgemein Techniken zum Verbergen von Phrasen in über die Luft laufendem Audio. Beispielsweise können die Phrasen ein oder mehrere mit Vulgärsprache assoziierte Wörter oder eine beliebige andere zur Verbergung angezielte Ausdrucksweise beinhalten. Beispielsweise können die Phrasen Passwörter, geheime Codenamen, Namen usw. beinhalten. In manchen Beispielen können die Phrasen Schlüsselphrasen beinhalten. Genauer gesagt beinhalten die hierin beschriebenen Techniken eine Einrichtung, ein Verfahren und ein System zum Verbergen von Phrasen in Audio. Eine beispielhafte Einrichtung beinhaltet einen Empfänger zum Empfangen einer detektierten Phrase über ein Netzwerk, wobei die detektierte Phrase auf Audio basiert, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Die Einrichtung beinhaltet auch einen Spracherkenner zum Erzeugen eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält. Die Einrichtung beinhaltet ferner einen Phrasenverberger zum Verbergen des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  • Die hierin beschriebenen Techniken reduzieren somit die Menge an verwendeter Bandverzögerung und den Bedarf für manuelles Analysieren von Live-Audioereignissen. Die Techniken gewährleisten eine konsistente Qualität des Inhalts. Beispielsweise können die Techniken verwendet werden, um regulatorische Anforderungen zu erfüllen, die die öffentliche Ausstrahlung von vulgären Materialien einschränken. In manchen Beispielen können die Techniken in einer Live-Umgebung verwendet werden, indem die unterschiedlichen Übertragungsgeschwindigkeiten zwischen Ton über die Luft und Phrasendetektion über das Netzwerk genutzt werden. Somit kann Live-Audio unter Verwendung erzeugter Pieptöne mit wenig, wenn überhaupt, Verzögerung beim Verstärken des Audios von einer Bühne verborgen werden. Beispielsweise können zahlreiche Phrasenverberger, wie etwa Pieptongeneratoren, in der Nähe eines Publikums platziert werden, um eine jegliche detektierte Phrase mit Pieptönen zu maskieren, während die Phrase das Publikum erreicht.
  • 1 ist ein Blockdiagramm, das ein beispielhaftes System zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht. Das beispielhafte System 100 kann in der Rechenvorrichtung 700 in 7 unter Verwendung des Verfahrens 600 von 6 implementiert werden.
  • Das beispielhafte System 100 beinhaltet einen Phrasendetektor 102, einen Spracherkenner 104 und einen Phrasenverberger 106. Der Spracherkenner 104 ist kommunikativ über ein Netzwerk 108 mit dem Phrasendetektor 102 gekoppelt. Der Phrasenverberger 106 ist auch kommunikativ mit dem Spracherkenner 104 gekoppelt. In manchen Beispielen kann sich der Phrasenverberger 106 in derselben Vorrichtung befinden wie der Spracherkenner 104. Das System 100 beinhaltet ein Audio 110 über die Luft, das so gezeigt ist, dass es sowohl bei dem Phrasendetektor 102 als auch dem Spracherkenner 104 empfangen wird. Der Phrasenverberger 106 ist als einen Teil des Audios 110 über die Luft abdeckend gezeigt. Beispielsweise kann der abgedeckte Teil eine detektierte Phrase beinhalten.
  • In dem System 100 kann der Phrasendetektor 102 das Audio über die Luft 110 überwachen und Phrasenkandidaten detektieren. In manchen Beispielen kann der Phrasendetektor 102 Phrasenkandidaten unter Verwendung einer akustischen Abgleichtechnik an Teilworteinheiten nahe einer Quelle, an der die Phrase geäußert wurde, detektieren. Beispielsweise können die Teilworteinheiten Phoneme sein. In manchen Beispielen kann der Phrasendetektor 102 detektierte Teilworteinheiten im Audio 110 parsen und erzeugt einen oder mehrere Phrasenkandidaten. Die Phrasenkandidaten können ein oder mehrere Wörter sein, die in gewissen Kontexten vulgär sein können. In verschiedenen Beispielen können Phrasenkandidaten einzelne Wörter mit zwei oder mehr Silben oder mehrere Wörter sein. Um die Verarbeitungszeit am Phrasendetektor 102 zu reduzieren, kann der Phrasendetektor 102 nur die Phrasenkandidaten detektieren, anstatt den Kontext zu bestimmen. In verschiedenen Beispielen kann der Phrasendetektor 102 auf einer Ultraniedrigleistung-Plattform nahe potenzieller Quellen einer Phrase ausgeführt werden. Beispielsweise kann der Phrasendetektor 102 eine Vorrichtung sein, die sich in der Nähe oder auf einer Bühne befindet. In manchen Beispielen kann der Phrasendetektor 102 eine Uhr, ein Laptop oder ein intelligentes Mikrofon sein. In verschiedenen Beispielen kann der Phrasendetektor 102 Hardwarebeschleunigung mit einem neuronalen Netzwerk beinhalten, um mit der Ausführung in Beziehung stehende Latenz zu reduzieren. Die detektierten Phrasenkandidaten werden über ein Netzwerk 108 mit niedriger Latenz übertragen. Beispielsweise kann das Netzwerk 108 ein drahtgebundenes oder drahtloses Netzwerk sein, wie etwa ein Ethernet-Netzwerk oder ein 5G-Netz.
  • In verschiedenen Beispielen kann der Spracherkenner 104 die detektierten Phrasenkandidaten über das Netzwerk 108 empfangen, bevor das Audio 110 über die Luft an dem Standort des Spracherkenners 104 und des Phrasenverbergers 106 ankommt. In manchen Beispielen ermöglicht diese Verzögerung bei der Ankunft des Audios über die Luft 110 dem Phrasenverberger 106, die detektierte Phrase in dem ursprünglichen Audiostrom zu verbergen, während die Phrase an dem Standort des Phrasenverbergers 106 ankommt. Beispielsweise kann der Spracherkenner 104 an einer mit dem Netzwerk 108 verbundenen Vorrichtung nahe des Zielpublikums ausgeführt werden. In verschiedenen Beispielen kann der Spracherkenner 104 mit niedriger Leistung laufen. Beispielsweise kann die Vorrichtung ein Laptop oder 2-in-1-Gerät sein. Beispielsweise kann ein 2-in-l-Gerät ein Laptop sein, der in eine handgehaltene Touchscreen-Vorrichtung umwandelbar ist. In verschiedenen Beispielen führt der Spracherkenner 104 eine Engine für das Verstehen natürlicher Sprache zusätzlich zu einem Niederleistung-Spracherkenner aus. Die Verwendung einer Engine für das Verstehen natürlicher Sprache (NLU: Natural Language Understanding) kann eine genauere Vorhersage über das Vorhandensein von Phrasen ermöglichen, die als Vulgärsprache bestätigt werden oder anderweitig nicht in dem Audio 110 erlaubbar sind. Beispielsweise verwendet die NLU mehr Kontextinformationen zum Treffen von Vorhersagen, wie etwa die Wörter und Sätze vor der eigentlichen Phrase. In manchen Beispielen können sentimentale Informationen enthalten sein. Beispielsweise kann eine Phrase wahrscheinlich eine Vulgärsprache sein, falls der Satz, in dem sie enthalten ist, negativ oder aggressiv formuliert ist.
  • Als ein Beispiel kann der Spracherkenner 104 eine Großvokabular-Spracherkennungs-Engine mit einem statistischen Sprachmodell sein, das an regulärer Sprache sowie an Vulgärsprache enthaltender Sprache trainiert ist. Ein solches Training kann dem Spracherkenner 104 ermöglichen, die Phrase zuverlässiger zu detektieren. In manchen Beispielen beinhaltet der Spracherkenner 104 auch eine Zeitabgleicheinheit, die eine präzise Anfangs- und Endzeit der Phrase in dem Audiostrom detektiert. Beispielsweise kann die Zeitabgleicheinheit durch Berechnen von Phonem-Verbänden und Bestimmen des Audiorahmens des ersten und letzten Phonems der Phrase implementiert werden. In verschiedenen Beispielen enthält der Spracherkenner 104 auch einen Puffer. In verschiedenen Beispielen ist der Puffer ein Ultraniedrigleistung-Audiopuffer. Beispielsweise kann der Ultraniedrigleistung-Audiopuffer als ein Ringpuffer implementiert werden. Wenn der Phrasendetektor 102 einen Kandidaten detektiert, kann dieser Audiopuffer verwendet werden, um Audiokontext aus vor der detektierten Kandidatenphrase gesprochenen Wörtern zu liefern. Auf diese Weise kann der Spracherkenner 104 den akustischen und linguistischen Kontext, in dem die Phrase gesprochen wurde, nutzen.
  • In manchen Beispielen kann der Phrasenverberger 106 während eines Normalbetriebs das Audiosignal über Luftübertragung zu einer vorbestimmten Menge an Zeit, nachdem das Audiosignal über die Luft übertragen wurde, empfangen. Beispielsweise kann die vorbestimmte Menge an Zeit auf dem Abstand des Phrasenverbergers 106 von der Audioquelle basieren. In manchen Beispielen eine maximale Menge an Zeit, die der Phrasendetektor 102 und der Spracherkenner 104 zum Detektieren einer Phrase relativ zu dem Anfang der Phrase verwenden können. Als Reaktion auf das Empfangen eines Auslösers kann der Phrasenverberger 106 ein Geräusch erzeugen, wie etwa einen Piepton, um den phrasendetektierten Abschnitt des Audiostroms zu verbergen. In verschiedenen Beispielen ersetzt oder verbirgt der Phrasenverberger 106 den Abschnitt des Audiosignals mit der Phrase mit einem Piepton oder einem ähnlichen Geräusch. Wenn eine Phrase detektiert wird, überlagert der Phrasenverberger 106 beispielsweise das Audio mit einem anderen Signal. Als ein Beispiel kann das Signal ein Piepton sein, der die Phrase für nahe Zuhörer unhörbar macht. In verschiedenen Beispielen kann das andere Signal ein beliebiges geeignetes Geräuschsignal sein. In anderen Beispielen kann der Phrasenverberger 106 eine Detektion der Phrase an einer Vorrichtung verhindern, indem die Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios deaktiviert wird.
  • In verschiedenen Beispielen können der Phrasendetektor 102, ein Spracherkenner 104 und ein Phrasenverberger 106 unter Verwendung von Ereignissen interagieren, und sowohl der Phrasendetektor 102, ein Spracherkenner 104 als auch ein Phrasenverberger 106 hat Zugriff auf den Audiostrom 110. Eine beispielhafte Ereignisbehandlung zwischen diesen Komponenten ist in 4 beschrieben.
  • Das Diagramm von 1 soll nicht angeben, dass das beispielhafte System 100 alle der in 1 gezeigten Komponenten beinhalten soll. Stattdessen kann das beispielhafte System 100 unter Verwendung weniger oder zusätzlicher, in 1 nicht veranschaulichter Komponenten (z. B. zusätzlicher Phrasenverberger, Spracherkenner, Phrasendetektoren, Audioquellen usw.) implementiert werden. In manchen Beispielen können die detektierten Phrasenkandidaten über das Netzwerk 108 mit niedriger Latenz gemulticastet werden. Beispielsweise können die Phrasenkandidaten über das Netzwerk 108 mit niedriger Latenz zu mehreren Spracherkennern und Phrasenverbergern gesendet werden.
  • 2 ist ein Zustandsdiagramm, das einen beispielhaften Phrasendetektor zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht. Der beispielhafte Phrasendetektor 200 kann in der Rechenvorrichtung 700 in 7 unter Verwendung des Verfahrens 600 von 6 implementiert werden.
  • Der beispielhafte Phrasendetektor 200 beinhaltet Zustände 202, 204A, 204B und 206. Der Zustand 202 bezieht sich auf einen Zustand, in dem keine Sprache detektiert wird. Die Zustände 204A und 204B sind einzelne Teilworteinheiten, in denen eine Phrase detektiert wird. Beispielsweise kann jede Teilworteinheit ein Phonem einer Phrase repräsentieren. Der Zustand 206 ist ein Zustand, in dem Sprache detektiert wird, die nicht Teil der zu detektierenden Phrase ist. Dieser Zustand wird auch als ein Papierkorbmodell bezeichnet. Der Phrasendetektor 200 beinhaltet ferner Übergänge 208, 210, 212, 214, 216, 218, 220, 222 und 224. Der Übergang 208 gibt an, dass der Phrasendetektor 200 kontinuierlich auf Sprache in empfangenem Audio überwacht. Der Übergang 210 gibt an, dass der Phrasendetektor 200 eine Kandidatenphrase detektiert, die zu einem Zustand 204A führt, in dem die erste Teilworteinheit der Phrase detektiert wird. Der Übergang 212 gibt an, dass die erste Teilworteinheit immer noch gesprochen wird. Da dieser Übergang eine variable Anzahl von Malen vorgenommen werden kann, kann die entsprechende Teilworteinheit mit unterschiedlichen Geschwindigkeiten gesprochen werden. Der folgende Zustand 204B repräsentiert die zweite Teilworteinheit der Phrase. Beispielsweise kann der Zustand 204B ein zweites Phonem sein. Der Übergang 214 gibt an, dass der Phrasendetektor 200 das zweite Phonem einer Phrase beim nächsten Zustand detektiert. Es kann eine variable Anzahl von „P“-Zuständen basierend auf der Anzahl von Teilworteinheiten in der Phrase geben. Jeder dieser Zustände weist einen Selbstübergang, wie etwa Übergänge 212 oder 216, der zum Modellieren unterschiedlicher Längen von Teilworteinheiten verwendet wird, und einen Übergang zu dem folgenden Zustand auf. Der Übergang 216 gibt an, dass die letzte Teilworteinheit der Phrase weiterhin gesprochen wird. Der Übergang 218 gibt an, dass das Ende der zu detektierenden Phrase erreicht wurde, und sich die folgende Sprache nicht auf die Phrase bezieht. Der Übergang 220 gibt an, dass Sprache nach einem Segment mit Stillschweigen oder Geräusch ohne Sprache detektiert wurde. Der Übergang 222 gibt an, dass für die Phrase nicht relevante Sprache immer noch detektiert wird. Der Übergang 224 gibt an, dass Stillschweigen oder Geräusch ohne Sprache nach einem Sprachsegment detektiert wurde.
  • In verschiedenen Beispielen kann der Phrasendetektor 200 kontinuierlich versuchen, eine am besten passende Hypothese von durchlaufenen Zuständen basierend auf dem Audiosignal zu finden. Beispielsweise kann dies erreicht werden, indem Ausgaben eines tiefen neuronalen Netzwerks, das an Sprachdaten trainiert ist, den Zuständen des Diagramms zugewiesen werden, und durch einen Token-weiterreichenden Algorithmus. In manchen Beispielen, falls die Wahrscheinlichkeit der Hypothese, sich in dem Zustand 204B zu befinden, erheblich größer ist als die Wahrscheinlichkeit, sich im Zustand 202 oder Zustand 206 zu befinden, dann kann der Phrasendetektor 200 annehmen, dass die Phrase gesprochen wurde. Somit kann der Phrasendetektor 200 ein Phrasendetektionsereignis auslösen, falls diese Differenz von Wahrscheinlichkeiten eine vorbestimmte Schwelle überschreitet.
  • In verschiedenen Beispielen wird der Phrasendetektor 200 als ein Phrasen-Spotter an den am häufigsten verwendeten Vulgärwortsequenzen implementiert. In manchen Beispielen kann der Phrasen-Spotter eine Wake-on-Voice-Technologie (Aufwecken-bei-Sprache-Technologie) wiederverwenden. In verschiedenen Beispielen nutzt der Phrasen-Spotter eine zeitasynchrone gesprochene Absichtsdetektion für Niederleistung-Anwendungen. Beispielsweise kann der Phrasen-Spotter domäneninternes Vokabular und relative quantisierte Zeitstempel von zuvor erkannten Phrasen eines kontinuierlichen Audiostroms detektieren. Die Sequenz detektierter Phrasen und Zeitstempel werden als Merkmale für eine Absichtsklassifikation verwendet. Das akustische Modell des Phrasen-Spotters kann verwendet werden, um automatisch Zeitstempelinformationen zu den Textdaten für ein Absichtsklassifikationstraining hinzuzufügen. In manchen Beispielen kann der Phrasen-Spotter ein Wakeup-on-Intent(Aufwecken-bei-Absicht)-System auf Äußerungsebene aus Sprachschlüsselwörtern verwenden. Beispielsweise kann der Phrasen-Spotter eine Sequenz von Schlüsselwörtern in einer Sprachäußerung verwenden, um eine Absicht zu bestimmen. Anstelle der Verwendung der syntaktischen Sequenz erkannter Schlüsselwörter für die Absichtsklassifikation kann der Phrasen-Spotter eine Merkmalsrepräsentation verwenden, die näher an dem Sprachsignal liegt. Als ein Beispiel kann die Merkmalsrepräsentation MFCC(Mel-Frequenz-Cepstrum-Koeffizienten)-erweiterte Schlüsselwortmerkmale beinhalten. Dies kann immer eingeschaltete Niederleistung-Systeme ermöglichen, die sich auf das Abhören nach relevanten Teilen einer Äußerung fokussieren. In manchen Beispielen beinhaltet der Phrasendetektor 200 zwei Teile. Beispielsweise kann der erste Teil des Phrasendetektors 200 ein Audio-zu-„Worteinheiten“-Erkenner sein, der die wahrscheinlichste Worteinheitssequenz erkennt. Beispielsweise kann die Worteinheitssequenz eine Phonemsequenz sein. In manchen Beispielen kann die Worteinheitssequenz eine Worteinheitswahrscheinlichkeitsverteilung sein. In manchen Beispielen wird der Audio-zu-„Worteinheiten“-Erkenner mit einer Nichtsprachen-und-Papierkorb-Modellierung kombiniert. Dann können die erkannten Worteinheiten oder die erkannte Worteinheitswahrscheinlichkeitsverteilung in eine zweite Komponente eingegeben werden. In manchen Beispielen kann der Phrasendetektor 200 als ein automatischer Spracherkenner implementiert werden, der zusammen mit einer Komponente zum Verstehen natürlicher Sprache verwendet wird.
  • In verschiedenen Beispielen ist die zweite Komponente des Phrasendetektors 200 ein neuronales Netzwerk. Beispielsweise kann das neuronale Netzwerk ein rekurrentes neuronales Netzwerk sein, das die Phrasendetektion durchführt, wie in dem Beispiel von 3 beschrieben.
  • Das Diagramm von 2 soll nicht angeben, dass der beispielhafte Phrasendetektor 200 alle der in 2 gezeigten Komponenten beinhalten soll. Stattdessen kann der beispielhafte Phrasendetektor 200 unter Verwendung weniger oder zusätzlicher, nicht in 2 veranschaulichter Komponenten (z. B. zusätzlicher Zustände, Übergänge usw.) implementiert werden.
  • 3 ist ein Blockdiagramm, das ein beispielhaftes neuronales Netzwerk zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht. Das beispielhafte neuronale Netzwerk 300 kann in der Rechenvorrichtung 700 in 7 unter Verwendung des Verfahrens 600 von 6 implementiert werden. Beispielsweise kann das neuronale Netzwerk 300 verwendet werden, um den Phrasendetektor 102 von 1 oder den Phrasendetektor 726 von 7 zu implementieren.
  • Das beispielhafte neuronale Netzwerk 300 beinhaltet eine Pooling-Schicht 302, die kommunikativ mit einem Phrasendetektor 102 gekoppelt ist. Beispielsweise kann die Pooling-Schicht 302 ein Durchschnitts-Pooling, ein Mittelwert-Pooling oder ein statistisches Pooling an n sein. In manchen Beispielen kann der Phrasendetektor 102 ein vorwärtsgekoppeltes Netzwerk sein. Das neuronale Netzwerk 300 beinhaltet auch ein rekurrentes neuronales Netzwerk (RNN) 304. Das RNN 304 beinhaltet einen Satz von Merkmalen 306A, 306B, 306C, der aus einem von einem Spracherkenner empfangenen Satz von Worteinheiten 308A, 308B und 308C gebildet wird. Beispielsweise werden die Worteinheiten 308A, 308B und 308C zu dem RNN 304 weitergegeben, wobei jede Worteinheit 308A, 308B und 308C als ein numerischer Vektor repräsentiert wird. In manchen Beispielen werden die Wörter nacheinander zu dem Ende der Sequenz weitergegeben. Das Ergebnis jedes Zeitschritts wird zu der Pooling-Schicht weitergegeben. In manchen Beispielen kann die Dimension des Ausgabevektors in Abhängigkeit von den Bedürfnissen sowie der Topologie des RNN 304 geändert werden. Beispielsweise kann das RNN 304 ein LSTM(langer Kurzzeit-Speicher)-RNN sein. In manchen Beispielen kann das RNN 304 ein zeitfaltendes Netzwerk (TCN: Time Convolutional Network) sein, wie etwa ein zeitverzögertes neuronales Netzwerk (TDNN: Time Delay Neural Network). Die Ausgabemerkmale 306A-306C sind als in eine Pooling-Schicht 302 eingegeben gezeigt. Die Ausgabe der Pooling-Schicht 302 kann ein Vektor mit festen Dimensionen sein. Dieser Ausgabevektor kann durch den Phrasendetektor 102 zum Klassifizieren einer Phrase 308 verwendet werden.
  • Das Diagramm von 3 soll nicht angeben, dass das beispielhafte neuronale Netzwerk 300 alle der in 3 gezeigten Komponenten beinhalten soll. Stattdessen kann das beispielhafte neuronale Netzwerk 300 unter Verwendung weniger oder zusätzlicher, in 3 nicht veranschaulichter Komponenten (z. B. zusätzlicher Worteinheiten, Merkmale, Pooling-Schichten, Phrasendetektoren, detektierter Vulgärsprache usw.) implementiert werden.
  • 4 ist ein Flussdiagramm, das einen beispielhaften Prozess zum Verbergen einer Phrase in durch Luft laufendem Audio veranschaulicht. Der beispielhafte Prozess 400 kann in dem System 100 von 1 unter Verwendung des Phrasendetektors 200 von 2, des neuronalen Netzwerks 300 von 3, der Rechenvorrichtung 700 in 7 oder der computerlesbaren Medien 800 von 8 implementiert werden.
  • Bei Block 402 empfängt ein Prozessor ein Audio. Beispielsweise kann das Audio Sprache sein, die live bei einer Veranstaltung verstärkt wird. In manchen Beispielen kann das Audio Sprache von einer Person in einem großen Raum sein.
  • Bei Entscheidungsraute 404 wird jedem Rahmen in dem Audiosignal eine Wahrscheinlichkeit dafür zugewiesen, wie wahrscheinlich ein Wort gesprochen wurde, das eine Phrase sein könnte, die verborgen werden soll. Falls eine gewisse Schwelle überschritten wird, dann kann der Prozessor die Detektion über einen Netzwerkkanal multicasten und der Prozess kann bei Entscheidungsraute 406 fortfahren. Falls die Schwelle nicht überschritten wird, dann kann der Prozess bei Block 402 fortgesetzt werden, bei dem zusätzliches Audio empfangen wird.
  • Bei Entscheidungsraute 406 bestimmt ein Prozessor, ob eine Phrase höchstwahrscheinlich eine angezielte Phrase ist. Beispielsweise kann ein Spracherkenner an einer zweiten Stelle nahe dem Publikum die Detektion empfangen. Der Spracherkenner kann bei dem Empfang der detektierten Phrase ausgelöst werden. In verschiedenen Beispielen startet der Spracherkenner mit der Neubewertung des Signals mit höherer Granularität. Beispielsweise kann eine feinere Granularität durch ein akustisches Modell erreicht werden, das mehr verborgene Einheiten oder Schichten aufweist und an mehr Daten trainiert ist. Ein solches akustisches Modell kann mehr Einzelheiten aus einem Audiosignal erfassen. In manchen Beispielen kann die gleiche höhere Granularität für das Sprachmodell oder semantische Modell (NLU) angewendet werden. Die Bewertung mit höherer Granularität kann zu einer höheren Klassifikationsgenauigkeit führen. Falls der Prozessor über die Klassifikation mit höherer Genauigkeit bestätigt, dass die Phrase eine angezielte Phrase ist, dann kann der Prozess mit Block 408 fortfahren. Falls der Prozessor nicht bestätigt, dass die Phrase eine angezielte Phrase ist, dann kann der Prozess mit Block 402 fortfahren.
  • Bei Block 408 kann der Prozessor ein Auslösesignal für einen Phrasenverberger zum Ersetzen eines Audio-Snippets erzeugen. Beispielsweise kann der Auslöser zu einer Zeit gesendet werden, zu der das Audio-Snippet an dem Ort der zweiten Stelle nahe dem Publikum anfangen soll.
  • Dieses Prozessflussdiagramm soll nicht angeben, dass die Blöcke des beispielhaften Prozesses 400 in einer speziellen Reihenfolge ausgeführt werden sollen oder dass alle der Blöcke in jedem Fall einzuschließen sind. Ferner kann in Abhängigkeit von den Einzelheiten der spezifischen Implementierung eine beliebige Anzahl nicht gezeigter zusätzlicher Blöcke in dem beispielhaften Prozess 400 enthalten sein.
  • 5 ist ein Timing-Diagramm, das ein beispielhaftes System zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht. Der beispielhafte Prozess 500 kann in der Rechenvorrichtung 700 in 7 unter Verwendung des Verfahrens 600 von 6 implementiert werden.
  • Der beispielhafte Prozess 500 beinhaltet eine erste Vorrichtung 502, die kommunikativ mit einer zweiten Vorrichtung 504 gekoppelt ist. Die erste Vorrichtung 502 beinhaltet einen Phrasendetektor 102. Die zweite Vorrichtung 504 beinhaltet einen Spracherkenner 104 und einen Phrasenverberger 106. Ein durch den Spracherkenner 104 erzeugtes Auslösesignal 506 ist im oberen Teil des Timing-Diagramms von 5 gezeigt. Das Timing-Diagramm beinhaltet ein wie durch die Vorrichtung 502 erfasstes Audiosignal 508. Das Timing-Diagramm beinhaltet Kommunikationsachsen 510, 512 und 514, die dem Phrasendetektor 102, dem Spracherkenner 104 bzw. dem Phrasenverberger 106 entsprechen. Wie in 5 gezeigt, beinhalten die Kommunikationsachsen 510, 512 und 514 eine Verzögerung d in dem Timing t+d, die die Verzögerung an dem Übertragungskanalnetzwerk gegenüber einer Übertragung über die Luft repräsentiert. Das Timing-Diagramm von 5 beinhaltet auch ein zweites Audiosignal 516, wie in der Nähe des Phrasenverbergers 106 detektiert. Das zweite Audiosignal 516 weist eine angewendete Verzögerung 518 im Vergleich zu dem durch die Vorrichtung 502 erfassten Timing-Audiosignal 508 auf.
  • In dem Beispiel von 5 kann die Vorrichtung 502 nahe einer Sprachquelle liegen. Beispielsweise kann sich die Vorrichtung 502 auf einer Bühne befinden. Die Vorrichtung 504 kann sich näher an dem Publikum befinden. Beispielsweise kann sich die Vorrichtung 504 mit einem Abstand auf einer Tribüne befinden. Daher weist das Audio eine Verzögerung 518 auf, wenn es über die Luft von der Vorrichtung 502 zu der Vorrichtung 504 läuft. Die Latenz über das Netzwerk ist kleiner als die Latenz d. Beispielsweise kann diese Bedingung erfüllt werden, indem die Vorrichtung 502 in recht großen Räumen oder Veranstaltungsorten entfernt von der Vorrichtung 504 platziert wird.
  • Zum Zeitpunkt 520 detektiert der Phrasendetektor 102 eine Kandidatenphrase in dem Audiosignal 508. Zum Zeitpunkt 522 sendet der Phrasendetektor 102 die detektierte Kandidatenphrase über ein Netzwerk zu dem Spracherkenner 104. Der Spracherkenner 104 analysiert dann den Kandidaten unter Verwendung der dem Kandidaten vorausgehenden gepufferten Sprache 524A als Kontext. In dem Beispiel von 5 nimmt der Spracherkenner 104 keine weiteren Handlungen in Bezug auf diesen ersten detektierten Kandidaten vor. Beispielsweise kann der Spracherkenner 104 basierend auf dem Kontext detektiert haben, dass die erste Kandidatenphrase keine angezielte Phrase war.
  • Zum Zeitpunkt 526 detektiert der Phrasendetektor 102 eine zweite Kandidatenphrase in dem Audiosignal 508. Zum Zeitpunkt 528 sendet der Phrasendetektor 102 eine zweite Kandidatenphrase zu dem Spracherkenner 104. Zum Zeitpunkt 530 bestätigt der Spracherkenner 104, dass eine Kandidatenphrase eine angezielte Phrase ist, basierend auf der gepufferten Sprache 524B und sendet einen Auslöser zu dem Phrasenverberger 106. Der Phrasenverberger 106 erzeugt ein Geräusch 534 zum Verbergen der Phrase, wie in dem Überlappungsteil 534 des Signals 516 gezeigt. Beispielsweise kann das Geräusch 534 ein Piepton sein. Das Auslösesignal 506 zeigt ein entsprechendes Signal zu dem durch das Geräusch 534 verborgenen Teil des Audiosignals.
  • Das Diagramm von 5 soll nicht angeben, dass der beispielhafte Prozess 500 alle der in 5 gezeigten Komponenten enthalten soll. Stattdessen kann der beispielhafte Prozess 500 unter Verwendung weniger oder zusätzlicher, in 5 nicht veranschaulichter Komponenten (z. B. zusätzlicher Vorrichtungen, Signale, Puffer, detektierter Vulgärsprache usw.) implementiert werden.
  • 6 ist ein Flussdiagramm, das ein Verfahren zum Verbergen von Phrasen in durch Luft laufendem Audio veranschaulicht. Das beispielhafte Verfahren 600 kann in dem System 100 von 1 unter Verwendung des Phrasendetektors 200 von 2, des neuronalen Netzwerks 300 von 3, der Rechenvorrichtung 700 in 7 oder der computerlesbaren Medien 800 von 8 implementiert werden.
  • Bei Block 602 empfängt ein Prozessor eine detektierte Phrase. Die detektierte Phrase basiert auf einem Audio, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Beispielsweise kann die detektierte Phrase eine Wahrscheinlichkeit dafür, dass sie eine Zielphrase ist, aufweisen, die eine Schwelle überschreitet.
  • Bei Block 604 erzeugt der Prozessor einen Auslöser als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält. Beispielsweise kann der Prozessor eine präzise Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom. In manchen Beispielen kann der Prozessor Phonem-Verbände berechnen und einen Audiorahmen eines ersten Phonems und eines letzten Phonems der detektierten Phrase bestimmen. In verschiedenen Beispielen verarbeitet der Prozessor Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern.
  • Bei Block 606 verbirgt der Prozessor den Abschnitt des Audiostroms als Reaktion auf den Auslöser. Beispielsweise kann der Prozessor als Reaktion auf das Detektieren des Auslösers das Audiosignal mit einem anderen Signal überlagern. In verschiedenen Beispielen kann der Prozessor eine Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms verhindern. In manchen Beispielen kann der Prozessor eine Detektion der Phrase an einer Vorrichtung durch Deaktivieren der Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios verhindern. In verschiedenen Beispielen kann der Prozessor ein Geräusch erzeugen, um den Abschnitt des Audiostroms zu verbergen. In manchen Beispielen verwendet der Prozessor eine Verzögerung bei der Übertragung des Audiosignals über die Luft als eine Menge an Zeit, die zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet wird.
  • Dieses Prozessflussdiagramm soll nicht angeben, dass die Blöcke des beispielhaften Verfahrens 600 in irgendeiner speziellen Reihenfolge auszuführen sind, oder dass alle der Blöcke in jedem Fall einzuschließen sind. Ferner kann in Abhängigkeit von den Einzelheiten der spezifischen Implementierung eine beliebige Anzahl zusätzlicher nicht gezeigter Blöcke in dem beispielhaften Verfahren 600 eingeschlossen sein.
  • Jetzt mit Bezug auf 7 ist ein Blockdiagramm gezeigt, das eine beispielhafte Rechenvorrichtung veranschaulicht, die Phrasen in durch Luft laufendem Audio verbergen kann. Die Rechenvorrichtung 700 kann zum Beispiel unter anderem ein Laptop-Computer, ein Desktop-Computer, ein Tablet-Computer, eine mobile Vorrichtung oder eine Wearable-Vorrichtung sein. In manchen Beispielen kann die Rechenvorrichtung 700 ein Laptop oder eine 2-in-1-Vorrichtung sein. Beispielsweise kann eine 2-in-1-Vorrichtnug ein hybrider Laptop mit einer abnehmbaren Tablet-Komponente sein. Die Rechenvorrichtung 700 kann eine Zentralverarbeitungseinheit (CPU) 702, die dazu ausgelegt ist, gespeicherte Anweisungen auszuführen, sowie eine Speichervorrichtung 704, die durch die CPU 702 ausführbare Anweisungen speichert, beinhalten. Die CPU 702 kann durch einen Bus 706 mit der Speichervorrichtung 704 gekoppelt sein. Zusätzlich kann die CPU 702 ein Einzelkern-Prozessor, ein Mehrkern-Prozessor, ein Rechencluster oder eine beliebige Anzahl anderer Konfigurationen sein. Ferner kann die Rechenvorrichtung 700 mehr als eine CPU 702 beinhalten. In manchen Beispielen kann die CPU 702 ein System-on-Chip (SoC) mit einer Mehrkern-Prozessorarchitektur sein. In manchen Beispielen kann die CPU 702 ein spezialisierter Digitalsignalprozessor (DSP) sein, der zur Bildverarbeitung verwendet wird. Die Speichervorrichtung 704 kann Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder beliebige andere geeignete Speichersysteme beinhalten. Beispielsweise kann die Speichervorrichtung 704 dynamischen Direktzugriffsspeicher (DRAM) beinhalten.
  • Die Speichervorrichtung 704 kann Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder beliebige andere geeignete Speichersysteme beinhalten. Beispielsweise kann die Speichervorrichtung 704 dynamischen Direktzugriffsspeicher (DRAM) beinhalten.
  • Die Rechenvorrichtung 700 kann auch eine Grafikverarbeitungseinheit (GPU) 708 beinhalten. Wie gezeigt, kann die CPU 702 über den Bus 706 mit der GPU 708 gekoppelt sein. Die GPU 708 kann dazu ausgelegt sein, eine beliebige Anzahl von Grafikoperationen in der Rechenvorrichtung 700 durchzuführen. Beispielsweise kann die GPU 708 dazu ausgelegt sein, Grafikbilder, Grafik-Frames, Videos oder dergleichen zu rendern oder zu manipulieren, die einem Benutzer der Rechenvorrichtung 700 angezeigt werden sollen.
  • Die Speichervorrichtung 704 kann Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder beliebige andere geeignete Speichersysteme beinhalten. Beispielsweise kann die Speichervorrichtung 704 dynamischen Direktzugriffsspeicher (DRAM) beinhalten. Die Speichervorrichtung 704 kann Vorrichtungstreiber 710 beinhalten, die dazu ausgelegt sind, die Anweisungen zum Trainieren mehrerer faltender neuronaler Netzwerke auszuführen, um eine sequenzunabhängige Verarbeitung durchzuführen. Die Vorrichtungstreiber 710 können Software, ein Anwendungsprogramm, Anwendungscode oder dergleichen sein.
  • Die CPU 702 kann auch über den Bus 706 mit einer Eingabe/Ausgabe(E/A)-Vorrichtungsschnittstelle 712 verbunden sein, die dazu ausgelegt ist, die Rechenvorrichtung 700 mit einer oder mehreren E/A-Vorrichtungen 714 zu verbinden. Die E/A-Vorrichtungen 714 können beispielsweise eine Tastatur und eine Zeigevorrichtung beinhalten, wobei die Zeigevorrichtung unter anderem ein Touchpad oder einen Touchscreen beinhalten kann. Die E/A-Vorrichtungen 714 können eingebaute Komponenten der Rechenvorrichtung 700 sein oder können Vorrichtungen sein, die extern mit der Rechenvorrichtung 700 verbunden sind. In manchen Beispielen kann der Speicher 704 über Direktspeicherzugriff (DMA) kommunikativ mit den E/A-Vorrichtungen 714 gekoppelt sein.
  • Die CPU 702 kann über den Bus 706 auch mit einer Anzeigeschnittstelle 716 verknüpft sein, die dazu ausgelegt ist, die Rechenvorrichtung 700 mit einer Anzeigevorrichtung 718 zu verbinden. Die Anzeigevorrichtung 718 kann einen Anzeigebildschirm beinhalten, der eine eingebaute Komponente der Rechenvorrichtung 700 ist. Die Anzeigevorrichtung 718 kann unter anderem auch einen Computermonitor, einen Fernseher oder einen Projektor beinhalten, der intern oder extern mit der Rechenvorrichtung 700 verbunden ist.
  • Die Rechenvorrichtung 700 beinhaltet auch eine Speicherungsvorrichtung 720. Die Speicherungsvorrichtung 720 ist ein physischer Speicher wie etwa eine Festplatte, ein optisches Laufwerk, ein Thumbdrive, ein Array von Laufwerken, ein Solid-State-Laufwerk oder eine beliebige Kombination davon. Die Speicherungsvorrichtung 720 kann auch entfernte Speicherungslaufwerke beinhalten.
  • Die Rechenvorrichtung 700 kann auch eine Netzwerkschnittstellensteuerung (NIC) 722 beinhalten. Die NIC 722 kann dazu ausgelegt sein, die Rechenvorrichtung 700 über den Bus 706 mit einem Netzwerk 724 zu verbinden. Das Netzwerk 724 kann unter anderem ein großflächiges Netzwerk (WAN), ein Lokalnetzwerk (LAN) oder das Internet sein. In manchen Beispielen kann die Vorrichtung über eine Drahtlostechnologie mit anderen Vorrichtungen kommunizieren. Beispielsweise kann die Vorrichtung über eine drahtlose Lokalnetzwerkverbindung mit anderen Vorrichtungen kommunizieren. In manchen Beispielen kann die Vorrichtung über Bluetooth® oder ähnliche Technologie mit anderen Vorrichtungen verbunden sein und kommunizieren.
  • Die Rechenvorrichtung 700 ist ferner über das Netzwerk 724 kommunikativ mit einem Phrasendetektor 726 gekoppelt. Beispielsweise kann der Phrasendetektor 726 einen Audio-zu-Worteinheit-Erkenner zum Erkennen von Worteinheitssequenzen beinhalten. Der Phrasendetektor 726 kann auch ein neuronales Netzwerk zum Detektieren von Phrasen aus den Worteinheiten beinhalten. Die Rechenvorrichtung 700 kann detektierte Vulgärsprache vom Phrasendetektor 726 empfangen.
  • Die Rechenvorrichtung 700 kann auch ein Mikrofon 728 beinhalten. Beispielsweise kann das Mikrofon 728 einen oder mehrere Sensoren zum Detektieren von Audio beinhalten. In verschiedenen Beispielen kann das Mikrofon 728 zum Überwachen von Audio in der Nähe der Rechenvorrichtung 700 verwendet werden.
  • Die Rechenvorrichtung 700 beinhaltet ferner einen Phrasenverberger 730. Beispielsweise kann der Phrasenverberger 730 zum Verbergen von Phrasen in Audio verwendet werden. In manchen Beispielen kann der Phrasenverberger 730 verwendet werden, um die Detektion von Phrasen an Vorrichtungen, wie etwa virtuellen Assistenzvorrichtungen, zu verhindern, indem die beleidigende Phrase unhörbar gemacht wird. Der Phrasenverberger 730 kann einen Empfänger 732, einen Spracherkenner 734 und einen Phrasenverberger 736 beinhalten. In manchen Beispielen kann jede der Komponenten 732-736 des Phrasenverbergers 730 ein Mikrocontroller, ein eingebetteter Prozessor oder ein Softwaremodul sein. Der Empfänger 732 kann eine detektierte Phrase über ein Netzwerk empfangen, wobei die detektierte Phrase auf Audio basiert, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Der Spracherkenner 734 kann als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält, einen Auslöser erzeugen. Beispielsweise kann der Spracherkenner 734 eine Vokabular-Spracherkennungs-Engine mit einem statistischen Sprachmodell, das an regulärer Sprache und Vulgärsprache enthaltender Sprache trainiert ist, beinhalten. In manchen Beispielen beinhaltet der Spracherkenner 734 eine Zeitabgleicheinheit zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom. In verschiedenen Beispielen beinhaltet der Spracherkenner 734 eine Zeitabgleicheinheit zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase. In manchen Beispielen beinhaltet der Spracherkenner 734 einen Puffer, um Audiokontext von vor der detektierten Phrase gesprochenen Wörtern zu liefern. Beispielsweise beinhaltet der Spracherkenner 734 einen Ultraniedrigleistungs-Audiopuffer. Der Phrasenverberger 736 kann als Reaktion auf den Auslöser den Abschnitt des Audiostroms verbergen. In manchen Beispielen kann der Phrasenverberger 736 das Audiosignal um eine Menge an Zeit verzögern, die der Sprachenerkenner zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet. In verschiedenen Beispielen kann der Phrasenverberger 736 als Reaktion auf das Detektieren des Auslösers das Audiosignal mit einem anderen Signal überlagern. In manchen Beispielen kann der Phrasenverberger 736 eine Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms verhindern. In verschiedenen Beispielen kann der Phrasenverberger 736 ein Geräusch erzeugen, um den Abschnitt des Audiostroms zu verbergen.
  • Das Blockdiagramm von 7 soll nicht angeben, dass die Rechenvorrichtung 700 alle der in 7 gezeigten Komponenten beinhalten soll. Stattdessen kann die Rechenvorrichtung 700 weniger oder zusätzliche, in 7 nicht veranschaulichte Komponenten beinhalten, wie etwa zusätzliche Puffer, zusätzliche Prozessoren und dergleichen. Die Rechenvorrichtung 700 kann in Abhängigkeit von den Einzelheiten der spezifischen Implementierung eine beliebige Anzahl zusätzlicher, nicht in 7 gezeigter Komponenten beinhalten. Ferner können beliebige der Funktionalitäten des Empfängers 732, des Spracherkenners 734 und des Phrasenverbergers 736 teilweise oder vollständig in Hardware und/oder im Prozessor 702 implementiert werden. Beispielsweise kann die Funktionalität mit einer anwendungsspezifischen integrierten Schaltung, in im Prozessor 702 implementierter Logik oder in einer beliebigen anderen Vorrichtung implementiert werden. Zusätzlich können beliebige der Funktionalitäten der CPU 702 teilweise oder vollständig in Hardware und/oder in einem Prozessor implementiert werden. Beispielsweise kann die Funktionalität des Phrasenverbergers 730 mit einer anwendungsspezifischen integrierten Schaltung, in in einem Prozessor implementierter Logik, in in einer spezialisierten Grafikverarbeitungseinheit wie etwa der GPU 708 implementierter Logik oder in einer beliebigen anderen Vorrichtung implementiert werden.
  • 8 ist ein Blockdiagramm, das computerlesbare Medien 800 zeigt, die Code zum Verbergen von Phrasen in durch Luft laufendem Audio speichern. Ein Prozessor 802 kann über einen Computerbus 804 auf die computerlesbaren Medien 800 zugreifen. Ferner kann das computerlesbare Medium 800 Code beinhalten, der dazu ausgelegt ist, den Prozessor 802 anzuweisen, die hierin beschriebenen Verfahren durchzuführen. In manchen Ausführungsformen können die computerlesbaren Medien 800 nichtflüchtige computerlesbare Medien sein. In manchen Beispielen können die computerlesbaren Medien 800 Speicherungsmedien sein.
  • Die verschiedenen hierin besprochenen Softwarekomponenten können auf einem oder mehreren computerlesbaren Medien 800 gespeichert sein, wie in 8 angegeben. Beispielsweise kann ein Empfängermodul 806 dazu ausgelegt sein, eine detektierte Phrase über ein Netzwerk zu empfangen, wobei die detektierte Phrase auf Audio basiert, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Ein Spracherkennermodul 808 kann dazu ausgelegt sein, als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält, einen Auslöser zu erzeugen. Beispielsweise kann das Spracherkennermodul 808 Code zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase im Audiostrom beinhalten. In manchen Beispielen kann das Spracherkennermodul 808 Code zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase beinhalten. Ein Phrasenverbergermodul 810 kann dazu ausgelegt sein, als Reaktion auf den Auslöser den Abschnitt des Audiostroms zu verbergen. In manchen Beispielen kann das Phrasenverbergermodul 810 dazu ausgelegt sein, eine Verzögerung in dem über die Luft übertragenen Audiosignal zu detektieren und diese Verzögerung als eine Menge an Zeit zu verwenden, die zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet wird. In verschiedenen Beispielen kann das Phrasenverbergermodul 810 dazu ausgelegt sein, eine Detektion der Phrase an einer Vorrichtung durch Deaktivieren der Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios zu verhindern. In manchen Beispielen kann der Phrasenverberger 810 dazu ausgelegt sein, als Reaktion auf das Detektieren des Auslösers das Audiosignal mit einem anderen Signal zu überlagern. In verschiedenen Beispielen kann der Phrasenverberger 810 dazu ausgelegt sein, eine Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms zu verhindern. In manchen Beispielen kann der Phrasenverberger 810 dazu ausgelegt sein, eine Detektion der Phrase an einer Vorrichtung durch Deaktivieren der Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios zu verhindern. In verschiedenen Beispielen kann der Phrasenverberger 810 dazu ausgelegt sein, ein Geräusch zu erzeugen, um den Abschnitt des Audiostroms zu verbergen.
  • Das Blockdiagramm von 8 soll nicht angeben, dass die computerlesbaren Medien 800 alle der in 8 gezeigten Komponenten beinhalten sollen. Ferner können die computerlesbaren Medien 800 in Abhängigkeit von den Einzelheiten der spezifischen Implementierung eine beliebige Anzahl zusätzlicher, in 8 nicht gezeigter Komponenten beinhalten. Beispielsweise können die computerlesbaren Medien 800 auch dazu ausgelegt sein, zu detektieren, dass die Phrase eine Wahrscheinlichkeit dafür, dass sie eine Zielphrase ist, aufweist, die eine Schwelle überschreitet.
  • Beispiele
  • Beispiel 1 ist eine Einrichtung zum Verbergen von Phrasen in Audio. Die Einrichtung beinhaltet einen Empfänger zum Empfangen einer detektierten Phrase über ein Netzwerk. Die detektierte Phrase basiert auf Audio, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Die Einrichtung beinhaltet außerdem einen Spracherkenner zum Erzeugen eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält. Die Einrichtung beinhaltet ferner einen Phrasenverberger zum Verbergen des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  • Beispiel 2 beinhaltet die Einrichtung des Beispiels 1, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner eine Vokabular-Spracherkennungs-Engine mit einem statistischen Sprachmodell, das an regulärer Sprache und Vulgärsprache enthaltender Sprache trainiert ist.
  • Beispiel 3 beinhaltet die Einrichtung eines der Beispiele 1 bis 2, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner eine Zeitabgleicheinheit zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom.
  • Beispiel 4 beinhaltet die Einrichtung eines der Beispiele 1 bis 3, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner eine Zeitabgleicheinheit zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase.
  • Beispiel 5 beinhaltet die Einrichtung eines der Beispiele 1 bis 4, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner einen Puffer zum Liefern von Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern.
  • Beispiel 6 beinhaltet die Einrichtung eines der Beispiele 1 bis 5, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner einen Ultraniedrigleistung-Audiopuffer.
  • Beispiel 7 beinhaltet die Einrichtung eines der Beispiele 1 bis 6, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel wird eine detektierte Verzögerung des Audiosignals aufgrund der Übertragung über die Luft als eine Menge an Zeit verwendet, die der Spracherkenner zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet.
  • Beispiel 8 beinhaltet die Einrichtung eines der Beispiele 1 bis 7, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist der Phrasenverberger ausgelegt zum Überlagern des Audiosignals mit einem anderen Signal als Reaktion auf das Detektieren des Auslösers.
  • Beispiel 9 beinhaltet die Einrichtung eines der Beispiele 1 bis 8, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist der Phrasenverberger ausgelegt zum Verhindern einer Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms.
  • Beispiel 10 beinhaltet die Einrichtung eines der Beispiele 1 bis 9, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist der Phrasenverberger ausgelegt zum Erzeugen eines Geräuschs, um den Abschnitt des Audiostroms zu verbergen.
  • Beispiel 11 ist ein Verfahren zum Verbergen von Phrasen in Audio. Das Verfahren beinhaltet Empfangen, über einen Prozessor, einer detektierten Phrase über ein Netzwerk. Die detektierte Phrase basiert auf Audio, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Das Verfahren beinhaltet außerdem Erzeugen, über den Prozessor, eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält. Das Verfahren beinhaltet ferner Verbergen, über den Prozessor, des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  • Beispiel 12 beinhaltet das Verfahren des Beispiels 11, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel weist die detektierte Phrase eine Wahrscheinlichkeit dafür, dass sie eine Zielphrase ist, auf, die eine Schwelle überschreitet.
  • Beispiel 13 beinhaltet das Verfahren eines der Beispiele 11 bis 12, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Erzeugen des Auslösers Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom.
  • Beispiel 14 beinhaltet das Verfahren eines der Beispiele 11 bis 13, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Erzeugen des Auslösers Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase.
  • Beispiel 15 beinhaltet das Verfahren eines der Beispiele 11 bis 14, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Detektieren, dass der Abschnitt des Audiostroms die bestätigte Phrase enthält, Verarbeiten von Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern.
  • Beispiel 16 beinhaltet das Verfahren eines der Beispiele 11 bis 15, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Verfahren Detektieren einer Verzögerung des Audiosignals aufgrund der Übertragung über die Luft und Verwenden der Verzögerung als eine Menge an Zeit, die der Spracherkenner zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet.
  • Beispiel 17 beinhaltet das Verfahren eines der Beispiele 11 bis 16, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Verbergen des Abschnitts des Audiostroms Überlagern des Audiosignals mit einem anderen Signal als Reaktion auf das Detektieren des Auslösers.
  • Beispiel 18 beinhaltet das Verfahren eines der Beispiele 11 bis 17, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Verbergen des Abschnitts des Audiostroms Verhindern einer Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms.
  • Beispiel 19 beinhaltet das Verfahren eines der Beispiele 11 bis 18, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Verbergen des Abschnitts des Audiostroms Verhindern einer Detektion der Phrase an einer Vorrichtung durch Deaktivieren der Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios.
  • Beispiel 20 beinhaltet das Verfahren eines der Beispiele 11 bis 19, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Verbergen des Abschnitts des Audiostroms Erzeugen eines Geräuschs, um den Abschnitt des Audiostroms zu verbergen.
  • Beispiel 21 ist mindestens ein computerlesbares Medium zum Verbergen von Phrasen in Audio, das darauf gespeicherte Anweisungen aufweist, die den Prozessor anweisen, eine detektierte Phrase über ein Netzwerk zu empfangen. Die detektierte Phrase basiert auf Audio, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Das computerlesbare Medium beinhaltet außerdem Anweisungen, die den Prozessor anweisen, als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält, einen Auslöser zu erzeugen. Das computerlesbare Medium beinhaltet ferner Anweisungen, die den Prozessor anweisen, als Reaktion auf den Auslöser den Abschnitt des Audiostroms zu verbergen.
  • Beispiel 22 beinhaltet das computerlesbare Medium des Beispiels 21, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom.
  • Beispiel 23 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 22, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase.
  • Beispiel 24 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 23, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Detektieren einer Verzögerung im Audiosignal aufgrund der Übertragung über Luft und Verwenden der Verzögerung als eine Menge an Zeit, die der Spracherkenner zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet.
  • Beispiel 25 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 24, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Verhindern einer Detektion der Phrase an einer Vorrichtung durch Deaktivieren der Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios.
  • Beispiel 26 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 25, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Detektieren, dass die Phrase eine Wahrscheinlichkeit dafür, dass sie eine Zielphrase ist, aufweist, die eine Schwelle überschreitet.
  • Beispiel 27 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 26, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Überlagern des Audiosignals mit einem anderen Signal als Reaktion auf das Detektieren des Auslösers.
  • Beispiel 28 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 27, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Verhindern einer Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms.
  • Beispiel 29 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 28, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Verhindern einer Detektion der Phrase an einer Vorrichtung durch Deaktivieren der Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios.
  • Beispiel 30 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 29, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Erzeugen eines Geräuschs, um den Abschnitt des Audiostroms zu verbergen.
  • Beispiel 31 ist ein System zum Verbergen von Phrasen in Audio. Das System beinhaltet einen Empfänger zum Empfangen einer detektierten Phrase über ein Netzwerk. Die detektierte Phrase basiert auf Audio, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Das System beinhaltet außerdem einen Spracherkenner zum Erzeugen eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält. Das System beinhaltet ferner einen Phrasenverberger zum Verbergen des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  • Beispiel 32 beinhaltet das System des Beispiels 31, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner eine Vokabular-Spracherkennungs-Engine mit einem statistischen Sprachmodell, das an regulärer Sprache und Vulgärsprache enthaltender Sprache trainiert ist.
  • Beispiel 33 beinhaltet das System eines der Beispiele 31 bis 32, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner eine Zeitabgleicheinheit zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom.
  • Beispiel 34 beinhaltet das System eines der Beispiele 31 bis 33, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner eine Zeitabgleicheinheit zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase.
  • Beispiel 35 beinhaltet das System eines der Beispiele 31 bis 34, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner einen Puffer zum Liefern von Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern.
  • Beispiel 36 beinhaltet das System eines der Beispiele 31 bis 35, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst der Spracherkenner einen Ultraniedrigleistung-Audiopuffer.
  • Beispiel 37 beinhaltet das System eines der Beispiele 31 bis 36, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel wird eine detektierte Verzögerung des Audiosignals aufgrund der Übertragung über die Luft als eine Menge an Zeit verwendet, die der Spracherkenner zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet.
  • Beispiel 38 beinhaltet das System eines der Beispiele 31 bis 37, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist der Phrasenverberger ausgelegt zum Überlagern des Audiosignals mit einem anderen Signal als Reaktion auf das Detektieren des Auslösers.
  • Beispiel 39 beinhaltet das System eines der Beispiele 31 bis 38, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist der Phrasenverberger ausgelegt zum Verhindern einer Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms.
  • Beispiel 40 beinhaltet das System eines der Beispiele 31 bis 39, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist der Phrasenverberger ausgelegt zum Erzeugen eines Geräuschs, um den Abschnitt des Audiostroms zu verbergen.
  • Beispiel 41 ist ein System zum Verbergen von Phrasen in Audio. Das System beinhaltet Mittel zum Empfangen einer detektierten Phrase über ein Netzwerk. Die detektierte Phrase basiert auf Audio, das in der Nähe einer Quelle eines Audiostroms erfasst wird. Das System beinhaltet außerdem Mittel zum Erzeugen eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält. Das System beinhaltet ferner Mittel zum Verbergen des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  • Beispiel 42 beinhaltet das System des Beispiels 41, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Mittel zum Erzeugen des Auslösers eine Vokabular-Spracherkennungs-Engine mit einem statistischen Sprachmodell, das an regulärer Sprache und Vulgärsprache enthaltender Sprache trainiert ist.
  • Beispiel 43 beinhaltet das System eines der Beispiele 41 bis 42, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Mittel zum Erzeugen des Auslösers eine Zeitabgleicheinheit zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom.
  • Beispiel 44 beinhaltet das System eines der Beispiele 41 bis 43, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Mittel zum Erzeugen des Auslösers eine Zeitabgleicheinheit zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase.
  • Beispiel 45 beinhaltet das System eines der Beispiele 41 bis 44, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Mittel zum Erzeugen des Auslösers einen Puffer zum Liefern von Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern.
  • Beispiel 46 beinhaltet das System eines der Beispiele 41 bis 45, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel umfasst das Mittel zum Erzeugen des Auslösers einen Ultraniedrigleistung-Audiopuffer.
  • Beispiel 47 beinhaltet das System eines der Beispiele 41 bis 46, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel wird eine detektierte Verzögerung des Audiosignals aufgrund der Übertragung über die Luft als eine Menge an Zeit verwendet, die das Mittel zum Erzeugen des Auslösers zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet.
  • Beispiel 48 beinhaltet das System eines der Beispiele 41 bis 47, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist das Mittel zum Verbergen des Abschnitts des Audiostroms ausgelegt zum Überlagern des Audiosignals mit einem anderen Signal als Reaktion auf das Detektieren des Auslösers.
  • Beispiel 49 beinhaltet das System eines der Beispiele 41 bis 48, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist das Mittel zum Verbergen des Abschnitts des Audiostroms ausgelegt zum Verhindern einer Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms.
  • Beispiel 50 beinhaltet das System eines der Beispiele 41 bis 49, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel ist das Mittel zum Verbergen des Abschnitts des Audiostroms ausgelegt zum Erzeugen eines Geräuschs, um den Abschnitt des Audiostroms zu verbergen.
  • Nicht alle hierin beschriebenen und veranschaulichten Komponenten, Merkmale, Strukturen, Charakteristiken usw. müssen in einem speziellen Aspekt oder Aspekten enthalten sein. Falls die Patentschrift aussagt, dass eine Komponente, ein Merkmal, eine Struktur oder eine Charakteristik enthalten sein „kann“ oder „könnte“, ist nicht erforderlich, dass beispielsweise diese spezielle Komponente, dieses spezielle Merkmal, diese spezielle Struktur oder diese spezielle Charakteristik enthalten ist. Falls sich die Patentschrift oder der Anspruch auf „ein“ Element bezieht, bedeutet dies nicht, dass es nur eines des Elements gibt. Falls sich die Patentschrift oder der Anspruch auf „ein zusätzliches“ Element bezieht, schließt dies nicht aus, dass es mehr als eines des zusätzlichen Elements gibt.
  • Es wird angemerkt, dass, obwohl manche Aspekte mit Bezug auf spezielle Implementierungen beschrieben wurden, andere Implementierungen gemäß manchen Aspekten möglich sind. Zusätzlich muss die Anordnung und/oder Reihenfolge von Schaltungselementen oder anderen Merkmalen, die in den Zeichnungen veranschaulicht und/oder hierin beschrieben sind, nicht in der speziellen veranschaulichten und beschriebenen Weise angeordnet sein. Viele andere Anordnungen sind gemäß manchen Aspekten möglich.
  • In jedem in einer Figur gezeigten System können die Elemente in manchen Fällen jeweils die gleiche Bezugsnummer oder eine andere Bezugsnummer aufweisen, um darauf hinzudeuten, dass die repräsentierten Elemente anders und/oder ähnlich sein könnten. Ein Element kann jedoch flexibel genug sein, um unterschiedliche Implementierungen aufzuweisen und mit manchen oder allen der hierin gezeigten oder beschriebenen Systeme zu arbeiten. Die verschiedenen in den Figuren gezeigten Elemente können die gleichen oder unterschiedlich sein. Welches als ein erstes Element bezeichnet wird und welches ein zweites Element genannt wird, ist willkürlich.
  • Es ist zu verstehen, dass Einzelheiten in den vorstehenden Beispielen an beliebiger Stelle in einem oder mehreren Aspekten verwendet werden können. Beispielsweise können alle optionalen Merkmale der oben beschriebenen Rechenvorrichtung auch mit Bezug auf entweder die Verfahren oder das hierin beschriebene computerlesbare Medium implementiert werden. Obwohl Flussdiagramme und/oder Zustandsdiagramme zum Beschreiben von Aspekten hierin verwendet wurden, sind die Techniken ferner nicht auf diese Diagramme oder entsprechende Beschreibungen hierin beschränkt. Beispielsweise muss ein Fluss nicht durch jeden veranschaulichten Kasten oder Zustand oder in genau der gleichen Reihenfolge wie hierin veranschaulicht und beschrieben laufen.
  • Die vorliegenden Techniken sind nicht auf die speziellen hierin aufgelisteten Einzelheiten beschränkt. In der Tat werden Fachleute, die diese Offenbarung kennen, erkennen, dass viele andere Variationen aus der vorstehenden Beschreibung und den Zeichnungen innerhalb des Schutzumfangs der vorliegenden Techniken vorgenommen werden können. Dementsprechend definieren die folgenden Ansprüche, einschließlich jeglicher Abänderungen an diesen, den Schutzumfang der vorliegenden Techniken.

Claims (25)

  1. Einrichtung zum Verbergen von Phrasen in Audio, umfassend: einen Empfänger zum Empfangen einer detektierten Phrase über ein Netzwerk, wobei die detektierte Phrase auf Audio basiert, das in der Nähe einer Quelle eines Audiostroms erfasst wird; einen Spracherkenner zum Erzeugen eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält; und einen Phrasenverberger zum Verbergen des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  2. Einrichtung nach Anspruch 1, wobei der Spracherkenner eine Vokabular-Spracherkennungs-Engine mit einem statistischen Sprachmodell umfasst, das an regulärer Sprache und Vulgärsprache enthaltender Sprache trainiert ist.
  3. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-2, wobei der Spracherkenner eine Zeitabgleicheinheit zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom umfasst.
  4. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-3, wobei der Spracherkenner eine Zeitabgleicheinheit zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase umfasst.
  5. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-4, wobei der Spracherkenner einen Puffer zum Liefern von Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern umfasst.
  6. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-5, wobei der Spracherkenner einen Ultraniedrigleistung-Audiopuffer umfasst.
  7. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-6, wobei eine detektierte Verzögerung des Audiosignals aufgrund der Übertragung über die Luft als eine Menge an Zeit verwendet wird, die der Spracherkenner zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet.
  8. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-7, wobei der Phrasenverberger ausgelegt ist zum Überlagern des Audiosignals mit einem anderen Signal als Reaktion auf das Detektieren des Auslösers.
  9. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-8, wobei der Phrasenverberger ausgelegt ist zum Verhindern einer Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms.
  10. Einrichtung nach einer beliebigen Kombination der Ansprüche 1-9, wobei der Phrasenverberger ausgelegt ist zum Erzeugen eines Geräuschs, um den Abschnitt des Audiostroms zu verbergen.
  11. Verfahren zum Verbergen von Phrasen in Audio, umfassend: Empfangen, über einen Prozessor, einer detektierten Phrase über ein Netzwerk, wobei die detektierte Phrase auf Audio basiert, das in der Nähe einer Quelle eines Audiostroms erfasst wird; Erzeugen, über den Prozessor, eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält; und Verbergen, über den Prozessor, des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  12. Verfahren nach Anspruch 11, wobei die detektierte Phrase eine Wahrscheinlichkeit dafür, dass sie eine Zielphrase ist, aufweist, die eine Schwelle überschreitet.
  13. Verfahren nach einer beliebigen Kombination der Ansprüche 11-12, wobei das Erzeugen des Auslösers Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom umfasst.
  14. Verfahren nach einer beliebigen Kombination der Ansprüche 11-13, wobei das Erzeugen des Auslösers Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase umfasst.
  15. Verfahren nach einer beliebigen Kombination der Ansprüche 11-14, wobei das Detektieren, dass der Abschnitt des Audiostroms die bestätigte Phrase enthält, Verarbeiten von Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern umfasst.
  16. Verfahren nach einer beliebigen Kombination der Ansprüche 11-15, umfassend Detektieren einer Verzögerung des Audiosignals aufgrund der Übertragung über die Luft und Verwenden der Verzögerung als eine Menge an Zeit, die zum Empfangen der detektierten Phrase und Bestätigen der detektierten Phrase relativ zu einem Anfang der detektierten Phrase verwendet wird.
  17. Verfahren nach einer beliebigen Kombination der Ansprüche 11-16, wobei das Verbergen des Abschnitts des Audiostroms Überlagern des Audiosignals mit einem anderen Signal als Reaktion auf das Detektieren des Auslösers umfasst.
  18. Verfahren nach einer beliebigen Kombination der Ansprüche 11-17, wobei das Verbergen des Abschnitts des Audiostroms Verhindern einer Detektion der Phrase an einer Vorrichtung durch Verbergen des Abschnitts des Audiostroms umfasst.
  19. Verfahren nach einer beliebigen Kombination der Ansprüche 11-18, wobei das Verbergen des Abschnitts des Audiostroms Verhindern einer Detektion der Phrase an einer Vorrichtung durch Deaktivieren der Detektion der Phrase an der Vorrichtung während des Abschnitts des Audios umfasst.
  20. Verfahren nach einer beliebigen Kombination der Ansprüche 11-19, wobei das Verbergen des Abschnitts des Audiostroms Erzeugen eines Geräuschs umfasst, um den Abschnitt des Audiostroms zu verbergen.
  21. System zum Verbergen von Phrasen in Audio, umfassend: Mittel zum Empfangen einer detektierten Phrase über ein Netzwerk, wobei die detektierte Phrase auf Audio basiert, das in der Nähe einer Quelle eines Audiostroms erfasst wird; Mittel zum Erzeugen eines Auslösers als Reaktion auf das Detektieren, dass ein Abschnitt des Audiostroms eine bestätigte Phrase enthält; und Mittel zum Verbergen des Abschnitts des Audiostroms als Reaktion auf den Auslöser.
  22. System nach Anspruch 21, wobei das Mittel zum Erzeugen des Auslösers eine Vokabular-Spracherkennungs-Engine mit einem statistischen Sprachmodell umfasst, das an regulärer Sprache und Vulgärsprache enthaltender Sprache trainiert ist.
  23. System nach einer beliebigen Kombination der Ansprüche 21-22, wobei das Mittel zum Erzeugen des Auslösers eine Zeitabgleicheinheit zum Detektieren einer präzisen Anfangs- und Endzeit der detektierten Phrase in dem Audiostrom umfasst.
  24. System nach einer beliebigen Kombination der Ansprüche 21-23, wobei das Mittel zum Erzeugen des Auslösers eine Zeitabgleicheinheit zum Berechnen von Phonem-Verbänden und Bestimmen eines Audiorahmens eines ersten Phonems und eines letzten Phonems der detektierten Phrase umfasst.
  25. System nach einer beliebigen Kombination der Ansprüche 21-24, wobei das Mittel zum Erzeugen des Auslösers einen Puffer zum Liefern von Audiokontext aus vor der detektierten Phrase gesprochenen Wörtern umfasst.
DE102020130041.7A 2019-11-14 2020-11-13 Verbergen von phrasen in über luft laufendem audio Pending DE102020130041A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/683,686 2019-11-14
US16/683,686 US20200082837A1 (en) 2019-11-14 2019-11-14 Concealing phrases in audio traveling over air

Publications (1)

Publication Number Publication Date
DE102020130041A1 true DE102020130041A1 (de) 2021-05-20

Family

ID=69719582

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020130041.7A Pending DE102020130041A1 (de) 2019-11-14 2020-11-13 Verbergen von phrasen in über luft laufendem audio

Country Status (2)

Country Link
US (1) US20200082837A1 (de)
DE (1) DE102020130041A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232787B2 (en) * 2020-02-13 2022-01-25 Avid Technology, Inc Media composition with phonetic matching and waveform alignment
CN112466297B (zh) * 2020-11-19 2022-09-30 重庆兆光科技股份有限公司 一种基于时域卷积编解码网络的语音识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7292986B1 (en) * 1999-10-20 2007-11-06 Microsoft Corporation Method and apparatus for displaying speech recognition progress
US7437290B2 (en) * 2004-10-28 2008-10-14 Microsoft Corporation Automatic censorship of audio data for broadcast
US8571534B1 (en) * 2010-09-13 2013-10-29 Sprint Spectrum L.P. Systems and methods of filtering an audio speech stream
US10720139B2 (en) * 2017-02-06 2020-07-21 Silencer Devices, LLC. Noise cancellation using segmented, frequency-dependent phase cancellation
US10687145B1 (en) * 2019-07-10 2020-06-16 Jeffery R. Campbell Theater noise canceling headphones

Also Published As

Publication number Publication date
US20200082837A1 (en) 2020-03-12

Similar Documents

Publication Publication Date Title
DE102019112380B4 (de) Verfahren und System zur robusten Sprechererkennungsaktivierung
DE102019122180B4 (de) Verfahren und system zur schlüsselausdruckserkennung auf der grundlage eines neuronalen netzes
DE112017003563B4 (de) Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen
DE102018010463B3 (de) Tragbare Vorrichtung, computerlesbares Speicherungsmedium, Verfahren und Einrichtung für energieeffiziente und leistungsarme verteilte automatische Spracherkennung
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE102018126133A1 (de) Generieren von Dialog auf Basis von Verifikationswerten
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE202017105669U1 (de) Modalitätslernen an mobilen Vorrichtungen
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
DE112016000287T5 (de) Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
DE112018006101T5 (de) Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem
DE102020202489A1 (de) Verfahren und system zur sehr genauen schlüsselausdruckserkennung für vorrichtung mit geringen ressourcen
DE102020130041A1 (de) Verbergen von phrasen in über luft laufendem audio
DE112020002858T5 (de) Synchronisierte tonerzeugung aus videos
DE10111056A1 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
DE112020002531T5 (de) Emotionsdetektion unter verwendung der sprechergrundlinie
DE102019104304B4 (de) Dynamische Anpassung von Sprachverständnissystemen an akustische Umgebungen
DE102019109148A1 (de) Wake-on-voice-schlüsselphrasensegmentierung
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
CN112399269B (zh) 视频分割方法、装置、设备及存储介质
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE102018131935A1 (de) Time-Capsule-basierte Sprechhilfe
DE112013000760T5 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
DE102018131713A1 (de) Routing von Audioströmen basierend auf semantisch erzeugten Ergebnismengen