DE69430082T2 - Verfahren und Vorrichtung zur Sprachdetektion - Google Patents
Verfahren und Vorrichtung zur SprachdetektionInfo
- Publication number
- DE69430082T2 DE69430082T2 DE69430082T DE69430082T DE69430082T2 DE 69430082 T2 DE69430082 T2 DE 69430082T2 DE 69430082 T DE69430082 T DE 69430082T DE 69430082 T DE69430082 T DE 69430082T DE 69430082 T2 DE69430082 T2 DE 69430082T2
- Authority
- DE
- Germany
- Prior art keywords
- phoneme
- speech
- arrangement
- audio signal
- specific period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 78
- 238000000034 method Methods 0.000 title claims description 53
- 230000005236 sound signal Effects 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrically Operated Instructional Devices (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf eine Vorrichtung zur Sprach- Detektion zur Entscheidung, ob es sich bei einem eingegebenen Signal um Sprache oder Nicht-Sprache handelt, und zwar unter geräuschvollen Bedingungen in einer Umgebung des realen Lebens, die Sprache mit verschiedenen stationären und/oder nicht-stationären Geräuschen enthält. Insbesondere bezieht die vorliegende Erfindung sich auf ein Verfahren zur Sprach- Detektion und eine Vorrichtung zur Sprach-Detektion, die zur Feststellung einer Zeitspanne, in der gesprochen wird, in einem Videokonferenzsystem, einem Audiowiedergabesystem für Fernseh- oder Audiogeräte, einem Spracherkennungssystem oder ähnlichen Systemen eingesetzt wird.
- In letzter Zeit wurden digitale Signalverarbeitungstechniken in weitem Umfang auf verschiedenen Gebieten von elektrischen Geräten eingesetzt. Auf dem Gebiet der Datenübertragungsgeräte sind beispielsweise nun eine Technik und eine Vorrichtung zur Übertragung von Bilddaten sowie Sprachdaten in Entwicklung, wodurch eine Kommunikation mit einem Präsenzgefühl durchgeführt wird. Videophone und Videokonferenzsysteme sind typische Beispiele der Anwendungen solcher Techniken, wobei ein Fernsehschirm eine bedeutende Rolle spielt. Insbesondere ein Videokonferenzsystem, bei dem viele Leute Unterhaltungen haben können, erfordert eine Technik zum korrekten Beantworten der Stimme eines Sprechers und zur geeigneten Änderung des Fernsehschirms, um auf diese Weise den momentanen Sprecher klarzustellen.
- Weiterhin sind bei dem Audiowiedergabesystem eines Fernseh- oder Audiogerätes Techniken in der Entwicklung, um einen Nachhall und/oder eine Reflexion zu einem wiedergegebenen Schall hinzuzufügen, so dass ein Zuhörer ein Präsenzgefühl genießen kann. Wenn ein Breitbandsignal oder ein Stereosignal mit Musik-Schall oder ähnlichen Effekten wiedergegeben wird, können künstliche Klänge, wie beispielsweise ein Nachhallklang oder ein Reflexionsklang zu dem Signal hinzugefügt werden, um so einen erwünschten Effekt zu ergeben. Wenn jedoch ein Sprachsignal oder monoaurales Signal wiedergegeben wird, ergeben diese künstlichen Klänge nicht notwendiger Weise den gewünschten Effekt. In einigen Fällen kann das Artikulationsergebnis des Signals verschlechtert werden. Um eine effektive Audiowiedergabe durchzuführen, indem die künstlichen Töne nur zu Nicht-Sprachsignalen, wie beispielweise einem Musiksignal hinzugefügt werden, ist es dementsprechend notwendig festzustellen, ob es sich bei dem eingegebenen Audiosignal um ein Sprachsignal oder um ein Nicht-Sprachsignal handelt.
- Darüber hinaus kann in dem System zur Durchführung einer Spracherkennung oder eines ähnlichen Vorgangs in dem Fall, dass Geräusche, bei denen es sich nicht um Sprache handelt, eingegeben und fehlerhafter Weise als Sprache bewertet werden, eine fehlerhafte Erkennung verursacht werden. Dementsprechend erfordert ein solches System eine Spracherkennungsvorrichtung, die korrekt entscheiden kann, ob es sich bei einem eingegebenen Signal um ein Sprachsignal handelt oder nicht.
- Die Spracherkennung wird in der Hauptsache basierend auf der Stärke des eingegebenen Signals durchgeführt; ein Bereich, der einen Stärkewert hat, der größer als ein vorher bestimmter Schwellenwert ist, wird als Sprachsignal beurteilt. Aufgrund der sehr einfachen Verarbeitung wird dieses Verfahren sehr häufig eingesetzt. In einer lebensechten Umgebung mit verschiedenen Geräuschen kann jedoch ein Nicht-Sprache-Ton mit einer Stärke, die größer als der Schwellenwert ist, mit hoher Wahrscheinlichkeit eingegeben werden.
- Dementsprechend kann die Spracherkennung, die auf dem einzigen Merkmal der Stärke basiert, oft zu einer irrtümlichen Entscheidung führen.
- Es sind verschiedene Verfahren vorgeschlagen worden, um eine Entscheidung darüber zu fällen, ob es sich bei dem eingegebenen Signal um Sprache oder Nicht-Sprache handelt, indem eine Vielzahl von Parametern (charakteristische Größen) verwendet werden, die - neben der Stärke - Spracheigenschaften angeben. Ein solches Verfahren wird beispielsweise in dem Artikel von H. Kobatake, K. Tawa, A. Ishisda mit dem Titel "Sprachen/Nicht- Sprachen-Diskriminierung für ein Spracherkennungssystem unter den Geräuschbedingungen des realen Lebens" (Speech/Nonspeech Discrimination for Speech Recognition System Under Real Life Noise Environments), veröffentlicht in Proc. ICASSP, 89, 365-356 (1989) beschrieben. Für Sprachen/Nichtsprachen-Diskriminierung in einer Umgebung des realen Lebens verwendet dieses Verfahren akustische Parameter, die effektiv für die Unterscheidung zwischen Sprachtönen und verschiedenen, nicht-stationären Geräuschen sind, die in einem Labor oder einem Büro im täglichen Leben auftreten. Speziell wird diese Sprachen/Nichtsprachen-Diskriminierung unter Verwendung eines Bereiches durchgeführt, der in einem Teil eines Sprachsignals mit hoher Stärke als ein Vokal angesehen wird, und zwar basierend auf dem Besetzungsverhältnis der Vokalbereiche zu dem Teil mit hoher Stärke des Sprachsignals. Bei der Unterscheidung zwischen Sprache/Nichtsprache werden fünf Audioparameter eingesetzt, d.h. Periodizität, Tonhöhenfrequenz (pitch freequency), optimale Ordnung der linearen Voraussage, Abstand zwischen Vokalen und Schärfe der Formanten. Ein oberer oder unterer Schwellenwert wird für jeden der Parameter eingestellt. Dann werden die fünf Parameter aus einem eingegebenen Signal abgeleitet, und die Unterscheidung Sprache/Nichtsprache wird, basierend auf der Beziehung zwischen den abgeleiteten Parametern und dem eingestellten oberen oder unteren Schwellenwert, durchgeführt. Wegen des sehr komplizierten Berechnungsprozesses für die Ableitung der Parameter und für den Vergleich jeder von ihnen mit dem oberen oder unteren Schwellenwert ist jedoch dieses Verfahren sehr zeitaufwendig und hat Nachteile als ein in der Praxis einzusetzendes Verfahren. Außerdem wird dieses Verfahren stark durch Änderungen bzw. Schwankungen der Parameter beeinflusst, die durch die Hinzufügung von stationären Geräuschen oder ähnlichen Einflüssen verursacht werden.
- Obwohl es sich nicht um ein Verfahren für die Unterscheidung Sprache/Nichtsprache (Geräusche) handelt, ist weiterhin ein Verfahren für die Entscheidung Sprache mit Stimmen/Sprache ohne Stimmen (voiced/unvoiced speech) vorgeschlagen worden. Beispielsweise wird ein solches Verfahren in dem Artikel von B.S. Atal und L.R. Rabiner mit dem Titel "Ein Mustererkennungsansatz für eine Klassifikation Stimmen/keine Stimmen/Stille mit Anwendung auf Spracherkennung" (A Pattern Recognition Approach to Voiced-Unvoiced-Silence Classification with Appliation to Speech Recognition") veröffentlicht in IEEE Trans. Acoust., Speech, Signal Processing, ASSP- 24-3 (1976) beschrieben worden. Bei diesem Verfahren werden fünf Parameter eingesetzt, und zwar der Logarithmus der Energie des Signals, die Nulldurchgangsrate des Signals, die Auto-Korrelations-Koeffizienten bei Abtasteinheitverzögerung, der erste Prädiktor-Koeffizient und der Logarithmus der Energie des Prädiktionsfehlers. Eine normale Verteilung wird für jeden der Parameter angenommen, und die Unterscheidung Stimmen/keine Stimmen/Stille wird unter Verwendung von gleichzeitigen bzw. simultanen Wahrscheinlichkeiten durchgeführt. Die Unterscheidung ist jedoch nicht korrekt für stationäre Geräusche oder Geräusche, deren Energie im niederfrequenten Bereich dominiert, obwohl sie effektiv ist für Geräusche, deren Energie im hochfrequenten Bereich dominiert.
- Eine Vorrichtung zur Sprach-Detektion gemäß der vorliegenden Erfindung weist auf: Eine Anordnung zur Erzeugung eines Bezugsmodells zum Extrahieren einer Vielzahl von Parametern für die Sprach-Detektion aus Trainingsdaten und Bilden eines Bezugsmodells, basierend auf den Parametern; eine Anordnung zum Extrahieren von Parametern zum Extrahieren der Vielzahl von Parametern aus jedem Rahmen bzw. Frame eines eingegebenen Audiosignals; und eine Entscheidungsanordnung zum Entscheiden, ob es sich bei dem Audiosignal um Sprache handelt oder nicht, durch Vergleich der aus dem eingegebenen Audiosignal extrahierten Parameter mit dem Bezugsmodell. Die Anordnung zur Erzeugung des Bezugsmodells bildet das Bezugsmodell für jedes Phonem, und die Entscheidungsanordnung weist auf: Eine Ähnlichkeits-Berechnungsanordnung zum Vergleich der aus jedem Frame des eingegebenen Audiosignals extrahierten Parameter mit dem Bezugsmodell und zur Berechnung der Ähnlichkeit des Frames in Bezug auf das Bezugsmodell; eine Phonem-Entscheidungsanordnung zum Entscheiden bzw. Festlegen eines Phonems jedes Frames des eingegebenen Audiosignals, basierend auf der für jedes Phonem berechneten Ähnlichkeit; und eine Endentscheidungsanordnung zur Entscheidung, ob es sich bei einer spezifischen Periode des eingegebenen Audiosignals einschließlich einer Vielzahl von Frames um Sprache handelt oder nicht, und zwar basierend auf dem Ergebnis der Phonem-Entscheidung.
- Nach einer Ausführungsform der Erfindung bildet die Anordnung zur Erzeugung des Bezugsmodells ein Bezugsmuster durch Berechnung eines Mittelwertes und einer Kovarianz-Matrix der Vielzahl von Parametern für jedes Phonem.
- Nach einer weiteren Ausführungsform der Erfindung wird die Vielzahl der Parameter aus der Gruppe ausgewählt, die aus dem ersten Auto- Korrelationskoeffizienten und Auto-Korrelationskoeffizienten höherer Ordnung, dem ersten PARCOR Koeffizient und den PARCOR Koeffizienten höherer Ordnung, dem ersten Melcepstrum-Koeffizient und den Melcupstrum- Koeffizienten höherer Ordnung und dem ersten LSP Koeffizienten und den LSP Koeffizienten höherer Ordnung besteht.
- Nach einer weiteren Ausführungsform der Erfindung enthält die Anordnung zum Extrahieren der Parameter eine Berechnungs-Anordnung für die Auto- Korrelationskoeffizienten zur Ableitung der Auto-Korrelationskoeffizienten in einer Vielzahl von Ordnungen und eine Berechnungsanordnung für die Cepstrum-Koeffizienten für die Ableitung der Cepstrum-Koeffizienten einer Vielzahl von Ordnungen.
- Nach einer weiteren Ausführungsform der Erfindung berechnet die Berechnungsanordnung für die Auto-Korrelationskoeffizienten den ersten und den siebten Auto-Korrelationskoeffizienten und die Berechnungsanordnung für den Cepstrum-Koeffizienten den ersten und dritten Cepstrom-Koeffizienten.
- Nach einer weiteren Ausführungsform der Erfindung ist die Ähnlichkeit der statistische Abstand zwischen den Parametern, die aus dem eingegebenen Audiosignal und dem Bezugsmodell bzw. dem interdigitalen Wandler des Bezugsmodells extrahiert werden.
- Nach einer weiteren Ausführungsform der Erfindung ist der statistische Abstand der Logarithmus der Mutmaßlichkeit/Wahrscheinlichkeit/Likelihood (Log Likelihood).
- Nach einer weiteren Ausführungsform der Erfindung berechnet die Phonem- Entscheidungsanordnung die gemittelte Likelihood durch Mittelwertbildung des Logarithmus der Likelihood jedes Frames, die von der Likelihood- Berechnungsanordnung berechnet wird, in Bezug auf eine Vielzahl von aufeinanderfolgenden Frames einschließlich einem Target-Frame für die Phonem-Detektion und stellt ein Phonem, basierend auf der gemittelten Likelihood fest.
- Nach einer weiteren Ausführungsform der Erfindung enthält die Anordnung zur Extraktion von Parametern weiterhin eine Potenz- bzw. Stärke (power)- Berechnungsanordnung zur Berechnung der Stärke bzw. Potenz jedes Frames, wobei die spezifische Periode des Audiosignals eine Periode mit einer Stärke ist, die gleich oder größer als ein vorher bestimmter Wert ist.
- Nach einer weiteren Ausführungsform der Erfindung ist das Phonem ein Vokal, und die Endentscheidungsanordnung weist auf: Eine Zählanordnung zum Zählen der Zahl der Frames, die durch die Phonem- Entscheidungsanordnung in der spezifischen Periode als ein Vokal festgestellt werden; eine Berechnungsanordnung zur Berechnung des Verhältnisses der durch die Zählanordnung gezählten Zahl zu der Zahl der in der spezifischen Periode enthaltenen Gesamt-Frames, und eine Beurteilungsanordnung zur Entscheidung, ob die spezifische Periode des eingegebenen Signals Sprache ist oder nicht, basierend auf dem von der Berechnungsanordnung berechneten Verhältnis.
- Nach einer weiteren Ausführungsform der Erfindung ist das Phonem ein Konsonant, und die Endentscheidungsanordnung weist auf: Eine Zählanordnung zum Zählen der Zahl der Frames, die durch die Phonem- Entscheidungsanordnung in der spezifischen Periode als ein Konsonant festgestellt werden; eine Berechnungsanordnung zur Berechnung des Verhältnisses der Zahl, die von der Zählanordnung gezählt wird, zu der Zahl der Gesamt-Frames, die in der spezifischen Periode enthalten sind; und eine Beurteilungsanordnung zur Entscheidung, ob die spezifische Periode des eingegebenen Signals Sprache ist oder nicht, basierend auf dem von der Berechnungsanordnung berechneten Verhältnis.
- Nach einer weiteren Ausführungsform der Erfindung weist die Endentscheidungsanordnung auf: Eine Klassifizierungsanordnung zur Klassifizierung der Phoneme, die gemäß der Entscheidung durch die Phonem- Entscheidungsanordnung in eine erste Phonem-Gruppe und eine zweite Phonem-Gruppe fallen; eine Zählanordnung zum Zählen einer ersten Zahl von Frames, die in die erste Phonem-Gruppe klassifiziert werden, und eine einer zweiten Zahl von Frames, die in die zweite Phonem-Gruppe klassifiziert werden, während der spezifischen Periode des eingegebenen Audiosignals; eine Berechnungsanordnung zum Berechnen eines ersten Verhältnisses der ersten Zahl in Bezug auf die Zahl der in der spezifischen Periode enthaltenen Fraumes und eines zweiten Verhältnisses der zweiten Zahl in Bezug auf die Zahl der in der spezifischen Periode enthaltenen Frames; und einer Beurteilungsanordnung zur Beurteilung, ob die spezifische Periode Sprache ist oder nicht unter Verwendung einer Fuzzy-Plausibilität, basierend auf dem ersten und dem zweiten Verhältnis.
- Ein Verfahren zur Sprach-Detektion gemäß der vorliegenden Erfindung enthält die Schritte:
- (a) Extrahieren einer Vielzahl von Parametern für eine Sprach-Detektion aus Trainingsdaten und für die Bildung eines Bezugsmodells, basierend auf den Parametern;
- (b) Extrahieren der Vielzahl der Parameter aus jedem Rahmen bzw. Frame eines eingegebenen Audiosignals;
- (c) Entscheiden, ob das eingegebene Audiosignal Sprache ist oder nicht, durch Vergleich der aus dem eingegebenen Audiosignal extrahierten Parameter mit dem Bezugsmodell, die Schritte (a) und (b) werden für jedes Phonem jeweils vorgebildet, und der Schritt (c) enthält die Schritte:
- (d) Vergleich der Parameter, die aus jedem Frame des eingegebenen Audiosignals extrahiert werden, mit dem Bezugsmodell und Berechnen der Ähnlichkeit jedes Frames in Bezug auf das Bezugsmodell;
- (e) Entscheiden eines Phonems jedes Frames des eingegebenen Audiosignals, basierend auf der für jedes Phonem berechneten Ähnlichkeit; und
- (f) Entscheiden, ob eine spezifische Periode des eingegebenen Audiosignals, das eine Vielzahl von Frames enthält, Sprache ist oder nicht, basierend auf dem Ergebnis der Phonem-Entscheidung in Schritt (e).
- Nach einer Ausführungsform der Erfindung enthält der Schritt (a) den Schritt, ein Bezugsmuster durch Berechnung eines mittleren Wertes und einer Kovarianz-Matrix der Vielzahl von Parametern zu bilden.
- Nach einer weiteren Ausführungsform der Erfindung werden die Parameter, die in den Schritten verwendet werden, aus der Gruppe ausgewählt, die aus dem ersten Auto-Korrelationskoeffizient und den Auto-Korrelationskoeffizienten höherer Ordnung, dem ersten PARCOR Koeffizient und den PARCOR Koeffizienten höherer Ordnung, dem ersten Melcepstrum- Koeffizient und den Melcepstrum-Koeffizienten höherer Ordnung und dem ersten LSP Koeffizient und den LSP Koeffizienten höherer Ordnung besteht.
- Nach einer weiteren Ausführungsform der Erfindung enthält der Schritt (b) die Schritte der Ableitung der Auto-Korrelationskoeffizienten in einer Vielzahl von Ordnungen und die Ableitung der Cepstrum-Koeffizienten in einer Vielzahl von Ordnungen.
- Nach einer weiteren Ausführungsform der Erfindung werden im Schritt (b) der erste und siebte Auto-Korrelationskoeffizient und der erste und der dritte Cepstrum-Koeffizient abgeleitet.
- Nach einer weiteren Ausführungsform der Erfindung ist im Schritt (d) die Ähnlichkeit der statistische Abstand zwischen den Parametern, die aus dem eingegebenen Audiosignal und dem Bezugsmodell extrahiert werden.
- Nach einer weiteren Ausführungsform der Erfindung ist der statistische Abstand der Logarithmus der Mutmaßlichkeit bzw. Likelihood (Log Likelihood).
- Nach einer weiteren Ausführungsform der Erfindung enthält der Schritt (e) die Schritte der Berechnung einer gemittelten Likelihood durch Bildung des Mittelwertes des Log Likelihood jedes Frames, der in Schritt (d) berechnet wird, in Bezug auf eine Vielzahl von aufeinanderfolgenden Frames einschließlich eines Ziel-Frames für jede Phonem-Feststellung und der Feststellung eines Phonems, basierend auf der gemittelten Likelihood.
- Nach einer weiteren Ausführungsform der Erfindung enthält der Schritt (b) den Schritt der Berechnung der Stärke bzw. Potenz (power) für jeden Frame. Der Schritt (f) enthält die Schritte: Vergleich der Stärke jedes Frames mit einem vorherbestimmten Wert; und Identifizieren einer Periode des eingegebenen Audiosignals, basierend auf der Zahl der Frames mit einer Stärke, die gleich dem oder höher als ein vorherbestimmter Wert ist, als die spezifische Periode des eingegebenen Audiosignals.
- Nach einer weiteren Ausführungsform der Erfindung enthält der Schritt (e) den Schritt (e1), der eine Entscheidung über einen Vokal jedes Frames des eingegebenen Audiosignals fällt, wobei der Schritt (f) die Schritte aufweist:
- (f1) Zählen der Zahl der Frames, die in der spezifischen Periode des eingegebenen Audiosignals im Schritt (e1) als Vokal festgestellt werden;
- (f2) Berechnen des Verhältnisses der Zahl, die im Schritt (f1) gezählt wird, zu der Zahl der Gesamt-Frames, die in der spezifischen Periode des eingegebenen Audiosignals enthalten sind, und
- (f3) Beurteilen, ob die spezifische Periode des eingegebenen Signals Sprache ist oder nicht, basierend auf dem im Schritt (f2) berechneten Verhältnis.
- Nach einer weiteren Ausführungsform der Erfindung enthält der Schritt (e) den Schritt (e1), der eine Entscheidung über einen Konsonanten jedes Frames des eingegebenen Audiosignals fällt, und wobei der Schritt (f) die Schritte aufweist:
- (f1) Zählen der Zahl der Frames, die in der spezifischen Periode des eingegebenen Audiosignals im Schritt (e1) als ein Konsonant festgestellt werden,
- (f2) Berechnen des Verhältnisses der Zahl, die im Schritt (f1) gezählt wird, zu der Zahl der Gesamt-Frames, die in der spezifischen Periode des eingegebenen Audiosignals enthalten sind, und
- (f3) Beurteilen, ob die spezifische Periode des Eingangssignals Sprache ist oder nicht, basierend auf dem im Schritt (f2) berechneten Verhältnis.
- Nach einer weiteren Ausführungsform der Erfindung enthält der Schritt (f) die Schritte:
- (g) Klassifizieren der Phoneme, die im Schritt (e) festgestellt bzw. entschieden werden, in eine erste und eine zweite Phonem-Gruppe;
- (h1) Zählen einer ersten Zahl von Frames, die in die erste Phonem-Gruppe klassifiziert werden,
- (h2) Zählen einer zweiten Zahl von Frames, die in der spezifischen Periode des eingegebenen Audiosignals in die zweite Phonem-Gruppe klassifiziert werden,
- (i1) Berechnen eines ersten Verhältnisses der ersten Zahl in Bezug auf die Zahl der Frames, die in der spezifischen Periode enthalten sind,
- (i2) Berechnen eines zweiten Verhältnisses der zweiten Zahl in Bezug auf die Zahl von Frames, die in der spezifischen Periode enthalten sind, und
- (j) Beurteilen, ob die spezifische Periode Sprache ist oder nicht, unter Verwendung einer Fuzzy-Plausibilität bzw. -Technik, basierend auf dem ersten und dem zweiten Verhältnis.
- Damit macht die hier beschriebene Erfindung die Vorteile möglich: (1) Schaffen eines Verfahrens und einer Vorrichtung zur genauen Durchführung einer Sprach-Detektion mit einer einfachen Konstruktion unter Verwendung eines statistischen Verfahrens, basierend auf den Parametern, die für die Feststellung von Phonemen, wie beispielsweise einem Vokal, und einem Reibelaut, der in der Sprache enthalten ist, und (2) Schaffen eines Verfahrens und einer Vorrichtung zur genauen Durchführung von Sprach-Detektion und Verhindern einer irrtümlichen Entscheidung, und zwar sogar dann, wenn der Sprache stationäre Geräusche oder Geräusche hinzugefügt werden, deren Energie im niederfrequenten Bereich dominiert.
- Diese und andere Vorteile der vorliegenden Erfindung werden dem Fachmann auf diesem Gebiet beim Lesen und Verstehen der folgenden detaillierten Beschreibung unter Bezugnahme auf die beiliegenden Figuren verständlich.
- Fig. 1 ist ein Blockdiagramm, das den Aufbau einer Vorrichtung zur Sprach-Detektion nach einem ersten Beispiel zeigt.
- Fig. 2 ist ein Blockdiagramm, das schematisch die Verarbeitung in einer Anordnung zum Extrahieren von Parametern der Vorrichtung zur Sprach-Detektion des ersten Beispiels der Erfindung darstellt.
- Fig. 3A und EB sind Flussdiagramme, die jeweils schematisch die Verarbeitung in einer Phonem-Entscheidungseinheit der Vorrichtung zur Sprach-Detektion nach dem ersten Beispiel der Erfindung zeigt.
- Fig. 4 ist ein Flussdiagramm, das schematisch das Entscheidungsverfahren darstellt, das in einer Endentscheidungseinheit des ersten Beispiels der Erfindung verwendet wird.
- Fig. 5 ist eine graphische Darstellung, die die Beziehung zwischen einer Sprach-Detektions-Rate und einer Geräuschdetektions- Fehlerrate zeigt, wenn die Länge eines Vokal-Segmentes variiert wird.
- Fig. 6 ist eine graphische Darstellung, die die Beziehung zwischen einer Sprach-Detektions-Rate und einem Geräusch-Detektions- Fehlerrate zeigt, wenn das Verhältnis Signal/Rauschen variiert wird.
- Fig. 7 ist ein Blockdiagramm, das den gesamten Aufbau einer Vorrichtung zur Sprach-Detektion nach einem zweiten Beispiel der Erfindung zeigt.
- Fig. 8A und 8B sind Kurvendarstellungen, die jeweils die Verarbeitung in einer Fuzzy-Entscheidungseinheit zeigen.
- Fig. 9 ist ein Diagramm, das die Mitgliedschafts-Funktionen A11 bis A41 für eine Vokalgruppe darstellt.
- Fig. 10 ist ein Diagramm, das die Mitgliedschafts-Funktionen A12 bis A42 für eine Reibelautgruppe zeigt.
- Nun wird Beispiel 1 der vorliegenden Erfindung beschrieben werden.
- Zunächst wird im Folgenden der Umriss bzw. der grobe Aufbau eines Sprach-Detektionsverfahren nach dem Beispiel 1 beschrieben werden.
- Gemäß Beispiel 1 wird zu Beginn ein Bezugsmodell jedes Vokals, basierend auf Trainingsdaten gemacht. Bei der Bildung des Vokalbezugsmodells werden verschiedene Parameter aus jedem Rahmen bzw. Frame der Trainingsdaten extrahiert, um einen mittleren Wert und eine Kovarianz-Matrix jedes der Parameter zu berechnen. Als nächstes werden diese Parameter aus jedem Frame eines eingegebenen Signals extrahiert, das der Entscheidung Sprache/Nichtsprache unterworfen werden soll. Die extrahierten Parameter werden mit dem Vokalbezugsmodell verglichen, um eine Ähnlichkeit (ein Maß für den statistischen Abstand) zu berechnen. Dann wird eine über die Frames gemittele Ähnlichkeit für jeden Vokal berechnet, basierend auf den Ähnlichkeiten für ein Frame, der der Entscheidung Sprache/Nichtsprache unterworfen werden soll (d.h., ein Ziel-Frame) sowie mehreren vorhergehenden und nachfolgenden Frames, wodurch entschieden wird, ob die Frames des eingegebenen Signals irgendwelche Vokale sind oder nicht. Für einen spezifischen Block in dem eingegebenen Signal (eine Periode für einen Sprach-Kandidaten) wird weiterhin die Zahl der Frames, die dahingehend bewertet wurden, dass sie einer der Vokale sind, mit einem vorherbestimmten Schwellenwert verglichen, um so zu entscheiden, ob es sich bei der Periode für den Sprach-Kandidaten um ein Sprachsignal handelt oder nicht.
- Hierbei können die oben erwähnten Parameter aus den Auto- Korrelationskoeffizienten, den Cepstrum-Koeffizienten, den PARCOR (für partial auto-correlation, also teilweise Autokorrelation) Koeffizienten, die Melcepstrum-Koeffizienten, LSP (für line spectrum pair, also Zeilenspektrum- Paar) Koeffizienten und Parametern, die durch FFT (für fast Fourier transform, also schnelle Fourier Transformation) und andere Sprachanalysen etc. ausgewählt werden. Beispiel 1 verwendet die Auto-Korrelationskoeffizienten und die Cepstrum-Koeffizienten. Das Verfahren zum Erhalt dieser Parameter wird hier nicht im Detail beschrieben, da dieses Verfahren wohl bekannt und beispielsweise in der folgenden Literatur erläutert wird: Für die LSP Koeffizienten, siehe den Artikel von F.K. Soong, B.H. Juang "Zeilenspektrumpaar (LSP für line spectrum pair) und Sprachdaten-Kompression "(Light Spectrum Pair LSP and Speech Data Compression"), veröffentlicht in Proc. ICASSP, 84, pp.1.10.1-1.10.4; in Bezug auf die anderen Parameter, siehe den Artikel von L.R. Rabiner, R.W. Schafer, "Digitale Verarbeitung von Sprachsignalen" (Digital Processing of Speech Signals"), veröffentlicht von Prentice-Hall, Inc. (1978).
- Das oben erwähnte eine Frame ist eine Periode des Sprachsignals, die einer Zeiteinheit Ns · T für den Fall der Abtastung von Ns Abtastungen für eine Analyse mit einer Abtastperiode T (Abtastfrequenz f) entspricht. Im Einzelnen bedeutet ein Frame eine Sprachperiode, die durch Multiplikation des Sprachsignals mit einer Fenster-Funktion aufgenommen wird (z.B. eine Hamming- Funktion oder eine Hanning-Funktion). Bei diesem Beispiel 1 ist die Abtastfrequenz 10 kHz, die Zahl der Abtastungen ist 200, und ein Frame ist 20 msec.
- Nun werden das Sprach-Detektionsverfahren und die Sprach-Detektionsvorrichtung nach Beispiel 1 unter Bezugnahme auf die Fig. 1 bis 6 beschrieben werden.
- Fig. 1 ist ein Blockdiagramm, das den gesamten Aufbau einer Vorrichtung 10 zur Sprach-Detektion nach Beispiel 1 zeigt. Die Vorrichtung 10 zur Sprach-Detektion enthält eine Anordnung 11 zum Extrahieren von Parametern, eine Anordnung 12 zur Bildung eines Bezugsmodells, einen Ähnlichkeitsrechner 13, eine Phonem-Entscheidungseinheit 14 und eine Endentscheidungseinheit 15. Die Anordnung 11 zum Extrahieren von Parametern extrahiert mehrere Parameter aus einem eingegebenen Audiosignal, so dass sie für die Sprach-Detektion verwendet werden können. Basierend auf gegebenen, extensiven Trainingsdaten für Vokale bildet die Anordnung 12 zur Erzeugung des Bezugsmodells ein Bezugsmodell für jeden der Vokale durch Verwendung der Parameter, die von dem Parameter-Extraktor 11 extrahiert werden. Der Ähnlichkeits-Computer 13 berechnet den Log Likelihood jedes Parameters für jeden Frame durch Vergleich der für jeden Frame durch den Parameter-Extraktor 11 abgeleiteten Parameter mit dem Bezugsmodell jedes Vokals. Die Phonem-Entscheidungseinheit 14 berechnet einen über die Frames gemittelten Log Likelihood für jeden Vokal, indem die Mittelwerte der Log Likelihoods eines Ziel-Frames und seiner vorhergehenden/nachfolgenden Frames (mehrere Frames) gebildet werden, und entscheidet, ob das den Zielframe enthaltende Segment ein Vokal ist oder nicht, basierend auf dem über die Frames gemittelten Log Likelihood. Die Endentscheidungseinheit 15 entscheidet, ob es sich bei der Sprachkandidat-Periode des angegebenen Audiosignals um ein Sprachsignal handelt oder nicht, und zwar durch Vergleich der Zahl der Frames, die als Vokal beurteilt werden, mit einem vorher bestimmten Schwellenwert.
- Wie in Fig. 1 dargestellt ist, enthält der Parameter-Extraktor 11 einen Stärke-Rechner 11a für die Berechnung der Potenz bzw. Stärke jedes Frames; einen Auto-Korrelationskoeffizient-Kalkulator 11b für die Berechnung der Auto-Korrelationskoeffizienten für jeden Frame, und einen Cepstrum- Koeffizient-Kalkulator 11c für die Berechnung der Cepstrum-Koeffizienten für jeden Frame. Wie im Detail später beschrieben wird, werden der erste und siebte Auto-Korrelationskoeffizient und der erste und dritte Cepstrum- Koeffizient berechnet. Diese Parameter werden verwendet, um die Vokal- Eigenschaft des angegebenen Audiosignals festzustellen.
- Das Verfahren zur Durchführung einer Sprach-Detektion durch die Vorrichtung 10 zur Sprach-Detektion wird nun im Detail beschrieben werden.
- Ein Audiosignal S0, das von einem Mikrophon (nicht dargestellt) eingegeben wird, wird an den Parameter-Extraktor 11 angelegt. Der Parameter-Extraktor 11 extrahiert mehrere Parameter, die für die Sprach-Detektion erforderlich sind, auf die folgende Weise.
- Der Stärke-Kalkulator 11a berechnet einen Potenz- bzw. Stärkewert Pi jedes Frames des Audiosignals S0, beispielsweise gemäß der folgenden Gleichung (1).
- Pi = Sj · Sj (1)
- Hierbei bezeichnet Pi den Stärke-Wert eines Frames i und Sj bezeichnet einen j-ten Abtastwert in dem Frame i des eingegebenen Signals. Der Stärke- Wert Pi ist normalisiert (z.B. so, dass er einen Wert von 0 bis 1 hat), mit der Differenz zwischen dem maximalen Wert und dem minimalen Wert eines Bereiches mit großer Stärke, so dass der Stärke-Wert Pi sogar dann allgemein behandelt werden kann, wenn sich die Stärke des Audiosignals S0 aufgrund einer Änderung der Aussprech- bzw. Artikulations-Bedingung ändert. Der berechnete Stärke-Wert Pi wird an die Endentscheidungseinheit 15 als Signal S1 angelegt.
- In dem Auto-Korrelationskoeffizient-Kalkulator 11b werden für jeden Frame entsprechend Gleichung (2) Auto-Korrelationskoeffizienten Ai(m) aus dem eingegebenen Signal S0 berechnet. Dabei bezeichnet Ai(m) einen normalisierten m-ten Auto-Korrelationskoeffizienten des Frames i (Ai(m) wird durch den 0-ten Auto-Korrelationskoeffizienten Ai(0) normalisiert.)
- Ai(m) = Sj · Sj+m (2)
- Dieses Beispiel 1 verwendet den ersten Auto-Korrelationskoeffizienten Ai(1) als einen Auto-Korrelationskoeffizient niedriger Ordnung und den siebten Auto-Korrelationskoeffizienten Ai(7) als einen Auto-Korrelationskoeffizient hoher Ordnung. Es können jedoch auch andere Auto-Korrelationskoeffizienten als die der ersten und siebten Ordnung eingesetzt werden, und es ist möglich, drei oder mehr Ordnungen der Auto-Korrelationskoeffizienten einzusetzen.
- In dem Cepstrum-Koeffizient-Kalkulator 11c wird der Cepstrum-Koeffizient Ci(m) m-ter Ordnung des Frames 1 durch eine lineare Prädiktions-Analyse erhalten. Beispiel 1 verwendet den ersten Cepstrum-Koeffizienten Ci(1) und den dritten Cepstrum-Koeffizienten Ci(3).
- Die Verarbeitung in dem Parameter-Extraktor 11, der schematisch durch Fig. 2 gezeigt ist, wird im folgenden beschrieben werden.
- Zunächst wird das eingegebene Signal mit der Abtastfrequenz 10 kHz (Schritt 101) abgetastet, und 20 Abtastwerte Sj (j = 1 bis 200) pro Frame (20 ms) werden aufgenommen (Schritt 102), indem sie mit einer Fenster- bzw. Window-Funktion (Hamming-Funktion) multipliziert werden. Nach Durchführung einer Vorverzerrung (Schritt 103) wird entsprechend der oben erwähnten Gleichung (2) Sj · Sj' (j' = j, j + 1, j + 7) erhalten. Durch Aufsummieren jedes der Sj · Sj' jedes Frames werden Auto-Korrelationskoeffizienten Ai(m), die nicht normalisiert sind, berechnet (Schritt 104). Der Auto- Korrelationskoeffizient Ai(0) mit j' = j (d.h. 0-ter Ordnung) ist der Potenz- bzw. Stärke-Wert Pi. Die Auto Korrelationskoeffizienten Ai(m) werden mit diesem Wert normalisiert (Schritt 105). Anschließend werden LPC Koeffizienten durch Verwendung einer üblichen Technik erhalten, und die Cepstrum- Koeffizienten Ci(m) (m = 1, 3) werden berechnet (Schritte 106 und 107). Die im Beispiel 1 verwendeten Parameter werden durch das oben beschriebene Verfahren erhalten.
- In der Anordnung zur Bildung des Bezugsmodells 12 werden Parameter, die in dem Parameter-Extraktor 11 benutzt werden sollen, aus den Vokal- Bereichen der verschiedenen Audiodaten für das Training extrahiert. Dann werden ein mittlerer Wert und eine Kovarianz-Matrix für jeden Vokal, basierend auf den auf den Trainingsdaten extrahierten Parametern berechnet, um so das Bezugsmodell für jeden Vokal zu bilden.
- Die Parameter für jeden Vokal k werden wie folgt extrahiert. Zunächst wird für jeden Vokal k ein Satz von Q Trainingsdaten {yk,q} (q = 1, ...., Q) (im folgenden als {yk} mit unterdrücktem q aus Gründen der Vereinfachung, während {} einen Satz angibt, der aus Q Daten zusammengesetzt ist) für jeden Vokal k vorbereitet wird. In dem Fall, dass r Parameter für den Vokal k extrahiert werden, können alle Daten yk als ein r-dimensionaler Vektor dargestellt werden, der durch r Komponenten festgelegt wird (d.h. einen Vektor in einem r-dimensionalen Parameter-Raum). Dieser r-dimensionale Vektor yq in dem Parameter-Raum wird als "Parameter-Vektor" bezeichnet werden.
- Bei diesem Beispiel 1 wird die Modellform des Bezugsmodells jedes Phonems durch einen mittleren Wert uk und eine Kovarianz-Matrix Σk des Parameter-Vektors {yk} dargestellt. Der mittlere Wert uk ist ein r-dimensionaler Vektor, und die Kovarianz-Matrix Σk ist eine r · r dimensionale Matrix. Nimmt man an, dass yk eine multidimensionale Normalverteilung der r-Dimension ist, können ihr mittlerer Wert uk und die Kovarianz-Matrix Σk berechnet werden, wie durch die Gleichungen (3) und (4) gezeigt ist, wobei t eine Transponierte bezeichnet.
- Die Trainingsdaten für jeden Vokal k können wie folgt präpariert werden: Ein Signalbereich, der jedem Vokal k entspricht, wird aus dem Sprachsignal eines Bezugssprechers aufgenommen, und die Daten des zentralen Frames des Vokalbereiches des Signals sowie der beiden vorhergehenden und nachfolgenden Frames werden als Vokaldaten für Trainingszwecke verwendet. Durch Benutzung der Daten von mehreren Bezugssprechern ist es zusätzlich möglich, dass das Bezugsmodell weniger durch die Änderungen der Aussprache bzw. Artikulation beeinflusst wird, die durch verschiedene Sprecher verursacht werden.
- Der Ähnlichkeitscomputer 13 berechnet die Ähnlichkeit eines eingegebenen Vektors xi in Bezug auf jedes Bezugsmodell vk, basierend auf dem Satz von r Parametern, die durch den Parameter-Extraktor 11 für jeden Frame gegeben werden (d.h., einen Eingabe-Vektor xi in dem r-dimensionalen Raum, der für jeden Frame i gegeben wird) sowie das Bezugsmodell vk jedes Vokals k, der durch die Anordnung 12 zur Bildung des Vokalbezugsmodells erzeugt wird. Zur Berechnung der Ähnlichkeit wird das Maß für den statistischen Abstand (Log Likelihood) verwendet, wobei angegenommen wird, dass der eingegebene Vektor xi die mehrdimensionale Normalverteilung in dem r- dimensionalen Raum ist.
- Ein Log Likelihood Lik des eingebenen Vektors xi in dem i-ten Frame zu dem Bezugsmodell vk für jeden Vokal k wird entsprechend Gleichung (5) berechnet.
- wobei t eine Transponierte, -1 eine umgekehrte Matrix von Σk und C eine Konstante bezeichnen.
- Die Phonem-Entscheidungseinheit 14 führt eine Vokalentscheidung des Ziel- Frames, basierend auf dem Ziel-Frame sowie der vorhergehenden N Frames und der folgenden N Frames. Diese 2N + 1 Frames werden als "ein Segment" bezeichnet. Durch Verwendung eines Segmentes und nicht eines einzigen Frames wird unter Berücksichtigung der Dauerkennlinien von Vokalen eine genauere Entscheidung möglich.
- Die Phonem-Entscheidungseinheit 14 berechnet eine über mehrere Frames gemittelte Likelihood Likave in dem Segment unter Verwendung des Log Likelihood Lik, der von dem Ähnlichkeits-Computer 13 berechnet wurde. Wenn der gemittelte Log Likelihood Likave die im Ausdruck (6) gezeigte Ungleichung erfüllt, wird der Ziel-Frame als der Vokal k angesehen:
- wobei LkTH ein Entscheidungs-Schwellenwert (der Schwellenwert des über die Frames gemittelten Log Likelihood) in Bezug auf das Vokal- Bezugsmodell vk ist.
- die Fig. 3A und 3B zeigen jeweils schematisch eine beispielhafte Verarbeitung in der Phonem-Entscheidungseinheit 14. Ein Block 210 stellt das Prozedere für die Gewinnung eines über die Frames gemittelten Log Likelihood Likave in Bezug auf den i-ten Frame dar. 2N + 1 Likelihood Werte von Lik, die durch den Ähnlichkeits-Computer 13 (von j = 1 - N bis j = i + N) berechnet werden, werden in einem Schieberegister 213 gespeichert (der Fall für N = 2 ist in den Figuren dargestellt). Durch ein Addierglied 214 und ein Dividierglied 215 wird der über die Frames gemittelte Log Likelihood Likave des Vokals k aus diesen 2N + 1 Werten für den Likelihood Lik erhalten. Bei dem nächsten (i + 1)-ten Frame, L1-N, k wird aus dem Schieberegister 213 verschoben, und statt des verschobenen Wertes wird L1+N+1, k gespeichert, um auf die gleiche Weise verarbeitet zu werden. Blöcke 210, 220 ... etc. sind für die entsprechenden Vokale jeweils vorgesehen.
- Wie durch Fig. 3B dargestellt wird, wird das maximale Ausgangssignal (Lik, maxave) aus den Ausgangssignalen von den Blöcken 210, 220 ... etc. (Schritt 332) festgestellt. Dieses maximale Ausgangssignal wird mit dem vorher bestimmten Schwellenwert LkTH für die Entscheidung verglichen, ob es sich um einen Vokal handelt oder nicht (Schritt 333). Diese Verarbeitung kann unter Verwendung eines üblichen Microcomputers durchgeführt werden.
- Der Log Likelihood ist ein statistischer Schätzwert, der eine effektive und umfassend Entscheidung über den Einfluss jedes Parameters gewährleistet. Durch Verwendung des Log Likelihoods kann deshalb ein Phonem- Entscheidungsverfahren realisiert werden. Das Phonem-Entscheidungsverfahren wird durch die Schwankungen bzw. Änderungen der Parameter weniger beeinflusst als das Verfahren mit der Benutzung von Schwellenwerten für die jeweiligen Parameter, wobei die Änderungen durch Addition eines stationären Rauschens oder ähnlicher Einflüsse verursacht werden. Zusätzlich hat es insoweit einen Vorteil, dass nicht der Bedarf besteht, den Schwellenwert jedes Parameters unter Verwendung eines heuristischen Verfahrens zu bestimmen. Da statt eines einzigen Frames ein Segment, dass aus mehreren Frames zusammengesetzt wird, als eine Einheit bei der Phonem- Entscheidung des eingegebenen Signals verwendet wird, wird darüberhinaus eine effektivere Phonem-Entscheidung für lokal stationäre Sprachklänge (d.h., einer Fortsetzung über mehrere Frames) wie Vokalen möglich.
- Die Endentscheidungseinheit 15 fällt eine endgültige Entscheidung darüber, ob es sich bei einer spezifischen Periode des angegebenen Signals um ein Sprachsignal handelt oder nicht, und zwar basierend auf den Entscheidungsergebnissen, die durch die Phonem-Entscheidungseinheit 14 gegeben werden, und dem Stärkewert, der durch den Parameter-Extraktor 11 gegeben wird.
- Das Entscheidungsverfahren der Endentscheidungseinheit 15 wird unter Bezugnahme auf Fig. 4 beschrieben werden. Die Endentscheidungseinheit 15 vergleicht einen Stärke-Wert Pi, der durch den Stärke-Kalkulator 11a erhalten wird, mit einem vorher bestimmten Stärke-Schwellenwert PTH und stellt eine Sprachkandidaten-Periode fest, die aus aufeinanderfolgenden Frames zusammengesetzt ist, die jeweils eine Stärke haben, die größer als der Schwellenwert PTH ist, wobei die Zahl der aufeinanderfolgenden Frames größer als eine vorher bestimmte Zahl ist (Schritte 320 und 350). Im Einzelnen wird die Phonem-Entscheidung für den Frame durchgeführt, dessen Stärke- Wert Pi gleich dem oder größer als der Schwellenwert PTH ist, während die Zahl dieser Frames (Schritt 330) gezählt wird. Dann wird die Zahl Ck der Segmente gezählt, die jeweils als ein Vokal bewertet werden (Schritt 340). Die Schritte 330 bis 340 werden solange wiederholt, wie der Stärkewert Pi gleich dem oder größer als der Schwellenwert PTH ist; wenn der Stärke-Wert Pi kleiner als der Schwellenwert PTH wird, wird die Zahl der Wiederholungen (d.h., die Zahl der aufeinanderfolgenden Frames) festgestellt (Schritt 350). Wenn die Zahl der Wiederholungen gleich dem oder größer als der vorher bestimmte Schwellenwert ist, wird ein Block aus den aufeinanderfolgenden Frames als Periode für einen Sprachkandiaten gewertet.
- Die Zahl Ck der Segmente, die jeweils als ein Vokal k in der Periode für den Sprachkandidaten durch die Phonem-Entscheidungseinheit 14 bewertet wird, wird mit einer vorherbestimmten Schwellennummer Mk von Vokalsegmenten verglichen (Schritt 360). Wenn Ck die Bedingung erfüllt, die durch die Ungleichung (7) ausgedrückt wird, wird eine Periode für einen Sprachkandidaten so bewertet, dass es sich um ein Sprachsignal handelt (Schritt 370).
- Ck ≥ Mk (7)
- Die Verarbeitung, wie sie oben beschrieben wurde, wird für alle Vokale k durchgeführt, und wenn die Ungleichung (7) für wenigstens einen Vokal k erfüllt wird, wird die Periode für den Sprachkandidaten so bewertet, dass es sich um ein Sprachsignal handelt. Der Schwellenwert Mk kann aus den Traininingsdaten vorbestimmt werden.
- Darüber hinaus kann eine vorher bestimmte, obere Schwelle Mmax so eingesetzt werden, um zu verhindern, dass Rauschen, das sich für lange Zeit mit großer Stärke fortsetzt, irrtümlich als Sprache bewertet wird, wie durch die Ungleichung (8) ausgedrückt wird.
- Mmax > Ck ≥ Mk (8)
- Die Ergebnisse eines Computer-Simulationsexperimentes, das unter Verwendung der Vorrichtung zur Sprach-Detektion nach Beispiel 1 durchgeführt wurde, wird im folgenden beschrieben werden.
- Die Parameter, die im Beispiel 1 neben der Stärke bzw. Power verwendet werden, sind: Der normalisierte erste Auto-Korrelationskoeffizient, der normalisierte siebte Auto-Korrelationskoeffizient, der erste Cepstrum-Koeffizient und der dritte Cepstrum-Koeffizient. Das Inverse des ersten Cepstrum-Koeffizienten ist gleich dem ersten LPC Koeffizienten. Diese Parameter sind zwischen Sprache und anderen, nicht-stationären Geräuschen (basierend auf den Ergebnissen eines vorherigen Experimentes) relativ gut getrennt. Zusätzlich werden diese Parameter leicht bei dem Verrechnungsverfahren für den Cepstrum-Koeffizienten durch die LPC Analyse erhalten.
- Der normalisierte erste Auto-Korrelationskoeffizient und der erste LPC Koeffizient sind Parameter, die für eine Unterscheidung Sprache/Nicht- Sprache geeignet sind. Der normalisierte siebte Auto-Korrelationskoeffizient ist ein Parameter, der für die Unterscheidung bzw. Erkennung von niederfrequenten Geräuschen geeignet ist. Der dritte LPC Cepstrum-Koeffizient ist ein Parameter, der insbesondere Charakteristiken von /i/ unter den fünf Vokalen angibt.
- Bei dem Simulationsexperiment werden zwei Arten von Audiodaten verwendet, nämlich Sprachdaten und Geräusch- bzw. Rauschen-Daten. Als Sprachdaten werden 16 Phoneme bzw. Konsonanten bzw. Laute eingesetzt, um festgestellt zu werden: (/a/ /i/,/u/,/e/,/o/,/b/,/d/,/g/,/m/,/n/,/N/,/s/,/h/,/r/,/w/, /y/). Diese Phoneme wurden aus 12 Wörtern erhalten, die von zehn männlichen Sprechern ausgesprochen und in einem Raum ohne Echo aufgezeichnet wurden. Die Grenzen aller Phoneme wurden durch manuelle bzw. visuelle Beobachtung festgelegt. Andererseits wurden 22 Geräusche, wie sie in Tabelle 1 dargestellt sind, als Geräusch-Daten verwendet. Diese Geräusche wurden unter Berücksichtigung einer Situation zusammengestellt, wie beispielsweise einem Besprechungszimmer, in dem die Vorrichtung zur Erkennung von Sprache/Nicht-Sprache nach Beispiel 1 eingesetzt wird. Tabelle 1
- Die Bedingungen für die Analyse der Sprach- und Geräusch-Daten sind in Tabelle 2 dargestellt.
- Abtastfrequenz: 10 kHz
- Analysefenster: 20 ms Hamming-Fenster
- Frame-Periode: 10 ms
- Vorverzerrung: 1 bis 0,9z-1
- LPC-Analysegrad: 12-ter
- Die Trainingsdaten von Vokalen, die durch fünf männliche Sprecher gesprochen wurden, wurden verwendet, um das Bezugsmodell zu machen. Die Parameter wurden unter Verwendung des Frames in einem phonetischen Mittelpunkt und seine beiden vorhergehenden/nachfolgenden Frames für jeden Vokal in dem Sprachsignal extrahiert. Aus Gründen des Berechnungswirkungsgrades wurde die Berechnung durch Verwendung nur von diagonalen Elementen der Kovarianz-Matrix durchgeführt, und zwar unter der Annahme, dass es keine Korrelation zwischen individuellen Parametern gibt.
- Unter Benutzung des oben erwähnten Bezugsmodells wurden die Sprach- Detektion und die Geräusch-Diskriminierung (irrtümliche Detektion) getestet. Das Sprach-Detektions-Experiment wurde für zehn Sprecher einschließlich fünf Bezugssprechern durchgeführt, deren Vokal-Daten für die Bildung des Bezugsmodells benutzt wurden. Das Geräusch-Diskriminierungsexperiment wurden unter Verwendung der nicht-stationären Geräusche durchgeführt, die in Tabelle 1 gezeigt sind.
- Fig. 5 zeigt die Beziehung zwischen der Sprach-Detektions-Rate und der Geräusch-Detektions-Fehlerrate, wenn die Segmentlänge eines Vokals variiert wurde. Die Sprach-Detektions-Rate ist eine Rate, bei der ein eingegebenes Sprachsignal korrekt als Sprache bewertet wird. Die Geräusch-Detektions-Fehler-Rate ist eine Rate, bei der ein eingegebenes Geräuschsignal irrtümlich als Sprache eingeschätzt wird. Um eine Vorrichtung zur Sprach- Detektion mit guter Leistung zu realisieren, ist es wichtig, ein eingegebennes Sprachsignal korrekt als Sprache festzustellen, und ein eingegebenes Geräuschsignal nicht irrtümlich als Sprache zu bewerten. Wie aus Fig. 5 zu erkennen ist, nimmt die Geräusch-Detektions-Fehlerrate ebenfalls zu, wenn ein solcher Entscheidungs-Schwellenwert eingestellt wird, der die Sprach- Detektions-Rate zu näherungsweise 100% macht. Dementsprechend kann die Diskriminierungsleistung für Sprache und Geräusche optimiert werden, indem der Entscheidungs-Schwellenwert auf einen geeigneten Wert eingestellt wird.
- Fig. 5 zeigt die experimentellen Ergebnisse, wenn die Segment-Länge (d.h., 2N + 1 Frames, die im folgenden als eine Vokal-Segmentlänge bezeichnet werden), wie sie für die Ableitung eines Frame-Mittelwertes des Log Likelihood in dem Ähnlichkeits-Computer 13 verwendet wird, von einem Frame auf elf Frames geändert wird. In dem Fall, dass die Vokal-Segmentlänge mehr als fünf Frames beträgt, gibt es nur geringe Unterschiede in der Detektionsleistung. Als Ergebnis hiervon wurde eine Sprach-Detektions-Rate von 99,3 % (mit einer Geräusch-Detektions-Fehlerrate von 9,0%) erhalten, wenn die Vokal-Segment-Länge sieben Frames und der Entscheidungs-Schwellenwert = -1,2 ist. Dieser Wert wird experimentell erhalten und ist der in Gleichung (6) gezeigte Entscheidungs-Schwellenwert.
- Um die Detektions-Leistung der Vorrichtung 10 zur Sprach-Detektion in einer Umgebung mit stationärem Rauschen bzw. stationären Geräuschen auszuwerten, wurden dann die Sprach-Detektions-Rate und die Geräusch- Detektions-Fehlerrate für das Eingangssignal mit einem zusätzlichen, aus weißem Rauschen bestehenden Signal gemessen.
- Fig. 6 zeigt die Beziehung zwischen der Sprach-Detektions-Rate und der Geräusch-Detektions-Fehlerrate, wenn das Verhältnis Signal/Rauschen (S/N für signal/noise) variiert wird. Bei diesem Experiment wird die Vokal- Segment-Länge auf sieben Frames festgelegt. Wie man aus Fig. 6 erkennen kann, wird die Detektions-Leistung bis zu einem S/N Verhältnis von 12dB nur wenig beeinflusst.
- Wie oben beschrieben wurde, ermöglicht die Vorrichtung 10 zur Sprach- Detektion nach Beispiel 1: Eine hochgenaue Entscheidung, basierend auf den Kennlinien bzw. Characteristiken der Phoneme bzw. Laute; und eine Vielzahl von Frames werden als eine Einheit für die Durchführung der Entscheidung angesehen. Dies macht es möglich, eine Vorrichtung zur Sprach- Detektion anzubieten, die eine korrekte Entscheidung in Bezug auf die Sprache durch Unterscheiden eines Sprachsignals aus verschiedenen Audiosignalen einschließlich Rauschen gewährleistet.
- Dieses Beispiel 1 verwendet als Parameter für die Feststellung der Vokaleigenschaften Auto-Korrelationskoeffizienten und Cepstrum-Koeffizienten. Es wird darauf hingewiesen, dass die Parameter nicht hierauf beschränkt sind, und dass PARCOR Koeffizienten, Melcepstrum-Koeffizieten und ähnliche Parameter ebenfalls eingesetzt werden können.
- Als Nächstes wird ein zweites Beispiel der vorliegenden Erfindung beschrieben.
- Der Umriss des Verfahrens zur Sprach-Detektion nach dem zweiten Beispiel wird im Folgenden erläutert.
- Auch bei dem zweiten Beispiel wird ein Bezugsmodell für jedes Phonem, basierend auf den Trainings-Daten, gebildet. Bei dem ersten Beispiel wurden die Bezugsmodelle nur für Vokale erzeugt. Bei dem zweiten Beispiel werden die Bezugsmodelle für Phoneme einschließlich Konsonanten zusätzlich zu den Vokalen gebildet. Durch zusätzliche Berücksichtigung der Phonem- Characteristiken der zu erfassenden Sprache (in diesem Fall japanisch) wird die Detektions-Genauigkeit verbessert. Die Endentscheidungseinheit entscheidet, ob es sich bei dem eingegebenen Signal um Sprache handelt oder nicht, und zwar auf der Basis einer Fuzzy-Überlegung. Die anderen Komponenten und Konstruktionen sind die gleichen wie bei dem ersten Beispiel. Auch bei diesem Beispiel wird die Abtastfrequenz auf 10 kHz eingesetzt, die Zahl der Abtastungen ist 200, und ein Frame wird auf 20 msec eingestellt.
- Als Nächstes werden das Sprach-Detektions-Verfahren und die Vorrichtung zur Sprach-Detektion nach dem zweiten Beispiel unter Bezugnahme auf die Figuren beschrieben werden.
- Fig. 7 ist ein Blockdiagramm, das den Gesamtaufbau einer Vorrichtung 20 zur Sprach-Erkennung nach dem zweiten Beispiel zeigt. Die Sprach-Detektions-Vorrichtung 20 enthält einen Parameter-Extraktor 21, einen Bezugsmodell-Erzeuger 22, einen Ähnlichkeits-Computer 23, eine Phonem-Entscheidungseinheit 24 und eine Fuzzy-Entscheidungseinheit 25. Der Parameter- Extraktor 21 extrahiert eine Vielzahl von Parametern, die für die Sprach- Detektion festgestellt werden, aus den eingegebenen Audiosignalen. Die Vorrichtung 22 zur Bildung des Bezugsmodells erzeugt ein Bezugsmodell für jedes Phonem unter Verwendung der Parameter, die in dem Parameter- Extraktor 21 extrahiert werden, und zwar basierend auf gegebenen umfangreichen Phonem-Daten für das Training. Der Ähnlichkeits-Computer 23 vergleich die Parameter, die für jeden Frame durch den Parameter-Extraktor 21 abgeleitet werden, mit dem Bezugsmodell jedes Phonems, um so den Log Likelihood jedes Parameters für jeden Frame zu berechnen. Die Phonem- Entscheidungseinheit 24 berechnet einen über die Frames gemittelten Log Likelihood für jedes Phonem, basierend auf dem Log Likelihood eines Ziel- Frames für die Phonem-Entscheidung und seinen vorhergehenden und folgenden N-Frames (diese 2N + 1 Frames werden als Segment bezeichnet), und entscheidet, ob das Segment irgend einer der Phoneme bzw. Laute ist, basierend auf dem über die Frames gemittelten Log Likelihood.
- Die Fuzzy-Entscheidungseinheit 25 entscheidet, ob eine Sprachkandidat- Periode des eingegebenen Audiosignals ein Sprachsignal ist oder nicht, indem die Zahl der Frames, die als Phoneme beurteilt werden sollen, mit einem vorher bestimmten Schwellenwert verglichen wird.
- Wie in Fig. 7 gezeigt ist, enthält der Parameter-Extraktor 21 einen Power- bzw. Stärke-Kalkulator 21a für die Berechnung der Stärke jedes Frames, einen Auto-Korrelationskoeffizient-Kalkulator 21b für die Berechnung der Auto- Korrelationskoeffizienten für jedes Frame und einen Cepstrum-Koeffizient- Kalkulator 21c für die Berechnung der Cepstrum-Koeffizienten für jedes Frame. Wie im Folgenden beschrieben werden soll, werden der fünfte und siebte Auto-Korrelationskoeffizient berechnet, während der erste und dritte Cepstrum-Koeffizient berechnet werden. Diese Parameter werden eingesetzt, um festzustellen, ob es sich bei dem eingegebenen Audiosignal um ein Phonem handelt oder nicht.
- Im Folgenden wird ein Verfahren zur Feststellung von Sprache durch Verwendung der Vorrichtung 20 zur Sprach-Detektion im größeren Detail beschrieben werden.
- Das Audiosignal, das durch ein Mikrophon (nicht dargestellt) eingegeben wird, wird an den Parameter-Extraktor 21 angelegt. Der Parameter-Extraktor 21 extrahiert eine Vielzahl von Parametern, die für die Sprach-Detektion entsprechend dem gleichen Verfahren wie bei dem Parameter-Extraktor 11 benötigt werden, der bei dem ersten Beispiel beschrieben wurde.
- Die Vorrichtung 22 zur Bildung des Bezugsmodells erzeugt Extrakt- Parameter, die in dem Parameter-Extraktor 21 benutzt werden sollen, aus umfangreichen Sprachdaten für das Training. Durch Verwenden der Parameter, die aus den Trainingsdaten extrahiert werden, werden dann für jedes Phonem ein mittlerer Wert und eine Kovarianz-Matrix berechnet, um für jedes Phonem ein Bezugsmodell zu bilden.
- Bei diesem Beispiel werden die Bezugsmodelle für sieben Arten von Phonemen bzw. Lauten in zwei Kategorien hergestellt, d.h., fünf Vokale /a/, /i/, /u/, /e/ und /o/ und zwei Frikativen bzw. Reiblauten /h/ und /s/ ohne Stimme. Der Grund dafür, warum diese sieben Arten von Phonemen verwendet werden, liegt darin, dass die Spektren dieser Phoneme relativ stabil und damit geeignet für die Feststellung sind, bei der die lokale Kontinuität des Sprach- Signals ausgenutzt wird. Andere Phoneme wie Nasale, stimmliche Verschluss- bzw. Explosivlaute, Affrikate, flüssige und Halbvokale können ebenfalls eingesetzt werden, weil jeder Laut ein Merkmal der Sprache angibt.
- Die Vorrichtung 22 zur Bildung des Bezugsmodells erzeugt ein Bezugsmodell durch Berechnen des mittleren Wertes uk und der Kovarianz-Matrix Σk für jedes Phonem auf der Basis der Gleichungen (3) und (4) entsprechend dem gleichen Prozedere wie bei der Vorrichtung 12 zur Bildung des Bezugsmodells. In dem zweiten Beispiel bezeichnet das Bezugszeichen k jeden Laut.
- Der Ähnlichkeits-Computer 23 berechnet die Ähnlichkeit eines eingegebenen Vektors xi in Bezug auf ein Bezugsmodell vk, basierend auf einem Satz von r Parametern für ein Frame (d.h., einen eingebenen Vektor xi in einem r- dimensionalen Raum, gegeben für jedes Frame i) und ein Bezugsmodell vk für jedes Phonem bzw. jeden Laut k, das bzw. der durch die Vorrichtung 22 für die Bildung des Bezugsmodells erzeugt wird. Der Ähnlichkeits-Computer 23 berechnet ein Maß für den statistischen Abstand (den Log Likelihood Lik) auf der Basis von Gleichung (5) entsprechend dem gleichen Prozedere wie in dem Ähnlichkeits-Computer 13.
- Die Laut- bzw. Phonem-Entscheidungseinheit 24 entscheidet, ob es sich bei einem Ziel-Frame um ein Phonem handelt oder nicht, und zwar basierend auf dem Ziel-Frame für die Phonem-Detektion und die vorhergehenden und folgenden N Frames (diese (2N + 1) Frames werden als ein Segment bezeichnet). Die Phonem-Entscheidungseinheit 24 berechnet einen Frame- Mittelwert Likave der Log Likelihoods Lik an der Basis der linken Seite von Gleichung (6) entsprechend dem gleichen Prozedere wie in Phonem- Entscheidungseinheit 14. Wenn die gemittelten Log Likelihood Likave die Bedingung auf der linken Seite von Gleichung (6) erfüllen, wird das Segment als ein Phonem k betrachtet.
- Die Fuzzy-Entscheidungseinheit 25 entscheidet schließlich, ob es sich bei der spezifizierten Periode des Eingangssignals um ein Sprachsignal oder nicht handelt, und zwar basierend auf dem beurteilten Ergebnis, das von der Phonem-Entscheidungseinheit 24 zugeführt wird, und dem Stärke-Wert, der von dem Parameter-Extraktor 21 geliefert wird. Im Folgenden bezeichnet die spezifische Periode eine "Sprachkandidat-Periode" mit einer Power bzw. Stärke in dem Eingangssignal, die gleich der oder höher als ein bestimmter Schwellenwert ist, also das gleiche Vorgehen wie im ersten Beispiel.
- Bei diesem Beispiel wird die Fuzzy-Überlegung für die Sprach-Detektion aus den folgenden Gründen verwendet.
- In der Sprache, insbesondere in der Sprache während einer Unterhaltung, treten verschiedene Phoneme bzw. Laute auf. Die Auftritts-Frequenzen und die Muster dieser Phoneme werden spezifisch durch geäußerte Sprache und die Grammatik der Sprache im gewissen Maße festgelegt. Im Falle von japanischer Sprache werden beispielsweise die Aussprachen von Phonemen durch Wiederholungen von Vokal, Konsonant und Stille gebildet, wie beispielsweise V, C + V, V + C + V (V bezeichnet einen Vokal, und C bezeichnet einen Konsonanten). Wenn die Auftritts-Frequenzen bzw. -Häufigkeiten der jeweiligen Phoneme in einem relativ langen Zeitintervall erhalten werden, nimmt man für die Phoneme, wie beispielsweise Vokale und Konsonanten an, dass sie bei spezifischen Frequenzen gesprochen werden, die im gewissen Umfang festgelegt sind. Bei diesem Beispiel wird deshalb die Sprach- Detektion, basierend auf den Auftritts-Häufigkeiten der jeweiligen Phoneme in dem Sprachsignal durchgeführt, d.h., dem Existenzverhältnis der jeweilige Phoneme in einer bestimmten Periode des Sprachsignals. Durch Verwendung der Fuzzy-Logik kann zusätzlich eine exakte Sprach-Detektion mit einem geringeren operativen Aufwand durchgeführt werden. Dies ist ein weiterer Grund für den Einsatz der Fuzzy-Logik.
- Ein spezifischeres Entscheidungsverfahren, das in der Fuzzy- Entscheidungseinheit 25 eingesetzt wird, wird nun unter Bezugnahme auf die Fig. 8A und 8B beschrieben. Die Fuzzy-Entscheidungseinheit 25 vergleicht den Power- bzw. Stärke-Wert Pi, der durch den Power-Kalkulator 21a erhalten wird, mit einem vorher bestimmten Power- bzw. Stärke- Schwellenwert PTH und stellt eine Sprachkandidat- Periode fest, in der Frames Stärken haben, die gleich dem oder größer als der Schwellenwert PTH sind, wobei die Zahl der aufeinanderfolgenden Frames gleich dem oder größer als vorher bestimmter Wert ist (Schritte 420 und 480). Im Detail wird in Bezug auf die Frames mit Stärken, die gleich dem oder größer als der Schwellenwert PTH sind, die Phonem-Detektion durchgeführt (Schritte 440- 460 und 470), während die Zahl der Frames (Schritt 430) gezählt wird. Der Schritt 440 wird in dem Ähnlichkeits-Computer 23 durchgeführt, und der Schritt 450 wird in der Phonem-Entscheidungseinheit 24 durchgeführt. Wenn der Stärke-Wert Pi gleich dem oder größer als der Schwellenwert PTH ist, wird der Schritt für die Phonem-Entscheidung wiederholt durchgeführt. Wenn der Stärke-Wert Pi kleiner als der Schwellenwert PTH wird, wird die Zahl der Wiederholungen (d.h., die Zahl der kontinuierlichen Frames) festgestellt (Schritt 480). Wenn die wiederholte Zahl gleich dem oder größer als ein vorher bestimmter Schwellenwert ist, wird die kontinuierliche Frame-Periode als eine Sprachkandidat-Periode bewertet.
- In der so erkannten Sprachkandidat-Periode wird die Sprach-Detektion auf die folgende Weise festgestellt.
- Wenn das Phonem-Segment so beurteilt wird, dass es /a/, /i/, /u/, /e/ oder /o/ist (Schritt 460), wird das Phonem-Segment zunächst in eine Vokalgruppe kategorisiert. Wenn das Phonem-Segment als /h/ oder /s/ bewertet wird (Schritt 470), wird das Phonem-Segment in eine Frikativ- bzw. Reiblaut- Gruppe kategorisiert. Damit werden also die Phonem-Segmente in zwei Kategorien klassifiziert. Wenn das Phonem-Segment so beurteilt wird, dass es zu der Vokalgruppe gehört, wird die Zahl der Phonem-Segmente in der ersten Kategorie erhöht (die Zahl der Segmente Ci : Schritt 461). Wenn das Phonem-Segment so bewertet wird, dass es zu der Reiblaut-Gruppe gehört, wird die Zahl der Phonem-Segmente in der zweiten Kategorie erhöht (die Zahl der Segmente C&sub2; Schritt 471). Aus den jeweiligen Zahlen der Segmente Cm (m = 1, 2) wird die Besetzungs-Rate Rm in jeder Kategorie auf der Basis von Gleichung (9) erhalten (Schritt 481).
- Hierbei bezeichnet m die Zahl der Kategorien und Np bezeichnet die Zahl der Frames, die in der Sprachkandidat-Periode enthalten sind. Bei dem obigen Beispiel kann die Besetzungs-Rate durch Klassifizieren der Phonem- Segmente in zwei Vokal- und Reiblaut-Kategorien erhalten werden. Als Alternative kann die Besetzungs-Rate durch Verwendung von drei oder mehr Kategorien erhalten werden. Beispielsweise kann die Besetzungsrate für jedes Phonem erhalten werden.
- Wenn die Besetzungsrate Rm als eine Eingabe-Variable für die Fuzzy-Logik verwendet wird, und wenn die Spracheigenschaft S als Ausgangsvariable eingesetzt wird, wird die Schlussfolgerungs-Regel der Fuzzy-Logik allgemein durch den Ausdruck (10) ausgedrückt.
- Regel j:
- wenn R&sub1; Aj1 ist und ... und Rm ist Ajm,
- dann: Sj ist fj
- wobei j eine Regel-Nummer bezeichnet, Ajm eine Mitgliedschaftsfunktion und fj eine reelle Zahl sind. Bei diesem Beispiel wird als Fuzzy-Logik eine vereinfachte Fuzzy-Logik eingesetzt, bei der konsequente Teil der Schlussfolgerungsregel als eine reelle Zahl ausgedrückt wird. Es kann jedoch auch eine andere Fuzzy-Logik eingesetzt werden (weil bei jeder Fuzzy-Überlegung das Sprach-Merkmal, basierend auf der Phonem-Eigenschaft in der Sprache, ausgedrückt wird).
- Wenn Eingabedaten (Ri, ..., Rm) eingegeben werden, wird aus der Gleichung (10) die folgende Schlussfolgerung erhalten, die in Gleichung (11) ausgedrückt wird (Schritt 482).
- uj = Aj1(R&sub1;) Λ ... Λ Ajm(Rm) Λ 1 ... (11)
- wobei Λ eine Min-Operation zur Erhaltung eines minimalen Wertes in jedem Term bezeichnet, und uj den Anpassungsgrad jeder Argumentations- bzw. Schlussfolgerungs-Regel bezeichnet. Es gibt eine Vielzahl von Schlussfolgerungs-Regeln, die durch Gleichung (10) ausgedrückt werden, so dass das endgültige Schlussfolgerungsergebnis in Gleichung (12) ausgedrückt wird, indem insgesamt das Ergebnis von Gleichung (11) berücksichtigt wird (Schritt 483).
- Das finale Ausgangssignal S gibt an, in welchem Umfang bzw. "wieviel" die Sprachkandidat-Periode die Spracheigenschaft hat. Die Spracheigenschaft S wird mit einem vorher bestimmten Schwellenwert STH (Schritt 484) verglichen Wenn der Wert der Spracheigenschaft S gleich dem oder größer als der Schwellenwert STH ist, wird die Sprachkandidat-Periode als Sprache beurteilt (Schritt 485).
- Als Nächstes wird die Schlussfolgerungs-Regel in Ausdruck (10) speziell für den Fall beschrieben, dass die Zahl der Kategorien (Laut- bzw. Phonem- Gruppen) zwei ist. Die Vokal-Gruppe entspricht m = 1, während die Reiblautgruppe m = 2 entspricht. Fig. 9 stellt die Membership- bzw. Mitgliedschaft-Funktion A11 bis A41 der Vokalgruppe und Fig. 10 die Membership- bzw. Mitgliedschaft-Funktion A12 bis A42 der Reiblaut-Gruppe dar.
- In diesem Fall enthält Aj1 in Ausdruck (10) vier Typen, d.h., A11 bis A41, und Aj2 enthält ebenfalls vier Typen, d.h. A21 bis A42. Dementsprechend gibt es 16 mögliche Kombinationen, so dass die Zahl der Regeln 16 ist. Tabelle 3 zeigt die Regeln für den Fall, dass die in den Fig. 9 und 10 gezeigten Membership-Funktionen verwendet werden. Die Werte in der Regel-Tabelle geben die reellen Zahlen fj der konsequenten Teile der Regeln an, die den jeweiligen Kombinationen entsprechen. Diese Werte werden durch ein vorläufiges Experiment erhalten. Andere Werte können im praktischen Einsatz der Vorrichtung zur Sprach-Detektion verwendet werden, da eine genauere Detektion durch geeignete Auswahl dieser Werte möglich ist, um für die aktuelle Umgebung geeignet zu sein. Tabelle 3
- Aus der Regel-Tabelle wird jeder Wert Sj erhalten, und ein Wert Anm(Rm) der Membership-Funktion wird für den gegebenen, eingegebenen Wert Rm auf der Basis von Fig. 9 und 10 erhalten (m = 1,2 und n = 1 bis 4). Durch Verwendung dieser Werte werden der Ausdruck (10) und die Gleichungen (11) und (12) ausgewertet, um so die Spracheigenschaft S zu erhalten.
- Auf diese Weise wird es, basierend auf der Fuzzy-Logik möglich, auszudrücken, ein wie großer Teil bzw. wieviel der Sprachkandidaten-Periode die Spracheigenschaft hat. Durch Durchführung dieser Operationen für alle Sprachkandidat-Perioden, wird die finale Sprach-Detektion durchgeführt. Das heißt als: Wenn das finale gleich dem oder größer als der vorherbestimmte Schwellenwert STH ist, so wird dieser Teil als Sprache bewertet. Wenn das Ausgangssignal S kleiner als vorherbestimmte Schwellenwert STH ist, wird dieser Bereich als Nicht-Sprache bewertet.
- Wie oben beschrieben wurde, führt die Vorrichtung 20 zur Sprach-Detektion nach diesem Beispiel die Beurteilung mit hoher Genauigkeit, basierend auf dem Merkmal der Phoneme durch, und die Beurteilung wird unter Berücksichtigung einer Vielzahl von Frames als eine Gruppe vorgenommen. Auf diese Weise ist es möglich, eine Vorrichtung zur Sprach-Detektion zu schaffen, die exakt Sprache aus verschiedenen Audiosignalen einschließlich Geräuschen mit einem relativ einfachen Aufbau feststellen kann.
- Verschiedene andere Modifikationen werden dem Fachmann auf diesem Gebiet ersichtlich sein und können leicht durchgeführt werden, ohne von dem Umfang dieser Erfindung, wie sie durch die folgenden Ansprüche definiert ist, abzuweichen. Dementsprechend ist nicht beabsichtigt, dass der Umfang der folgenden Ansprüche auf die obige Beschreibung begrenzt ist, sondern dass die Ansprüche breit ausgelegt werden.
Claims (24)
1. Vorrichtung zur Sprachdetektion mit:
einer Anordnung zur Erzeugung eines Bezugsmodells (12) zum
Extrahieren einer Vielzahl von Parametern für die Sprachdetektion aus Trainings-
Daten und Bilden eines Bezugsmodells, basierend auf den Parametern;
einer Anordnung zum Extrahieren von Parametern (11) zum Extrahieren
der Vielzahl von Parametern aus jedem Rahmen bzw. Frame eines
eingegebenen Audiosignals; und
einer Entscheidungsanordnung (13, 14, 15) zum Entscheiden, ob es sich
bei dem Audiosignal um Sprache handelt oder nicht, durch Vergleich der
aus dem eingegebenen Audiosignal extrahierten Parameter mit dem
Bezugsmodell, wobei
die Anordnung zur Erzeugung des Bezugsmodells (12) das Bezugsmodell
für jedes Phonem bildet, und
die Entscheidungsanordnung (13, 14, 15) aufweist:
eine Ähnlichkeits-Berechnungsanordnung (13) zum Vergleich der aus
jedem Frame des eingegebenen Audiosignals extrahierten Parameter mit
dem Bezugsmodell und Berechnung der Ähnlichkeit des Frames in Bezug
auf das Bezugsmodell;
eine Phonem-Entscheidungsanordnung (14) zum Entscheiden bzw. zum
Festlegen eines Phonems jedes Frames des eingegebenen Audiosignals,
basierend auf der für jedes Phonem berechneten Ähnlichkeit; und
eine Endentscheidungsanordnung (15) zur Entscheidung, ob es sich bei
einer spezifischen Periode des eingegebenen Audiosignals einschließlich
einer Vielzahl von Frames um Sprache handelt oder nicht, und zwar
basierend auf dem Ergebnis der Phonem-Entscheidung.
2. Vorrichtung nach Anspruch 1, wobei die Anordnung zur Erzeugung des
Bezugsmodells (12) ein Bezugsmuster durch Berechnung eines
Mittelwertes und einer Kovarianz-Matrix der Vielzahl von Parametern für jedes
Phonem bildet.
3. Vorrichtung nach Anspruch 1 oder 2, wobei die Vielzahl der Parameter
aus der Gruppe ausgewählt werden, die aus dem ersten
Auto-Korrelationskoeffizient und Auto-Korrelationskoeffizienten höherer Ordnung, dem
ersten PARCOR Koeffizient und den PARCOR Koeffizienten höherer
Ordnung, dem ersten Melcepstrum-Koeffizient und den
Melcepstrum-Koeffizienten höherer Ordnung und dem ersten LSP Koeffizienten und den
LSP Koeffizienten höherer Ordnung besteht.
4. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die
Anordnung zum Extrahieren der Parameter (11) eine
Berechnungsanordnung für die Auto-Korrelationskoeffizienten zur Ableitung der
Auto-Korrelationskoeffizienten in einer Vielzahl von Ordnungen und eine
Berechnungsanordnung für die Cepstrum-Koeffizienten für die Ableitung der
Cepstrum-Koeffizienten einer Vielzahl von Ordnungen aufweist.
5. Vorrichtung nach Anspruch 4, wobei die Berechnungsanordnung für die
Auto-Korrelationskoeffizienten (11b) den ersten und den siebten Auto-
Korrelationskoeffizienten und die Berechnungsanordnung für den
Cepstrum-Koeffizienten (11c) den ersten und dritten
Cepstrum-Koeffizienten berechnet.
6. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die
Ähnlichkeit der statistische Abstand zwischen den Parametern ist, die aus
dem eingegebenen Audiosignal und dem Bezugsmodell extrahiert
werden.
7. Vorrichtung nach Anspruch 6, wobei der statistische Abstand der
Logarithmus der Mutmaßlichkeit/Wahrscheinlichkeit/Likelihood (log likelihood)
ist.
8. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die
Phonem-Entscheidungsanordnung (14) die gemittelte Likelihood durch
Mittelwertbildung des Logarithmus der Likelihood jedes Frames, die von der
Likelihood-Berechnungsanordnung berechnet wird, in Bezug auf eine
Vielzahl von aufeinanderfolgenden Frames einschließlich einem Target-
Frame für die Phonem-Detektion berechnet und ein Phonem, basierend
auf der gemittelten Likelihood, feststellt.
9. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die
Anordnung zur Extraktion von Parametern (11) weiterhin eine Potenz- bzw.
Stärke-(Power)Berechnungsanordnung (11a) zur Berechnung der Stärke
(Power) jedes Frames aufweist, und wobei die spezifische Periode des
Audiosignals eine Periode mit einer Stärke ist, die gleich oder größer als
ein vorherbestimmter Wert ist.
10. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei das
Phonem ein Vokal ist, und wobei die Endentscheidungsanordnung (15)
aufweist:
eine Zählanordnung zum Zählen der Zahl der Frames, die durch die
Phonem-Entscheidungsanordnung (14) in der spezifischen Periode als ein
Vokal festgestellt werden,
eine Berechnungsanordnung zur Berechnung des Verhältnisses der
durch die Zählanordnung gezählten Zahl zu der Zahl der in der
spezifischen Periode enthaltenen Gesamt-Frames, und
eine Beurteilungsanordnung zur Entscheidung, ob die spezifische Periode
des eingegebenen Signals Sprache ist oder nicht, basierend auf dem von
der Berechnungsanordnung berechneten Verhältnis.
11. Vorrichtung nach Ansprüche 1 oder 9, wobei das Phonem ein
Konsonant ist, und wobei die Endentscheidungsanordnung (15) aufweist:
eine Zählanordnung zum Zählen der Zahl der Frames, die durch die
Phonem-Entscheidungsanordnung (14) in der spezifischen Periode als
Konsonant festgestellt werden,
eine Berechnungsanordnung zur Berechnung des Verhältnisses der Zahl,
die von der Zählanordnung gezählt wird, zu der Zahl der Gesamt-Frames,
die in der spezifischen Periode enthalten sind, und
eine Beurteilungsanordnung zur Entscheidung, ob die spezifische Periode
des eingegebenen Signals Sprache ist oder nicht, basierend auf dem von
der Berechnungsanordnung berechneten Verhältnis.
12. Vorrichtung nach einem der vorhergehenden Ansprüche, wobei die
Endentscheidungsanordnung aufweist:
eine Klassifizierungsanordnung zur Klassifizierung der Phoneme, die
gemäß der Entscheidung durch die Phonem-Entscheidungsanordnung in
eine erste Phonem-Gruppe und eine zweite Phonem-Gruppe fallen;
eine Zählanordnung zum Zählen einer ersten Zahl von Frames, die in die
erste Phonem-Gruppe klassifiziert werden, und einer zweiten Zahl von
Frames, die in die zweite Phonem-Gruppe klassifiziert werden, während
der spezifischen Periode des eingegebenen Audiosignals
eine Berechnungsanordnung zum Berechnen eines ersten Verhältnisses
der ersten Zahl in Bezug auf die Zahl der in der spezifischen Periode
enthaltenen Frames und eines zweiten Verhältnisses der zweiten Zahl in
Bezug auf die Zahl der in der spezifischen Periode enthaltenen Frames; und
eine Beurteilungsanordnung zur Beurteilung, ob die spezifische Periode
Sprache ist oder nicht unter Verwendung einer Fuzzy-Plausibilität,
basierend auf dem ersten und dem zweiten Verhältnis.
13. Verfahren zur Sprachdetektion mit den Schritten:
(a) Extrahieren der Vielzahl der Parametern für eine Sprachdetektion
aus Trainings-Daten und für die Bildung eines Bezugsmodells,
basierend auf den Parametern,
(b) Extrahieren der Vielzahl der Parameter aus jedem Rahmen bzw.
Frame eines eingegebenen Audiosignals,
(c) Entscheiden, ob das eingegebene Audiosignal Sprache ist oder nicht,
durch Vergleich der aus dem eingegebenen Audiosignal extrahierten
Parameter mit dem Bezugsmodell, wobei
die Schritte (a) und (b) jeweils für jedes Phonem durchgeführt werden
und wobei
der Schritt (c) die Schritte aufweist:
(d) Vergleich der Parameter, die aus jedem Frame des eingegebenen
Audiosignals extrahiert werden, mit dem Bezugsmodell und
Berechnen der Ähnlichkeit jedes Frame in Bezug auf das Bezugsmodell,
(e) Entscheiden eines Phonems jedes Frames des eingegebenen
Audiosignals, basierend auf der für jedes Phonem berechneten Ähnlichkeit,
und
(f) Entscheiden, ob eine spezifische Periode des eingegebenen
Audiosignals, das eine Vielzahl von Frames enthält, Sprache ist oder nicht,
basierend auf dem Ergebnis der Phonem-Entscheidung in Schritt (e).
14. Verfahren nach Anspruch 13, wobei der Schritt (a) den Schritt aufweist,
ein Bezugsmuster durch Berechnung eines mittleren Wertes und einer
Kovarianz-Matrix der Vielzahl von Parametern zu bilden.
15. Verfahren nach Anspruch 13 oder 14, wobei die Parameter, die in den
Schritten verwendet werden, aus der Gruppe ausgewählt werden, die aus
dem ersten Auto-Korrelationskoeffizient und den
Auto-Korrelationskoeffizienten höherer Ordnung, dem ersten PARCOR Koeffizient und den
PARCOR Koeffizienten höherer Ordnung, dem ersten
Melcepstrum-Koeffizient und den Melcepstrum-Koeffizienten höherer Ordnung und dem
ersten LSP Koeffizient und den LSP Koeffizienten höherer Ordnung
besteht.
16. Verfahren nach einem der Ansprüche 13 bis 15, wobei der Schritt (b) die
Schritte der Ableitung der Auto-Korrelationskoeffizienten in einer Vielzahl
von Ordnungen und die Ableitung der Cepstrum-Koeffzienten in einer
Vielzahl von Ordnungen aufweist.
17. Verfahren nach Anspruch 16, wobei in Schritt (b) der erste und der siebte
Auto-Korrelationskoeffizient und der erste und der dritte
Cepstrum-Koeffzient abgeleitet werden.
18. Verfahren nach einem der Ansprüche 13 bis 17, wobei im Schritt (d) die
Ähnlichkeit der statistische Abstand zwischen den Parametern ist, die aus
dem eingegebenen Audiosignal und dem Bezugsmodell extrahiert
werden.
19. Verfahren nach Anspruch 18, wobei der statistische Abstand der
Logarithmus der Mutmaßlichkeit bzw. Likelihood (log likelihood) ist.
20. Verfahren nach einem der Ansprüche 13 bis 19, wobei der Schritt (e) die
Schritte der Berechnung einer gemittelten Likelihood durch Bildung des
Mittelwertes des log likelihood jedes Frames, der in Schritte (d) berechnet
wird, in Bezug auf eine Vielzahl von aufeinanderfolgenden Frames
einschließlich eines Ziel-Frames für jede Phonem-Feststellung und der
Feststellung eines Phonems, basierend auf der gemittelten Likelihood,
aufweist.
21. Verfahren nach einem der Ansprüche 13 bis 20, wobei der Schritt (b) den
Schritt der Berechnung der Stärke bzw. Potenz (Power) für jeden Frame
aufweist, und wobei
der Schritt (f) die Schritte aufweist:
Vergleich der Stärke jedes Frames mit einem vorherbestimmten
und
Identifizieren einer Periode des eingegebenen Audiosignals, basierend
auf der Zahl der Frames mit einer Stärke, die gleich einem oder höher als ein
vorherbestimmter Wert ist, als die spezifische Periode des eingegebenen
Audiosignals.
22. Verfahren nach einem der Ansprüche 13 bis 21, wobei der Schritt (e) den
Schritt (e1) aufweist, der eine Entscheidung über einen Vokal jedes
Frames des eingegebenen Audiosignals fällt, und wobei der Schritt (f) die
Schritte aufweist:
(f1) Zählen der Zahl der Frames, die in der spezifischen Periode
des eingegebenen Audiosignals im Schritt (e1) als Vokal
festgestellt werden,
(f2) Berechnen des Verhältnisses der Zahl, die im Schritt (f1)
gezählt wird, zu der Zahl der Gesamt-Frames, die in der
spezifischen Periode des eingegebenen Audiosignals enthalten sind,
und
(f3) Beurteilen, ob die spezifische Periode des eingegebenen
Signals Sprache ist oder nicht, basierend auf dem im Schritt (f2)
berechneten Verhältnis.
23. Verfahren nach einem der Ansprüche 13 bis 22, wobei der Schritt (e) den
Schritt (e1) aufweist, der eine Entscheidung über einen Konsonanten
jedes Frames des eingegebenen Audiosignals fällt, und wobei der Schritt (f)
die Schritte aufweist:
(f1) Zählen der Zahl der Frames, die in der spezifischen Periode
des eingegebenen Audiosignals im Schritt (e1) als ein
Konsonant festgestellt werden,
(f2) Berechnen des Verhältnisses der Zahl, die im Schritt (f1)
gezählt wird, zu der Zahl der Gesamt-Frames, die in der spezifischen
Periode des eingegebenen Audiosignals enthalten sind,
und
(f3) Beurteilen, ob die spezifische Periode des Eingangssignals
Sprache ist oder nicht, basierend auf dem im Schritt (f2)
berechneten Verhältnis.
24. Verfahren nach einem der Ansprüche 13 bis 23, wobei der Schritt (f) die
Schritte aufweist:
(g) Klassifizieren der Phoneme, die im Schritt (e) festgestellt bzw.
entschieden werden, in erste und zweite Phonem-Gruppen,
(h1) Zählen einer ersten Zahl von Frames, die in die erste Phonem-
Gruppe klassifiziert werden,
(h2) Zählen einer zweiten Zahl von Frames, die in der spezifischen
Periode des eingegebenen Audiosignals in die zweite Phonem-
Gruppe klassifiziert werden,
(i1) Berechnen eines ersten Verhältnisses der ersten Zahl in Bezug
auf die Zahl der Frames, die in der spezifischen Periode
enthalten sind,
(i2) Berechnen eines zweiten Verhältnisses der zweiten Zahl in
Bezug auf die Zahl von Frames, die in der spezifischen Periode
enthalten sind, und
(j) Beurteilen, ob die spezifische Periode Sprache ist oder nicht,
unter Verwendung einer Fuzzy-Plausibilität bzw. -Technik,
basierend auf dem ersten und dem zweiten Verhältnis.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5116980A JPH06332492A (ja) | 1993-05-19 | 1993-05-19 | 音声検出方法および検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69430082D1 DE69430082D1 (de) | 2002-04-18 |
DE69430082T2 true DE69430082T2 (de) | 2002-10-31 |
Family
ID=14700517
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69432943T Expired - Fee Related DE69432943T2 (de) | 1993-05-19 | 1994-05-19 | Verfahren und Vorrichtung zur Sprachdetektion |
DE69430082T Expired - Fee Related DE69430082T2 (de) | 1993-05-19 | 1994-05-19 | Verfahren und Vorrichtung zur Sprachdetektion |
DE69433254T Expired - Fee Related DE69433254T2 (de) | 1993-05-19 | 1994-05-19 | Verfahren und Vorrichtung zur Sprachdetektion |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69432943T Expired - Fee Related DE69432943T2 (de) | 1993-05-19 | 1994-05-19 | Verfahren und Vorrichtung zur Sprachdetektion |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69433254T Expired - Fee Related DE69433254T2 (de) | 1993-05-19 | 1994-05-19 | Verfahren und Vorrichtung zur Sprachdetektion |
Country Status (4)
Country | Link |
---|---|
US (1) | US5611019A (de) |
EP (3) | EP1083542B1 (de) |
JP (1) | JPH06332492A (de) |
DE (3) | DE69432943T2 (de) |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2212658C (en) * | 1995-02-15 | 2002-01-22 | British Telecommunications Public Limited Company | Voice activity detection using echo return loss to adapt the detection threshold |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
NZ316124A (en) * | 1995-08-24 | 2000-02-28 | British Telecomm | Pattern recognition for speech recognising noise signals signatures |
JP3536471B2 (ja) * | 1995-09-26 | 2004-06-07 | ソニー株式会社 | 識別装置および識別方法、並びに音声認識装置および音声認識方法 |
US5768263A (en) * | 1995-10-20 | 1998-06-16 | Vtel Corporation | Method for talk/listen determination and multipoint conferencing system using such method |
US5774849A (en) * | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
US6708146B1 (en) | 1997-01-03 | 2004-03-16 | Telecommunications Research Laboratories | Voiceband signal classifier |
JP3255584B2 (ja) * | 1997-01-20 | 2002-02-12 | ロジック株式会社 | 有音検知装置および方法 |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
ATE280989T1 (de) * | 1997-09-12 | 2004-11-15 | Siemens Ag | Verfahren zur zurückweisung unbekannter wörter bei der spracherkennung von einzelworten |
US6055499A (en) * | 1998-05-01 | 2000-04-25 | Lucent Technologies Inc. | Use of periodicity and jitter for automatic speech recognition |
US6226606B1 (en) | 1998-11-24 | 2001-05-01 | Microsoft Corporation | Method and apparatus for pitch tracking |
US6556967B1 (en) * | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
JP4438127B2 (ja) * | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
FI116992B (fi) * | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
US7035790B2 (en) * | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US6954745B2 (en) * | 2000-06-02 | 2005-10-11 | Canon Kabushiki Kaisha | Signal processing system |
US7072833B2 (en) * | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US20020026253A1 (en) * | 2000-06-02 | 2002-02-28 | Rajan Jebu Jacob | Speech processing apparatus |
US7010483B2 (en) * | 2000-06-02 | 2006-03-07 | Canon Kabushiki Kaisha | Speech processing system |
JP4201470B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
JP4201471B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
US20020147585A1 (en) * | 2001-04-06 | 2002-10-10 | Poulsen Steven P. | Voice activity detection |
JP3812887B2 (ja) * | 2001-12-21 | 2006-08-23 | 富士通株式会社 | 信号処理システムおよび方法 |
US20030216909A1 (en) * | 2002-05-14 | 2003-11-20 | Davis Wallace K. | Voice activity detection |
KR100440973B1 (ko) * | 2002-08-01 | 2004-07-21 | 삼성전자주식회사 | 신호간 상관계수 결정 장치 및 방법과 이를 이용한 신호피치 결정 장치 및 방법 |
US8321427B2 (en) | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
JP4348970B2 (ja) | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
US20050015244A1 (en) * | 2003-07-14 | 2005-01-20 | Hideki Kitao | Speech section detection apparatus |
WO2005024780A2 (en) * | 2003-09-05 | 2005-03-17 | Grody Stephen D | Methods and apparatus for providing services using speech recognition |
CA2539442C (en) * | 2003-09-17 | 2013-08-20 | Nielsen Media Research, Inc. | Methods and apparatus to operate an audience metering device with voice commands |
KR100571831B1 (ko) * | 2004-02-10 | 2006-04-17 | 삼성전자주식회사 | 음성 식별 장치 및 방법 |
JP4327202B2 (ja) * | 2004-07-01 | 2009-09-09 | 日本電信電話株式会社 | 特定音響信号含有区間検出システム及びその方法並びにプログラム |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
CN100399419C (zh) * | 2004-12-07 | 2008-07-02 | 腾讯科技(深圳)有限公司 | 一种检测静音帧的方法 |
KR100682909B1 (ko) * | 2004-12-23 | 2007-02-15 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
FR2864319A1 (fr) * | 2005-01-19 | 2005-06-24 | France Telecom | Procede et dispositif de detection de parole dans un signal audio |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
KR100714721B1 (ko) * | 2005-02-04 | 2007-05-04 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US20060241937A1 (en) * | 2005-04-21 | 2006-10-26 | Ma Changxue C | Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments |
US20070033042A1 (en) * | 2005-08-03 | 2007-02-08 | International Business Machines Corporation | Speech detection fusing multi-class acoustic-phonetic, and energy features |
US7962340B2 (en) * | 2005-08-22 | 2011-06-14 | Nuance Communications, Inc. | Methods and apparatus for buffering data for use in accordance with a speech recognition system |
JP2007114413A (ja) * | 2005-10-19 | 2007-05-10 | Toshiba Corp | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
CN102222499B (zh) * | 2005-10-20 | 2012-11-07 | 日本电气株式会社 | 声音判别系统、声音判别方法以及声音判别用程序 |
US9015740B2 (en) | 2005-12-12 | 2015-04-21 | The Nielsen Company (Us), Llc | Systems and methods to wirelessly meter audio/visual devices |
AU2006325808B2 (en) * | 2005-12-12 | 2011-12-15 | The Nielsen Company (Us), Llc | Systems and methods to wirelessly meter audio/visual devices |
US8521537B2 (en) * | 2006-04-03 | 2013-08-27 | Promptu Systems Corporation | Detection and use of acoustic signal quality indicators |
JPWO2008007616A1 (ja) * | 2006-07-13 | 2009-12-10 | 日本電気株式会社 | 無音声発声の入力警告装置と方法並びにプログラム |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US20080033583A1 (en) * | 2006-08-03 | 2008-02-07 | Broadcom Corporation | Robust Speech/Music Classification for Audio Signals |
KR100774800B1 (ko) * | 2006-09-06 | 2007-11-07 | 한국정보통신대학교 산학협력단 | 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치 |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
CN101165779B (zh) * | 2006-10-20 | 2010-06-02 | 索尼株式会社 | 信息处理装置和方法、程序及记录介质 |
JP4239109B2 (ja) | 2006-10-20 | 2009-03-18 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
KR20100006492A (ko) * | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
US9124769B2 (en) * | 2008-10-31 | 2015-09-01 | The Nielsen Company (Us), Llc | Methods and apparatus to verify presentation of media content |
PT2491559E (pt) * | 2009-10-19 | 2015-05-07 | Ericsson Telefon Ab L M | Método e estimador de fundo para a detecção de actividade de voz |
US20140207456A1 (en) * | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
CN102629470B (zh) * | 2011-02-02 | 2015-05-20 | Jvc建伍株式会社 | 辅音区间检测装置及辅音区间检测方法 |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
WO2013093172A1 (en) * | 2011-12-20 | 2013-06-27 | Nokia Corporation | Audio conferencing |
US8892046B2 (en) * | 2012-03-29 | 2014-11-18 | Bose Corporation | Automobile communication system |
CN104409080B (zh) * | 2014-12-15 | 2018-09-18 | 北京国双科技有限公司 | 语音端点检测方法和装置 |
CN105118520B (zh) * | 2015-07-13 | 2017-11-10 | 腾讯科技(深圳)有限公司 | 一种音频开头爆音的消除方法及装置 |
US10231070B2 (en) * | 2016-04-29 | 2019-03-12 | Huawei Technologies Co., Ltd. | Voice input exception determining method, apparatus, terminal, and storage medium |
US10235993B1 (en) * | 2016-06-14 | 2019-03-19 | Friday Harbor Llc | Classifying signals using correlations of segments |
US9978392B2 (en) * | 2016-09-09 | 2018-05-22 | Tata Consultancy Services Limited | Noisy signal identification from non-stationary audio signals |
GB201617016D0 (en) | 2016-09-09 | 2016-11-23 | Continental automotive systems inc | Robust noise estimation for speech enhancement in variable noise conditions |
CN112397093B (zh) * | 2020-12-04 | 2024-02-27 | 中国联合网络通信集团有限公司 | 一种语音检测方法与装置 |
US20220180206A1 (en) * | 2020-12-09 | 2022-06-09 | International Business Machines Corporation | Knowledge distillation using deep clustering |
CN113345472B (zh) * | 2021-05-08 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音端点检测方法、装置、电子设备及存储介质 |
CN114743541B (zh) * | 2022-04-24 | 2023-03-17 | 广东海洋大学 | 一种英语听说学习用互动系统 |
CN118366478B (zh) * | 2024-06-19 | 2024-10-11 | 中国科学院自动化研究所 | 基于音素间隔序列的生成音频鉴别与生成区域定位方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4284846A (en) * | 1978-05-08 | 1981-08-18 | John Marley | System and method for sound recognition |
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
US4920568A (en) * | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
US4910784A (en) * | 1987-07-30 | 1990-03-20 | Texas Instruments Incorporated | Low cost speech recognition system and method |
IE61863B1 (en) * | 1988-03-11 | 1994-11-30 | British Telecomm | Voice activity detection |
JPH01277899A (ja) * | 1988-04-30 | 1989-11-08 | Oki Electric Ind Co Ltd | 音声帯域内信号検出方式 |
EP0459384B1 (de) * | 1990-05-28 | 1998-12-30 | Matsushita Electric Industrial Co., Ltd. | Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal |
-
1993
- 1993-05-19 JP JP5116980A patent/JPH06332492A/ja active Pending
-
1994
- 1994-05-19 US US08/246,346 patent/US5611019A/en not_active Expired - Fee Related
- 1994-05-19 EP EP00123382A patent/EP1083542B1/de not_active Expired - Lifetime
- 1994-05-19 DE DE69432943T patent/DE69432943T2/de not_active Expired - Fee Related
- 1994-05-19 DE DE69430082T patent/DE69430082T2/de not_active Expired - Fee Related
- 1994-05-19 EP EP00123381A patent/EP1083541B1/de not_active Expired - Lifetime
- 1994-05-19 DE DE69433254T patent/DE69433254T2/de not_active Expired - Fee Related
- 1994-05-19 EP EP94107786A patent/EP0625774B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1083541B1 (de) | 2003-07-09 |
EP1083541A2 (de) | 2001-03-14 |
JPH06332492A (ja) | 1994-12-02 |
EP0625774A2 (de) | 1994-11-23 |
EP1083542A3 (de) | 2002-01-23 |
EP0625774B1 (de) | 2002-03-13 |
DE69432943T2 (de) | 2003-12-24 |
DE69433254D1 (de) | 2003-11-20 |
DE69430082D1 (de) | 2002-04-18 |
EP1083541A3 (de) | 2002-02-20 |
DE69432943D1 (de) | 2003-08-14 |
EP1083542B1 (de) | 2003-10-15 |
DE69433254T2 (de) | 2004-08-12 |
US5611019A (en) | 1997-03-11 |
EP0625774A3 (de) | 1996-10-30 |
EP1083542A2 (de) | 2001-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69430082T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE68929442T2 (de) | Vorrichtung zur Erfassung von Sprachlauten | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE602004000382T2 (de) | Rauschadaptierung zur Spracherkennung | |
DE69616568T2 (de) | Mustererkennung | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE69716266T2 (de) | Sprachaktivitätsdetektor | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69030561T2 (de) | Spracherkennungseinrichtung | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE112009000805B4 (de) | Rauschreduktion | |
DE69800006T2 (de) | Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung | |
DE69033084T2 (de) | Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69132645T2 (de) | Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal | |
DE69032777T2 (de) | Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE602004000716T2 (de) | Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
EP0815553B1 (de) | Verfahren zur erkennung einer signalpause zwischen zwei mustern, welche in einem zeitvarianten mess-signal vorhanden sind |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |