DE60118831T2

DE60118831T2 - Spracherkennungsverfahren und-vorrichtung sowie entsprechendes medium

Info

Publication number: DE60118831T2
Application number: DE60118831T
Authority: DE
Inventors: c/o NEC Corporation Atsushi Murashima
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-06-02
Filing date: 2001-05-29
Publication date: 2006-11-30
Anticipated expiration: 2021-05-30
Also published as: ATE323931T1; DE60118831D1; US7698135B2; US20020007270A1; EP1160763B1; EP1160763A3; CA2349102C; US7117150B2; JP2001350488A; US20060271363A1; JP4221537B2; EP1160763A2; CA2349102A1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Spracherkennungsverfahren und eine -vorrichtung, welche bei der Umschaltung eines Codierverfahrens auf ein Decodierverfahren zwischen einem Sprachabschnitt und einem Nichtsprachabschnitt in einer Codiervorrichtung und einer Decodiervorrichtung zur Übertragung eines Sprachsignals bei niedriger Bitrate verwendet werden.
In der mobilen Sprachkommunikation, wie beispielsweise bei einem Mobiltelefon, existiert im Hintergrund einer Konversationssprache ein Rauschen, und jedoch wird angenommen, dass eine zur Übertragung eines Hintergrundrauschens in einem Nichtsprachabschnitt nötige Bitrate verglichen zur Sprache niedriger ist. Dementsprechend existieren vom Standpunkt einer Verbesserung der Verwendungseffizienz eines Schaltkreises her zahlreiche Fälle, in welchen ein Sprachabschnitt erfasst wird, und ein spezifi sches Codierverfahren für ein Hintergrundrauschen, welches eine niedrige Bitrate aufweist, in dem Nichtsprachabschnitt verwendet wird. Beispielsweise wird in einem ITU-T-Standard G.729 Sprachcodierverfahren weniger Information über ein Hintergrundrauschen periodisch in dem Nichtsprachabschnitt übertragen. Zu diesem Zeitpunkt ist ein korrekter Betrieb für die Spracherkennung erforderlich, so dass die Verschlechterung der Sprachqualität vermieden und eine Bitrate effektiv verringert wird. Hier kann als herkömmliches Spracherkennungsverfahren beispielsweise "A Silence Compression Scheme for G.729 Optimized for Terminals Conforming to ITU-T V.70" (ITU-T Empfehlung G.729, Anhang B) (Hier als "Literatur 1" bezeichnet) oder eine Beschreibung in einem Absatz B.3 (eine ausführliche Beschreibung eines VAD-Algorithmus) aus "A Silence Compression Scheme for Standard JT-G729 Optimized for ITU-T Recommendation V.70 Terminals" (Telegraph Telephone Technical Committee Standard JT-G729, Anhang B) (Hier als "Literatur 2" bezeichnet) oder "ITU-T Empfehlung G.729 Anhang B: A Silence Compression Scheme for Use with G.729 Optimized for V.70 Digital Simultaneous Voice and Data Applications" (IEEE Communication Magazine, S. 64–77, September 1997) (Hier als "Literatur 3" bezeichnet) genannt werden.
6 ist ein Blockdiagramm, welches ein Anordnungsbeispiel einer herkömmlichen Spracherkennungsvorrichtung zeigt. Es wird angenommen, dass eine Spracheingabe in diese Spracherkennungsvorrichtung mit einer Blockeinheit (Rahmen) einer Periode von T_fr msec (beispielsweise 10 msec) geleitet wird. Eine Rahmenlänge wird mit L_fr Abtastwerten (beispielsweise 80 Abtastwerten) angenommen. Die Anzahl von Abtastwerten in einem Rahmen wird durch eine Abtastfrequenz (beispielsweise 8 kHZ) der eingegebenen Sprache bestimmt.
Mit Bezug auf 5 wird jeder Bestandteil der herkömmlichen Spracherkennungsvorrichtung erläutert.
Sprache wird von einem Eingangsanschluss 10 eingegeben, und ein linearer vorhersehbarer Koeffizient wird von einem Eingangsan schluss 11 aus eingegeben. Hier wird der lineare vorhersehbare Koeffizient durch Anwendung einer linearen vorhersehbaren Analyse auf den vorstehend beschriebenen Eingangssprachvektor in einer Sprachcodiervorrichtung erhalten, in welcher die Spracherkennungsvorrichtung verwendet wird. Im Hinblick auf die lineare vorhersehbare Analyse kann ein bekanntes Verfahren, beispielsweise Kapitel 8, "Linear Predictive Coding of Speech" in "Digital Processing of Speech Signals" (Prentice-Hall, 1978) (Hier als "Literatur 4" bezeichnet) von L. R. Rabiner et al. genannt werden. Zusätzlich wird für den Fall, dass die erfindungsgemäße Spracherkennungsvorrichtung unabhängig von der Sprachcodiervorrichtung realisiert wird, die vorstehend beschriebene lineare vorhersehbare Analyse in dieser Spracherkennungsvorrichtung durchgeführt.
Ein LSF-Berechnungsschaltkreis 1011 empfängt den linearen vorhersehbaren Koeffizienten über den Eingangsanschluss 11 und berechnet eine Frequenz des Linienspektrums (LSF) aus dem vorstehend beschriebenen linearen vorhersehbaren Koeffizienten und gibt die vorstehend beschriebene LSF an einen ersten Änderungsmengen-Berechnungsschaltkreis 1031 und einen ersten Bewegungsmittelwert-Berechnungsschaltkreis 1021 aus. Hier wird im Hinblick auf die Berechnung der LSF aus dem linearen vorhersehbaren Koeffizienten ein bekanntes Verfahren, beispielsweise ein in Absatz 3.2.3 der Literatur 1 beschriebenes Verfahren usw. verwendet.
Ein Gesamtbandenergie-Berechnungsschaltkreis 1012 empfängt Sprache (Eingangssprache) über den Eingangsanschluss 10 und berechnet eine Gesamtbandenergie der Eingangssprache und gibt die vorstehend beschriebene Gesamtbandenergie an einen zweiten Änderungsmengen-Berechnungsschaltkreis 1032 und einen zweiten Bewegungsmittelwert-Berechnungsschaltkreis 1022 aus. Hier ist die Gesamtbandenergie E_f ein Logarithmus einer normalisierten Nullgrad-Autokorrelationsfunktion R(0) und wird durch folgende Gleichung dargestellt: Ef = 10·log10 [1/N R(0)]
Auch wird ein Autokorrelationskoeffizient durch folgende Gleichung dargestellt:
Hier ist N eine Länge (Analysefensterlänge, beispielsweise 10 Abtastwerte) eines Fensters der linearen vorhersehbaren Analyse für die Eingangssprache, und S¹(n) die Eingangssprache multipliziert mit dem vorstehend beschriebenen Fenster.
Für den Fall dass N>Lfr soll sie durch Halten der Sprache, welche in dem vorangegangenen Rahmen eingegeben wurde, Sprache für die vorstehend beschriebene Analysefensterlänge sein.
Ein Unterbandenergie-Berechnungsschaltkreis 1013 empfängt Sprache (Eingangssprache) über den Eingangsanschluss 10 und berechnet eine Unterbandenergie der Eingangssprache und gibt die vorstehend beschriebene Unterbandenergie an einen dritten Änderungsmengen-Berechnungsschaltkreis 1033 und einen dritten Bewegungsmittelwert-Berechnungsschaltkreis 1023 aus. Hier wird die Unterbandenergie E_i von 0 bis F_i Hz durch folgende Gleichung dargestellt:
Hier stellt
h ^ eine Impulserwiderung eines FIR-Filters dar, dessen Sperrfrequenz F₁ Hz ist, und
R ^ stellt eine Teplitz-Autokorrelationsmatrix dar, deren diagonale Komponenten Autokorrelationskoeffizienten R(k) sind.
Ein Nullstellenzahl-Berechnungsschaltkreis 1014 empfängt Sprache (Eingangssprache) über den Eingangsanschluss 10 und berechnet eine Nullstellenzahl eines Eingangssprachenvektors und gibt die vorstehend beschriebene Nullstellenzahl an einen vierten Änderungsmengen-Berechnungsschaltkreis 1034 und einen vierten Bewegungsmittelwert-Berechnungsschaltkreis 1024 aus. Hier wird die Nullstellenzahl Z_c durch folgende Gleichung dargestellt:
Hier ist S(n) die Eingangssprache, und sgn[x] ist eine Funktion, welche 1 beträgt, wenn x eine positive Zahl ist, und welche 0 beträgt, wenn es eine negative Zahl ist.
Der erste Bewegungsmittelwert-Berechnungsschaltkreis 1021 empfängt die LSF von dem LSF-Berechnungsschaltkreis 1011 und berechnet eine durchschnittliche LSF in dem aktuellen Rahmen (momentaner Rahmen) aus der vorstehend beschriebenen LSF sowie einer in den vorangegangenen Rahmen berechneten LSF und gibt sie an den ersten Änderungsmengen-Berechnungsschaltkreis 1031 aus. Hier wird eine LSF in dem m-ten Rahmen angenommen mit ωi [m], i = 1, ..., P eine durchschnittliche LSF in dem m-ten Rahmen ω i [m], i = 1, ..., P wird durch folgende Gleichung dargestellt: ω i [m] = βLSF·ω i [m-1] + (1 – βLSF)·ωi [m], i = 1, ..., P
Hier ist P eine lineare vorhersehbare Ordnung (beispielsweise 10), und β_LSF ist eine bestimmte konstante Zahl (beispielsweise 0,7).
Der zweite Bewegungsmittelwert-Berechnungsschaltkreise 1022 empfängt die Gesamtbandenergie von dem Gesamtbandenergie-Berechnungsschaltkreis 1012 und berechnet eine durchschnittliche Gesamtbandenergie in dem aktuellen Rahmen aus der vorstehend beschriebenen Gesamtbandenergie und einer durchschnittlichen Gesamtbandenergie, welche in den vorangegangenen Rahmen berechnet wurde, und gibt sie an den zweiten Änderungsmengen-Berechnungsschaltkreis 1032 aus. Hier wird unter der Annahme, dass eine Gesamtbandenergie in dem m-ten Rahmen E_f ^[ ^ml beträgt, eine durchschnittliche Gesamtbandenergie in dem m-ten Rahmen E f[m]durch die folgende Gleichung dargestellt: E f [m] = βEf·E f [m–1] + (1-βEf)·Ef [m]
Hier ist β_Ef eine bestimmte konstante Zahl (beispielsweise 0,7).
Der dritte Bewegungsmittelwert-Berechnungsschaltkreis 1023 empfängt die Unterbandenergie von dem Unterbandenergie-Berechnungsschaltkreis 1013 und berechnet eine durchschnittliche Unterbandenergie in dem aktuellen Rahmen aus der vorstehend beschriebenen Unterbandenergie und einer in den vorangegangenen Rahmen berechneten durchschnittlichen Unterbandenergie und gibt sie an den dritten Änderungsmengen-Berechnungsschaltkreis 1033 aus. Hier wird unter der Annahme, dass eine Unterbandenergie in dem m-ten Rahmen E_l ^[m] ist, eine durchschnittliche Unterbandenergie in dem m-ten Rahmen E l [m] durch die folgende Gleichung dargestellt: E l[m] = βEl·E l [m –1] + (1-βEl)·El [m]
Hier ist β_El eine bestimmte konstante Zahl (beispielsweise 0,7).
Der vierte Bewegungsmittelwert-Berechnungsschaltkreis 1024 empfängt die Nullstellenzahl von dem Nullstellenzahl-Berechnungsschaltkreis 1014 und berechnet eine durchschnittliche Nullstellenzahl in dem aktuellen Rahmen aus der vorstehend beschriebenen Nullstellenzahl und einer in vorangegangenen Rahmen berechneten durchschnittlichen Nullstellenzahl und gibt sie an den vierten Änderungsmengen-Berechnungsschaltkreis 1034 aus. Hier wird unter der Annahme, dass eine Nullstellenzahl in dem m-ten Rahmen Z_c ^[m] beträgt, eine Nullstellenzahl in dem m-ten Rahmen Z c [m] durch die folgende Gleichung dargestellt: Z c [m] = βZc·Z c [m–1] + (1-βZc)·Zc [m]
Hier ist β_Zc eine bestimmte konstante Zahl (beispielsweise 0,7).
Der erste Änderungsmengen-Berechnungsschaltkreis 1031 empfängt LSF ω_i ^[m] von dem LSF-Berechnungsschaltkreis 1011 und empfängt die durchschnittliche LSF ω i [m] von dem ersten Bewegungsmittelwert-Berechnungsschaltkreis 1021 und berechnet spektrale Änderungsmengen (erste Änderungsmengen) aus der vorstehend beschriebenen LSF und der vorstehend beschriebenen durchschnittlichen LSF und gibt die vorstehend beschriebenen ersten Änderungsmengen an einen Sprache-/Nicht sprache-Bestimmungsschaltkreis 1040 aus. Hier werden die ersten Änderungsmengen ΔS^[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt:
Der zweite Änderungsmengen-Berechnungsschaltkreis 1032 empfängt die Gesamtbandenergie E_f ^[ ^m] von dem Gesamtbandenergie-Berechnungsschaltkreis 1012 und empfängt die durchschnittliche Gesamtbandenergie E f [ml von dem zweiten Bewegungsmittelwert-Berechnungsschaltkreis 1022 und berechnet Gesamtbandenergie-Änderungsmengen (zweite Änderungsmengen) aus der vorstehend beschriebenen Gesamtbandenergie und der vorstehend beschriebenen durchschnittlichen Gesamtbandenergie und gibt die vorstehend beschriebenen zweiten Änderungsmengen an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier werden die zweiten Änderungsmengen ΔE_f ^[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt: ΔEf [m] = E f [m] – Ef [m]
Der dritte Änderungsmengen-Berechnungsschaltkreis 1033 empfängt die Unterbandenergie E_l ^[ ^ml von dem Unterbandenergie-Berechnungsschaltkreis 1013 und empfängt die durchschnittliche Unterbandenergie E l [m] von dem dritten Bewegungsmittelwert-Berechnungsschaltkreis 1023 und berechnet Unterbandergie-Änderungsmengen (dritte Änderungsmengen) aus der vorstehend beschriebenen Unterbandenergie und der vorstehend beschriebenen durchschnittlichen Unterbandenergie und gibt die vorstehend beschriebenen dritten Änderungsmengen an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier werden die dritten Änderungsmengen ΔE_l ^[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt: ΔEl [m] – E l [m] – El [m]
Der vierte Änderungsmengen-Berechnungsschaltkreis 1034 empfängt die Nullstellenzahl Z_c[m] von dem Nullstellenzahl-Berechnungsschaltkreis 1014 und empfängt die Nullstellenzahl Z c [m] von dem vierten Bewegungsmittelwert-Berechnungsschaltkreis 1024 und berechnet Nullstellenzahl-Änderungsmengen (vierte Änderungsmengen) aus der vorstehend beschriebenen Nullstellenzahl und der vorstehend beschriebenen durchschnittlichen Nullstellenzahl und gibt die vorstehend beschriebenen vierten Änderungsmengen an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier werden die vierten Änderungsmengen ΔZ_c ^[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt: ΔZc [m] = Z c [m] – Zc [m]
Der Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 empfängt die ersten Änderungsmengen von dem ersten Änderungsmengen-Berechnungsschaltkreis 1031, empfängt die zweiten Änderungsmengen von dem zweiten Änderungsmengen-Berechnungsschaltkreis 1032, empfängt die dritten Änderungsmengen von dem dritten Änderungsmengen-Berechnungsschaltkreis 1033 und empfängt die vierten Änderungsmengen von dem vierten Änderungsmengen-Berechnungsschaltkreis 1034, außerdem bestimmt der Sprache-/Nichtsprache-Bestimmungsschaltkreis, dass ein Sprachabschnitt existiert, wenn ein vierdimensionaler Vektor bestehend aus den vorstehend beschriebenen ersten Änderungsmengen, den vorstehend beschriebenen zweiten Änderungsmengen, den vorstehend beschriebenen dritten Änderungsmengen und den vorstehend beschriebenen vierten Änderungsmengen innerhalb einer Sprachregion in einem vierdimensionalen Raum existiert, und andernfalls bestimmt der Sprache-/Nichtsprache-Bestimmungsabschnitt, dass ein Nichtsprachabschnitt existiert und setzt ein Bestimmungsflag auf 1 im Falle des vorstehend beschriebenen Sprachabschnitts und setzt das Bestimmungsflag auf 0 im Falle des vorstehend beschriebenen Nichtsprachabschnitts und gibt das vorstehend beschriebene Bestimmungsflag an einen Bestimmungswert-Ebnungsschaltkreis 1050 aus. Für die Bestimmung der Sprache und der Nichtsprache (Sprache-/Nichtsprache-Bestimmung) können beispielsweise 14 Arten von Grenzbestimmungen, welche in Absatz B.3.5 der Literaturen 1 und 2 beschrieben sind, verwendet werden.
Der Bestimmungswert-Korrekturschaltkreis 1050 empfängt das Bestimmungsflag von dem Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 und empfängt die Gesamtbandenergie von dem Gesamtbandenergie-Berechnungsschaltkreis 1012 und korrigiert das vorstehend beschriebene Bestimmungsflag in Übereinstimmung mit einer vorgegebenen Bedingungsgleichung und gibt das korrigierte Bestimmungsflag über den Ausgangsanschluss aus. Hier wird die Korrektur des vorstehend beschriebenen Bestimmungsflags wie folgt durchgeführt: Falls ein vorangehender Rahmen ein Sprachabschnitt ist (anders gesagt, das Bestimmungsflag ist 1), und falls die Energie des aktuellen Rahmens einen bestimmten Schwellenwert übersteigt, wird das Bestimmungsflag auf 1 gesetzt. Auch falls zwei Rahmen einschließlich des vorangehenden Rahmen kontinuierlich den Sprachabschnitt darstellen, und falls ein absoluter Wert einer Differenz zwischen der Energie des aktuellen Rahmen und der Energie des vorangehenden Rahmen geringer ist als ein bestimmter Schwellenwert, wird das Bestimmungsflag auf 1 gesetzt. Andererseits, wenn die letzten zehn Rahmen Nichtsprachabschnitte sind (anders gesagt, das Bestimmungsflag ist 0) und falls eine Differenz zwischen der Energie des aktuellen Rahmen und der Energie des vorangehenden Rahmen geringer ist als ein bestimmter Schwellenwert, wird das Bestimmungsflag auf 0 gesetzt. Für die Korrektur des Bestimmungsflags kann beispiels weise eine Bedingungsgleichung, welche in Absatz B.3.6 der Literaturen 1 und 2 beschrieben ist, verwendet werden.
Das vorstehend erwähnte herkömmliche Spracherkennungsverfahren hat die Aufgabe, dass dort ein Fall besteht, in welchem ein Erfassungsfehler in dem Sprachabschnitt (fehlerhafte Erfassung eines Nichsprachabschnitts für einen Sprachabschnitt) und ein Erfassungsfehler in dem Nichtsprachabschnitt (fehlerhafte Erfassung eines Sprachabschnitts für einen Nichtsprachabschnitt) auftreten.
Der Grund dafür besteht darin, dass die Sprache-/Nichtsprache-Bestimmung mittels direkter Verwendung der Änderungsmengen des Spektrums, der Änderungsmengen der Energie und der Änderungsmengen der Nullstellenzahl durchgeführt wird. Obgleich tatsächliche Eingangssprache den Sprachabschnitt darstellt, da ein Wert jeder der vorstehend beschriebenen Änderungsmengen eine große Änderung aufweist, existiert die tatsächliche Eingangssprache nicht immer in einem in Übereinstimmung mit dem Sprachabschnitt vorbestimmten Wertbereich. Dementsprechend tritt der vorstehend beschriebene Erfassungsfehler in dem Sprachabschnitt auf. Dies ist der gleiche wie in dem Nichtsprachabschnitt.
Die Druckschrift "The NP Speech Activity Detection Algorithm", Joseph Pencak, Douglas Nelson, PROCEEDINGS OF INTERNATIONAL CONFERENCE ON ACOUSTICS; SPEECH AND SIGNAL PROCESSING, DETROIT, MI, USA, 09. Mai 1995 bis 12. Mai 1995, IEEE, Seiten 381 bis 384, offenbart ein Spracherkennungsverfahren der Unterscheidung eines Sprachabschnitts von einem Nichtsprachabschnitt für jede bestimmte Zeitlänge für ein Sprachsignal mit Hilfe des aus dem für jede bestimmte Zeitlänge eingegebenen Sprachsignal berechneten Merkmals (Zusammenfassung).
Weiter wird eine Änderungsmenge (X–μ) der Merkmalsmenge (X) mit Hilfe der Merkmalsmenge (X) und eines Langzeitmittelwertes der Änderungsmenge (V) berechnet, wie auf S. 383, Spalte 1, Zeilen 13–41 [des englischen Textes] beschrieben.
Zusätzlich wird ein Langzeitmittelwert der Änderungsmenge (X–μ) berechnet durch Eingabe der Änderungsmenge der Merkmalsmenge (X) in Filter, und der Sprachabschnitt wird von dem Nichtsprachabschnitt für jede bestimmte Zeitlänge in dem Sprachsignal mit Hilfe des Langzeitmittelwertes der Änderungsmenge unterschieden (Seite 383, Spalte 1, Zeilen 13–41 [des englischen Textes]).
Ausgehend von der Veröffentlichung: "The NP Speech Activity Detection Algorithm" ist es ein Ziel der vorliegenden Erfindung, ein Spracherkennungsverfahren sowie eine Spracherkennungsvorrichtung zur Unterscheidung eines Sprachabschnitts von einem Nichtsprachabschnitt für jede bestimmte Zeitlänge für ein Sprachsignal bereitzustellen, welche in der Lage sind, einen Erfassungsfehler in dem Sprachabschnitt und einen Erfassungsfehler in dem Nichtsprachabschnitt zu reduzieren.
ZUSAMMENFASUNG DER ERFINDUNG
Die vorliegende Erfindung erfolgt, um die vorstehend erwähnten Probleme zu lösen.
Die erste Erfindung der vorliegenden Anmeldung ist ein Spracherkennungsverfahren der Unterscheidung eines Sprachabschnitts von einem Nichtsprachabschnitt für jede bestimmte Zeitlänge für ein Sprachsignal mit Hilfe einer Merkmalsmenge, welche aus dem für jede bestimmte Zeitlänge eingegebenen Sprachsingal berechnet wird und folgende Schritte aufweist: Berechnung einer Änderungsmenge der Merkmalsmenge mit Hilfe der Merkmalsmenge und eines Langzeitmittelwertes davon; Berechnen eines Langzeitmittelwertes der Änderungsmenge durch Eingabe der Änderungsmenge der Merkmalsmenge in Filter; und Unterscheiden des Sprachabschnitts von dem Nichtsprachabschnitt für jede bestimmte Zeitlänge in dem Sprachsignal mit Hilfe des Langzeitmittelwertes der Änderungsmenge, dadurch gekennzeichnet, dass sie weiter den Schritt des Umschaltens der Filter aufeinander aufweist, wenn der Langzeit mittelwert der Änderungsmenge berechnet wird, und zwar mit Hilfe eines Ergebnisses der Unterscheidungsausgabe in dem vorangegangenen Rahmen.
Das Spracherkennungsverfahren der vorliegenden Erfindung gemäß Offenbarung durch Anspruch 1 ist dadurch gekennzeichnet, dass die aus der vorstehend beschriebenen Sprachsignaleingabe in der Vergangenheit berechnete Merkmalsmenge verwendet wird.
Weiterhin wird wenigstens entweder eine Frequenz des Linienspektrums, eine Gesamtbandenergie, eine Unterbandenergie oder eine Nullstellenzahl für die vorstehend beschriebene Merkmalsmenge verwendet.
Dann wird mindestens entweder eine Frequenz des Linienspektrums, welche aus einem mit Hilfe eines Sprachdecodierverfahrens decodierten linearen vorhersehbaren Koeffizienten berechnet wird, eine Gesamtbandenergie, eine Unterbandenergie oder eine Nullstellenzahl, welche aus einem in der Vergangenheit mit Hilfe des vorstehend beschriebenen Sprachdecodierverfahrens ausgegebenen regenerativen Sprachsignal berechnet werden, verwendet.
Eine Spracherkennungsvorrichtung gemäß Anspruch 5 wird zur Unterscheidung eines Sprachabschnitts von einem Nichtsprachabschnitt für jede bestimmte Zeitlänge für ein Sprachsignal bereitgestellt, welche Merkmalsmengen verwendet, die aus der vorstehend beschriebenen Sprachsignaleingabe für jede bestimmte Zeitlänge berechnet werden, wobei die Vorrichtung Filter zur Berechnung eines Langzeitmittelwertes der Änderungsmengen aufweist und dadurch gekennzeichnet ist, dass sie folgendes aufweist: einen LSF-Berechnungsschaltkreis zur Berechnung einer Frequenz des Linienspektrums (LSF) aus dem vorstehend beschriebenen Sprachsignal; einen Gesamtbandenergie-Berechnungsschaltkreis zur Berechnung einer Gesamtbandenergie aus dem vorstehend beschriebenen Sprachsignal; einen Unterbandenergie-Berechnungsschaltkreis zur Berechnung einer Unterbandenergie aus dem vorstehend beschriebenen Sprachsignal; einen Nullstellenzahl- Berechnungsschaltkreis zur Berechnung einer Nullstellenzahl aus dem vorstehend beschriebenen Sprachsignal; einen LSF-Änderungsmengen-Berechnungsabschnitt zur Berechnung der Änderungsmengen (erste Änderungsmengen) der vorstehend beschriebenen Frequenz des Linienspektrums; einen Gesamtbandenergie-Änderungsmengen-Berechnungsabschnitt zur Berechnung der Änderungsmengen (zweite Änderungmengen) der vorstehend beschriebenen Gesamtbandenergie; einen Unterbandenergie-Änderungsmengen-Berechnungsabschnitt zur Berechnung von Änderungsmengen (dritte Änderungsmengen) der vorstehend beschriebenen Unterbandenergie; einen Nullstellenzahl-Änderungsmengen-Berechnungsabschnitt zur Berechnung von Änderungsmengen (vierte Änderungsmengen) der vorstehend beschriebenen Nullstellenzahl; und Schalter zum Umschalten der Filter zur Berechnung eines Langzeitmittelwertes der Änderungsmengen aufeinander mit Hilfe eines Ergebnisses der Unterscheidungsausgabe in dem vorangegangenen Rahmen. Weiterhin ist die Spracherkennungsvorrichtung gekennzeichnet durch ein erstes Filter zur Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen ersten Änderungsmengen; ein zweites Filter zur Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen zweiten Änderungsmengen; ein drittes Filter zur Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen dritten Änderungsmengen; und ein viertes Filter zur Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen vierten Änderungsmengen.
Die vorstehend beschriebene Spracherkennungsvorrichtung ist weiter dadurch gekennzeichnet, dass die Änderungsmengen-Berechnungsabschnitte geeignet sind zur Berechnung erster Änderungsmengen basierend auf einer Differenz zwischen der vorstehend beschriebenen Frequenz des Linienspektrums und einem Langzeitmittelwert davon.
Die Spracherkennungsvorrichtung der vorliegenden Anmeldung ist weiter dadurch gekennzeichnet, dass in der siebten oder achten Erfindung die Vorrichtung folgendes aufweist: einen ersten Speicherschaltkreis zum Halten eines Ergebnises der vorstehend beschriebenen Unterscheidung, welches in der Vergangenheit von der vorstehend beschriebenen Spracherkennungsvorrichtung ausgegeben wurde; einen ersten Schalter zum Umschalten eines fünften Filters auf ein sechstes Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen ersten Änderungsmengen berechnet wird; einen zweiten Schalter zum Umschalten eines siebten Filters auf ein achtes Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen zweiten Änderungsmengen berechnet wird; einen dritten Schalter zum Umschalten eines neunten Filters auf ein zehntes Filter mit Hilfe des Ergebnisses der vorstehehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen dritten Änderungsmengen berechnet wird; und einen vierten Schalter zum Umschalten eines elften Filters auf ein zwölftes Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstheend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen vierten Änderungsmengen berechnet wird.
Die zehnte Erfindung der vorliegenden Anmeldung ist dadurch gekennzeichnet, dass die vorstehend beschriebene Frequenz des Linienspektrums, die vorstehend beschriebene Gesamtbandenergie, die vorstehend beschriebene Unterbandenergie und die vorstehend beschriebene Nullstellenzahl aus dem vorstehend beschriebenen, in dem vorangegangenen Rahmen eingegebenen Sprachsignal berechnet werden.
Die Spracherkennungsvorrichtung der vorliegenden Anmeldung ist weiter dadurch gekennzeichnet, dass mindestens entweder die Frequenz des Linienspektrums, die Gesamtbandenergie, die Unterbandenergie oder die Nullstellenzahl für die Merkmalsmenge verwendet werden.
Weiter ist die Spracherkennungsvorrichtung der vorliegenden Erfindung dadurch gekennzeichnet, dass sie einen zweiten Speicherschaltkreis zum Speichern und Halten einer regenerativen Sprachsignalausgabe aus einer Sprachdecodiervorrichtung in dem vorangegangenen Rahmen aufweist und mindestens entweder eine Gesamtbandenergie, eine Unterbandenergie oder eine Nullstellenzahl verwendet, welche aus der vorstehend beschriebenen regenerativen Sprachsignalausgabe aus dem vorstehend beschriebenen zweiten Speicherschaltkreis berechnet werden, sowie eine Frequenz des Linienspektrums, welche aus einem linearen vorhersehbaren Koeffizienten berechnet wird, der in der vorstehend beschriebenen Sprachdecodiervorrichtung decodiert wird.
Die Erfindung der vorliegenden Anmeldung stellt als nächstes gemäß Anspruch 12 ein Aufzeichnungsmedium bereit, welches durch eine Datenverarbeitungsvorrichtung lesbar ist, die eine Spracherkennungsvorrichtung zur Unterscheidung eines Sprachabschnittes von einem Nichtsprachabschnitt für jede bestimmte Zeitlänge für ein Sprachsignal darstellt, wobei Merkmalsmengen verwendet werden, welche aus der vorstehend beschriebenen Sprachsignaleingabe für jede bestimmte Zeitlänge berechnet werden, wobei die Spracherkennungsvorrichtung Schalter zum Umschalten von Filtern, welche einen Langzeitmittelwert von Änderungsmengen berechnen, aufeinander mit Hilfe eines Ergebnisses der Unterscheidung, das in den vorangegangenen Rahmen ausgegeben wurde, aufweist, und ein Programm aufgezeichnet wird, um die Datenverarbeitungsvorrichtung zur Ausführung von Schritten (a) bis (1) zu veranlassen: (a) einen Schritt der Berechnung einer Frequenz des Linienspektrums (LSF) aus dem vorstehend beschriebenen Sprachsignal; (b) einen Schritt der Berechnung einer Gesamtbandenergie aus dem vorstehend beschriebenen Sprachsignal; (c) einen Schritt der Berechnung einer Unterbandenergie aus dem vorstehend beschriebenen Sprachsignal; (d) einen Schritt der Berechnung einer Nullstellenzahl aus dem vorstehend beschriebenen Sprachsignal; (e) einen Schritt der Berechnung von Änderungsmengen (erste Änderungsmengen) der vorstehend beschriebenen Frequenz des Linien spektrums; (f) einen Schritt der Berechnung von Änderungsmengen (zweite Änderungsmengen) der vorstehend beschriebenen Gesamtbandenergie; (g) einen Schritt der Berechnung von Änderungsmengen (dritte Änderungsmengen) der vorstehend beschriebenen Unterbandenergie; (h) einen Schritt der Berechnung von Änderungsmengen (vierte Änderungsmengen) der vorstehend beschriebenen Nullstellenzahl; (I) einen Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen ersten Änderungsmengen; (j) einen Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen zweiten Änderungsmengen; (k) einen Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen dritten Änderungsmengen; und (l) einen Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen vierten Änderungsmengen.
Das Aufzeichnungsmedium gemäß vorstehender Beschreibung ist weiter dadurch gekennzeichnet, dass die ersten Änderungsmengen auf der Basis einer Differenz zwischen der vorstehend bechriebenen Frequenz des Linienspektrums und einem Langzeitmittelwert davon berechnet werden; die zweiten Änderungsmengen auf der Basis der Differenz zwischen der vorstehend beschriebenen Gesamtbandenergie und einem Langzeitmittelwert davon berechnet werden; die dritten Änderungsmengen auf der Basis einer Differenz zwischen der vorstehend beschriebenen Unterbandenergie und einem Langzeitmittelwert davon berechnet werden; und die vierten Änderungsmengen auf der Basis einer Differenz zwischen der vorstehend beschriebenen Nullstellenzahl und einem Langzeitmittelwert davon berechnet werden.
Ein Aufzeichnungsmedium gemäß vorstehender Beschreibung, welche durch die Datenverarbeitungsvorrichtung lesbar ist, wird bereitgestellt, in welchem ein Programm aufgezeichnet wird, um die vorstehend beschriebene Datenverarbeitungsvorrichtung zur Ausführung von Schritten (a) bis (e) zu veranlassen: (a) einen Schritt des Haltens eines Ergebnisses der vorstehend beschriebenen Unterscheidung, welches in den vorangegangenen Rahmen ausgegeben wurde; (b) einen Schritt des Umschaltens eines fünften Filters auf ein sechstes Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen ersten Änderungsmengen berechnet wird; (c) einen Schritt des Umschaltens eines siebten Filters auf ein achtes Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen zweiten Änderungsmengen berechnet wird, (d) einen Schritt des Umschaltens eines neunten Filters auf ein zehntes Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen dritten Änderungsmengen berechnet wird; und (e) einen Schritt des Umschaltens eines elften Filters auf ein zwölftes Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen vierten Änderungsmengen berechnet wird.
Ein Aufzeichnungsmedium gemäß vorstehender Beschreibung, welches durch die Datenverarbeitungsvorrichtung lesbar ist, wird bereitgestellt, in welchem ein Programm aufgezeichnet wird, um die vorstehend beschriebene Datenverarbeitungsvorrichtung zur Ausführung eines Schrittes der Berechnung der vorstehend beschriebenen Frequenz des Linienspektrums, der vorstehend beschriebenen Gesamtbandenergie, der vorstehend beschriebenen Unterbandenergie und der vorstehend beschriebenen Nullstellenzahl aus der vorstehend beschriebenen Sprachsignaleingabe in dem vorangegangenen Rahmen zu veranlassen.
Ein Aufzeichnungsmedium gemäß vorstehender Beschreibung wird bereitgestellt, welches durch die vorstehend beschriebene Datenverarbeitungsvorrichtung lesbar ist, auf welchem ein Programm aufgezeichnet wird, um die vorstehend beschriebene Datenverar beitungsvorrichtung zur Durchführung (a) eines Schrittes des Speicherns und Haltens einer regenerativen Sprachsignalausgabe aus einer Sprachdecodiervorrichtung in dem vorangegangenen Rahmen, sowie mindestens eines der Schritte (b) bis (e) zu veranlassen- (b) einen Schritt der Berechnung einer Frequenz des Linienspektrums (LSF) aus dem vorstehend beschriebenen regenerativen Sprachsignal; (c) einen Schritt der Berechnung einer Gesamtbandenergie aus dem vorstehend beschriebenen regenerativen Sprachsignal; (d) einen Schritt der Berechnung einer Unterbandenergie aus dem vorstehend beschriebenen regenerativen Sprachsignal; und (e) einen Schritt der Berechnung einer Nullstellenzahl aus dem vorstehend beschriebenen regenerativen Sprachsignal.
In der vorliegenden Erfindung wird die Sprache-/Nichtsprache-Bestimmung mit Hilfe der Langzeitmittelwerte der Spektrumsänderungsmengen, der Energieänderungsmengen und der Nullstellenzahländerungsmengen durchgeführt. Da im Hinblick auf den Langzeitmittelwert jeder der vorstehend beschriebenen Änderungsmengen eine Änderung eines Wertes innerhalb jedes Abschnitts von Sprache und Nichtsprache verglichen mit den vorstehend beschriebenen Änderungsmengen selbst geringer ist, existieren Werte der vorstehend beschriebenen Langzeitmittelwerte mit einer hohen Rate innerhalb eines im Voraus in Übereinstimmung mit dem Sprachabschnitt und dem Nichtsprachabschnitt festgelegten Wertbereichs. Daher können ein Erfassungsfehler in dem Sprachabschnitt und ein Erfassungsfehler in dem Nichtsprachabschnitt verringert werden.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Diese und andere Ziele, Merkmale und Vorteile der vorliegenden Erfindung werden offensichtlicher beim Studium der nachstehenden ausführlichen Beschreibung sowie der Zeichnungen, welche folgendes darstellen:
1 ein Blockdiagramm, welches eine Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt;
2 ein Blockdiagramm, welches eine Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt;
3 ein Blockdiagramm, welches eine Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt;
4 ein Blockdiagramm, welches eine Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt;
5 ein Blockdiagramm, welches eine Ausführungsform der vorliegenden Erfindung zeigt;
6 ein Blockdiagramm, welches eine herkömmliche Spracherkennungsvorrichtung zeigt;
7 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung;
8 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung;
9 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung;
10 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung;
11 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung;
12 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung;
13 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung; und
14 ein Ablaufdiagramm zur Erläuterung eines Betriebes der vorliegenden Erfindung.
BESCHREIBUNG DER ERFINDUNG
Als nächstes wird die vorliegende Erfindung ausführlich mit Bezug auf die Zeichnungen beschrieben.
1 ist eine Ansicht, welche eine erste Anordnung einer Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt. In 1 sind gleichen oder ähnlichen Elementen wie in 6 die gleichen Bezugszeichen zugeordnet. Da die Eingangsanschlüsse 10 und 11, ein Ausgangsanschluss 12, ein LSF-Berechnungsschaltkreis 1011, ein Gesamtbandenergie-Berechnungsschaltkreis 1012, ein Unterbandenergie-Berechnungsschaltkreis 1013, ein Nullstellenzahl-Berechnungsschaltkreis 1014, ein erster Bewegungsmittelwert-Berechnungsschaltkreis 1021, ein zweiter Bewegungsmittelwert-Berechnungsschlatkreis 1022, ein dritter Bewegungsmittelwert-Berechnungsschaltkreis 1023, ein vierter Bewegungsmittelwert-Berechnungsschaltkreis 1024, ein erster Änderungsmengen-Berechnungsschaltkreis 1031, ein zweiter Änderungsmengen-Berechnungsschaltkreis 1032, ein dritter Änderungsmengen-Berechnungsschaltkreis 1033, ein vierter Änderungsmengen-Berechnungsschaltkreis 1034 und ein Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 die gleichen sind wie die in 5 gezeigten Elemente, wird auf eine Erläuterung dieser Elemente verzichtet, und unterschiedliche Punkte von der in 5 gezeigten Anordnung werden in erster Linie nachfolgend beschrieben.
Mit Bezug auf 1 werden ein erstes Filter 2061, ein zweites Filter 2062, ein drittes Filter 2063 und ein viertes Filter 2064 zu der in 5 gezeigten Anordnung hinzugefügt. In der ersten Anordnung der vorliegenden Erfindung wird ähnlich der in 5 gezeigten Anordnung angenommen, dass eine Spracheingabe mit einer Periode einer Blockeinheit (Rahmen) von T_fr msec (beispielsweise 10 msec) geleitet wird. Eine Rahmenlänge wird mit L_fr Abtastwerten (beispielsweise 80 Abtastwerten) angenommen. Die Anzahl von Abtastwerten für einen Rahmen wird bestimmt durch eine Abtastfrequenz (beispielsweise 8 kHz) der Eingangssprache.
Das erste Filter 2061 empfängt die ersten Änderungsmengen von dem ersten Änderungsmengen-Berechnungsschaltkreis 1031 und berechnet eine erste durchschnittliche Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen ersten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen ersten Änderungsmengen, und gibt die vorstehend beschriebene erste durchschnittliche Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden.
Hier wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den ersten Änderungsmengen ΔS^[m]in dem m-ten Rahmen und der ersten durchschnittlichen Änderungsmenge ΔS [m–1] in dem (m-1)-ten Rahmen die erste durchschnittliche Änderungsmenge ΔS [m] in dem m-ten Rahmen berechnet. ΔS [m] = γs·ΔS [m–1] + (1 – γs)·ΔS[m]
Hier ist γs eine konstante Zahl und beispeilsweise gilt γ_s = 0,74.
Das zweite Filter 2062 empfängt die zweiten Änderungsmengen von dem zweiten Änderungsmengen-Berechnungsschaltkreis 1032 und berechnet eine zweite durchschnittliche Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen zweiten Änderungmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen zweiten Änderungsmengen, und gibt die vorstehend beschriebene zweite durchschnittliche Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend bechriebenen Mittelwertes, des Medianwertes oder des häufigsten wertes ein lineares Filter und ein nicht lineares Filter verwendet werden.
Hier wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den zweiten Änderungsmengen ΔE_f ^[m] in dem m-ten Rahmen und der zweiten durchschnittlichen Änderungsmenge ΔE f [m–1] in dem (m – 1)-ten Rahmen die zweite durchschnittliche Änderungsmenge ΔE f [m] in dem m-ten Rahmen berechnet. ΔE f [m] = γEf·ΔE f [m–1] + (1-γEf·ΔEf [m]
Hier ist γ_Ef eine konstante Zahl, und beispielsweise gilt γ_Ef 0,6.
Das dritte Filter 2063 empfängt die dritten Änderungsmengen von dem dritten Änderungsmengen-Berechnungsschaltkreis 1033 und berechnet eine dritte durchschnittliche Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen dritten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen dritten Änderungsmengen, und gibt die vorstehend beschriebene dritte Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden.
Hier wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den dritten Änderungsmengen ΔE_l ^[m] in dem m-ten Rahmen und der dritten durchschnittlichen Änderungsmenge ΔE l [m–1] in dem (m – 1)-ten Rahmen die dritte durchschnittliche Änderungsmenge ΔE l [m] in dem m-ten Rahmen berechnet. ΔE l [m] = γEl·ΔE l [m–1] + (1 – γEl)·ΔEl [m]
Hier ist γ_El eine konstante Zahl, und beispielsweise gilt γ_El 0,6.
Das vierte Filter 2064 empfängt die vierten Änderungsmengen von dem vierten Änderungsmengen-Berechnungsschaltkreis 1034 und berechnet eine vierte durchschnittliche Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen vierten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen vierten Änderungsmengen, und gibt die vorstehend beschriebene vierte Mittelwert-Änderungs menge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden.
Hier wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den vierten Änderungsmengen ΔZ_C ^[m] in dem m-ten Rahmen und der vierten durchschnittlichen Änderungsmenge ΔZ c [m–1] in dem (m – 1)-ten Rahmen die vierte durchschnittliche Änderungsmenge ΔZ c [m] in dem m-ten Rahmen berechnet. ΔZ c [m] = γZc·ΔZ c [m–1] + (1 – γZc)·ΔZc [m]
Hier ist γ_Zc eine konstante Zahl, und beispielsweise gilt γ_Zc 0,7.
Zusätzlich werden anstelle der in dem herkömmlichen Beispiel gezeigten Gleichungen die ersten Änderungsmengen, die zweiten Änderungsmengen, die dritten Änderungsmengen und die vierten Änderungsmengen, welche in dem ersten Änderungsmengen-Berechnungsschaltkreis 1031, dem zweiten Änderungsmengen-Berechnungsschaltkreis 1032, dem dritten Änderungsmengen-Berechnungsschaltkreis 1033 bzw. dem vierten Änderungsmengen-Berechnungsschaltkreis 1034 berechnet werden, ebenfalls jeweils mit Hilfe der folgenden Gleichungen berechnet:
Dies gilt ebenso für andere, nachfolgend beschriebene Anordnungen. Andernfalls können die folgenden Gleichungen verwendet werden.
Als nächstes wird eine zweite Anordnung der vorliegenden Erfindung erläutert. 2 ist eine Ansicht, welche eine zweite Anordnung einer Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt. In 2 sind gleichen oder ähnlichen Elementen wie in 1 und 6 die gleichen Bezugszeichen zugeordnet.
Mit Bezug auf 2 werden in der zweiten Anordnung der vorliegenden Erfindung Filter zur Berechnung von Mittelwerten der ersten Änderungsmengen, der zweiten Änderungsmengen, der dritten Änderungsmengen und der vierten Änderungsmengen jeweils in Übereinstimmung mit Ausgangssignalen aus dem Sprache-/Nichtsprache-Bestimmungsabschnitt 1040 umgeschaltet. Falls hier die Filter zur Berechnung der Mittelwerte als Vergleichmäßigungsfilter ebenso wie die vorstened beschriebene erste Anordnung angenommen werden, werden Parameter zur Regelung der Stärke der Vergleichmäßigung (Vergleichmäßigungsstärkeparameter) γ_s, γ_Ef, γ_El und γ_Zc in einem Sprachabschnitt groß (anders gesagt für den Fall, dass ein von dem Sprache-/Nichtsprache-Bestimmungsabschnitt 1040 ausgegebenes Bestimmungsflag 1 beträgt). Dementsprechend kommt es dazu, dass die vorstehend beschriebenen ersten Änderungsmengen und ein Mittelwert jeder Differenz ein ganzes Charakteristikum des Sprachabschnitts mehr reflektieren, und es ist möglich, einen Erfassungsfehler in dem Sprachabschnitt weiter zu reduzieren. Andererseits ist es in einem Nichtsprachabschnitt (für den Fall, dass das vorstehend beschriebene Bestimmungsflag 0 beträgt) durch Verkleinerung der vorstehenden Vergleichmäßigungsstärkeparameter im Übergang vom Nichtsprachabschnitt zum Sprachabschnitt möglich, eine Übergangsverzögerung des Bestimmungsflags, nämlich einen Erfassungsfehler, zu vermeiden, welcher durch Vergleichmäßigung der vorstehend beschriebenen Änderungsmengen und jeder Differenz auftritt.
Zusätzlich wird, da die Eingangsanschlüsse 10 und 11, ein Ausgangsanschluss 12, ein LSF-Berechnungsschaltkreis 1011, ein Gesamtbandenergie-Berechnungsschaltkreis 1012, ein Unterbandenergie-Berechnungsschaltkreis 1013, ein Nullstellenanzahl-Berechnungsschaltkreis 1014, ein erster Bewegungsmittelwert-Berechnungsschaltkreis 1021, ein zweiter Bewegungsmittelwert-Berechnungsschaltkreis 1022, ein dritter Bewegungsmittelwert-Berechnungsschaltkreis 1023, ein vierter Bewegungsmittelwert-Berechnungsschaltkreis 1024, ein erster Änderungsmengen-Berechnungsschaltkreis 1031, ein zweiter Änderungsmengen-Berechnungsschaltkreis 1032, ein dritter Änderungsmengen-Berechnungsschaltkreis 1033, ein vierter Änderungsmengen-Berechnungsschaltkreis 1034 und ein Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 die gleichen sind wie die in 5 gezeigten Elemente, auf eine Erläuterung dieser Elemente verzichtet.
Mit Bezug auf 2 werden in der zweiten Anordnung der vorliegenden Erfindung anstelle des ersten Filters 2061, des zweiten Filters 2062, des dritten Filters 2063 und des vierten Filters 2064 in der Anordnung der ersten, in 1 gezeigten Anordnung ein fünftes Filter 3061, ein sechstes Filter 3062, ein siebtes Filter 3063, ein achtes Filter 3064, ein neuntes Filter 3065, ein zehntes Filter 3066, ein elftes Filter 3067, ein zwölftes Filter 3068, ein erster Schalter 3071, ein zweiter Schalter 3072, ein dritter Schalter 3073, ein vierter Schalter 3074 und ein erster Speicherschaltkreis 3081 hinzugefügt. Diese werden nachfolgend beschrieben.
Der erste Speicherschaltkreis 3081 empfängt ein Bestimmungsflag von dem Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 und speichert und hält dieses und gibt das vorstehend beschriebene gespeicherte und gehaltene Bestimmungsflag in den vorangegangenen Rahmen an den ersten Schalter 3071, den zweiten Schalter 3072, den dritten Schalter 3073 und den vierten Schalter 3074 aus.
Der erste Schalter 3071 empfängt die ersten Änderungsmengen von dem ersten Änderungsmengen-Berechnungsschaltkreis 1031, und empfängt das Bestimmungsflag in den vorangegangenen Rahmen von dem ersten Speicherschaltkreis 3081, und wenn das vorstehend beschriebene Bestimmungsflag 1 beträgt (ein Sprachabschnitt), gibt der erste Schalter die vorstehend beschriebenen Änderungsmengen an das fünfte Filter 3061 aus, und wenn das vorstehend beschriebene Bestimmungsflag 0 beträgt (ein Nichtsprachabschnitt), gibt der erste Schalter die vorstehend beschriebenen ersten Änderungsmengen an das sechste Filter 3062 aus.
Das fünfte Filter 3061 empfängt die ersten Änderungsmengen von dem ersten Schalter 3071 und berechnet eine erste durchschnittliche Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen ersten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen ersten Änderungsmengen, und gibt die vorstehend beschriebene erste Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den ersten Änderungsmengen ΔS^[m] in dem m-ten Rahmen und der ersten Mittelwert-Änderungsmenge ΔS [m–1] in dem (m – 1)-ten Rahmen die erste Mittelwert-Änderungsmenge ΔS [m] in dem m-ten Rahmen berechnet. ΔS [m] = γS1·ΔS [m–1] + (1 – γS1)·ΔS[m]
Hier ist γ_S1 eine konstante Zahl und beträgt beispielsweise γS1 = 0,80.
Das sechste Filter 3062 empfängt die ersten Änderungsmengen von dem ersten Schalter 3071 und berechnet eine erste Mittelwert-Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen ersten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen ersten Änderungsmengen, und gibt die vorstehend beschriebene erste Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsabschnitt 1040 aus. Hier können zur Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den ersten Änderungsmengen ΔS^[m] in dem m-ten Rahmen und der ersten Mittelwert-Änderungsmenge ΔS [m–1] in dem (m – 1)-ten Rahmen die erste Mittelwert-Änderungsmenge ΔS [m] in dem m-ten Rahmen berechnet. ΔS [m] = γS2·ΔS [m–1] + (1 – γS2)·∆S[m]
Hier ist γS2 eine konstante Zahl. Es gilt jedoch γS2 ≤ γS1 und beispielsweise ist γ_S2 = 0,64.
Der zweite Schalter 3072 empfäng die zweiten Änderungsmengen von dem zweiten Änderungsmengen-Berechnungsschaltkreis 1032 und emp fängt das Bestimmungsflag in den vorangegangenen Rahmen von dem ersten Speicherschaltkreis 3081, und wenn das vorstehend beschriebene Bestimmungsflag 1 ist (ein Sprachabschnitt), so gibt der zweite Schalter die vorstehend beschriebenen zweiten Änderungsmengen an das siebte Filter 3063 aus, und wenn das vorstehend beschriebene Bestimmungsflag 0 ist (ein Nichtsprachabschnitt), so gibt der zweite Schalter die vorstehend beschriebenen zweiten Änderungsmengen an das achte Filter 3064 aus.
Das siebte Filter 3063 empfängt die zweiten Änderungsmengen von dem zweiten Schalter 3072 und berechnet eine zweite Mittelwert-Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen zweiten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen zweiten Änderungsmengen, und gibt die vorstehend beschriebene zweite Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsabschnitt 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den zweiten Änderungsmengen ΔE_f ^[m] in dem m-ten Rahmen und der zweiten Mittelwert-Änderungsmenge ΔE f [m–1] in dem (m – 1)-ten Rahmen die zweite Mittelwert-Änderungsmenge ΔE f [m] in dem m-ten Rahmen berechnet. ΔE f [m] = γEf1·ΔE f [m–1] + (1 - γEf1)·ΔEf [m]
Hier ist γ_Ef1 eine konstante Zahl und beträgt beispielsweise γEf1 = 0,70.
Das achte Filter 3064 empfängt die zweiten Änderungsmengen von dem zweiten Schalter 3072 und berechnet eine zweite Mittelwert-Änderungmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen zweiten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen zweiten Änderungsmengen, und gibt die vorstehend beschriebene zweite Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können zur Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den zweiten Änderungsmengen ΔE_f ^[m] in dem m-ten Rahmen und der zweiten Mittelwert-Änderungsmenge ΔE f [m–1] in dem (m – 1)-ten Rahmen die zweite Mittelwert-Änderungsmenge ΔE f [m] in dem m-ten Rahmen berechnet. ΔE f [m] = γEf2·ΔE f [m–1] + (1 - γEf2)·ΔEf [m]
Hier ist γ_Ef2 eine konstante Zahl. Jedoch gilt γEf2 ≤ γEf1 und beispielsweise gilt γ_Ef2 = 0,54.
Der dritte Schalter 3073 empfängt die dritten Änderungsmengen von dem dritten Änderungsmengen-Berechnungsschaltkreis 1033 und empfängt das Bestimmungsflag in den vorangegangenen Rahmen von dem ersten Speicherschaltkreis 3081, und wenn das vorstehend beschriebene Bestimmungsflag 1 beträgt (ein Sprachabschnitt), so gibt der dritte Schalter die vorstehend beschriebenen dritten Änderungsmengen an das neunte Filter 3065 aus, und wenn das vorstehend beschriebene Bestimmungsflag 0 ist (ein Nichtsprachabschnitt), so gibt der dritte Schalter die vorstehend beschriebenen dritten Änderungsmengen an das zehnte Filter 3066 aus.
Das neunte Filter 3065 empfängt die dritten Änderungsmengen von dem dritten Schalter 3073 und berechnet eine dritte Mittelwert-Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen dritten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen dritten Änderungsmengen, und gibt die vorstehend beschriebene dritte Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den dritten Änderungsmengen ΔE_l ^[m] in dem m-ten Rahmen und der dritten Mittelwert-Änderungsmenge ΔE l [m–1] in dem (m – 1)-ten Rahmen die zweite Mittelwert-Änderungsmenge ΔE l [m] in dem m-ten Rahmen berechnet. ΔE l [m] = γEl1·ΔE l [m–1] + (1-γEl1]·ΔEl [m]
Hier ist γ_El1 eine konstante Zahl und beträgt beispielsweise γ_El1 = 0,70.
Das zehnte Filter 3066 empfängt die dritten Änderungsmengen von dem dritten Schalter 3073 und berechnet eine dritte Mittelwert-Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen dritten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen dritten Änderungsmengen, und gibt die vorstehend beschriebene dritte Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den dritten Änderungsmengen ΔE₁ ^[m] in dem m-ten Rahmen und der dritten Mittelwert-Änderungsmenge ΔE l [m–1] in dem (m – 1)-ten Rahmen die dritte Mittelwert-Änderungsmenge ΔE l [m] in dem m-ten Rahmen berechnet. ΔE l [m] = γEl2·ΔE l [m–1] + (1 – γEl2]·ΔEl [m]
Hier ist γ_El2 eine konstante Zahl. Jedoch gilt γEl2 ≤ γEl1 und beispielsweise beträgt γ_El ₂= 0,54.
Der vierte Schalter 3074 empfängt die vierten Änderungsmengen von dem vierten Änderungsmengen-Berechnungsschaltkreis 1034 und empfängt das Bestimmungsflag in den vorangegangenen Rahmen von dem ersten Speicherschaltkreis 3081, und wenn das vorstehend beschriebene Bestimmungsflag 1 ist (ein Sprachabschnitt), so gibt der vierte Schalter die vorstehend beschriebenen vierten Änderungsmengen an das elfte Filter 3067 aus, und wenn das vorstehend beschriebene Bestimmungsflag 0 ist (ein Nichtsprachabschnitt), so gibt der vierte Schalter die vorstehend beschriebenen vierten Änderungsmengen an das zwölfte Filter 3068 aus.
Das elfte Filter 3067 empfängt die vierten Änderungsmengen von dem vierten Schalter 3074 und berechnet eine vierte Mittelwert-Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen vierten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen vierten Änderungsmengen, und gibt die vorstehend beschriebene vierte Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den vierten Änderungsmengen ΔZ_c ^[m] in dem m-ten Rahmen und der vierten Mittelwert-Änderungsmenge ΔZ c [m–1] in dem (m – 1)-ten Rahmen die vierte Mittelwert-Änderungsmenge ΔZ c [m] in dem m-ten Rahmen berechnet. ΔZ c [m] = γZc1·ΔZ c [m–1] + (1 – γZc1)·ΔZc [m]
Hier ist γ_Zc1 eine konstante Zahl und beträgt beispielsweise γ_Zc1 = 0,78.
Das zwölfte Filter 3068 empfängt die vierten Änderungsmengen von dem vierten Schalter 3074 und berechnet eine vierte Mittel wert-Änderungsmenge, welche ein Wert ist, in dem die durchschnittliche Leistung der vorstehend beschriebenen vierten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen vierten Änderungsmengen, und gibt die vorstehend beschriebene vierte Mittelwert-Änderungsmenge an den Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 aus. Hier können für die Berechnung des vorstehend beschriebenen Mittelwertes, des Medianwertes oder des häufigsten Wertes ein lineares Filter und ein nicht lineares Filter verwendet werden. Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den vierten Änderungsmengen ΔZ_c ^[m] in dem m-ten Rahmen und der vierten Mittelwert-Änderungsmenge ΔZ c[m–1] in dem (m – 1)-ten Rahmen die vierte Mittelwert-Änderungsmenge ΔZ c[m] in dem m-ten Rahmen berechnet. ΔZ c [m] = γZc2·ΔZ c [m–1] + (1 – γZc2)·ΔZc [m]
Hier ist γ_Zc2 eine konstante Zahl. Jedoch gilt γZc2 ≤ γZc1 und beispielsweise beträgt γ_Zc2 = 0,64.
Als nächstes wird eine dritte Anordnung der vorliegenden Erfindung erläutert. 3 ist eine Ansicht, welche eine Anordnung einer Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt. In 3 sind gleichen oder ähnlichen Elementen wie in 1 dieselben Bezugszeichen zugeordnet. Diese Anordnung ist als ein Beispiel gezeigt, in welchem die Spracherkennungsvorrichtung in Übereinstimmung mit der ersten Anordnung der vorlie genden Erfindung beispielsweise zu einem Zweck für Schaltdecodier-Verarbeitungsverfahren in Übereinstimmung mit Sprache und Nichtsprache in einer Sprachdeocdiervorrichtung verwendet wird. Dementsprechend wird in dieser Anordnung eine regenerative Sprache, welche aus der vorstehend beschriebenen Sprachdecodiervorrichtung in der Vergangenheit ausgegeben wurde, über einen Eingangsanschluss 10 eingegeben, und ein in der Sprachdecodiervorrichtung decodierter linearer vorhersehbarer Koeffizient wird über einen Eingangsanschluss 11 eingegeben. Da ein Ausgangsanschluss 12, ein LSF-Berechnungsschaltkreis 1011, einen Gesamtbandenergie-Berechnungsschaltkreis 1012, ein Unterbandenergie-Berechnungsschaltkreis 1013, ein Nullstellenzahl-Berechnungsschaltkreis 1014, ein erster Bewegungsmittelwert-Berechnungsschaltkreis 1021, ein zweiter Bewegungsmittelwert-Berechnungsschaltkreis 1022, ein dritter Bewegungsmittelwert-Berechnungsschaltkreis 1023, ein vierter Bewegungsmittelwert-Berechnungsschaltkreis 1024, ein erster Änderungsmengen-Berechnungsschaltkreis 1031, ein zweiter Änderungsmengen-Berechnungsschaltkreis 1032, ein dritter Änderungsmengen-Berechnungsschaltkreis 1033, ein vierter Änderungsmengen-Berechnungsschaltkreis 1034, ein erstes Filter 2061, ein zweites Filter 2062, ein drittes Filter 2063, ein viertes Filter 2064 und ein Sprache-/Nichtsprache-Bestimmungsschaltkreis 1040 zusätzlich die gleichen sind, wie die in 1 gezeigten Elemente, wird auf eine Beschreibung davon verzichtet.
Mit Bezug auf 3 ist in der dritten Anordnung der vorliegenden Erfindung zusätzlich zu der Anordnung in der in 1 gezeigten ersten Anordnung ein zweiter Speicherschaltkreis 7071 bereitgestellt. Der vorstehend beschriebene zweite Speicherschaltkreis 7071 wird nachfolgend beschrieben.
Der zweite Speicherschaltkreis 7071 empfängt eine regenerative Sprachausgabe aus der Sprachdecodiervorrichtung über den Eingangsanschluss 10 und speichert und hält diese, und gibt gespeicherte und gehaltene regenerative Signale in den vorangegangenen Rahmen an den Gesamtbandenergie-Berechnungsschaltkreis 1012, den Unterbandenergie-Berechnungsschaltkreis 1013 und den Nullstellenzahl-Berechnungsschaltkreis 1014 aus.
Als nächstes wird eine vierte Anordnung der vorliegenden Erfindung erläutert. 4 ist eine Ansicht, welche eine Anordnung einer Spracherkennungsvorrichtung der vorliegenden Erfindung zeigt. In 4 sind gleichen oder ähnlichen Elementen wie denjenigen in 2 dieselben Bezugszeichen zugeordnet. Diese Anordnung ist als ein Beispiel einer Anordnung gezeigt, in welcher die Spracherkennungsvorrichtung in Übereinstimmung mit der zweiten Anordnung der vorliegenden Anordnung beispielsweise zu einem Zweck für Schaltdecodier-Verarbeitungsverfahren in Übereinstimmung mit Sprache und Nichtsprache in einer Sprachdecodiervorrichtung verwendet wird. Dementsprechend wird in dieser Anordnung eine regenerative Sprache, welche aus der vorstehend beschriebenen Sprachdecodiervorrichtung ausgegeben wurde, über einen Eingangsanschluss 10 eingegeben, und ein in der Sprachdecodiervorrichtung decodierter linearer vorhersehbarer Koeffizient wird über einen Eingangsanschluss 11 eingegeben. Da ein Ausgangsanschluss 12, ein LSFBerechnungsschaltkreis 1011, ein Gesamtbandenergie-Berechnungsschaltkreis 1012, ein Unterbandenergie-Berechnungsschaltkreis 1013, ein Nullstellenzahl-Berechnungsschaltkreis 1014, ein erster Bewegungsmittelwert-Berechnungsschaltkreis 1021, ein zweiter Bewegungsmittelwert-Berechnungsschaltkreis 1022, ein dritter Bewegungsmittelwert-Berechnungsschaltkreis 1023, ein vierter Bewegungsmittelwert-Berechnungsschaltkreis 1024, ein erster Änderungsmengen-Berechnungsschaltkreis 1031, ein zweiter Änderungsmengen-Berechnungsschaltkreis 1032, ein dritter Änderungsmengen-Berechnungsschaltkreis 1033, ein vierter Änderungsmengen-Berechnungsschaltkreis 1034, ein erster Schalter 3071, ein zweiter Schalter 3072, ein dritter Schalter 3073, ein vierter Schalter 3074, ein fünftes Filter 3061, ein sechstes Filter 3062, ein siebtes Filter 3063, ein achtes Filter 3064, ein neuntes Filter 3065, ein zehntes Filter 3066, ein elftes Filter 3067, ein zwölftes Filter 3068, ein erster Speicherschaltkreis 3081 und ein Sprache-/NichtspracheBestimmungsschaltkreis 1040 zusätzlich die gleichen sind, wie die in 2 gezeigten Elemente, wird auf eine Beschreibung davon verzichtet.
Mit Bezug auf 4 ist in der vierten Anordnung der vorliegenden Erfindung zusätzlich zu der Anordnung in der in 2 gezeigten ersten Anordnung ein zweiter Speicherschaltkreis 7071 bereitgestellt. Da der vorstehend beschriebene zweite Speicherschaltkreis 7071 der gleiche ist wie in in 3 gezeigtes Element, wird hier auf eine Beschreibung davon verzichtet.
Die vorstehend beschriebene Spracherkennungsvorrichtung jeder Anordnung der vorliegenden Erfindung kann mit Hilfe von Computersteuerung, wie beispielsweise eines digitalen Signalverarbeitungs-Prozessors, realisiert werden. 5 ist eine Ansicht, welche schematisch eine Vorrichtungsanordnung als eine fünfte Anordnung der vorliegenden Erfindung zeigt, und zwar in einem Fall, in welchem die vorstehend beschriebene Spracherkennungsvorrichtung jeder Anordnung durch einen Computer realisiert wird. In einem Computer 1 zur Ausführung eines Programms, welches aus einem Speichermedium 6 ausgelesen wird, zur Ausführung einer Spracherkennungsverarbeitung der Unterscheidung eines Sprachabschnitts und eines Nichtsprachabschnitts für jede bestimmte Zeitlänge für ein Sprachsignal mit Hilfe einer Merkmalsmenge, die aus der vorstehend beschriebenen Sprachsignaleingabe für jede bestimmte Zeitlänge berechnet wurde, ist ein Programm zur Ausführung der Schritte (a) bis (1) in dem Speichermedium 6 gespeichert:

(a) ein Schritt der Berechnung einer Berechnung einer Frequenz des Linienspektrums (LSF) aus dem vorstehend beschriebenen Sprachsignal;
(b) ein Schritt der Berechnung einer Gesamtbandenergie aus dem vorstehend beschriebenen Sprachsignal;
(c) ein Schritt der Berechnung einer Unterbandenergie aus dem vorstehend beschriebenen Sprachsignal;
(d) ein Schritt der Berechnung einer Nullstellenzahl aus dem vorstehend beschriebenen Sprachsignal;
(e) ein Schritt der Berechnung erster Änderungsmengen basierend auf einer Differenz zwischen der vorstehend beschriebenen Frequenz des Linienspektrums und einem Langzeitmittelwert davon;
(f) ein Schritt der Berechnung von zweiten Änderungsmengen basierend auf einer Differenz zwischen der vorstehend beschriebenen Gesamtbandenergie und einem Langzeitmittelwert davon;
(g) ein Schritt der Berechnung von dritten Änderungsmengen basierend auf einer Differenz zwischen der vorstehend beschriebenen Unterbandenergie und einem Langzeitmittelwert davon;
(h) ein Schritt der Berechnung von vierten Änderungsmengen basierend auf einer Differenz zwischen der vorstehend beschriebenen Nullstellenzahl und einem Largzeitmittelwert davon;
(I) ein Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen ersten Änderungsmengen;
(j) ein Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen zweiten Änderungsmengen;
(k) ein Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen dritten Änderungsmengen; und
(l) ein Schritt der Berechnung eines Langzeitmittelwertes der vorstehend beschriebenen vierten Änderungsmengen.

Aus dem Speichermedium 6 wird dieses Programm ausgelesen, und zwar in einen Speicher 3 über eine Speichermedium-Lesevorrichtung 5 und eine Speichermedium-Lesevorrichtungs-Schnittstelle 4, und wird ausgeführt. Das vorstehend beschriebene Programm kann in einem Masken ROM etc. gespeichert werden, sowie einem nicht flüchtigen Speicher, wie beispielsweise einem Flush Memory, und das Speichermedium beinhaltet einen nichtflüchtigen Speicher, und beinhaltet zusätzlich ein Medium wie beispielsweise eine CD-ROM, eine Diskette, eine DVD (Digital Versatile Disk), ein Magnetband und eine tragbare Festplatte, und beinhaltet auch ein Kommunikationsmedium, durch welches ein Programm über Draht und drahtlos kommuniziert wird, wie in einem Fall, in welchem das Programm mit Hilfe eines Kommunikationsmediums von einer Servervorrichtung auf einen Computer übertragen wird.
In dem Computer 1 zur Ausführung eines aus dem Speicherumedium 6 ausgelesenen Programms, zur Ausführung einer Spracherkennungsverarbeitung der Unterscheidung eines Sprachabschnitts von einem Nichtsprachabschnitt für jede bestimmte Zeitlänge für ein Sprachsignal mit Hilfe einer Merkmalsmenge, welche aus der vorstehend beschriebenen Sprachsignaleingabe für jede bestimmte Zeitlänge berechnet wurde, wird ein Programm zur Ausführung von Schritten (a) bis (e) in dem vorstehend beschriebenen Computer 1 in dem Speichermedium 6 gespeichert:

(a) ein Schritt des Haltens eines Ergebnisses der vorstehend beschriebenen Unterscheidung, welches in der Vergangenheit ausgegeben wurde;
(b) ein Schritt des Umschaltens des fünften Filters auf das sechste Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen ersten Änderungsmengen berechnet wird;
(c) ein Schritt des Umschaltens des siebten Filters auf das achte Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen zweiten Änderungsmengen berechnet wird;
(d) ein Schritt des Umschaltens des neunten Filters auf das zehnte Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen dritten Änderungsmengen berechnet wird;
(e) ein Schritt des Umschaltens des elften Filters auf das zwölfte Filter mit Hilfe des Ergebnisses der vorstehend beschriebenen Unterscheidung, welches von dem vorstehend beschriebenen ersten Speicherschaltkreis eingegeben wird, wenn der Langzeitmittelwert der vorstehend beschriebenen vierten Änderungsmengen berechnet wird;

In dem Computer 1 zur Ausführung eines aus dem Speichermedium 6 ausgelesenen Programms, zur Ausführung einer Spracherkennungsverarbeitung der Unterscheidung eines Sprachabschnitts von einem Nichtsprachabschnitt für jede bestimmte Zeitlänge für ein Sprachsignal mit Hilfe einer Merkmalsmenge, welche aus der vorstehend beschriebenen Sprachsignaleingabe für jede bestimmte Zeitlänge berechnet wird, wird ein Programm zur Ausführung in dem vorstehend beschriebenen Computer 1, ein Schritt der Berechnung der vorstehend beschriebenen Frequenz des Linienspektrums, der vorstehend beschriebenen Gesamtbandenergie, der vorstehend beschriebenen Unterbandenergie und der vorstehend bechriebenen Nullstellenzahl aus der vorstehend beschriebenen Sprachsignaleingabe in der Vergangenheit in dem Speichermedium 6 gespeichert.
In dem Computer 1 zur Ausführung eines aus dem Speichermedium 6 ausgelesenen Programms wird ein Programm zur Ausführung von Schritten (a) bis (e) in dem vorstehenden Computer 1 in dem Speichermedium 6 gespeichert:

(a) ein Schritt des Speicherns und Haltens einer regenerativen Sprachsignalausgabe aus einer Sprachdecodiervorrichtung in der Vergangenheit;
(b) ein Schritt der Berechnung einer Gesamtbandenergie aus dem vorstehend beschriebenen regenerativen Sprachsignal;
(c) ein Schritt der Berechnung einer Unterbandenergie aus dem vorstehend beschriebenen regenerativen Sprachsignal;
(d) ein Schritt der Berechnung einer Nullstellenzahl aus dem vorstehend beschriebenen regenerativen Sprachsignal;
(e) ein Schritt der Berechnung einer Frequenz des Linienspektrums aus einem linearen vorhersehbaren Koeffizienten, welcher in der vorstehend beschiebenen Sprachdecodiervorrichtung decodiert wurde.

Als nächstes wird ein Betrieb der vorstehend erwähnten Verarbeitung mit Hilfe eines Ablaufdiagramms beschrieben. Zunächst wird ein Betrieb entsprechend der vorstehend beschriebenen ersten Anordnung erläutert. 7 ist ein Ablaufdiagramm zur Erläuterung des Betriebs entsprechend der ersten Anordnung.
Ein linearer vorhersehbarer Koeffizient wird eingegeben (Schritt 11), und eine Frequenz des Linienspektrums (LSF) wird aus dem vorstehend beschriebenen linearen vorhersehbaren Koeffizienten berechnet (Schritt A1). Hier wird im Hinblick auf die Berechnung der LSF aus dem linearen vorhersehbaren Koeffizienten ein bekanntes Verfahren, beispielsweise ein in Absatz 3.2.3 [des englischen Textes] der Literatur 1 beschriebenes Verfahren etc., verwendet.
Als nächstes wird eine Bewegungsmittelwert-LSF in dem aktuellen Rahmen (momentaner Rahmen) aus der berechneten LSF und einer in den vorangegangenen Rahmen berechneten durchschnittlichen LSF berechnet (Schritt A2).
Hier wird eine LSF in dem m-ten Rahmen angenommen als ωi [m], i = 1, ..., P eine durchschnittliche LSF in dem m-ten Rahmen ω i [m], i = 1, ..., P wird durch die folgende Gleichung dargestellt: ω i [m] = βLSF·ω i [m–1] + (1 – βLSF)·ωi [m], i = 1, ..., P
Hier ist P eine lineare vorhersehbare Ordnung (beispielsweise 10), und β_LSE ist eine bestimmte konstante Zahl (beispielsweise 0,7).
Anschließend werden basierend auf der berechneten LSF α_i ^[ml und der Bewegungsmittelwert-LSF ω i [m] spektrale Änderungsmengen (ersten Mengen) berechnet (Schritt A3).
Hier werden die ersten Änderungsmengen ΔS^[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt:
Weiter wird aus den ersten Änderungsmengen ΔS^[m] eine erste Mittelwert-Änderungsmenge berechnet, welche ein Wert ist, in dem die Durchschnittsleistung der vorstehend beschriebenen ersten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittel wert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen ersten Änderungsmengen (Schritt A3).
Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den ersten Änderungsmengen ΔS^[m] in dem m-ten Rahmen und der ersten Mittelwert-Änderungsmenge ΔS [m–1] in dem (m – 1)-ten Rahmen die erste Mittelwert-Änderungsmenge ΔS [m] in dem m-ten Rahmen berechnet. ΔS [m] = γs·ΔS [m–1] + (1 – γs)·ΔS[m]
Hier ist γ_s eine konstante Zahl und beträgt beispielsweise γ_s = 0,74.
Auch wird Sprache (Eingangssprache) eingegeben (Schritt 12), und eine Gesamtbandenergie der Eingangssprache wird berechnet (Schritt B1).
Hier ist die Gesamtbandenergie E_f ein Logarithmus einer normalisierten Nullgrad-Autokorrelationsfunktion R(0), und wird durch folgende Gleichung dargestellt: Ef = 10·log10[1/N R(0)]
Auch wird ein Autokorrelationskoeffizient durch die folgende Gleichung dargestellt:
Hier ist N eine Länge (Analysefensterlänge, beispielsweise 240 Abtastwerte) eines Fensters der linearen vorhersehbaren Analyse für die Eingangssprache, und S1⁽ ⁿ⁾ ist die Eingangssprache multipliziert mit dem vorstehend beschriebenen Fenster. Im Fall von N>L_fr soll es durch Halten der Sprache, welche in dem vorangegangenen Rahmen eingegeben wurde, für die vorstehend beschriebene Analysefensterlänge Sprache sein.
Hier wird ein Bewegungsmittelwert der Gesamtbandenergie in dem aktuellen Rahmen aus der Gesamtbandenergie E_f und einer durchschnittlichen Gesamtbandenergie, welche in den vorangegangenen Rahmen berechnet wurde, berechnet (Schritt B2).
Als nächstes wird unter der Annahme, dass eine Gesamtbandenergie in dem m-ten Rahmen E_f ^[ ^m] beträgt, der Bewegungsmittelwert der Gesamtbandenergie in dem m-ten Rahmen E f [m] durch die folgende Gleichung dargestellt: E f [m] = βEf·E f [m–1] + (1 – βEf)·Ef [m]
Hier ist β_Ef eine bestimmte konstante Zahl (beispielsweise 0,7.
Als nächstes werden aus der Gesamtbandenergie E_f ^[ml und dem Bewegungsmittelwert der Gesamtbandenergie E f [m]
Gesamtbandenergie-Änderungsmengen (zweite Änderungsmengen) berechnet (Schritt B3).
Hier werden die zweiten Änderungsmengen ΔE_f ^[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt: ΔEf [m–1] = ΔE f [m] – ΔEf [m]
Weiterhin wird aus den zweiten Änderungsmengen ΔE_f ^[m] eine zweite Mittelwert-Änderungsmenge berechnet, welche ein Wert ist, in dem die Durchschnittsleistung der vorstehend beschriebenen zweiten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen zweiten Änderungsmengen (Schritt B4).
Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den zweiten Änderungsmengen ΔE_f ^[ ^m] in dem m-ten Rahmen und der zweiten Mittelwert-Änderungsmenge ΔE f [m–1] in dem (m – 1)-ten Rahmen die zweite Mittelwert-Änderungsmenge ΔEf [m] in dem m-ten Rahmen berechnet. ΔE f [m] = γEf·ΔE f [m–1] + (1 – γEf)·ΔEf [m]
Hier ist γ_Ef eine konstante Zahl und beträgt beispielsweise γ_Ef = 0,6.
Auch wird aus der Eingangssprache eine Unterbandenergie der Eingangssprache berechnet (Schritt C1). Hier wird die Unterbandenergie E_i von 0 bis F_i Hz durch die folgende Gleichung dargestellt:
Hier ist
h ^ eine Impulserwiderung eines FIR-Filters, von welchem eine Abschaltefrequenz F_l Hz beträgt, und
R ^ ist eine Teplitz-Autokorrelationsmatrix, von welcher diagonale Komponenten Autokorrelationskoeffizienten R(k) sind.
Als nächstes wird ein Bewegungsmittelwert der Unterbandenergie in dem aktuellen Rahmen aus der Unterbandenergie und der in den vorangegangenen Rahmen berechneten durchschnittlichen Unterbandenergie berechnet (Schritt C2). Hier wird unter der Annahme, dass eine Unterbandenergie in dem m-ten Rahmen E_l ^[ ^ml beträgt, die Unterbandenergie in dem m-ten Rhamen E l [m] durch die folgende Gleichung dargestellt: E l [m] = βEl·E l [m–1] + (1 – βEl)·El [m]
Hier ist β_El eine bestimmte konstante Zahl (beispielsweise 0,7).
Anschließend werden aus der Unterbandenergie E_l ^[ ^ml und dem Bewegungsmittelwert der Unterbandenergie E f [m]
Unterbandenergie-Änderungsmengen (zweite Änderungsmengen) berechnet (Schritt B3). Hier werden die dritten Änderungsmengen ΔE_l ^[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt: ΔEl [m] = E l [m] – El [m]
Weiterhin wird eine dritte Mittelwert-Änderungsmenge berechnet, welche ein wert ist, in dem die Durchschnittsleistung der vorstehend beschriebenen dritten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen dritten Änderungsmengen (Schritt C4). Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den dritten Änderungsmengen ΔE_l ^[m] in dem m-ten Rahmen und der dritten Mittelwert-Änderungsmenge ΔEl [m–1] in dem (m – 1)-ten Rahmen die dritte Mittelwert-Änderungsmenge ΔE l [m] in dem m-ten Rahmen berechnet. ΔE l [m] = γEl·ΔEl [m–1] + (1-γEl)·El [m]
Hier ist γ_El eine konstante Zahl und beträgt beispielsweise γ_El 0,6.
Auch wird aus Sprache (Eingangssprache) eine Nullstellenzahl eines Eingangssprachenvektors berechnet (Schritt D1). Hier wird eine Nullstellenzahl Z_c durch die folgende Gleichung dargestellt:
Hier ist S(n) die Eingangssprache, und sgn[x] ist eine Funktion, welche 1 beträgt, wenn x eine positive Zahl ist, und welche 0 beträgt, wenn es eine negative Zahl ist.
Als nächstes wird ein Bewegungsmittelwert der Nullstellenzahl in dem aktuellen Rahmen aus der berechneten Nullstellenzahl und der in den vorangegangenen Rahmen berechneten durchschnittlichen Nullstellenzahl berechnet (Schritt D2). Hier wird unter der Annahme, dass eine Nullstellenzahl in dem m-ten Rahmen Zc [m] beträgt, eine durchschnittliche Nullstellenzahl in dem m-ten Rahmen Z c [m] durch die folgende Gleichung dargestellt: Z c [m] = βZc·Z c [m– 1] + (1 – βZc)·Zc [m]
Hier ist β_Zc eine bestimmte konstante Zahl (beispielsweise 0,7).
Als nächstes werden aus der Nullstellenzahl Z_c ^[m] und dem Bewegungsmittelwert der Nullstellenzahl Z c [m]
Nullstellenzahl-Änderungsmengen (vierte Änderungsmengen) berechnet (Schritt D3). Hier werden die vierten Änderungsmengen ?Zc[m] in dem m-ten Rahmen durch die folgende Gleichung dargestellt: ∆Zc[m] = Z c[m] – Zc[m]
Weiterhin wird aus den vierten Änderungsmengen eine vierte Mittelwert-Änderungsmenge berechnet, welche ein Wert ist, in dem die Durchschnittsleistung der vorstehend beschriebenen vierten Änderungsmengen reflektiert wird, wie beispielsweise ein Mittelwert, ein Medianwert und ein häufigster Wert der vorstehend beschriebenen vierten Änderungsmengen (Schritt D4). Hier wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den vierten Änderungsmengen ΔZ_c ^[m] in dem m-ten Rahmen und der vierten Mittelwert-Änderungsmenge ΔZ c [m–1] in dem (m – 1)-ten Rahmen die vierte Mittelwert-Änderungsmenge ΔZ c [m] in dem m-ten Rahmen berechnet. ΔZ c [m] = γZc·ΔZ c [m–1] + (1 – γZc)·∆Zc [m]
Hier ist γ_Zc eine konstante Zahl und beträgt beispielsweise γ_Zc _ 0,6.
Wenn schließlich ein vierdimensionaler Vektor bestehend aus der vorstehend beschriebenen ersten Mittelwert-Änderungsmenge ΔS [m] der vorstehend beschriebenen zweiten Mittelwert-Änderungsmenge ΔE f [m] der vorstehend beschriebenen dritten Mittelwert-Änderungsmenge ΔE l [m] und der vorstehend beschriebenen vierten Mittelwert-Änderungsmenge ΔZ c [m] innerhalb eines Sprachbereiches in einem vierdimensionalen Raum existiert, wird bestimmt, das es der Sprachabschnitt ist, und andernfalls wird bestimmt, dass es der Nichtsprachabschnitt ist (Schritt E1).
Und im Fall des vorstehend beschriebenen Sprachabschnitts wird ein Bestimmungsflag auf 1 gesetzt (Schritt E3), und im Fall des vorstehend beschriebenen Nichtsprachabschnitts wird das Bestimmungsflag auf 0 gesetzt (Schritt E2), und ein Bestimmungsergebnis wird ausgegeben (Schritt E4).
Wie vorstehend erwähnt, endet die Verarbeitung.
Als nächstes wird ein Betrieb der Verarbeitung entsprechend der vorstehend erwähnten zweiten Anordnung mit Hilfe eines Ablaufdiagramms erläutert. 8, 9 und 10 sind Ablaufdiagramme zur Erläuterung des Betriebs entsprechend der zweiten Anordnung. Zusätzlich wird im Hinblick auf Verarbeitung mit einem Betrieb, welcher der gleiche ist wie der vorstehend erwähnte Betrieb auf eine Erläuterung davon verzichtet, und lediglich unterschiedliche Punkte werden erläutert.
Ein unterschiedlicher Punkt von der vorstehend erwähnten Verarbeitung ist, dass nachdem die ersten Änderungsmengen, die zweiten Änderungsmengen, die dritten Änderungsmengen und die vierten Änderungsmengen berechnet sind, wenn Mittelwerte dieser berechnet werden, die Filter zur Berechnung der Mittelwerte in Übereinstimmung mit der Art eines Bestimmungsflags umgeschaltet werden.
Zunächst wird ein Fall der ersten Änderungsmengen erläutert.
Nachdem die ersten Änderungsmengen bei Schritt A3 berechnet sind, wird bestätigt, ob das vorangegangene Bestimmungsflag 1 ist oder nicht (Schritt A11).
Ist das Bestimmungsflag 1, so wird eine Filterverarbeitung wie das fünfte Filter in der zweiten Anordnung durchgeführt, und die erste Mittelwert-Änderungsmenge wird berechnet (Schritt A12).
Beispielsweise wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den ersten Änderungsmengen ?S[m] in dem m-ten Rahmen und der ersten Mittelwert-Änderungsmenge ΔS [m–1] in dem (m – 1)-ten Rahmen die erste Mittelwert-Änderungsmenge ΔS [m] in dem m-ten Rahmen berechnet. ΔS [m] = γS1·ΔS [m–1] + (1 – γS1)·ΔS[m]
Hier ist γ_S1 eine konstante Zahl und beträgt beispielsweise γ_S1 = 0,80.
Beträgt das Bestimmungsflag andererseits 0, so wird eine Filterverarbeitung wie das sechste Filter in der zweiten Anordnung durchgeführt, und die erste Mittelwert-Änderungsmenge wird berechnet (Schritt A13). Beispielsweise wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den ersten Änderungsmengen ΔS^[m] in dem m-ten Rahmen und der ersten Mittelwert-Änderungsmenge ΔS [m–1] in dem (m – 1)-ten Rahmen die erste Mittelwert-Änderungsmenge ΔS [m] in dem m-ten Rahmen berechnet. ΔS [m] – γS2·ΔS [m–1] + (1-γS2)·∆S[m]
Hier ist γ_S2 eine konstante Zahl. Jedoch gilt γS2 ≤ γS1 und beispielsweise beträgt γ_S2 = 0,64.
Als nächstes wird ein Fall der zweiten Änderungsmengen erläutert.
Nachdem die zweiten Änderungsmengen bei Schritt B3 berechnet sind, wird bestätigt, ob das vorangegangene Bestimmungsflag 1 ist oder nicht (Schritt B11).
Ist das Bestimmungsflag 1, so wird eine Filterverarbeitung wie das siebte Filter in der zweiten Anordnung durchgeführt, und die zweite Mittelwert-Änderungsmenge wird berechnet (Schritt B12). Beispielsweise wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den zweiten Änderungsmengen ΔE_f ^[m] in dem m-ten Rahmen und der zweiten Mittelwert-Änderungsmenge ΔE f [m–1] in dem (m – 1)-ten Rahmen die zweite Mittelwert-Änderungsmenge ΔE f [m] in dem m-ten Rahmen berechnet. ΔE f [m] = γEf1·ΔE f [m– 1] + (1 – γEf1)·ΔEf [m]
Hier ist γ_Ef1 eine konstante Zahl und beträgt beispielsweise γ_Ef1 = 0,70.
Beträgt das Bestimmungsflag andererseits 0, so wird eine Filterverarbeitung wie das achte Filter in der zweiten Anordnung durchgeführt, und die zweite Mittelwert-Änderungsmenge wird berechnet (Schritt B13). Beispielsweise wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den zweiten Änderungsmengen ΔE_f ^[m] in dem m-ten Rahmen und der zweiten Mittelwert-Änderungsmenge ΔE f [m–1] in dem (m – 1)-ten Rahmen die zweite Mittelwert-Änderungsmenge ΔE f [m] in dem m-ten Rahmen berechnet. ΔE f [m] – γEf2·ΔE f [m–1] + (1 – γEf2)·ΔEf [m]
Hier ist γ_EF2 eine konstante Zahl. Jedoch gilt γEF2 ≤ γEF1 und beispielsweise beträgt γ_EF2 = 0,54.
Anschließend wird ein Fall der dritten Änderungsmengen erläutert.
Nachdem die dritten Änderungsmengen bei Schritt C3 berechnet sind, wird bestätigt, ob das vorangegangene Bestimmungsflag 1 ist oder nicht (Schritt C11).
Ist das Bestimmungsflag 1, so wird eine Filterverarbeitung wie das neunte Filter in der zweiten Anordnung durchgeführt, und die dritte Mittelwert-Änderungsmenge wird berechnet (Schritt C12). Beispielsweise wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den dritten Änderungsmengen ΔE_l ^[m] in dem m-ten Rahmen und der dritten Mittelwert-Änderungsmenge ΔE l [m–1] in dem (m – 1)-ten Rahmen die dritte Mittelwert-Änderungsmenge ΔE l [m] in dem m-ten Rahmen berechnet. ΔE l [m] = γEl1·ΔEl [m–1] + (1 – γEl1)·ΔE l [m]
Hier ist γ_El1 eine konstante Zahl und beträgt beispielsweise γ_El1 = 0,70.
Beträgt das Bestimmungsflag andererseits 0, so wird eine Filterverarbeitung wie das zehnte Filter in der zweiten Anordnung durchgeführt, und die dritte Mittelwert-Änderungsmenge wird berechnet (Schritt C13). Beispielsweise wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den dritten Änderungsmengen ΔE_l ^[ ^m] in dem m-ten Rahmen und der dritten Mittelwert-Änderungsmenge ΔE l [m–1] in dem (m – 1)-ten Rahmen die dritte Mittelwert-Änderungsmenge ΔE l [m] in dem m-ten Rahmen berechnet. ΔE l [m] = γEl2·ΔE l [m–1] + (1 – γEl2)·ΔEl [m]
Hier ist γ_El2 eine konstante Zahl. Jedoch gilt γEl2 ≤ γEl1 und beispielsweise beträgt γ_El2 = 0,64.
Weiter wird ein Fall der vierten Änderungsmengen erläutert.
Nachdem die vierten Änderungsmengen bei Schritt D3 berechnet sind, wird bestätigt, ob das vorangegangene Bestimmungsflag 1 ist oder nicht (Schritt D11).
Ist das Bestimmungsflag 1, so wird eine Filterverarbeitung wie das elfte Filter in der zweiten Anordnung durchgeführt, und die vierte Mittelwert-Änderungsmenge wird berechnet (Schritt D12). Beispielsweise wird mit Hilfe eines Vergleichmäßigungsfilters der folgenden Gleichung aus den vierten Änderungsmengen ΔZ_c ^[m] in dem m-ten Rahmen und der vierten Mittelwert-Änderungsmenge ΔZ c [m–1] in dem (m – 1)-ten Rahmen die vierte Mittelwert-Änderungsmenge ΔZ c [m] in dem m-ten Rahmen berechnet. ΔZ c [m] = γZc1·ΔZ c [m–1] + (1 – γZc1)·ΔZc [m]
Hier ist γ_Zc1 eine konstante Zahl und beträgt beispielsweise γ_Zc1 = 0,78.
Beträgt das Bestimmungsflag andererseits 0, so wird eine Filterverarbeitung wie das zwölfte Filter in der zweiten Ausführungsform durchgeführt, und die vierte Mittelwert-Änderungsmenge wird berechnet (Schritt D13). Beispielsweise wird durch Verwendung eines Vergleichmäßigungsfilters der folgenden Gleichung aus den vierten Änderungsmengen ΔZ_c ^[m] in dem m-ten Rahmen und der vierten Mittelwert-Änderungsmenge ΔZ c [m–1] in dem (m – 1)-ten Rahmen die vierte Mittelwert-Änderungsmenge ΔZ c [m] in dem m-ten Rahmen berechnet. ΔZ c [m] = γZc2·ΔZ c [m–1] + (1 –γZc2)·ΔZc [m]
Hier ist γ_Zc2 eine konstante Zahl. Jedoch gilt γZc2 ≤ γZc1 und beispielsweise beträgt γ_Zc2 = 0,64.
Und wenn ein vierdimensionaler Vektor bestehend aus der vorstehend beschriebenen ersten Mittelwert-Änderungsmenge ΔS [m] der vorstehend beschriebenen zweiten Mittelwert-Änderungsmenge ΔE f [m] der vorstehend beschriebenen dritten Mittelwert-Änderungsmenge ΔE l [m] und der vorstehend beschriebenen vierten Mittelwert-Änderungsmenge ΔZ c [m] innerhalb eines Sprachraumes in einem vierdimensionalen Raum existiert, so wird bestimmt, dass es der Sprachabschnitt ist, und andernfalls wird bestimmt, dass es der Nichtsprachabschnitt ist (Schritt E1).
Anschließend wird ein Betrieb der Verarbeitung entsprechend der vorstehend erwähnten ditten Anordnung mit Hilfe eines Ablaufdia gramms erläutert. Fit. 11 ist ein Ablaufdiagramm zur Erläuterung des Betriebs entsprechend der dritten Anordnung.
Punkte in diesem Betrieb, welche unterschiedlich von der vorstehend erwähnten Verarbeitung sind, sind Schritt I11 und I12, und bestehen darin, dass ein linearer vorhersehbarer Koeffizient, welcher in einer Sprachdecodiervorrichtung decodiert wurde, bei Schritt I11 eingegeben wird, und dass ein regenerativer Sprachvektor, welcher von der Sprachdecodiervorrichtung in der Vergangenheit ausgegeben wurde, bei Schritt I12 eingegeben wird.
Da eine andere Verarbeitung als diese die gleiche ist wie die Verarbeitung mit dem vorstehend erwähnten Betrieb, wird auf eine Beschreibung davon verzichtet.
Schließlich wird ein Betrieb der Verarbeitung entsprechend der vorstehend erwähnten vierten Anordnung mit Hilfe eines Ablaufdiagramms erläutert. 12, 13 und 14 sind Ablaufdiagramme zur Erläuterung des Betriebs entsprechend der vierten Anordnung.
Dieser Betrieb ist dadurch gekennzeichnet, dass der Betrieb entsprechend der vorstehend erwähnten zweiten Anordnung und der Betrieb entsprechend der vorstehend erwähnten dritten Anordnung miteinander kombiniert werden. Dementsprechend wird, da der Betrieb entsprechend der zweiten Anordnung und der Betrieb entsprechend der dritten Anordnung bereits erläutert wurden, auf eine Erläuterung davon verzichtet.
Der Effekt der vorliegenden Erfindung liegt darin, dass es möglich ist, einen Erfassungsfehler in dem Sprachabschnitt und einen Erfassungsfehler in dem Nichtsprachabschnitt zu reduzieren.
Der Grund dafür liegt darin, dass die Sprache-/Nichtsprache-Bestimmung mit Hilfe der Langzeitmittelwerte der Spektral-Änderungsmengen, der Energie-Änderungsmengen und der Nullstellen zahl-Änderungsmengen durchgeführt wird. Anders gesagt existieren, da im Hinblick auf den Langzeitmittelwert der vorstehend beschriebenen Änderungsmengen eine Änderung eines Wertes innerhalb jedes Abschnitts von Sprache und Nichtsprache verglichen mit jeder der vorstehend beschriebenen Änderungsmengen selbst geringer ist, Werte der vorstehend beschriebenen Langzeitmittelwerte mit einer hohen Rate innerhalb eines Wertbereiches existieren, welcher in Übereinstimmung mit dem Sprachabschnitt und dem Nichtsprachabschnitt vorbestimmt sind.

Claims

Spracherkennungsverfahren zur Unterscheidung eines Sprachabschnittes von einem Nicht-Sprachabschnitt für jede für ein Sprachsignal festgelegte Zeitlänge unter Verwendung der Merkmalsmenge, welche aus der Sprachsignaleingabe für jede festgelegte Zeitlänge errechnet wird, wobei das Verfahren die folgenden Schritte aufweist: – Berechnung einer Änderungsmenge der Merkmalsmenge durch Verwendung der Merkmalsmenge und eines Langzeitmittelwertes davon; – Berechnung eines Langzeitmittelswertes der Änderungsmenge durch die Eingabe der Änderungsmenge der Merkmalsmenge in Filter; sowie – Unterscheidung des Sprachabschnittes von dem Nicht-Sprachabschnitt für jede festgelegte Zeitlänge in dem Sprachsignal unter Verwendung des Langzeitmittelwertes der Änderungsmenge, dadurch gekennzeichnet, dass das Verfahren ferner den Schritt der Umschaltung zwischen den Filtern aufweist, wenn der Langzeitmittelwert der Änderungsmenge unter Verwendung eines Ergebnisses der Ausgabe der Unterscheidung in den vorangegangenen Datenblöcken oder Frames berechnet wird.
Spracherkennungsverfahren nach Anspruch 1, wobei die Merkmalsmenge, die aus der Sprachsignaleingabe in dem vorangegangenen Datenblock berechnet wird, verwendet wird.
Spracherkennungsverfahren nach Anspruch 1, wobei mindestens eine Frequenz des Linienspektrums, eine Gesamtbandenergie, eine Unterbandenergie oder eine Nullstellenzahl für die Merkmalsmenge verwendet wird.
Spracherkennungsverfahren nach Anspruch 3, wobei mindestens eine Frequenz des Linienspektrums, die mittels eines linearen vorhersehbaren Koeffizienten errechnet wird, welcher mit Hilfe einer Sprachentschlüsselungsmethode decodiert wurde, eine Gesamtbandenergie, eine Unterbandenergie oder eine Nullstellenzahl verwendet werden, die aus einer regenerativen Sprachsignalausgabe in dem vorangegangenen Datenblock mit Hilfe der Sprachentschlüsselungsmethode berechnet werden.
Spracherkennungsvorrichtung zur Unterscheidung eines Sprachabschnittes von einem Nicht-Sprachabschnitt für jede für ein Sprachsignal festgelegte Zeitlänge unter Verwendung der Merkmalsmenge, die aus der Sprachsignaleingabe für jede festgelegte Zeitlänge berechnet wird, wobei die Vorrichtung Filter zur Berechnung eines Langzeitmittelwertes von Änderungsmengen aufweist, dadurch gekennzeichnet, dass die Vorrichtung weiter Folgendes aufweist: – einen LSF-Berechnungsschaltkreis (1011) zur Berechnung einer Frequenz des Linienspektrums (LSF) aus dem Sprachsignal; – einen Gesamtbandenergie-Berechnungsschaltkreis (1012) zur Berechnung einer Gesamtbandenergie aus dem Sprachsignal; – einen Unterbandenergie-Berechnungsschaltkreis (1013) zur Berechnung einer Unterbandenergie aus dem Sprachsignal; – einen Nullstellenzahl-Berechnungsschaltkreis (1014) zur Berechnung einer Nullstellenzahl aus dem Sprachsignal; – einen die Änderungsmenge der Frequenz des Linienspektrums berechnenden Abschnitt (1031) zur Berechnung der ersten Änderungsmengen der Frequenz des Linienspektrums; – einen die Änderungsmenge der Gesamtbandenergie berechnenden Abschnitt (1032) zur Berechnung der zweiten Änderungsmengen der Gesamtbandenergie; – einen die Änderungsmenge der Unterbandenergie berechnenden Abschnitt (1033) zur Berechnung der dritten Änderungsmengen der Unterbandenergie; – einen die Änderungsmenge der Nullstellenzahl berechnenden Abschnitt (1034) zur Berechnung der vierten Änderungsmenge der Nullstellenzahl; und – Umschalter (3071, 3072, 3073, 3074) zur Umschaltung zwischen den Filtern, um einen Langzeitmittelwert der Änderungsmengen unter Verwendung eines Ergebnisses der Ausgabe der Unterscheidung in den vorangegangenen Datenblöcken zu berechnen.
Spracherkennungsvorrichtung nach Anspruch 5, gekennzeichnet durch – ein erstes Filter (2061) zur Berechnung eines Langzeitmittelwertes der ersten Änderungsmengen; – ein zweites Filter (2062) zur Berechnung eines Langzeitmittelwertes der zweiten Änderungsmengen; – ein drittes Filter (2063) zur Berechnung eines Langzeitmittelwertes der dritten Änderungsmengen; und – ein viertes Filter (2064) zur Berechnung eines Langzeitmittelwertes der vierten Änderungsmengen;
Spracherkennungsvorrichtung nach einem der Ansprüche 5 oder 6, dadurch gekennzeichnet, dass die Vorrichtung weiter Folgendes aufweist: – einen ersten Speicherschaltkreis (3081) zum Halten eines Ergebnisses der Unterscheidung, welches in den vorangegangenen Datenblöcken von der Spracherkennungsvorrichtung ausgegeben wurde; – einen ersten Umschalter (3071) zum Umschalten von einem fünften Filter (3061) auf ein sechstes Filter (3062) unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der ersten Änderungsmengen berechnet wird; – einen zweiten Umschalter (3072) zum Umschalten von einem siebten Filter (3063) auf ein achtes Filter (3064) unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der zweiten Änderungsmengen berechnet wird; – einen dritten Umschalter (3073) zum Umschalten von einem neunten Filter (3065) auf ein zehntes Filter (3066) unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der dritten Änderungsmengen berechnet wird; und – einen vierter Umschalter (3074) zum Umschalten von einem elften Filter (3067) auf ein zwölftes Filter (3068) unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der vierten Änderungsmengen berechnet wird.
Spracherkennungsvorrichtung nach Anspruch 5, wobei zumindest eine Frequenz des Linienspektrums, die Gesamtbandenergie, die Unterbandenergie oder die Nullstellenzahl aus der Sprachsignaleingabe in den vorangegangenen Datenblock berechnet werden.
Spracherkennungsvorrichtung nach Anspruch 5, wobei zumindest eine Frequenz des Linienspektrums, die Gesamtbandenergie, die Unterbandenergie oder die Nullstellenzahl für die Merkmalsmenge verwendet wird.
Spracherkennungsvorrichtung nach Anspruch 5, wobei die Vorrichtung ferner einen zweiten Speicherschaltkreis (7071) zum Speichern und Halten einer Ausgabe des regenerativen Sprachsignals aus einer Sprachentschlüsselungsvorrichtung in den vorangegangenen Datenblock aufweist, und – zumindest eine Gesamtbandenergie, eine Unterbandenergie oder eine Nullstellenzahl, die aus der Ausgabe des regenerativen Sprachsignals aus dem zweiten Speicherschaltkreis (7071) berechnet werden, und eine Frequenz des Linienspektrums verwendet, die mittels eines in der Sprachentschlüsselungsvorrichtung decodierten linearen vorhersehbaren Koeffizienten berechnet wird.
Spracherkennungsvorrichtung nach Anspruch 5, wobei die Anderungsmengen-Berechnungsabschnitte (1031, 1032, 1033, 1034) sich zur Berechnung der Änderungsmengen basierend auf einem Unterschied zwischen einer Menge und ihres Langzeitmittelwertes eignen.
Aufzeichnungsmedium, welches von einer Datenverarbeitungsvorrichtung lesbar ist, die eine Spracherkennungsvorrichtung zur Unterscheidung eines Sprachabschnittes von einem Nicht-Sprachabschnitt für jede für ein Sprachsignal festgelegte Zeitlänge unter Verwendung einer Merkmalsmenge, welche aus der Sprachsignaleingabe für jede festgelegte Zeitlänge berechnet wird, einsetzt, wobei die Spracherkennungsvorrichtung Umschalter zum Umschalten zwischen den Filtern aufweist, die den Langzeitmittelwert von Änderungsmengen unter Verwendung eines Ergebnisses der Ausgabe der Unterscheidung in den vorangegangenen Datenblöcken berechnen, und – auf dem ein Programm aufgezeichnet wird, um die Datenverarbeitungsvorrichtung zu veranlassen, die folgenden Schritte (a) bis (l) auszuführen: (a) einen Schritt zur Berechnung einer Frequenz des Linien spektrums (LSF) aus dem Sprachsignal; (b) einen Schritt zur Berechnung einer Gesamtbandenergie aus dem Sprachsignal; (c) einen Schritt zur Berechnung einer Unterbandenergie aus dem Sprachsignal; (d) einen Schritt zur Berechnung einer Nullstellenzahl aus dem Sprachsignal; (e) einen Schritt zur Berechnung erster Änderungsmengen der Frequenz des Linienspektrums; (f) einen Schritt zur Berechnung zweiter Änderungsmengen der Gesamtbandenergie; (g) einen Schritt zur Berechnung dritter Änderungsmengen der Unterbandenergie; (h) einen Schritt zur Berechnung vierter Änderungsmengen der Nullstellendurchgangszahl; (i) einen Schritt zur Berechnung eines Langzeitmittelwertes der ersten Änderungsmengen; (j) einen Schritt zur Berechnung eines Langzeitmittelwertes der zweiten Änderungsmengen; (k) einen Schritt zur Berechnung eines Langzeitmittelwertes der dritten Änderungsmengen; und (l) einen Schritt zur Berechnung eines Langzeitmittelwertes der vierten Änderungsmengen.
Aufzeichnungsmedium nach Anspruch 12, wobei: – die ersten Änderungsmengen auf der Grundlage eines Unterschiedes zwischen der Frequenz des Linienspektrums ihres Langzeitmittelwertes berechnet werden; – die zweiten Änderungsmengen auf der Grundlage eines Unterschiedes zwischen der Gesamtbandenergie und ihres Langzeitmittelwertes berechnet werden; – die dritten Änderungsmengen auf der Grundlage eines Unterschiedes zwischen der Unterbandenergie und ihres Langzeitmittelwertes berechnet werden; und – die vierten Änderungsmengen auf der Grundlage eines Unterschiedes zwischen der Nullstellenzahl und ihres Langzeitmittelwertes berechnet werden.
Aufzeichnungsmedium nach einem der Ansprüche 12 oder 13, welches von der Datenverarbeitungsvorrichtung lesbar ist, auf dem ein Programm aufgezeichnet wird, um die Datenverarbeitungsvorrichtung zu veranlassen, die folgenden Schritte (a) bis (e) auszuführen: (a) einen Schritt zum Halten eines Ergebnisses der Unterscheidung, welches in den vorangegangenen Datenblöcken ausgegeben wurde; (b) einen Schritt zum Umschalten von einem fünften Filter auf ein sechstes Filter unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der ersten Änderungsmengen berechnet wird; (c) einen Schritt zum Umschalten von einem siebten Filter auf ein achtes Filter unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der zweiten Änderungsmengen berechnet wird; (d) einen Schritt zum Umschalten von einem neunten Filter auf ein zehntes Filter unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der dritten Änderungsmengen berechnet wird; (e) einen Schritt zum Umschalten von einem elften Filter auf ein zwölftes Filter unter Verwendung des Ergebnisses der Unterscheidung, welches von dem ersten Speicherschaltkreis (3081) eingegeben wird, wenn der Langzeitmittelwert der vierten Änderungsmengen berechnet wird.
Aufzeichnungsmedium nach Anspruch 12, welches von der Datenverarbeitungsvorrichtung lesbar ist, auf dem ein Programm aufgezeichnet wird, um die Datenverarbeitungsvorrichtung zu veranlassen, einen Schritt zur Berechnung der Frequenz des Linienspektrums, der Gesamtbandenergie, der Unterbandenergie und der Nullstellenzahl als die Merkmalsmenge aus der Sprachsignaleingabe in den vorangegangenen Datenblock auszuführen.
Aufzeichnungsmedium nach Anspruch 12, welches von der Datenverarbeitungsvorrichtung lesbar ist, auf dem ein Programm aufgezeichnet wird, um die Datenverarbeitungsvorrichtung zu veranlassen, die folgenden Schritte auszuführen: (a) einen Schritt zum Speichern und Halten einer Ausgabe des regenerativen Sprachsignals aus einer Sprachentschlüsselungsvorrichtung in den vorangegangenen Datenblock, und mindestens einen der Schritte (b) bis (e) (b) einen Schritt zur Berechnung einer Frequenz des Linienspektrums (LSF) aus dem regenerativen Sprachsignal; (c) einen Schritt zur Berechnung einer Gesamtbandenergie aus dem regenerativen Sprachsignal; (d) einen Schritt zur Berechnung einer Unterbandenergie aus dem regenerativen Sprachsignal; und (e) einen Schritt zur Berechnung einer Nullstellenzahl aus dem regenerativen Sprachsignal.