DE3733391A1 - Verfahren zur spracherkennung - Google Patents
Verfahren zur spracherkennungInfo
- Publication number
- DE3733391A1 DE3733391A1 DE19873733391 DE3733391A DE3733391A1 DE 3733391 A1 DE3733391 A1 DE 3733391A1 DE 19873733391 DE19873733391 DE 19873733391 DE 3733391 A DE3733391 A DE 3733391A DE 3733391 A1 DE3733391 A1 DE 3733391A1
- Authority
- DE
- Germany
- Prior art keywords
- library
- pattern
- language
- eigenvector
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000009826 distribution Methods 0.000 claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 101150023929 egg gene Proteins 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Spracherkennung und
betrifft insbesondere ein Verfahren zum Erkennen einer unbe
kannten Sprache durch Vergleich mit einer Anzahl bekannter
Sprachen, und betrifft insbesondere ein Verfahren zum Erken
nen einer unbekannten, eingegebenen Sprache, indem ein Ei
genvektor benutzt wird, welcher durch ein Grundbestandteil-
Analyseverfahren erhalten worden ist.
Es ist bereits ein Spracherkennungsverfahren vorgeschlagen
worden, in welchem eine Sprache, welche mit einem Wort als
einer Einheit erzeugt worden ist, einer binären Verarbeitung
unterworfen wird, um ein eingegebenes Muster in Form einer
Zeit-Häufigkeits-Verteilung zu bilden, was auch als zeit
spektrales Muster bezeichnet wird; das eingegebene Muster
wird dann durch lineare Anpassung mit einer Anzahl Biblio
theksmuster verglichen, um so die eingegebene Sprache zu er
kennen. Dies Spracherkennungsverfahren wird auch das BTSP
(binäres Zeit-Spektrum-Muster-) Verfahren bezeichnet und es
ist einfach und vorteilhaft, da es nicht das sogenannte DP
(Dynamisches Programmierungs-) Anpassungsverfahren benutzt.
Außerdem eignet sich dieses Verfahren ausgezeichnet, um Fre
quenzschwankungen in dem TSP-Verfahren zu absorbieren, so
daß erwartet wird, daß es bei einer unbegrenzten Anzahl von
Rednern anwendbar ist. Jedoch ist bei dem herkömmlichen
BTSP-Verfahren eine beachtlich große Kapazität zum Spei
chern einer Anzahl von zeit-spektralen Bibliotheks- oder Ar
chivmustern erforderlich, so daß ein hochschneller Prozessor
geschaffen werden mußte, um ohne Verzögerung eine Erkennungs
verarbeitung durchzuführen.
Durch die Erfindung sollen die vorstehend beschriebenen
Nachteile der herkömmlichen Verfahren vermieden werden und
es soll ein Verfahren zum Erkennen einer eingegebenen unbe
kannten Sprache geschaffen werden, welches in der Struktur
einfach ist und welches eine minimale Bibliotheks- oder Ar
chiv-Speicherkapazität für Bibliotheks- oder Archivdaten er
fordert. Ein weiteres Ziel der Erfindung besteht darin, ein
Spracherkennungsverfahren zu schaffen, welches schnell ar
beitet und leicht auszuführen ist. Gemäß der Erfindung ist
dies bei einem Verfahren zur Spracherkennung durch die
Schritte im kennzeichnenden Teil des Anspruchs 1 erreicht.
Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfah
rens sind Gegenstand der Unteransprüche.
Gemäß einer bevorzugten Ausführungsform der Erfindung ist
ein Verfahren zum Erkennen einer eingegebenen Sprache ge
schaffen, bei welchem ein zeit-spektrales Muster mit Zeit
information und mit einer Anzahl Rahmen aus der eingegebenen
Stimme erhalten wird, und das zeit-spektrale Muster einem
Hauptbestandteil-Analyseverfahren unterzogen wird, um einen
Nicht-Null-Eigenvektor zu bestimmen, welcher dann bei dem
zeit-spektralen Muster angewendet wird, um eine Verteilung
von inneren Produkten zwischen dem Eigenvektor und den Rah
men des zeit-spektralen Musters zu bestimmen.
Nachfolgend wird die Erfindung anhand von bevorzugten Ausfüh
rungsformen unter Bezugnahme auf die anliegenden Zeichnungen
im einzelnen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm eines Spracherkennungssystems
gemäß einer Ausführungsform der Erfindung;
Fig. 2 eine schematische Darstellung eines Beispiels
eines Sprachmusters, das bei der Erfindung anwend
bar ist, und
Fig. 3 einen Graphen, in welchem eine Häufigkeitsvertei
lung von inneren Produkten zwischen einem Biblio
theks- oder Archivmuster I und mehreren eingegebe
nen Mustern II und III dargestellt ist.
In Fig. 2 ist ein Sprachmuster für eine Wort "shita" darge
stellt, welches, wenn es in dem Klang der japanischen Spra
che ausgesprochen wird, im englischen "down" bedeutet. Ein
derartiges Sprachmuster kann gebildet werden, indem ein
Sprachsignal in einem vorherbestimmten Zeitintervall, bei
spielsweise von 10 ms, in einer Anzahl vorherbestimmter Fre
quenzbänder beispielsweise mittels Bandpaß-Filtern abgetastet
wird und die örtlichen Spitzenwerte in jeder Ansammlung von
abgetasteten Daten quantisiert werden. Die Daten können
umgesetzt werden, indem sie dann beispielsweise binär-be
wertete Daten sind, indem eine Methode angewendet wird, die
beispielsweise in der US-PS 46 34 966 beschrieben ist, wel
ches den Erfindern der vorliegenden Anmeldung erteilt worden
ist.
In dem in Fig. 2 dargestellten Sprachmuster liegt das Muster
in einer Matrixform vor und hat neun Spalten und 34 Zeilen.
Hierbei weist jede Zeile die Daten auf, welche durch Ab
tasten in einem ganz bestimmten Abtast-Zeitabschnitt erhal
ten worden sind, und jede Zeile wird daher auch Rahmen ge
nannt. Mit anderen Worten, wenn eine eingegebene Sprache in
einem vorher bestimmten Zeitintervall in einer Anzahl vor
herbestimmter Frequenzbänder, welche voneinander verschieden
sind, abgegetastet wird, wird eine Zeit-Frequenz-Verteilung
erhalten. Eine solche Zeit-Frequenz-Verteilung kann verar
beitet werden, um das in Fig. 2 dargestellte Sprachmuster
festzulegen. In dem speziellen, in Fig. 2 dargestellten
Sprachmuster legen die linken drei Spalten A bis C eine
kombinierte Frequenzinformation fest. Das heißt, die Spalte
A enthält kombinierte Daten für einen niederfrequenten Be
reich, die Spalte B enthält kombinierte Daten für einen
mittleren Frequenzbereich, und die Spalte C enthält kombi
nierte Daten für einen hochfrequenten Bereich. Mit anderen
Worten, die in der Frequenz analysierten Daten, die aus ei
ner Anzahl Bandpaßfilter in einem vorherbestimmten Zeitinter
vall erhalten worden sind, sind in drei Frequenzbereichen,
nämlich nieder-, mittel- und hochfrequenten Bereichen zusam
mengefaßt, und diese jeweiligen kombinierten bzw. zusam
mengefaßten Daten sind in den entsprechenden, den nieder-,
mittel- und hochfrequenten Bereichen entsprechenden Spalten
angeordnet. Eine Spalte D enthält Daten, welche ein sprachlo
ses bzw. stummes Intervall anzeigen, und Spalten E und F
enthalten hervorgehobene nieder- und hochfrequente Daten,
welche durch Verarbeiten der bezüglich der Frequenz analy
sierten Daten in einer vorherbestimmten, dem Fachmann geläu
figen Weise erhalten worden sind.
Von Bedeutung ist auch, daß das in Fig. 2 dargestellte
Sprachmuster drei mit G bezeichnete Spalten enthält, wel
che drei binäre Zahlen enthalten, welche einen binärkodier
ten Dezimalkode (B.C.D. code) anzeigen, welcher Zeit an
zeigt. Beispielsweise haben die ersten 15 Rahmen "000" in
der Zeitspalte G, und dies zeigt an, daß die ersten 15 Rah
men in einem vorherbestimmten Zeitintervall, z.B. 10 ms, für
einen ersten Zeitabschnitt von etwa 15×10 ms=150 ms abge
tastet worden sind. Die nächsten sechzehn Rahmen haben
"001" in der Zeitspalte G, und dies zeigt an, daß die näch
sten sechzehn Rahmen in dem vorherbestimmten Zeitintervall,
z.B. 10 ms, für das folgende zweite Zeitintervall von etwa
16×10 ms=160 ms abgetastet worden ist, was vorzugsweise im
wesentlichen gleich dem ersten Zeitabschnitt ist. Auf diese
Weise werden eine Anzahl Rahmen in einem vorherbestimmten
Zeitintervall für einen vorherbestimmten Zeitabschnitt abge
tastet, welcher beliebig eingestellt werden kann, aber vor
zugsweise wesentlich größer als das Abtastzeitintervall ein
gestellt wird.
Da jeder Rahmen oder jede Zeile des in Fig. 2 dargestellten
Sprachmusters neun Elemente hat oder das in Fig. 2 darge
stellte Muster neun Spalten hat, kann das in Fig. 2 darge
stellte Sprachmuster als eines betrachtet werden, das aus
einer Anzahl N von neun Dimensionsvektoren gebildet ist. Wie
im einzelnen später noch beschrieben wird, wird gemäß dem
Grundgedanken dar Erfindung das Sprachmuster in einer in
Fig. 2 dargestellten Matrixform der bekannten Hauptbestand
teil-Analyse unterzogen, um einen Nicht-Null-Minimum-Eigen
vektor festzulegen, und dann werden innere Produkte zwischen
dem auf diese Weise erhaltenen Eigenvektor und den Rahmen
des Bildmusters der Fig. 2 berechnet. Die sich ergebenen in
neren Produkte werden in einer Häufigkeitsverteilung in
einer Anzahl von (z.B. acht) Intervallen aufgetragen, die im
Wert zueinander unterschiedlich sind, um dadurch ein Histo
gramm der inneren Produkte festzulegen. Dieses Histogramm
innerer Produkte wird als eine Identifizierung einer ganz
bestimmten Stimme bzw. Sprache verwendet.
In Fig. 1 ist in Blockform ein Spracherkennungssystem gemäß
einer Ausführungsform der Erfindung dargestellt. Das dar
gestellte Spracherkennungssystem weist eine Vorverarbeitungs
einheit 1 auf, in welcher ein Sprachsignal eingegeben wird,
das beispielsweise mittels eines Mikrophons aus einer Spra
che umgesetzt worden ist, die von einem Redner ausgesprochen
worden ist. Die Vorverarbeitungseinheit 1 weist beispiels
weise einen Sprech-Intervalldetektor auf, in welchem der
Energiepegel des Sprachsignals überwacht wird, um ein
Sprechintervall mit Hilfe eines Schwellenwertpegels zu be
stimmen. Üblicherweise weist die Vorverarbeitungseinheit 1
auch eine Filterbank auf, welche aus einer Anzahl Bandpaß
filter gebildet ist, welche hinsichtlich des Frequenzbereichs
voneinander verschieden sind. Wenn im Ergebnis das Sprach
signal durch die Vorverarbeitungseinheit 1 verarbeitet ist,
wird das Sprachsignal in eine Anzahl verschiedener Frequenz
bereiche digitalisiert. Die auf diese Weise erhaltenen, di
gitalisierten Sprachsignale werden dann an eine Merkmal-Pa
rametereinheit 2 abgegeben, in welcher die digitalisierten
Sprachdaten in einer vorherbestimmten Weise verarbeitet wer
den, um ein Sprachmuster beispielsweise der in Fig. 2 dar
gestellten Form zu bilden. Das auf diese Weise gebildete
Sprachmuster wird dann einer partiellen Anpassungs- und Vor
bereitungs-Auswahleinheit 3 zugeführt, in welcher das auf
diese Weise zugeführte Sprachmuster mit einer Anzahl Bib
liotheks- oder Archivmuster verglichen wird, welche jeweils
einer bekannten, in einem Speicher gespeicherten Sprache
oder Stimme entsprechen. In diesem Fall wird das eingegebe
ne Sprachmuster partiell mit jedem der Archivmuster, bei
spielsweise mit einer vorherbestimmten Anzahl von ersten
Rahmen, verglichen, um mögliche Kandidaten aus der Sammlung
der Archivmuster auszuwählen, wobei die Kandidaten an einem
Kandidatenspeicher 6 übertragen werden. Danach wird das ein
gegebene Sprachmuster im Ganzen mit jedem der Kandidatenwor
te verglichen, indem ein Ähnlichkeitsgrad mittels einer Ahn
lichkeits-Berechnungseinheit 4 berechnet wird, und das Kan
didatenwort mit dem höchsten Ähnlichkeitsgrad wird als ein
erkanntes Ergebnis abgegeben.
In der bevorzugten Ausführungsform der Erfindung wird ein
Sprachsignal einer Frequenzanalyse unterworfen, um eine
Zeit-Frequenz- oder zeit-spektrale Verteilung zu erzeugen,
und örtliche Spitzenwerte, welche als der Formant betrach
tet werden können, werden extrahiert und als Merkmale des
Sprachsignals benutzt. Der Anpassungsprozeß wird vorzugs
weise in zwei Schritten durchgeführt. Das heißt, bei dem
ersten Anpassungsschritt wird das eingegebene Sprachmuster
mit jeder der Anzahl Archivmuster für eine vorherbestimmte
Anzahl von z.B. 20 Rahmen von dem ersten Rahmen in den je
weiligen Zeit-Frequenz-Verteilungsmustern verglichen, wobei
der Stelle von lokalen Scheitelwerten Beachtung geschenkt
wird. Eine vorherbestimmte Anzahl z.B. 20, dieser Archiv-
Sprachmustern, deren lokale Scheitelwerte näher bei demjeni
gen des eingegebenen Sprachmusters lokalisiert sind, werden
als mögliche Kandidaten ausgewählt und an den Kandidaten
speicher 6 übertragen. Bei dem zweiten Anpassungsschritt
wird dann das eingegebene Sprachmuster nunmehr vollständig
mit jedem der auf diese Weise ausgewählten Kandidaten-Ar
chivsprachmuster mit Hilfe der Hauptbestandteil-Analyse ver
glichen, wie nachstehend noch im einzelnen beschrieben wird.
Das Sprachmuster einer in Fig. 2 dargestellten zeit-spektra
len Verteilung enthält eine Anzahl Rahmen, die jeweils eine
Zeile festlegen und als ein Element in einem Vektorraum be
trachtet werden können. Folglich kann jeder Rahmen als ein
Punkt Xi in dem neundimensionalen Vektorraum betrachtet wer
den, welcher durch den folgenden Ausdruck festgelegt ist:
Xi = (Xi₁, Xi₂, . . . Xi₉) (1)
wobei i = 1,2, . . . N ist.
Ein Eigenvektor R für eine Wortsprache ist durch den folgenden
Ausdruck festgelegt. Hierbei ist zu beachten, daß
ein derartiger Eigenvektor durch ein Sprachmuster des in
Fig. 2 dargestellten Formats für jede bekannte Sprache bzw.
Stimme durch Anwenden der Hauptbestandteil-Analyse bestimmt
werden kann.
R = (r₁, r₂, . . . r₃) (2)
wobei
wobei
ist.
Ein inneres Produkt zwischen dem Eigenvektor R und Xi kann
durch den folgenden Ausdruck festgelegt werden:
Nunmehr wird die Berechnung des inneres Produkts aus G 1.(3)
bei jedem Rahmen angewendet, so daß eine Anzahl von N inneren
Produkten erhalten wird, wenn das Sprachmuster eine Anzahl
von N Rahmen hat. Mit Hilfe der auf diese Weise erhaltenen
inneren Produkte wird eine Häufigkeitsverteilung oder ein
Histogramm von inneren Produkten gebildet, wie in Fig. 2 dar
gestellt ist. Diese Operation wird für jede der bekannten
Sprachen oder Stimmen durchgeführt, um ein Histogramm von
inneren Produkten festzulegen, welche als innere Produkte
zwischen dem Eigenvektor R und den Rahmen eines Sprachmu
sters erhalten worden sind. Das auf diese Weise erhaltene
Histogramm oder die entsprechende Häufigkeitsverteilung von
inneren Produkten wird als ein Parameter gespeichert, wel
cher einer ganz bestimmten Sprache bzw. Stimme zugeordnet
ist. Folglich hat das in Fig. 1 dargestellte Spracherken
nungssystem zwei Operationsmode, d.h. einen Registrierungs
mode und einen Erkennungsmode. Wenn das Spracherkennungs
system in dem Registrierungsmode betrieben wird, wird eine
bekannte Sprache oder Stimme eingegeben, und deren Histo
gramm von inneren Produkten, die, wie vorstehend beschrieben,
berechnet worden sind, wird erzeugt und wird als ein Para
meter gespeichert, welcher der bekannten Sprache oder Stimme
zugeordnet ist. Auf diese Weise werden eine Anzahl bekann
ter Sprachen/Stimmen als Bibliotheks- oder Archivdaten ge
speichert, welche das Sprachmuster und das Histogramm in
nerer Produkte aufweisen. Dann wird das Spracherkennungs
system in den Erkennungsmode gesetzt, und dann wird eine
eingegebene unbekannte Sprache/Stimme mit jedem der Bib
liotheks- oder Archivdaten verglichen, um die Identifizie
rung der eingegebenen Sprache /Stimme festzustellen bzw.
zu bestimmen.
Es ist wichtig, einen Eigenvektor zu bestimmen, so daß die
Spannweite der Werteverteilung von inneren Produkten be
grenzt wird, um so die Speicherkapazität zu begrenzen, die
zum Speichern der Häufigkeitsverteilung von inneren Pro
dukten erforderlich ist. Zuerst wird ein Eigenvektor be
stimmt, um so die Streuung oder Abweichung der inneren Pro
dukte (R, Xi) zu minimieren. Eigenwerte können bestimmt
werden, indem ein bekanntes Eigenwertproblem für ein Sprach
muster mit einem Matrixformat gelöst wird, wie es in Fig. 2
dargestellt ist. Unter den auf diese Weise bestimmten Ei
genwerten wird dann ein Nicht-Null- und der kleinste Eigen
wert ausgewählt, und dessen entsprechender Eigenvektor für
das spezielle Sprachmuster bestimmt und festgelegt. Da auf
diese Weise der kleinste Wert ausgewählt wird, kann die
Spannweite einer Verteilung von inneren Produkten mini
miert werden. Dies ist vorteilhaft, um Speicherkapazität zu
sparen, die zum Speichern der Daten einer Häufigkeits-Ver
teilung von inneren Produkten erforderlich ist. Dann wird
ein Histogramm von inneren Produkten bestimmt und zusammen
mit deren Eigenvektor in der Bibliothek 5 gespeichert.
Um die eingegebene unbekannte Sprache/Stimme zu identifi
zieren, wird eine Berechnung des inneren Produkts zwischen
dem Sprachmuster der eingegebenen Sprache/Stimme, wie in
Fig. 2 dargestellt ist und dem Eigenvektor jeder der Kandi
datensprachen durchgeführt, welche als ein Ergebnis der Vor
bereitungsanpassung ausgewählt worden ist, und wird nunmehr
in dem Kandidatenspeicher 6 gespeichert. Somit ist eine Häu
figkeits-Verteilung oder ein Histogramm von inneren Produk
ten für jeder der Kandidaten-Stimmen bestimmt. Basierend auf
den auf diese Weise erhaltenen Häufigkeitsverteilungen von
inneren Produkten wird bestimmt, welche von den Kandidaten-
Stimmen den höchsten Ahnlichkeitswert hat. In Fig. 3 ist ein
Graph dargestellt, welche mehrere Häufigkeitsverteilungen
von inneren Produkten zeigt, wobei auf der Abszisse die Wer
te der inneren Produkte und auf der Ordinate die Häufigkeit
des Auftretens aufgetragen ist. Somit kann der Graph der
Fig. 3 dafür angesehen werden, Histogramme festzulegen, wel
che anzeigen, daß Werte von inneren Produkten, die in einen
bestimmten Wertebereich fallen, soviel Mal auftreten. Daher
ist die Abszisse in der Tat in eine vorherbestimmte Anzahl
(z.B. 8) Bereichen unterteilt, und folglich ist jede Vertei
lung nicht eine kontinuierliche Verteilung, sondern legt
eher ein Histogramm fest.
In Fig. 3 zeigt die ausgezogene Kurve I eine Häufigkeits
verteilung von inneren Produkten für eine ganz bestimmte
Bibliotheksstimme an, und die gestrichelte Kurve II
zeigt eine Häufigkeitsverteilung von innerenProdukten für
eine eingegebene unbekannte Sprache an, welche der
ganz bestimmten Bibliotheksstimme entspricht. Da die Ver
teilungen I und II für denselben Klang gelten, sind diese
Verteilungen I und II beinahe identisch übereinander ange
ordnet. Andererseits zeigen die anderen drei gestrichelten
verteilungen III Häufigkeitsverteilungen von inneren Pro
dukten an, welche für verschiedene (Stimmen) Sprachen erhalten
worden sind. Wenn auf diese Weise die eingegebene, unbe
kannte Stimme sich von der Bibliotheks (Archiv) Stimme un
terscheidet, unterscheidet sich die Häufigkeitsverteilung
der inneren Produkte drastisch in der Höhe und der seitli
chen Streuung. Folglich kann durch Berechnen des Ahnlich
keitsgrads in der Häufigkeitsverteilung der inneren Produkte
zwischen eingegebener und Bibliothekssprache (Stimme) die Iden
tität der eigegebenen Sprache/Stimme bestimmt werden.
Wie oben beschrieben, kann gemäß der Erfindung, da eine
Häufigkeitsverteilung von innerenProdukten und ein Eigen
vektor als Parameter benutzt werden, um eine ganz bestimm
te Bibliothekssprache (Stimme) zu identifizieren, die Spei
cherkapazität, die zum Speichern von Bibliothekssprachen
daten erforderlich ist, beträchtlich gemindert werden.
Folglich kann für eine gegebene Speicherkapazität eine
größere Anzahl von Bibliothekssprachdaten gespeichert wer
den. Insbesondere kann in dem BTSP-System, in welchem ein
Sprachmuster in Form einer zeit-spektralen Verteilung
binär-bewertet ist, die Berechnung von inneren Produkten
nur durch Addition durchgeführt werden, was besonders vor
teilhaft ist. Außerdem ist gemäß der Erfindung die Spei
cherkapazität, die für eine Bibliothekssprache (Stimme) erfor
derlich ist, annähernd 20 Bytes, und die Rechenvorgänge bei
der Spracherkennungs-Verarbeitung sind vereinfacht und
meistens Additionen, so daß für eine Bibliothek von annä
hernd 50 Wort-Sprachen eine Spracherkennung mit Hilfe eines
8-Bit-Universal-Mikroprozessors hinlänglich durchgeführt
werden kann. Zu beachten ist auch, daß ein Sprachmuster, das
in der vorliegenden Erfindung verwendbar ist, nicht auf das
eine in Fig. 2 dargestellte Muster beschränkt werden sollte.
Ein Sprachmuster mit Rahmen, die jeweils eine Häufigkeits-
Information und eine Zeitinformation haben, kann in der vor
liegenden Erfindung verwendet werden. Beispielsweise können
die Spalten A bis F Daten enthalten, welche ein Teil einer
einer zeit-spektralen Verteilung sind, welche dadurch er
halten worden ist, daß ein Sprachsignal einer Frequenz
analyse unterworfen wird.
Claims (5)
1. Verfahren zur Spracherkennung, dadurch gekenn
zeichnet, daß
ein eingegebenes Sprachmuster aus einem eingegebenen Sprachsignal einer eingegebenen unbekannten Sprache gebildet wird, wobei das eingegebene Sprachmuster eine Anzahl Rahmen enthält, die jeweils Frequenz-und Zeitdaten haben;
das eingegebene Sprachmuster mit einem Bibliotheks-Sprach muster jeder einer ersten Anzahl von bekannten Bibliotheks sprachen teilweise verglichen wird, um eine zweite Anzahl von Kandidaten-Bibliothekssprachen auszuwählen, von denen jede einen Eigenvektor und eine Häufigkeitsverteilung von inneren Produkten zwischen den Rahmen der Bibliotheksspra che und des Eigenvektors hat,
eine Häufigkeitsverteilung von inneren Produkten zwischen den Rahmen des eingegebenen Sprachmusters und dem Eigen vektor jeder der zweiten Anzahl von Kandidaten-Bibliotheks sprachen berechnet wird, und
eine Sprache (Stimme) aus der zweiten Anzahl von Kandidaten- Bibliothekssprachen ausgewählt wird, deren Häufigkeitsver teilung der inneren Produkte sehr ähnlich einer der Häufig keitsverteilungen von inneren Produkten ist, welche bei dem Berechnungsschritt berechnet worden sind, um dadurch die eingegebene Sprache (Stimme) mittels der auf diese Weise ausgewählten Bibliothekssprachen zu identifizieren.
ein eingegebenes Sprachmuster aus einem eingegebenen Sprachsignal einer eingegebenen unbekannten Sprache gebildet wird, wobei das eingegebene Sprachmuster eine Anzahl Rahmen enthält, die jeweils Frequenz-und Zeitdaten haben;
das eingegebene Sprachmuster mit einem Bibliotheks-Sprach muster jeder einer ersten Anzahl von bekannten Bibliotheks sprachen teilweise verglichen wird, um eine zweite Anzahl von Kandidaten-Bibliothekssprachen auszuwählen, von denen jede einen Eigenvektor und eine Häufigkeitsverteilung von inneren Produkten zwischen den Rahmen der Bibliotheksspra che und des Eigenvektors hat,
eine Häufigkeitsverteilung von inneren Produkten zwischen den Rahmen des eingegebenen Sprachmusters und dem Eigen vektor jeder der zweiten Anzahl von Kandidaten-Bibliotheks sprachen berechnet wird, und
eine Sprache (Stimme) aus der zweiten Anzahl von Kandidaten- Bibliothekssprachen ausgewählt wird, deren Häufigkeitsver teilung der inneren Produkte sehr ähnlich einer der Häufig keitsverteilungen von inneren Produkten ist, welche bei dem Berechnungsschritt berechnet worden sind, um dadurch die eingegebene Sprache (Stimme) mittels der auf diese Weise ausgewählten Bibliothekssprachen zu identifizieren.
2. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet, daß das Sprachmuster eine Matrixform hat,
die aus einer ersten, vorherbestimmten Anzahl von Zeilen
und aus einer zweiten vorherbestimmten Anzahl von Spalten
gebildet ist, wobei jede der ersten vorherbestimmten Anzahl
von Zeilen einem entsprechenden der Rahmen entspricht.
3. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet, daß der Schritt Vergleichen durchgeführt
wird, indem eine vorbestimmte Anzahl erster Rahmen des ein
gegebenen Sprachmusters mit den entsprechenden Rahmen jedes
der Bibliothekssprachmuster verglichen wird.
4. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet, daß jede der Bibliothekssprachen aus Daten
gebildet ist, welche ein Wort darstellen.
5. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet, daß der Eigenvektor ein Nicht-Null- und der
kleinste Eigenvektor ist, welcher dadurch erhalten wird, daß
das Sprachmuster einer Hauptbestandteils-Analyse unterzogen
wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61236900A JPS6391699A (ja) | 1986-10-03 | 1986-10-03 | 音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3733391A1 true DE3733391A1 (de) | 1988-04-14 |
DE3733391C2 DE3733391C2 (de) | 1990-03-29 |
Family
ID=17007421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19873733391 Granted DE3733391A1 (de) | 1986-10-03 | 1987-10-02 | Verfahren zur spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US4903306A (de) |
JP (1) | JPS6391699A (de) |
DE (1) | DE3733391A1 (de) |
FR (1) | FR2604815B1 (de) |
GB (1) | GB2195803B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10111056B4 (de) * | 2000-04-07 | 2005-11-10 | International Business Machines Corporation | Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5140668A (en) * | 1987-11-10 | 1992-08-18 | Nec Corporation | Phoneme recognition utilizing relative positions of reference phoneme patterns and input vectors in a feature space |
US5255342A (en) * | 1988-12-20 | 1993-10-19 | Kabushiki Kaisha Toshiba | Pattern recognition system and method using neural network |
US5850627A (en) * | 1992-11-13 | 1998-12-15 | Dragon Systems, Inc. | Apparatuses and methods for training and operating speech recognition systems |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
US6205424B1 (en) * | 1996-07-31 | 2001-03-20 | Compaq Computer Corporation | Two-staged cohort selection for speaker verification system |
CN1144172C (zh) * | 1998-04-30 | 2004-03-31 | 松下电器产业株式会社 | 包括最大似然方法的基于本征音的发言者适应方法 |
US6477203B1 (en) * | 1998-10-30 | 2002-11-05 | Agilent Technologies, Inc. | Signal processing distributed arithmetic architecture |
EP1079615A3 (de) * | 1999-08-26 | 2002-09-25 | Matsushita Electric Industrial Co., Ltd. | System zur Identifizierung und Anpassung des Profiles eines Fernsehbenutzer mittels Sprachtechnologie |
DE10015858C2 (de) * | 2000-03-30 | 2002-03-28 | Gunthard Born | Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
DE10015859C2 (de) * | 2000-03-30 | 2002-04-04 | Gunthard Born | Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
US10387805B2 (en) * | 2014-07-16 | 2019-08-20 | Deep It Ltd | System and method for ranking news feeds |
WO2017118966A1 (en) * | 2016-01-05 | 2017-07-13 | M.B.E.R. Telecommunication And High-Tech Ltd | A system and method for detecting audio media content |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0114500A1 (de) * | 1982-12-28 | 1984-08-01 | Kabushiki Kaisha Toshiba | Einrichtung zur Erkennung kontinuierlicher Sprache |
DE3522364A1 (de) * | 1984-06-22 | 1986-01-09 | Ricoh Co., Ltd., Tokio/Tokyo | System zum erkennen von sprache |
US4634966A (en) * | 1984-03-22 | 1987-01-06 | Ricoh Company, Ltd. | Binary processing of sound spectrum |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5722295A (en) * | 1980-07-15 | 1982-02-05 | Nippon Electric Co | Speaker recognizing system |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
JPS59216284A (ja) * | 1983-05-23 | 1984-12-06 | Matsushita Electric Ind Co Ltd | パタ−ン認識装置 |
JPS6057475A (ja) * | 1983-09-07 | 1985-04-03 | Toshiba Corp | パタ−ン認識方式 |
-
1986
- 1986-10-03 JP JP61236900A patent/JPS6391699A/ja active Pending
-
1987
- 1987-09-29 US US07/102,559 patent/US4903306A/en not_active Expired - Fee Related
- 1987-10-02 DE DE19873733391 patent/DE3733391A1/de active Granted
- 1987-10-05 FR FR878713743A patent/FR2604815B1/fr not_active Expired - Fee Related
- 1987-10-05 GB GB8723298A patent/GB2195803B/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0114500A1 (de) * | 1982-12-28 | 1984-08-01 | Kabushiki Kaisha Toshiba | Einrichtung zur Erkennung kontinuierlicher Sprache |
EP0114500B1 (de) * | 1982-12-28 | 1987-03-18 | Kabushiki Kaisha Toshiba | Einrichtung zur Erkennung kontinuierlicher Sprache |
US4634966A (en) * | 1984-03-22 | 1987-01-06 | Ricoh Company, Ltd. | Binary processing of sound spectrum |
DE3522364A1 (de) * | 1984-06-22 | 1986-01-09 | Ricoh Co., Ltd., Tokio/Tokyo | System zum erkennen von sprache |
Non-Patent Citations (1)
Title |
---|
Sickert, Klaus, Automatische Spracheingabe und Sprachausgabe, Haar b. München, Verlag Markt und Technik, 1983, S.244-252 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10111056B4 (de) * | 2000-04-07 | 2005-11-10 | International Business Machines Corporation | Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem |
Also Published As
Publication number | Publication date |
---|---|
GB2195803B (en) | 1990-10-10 |
US4903306A (en) | 1990-02-20 |
GB2195803A (en) | 1988-04-13 |
DE3733391C2 (de) | 1990-03-29 |
FR2604815A1 (fr) | 1988-04-08 |
FR2604815B1 (fr) | 1990-02-23 |
JPS6391699A (ja) | 1988-04-22 |
GB8723298D0 (en) | 1987-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE69030561T2 (de) | Spracherkennungseinrichtung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE3819178C2 (de) | ||
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69807765T2 (de) | Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner | |
EP0604476B1 (de) | Verfahren zur erkennung von mustern in zeitvarianten messsignalen | |
DE60000074T2 (de) | Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung | |
DE2844156C2 (de) | ||
DE3733391A1 (de) | Verfahren zur spracherkennung | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
EP0821346A2 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE69118118T2 (de) | Methode und System zur Spracherkennung ohne Rauschbeeinflussung | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |