EP1195744B1

EP1195744B1 - Geräuschrobuste Spracherkennung

Info

Publication number: EP1195744B1
Application number: EP01308268A
Authority: EP
Inventors: Kiyoshi c/o Pioneer Corporation Yajima; Soichi c/o Pioneer Corporation Toyama
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2000-09-29
Filing date: 2001-09-27
Publication date: 2005-11-16
Anticipated expiration: 2021-09-27
Also published as: JP2002108383A; DE60114968D1; EP1195744A3; DE60114968T2; CN1346125A; JP4169921B2; EP1195744A2; US20020042712A1; CN1236421C; US7065488B2

Claims

Spracherkennungssystem, umfassend:

ein akustisches Standardmodell (500), das jede Silbe oder Phonemeinheit für die Spracherkennung erkennt, mit einem von einem nichtspezifizierten Sprecher vorab erstellten Standardvektor;

einen einen ersten Merkmalsvektor erzeugenden Abschnitt (8), der Geräusche in einem von einer Sprechstimme erzeugten und einem bestimmten Text entsprechenden Eingabesignal verringert, um einen ersten Merkmalsvektor zu erzeugen, der eine Merkmalsmenge der Sprechstimme darstellt;

einen einen zweiten Merkmalsvektor erzeugenden Abschnitt (12), der aus dem Eingabesignal mit den Geräuschen einen zweiten Merkmalsvektor erzeugt; und

einen einen Anpassungsvektor erzeugenden Verarbeitungsabschnitt (11), der den ersten Merkmalsvektor mit einem Standardvektor vergleicht, um ein Pfadsuchergebnis zu ermitteln, den zweiten Merkmalsvektor entsprechend dem Pfadsuchergebnis mit dem Standardvektor abstimmt und ein sprecherangepasstes akustisches Modell (400) erzeugt, das für die Sprechstimme kennzeichnend ist.
Spracherkennungssystem nach Anspruch 1, bei dem die Geräusche Additivgeräusche und Multiplikativgeräusche umfassen.
Spracherkennungssystem nach Anspruch 2, bei dem der einen ersten Merkmalsvektor erzeugende Abschnitt (8) einen Additivgeräusche verringernden Abschnitt (7) umfasst, der Additivgeräusche in dem Eingabesignal verringert, um ein additivgeräuschverringertes Signal zu erzeugen.
Spracherkennungssystem nach Anspruch 3, bei dem der Additivgeräusche verringernde Abschnitt (7) eine Umwandlung des Eingabesignals vornimmt, um ein erstes Spektrum zu erzeugen, und ein Additivgeräuschspektrum entsprechend den Additivgeräuschen von dem ersten Spektrum abzieht.
Spracherkennungssystem nach Anspruch 3, bei dem der einen ersten Merkmalsvektor erzeugende Abschnitt (8) einen Kepstrumberechner zur Vornahme einer Kepstrumberechnung an dem additivgeräuschverringerten Signal umfasst.
Spracherkennungssystem nach Anspruch 5, bei dem der einen ersten Merkmalsvektor erzeugende Abschnitt (8) einen Multiplikativgeräusche verringernden Abschnitt (9) umfasst, der Multiplikativgeräusche durch Abziehen der Multiplikativgeräusche von dem ersten Merkmalsvektor verringert.
Spracherkennungssystem nach Anspruch 6, bei dem der erste Merkmalsvektor eine Mehrzahl zeitreihenbasierter erster Merkmalsvektoren umfasst; und der Multiplikativgeräusche verringernde Abschnitt (9) einen Zeitdurchschnitt der zeitreihenbasierten ersten Merkmalsvektoren berechnet, um die Multiplikativgeräusche abzuschätzen.
Spracherkennungssystem nach Anspruch 1, bei dem der einen zweiten Merkmalsvektor erzeugende Abschnitt (12) wenigstens eine Kepstrumberechnung an dem Eingabesignal vornimmt, um den zweiten Merkmalsvektor zu berechnen.