EP1021805B1

EP1021805B1 - Verfahren und vorrichtung zur verbesserung eines digitalen sprachsignals

Info

Publication number: EP1021805B1
Application number: EP98943997A
Authority: EP
Inventors: Philip Lockwood; Stéphane LUBIARZ
Original assignee: Matra Nortel Communications SAS
Current assignee: Nortel Networks France SAS
Priority date: 1997-09-18
Filing date: 1998-09-16
Publication date: 2001-11-07
Anticipated expiration: 2018-09-16
Also published as: AU9168798A; EP1021805A1; DE69802431T2; US6775650B1; FR2768545B1; WO1999014744A1; FR2768545A1; DE69802431D1; CA2304013A1

Claims

Verfahren zur Aufbereitung eines in aufeinanderfolgenden Gruppen ("trames") behandelten digitalen Sprachsignals (s), dadurch gekennzeichnet, dass man eine Oberschwingungsanalyse des Sprachsignals vornimmt, um eine Tonfrequenz (f_p) des Sprachsignals auf jeder Gruppe zu schätzen, auf der es eine Stimmaktivität aufweist, und dass man nach Schätzung der Tonfrequenz des Sprachsignals auf einer Gruppe das Sprachsignal der Gruppe aufbereitet, indem man es mit einer Überabtastfrequenz ("fréquence de suréchantillonnage") (f_e) überabtastet ("suréchantillonne"), die ein ganzzahliges Vielfaches der geschätzten Tonfrequenz ist.
Verfahren nach Anspruch 1, bei dem man Spektralkomponenten (S_n,f) des Sprachsignals errechnet, indem man das aufbereitete Signal (s') in Blöcken von N Abtastungen abgibt, die einer Transformation im Frequenzbereich unterzogen wurden, wobei N eine vorbestimmte ganze Zahl ist, und bei dem das Verhältnis (p) zwischen der Überabtastfrequenz (f_e) und der geschätzten Tonfrequenz ein Teiler der Zahl N ist.
Verfahren nach Anspruch 2, bei dem die Zahl N eine Potenz von 2 ist.
Verfahren nach Anspruch 2 oder 3, bei dem man einen Voisementgrad ("degré de voisement") (χ) des Sprachsignals auf der Gruppe ausgehend von einer Berechnung der Entropie (H) der Autokorrelation von Spektralkomponenten (S 2 / n,f), die auf der Basis des aufbereiteten Signals (s') errechnet wurden, schätzt.
Verfahren nach Anspruch 4, bei dem der Voisementgrad (χ) ausgehend von einer standardisierten entropie H der Formel
gemessen wird,
worin A(k) die standardisierte Autokorrelation ist, die definiert ist durch:
worin S 2 / n,f diese auf der Basis des überabgetasteten Signals berechnete spektrale Komponente der Ordnung f bezeichnet.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem man nach Behandlung jeder Gruppe aufbereiteten Signals von den durch diese Behandlung gelieferten Signalabtastungen eine Anzahl von Abtastungen (M) gleich einem ganzzahligen Vielfachen des Verhältnisses (T_p) zwischen der Abtastfrequenz (F_e) und der geschätzten Tonfrequenz (f_p) beibehält.
Verfahren nach einem der Ansprüche 1 bis 5, bei dem die Schätzung der Tonfrequenz des Sprachsignals auf einer Gruppe die folgenden Schritte umfasst:

man schätzt Zeitintervalle (t_r) zwischen zwei aufeinanderfolgenden Unterbrechungen (R) des Signals, die während der Dauer der Gruppe auftretenden Schließungen der Stimmritze des Sprechers zuschreibbar sind, wobei die geschätzte Tonfrequenz umgekehrt proportional zu diesen Zeitintervallen ist;

man interpoliert das Sprachsignal in diesen Zeitintervallen, damit das aus dieser Interpolation resultierende aufbereitete Signal (s') ein konstantes Zeitintervall zwischen zwei aufeinanderfolgenden Unterbrechungen aufweist.
Verfahren nach Anspruch 7, bei dem man nach der Behandlung jeder Gruppe von den von dieser Behandlung gelieferten Abtastungen des Sprachsignals eine Anzahl von Abtastungen (M) beibehält, die einer ganzen Zahl von geschätzten Zeitintervallen (t_r) entspricht.
Vorrichtung zur Aufbereitung eines digitalen Sprachsignals (s), umfassend Behandlungsmittel, die für die Durchführung eines Aufbereitungsverfahrens nach einem der vorhergehenden Ansprüche ausgelegt ist.