-
Die
vorliegende Erfindung bezieht sich auf Techniken zum Variieren der
Charakteristiken von Stimmen.
-
Bisher
wurden verschiedene Techniken zum Konvertieren einer von einem Benutzer
eingegebenen Stimme (die hiernach als "Eingabestimme" bezeichnet wird) in eine Stimme mit
anderen Charakteristiken als denjenigen der Eingabestimme (die hiernach
als "Ausgabestimme" bezeichnet wird)
vorgeschlagen. Die
japanische
Patentanmeldungsoffenlegungsveröffentlichung
Nr. 2000-3200 offenbart zum Beispiel eine Technik zum Erzeugen
einer Ausgabestimme durch Hinzufügen
sogenannter "Hauchigkeit" zu einer Eingabestimme.
Gemäß der offenbarten Technik
wird eine Ausgangsstimme dadurch erzeugt, dass einer Eingabestimme
Komponenten eines bestimmten Frequenzbandes (das einer dritten Formante
der Eingabestimme entspricht) eines weißen Rauschens, das über eine
große
Frequenzbandbreite eine gleichmäßige spektrale
Intensität
aufweist, hinzugefügt
wird.
-
Weil
jedoch die Charakteristiken einer Stimme, die einem Hauchen eines
Menschen entsprechen (hiernach als "Hauchgeräusch" bezeichnet) sich fundamental von denjenigen
eines weißen
Rauschens unterscheiden, ist es schwierig, eine natürlich klingende
Ausgabestimme einfach dadurch zu erzeugen, dass ein weißes Rauschen
als eine Komponente eines Hauchgeräuschs einer Eingabestimme hinzugefügt wird.
Ein ähnliches
Problem könnte
bei der Erzeugung anderer Stimmen verschiedener anderer Charakteristiken
als der mit einer Hauchigkeit versehenen Ausgabestimme entstehen,
wie zum Beispiel eine Stimme, die durch die unregelmäßige Schwingung
des Stimmbandes erzeugt wird (die hiernach als "heisere Stimme" bezeichnet wird) und eine Flüsterstimme,
bei der das Stimmband nicht schwingt. Allgemein ist es möglich, eine
heisere Stimme dadurch zu erzeugen, dass die bekannte SMS-Technik (Spectral
Modeling Synthesis) zum Extrahieren harmonischer Komponenten und
nicht-harmonischer Komponenten (die auch als Restkomponenten oder Rauschkomponenten
bezeichnet werden) aus einer Eingabestimme verwendet wird, dann
die Intensität der
nicht-harmonischen Komponenten relativ erhöht und die nicht-harmonischen
Komponenten mit erhöhter
Intensität
zu den harmonischen Komponenten addiert werden. Weil bei einer heiseren
Stimme eines Menschen jedoch eine unregelmäßige Schwingung des Stimmbandes
auftritt und sie sich grundlegend von einer Stimme unterscheidet,
die lediglich reich an Rauschkomponenten ist, würden beträchtliche Einschränkungen
beim Erzeugen einer natürlichen
heiseren Stimme unter der Verwendung der herkömmlicherweise bekannten Technik
auftreten.
-
Die
Druckschrift
EP 1 220 195 und
YINYONG QI, "Replacing
tracheoesophageal voicing sources using LPC synthesis" ("Ersetzen von Luft- und
Speiseröhre
als Stimmquellen durch LPC-Synthese"), Journal of the Acoustical Society
of America, Band 88, Nr. 3, September 1990, beschreiben Techniken
zum Durchführen
spektraler Veränderungen
an einem Eingabesignal, während
ihre spektrale Hüllkurvenform
erhalten bleibt.
-
Angesichts
der oben genannten Probleme ist es eine Aufgabe der vorliegenden
Erfindung, eine Technik zum Erzeugen einer natürlichen Ausgabestimme aus einer
Eingabestimme zur Verfügung
zu stellen. Die Erfindung ist in den beiliegenden unabhängigen Ansprüchen definiert.
-
Bei
der Stimmverarbeitungsvorrichtung gemäß dem ersten Aspekt der vorliegenden
Erfindung erzeugt die Frequenzanalyseeinheit für jede der spektralen Verteilungsregionen,
welche Frequenzen anzeigende entsprechende Intensitätspeaks
im Frequenzspektrum der Eingabestimme aufweist, Eingabespektrumsdaten,
die ein Frequenzspektrum anzeigen, das zu der spektralen Verteilungsregion
gehört. Hier
addiert die Spektrumskonvertiereinheit für jede der spektralen Verteilungsregionen
der Eingabestimme und zu einem bestimmten Verhältnis eine Intensität, die von
den Eingabespektrumsdaten der spektralen Verteilungsregion angegeben
ist, und eine Intensität,
die durch die Konvertierspektrumsdaten, die der spektralen Verteilungsregion
entspricht, zusammen, um so die neuen Spektrumsdaten zu erzeugen, die
ein Frequenzspektrum angeben, das als Intensität eine Summe der Intensität aufweist.
Derartige Anordnungen können
eine natürliche
Ausgabestimme zur Verfügung stellen,
in der nicht nur das Frequenzspektrum der Konvertierstimme sondern
auch das Frequenzspektrum der Eingabestimme reflektiert ist.
-
Die
Stimmverarbeitungsvorrichtung der vorliegenden Erfindung, bei der
das Frequenzspektrum der Eingabestimme und das Frequenzspektrum
der Konvertierstimme in einem bestimmten Verhältnis addiert werden, kann
ferner umfassen: eine Lautstärkeerfassungseinheit,
die eine Lautstärke
der Eingabestimme erfasst; und eine Parametereinstelleinheit, die
das bestimmte Verhältnis
gemäß der durch
die Lautstärkeerfassungseinheit
erfassten Lautstärke variiert.
Weil das Verhältnis
zwischen der Intensität des
Frequenzspektrums der Eingabestimme und der Intensität des Frequenzspektrums
der Konvertierstimme von der Parametereinstelleinheit gemäß der Eingabestimme
variiert wird, kann die vorliegende Erfindung eine natürlichere
Ausgabestimme, die einer tatsächlichen
menschlichen Stimme näher kommt,
erzeugen. Wenn eine heisere Stimme als eine in der Stimmverarbeitungsvorrichtung
der vorliegenden Erfindung zu verwendende Konvertierstimme eingestellt
wird, kann jede Eingabestimme in eine heisere Stimme konvertiert
werden. Die "heisere Stimme" ist eine Stimme,
bei der bei der Artikulation eine unregelmäßige Schwingung auftritt, bei
der auch unregelmäßige Peaks
und Einsenkungen in Frequenzbändern
zwischen lokalen Peaks in Frequenzspektren auftreten, die fundamentalen
und harmonischen Klängen
entsprechen. Die Unregelmäßigkeit
(d.h. die Unregelmäßigkeit
bei der Schwingung der Stimmbänder),
die für
solch eine heisere Stimme spezifisch ist, wird tendenziell deutlicher,
je größer die
Lautstärke
der Stimme wird. Daher variiert in einer bevorzugten Ausführungsform
der vorliegenden Erfindung die Parametereinstelleinheit das bestimmte
Verhältnis
in einer solchen Weise, dass eine Proportion der Intensität der Konvertierspektrumsdaten größer wird,
je größer die
von der Lautstärkenerfassungseinheit
erfasste Lautstärke
wird. Mit solchen Anordnungen kann die vorliegende Erfindung die
Unregelmäßigkeit
(sozusagen die "Heiserkeit") der Ausgabestimme
mit größer werdender
Lautstärke
der Eingabestimme erhöhen,
was eine Stimmverarbeitung erlaubt, die genau der von einem Menschen
hervorgebrachten tatsächlichen
Stimme entspricht. Ferner kann auch eine Zuordnungseinheit vorgesehen werden,
um eine Variationsart in dem bestimmten Verhältnis im Ansprechen auf eine
Variation der Lautstärke
der Eingabestimme zuzuordnen. In diesem Fall kann die vorliegende
Erfindung eine Vielzahl von Ausgabestimmen je nach dem Geschmack
des Benutzers erzeugen. Es wird darauf hingewiesen, dass die Konvertierstimme
oben zwar als eine heisere Stimme angegeben wurde, doch dass die
in der erfindungsgemäßen Stimmverarbeitungsvorrichtung
zu verwendende Konvertierstimme auch beliebige andere Charakteristiken
als diejenigen einer heiseren Stimme haben kann.
-
Gemäß einem
zweiten Aspekt der vorliegenden Erfindung umfasst die Stimmverarbeitungsvorrichtung
ferner: eine Speichereinheit, die Konvertierspektrumsdaten für jeden
von mehreren durch Teilen einer Konvertierstimme auf einer Zeitachse
erhaltenen Frames speichert, und eine Mittlere-Hüllkurve-Beschaffungseinheit,
die Mittlere-Hüllkurve-Daten beschafft,
welche eine durch Mitteln der Intensität der spektralen Hüllkurven
in den Frames der Konvertierstimme erhaltene mittlere Hüllkurven
angeben. Die Datenerzeugungseinheit weist Folgendes auf: eine Differenz-Berechnungseinheit,
die eine Differenz zwischen der Intensität der von den Eingabehüllkurvendaten
angezeigten spektralen Hüllkurve
und der Intensität
der von der Mittlere-Hüllkurve-Daten angezeigten
mittleren Hüllkurve
berechnet, und eine Additionseinheit, die die Intensität des von
den Konvertierspektrumsdaten für
jeden der Frames angezeigten Frequenzspektrums und die von der Differenzberechnungseinheit
berechnete Differenz addiert, wobei die Datenerzeugungseinheit die
neuen Spektrumsdaten auf Grundlage eines von der Additionseinheit
berechneten Wertes erzeugt. In diesem Fall wird die Differenz zwischen
der Intensität
der von den Eingabehüllkurvendaten
angegebenen spektralen Hüllkurve
und die Intensität
der von den Mittlere-Hüllkurve-Daten angegebenen
mittleren Hüllkurve
in das Frequenzspektrum der Konvertierstimme umgewandelt, um dadurch
neue Spektrumsdaten zu erzeugen. Auf diese Weise kann die vorliegende
Erfindung eine natürliche
Ausgabestimme zur Verfügung
stellen, in der Variationen des Frequenzspektrums der Konvertierstimme über die
Zeit genau widergespiegelt sind. Ferner besteht in diesem Fall keine
Notwendigkeit, die Konvertierstimme in spektrale Verteilungsregionen
aufzuteilen, vielmehr ist die vorliegende Erfindung zur Verwendung
in Fällen
geeignet, bei denen kein lokaler Peak im Frequenzspektrum der Konvertierstimme
erscheint (z.B. wenn die Konvertierstimme ein stimmloser Klang,
wie zum Beispiel ein Hauchklang ist). Ein spezifisches Beispiel
für diesen Aspekt
wird später
im Einzelnen als eine zweite Ausführungsform der vorliegenden
Erfindung beschrieben.
-
Allgemein
wird die Hauchigkeit in menschlichen Stimmen insbesondere dann vorherrschend, wenn
die Stimmfrequenz relativ hoch ist. Daher kann die Stimmverarbeitungsvorrichtung
ferner auch eine Filtereinheit aufweisen, die selektiv eine Komponente einer
Stimme hindurch lässt,
die von den neuen Spektrumsdaten angezeigt wird, die einem Frequenzband
entspricht, das eine Grenzfrequenz überschreitet. Ferner kann die
Stimmverarbeitungsvorrichtung eine Lautstärkeerfassungseinheit aufweisen,
die eine Lautstärke
der Eingabestimme erfasst, in welchem Fall das Filter die Grenzfrequenz
gemäß der von
der Lautstärkeerfassungseinheit
erfassten Lautstärke
variiert. Es ist auf diese Weise möglich, eine natürlichere
Ausgabestimme, die einer tatsächlichen
Stimme näherkommt,
zu erzeugen. Zum Beispiel können
Anordnungen zum Erhöhen
oder zum Absenken der Grenzfrequenz mit zunehmender Lautstärke der
Eingabestimme eingesetzt werden.
-
Wenn
ein stimmloser Klang, wie zum Beispiel ein Hauchklang (Flüsterstimme)
als die Konvertierstimme verwendet wird, so entspricht das Frequenzspektrum,
dessen Intensität
die von der Additions-Einheit berechnete Summe ist, dem stimmlosen Klang.
Auch wenn der stimmlose Klang direkt als die Ausgabestimme ausgegeben
werden kann, können Anordnungen
vorgesehen werden, um den stimmlosen Klang auszugeben, nachdem er
mit der Eingabestimme gemischt wurde. Zu diesem Zweck addiert nämlich die
Datenerzeugungseinheit in einem bestimmten Verhältnis die Intensität des Frequenzspektrums,
dessen Intensität
ein von der Additions-Einheit berechneter Wert ist, und eine Intensität des von
der Frequenzanalyseeinheit erfassten Frequenzspektrums, um dadurch
die neuen Spektrumsdaten zu erzeugen, welche das Frequenzspektrum
anzeigen, dessen Intensität
die Summe der Intensitäten
ist, die von der Datenerzeugungseinheit berechnet wurde. Auf diese
Weise kann die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung
eine natürlich Ausgabestimme
zur Verfügung
stellen, in der der Eingabestimme eine Hauchigkeit verliehen wird.
Allgemein besteht die Tendenz, dass ein Grad einer Hauchigkeit in
der Stimme, die von einem Menschen übers Gehör wahrgenommen wird, sich gemäß der Lautstärke der
Stimme ändert.
Um eine solche Tendenz zu reproduzieren, umfasst die Stimmverarbeitungsvorrichtung
der vorliegenden Erfindung ferner: eine Lautstärkeerfassungseinheit, die eine
Klanglautstärke
der Eingabestimme erfasst, und eine Parametereinstellungseinheit, die
das bestimme Verhältnis gemäß der von
der Lautstärkeerfassungseinheit
erfassten Lautstärke
verändert.
Es kann nämlich
davon ausgegangen werden, dass die Hauchigkeit in einer Stimme,
die von einem Menschen über
das Gehör wahrgenommen
wird, ausgeprägter
wird, wenn die Lautstärke
der Stimme nachlässt.
Deshalb variiert in einer noch mehr vorzuziehenden Ausführungsform die
Parametereinstellungseinheit das bestimmte Verhältnis in einer solchen Weise,
dass die Proportion der Intensität
des Frequenzspektrums, dessen Intensität der von der Additions-Einheit
berechnete Wert ist, höher
wird, je weiter die von der Lautstärkenerfassungseinheit erfasste
Klanglautstärke
nachlässt.
Solche Anordnungen können
eine natürliche
Ausgabestimme vorsehen, deren Charakteristiken vom menschlichen
Gehörsinn
als stimmig wahrgenommen werden. Ferner kann eine Zuweisungseinheit vorgesehen
werden, um in dem bestimmten Verhältnis im Ansprechen auf den
Betrieb durch den Benutzer eine Variationsart zuzuweisen, so dass
die vorliegende Erfindung eine Vielzahl von Ausgabestimmen je nach
dem Geschmack des Benutzers erzeugen kann. Es wird darauf hingewiesen,
dass die Konvertierstimme oben zwar als eine heisere Stimme angegeben
wurde, doch kann die in der erfindungsgemäßen Stimmverarbeitungsvorrichtung
zu verwendende Konvertierstimme auch beliebige andere Charakteristiken
als diejenigen einer heiseren Stimme aufweisen.
-
Auch
wenn die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung
dazu angeordnet werden kann, eine Ausgabestimme auf der Grundlage
von Konvertierspektrumsdaten zu erzeugen, die einer Konvertierstimme
entsprechen, die mit einer einzigen Tonhöhe hervorgebracht wurde, können auch
andere Anordnungen getroffen werden, um im Voraus eine Vielzahl
von Konvertierspektrumsdaten vorzubereiten, die einer Vielzahl unterschiedlicher Tonhöhen entsprechen.
In diesem Fall umfasst dann nämlich
die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung: eine
Speichereinheit, die mehrere Konvertierspektrumsdaten speichert,
welche Frequenzspektren von in der Tonhöhe unterschiedlichen Konvertierstimmen
angeben und eine Tonhöhenerfassungseinheit,
die eine Tonhöhe
einer Eingabestimme erfasst. Hierbei beschafft die Beschaffungseinheit
aus den mehreren in der Speichereinheit gespeicherten Konvertierspektrumsdaten
bestimmte Konvertierspektrumsdaten, welche der von der Ton höhenerfassungseinheit
erfassten Tonhöhe entsprechen.
Mit solchen Anordnungen kann die vorliegende Erfindung auf der Grundlage
des Konvertierens von Spektrumsdaten eine besonders natürliche Ausgabestimme
zur Verfügung
stellen, die der Tonhöhe
der Eingabestimme entspricht.
-
Die
Stimmverarbeitungsvorrichtung der vorliegenden Erfindung kann nicht
nur durch Hardware, wie durch einen DSP (Digital Signal Processor)
umgesetzt werden, der für
die Stimmverarbeitung dediziert ist, sondern auch in einer Kombination
eines Computers (z.B. einem PC) mit einem Programm umgesetzt werden,
wie in den Ansprüchen
10 und 11 definiert.
-
Im
Folgenden werden die Ausführungsformen
der vorliegenden Erfindung beschrieben, es wird jedoch darauf hingewiesen,
dass die vorliegende Erfindung auf die beschriebenen Ausführungsformen
nicht eingeschränkt
ist, sondern dass verschiedene Modifikationen der Erfindung möglich sind, ohne
dass dadurch vom Umfang der beiliegenden Ansprüche abgewichen wird.
-
Zum
besseren Verständnis
der Aufgaben und weiterer Merkmale der vorliegenden Erfindung werden
ihre bevorzugten Ausführungsformen
im Folgenden im Einzelnen anhand der beiliegenden Zeichnungen beschrieben.
Es zeigt:
-
1 ein
Blockdiagramm, das einen allgemeinen Aufbau einer Stimmverarbeitungsvorrichtung gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung darstellt;
-
2 eine
Kurvendarstellung, die Vorgänge zum
Erzeugen von Eingabespektrumsdaten aus einer Eingabestimme erläutert;
-
3 eine
Kurvendarstellung, die Vorgänge zum
Erzeugen von Schablonen aus Konvertierstimmen erläutert;
-
4 eine
Kurvendarstellung, die Vorgänge erläutert, die
von einer Datenerzeugungseinheit in der Stimmverarbeitungsvorrichtung
durchgeführt werden;
-
5 eine
Kurvendarstellung, die das Verhältnis
zwischen einer Verstärkung
einer Eingabestimmung und einem Gewichtungswert in der ersten Ausführungsform
darstellt;
-
6 ein
Blockdiagramm, das einen allgemeinen Aufbau einer Stimmverarbeitungsvorrichtung gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung darstellt;
-
7 eine
Kurvendarstellung, die Vorgänge erläutert, die
von einer Datenerzeugungseinheit in der zweiten Ausführungsform
der Stimmverarbeitungsvorrichtung durchgeführt werden;
-
8 eine
Kurvendarstellung, in der das Verhältnis zwischen einer Verstärkung einer
Eingabestimme und einem Gewichtungswert in der zweiten Ausführungsform
dargestellt ist;
-
9 ein
Blockdiagramm, das einen allgemeinen Aufbau einer Stimmverarbeitungsvorrichtung gemäß einer
dritten Ausführungsform
der vorliegenden Erfindung darstellt;
-
10 ein
Blockdiagramm, das einen allgemeinen Aufbau einer Modifikation der
zweiten Ausführungsform
der vorliegenden Erfindung darstellt; und
-
11 ein
Blockdiagramm, das einen allgemeinen Aufbau einer weiteren Modifikation
der zweiten Ausführungsform
der vorliegenden Erfindung darstellt.
-
A. Erste Ausführungsform:
-
Zuerst
folgt eine Beschreibung einer Konstruktion und des Betriebs einer
Stimmverarbeitungsvorrichtung gemäß einer ersten Ausführungsform
der vorliegenden Erfindung anhand von 1. Verschiedene
Komponenten der Stimmverarbeitungsvorrichtung D1, die in 1 dargestellt
ist, können
entweder durch eine arithmetische Verarbeitungsvorrichtung, wie
zum Beispiel eine CPU (Central Processing Unit), die ein vorbestimmtes
Programm ausführt,
oder mit Hardware, wie zum Beispiel einem DSP, der zur Stimmverarbeitung
dediziert ist, umgesetzt werden; dasselbe gilt auch für die anderen
Ausführungsformen,
die später
beschrieben werden.
-
Die
Stimmeingabeeinheit 10, die in 1 gezeigt
ist, ist ein Mittel zum Ausgeben eines digitalen elektrischen Signals
(das hiernach als "Eingabestimmsignal" bezeichnet wird)
Sin, das einer von einem Benutzer hervorgebrachten Eingabestimme
entspricht. Die Stimmeingabeeinheit 10 weist zum Beispiel
ein Mikrofon zum Ausgeben eines analogen elektrischen Signals auf,
das eine Wellenform einer Eingabestimme angibt, sowie einen A/D-Wandler zum
Umwandeln des analogen elektrischen Signals in ein digitales Eingabestimmsignal
Sin. Eine Frequenzanalyseeinheit 12 schneidet das Eingabestimmsignal
Sin, das von der Stimmeingabeeinheit 10 geliefert wurde,
pro Frame einer vorbestimmten Zeitlänge (z.B. zwischen 5 ms und
10 ms) aus und führt
dann an jedem Frame des Eingabestimmsignals Sin Frequenzanalyseoperationen,
einschließlich FFT
(Fast Fourier Transform) durch, um dadurch ein Frequenzspektrum
(Amplitudenspektrum) des Frames des Signals SPin zu erfassen. Wie
im Abschnitt (a) von 2 zu sehen, werden die Frames
des Eingabestimmsignals Sin so eingestellt, dass sie sich auf der
Zeitachse überlagern.
Auch wenn diese Frames bei dem gezeigten Beispiel einfach so eingestellt werden,
dass sie die gleiche Zeitlänge
haben, können
sie gemäß einer
Tonhöhe
des Eingabestimmsignals Sin auch in der Zeitlänge variieren. Der Abschnitt
(b) von 2 veranschaulicht ein Beispiel
für ein
Frequenzspektrum SPin, das für
einen der Frames identifiziert ist. Im Frequenzspektrum SPin eines der
Frames des Eingabestimmsignals Sin, wie es im Abschnitt (b) von 2 zu
sehen ist, erscheinen lokale spektrale Intensitätspeaks (die hiernach einfach als "lokale Peaks" bezeichnet werden)
P bei verschiedenen Frequenzen, die einem Grundton und harmonischen
Tönen entsprechen.
Die Frequenzanalyseeinheit 12 gibt Daten aus, die das Frequenzspektrum
SPin eines jeden der einzelnen Frames des Eingabestimmsignals Sin
angeben (die hiernach als "Eingabespektrumsdaten
DSPin" bezeichnet
werden) aus. Die Eingabespektrumsdaten DSPin enthalten mehrere Einheitsdaten.
Jede der Einheitsdaten umfasst Sätze
(Fin, Min) mehrerer Frequenzen (die hiernach als "Subjektfrequenzen" bezeichnet werden)
Fin, die in vorbestimmten Intervallen auf einer Frequenzachse eingestellt
sind, und spektraler Intensität
Min in den Subjektfrequenzen Fin. (Siehe Abschnitt (c) von 2).
-
Wie
aus 1 hervorgeht, werden die Eingabespektrumsdaten
DSPin, die von der Frequenzanalyseeinheit 12 ausgegeben
werden, an eine Spektrumsverarbeitungseinheit 2a geliefert.
Die Spektrumsverarbeitungseinheit 2a weist eine Peakerfassungseinheit 21,
eine Hüllkurvenidentifikationseinheit 23 und
eine Regionsaufteilungseinheit 25 auf. Die Peakerfassungseinheit 21 ist
ein Mittel zum Erfassen mehrerer lokaler Peaks P im Frequenzspektrum
SPin (d.h. Frequenzspektrum eines jeden der Frames des Eingabestimmsignals
Sin). Zu diesem Zweck kann ein Verfahren verwendet werden, das zum
Beispiel als den lokalen Peak P einem bestimmten Peak der größten spektralen
Intensität
aus einer vorbestimmten Anzahl von Peaks (einschließlich feiner
Peaks, die nicht der lokale Peak P sind) erfasst, die auf der Frequenzachse
eng beieinanderliegen. Die Hüllkurvenidentifikationseinheit 23 ist
ein Mittel zum Identifizieren einer spektralen Hüllkurve EVin des Frequenzspektrums
SPin. Wie im Abschnitt (b) von 2 zu sehen,
ist die spektrale Hüllkurve
EVin eine Hüllkurve,
welche die mehreren lokalen Peaks P verbindet, die von der Peakerfassungseinheit 21 erfasst
wurden. Zur Identifikation der spektralen Hüllkurve EVin kann zum Beispiel
ein Verfahren verwendet werden, dass die spektrale Hüllkurve
EVin als kurze Strecken identifiziert, welche beieinanderliegende
Peaks P auf der Frequenzachse linear verbinden, ein Verfahren, das
die spektrale Hüllkurve
EVin durch Interpolation mit einem beliebigen aus verschiedenen
Interpolationsverfahren, wie die Spline Interpolation, zwischen Geraden
durch die lokalen Peaks P interpoliert, oder ein Verfahren, das
die spektrale Hüllkurve
EVin durch Berechnen beweglicher Durchschnittswerte der spektralen
Intensität
Min der einzelnen Subjektfrequenzen Fin im Frequenzspektrum SPin
und dann Verbinden der berechneten Werte identifiziert. Dann gibt
die Hüllkurvenidentifikationseinheit 23 die
auf diese Weise identifizierte spektrale Hüllkurve angebende Daten aus
(die hiernach als "Eingabehüllkurvendaten
DEVin" bezeichnet
werden). Die Eingabehüllkurvendaten
DEVin enthalten ähnlich
wie die Eingabespektrumsdaten DSPin mehrere Einheitsdaten. Wie im
Abschnitt (d) von 2 zu sehen, enthalten die Einheitsdaten
Sätze (Fin,
MEV) einer Vielzahl von Subjektfrequenzen Fin, die bei vorbestimmten
Intervallen auf der Frequenzachse ausgewählt wurden, und der spektralen
Hüllkurvenintensität MEV der Subjektfrequenzen
Fin.
-
Ferner
ist die Regionsunterteilungseinheit 25 von 1 ein
Mittel zum Unterteilen des Frequenzspektrums SPin in eine Vielzahl
von Frequenzbändern
(die hiernach als "Spektrale
Verteilungsregionen" bezeichnet
werden) Rin auf der Frequenzachse. Insbesondere identifiziert die
Regionsunterteilungseinheit 25 mehrere spektrale Verteilungsregionen Rin,
so dass jede der Verteilungsregionen Rin einen lokalen Peak P und
Frequenzbänder
vor und hinter dem einen lokalen Peak P aufweist, wie in Abschnitt (b)
von 2 zu sehen. Wie im Abschnitt (b) von 2 zu
sehen, identifiziert die Regionsunterteilungseinheit 25 zum
Beispiel einen Mittelpunkt zwischen zwei lokalen Peaks P, die auf
der Frequenzachse nebeneinander liegen, als eine Grenze zwischen
spektralen Verteilungsregionen Rin (Rin1, Rin2, Rin3, ...). Die
Regionsunterteilung kann jedoch auch in einer beliebigen anderen
gewünschten
Weise als der in Abschnitt (b) von 2 gezeigten
durchgeführt
werden. Zum Beispiel kann in jedem Frequenzband zwischen zwei lokalen
Peaks, die auf der Frequenzachse nebeneinander liegen, eine die
niedrigste spektrale Intensität
Min (d.h. eine Einsenkung im Frequenzspektrum SPin) darstellende
Frequenz als eine Grenze zwischen spektralen Verteilungsregionen
Rin identifiziert werden. Daher können die einzelnen spektralen
Verteilungsregionen Rin entweder im Wesentlichen dieselbe Bandbreite
oder unterschiedliche Bandbreiten aufweisen. Wie im Abschnitt (c)
von 2 gezeigt, gibt die Regionsunterteilungseinheit 25 die
in spektrale Verteilungregionen Rin aufgeteilte Eingabespektrumsdaten
SPin aus.
-
Ferner
ist in 1 eine Datenerzeugungseinheit 3a ein
Mittel zum Erzeugen von Daten, die ein Frequenzspektrum SPnew einer
Ausgabestimme anzeigen (hiernach als "neue Spektrumsdaten" bezeichnet), das als variierende Charakteristiken
der Eingabestimme erhalten wird. Die Datenerzeugungseinheit 3a spezifiziert
bei der vorliegenden Ausführungsform
das Frequenzspektrum SPnew der Ausgabestimme auf der Grundlage eines
zuvor vorbereiteten Frequenzspektrums SPt einer Stimme (die hiernach
als "Konvertierstimme" bezeichnet wird)
und der spektralen Hüllkurve
EVin der Eingabestimme. Eine Speichereinheit 51 in 1 ist
ein Mittel zum Speichern von Daten, welche das Frequenzspektrum SPt
der Konvertierstimme angeben (hiernach als "Konvertierspektrumsdaten DSPt" bezeichnet). In ähnlicher
Weise zu den Eingabespektrumsdaten DSPin, die im Abschnitt (c) von 2 gezeigt
sind, enthalten die Konvertierspektrumsdaten DSPt eine Vielzahl
von Einheitsdaten, die jeweils Sätze
(Ft, Mt) einer Vielzahl von Subjektfrequenzen Ft enthalten, die
in vorbestimmten Intervallen auf der Frequenzachse ausgewählt wurden,
sowie der spektralen Intensität
Mt der Subjektfrequenzen Ft.
-
Der
Abschnitt (a) von 3 ist eine Kurvendarstellung,
die eine Wellenform einer Konvertierstimme zeigt. Die Konvertierstimme
ist eine Stimme, die von einer bestimmten Person über einen
vorbestimmten Zeitraum hervorgebracht wurde, während im Wesentlichen eine
konstante Tonhöhe
beibehalten wurde. Im Abschnitt (b) von 3 ist ein
Frequenzspektrum SPt eines der Frames der Konvertierstimme veranschaulicht.
Das Frequenzspektrum SPt der Konvertierstimme ist ein Spektrum,
das allgemein in derselben Weise, wie oben für die Eingabestimme dargelegt,
durch Aufteilen der Konvertierstimme in eine Vielzahl von Frames
und Durchführen einer
Frequenzanalyse (FFT bei der vorliegenden Ausführungsform) an jedem der Frames
identifiziert wird. Bei der vorliegenden Ausführungsform wird angenommen,
dass die Konvertierstimme ein hervorgebrachter Klang ist, bei dem
eine unregelmäßige Schwingung
der Stimmbänder
auftritt (d.h. eine heisere Stimme). Im Frequenzspektrum SPt der
Konvertierstimme erscheinen, wie im Abschnitt (b) von 3 zu
sehen, zusätzlich
zu lokalen Peaks P, die einem Grundton und harmonischen Tönen entsprechen,
auch Peaks p, die der unregelmäßigen Schwingung
des Stimmbands entsprechen, in Frequenzbändern zwischen den lokalen
Peaks P. Wie oben für
die Eingabestimme dargelegt, wird das Frequenzspektrum SPt der Konvertierstimme
in eine Vielzahl spektraler Verteilungsregionen Rt (Rt1, Rt2, Rt3,
...) aufgeteilt.
-
In
der Speichereinheit 51 werden, wie im Abschnitt (c) von 3 zu
sehen, Konvertierspektrumsdaten DSPt gespeichert, die jeweils das
Frequenzspektrum SPt eines der Frames, die in Abschnitt (b) von 3 gezeigt
sind, angeben; das Frequenzspektrum SPt des Frames wird in eine
Vielzahl spektraler Verteilungsregionen Rt aufgeteilt. Nachfolgend wird
eine Menge Konvertierspektrumsdaten DSPt, die von einer Konvertierstimme
ausgehend erzeugt werden, als "Schablone" bezeichnet. Wie
im Abschnitt (d) von 3 zu sehen, weist die Schablone für jeden
einer vorbestimmten Anzahl von Frames, in welche die Konvertierstimme
aufgeteilt wurde, Konvertierspektrumsdaten DSPt auf, die den spektralen Verteilungsregionen
Rt im Frequenzspektrum SP des Frames entsprechen.
-
Bei
der vorliegenden Ausführungsform
sind in der Speichereinheit 51 eine Vielzahl von Schablonen
vorgespeichert, die auf der Grundlage einer Vielzahl von Konvertierstimmen
erzeugt wurden, die sich voneinander in der Tonhöhe unterscheiden. Zum Beispiel
ist "Schablone 1", die in 1 gezeigt
ist, eine Schablone, die Konvertierspektrumsdaten DSPt enthält, die
aus einer Konvertierstimme erzeugt wurden, die von einem Menschen
mit einer Tonhöhe
Pt1 hervorgebracht wurde, und ist "Schablone 2" eine Schablone, die Konvertierspektrumsdaten
DSPt enthält, die
von einer Konvertierstimme erzeugt wurden, die von einem Menschen
mit einer anderen Tonhöhe
Pt2 hervorgebracht wurde. In der Speichereinheit 51 sind auch
in Entsprechung zu den Schablonen die Tonhöhen Pt (Pt1, Pt2, ...) der
Konvertierstimmen im Voraus gespeichert, auf denen die Erzeugung
der Schablonen basierte.
-
Eine
Tonhöhen/Verstärkungs-Erfassungseinheit 31,
die in 1 gezeigt ist, ist ein Mittel zum Erfassen einer
Tonhöhe
Pin und einer Verstärkung (Klanglautstärke) Ain
der Eingabestimme auf der Grundlage der Eingabespektrumsdaten DSPin
und Eingabehüllkurvendaten
DEVin. Die Tonhöhen/Verstärkungs-Erfassungseinheit 31 kann
die Tonhöhe Pin
und die Verstärkung
Ain mit einem beliebigen aus verschiedenen bekannten Verfahren erfassen
bzw. extrahieren. Die Tonhöhen/Verstärkungs-Erfassungseinheit 31 kann
die Tonhöhe
Pin und die Verstärkung
Ain auf der Grundlage des Eingabestimmsignals Sin erfassen, das
vom Stimmeingabeabschnitt 10 ausgegeben wird. Die Tonhöhen/Verstärkungs-Erfassungseinheit 31 informiert
eine Schablonenbeschaffungseinheit 33 über die erfasste Tonhöhe Pin und
informiert auch eine Parametereinstelleinheit 35 über die
erfasste Verstärkung
Ain. Die Schablonenbeschaffungseinheit 33 ist ein Mittel
zum Beschaffen einer beliebigen der Vielzahl von Schablonen, die
in der Speichereinheit 51 gespeichert sind, auf der Grundlage
der Tonhöhe
Pin, über
die die Tonhöhen/Verstärkungserfassungseinheit 31 informiert. Insbesondere
wählt die
Schablonenbeschaffungseinheit 33 aus den gespeicherten
Schablonen eine bestimmte Schablone aus und liest sie aus, die einer Tonhöhe Pt entspricht,
welche der Tonhöhe
Pin der Eingabestimme angenähert
ist (oder mit ihr übereinstimmt).
Die auf diese Weise ausgelesene Schablone wird an eine Spektrumskonvertiereinheit 411 geliefert.
-
Die
Spektrumskonvertiereinheit 411 ist ein Mittel zum Festlegen
eines Frequenzspektrums SPnew' auf
der Grundlage der Eingabespektrumsdaten, die von der Regionsunterteilungseinheit 25 geliefert
wurden, und Konvertierspektrumsdaten DSPt der Schablone, die von
der Schablonenbeschaffungseinheit 33 geliefert wurden.
Bei der vorliegenden Ausführungsform
werden die spektrale Intensität
Min des Frequenzspektrums SPin, das durch die Eingabespektrumsdaten
DSPin angegeben wird, und die spektrale Intensität Mt des Frequenzspektrums
SPt, das durch die Konvertierspektrumsdaten DSPt angegeben wird,
in einem bestimmten Verhältnis
zusammenaddiert, um dadurch das Frequenzspektrum SPnew' festzulegen, wie
unten anhand von 4 im Detail angegeben.
-
Wie
oben dargelegt, wird das aus den jeweiligen Frames der Eingabestimme
identifizierte Frequenzspektrum SPin in eine Vielzahl spektraler
Verteilungsregionen Rin aufgeteilt (siehe Abschnitt (c) von 4)
und wird das aus den jeweiligen Frames der Konvertierstimme identifizierte
Frequenzspektrum SPt in eine Vielzahl spektraler Verteilungsregionen
Rt aufgeteilt (siehe Abschnitt (a) von 4). Zuerst
ordnet die Spektrumskonvertiereinheit 411 die spektralen
Verteilungsregionen Rin des Frequenzspektrums SPin und die spektralen
Verteilungsregionen Rt des Frequenzspektrums SPt einander zu. Zum
Beispiel werden diejenigen spektralen Verteilungsregionen Rin und
Rt, deren Frequenzbänder einander
nahe sind, einander zugeordnet. Alternativ dazu können die
spektralen Verteilungsregionen Rin und Rt, die in einer vorbestimmten
Reihenfolge angeordnet sind, einander zugeordnet werden, nachdem sie
gemäß ihren
entsprechenden Positionen in der vorbestimmten Reihenfolge ausgewählt wurden.
-
Zweitens
bewegt oder repositioniert die Spektrumskonvertiereinheit 411,
wie in den Abschnitten (a) und (b) von 4 gezeigt,
die Frequenzspektren SPt der einzelnen spektralen Verteilungsregionen
Rt auf der Frequenzachse, so dass sie den Frequenzspektren SPin
der einzelnen spektralen Verteilungsregionen Rin entsprechen. Insbesondere
ordnet die Spektrumskonvertiereinheit 411 die Frequenzspektren
SPt der einzelnen spektralen Verteilungsregionen Rt auf der Frequenzachse
in einer solchen Weise um, dass die Frequenzen der lokalen Peaks P,
die zu den spektralen Verteilungsregionen Rt gehören, im Wesentlichen mit den
Frequenzen Fp der lokalen Peaks P übereinstimmen, die zu den spektralen
Verteilungsregionen Rin gehören
(Abschnitt (c) von 4), die den spektralen Verteilungsregionen
Rt zugeordnet sind.
-
Drittens
addiert die Spektrumskonvertiereinheit 411 in einem vorbestimmten
Verhältnis
die spektrale Intensität
Min in der Subjektfrequenz Fin des Frequenzspektrums SPin und die
spektrale Intensität Mt
in der Subjektfrequenz Ft des Frequenzspektrums SPt (Abschnitt (b)
von 4), die der Subjektfrequenz Fin entspricht (z.B.
mit ihr übereinstimmt
oder ihr nahekommt). Dann setzt die Spektrumskonvertiereinheit 411 die
resultierende Summe der Intensität
als die spektrale Intensität
Mnew' in der Subjektfrequenz
des Frequenzspektrums SPnew. Insbesondere spezifiziert die Spektrumskonvertiereinheit 411 das
Frequenzspektrum SPnew' pro
Subjektfrequenz Fin durch Addieren 1) eines numerischen
Werts (α·Mt), der
durch Multiplizieren der spektralen Intensität Mt des Frequenzspektrums
SPt, angegeben in Abschnitt (b) von 4, mit einem
Gewichtungswert a (0 ≤ α ≤ 1) erhalten
wird, und 2) eines numerischen Werts ((1 – α)·Min), der durch Multiplizieren
der spektralen Intensität
Min des Frequenzspektrums SPin mit einem Gewichtungswert (1 – α) erhalten
wird, und setzt dadurch die resultierende Summe als die spektrale
Intensität
Mnew' (= α·Mt + (1 – α)·Min) für die Subjektfrequenz
Fin. Dann erzeugt die Spektrumskonvertiereinheit 411 neue
Spektrumsdaten DSPnew',
welche das Frequenzspektrum SPnew' angeben. Es wird darauf hingewiesen,
dass es, wenn die Bandbreite der spektralen Verteilungsregion Rt der
Konvertierstimme schmaler als die Bandbreite der spektralen Verteilungsregion
Rin der Eingabestimme ist, ein Frequenzband T geben wird, in dem das
Frequenzspektrum SPt, das der Subjektfrequenz Fin des Frequenzspektrums
SPin entspricht, nicht existiert. Für ein solches Frequenzband
T wird ein Minimalwert der Intensität Min des Frequenzspektrums SPin
als die Intensität
Mnew' des Frequenzspektrums
SPnew' verwendet;
alternativ dazu kann die Intensität Mnew' des Frequenzspektrums SPnew' in diesem Frequenzband
auf null gesetzt werden. Durch die oben angegebenen Operationen,
die für
jeden der Frames durchgeführt
werden, wird das Frequenzspektrum SPnew' für
jeden der Frames spezifiziert.
-
Weil
die Anzahl der Frames der Eingabestimme von einer Zeitlänge einer
Stimmartikulation durch den Benutzer abhängt, während die Anzahl der Frames
der Konvertierstimme vorbestimmt ist, stimmen die Anzahl der Frames
der Eingabestimme und die Anzahl der Frames der Konvertierstimme
oft nicht miteinander überein.
Wenn die Anzahl der Frames der Konvertierstimme größer als
die Anzahl der Frames der Eingabestimme ist, so genügt es, beliebige der
Konvertierspektrumsdaten DSP, die in einer Schablone enthalten sind,
die einem oder mehreren zusätzlichen
(d.h. zu viel vorhandenen) Frames entsprechen, zu verwerfen. Wenn
andererseits die Anzahl der Frames der Konvertierstimme kleiner
als die Anzahl der Frames der Eingabestimme ist, können die
Konvertierspektrumsdaten DSP in einer geschleiften (d.h. zirkulären) Weise
verwendet werden; zum Beispiel können
nach der Verwendung der Konvertierspektrumsdaten DSPt, die dem letzten
Frame in einer Schablone entsprechen, die Konvertierspektrumsdaten
DSPt, die dem ersten (oder führenden) Frame
entsprechen, die in der Schablone enthalten sind, erneut verwendet
werden.
-
Wie
oben beschrieben, verwendet die vorliegende Ausführungsform eine heisere Stimme
als die Konvertierstimme, so dass die vom Frequenzspektrum SPnew' repräsentierte
Stimme eine heisere Stimme ist, in der die heiseren Charakteristiken
der Konvertierstimme widergespiegelt sind. Allgemein besteht eine
Tendenz, dass die Rauheit (d.h. der Grad der Unregelmäßigkeit
der Schwingungen der Stimmbänder),
die für
eine derartige heisere Stimme spezifisch ist, hörbarer wird (die Stimme klingt
rauer), wenn die Lautstärke
der Stimme zunimmt. Zum Reproduzieren einer solchen Tendenz wird
bei der vorliegenden Ausführungsform
der Gewichtungswert α gemäß der Verstärkung Ain
der Eingabestimme gesteuert.
-
5 ist
eine Kurvendarstellung, in der eine Beziehung zwischen der Verstärkung Ain
der Eingabestimme und dem Gewichtungswert α aufgezeigt wird. Wie gezeigt,
wird, wenn die Verstärkung
Ain klein ist, der Gewichtungswert α auf einen relativ kleinen Wert
gesetzt (während
der Gewichtungswert (1 – α) auf einen
relativ großen
Wert gesetzt wird). Wie oben dargelegt, ist die Intensität Mnew' des Frequenzspektrums
SPnew' die Summe
des Produktes zwischen der spektralen Intensität Mt des Frequenzspektrums
SPt und dem Gewichtungswert α und
dem Produkt zwischen der spektralen Intensität Min des Frequenzspektrums
SPin und dem Gewichtungswert (1 – α). Wenn daher der Gewichtungswert α klein ist, wird
ein Einfluss des Frequenzspektrums SPt auf das Frequenzspektrum
SPnew' relativ reduziert;
daher nimmt in einem solchen Fall die hörbare Rauheit der durch das Frequenzspektrum
SPnew' repräsentierten
Stimme ab. Wie ebenfalls aus 5 hervorgeht, wird
der Gewichtungswert α größer (und
der Gewichtungswert (1 – α) kleiner),
wenn die Verstärkung
Ain größer wird.
Wenn der Gewichtungswert α groß ist, wird
der Einfluss des Frequenzspektrums SPt auf das Frequenzspektrum
SPnew' relativ vergrößert, so dass
die hörbare
Rauheit der Stimme, die vom Frequenzspektrum SPnew' repräsentiert
wird, größer wird.
Die Parametereinstelleinheit 35, die in 1 gezeigt
ist, ist ein Mittel zum Einstellen des Gewichtungswerts α für die Verstärkung Ain,
die von der Tonhöhen/Verstärkungs-Erfassungseinheit 31 erfasst wird,
um den in 5 gezeigten Charakteristiken
zu folgen, sowie zum Festlegen der Gewichtungswerte α und (1 – α) für die Spektrumskonvertiereinheit 411.
-
Ferner
kann bei der vorliegenden Ausführungsform
die Beziehung zwischen der Verstärkung Ain
der Eingabestimme und dem Gewichtungswert α wie vom Benutzer gewünscht eingestellt
werden. Eine in 1 dargestellte Parameterzuweisungseinheit 36 weist
Operatoren (Bedienelemente) auf, die vom Benutzer bedient werden
können.
Die Parameterzuweisungseinheit 36 informiert die Parametereinstelleinheit 35 über Parameter
u1, u2 und u3, die im Ansprechen auf eine Betätigung der Bedienelemente durch
den Benutzer eingegeben werden. Wie in 5 zu sehen,
repräsentiert
der Parameter u1 einen Wert des Gewichtungswerts α, wenn die
Verstärkung
Ain der Eingabestimme einen Minimalwert hat, repräsentiert
der Parameter u2 einen Maximalwert des Gewichtungswerts α und repräsentiert
der Parameter u3 einen Wert der Verstärkung Ain, wenn der Gewichtungswert α den Maximalwert
u2 erreicht. Daher ist es, wenn der Benutzer den Wert des Parameters
u2 erhöht
hat, möglich,
die Rauheit der Ausgabestimme relativ zu erhöhen, wenn die Eingabestimme ein
großes
Klangvolumen hat (d.h. wenn die Verstärkung Ain der Eingabestimme
größer als
der Wert des Parameters u3 ist). Wenn der Benutzer die Verstärkung Ain
erhöht
hat, ist es möglich,
den Bereich der Eingabestimmenverstärkung Ain zu vergrößern, innerhalb
der die Rauheit der Eingabestimme variiert werden kann.
-
Die
neuen Spektrumsdaten DSPnew der jeweiligen spektralen Verteilungsregionen,
die pro Rahmen der Eingabestimme in der oben beschriebenen Art und
Weise erzeugt wurden, werden an eine Hüllkurveneinstelleinheit 412 geliefert.
Die Hüllkurveneinstelleinheit 412 ist
ein Mittel zum Festlegen eines Frequenzspektrums SPnew durch Einstellen
der spektralen Hüllkurve
der Spektrumsdaten SPnew' zum
Annehmen einer Form, die der spektralen Hüllkurve EVin der Eingabestimme
entspricht. In Abschnitt (d) von 4 ist die
spektrale Hüllkurve
EVin der Eingabestimme durch eine gestrichelte Linie zusammen mit
dem Frequenzspektrum SPnew' angegeben.
Wie gezeigt, entspricht das Frequenzspektrum SPnew' nicht notwendigerweise
in der Form der spektralen Hüllkurve
EVin. Daher hat, wenn die dem Frequenzspektrum SPnew' entsprechende Stimme direkt
als die Ausgabestimme hörbar
wiedergegeben wird, die Ausgabestimme eine andere Tonhöhe und Klangfarbe
gegenüber
der Eingabestimme und ruft daher tendenziell beim Benutzer ein komisches
Gefühl
hervor. Deshalb ist die vorliegende Ausführungsform so konstruiert,
dass die Tonhöhe
und die Klangfarbe der Ausgabestimme so gesteuert wird, dass sie mit
denjenigen der Eingabestimme übereinstimmt, indem
die Hüllkurveneinstelleinheit 412 die
spektrale Hüllkurve
des Frequenzspektrums SPnew' einstellt.
-
Insbesondere
stellt die Hüllkurveneinstelleinheit 412 die
spektrale Intensität
des Frequenzspektrums SPnew' so
ein, dass die spektrale Intensität Mnew' am lokalen Peak
P des Frequenzspektrums SPnew' auf
die spektrale Hüllkurve
EVin fällt.
Die Hüllkurveneinstelleinheit 412 berechnet
nämlich
zuerst ein Intensitätsverhältnis β zwischen
der spektralen Intensität
Mnew' an einem lokalen
Peak P in den jeweiligen spektralen Verteilungsregionen und der spektralen
Intensität
MEV der spektralen Hüllkurve EVin
in der Frequenz Fp des lokalen Peaks P (d.h. Intensitätsverhältnis β = MEV/Mnew'). Dann multipliziert
die Hüllkurveneinstelleinheit 412 jeweils
die spektrale Intensität
Mnew', die durch
die neuen Spektrumsdaten DSPnew' der
spektralen Verteilungsregion angegeben werden, mit dem Intensitätsverhältnis β und setzt
das resultierende Produkt als die Intensität des Frequenzspektrums SPnew.
Wie aus Abschnitt (e) von 4 hervorgeht,
stimmt die auf diese Weise spezifizierte spektrale Hüllkurve
des Frequenzspektrums SPnew dann mit der spektralen Hüllkurve
EVin der Eingabestimme überein.
-
Ferner
erzeugt eine Revers-FFT-Einheit 15, die in 1 gezeigt
ist, ein Ausgabestimmsignal Snew' eines
Zeitbereichs durch Durchführen
einer reversen FFT-Operation an den neuen Spektrumsdaten DSPnew,
die von der Datenerzeugungseinheit 3a pro Frame durchgeführt wird.
Die Ausgabeverarbeitungseinheit 16 multipliziert das auf
diese Weise erzeugte framespezifische Ausgabestimmsignal Snew' mit einer Zeitfensterfunktion
und erzeugt dann ein Ausgabestimmsignal Snew durch Verbinden der
resultierenden Produkte der einzelnen Frames in einer solchen Weise,
dass sie einander auf der Zeitachse überlagern. Die Revers-FFT-Einheit 5 und
die Ausgabeverarbeitungseinheit 16 fungieren nämlich als
ein Mittel zum Erzeugen des Ausgabestimmsignals Snew aus den neuen
Spektrumsdaten DSPnew. Die Stimmausgabeeinheit 17 enthält einen
D/A-Wandler zum Umwandeln des Ausgabestimmsignals Snew, das von
der Ausgabeverarbeitungseinheit 16 geliefert wird, in ein
analoges elektrisches Signal, sowie eine Klangvorrichtung (z.B.
Lautsprecher oder Kopfhörer)
zum hörbaren
Wiedergeben einer Stimme auf der Grundlage des Ausgangssignals vom
D/A-Wandler. Die von der Stimmausgabeeinheit 17 erzeugte Ausgabestimme
hat Charakteristiken der heiseren Konvertierstimme, die in ihr widergespiegelt
sind, während
die Tonhöhen
und die Klangfarbe der Eingabestimme erhalten bleibt.
-
Wie
oben dargelegt, kann die vorliegende Ausführungsform eine Ausgabestimme
liefern, die sich extrem natürlich
anhört,
weil sie das Frequenzspektrum SPnew' der Ausgabestimme auf der Grundlage
des Frequenzspektrums SPt der Konvertierstimme und der spektralen
Hüllkurve
EVin der Eingabestimme spezifizieren kann. Ferner kann sie, weil
die vorliegende Ausführungsform
angeordnet ist, eine aus einer Vielzahl von Schablonen zu spezifizieren,
die aus Konvertierstimmen unterschiedlicher Tonhöhen geschaffen wurden, gemäß der Tonhöhe Pin der
Eingabestimme eine natürlichere
Ausgabestimme erzeugen als das herkömmliche Verfahren zum Erzeugen
einer Ausgabestimme auf der Grundlage des Konvertierens von Spektrumsdaten
DSPt, die aus einer Konvertierstimme einer einzelnen Tonhöhe erzeugt
wurden.
-
Ferner
kann die vorliegende Ausführungsform,
wo der Gewichtungswert α,
der mit der spektralen Intensität
Mt des Frequenzspektrums SPt zu multiplizieren ist, gemäß der Verstärkung Ain
der Eingabestimme gesteuert wird, eine natürliche Ausgabestimme erzeugen,
die einer tatsächlich
heiseren Stimme näherkommt,
als das herkömmliche
Verfahren, bei dem der Gewichtungswert α fest ist. Außerdem kann
die Ausführungsform,
weil das Verhältnis zwischen
der Verstärkung
Ain der Eingabestimme und dem Gewichtswert α bei der vorliegenden Ausführungsform
im Ansprechen auf die Betätigung durch
den Benutzer eingestellt wird, eine Vielzahl von Ausgabestimmen
je nach dem Geschmack des Benutzers erzeugen.
-
B. Zweite Ausführungsform:
-
Es
folgt eine Beschreibung einer Stimmverarbeitungsvorrichtung gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung anhand von 6. Es wird
darauf hingewiesen, dass die Elemente der zweiten Ausführungsform
der Stimmverarbeitungsvorrichtung D2, die denjenigen in der ersten Ausführungsform
der Stimmverarbeitungsvorrichtung D1 ähnlich sind, mit denselben
Bezugszeichen wie bei der ersten Ausführungsform bezeichnet sind und
dass eine Beschreibung dieser Elemente gegebenenfalls weggelassen
wird, um eine unnötige
Doppelung zu vermeiden.
-
Während die
erste Ausführungsform
oben so beschrieben wurde, dass sie das Frequenzspektrum SPin einer
Eingabestimme in mehrere spektrale Verteilungsregionen Rin aufteilt
und auch das Frequenzspektrum SPt einer Konvertierstimme in eine
Vielzahl spektraler Verteilungsregionen Rt aufteilt, bevor die Frequenzspektren
von der Datenerzeugungseinheit 3b verarbeitet werden, führt die
zweite Ausführungsform
derartige Aufteilungsoperationen nicht durch. Deshalb weist die
Spektrumsverarbeitungseinheit 2b in der zweiten Ausführungsform
keine Regionenaufteilungseinheit 25 auf. Nachdem nämlich Eingabespektrumsdaten
DSPin, die ein Frequenzspektrum SPin eines jeden Rahmens angeben,
für ein
Eingabestimmsignal Sin, das in Abschnitt (a) von 7 angegeben
ist, von der Frequenzanalyseeinheit 12 geliefert wurden,
werden die Eingabespektrumsdaten DSPin unverändert, d.h. ohne dass sie in
die spektralen Verteilungsregionen Rin aufgeteilt wurden, an die Datenerzeugungseinheit 3b ausgegeben,
wie aus Abschnitt (b) von 7 hervorgeht.
Eine Hüllkurvenidentifikationseinheit 23 der
Spektrumsverarbeitungseinheit 2b identifiziert Eingabehüllkurvendaten
DEVin des Frequenzspektrums SPin und gibt sie wie bei der ersten
Ausführungsform
an die Datenerzeugungseinheit 3b aus (siehe Abschnitt (b)
von 7).
-
Die
zweite Ausführungsform
geht davon aus, dass die verwendete Konvertierstimme eine stimmlose
Stimme (d.h. eine Flüsterstimme)
ist, bei der keine Schwingung der Stimmbänder des Menschen erfolgt. Selbst
bei der stimmlosen Stimme können
Unterschiede in der Tonhöhe
und der Klangqualität
hörbar festgestellt
werden. Deshalb werden, wie bei der ersten Ausführungsform, eine Vielzahl von
Schablonen, die von Konvertierstimmen unterschiedlicher Tonhöhen erzeugt
wurden, in einer Speichereinheit 52 auch in der zweiten
Ausführungsform
vorgespeichert. Der Abschnitt (c) von 7 zeigt
eine Wellenform einer Konvertierstimme (stimmlosen Stimme), die
mit dem Gefühl
einer einzelnen Tonhöhe
erzeugt wurde. Wie bei der ersten Ausführungsform wird die Konvertierstimme
zuerst in eine Vielzahl von Frames aufgeteilt und dann ein Frequenzspektrum
SPt für
jeden der Frames identifiziert, wie aus Abschnitt (d) von 7 hervorgeht.
Weil das Frequenzspektrum SPt der Konvertierstimme, wie gezeigt,
keine charakteristischen Frequenzbänder aufweist, die einen Grundton und
harmonische Töne
repräsentieren,
erscheint, wie in 3 gezeigt, im Frequenzspektrum
SPt kein lokaler Peak. Wie in Abschnitt (d) von 7 gezeigt, weist
jede der in der Speichereinheit 52 abgelegten Schablonen
für jeden
der Frames, in welche die Konvertierstimme aufgeteilt wurde, die
mit einem Gefühl einer
bestimmten Tonhöhe
erzeugt wurde, Konvertierspektrumsdaten DSPt (die in diesem Fall
nicht in die spektrale Verteilungshüllkurve EVt aufgeteilt sind),
welche das Frequenzspektrum SPt angeben, sowie Konvertierhüllkurvendaten
DEVt auf, die eine spektrale Hüllkurve
EVt des Frequenzspektrums SPt angeben.
-
Wie
bei der ersten Ausführungsform
wählt die
Schablonenbeschaffungseinheit 33, die in 6 gezeigt
ist, auf der Grundlage einer Tonhöhe Pin, die von der Tonhöhen/Verstärkungs-Erfassungseinheit 31 mitgeteilt
wurde, eine aus einer Vielzahl von Schablonen aus und liest sie
aus. Dann gibt die Schablonenbeschaffungseinheit 33 die
Konvertierspektrumsdaten DSPt aller Frames, die in der ausgelesenen Schablone
enthalten sind, an eine Additionseinheit 424 und die Konvertierhüllkurvendaten
DEVt aller Frames an eine Mittlere-Hüllkurven-Beschaffungseinheit 421 aus.
-
Die
Mittlere-Hüllkurven-Beschaffungseinheit 421 ist
ein Mittel zum Festlegen einer spektralen Hüllkurve (d.h. "mittleren Hüllkurve") EVave, die durch Mitteln
der spetralen Hüllkurven
EVt erhalten wird, die von den Konvertierhüllkurvendaten DEVt aller Rahmen
angegeben werden, wie in Abschnitt (e) von 7 gezeigt.
Insbesondere berechnet die Mittlere-Hüllkurven-Beschaffungseinheit 421 einen
Mittelwert der spektralen Intensität bestimmter Frequenzen in
den spektralen Hüllkurven
EVt, die von den Konvertierhüllkurvendaten
DEVt aller Rahmen angegeben werden, und spezifiziert eine mittlere
Hüllkurve
EVave, die den berechneten Mittelwert als ihre spektrale Intensität hat. Dann
gibt die Mittlere-Hüllkurven-Beschaffungseinheit 421 die
Mittlere-Hüllkurvendaten
DEVave, welche die mittlere Hüllkurve EVave
angeben, an eine Differenzberechnungseinheit 423 aus.
-
Eingabe-Spektral-Hüllkurvendaten
EVin, die aus der Spektrumsverarbeitungseinheit 2b, die
in 6 gezeigt ist, ausgegeben werden, werden an die
Differenzberechnungseinheit 423 geliefert. Die Differenzberechnungseinheit 423 ist
ein Mittel zum Berechnen einer Differenz der spektralen Intensität zwischen
der mittleren Hüllkurve
EVave, die durch die Mittlere-Hüllkurvendaten
DEVave angegeben werden, und der spektralen Hüllkurve EVin, die durch die
Eingabe-Spektral-Hüllkurvendaten
DEVin angegeben wird. Die Differenzberechnungseinheit 423 berechnet
nämlich
eine Differenz ΔM
zwischen der spektralen Intensität
Mt in jeder Subjektfrequenz Ft der mittleren Hüllkurve EVave und der spektralen
Intensität
Min in jeder Subjektfrequenz Ft der spektralen Hüllkurve EVin und gibt Hüllkurvendifferenzdaten ΔEV an die
Additionseinheit 424 aus. Die Hüllkurvendifferenzdaten ΔEV enthalten
eine Vielzahl von Einheitsdaten, die jeweils einen Satz (Ft, ΔM) aus der Subjektfrequenz
Ft und der Differenz ΔM
enthalten.
-
Die
Additionseinheit 424 ist ein Mittel zum Addieren des Frequenzspektrums
SPt eines jeden der Frames, die durch die Konvertierspektrumsdaten DSPt
angegeben wird, und der Differenz ΔM, die durch die Hüllkurvendifferenzdaten ΔEV angegeben wird,
um dadurch ein Frequenzspektrum SPnew' zu berechnen. Die Additionseinheit 424 addiert
nämlich die
spektrale Intensität
Mt in jeder Subjektfrequenz Ft des Frequenzspektrums SPt eines jeden
der Frames und die Differenz ΔM
in der Subjektfrequenz Ft der Hüllkurvendifferenzdaten ΔEV und spezifiziert
dann ein Frequenzspektrum SPnew, das die berechnete Summe als die
Intensität
Mnew' hat. Auf diese
Weise gibt die Additionseinheit 424 für jeden der Frames neue Spektrumsdaten
DSPnew', die das
Frequenzspektrum SPnew' angeben,
an eine Mischeinheit 425 aus. Das Frequenzspektrum SPnew,
das in der oben beschriebenen Art und Weise spezifiziert wird, hat eine
Form, in der das Frequenzspektrum SPt der Konvertierstimme widergespiegelt
ist, wie in Abschnitt (f) von 7 veranschaulicht,
so dass eine durch das Frequenzspektrum SPnew' repräsentierte Stimme eine stimmlose
Stimme ist, die der Konvertierstimme ähnlich ist. Weil ferner eine
durch das Frequenzspektrum SPnew' repräsentierte
spektrale Hüllkurve
allgemein mit der spektralen Hüllkurve EVin
der Eingabestimme übereinstimmt,
ist die durch das Frequenzspektrum SPnew' repräsentierte Stimme eine stimmlose
Stimme, in der die phonologischen Charakteristiken der Eingabestimme
widergespiegelt sind. Weil ferner die Additionseinheit 424 die Konvertierspektrumsdaten
SPt und die Hüllkurvendifferenzdaten ΔEV für jeden
der Frames addiert, reflektiert eine Stimme, die durch Verbinden
von Einheitsstimmen, die durch die Frequenzspektren SPnew' der einzelnen Frames
angegeben werden, erhalten wurde, in sich präzise eine Variation der Frequenzspektren
SPt der einzelnen Frames der Konvertierstimme über die Zeit (insbesondere
eine feine Variation der spektralen Intensität Mt in den einzelnen Subjektfrequenzen
Ft).
-
Die
Mischeinheit 425, die in 6 dargestellt ist,
ist ein Mittel zum Mischen des Frequenzspektrums SPin der Eingabestimme
und des Frequenzspektrums SPnew, das durch die Additionseinheit 424 spezifiziert
wird, mit einem bestimmten Verhältnis,
um dadurch ein Frequenzspektrum SPnew zu spezifizieren. Die Mischeinheit 425 multipliziert
nämlich
die spektrale Intensität
Min in der Subjektfrequenz Fin des Frequenzspektrums SPin, das durch die
Eingabespektrumsdaten DSPin repräsentiert wird,
mit einem Gewichtungswert (1 – α) und multipliziert
auch die spektrale Intensität
Mnew in der Subjektfrequenz Ft, die der Subjektfrequenz Fin entspricht
(ihr gleich ist oder ihr nahekommt), des Frequenzspektrums SPnew,
das durch die neuen Spektrumsdaten DSPnew' repräsentiert wird, mit einem Gewichtungswert α. Auf diese
Weise spezifiziert die Mischeinheit 425 das Frequenzspektrum
SPnew, das eine Summe der resultierenden Produkte aufweist als spektrale
Intensität
Mnew (= (1 – α)·Min + α·Mnew'). Dann gibt die
Mischeinheit 425 die neuen Spektrumsdaten DSPnew, welche
das Frequenzspektrum SPnew angeben, an die Revers-FFT-Einheit 15 aus.
Der Ausgabe der neuen Spektrumsdaten DSPnew folgende Operationen
sind denjenigen in der ersten Ausführungsform ähnlich.
-
Wie
bei der ersten Ausführungsform
wird der in der Mischeinheit 425 zu verwendende Gewichtungswert α durch die
Parametereinstelleinheit 35 gemäß der Verstärkung Ain der Eingabestimme
und Parametern gewählt,
die vom Benutzer über
die Parameterzuweisungseinheit 36 eingegeben werden. Weil
die Konvertierstimme in der zweiten Ausführungsform jedoch eine stimmlose
Stimme ist, unterscheidet sich das Verhältnis zwischen der Verstärkung Ain
der Eingabestimme und dem Gewichtungswert α von demjenigen in der ersten
Ausführungsform.
Allgemein besteht die Tendenz, dass der Grad der Hauchigkeit in
einer Stimme hörbarer
wird (nämlich
die Stimme mehr wie eine Flüsterstimme
klingt), je mehr die Lautstärke
der Stimme abnimmt. Um eine derartige Tendenz zu reproduzieren,
wird ein entsprechendes Verhältnis
zwischen der Verstärkung Ain
der Eingabestimme und dem Gewichtungswert α bei der vorliegenden Ausführungsform
so eingestellt, dass der Gewichtungswert α größer wird, wenn die Verstärkung Ain
der Eingabestimme kleiner wird, wie in 8 zu sehen
ist. Die Parameter v1, v2 und v3, die in 8 gezeigt
sind, werden im Ansprechen auf die Betätigung der Parameterzuweisungseinheit 36 durch
den Benutzer eingestellt. Der Parameter v1 repräsentiert einen Wert des Gewichtungswerts α, wenn die
Verstärkung
Ain der Eingabestimme einen Minimalwert hat (d.h. einen Maximalwert
des Gewichtungswerts α),
der Parameter v2 repräsentiert
einen Maximalwert der Verstärkung
Ain, wenn der Gewichtungswert α den
Maximalwert v1 annimmt, und der Parameter v2 repräsentiert
einen Wert der Verstärkung
Ain, wenn der Gewichtungswert α den
Minimalwert (0) annimmt.
-
Wie
oben dargelegt, kann die vorliegende Ausführungsform ähnlich wie die erste Ausführungsform
eine Ausgabestimme liefern, die sich extrem natürlich anhört, weil sie das Frequenzspektrum SPnew' der Ausgabestimme
auf der Grundlage des Frequenzspektrums SPt der Konvertierstimme
und der spektralen Hüllkurve
EVin der Eingabestimme spezifizieren kann. Weil ferner die vorliegende
Ausführungsform
zum Erzeugen des Frequenzspektrum SPnew der Ausgabestimme durch
Zusammenmischen des Frequenzspektrums SPnew' des durch das Hauchen verursachten
(stimmlosen) Klanges und des Frequenzspektrums SPin der Eingabestimme
(typischerweise einer stimmhaften Stimme) in einem Verhältnis angeordnet
ist, das der Verstärkung Ain
der Eingabestimme entspricht, kann sie eine natürliche Ausgabestimme, die dem
tatsächlichen
Verhalten der Stimmbänder
eines Menschen nahekommt, erzeugen.
-
C. Dritte Ausführungsform:
-
Als
Nächstes
folgt eine Beschreibung einer Stimmverarbeitungsvorrichtung gemäß einer
dritten Ausführungsform
der vorliegenden Erfindung anhand von 9. Die dritte
Ausführungsform
der Stimmverarbeitungsvorrichtung D3 ist im Wesentlichen als eine
Kombination der ersten Ausführungsform
der Stimmverarbeitungsvorrichtung D1 und der zweiten Ausführungsform
D2 der Stimmverarbeitungsvorrichtung konstruiert. Es wird darauf
hingewiesen, dass Elemente der dritten Ausführungsform der Stimmverarbeitungsvorrichtung
D3, die denjenigen der ersten und der zweiten Ausführungsform ähnlich sind,
mit denselben Bezugszeichen wie bei der ersten und der zweiten Ausführungsform
bezeichnet sind und eine Beschreibung dieser Elemente weggelassen
wird, um eine unnötige
Doppelung zu vermeiden.
-
Wie
in 9 dargestellt, ist die Stimmverarbeitungsvorrichtung
D3 hauptsächlich
dadurch gekennzeichnet, dass eine Spektrumsverarbeitungseinheit 2a und
eine Datenerzeugungseinheit 3a, die denjenigen ähnlich sind,
die in der ersten Ausführungsform
gezeigt sind, an einer Stufe angeordnet sind, die der Stimmeingabeeinheit 10 und
der Frequenzanalyseeinheit 12 folgt, und dass eine Spektrumsverarbeitungseinheit 2b und
eine Datenerzeugungseinheit 3b, die denjenigen ähnlich sind,
die in der zweiten Ausführungsform
gezeigt sind, an einer Stufe angeordnet sind, die der Datenerzeugungseinheit 3a folgt.
Neue Spektrumsdaten DSPnew, die aus der Datenerzeugungseinheit 3b ausgegeben
werden, werden an die Revers-FFT-Einheit 15 ausgegeben.
Die Parameterzuordnungseinheit 36 fungiert sowohl als ein
Mittel zum Zuordnen der Parameter u1, u2 und u3 zur Datenerzeugungseinheit 3a als
auch als ein Mittel zum Zuordnen der Parameter v1, v2 und v3 zur
Datenerzeugungseinheit 3b.
-
In
der auf diese Weise angeordneten dritten Ausführungsform geben die Spektrumsverarbeitungseinheit 2a und
die Datenerzeugungseinheit 3a neue Spektrumsdaten DSPnew0
auf der Grundlage eingegebener Spektrumsdaten DSPin, die von der Frequenzanalyseeinheit 12 eingegeben
werden, und einer Schablone einer Konvertierstimme, die in der Speichereinheit 51 gespeichert
ist, allgemein in derselben Art und Weise, die oben im Zusammenhang mit
der ersten Ausführungsform
beschrieben wurde, aus. Ferner geben die Spektrumsverarbeitungseinheit 2b und
die Datenerzeugungseinheit 3b neue Spektrumsdaten DSPnew
auf der Grundlage der neuen Spektrumsdaten DSPnew0, die von der
Datenerzeugungseinheit 3a geliefert wurden, und einer Schablone
einer Konvertierstimme, die in der Speichereinheit 52 gespeichert
ist, allgemein in derselben Weise, wie sie im Zusammenhang mit der
zweiten Ausführungsform
beschrieben wurde, aus. Die auf diese Weise angeordnete dritte Ausführungsform kann
allgemein dieselben Vorteile wie die anderen Ausführungsformen
erzielen.
-
Während die
Speichereinheiten 51 und 52 in 9 als
getrennte Komponenten gezeigt sind, können sie auch durch eine einzige
Speichereinheit ersetzt werden, in der Schablonen ähnlich denjenigen, die
in der ersten und der zweiten Ausführungsform verwendet werden,
zusammen gespeichert sind. Ferner können die Spektrumsverarbeitungseinheit 2d und
die Datenerzeugungseinheit 3b, die ähnlich denjenigen in der zweiten
Ausführungsform
sind, an einer Stufe vorgesehen werden, die der Spektrumsverarbeitungseinheit 2a und
der Datenerzeugungseinheit 3a, die denjenigen der ersten
Ausführungsform ähnlich sind,
vorgeschaltet ist.
-
D. Modifikation:
-
Die
oben beschriebenen Ausführungsformen können in
verschiedenster Weise modifiziert werden, wie unten als Beispiel
erläutert
ist. Die unten erläuterten
Modifikationen können
gegebenenfalls auch in Kombination verwendet werden.
- (1) Während
die erste Ausführungsform
oben so beschrieben wurde, dass bei ihr das Frequenzspektrum SPnew' durch Zusammenaddieren
der spektralen Intensität
Min des Frequenzspektrums SPin und der spektralen Intensität Mt des
Frequenzspektrums SPt spezifiziert wurde, kann das Frequenzspektrum
SPnew' auch in einer
beliebigen anderen geeigneten Art und Weise spezifiziert werden.
Zum Beispiel kann das Frequenzspektrum SPnew' auch durch Ersetzen des Frequenzspektrums
SPin, das in Abschnitt (c) von 4 gezeigt
ist, durch das Frequenzspektrum SPt, das in Abschnitt (b) von 4 gezeigt
ist, erzeugt werden. Außerdem
wurde oben bei der Beschreibung der ersten Ausführungsform zwar spezifiziert,
dass das Frequenzspektrum SPnew durch Multiplizieren des Frequenzspektrums SPnew
mit dem Intensitätsverhältnis β zwischen der
spektralen Intensität
Mnew' des Frequenzspektrums
SPnew' und der spektralen
Intensität MEV
der spektralen Hüllkurve
EVin der Eingabestimme erhalten wird, doch kann das Frequenzspektrum
SPnew' auch in einer
beliebigen anderen geeigneten Art und Weise spezifiziert werden. Zum
Beispiel kann das Frequenzspektrum SPnew' auch durch Addieren eines bestimmten numerischen
Wertes zur spektralen Intensität Mnew' des Frequenzspektrums
SPnew', das in Abschnitt
(d) von 4 gezeigt ist, pro spektraler Verteilungsregion
Rin erzeugt werden (d.h. durch Verschieben des Frequenzspektrums
SPnew' entlang der
in Abschnitt (d) von 4 gezeigten senkrechten Achse).
Der zu addierende numerische Wert ist hier zum Beispiel eine Differenz
zwischen der spektralen Intensität
MEV der spektralen Hüllkurve
EVin und der spektralen Intensität Mnew' des Frequenzspektrums
SPnew'. Bei der ersten
Ausführungsform
ist es nämlich
lediglich notwendig, dass die Form des Frequenzspektrums SPt der
Konvertierstimme im Frequenzspektrum SPnew' (und im Frequenzspektrum SPnew der
Ausgabestimme) widergespiegelt ist, und das Frequenzspektrum SPnew' kann in jeder beliebigen
gewünschten
Weise spezifiziert werden.
- (2) In der oben beschriebenen zweiten Ausführungsform ist das Frequenzspektrum
SPnew' des gehauchten
Klangs über
breite Frequenzbänder verteilt.
Wenn jedoch die Tendenz berücksichtigt wird,
dass gehauchte Klänge
eine höhere
Frequenz als stimmhafte Klänge
haben (Stimmen niederer Frequenz können nämlich kaum zu Flüsterstimmen
werden), ist es wünschenswert,
die Komponenten der besonders niedrigen Frequenzen aus dem Frequenzspektrum
SPnew' zu entfernen,
um eine natürlicher
klingende Ausgabestimme zu erzeugen. Zu diesem Zweck kann an einer
Stufe, die der Additionseinheit 424, die das Frequenzspektrum
SPnew' spezifiziert,
nachgeschaltet ist, ein Filter 427 vorgesehen werden, wie in 10 gezeigt.
Das Filter 427 ist ein Hochpassfilter, das selektiv nur
Komponenten von Frequenzen hindurchlässt, die höher als eine vorbestimmte Grenzfrequenz
sind. Weil in einem derartigen Fall Komponenten, die niedriger als
die Grenzfrequenz sind, aus dem Hauchklang entfernt werden können, ist
es möglich,
eine natürlichere
Ausgabestimme zu erzeugen, die einer natürlichen Stimme näher kommt.
Ferner können Anordnungen
zum Anheben oder Absenken der Grenzfrequenz zum Beispiel im Ansprechen
auf die Betätigung
durch den Benutzer oder gemäß der Tonhöhe Pin und/oder
der Verstärkung
Ain, die von der Tonhöhe/Verstärkungs-Erfassungseinheit 31 erfasst
werden, eingesetzt werden.
- (3) Ferner wurde die zweite Ausführungsform so beschrieben,
dass sie den Revers-FFT-Prozess an dem Frequenzspektrum SPnew, das
für einen gehauchten
Klang repräsentativ
ist, und dem Frequenzspektrum SPin einer Eingabestimme ausführt, nachdem
diese Frequenzspektren SPnew' und
SPin gemischt wurden. Als Alternative kann die Mischeinheit 425,
wie in 11 dargestellt, ein Signal (d.h.
ein Zeitbereichssignal, das für
einen gehauchten Klang repräsentativ
ist), das durch Ausführen
eines Revers-FFT-Prozesses durch eine Revers-FFT-Einheit 428a,
die an einer Stufe angeordnet ist, die der Additionseinheit 424 nachgeschaltet
ist, an dem Frequenzspektrum SPnew' erzeugt wird, mit einem Signal (d.h.
einem Zeitbereichssignal, das für
eine Eingabestimme repräsentativ
ist) zusammen mischen, das erzeugt wird, indem das Frequenzspektrum
SPin dem Revers-FFT-Prozess durch eine Revers-FFT-Einheit 428b unterzogen
wird. Auch in diesem Fall können
Anordnungen derart verwendet werden, dass das Mischverhältnis (der
Gewichtungswert α)
in der Mischeinheit 425 durch die Parametereinstelleinheit 35 in
angemessener Weise eingestellt wird. Während die Modifikation oben
so beschrieben wurde, dass der Mischeinheit 425 das Ausgangssignal
aus der Revers-FFT-Einheit 428b geliefert wird, kann auch das
Eingabestimmsignal Sin, das aus der Stimmeingabeeinheit 10 ausgegeben
wird, direkt an die Mischeinheit 425 geliefert werden,
um dort mit dem Ausgangssignal aus der Revers-FFT-Einheit 428a gemischt
zu werden, wie das in 11 mit einer gestrichelten Linie
angegeben ist.
- (4) Ferner spezifiziert in der oben beschriebenen zweiten Ausführungsform
die Mittlere-Hüllkurven-Beschaffungseinheit 421 die
mittlere Hüllkurve
EVave aus den Konvertierhüllkurvendaten DEVt
einer Vielzahl von Frames. Alternativ dazu können Mittlere-Hüllkurvendaten
DEVave, welche die mittlere Hüllkurve
EVave angeben, in der Speichereinheit 52 vorgespeichert
sein; in diesem Fall liest die Mittlere-Hüllkurven-Beschaffungseinheit 421 die
Mittlere-Hüllkurvendaten
DEVave aus der Speichereinheit 52 aus und liefert die ausgelesenen
Hüllkurvendaten
DEVave an die Differenzberechnungseinheit 423. Ferner wurde
die Ausführungsform
zwar so beschrieben, dass sie die mittlere Hüllkurve EVave aus den Konvertierhüllkurvendaten
DEVt der einzelnen Frames spezifiziert, doch kann die mittlere Hüllkurve
EVave auch durch eine Mittelung der Konvertierspektrumsdaten DSPt,
welche die Frequenzspektren SPt der einzelnen Frames angeben, spezifiziert
werden.
- (5) Darüber
hinaus wurden die Ausführungsformen
zwar so beschrieben, dass sie eine heisere Stimme oder eine Flüsterstimme
als die Konvertierstimme verwenden, doch kann die Form (insbesondere
die Wellenform) der Konvertierstimme auch nach Wunsch gewählt werden.
Zum Beispiel kann eine Stimme einer Sinuswellenform als die Konvertierstimme
verwendet werden. In diesem Fall kann nach Eingabe einer heiseren
Stimme oder einer Flüsterstimme
als Eingabestimme die Modifikation eine klare Ausgabestimme erzeugen,
aus der die Rauheit, die durch die unregelmäßige Schwingung der Stimmbänder verursacht wurde,
oder eine Hauchigkeit, die durch Hauchen von einem Menschen, der
die Stimme hervorgebracht hat, verursacht wurde, entfernt wurde.
-
Schließlich sollte
erkannt werden, dass die vorliegenden Erfindung auf die Verarbeitung
nicht nur von menschlichen Stimmen, sondern auch anderer Typen von
Stimmen oder Klängen
anwendbar ist.