DE602005002403T2 - Gerät und Programm zur Sprachverarbeitung - Google Patents

Gerät und Programm zur Sprachverarbeitung Download PDF

Info

Publication number
DE602005002403T2
DE602005002403T2 DE602005002403T DE602005002403T DE602005002403T2 DE 602005002403 T2 DE602005002403 T2 DE 602005002403T2 DE 602005002403 T DE602005002403 T DE 602005002403T DE 602005002403 T DE602005002403 T DE 602005002403T DE 602005002403 T2 DE602005002403 T2 DE 602005002403T2
Authority
DE
Germany
Prior art keywords
voice
data
spectrum
envelope
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005002403T
Other languages
English (en)
Other versions
DE602005002403D1 (de
Inventor
Yasuo 430-8650 Yoshioka
Alex 08003 Loscos
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of DE602005002403D1 publication Critical patent/DE602005002403D1/de
Application granted granted Critical
Publication of DE602005002403T2 publication Critical patent/DE602005002403T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf Techniken zum Variieren der Charakteristiken von Stimmen.
  • Bisher wurden verschiedene Techniken zum Konvertieren einer von einem Benutzer eingegebenen Stimme (die hiernach als "Eingabestimme" bezeichnet wird) in eine Stimme mit anderen Charakteristiken als denjenigen der Eingabestimme (die hiernach als "Ausgabestimme" bezeichnet wird) vorgeschlagen. Die japanische Patentanmeldungsoffenlegungsveröffentlichung Nr. 2000-3200 offenbart zum Beispiel eine Technik zum Erzeugen einer Ausgabestimme durch Hinzufügen sogenannter "Hauchigkeit" zu einer Eingabestimme. Gemäß der offenbarten Technik wird eine Ausgangsstimme dadurch erzeugt, dass einer Eingabestimme Komponenten eines bestimmten Frequenzbandes (das einer dritten Formante der Eingabestimme entspricht) eines weißen Rauschens, das über eine große Frequenzbandbreite eine gleichmäßige spektrale Intensität aufweist, hinzugefügt wird.
  • Weil jedoch die Charakteristiken einer Stimme, die einem Hauchen eines Menschen entsprechen (hiernach als "Hauchgeräusch" bezeichnet) sich fundamental von denjenigen eines weißen Rauschens unterscheiden, ist es schwierig, eine natürlich klingende Ausgabestimme einfach dadurch zu erzeugen, dass ein weißes Rauschen als eine Komponente eines Hauchgeräuschs einer Eingabestimme hinzugefügt wird. Ein ähnliches Problem könnte bei der Erzeugung anderer Stimmen verschiedener anderer Charakteristiken als der mit einer Hauchigkeit versehenen Ausgabestimme entstehen, wie zum Beispiel eine Stimme, die durch die unregelmäßige Schwingung des Stimmbandes erzeugt wird (die hiernach als "heisere Stimme" bezeichnet wird) und eine Flüsterstimme, bei der das Stimmband nicht schwingt. Allgemein ist es möglich, eine heisere Stimme dadurch zu erzeugen, dass die bekannte SMS-Technik (Spectral Modeling Synthesis) zum Extrahieren harmonischer Komponenten und nicht-harmonischer Komponenten (die auch als Restkomponenten oder Rauschkomponenten bezeichnet werden) aus einer Eingabestimme verwendet wird, dann die Intensität der nicht-harmonischen Komponenten relativ erhöht und die nicht-harmonischen Komponenten mit erhöhter Intensität zu den harmonischen Komponenten addiert werden. Weil bei einer heiseren Stimme eines Menschen jedoch eine unregelmäßige Schwingung des Stimmbandes auftritt und sie sich grundlegend von einer Stimme unterscheidet, die lediglich reich an Rauschkomponenten ist, würden beträchtliche Einschränkungen beim Erzeugen einer natürlichen heiseren Stimme unter der Verwendung der herkömmlicherweise bekannten Technik auftreten.
  • Die Druckschrift EP 1 220 195 und YINYONG QI, "Replacing tracheoesophageal voicing sources using LPC synthesis" ("Ersetzen von Luft- und Speiseröhre als Stimmquellen durch LPC-Synthese"), Journal of the Acoustical Society of America, Band 88, Nr. 3, September 1990, beschreiben Techniken zum Durchführen spektraler Veränderungen an einem Eingabesignal, während ihre spektrale Hüllkurvenform erhalten bleibt.
  • Angesichts der oben genannten Probleme ist es eine Aufgabe der vorliegenden Erfindung, eine Technik zum Erzeugen einer natürlichen Ausgabestimme aus einer Eingabestimme zur Verfügung zu stellen. Die Erfindung ist in den beiliegenden unabhängigen Ansprüchen definiert.
  • Bei der Stimmverarbeitungsvorrichtung gemäß dem ersten Aspekt der vorliegenden Erfindung erzeugt die Frequenzanalyseeinheit für jede der spektralen Verteilungsregionen, welche Frequenzen anzeigende entsprechende Intensitätspeaks im Frequenzspektrum der Eingabestimme aufweist, Eingabespektrumsdaten, die ein Frequenzspektrum anzeigen, das zu der spektralen Verteilungsregion gehört. Hier addiert die Spektrumskonvertiereinheit für jede der spektralen Verteilungsregionen der Eingabestimme und zu einem bestimmten Verhältnis eine Intensität, die von den Eingabespektrumsdaten der spektralen Verteilungsregion angegeben ist, und eine Intensität, die durch die Konvertierspektrumsdaten, die der spektralen Verteilungsregion entspricht, zusammen, um so die neuen Spektrumsdaten zu erzeugen, die ein Frequenzspektrum angeben, das als Intensität eine Summe der Intensität aufweist. Derartige Anordnungen können eine natürliche Ausgabestimme zur Verfügung stellen, in der nicht nur das Frequenzspektrum der Konvertierstimme sondern auch das Frequenzspektrum der Eingabestimme reflektiert ist.
  • Die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung, bei der das Frequenzspektrum der Eingabestimme und das Frequenzspektrum der Konvertierstimme in einem bestimmten Verhältnis addiert werden, kann ferner umfassen: eine Lautstärkeerfassungseinheit, die eine Lautstärke der Eingabestimme erfasst; und eine Parametereinstelleinheit, die das bestimmte Verhältnis gemäß der durch die Lautstärkeerfassungseinheit erfassten Lautstärke variiert. Weil das Verhältnis zwischen der Intensität des Frequenzspektrums der Eingabestimme und der Intensität des Frequenzspektrums der Konvertierstimme von der Parametereinstelleinheit gemäß der Eingabestimme variiert wird, kann die vorliegende Erfindung eine natürlichere Ausgabestimme, die einer tatsächlichen menschlichen Stimme näher kommt, erzeugen. Wenn eine heisere Stimme als eine in der Stimmverarbeitungsvorrichtung der vorliegenden Erfindung zu verwendende Konvertierstimme eingestellt wird, kann jede Eingabestimme in eine heisere Stimme konvertiert werden. Die "heisere Stimme" ist eine Stimme, bei der bei der Artikulation eine unregelmäßige Schwingung auftritt, bei der auch unregelmäßige Peaks und Einsenkungen in Frequenzbändern zwischen lokalen Peaks in Frequenzspektren auftreten, die fundamentalen und harmonischen Klängen entsprechen. Die Unregelmäßigkeit (d.h. die Unregelmäßigkeit bei der Schwingung der Stimmbänder), die für solch eine heisere Stimme spezifisch ist, wird tendenziell deutlicher, je größer die Lautstärke der Stimme wird. Daher variiert in einer bevorzugten Ausführungsform der vorliegenden Erfindung die Parametereinstelleinheit das bestimmte Verhältnis in einer solchen Weise, dass eine Proportion der Intensität der Konvertierspektrumsdaten größer wird, je größer die von der Lautstärkenerfassungseinheit erfasste Lautstärke wird. Mit solchen Anordnungen kann die vorliegende Erfindung die Unregelmäßigkeit (sozusagen die "Heiserkeit") der Ausgabestimme mit größer werdender Lautstärke der Eingabestimme erhöhen, was eine Stimmverarbeitung erlaubt, die genau der von einem Menschen hervorgebrachten tatsächlichen Stimme entspricht. Ferner kann auch eine Zuordnungseinheit vorgesehen werden, um eine Variationsart in dem bestimmten Verhältnis im Ansprechen auf eine Variation der Lautstärke der Eingabestimme zuzuordnen. In diesem Fall kann die vorliegende Erfindung eine Vielzahl von Ausgabestimmen je nach dem Geschmack des Benutzers erzeugen. Es wird darauf hingewiesen, dass die Konvertierstimme oben zwar als eine heisere Stimme angegeben wurde, doch dass die in der erfindungsgemäßen Stimmverarbeitungsvorrichtung zu verwendende Konvertierstimme auch beliebige andere Charakteristiken als diejenigen einer heiseren Stimme haben kann.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung umfasst die Stimmverarbeitungsvorrichtung ferner: eine Speichereinheit, die Konvertierspektrumsdaten für jeden von mehreren durch Teilen einer Konvertierstimme auf einer Zeitachse erhaltenen Frames speichert, und eine Mittlere-Hüllkurve-Beschaffungseinheit, die Mittlere-Hüllkurve-Daten beschafft, welche eine durch Mitteln der Intensität der spektralen Hüllkurven in den Frames der Konvertierstimme erhaltene mittlere Hüllkurven angeben. Die Datenerzeugungseinheit weist Folgendes auf: eine Differenz-Berechnungseinheit, die eine Differenz zwischen der Intensität der von den Eingabehüllkurvendaten angezeigten spektralen Hüllkurve und der Intensität der von der Mittlere-Hüllkurve-Daten angezeigten mittleren Hüllkurve berechnet, und eine Additionseinheit, die die Intensität des von den Konvertierspektrumsdaten für jeden der Frames angezeigten Frequenzspektrums und die von der Differenzberechnungseinheit berechnete Differenz addiert, wobei die Datenerzeugungseinheit die neuen Spektrumsdaten auf Grundlage eines von der Additionseinheit berechneten Wertes erzeugt. In diesem Fall wird die Differenz zwischen der Intensität der von den Eingabehüllkurvendaten angegebenen spektralen Hüllkurve und die Intensität der von den Mittlere-Hüllkurve-Daten angegebenen mittleren Hüllkurve in das Frequenzspektrum der Konvertierstimme umgewandelt, um dadurch neue Spektrumsdaten zu erzeugen. Auf diese Weise kann die vorliegende Erfindung eine natürliche Ausgabestimme zur Verfügung stellen, in der Variationen des Frequenzspektrums der Konvertierstimme über die Zeit genau widergespiegelt sind. Ferner besteht in diesem Fall keine Notwendigkeit, die Konvertierstimme in spektrale Verteilungsregionen aufzuteilen, vielmehr ist die vorliegende Erfindung zur Verwendung in Fällen geeignet, bei denen kein lokaler Peak im Frequenzspektrum der Konvertierstimme erscheint (z.B. wenn die Konvertierstimme ein stimmloser Klang, wie zum Beispiel ein Hauchklang ist). Ein spezifisches Beispiel für diesen Aspekt wird später im Einzelnen als eine zweite Ausführungsform der vorliegenden Erfindung beschrieben.
  • Allgemein wird die Hauchigkeit in menschlichen Stimmen insbesondere dann vorherrschend, wenn die Stimmfrequenz relativ hoch ist. Daher kann die Stimmverarbeitungsvorrichtung ferner auch eine Filtereinheit aufweisen, die selektiv eine Komponente einer Stimme hindurch lässt, die von den neuen Spektrumsdaten angezeigt wird, die einem Frequenzband entspricht, das eine Grenzfrequenz überschreitet. Ferner kann die Stimmverarbeitungsvorrichtung eine Lautstärkeerfassungseinheit aufweisen, die eine Lautstärke der Eingabestimme erfasst, in welchem Fall das Filter die Grenzfrequenz gemäß der von der Lautstärkeerfassungseinheit erfassten Lautstärke variiert. Es ist auf diese Weise möglich, eine natürlichere Ausgabestimme, die einer tatsächlichen Stimme näherkommt, zu erzeugen. Zum Beispiel können Anordnungen zum Erhöhen oder zum Absenken der Grenzfrequenz mit zunehmender Lautstärke der Eingabestimme eingesetzt werden.
  • Wenn ein stimmloser Klang, wie zum Beispiel ein Hauchklang (Flüsterstimme) als die Konvertierstimme verwendet wird, so entspricht das Frequenzspektrum, dessen Intensität die von der Additions-Einheit berechnete Summe ist, dem stimmlosen Klang. Auch wenn der stimmlose Klang direkt als die Ausgabestimme ausgegeben werden kann, können Anordnungen vorgesehen werden, um den stimmlosen Klang auszugeben, nachdem er mit der Eingabestimme gemischt wurde. Zu diesem Zweck addiert nämlich die Datenerzeugungseinheit in einem bestimmten Verhältnis die Intensität des Frequenzspektrums, dessen Intensität ein von der Additions-Einheit berechneter Wert ist, und eine Intensität des von der Frequenzanalyseeinheit erfassten Frequenzspektrums, um dadurch die neuen Spektrumsdaten zu erzeugen, welche das Frequenzspektrum anzeigen, dessen Intensität die Summe der Intensitäten ist, die von der Datenerzeugungseinheit berechnet wurde. Auf diese Weise kann die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung eine natürlich Ausgabestimme zur Verfügung stellen, in der der Eingabestimme eine Hauchigkeit verliehen wird. Allgemein besteht die Tendenz, dass ein Grad einer Hauchigkeit in der Stimme, die von einem Menschen übers Gehör wahrgenommen wird, sich gemäß der Lautstärke der Stimme ändert. Um eine solche Tendenz zu reproduzieren, umfasst die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung ferner: eine Lautstärkeerfassungseinheit, die eine Klanglautstärke der Eingabestimme erfasst, und eine Parametereinstellungseinheit, die das bestimme Verhältnis gemäß der von der Lautstärkeerfassungseinheit erfassten Lautstärke verändert. Es kann nämlich davon ausgegangen werden, dass die Hauchigkeit in einer Stimme, die von einem Menschen über das Gehör wahrgenommen wird, ausgeprägter wird, wenn die Lautstärke der Stimme nachlässt. Deshalb variiert in einer noch mehr vorzuziehenden Ausführungsform die Parametereinstellungseinheit das bestimmte Verhältnis in einer solchen Weise, dass die Proportion der Intensität des Frequenzspektrums, dessen Intensität der von der Additions-Einheit berechnete Wert ist, höher wird, je weiter die von der Lautstärkenerfassungseinheit erfasste Klanglautstärke nachlässt. Solche Anordnungen können eine natürliche Ausgabestimme vorsehen, deren Charakteristiken vom menschlichen Gehörsinn als stimmig wahrgenommen werden. Ferner kann eine Zuweisungseinheit vorgesehen werden, um in dem bestimmten Verhältnis im Ansprechen auf den Betrieb durch den Benutzer eine Variationsart zuzuweisen, so dass die vorliegende Erfindung eine Vielzahl von Ausgabestimmen je nach dem Geschmack des Benutzers erzeugen kann. Es wird darauf hingewiesen, dass die Konvertierstimme oben zwar als eine heisere Stimme angegeben wurde, doch kann die in der erfindungsgemäßen Stimmverarbeitungsvorrichtung zu verwendende Konvertierstimme auch beliebige andere Charakteristiken als diejenigen einer heiseren Stimme aufweisen.
  • Auch wenn die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung dazu angeordnet werden kann, eine Ausgabestimme auf der Grundlage von Konvertierspektrumsdaten zu erzeugen, die einer Konvertierstimme entsprechen, die mit einer einzigen Tonhöhe hervorgebracht wurde, können auch andere Anordnungen getroffen werden, um im Voraus eine Vielzahl von Konvertierspektrumsdaten vorzubereiten, die einer Vielzahl unterschiedlicher Tonhöhen entsprechen. In diesem Fall umfasst dann nämlich die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung: eine Speichereinheit, die mehrere Konvertierspektrumsdaten speichert, welche Frequenzspektren von in der Tonhöhe unterschiedlichen Konvertierstimmen angeben und eine Tonhöhenerfassungseinheit, die eine Tonhöhe einer Eingabestimme erfasst. Hierbei beschafft die Beschaffungseinheit aus den mehreren in der Speichereinheit gespeicherten Konvertierspektrumsdaten bestimmte Konvertierspektrumsdaten, welche der von der Ton höhenerfassungseinheit erfassten Tonhöhe entsprechen. Mit solchen Anordnungen kann die vorliegende Erfindung auf der Grundlage des Konvertierens von Spektrumsdaten eine besonders natürliche Ausgabestimme zur Verfügung stellen, die der Tonhöhe der Eingabestimme entspricht.
  • Die Stimmverarbeitungsvorrichtung der vorliegenden Erfindung kann nicht nur durch Hardware, wie durch einen DSP (Digital Signal Processor) umgesetzt werden, der für die Stimmverarbeitung dediziert ist, sondern auch in einer Kombination eines Computers (z.B. einem PC) mit einem Programm umgesetzt werden, wie in den Ansprüchen 10 und 11 definiert.
  • Im Folgenden werden die Ausführungsformen der vorliegenden Erfindung beschrieben, es wird jedoch darauf hingewiesen, dass die vorliegende Erfindung auf die beschriebenen Ausführungsformen nicht eingeschränkt ist, sondern dass verschiedene Modifikationen der Erfindung möglich sind, ohne dass dadurch vom Umfang der beiliegenden Ansprüche abgewichen wird.
  • Zum besseren Verständnis der Aufgaben und weiterer Merkmale der vorliegenden Erfindung werden ihre bevorzugten Ausführungsformen im Folgenden im Einzelnen anhand der beiliegenden Zeichnungen beschrieben. Es zeigt:
  • 1 ein Blockdiagramm, das einen allgemeinen Aufbau einer Stimmverarbeitungsvorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt;
  • 2 eine Kurvendarstellung, die Vorgänge zum Erzeugen von Eingabespektrumsdaten aus einer Eingabestimme erläutert;
  • 3 eine Kurvendarstellung, die Vorgänge zum Erzeugen von Schablonen aus Konvertierstimmen erläutert;
  • 4 eine Kurvendarstellung, die Vorgänge erläutert, die von einer Datenerzeugungseinheit in der Stimmverarbeitungsvorrichtung durchgeführt werden;
  • 5 eine Kurvendarstellung, die das Verhältnis zwischen einer Verstärkung einer Eingabestimmung und einem Gewichtungswert in der ersten Ausführungsform darstellt;
  • 6 ein Blockdiagramm, das einen allgemeinen Aufbau einer Stimmverarbeitungsvorrichtung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt;
  • 7 eine Kurvendarstellung, die Vorgänge erläutert, die von einer Datenerzeugungseinheit in der zweiten Ausführungsform der Stimmverarbeitungsvorrichtung durchgeführt werden;
  • 8 eine Kurvendarstellung, in der das Verhältnis zwischen einer Verstärkung einer Eingabestimme und einem Gewichtungswert in der zweiten Ausführungsform dargestellt ist;
  • 9 ein Blockdiagramm, das einen allgemeinen Aufbau einer Stimmverarbeitungsvorrichtung gemäß einer dritten Ausführungsform der vorliegenden Erfindung darstellt;
  • 10 ein Blockdiagramm, das einen allgemeinen Aufbau einer Modifikation der zweiten Ausführungsform der vorliegenden Erfindung darstellt; und
  • 11 ein Blockdiagramm, das einen allgemeinen Aufbau einer weiteren Modifikation der zweiten Ausführungsform der vorliegenden Erfindung darstellt.
  • A. Erste Ausführungsform:
  • Zuerst folgt eine Beschreibung einer Konstruktion und des Betriebs einer Stimmverarbeitungsvorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung anhand von 1. Verschiedene Komponenten der Stimmverarbeitungsvorrichtung D1, die in 1 dargestellt ist, können entweder durch eine arithmetische Verarbeitungsvorrichtung, wie zum Beispiel eine CPU (Central Processing Unit), die ein vorbestimmtes Programm ausführt, oder mit Hardware, wie zum Beispiel einem DSP, der zur Stimmverarbeitung dediziert ist, umgesetzt werden; dasselbe gilt auch für die anderen Ausführungsformen, die später beschrieben werden.
  • Die Stimmeingabeeinheit 10, die in 1 gezeigt ist, ist ein Mittel zum Ausgeben eines digitalen elektrischen Signals (das hiernach als "Eingabestimmsignal" bezeichnet wird) Sin, das einer von einem Benutzer hervorgebrachten Eingabestimme entspricht. Die Stimmeingabeeinheit 10 weist zum Beispiel ein Mikrofon zum Ausgeben eines analogen elektrischen Signals auf, das eine Wellenform einer Eingabestimme angibt, sowie einen A/D-Wandler zum Umwandeln des analogen elektrischen Signals in ein digitales Eingabestimmsignal Sin. Eine Frequenzanalyseeinheit 12 schneidet das Eingabestimmsignal Sin, das von der Stimmeingabeeinheit 10 geliefert wurde, pro Frame einer vorbestimmten Zeitlänge (z.B. zwischen 5 ms und 10 ms) aus und führt dann an jedem Frame des Eingabestimmsignals Sin Frequenzanalyseoperationen, einschließlich FFT (Fast Fourier Transform) durch, um dadurch ein Frequenzspektrum (Amplitudenspektrum) des Frames des Signals SPin zu erfassen. Wie im Abschnitt (a) von 2 zu sehen, werden die Frames des Eingabestimmsignals Sin so eingestellt, dass sie sich auf der Zeitachse überlagern. Auch wenn diese Frames bei dem gezeigten Beispiel einfach so eingestellt werden, dass sie die gleiche Zeitlänge haben, können sie gemäß einer Tonhöhe des Eingabestimmsignals Sin auch in der Zeitlänge variieren. Der Abschnitt (b) von 2 veranschaulicht ein Beispiel für ein Frequenzspektrum SPin, das für einen der Frames identifiziert ist. Im Frequenzspektrum SPin eines der Frames des Eingabestimmsignals Sin, wie es im Abschnitt (b) von 2 zu sehen ist, erscheinen lokale spektrale Intensitätspeaks (die hiernach einfach als "lokale Peaks" bezeichnet werden) P bei verschiedenen Frequenzen, die einem Grundton und harmonischen Tönen entsprechen. Die Frequenzanalyseeinheit 12 gibt Daten aus, die das Frequenzspektrum SPin eines jeden der einzelnen Frames des Eingabestimmsignals Sin angeben (die hiernach als "Eingabespektrumsdaten DSPin" bezeichnet werden) aus. Die Eingabespektrumsdaten DSPin enthalten mehrere Einheitsdaten. Jede der Einheitsdaten umfasst Sätze (Fin, Min) mehrerer Frequenzen (die hiernach als "Subjektfrequenzen" bezeichnet werden) Fin, die in vorbestimmten Intervallen auf einer Frequenzachse eingestellt sind, und spektraler Intensität Min in den Subjektfrequenzen Fin. (Siehe Abschnitt (c) von 2).
  • Wie aus 1 hervorgeht, werden die Eingabespektrumsdaten DSPin, die von der Frequenzanalyseeinheit 12 ausgegeben werden, an eine Spektrumsverarbeitungseinheit 2a geliefert. Die Spektrumsverarbeitungseinheit 2a weist eine Peakerfassungseinheit 21, eine Hüllkurvenidentifikationseinheit 23 und eine Regionsaufteilungseinheit 25 auf. Die Peakerfassungseinheit 21 ist ein Mittel zum Erfassen mehrerer lokaler Peaks P im Frequenzspektrum SPin (d.h. Frequenzspektrum eines jeden der Frames des Eingabestimmsignals Sin). Zu diesem Zweck kann ein Verfahren verwendet werden, das zum Beispiel als den lokalen Peak P einem bestimmten Peak der größten spektralen Intensität aus einer vorbestimmten Anzahl von Peaks (einschließlich feiner Peaks, die nicht der lokale Peak P sind) erfasst, die auf der Frequenzachse eng beieinanderliegen. Die Hüllkurvenidentifikationseinheit 23 ist ein Mittel zum Identifizieren einer spektralen Hüllkurve EVin des Frequenzspektrums SPin. Wie im Abschnitt (b) von 2 zu sehen, ist die spektrale Hüllkurve EVin eine Hüllkurve, welche die mehreren lokalen Peaks P verbindet, die von der Peakerfassungseinheit 21 erfasst wurden. Zur Identifikation der spektralen Hüllkurve EVin kann zum Beispiel ein Verfahren verwendet werden, dass die spektrale Hüllkurve EVin als kurze Strecken identifiziert, welche beieinanderliegende Peaks P auf der Frequenzachse linear verbinden, ein Verfahren, das die spektrale Hüllkurve EVin durch Interpolation mit einem beliebigen aus verschiedenen Interpolationsverfahren, wie die Spline Interpolation, zwischen Geraden durch die lokalen Peaks P interpoliert, oder ein Verfahren, das die spektrale Hüllkurve EVin durch Berechnen beweglicher Durchschnittswerte der spektralen Intensität Min der einzelnen Subjektfrequenzen Fin im Frequenzspektrum SPin und dann Verbinden der berechneten Werte identifiziert. Dann gibt die Hüllkurvenidentifikationseinheit 23 die auf diese Weise identifizierte spektrale Hüllkurve angebende Daten aus (die hiernach als "Eingabehüllkurvendaten DEVin" bezeichnet werden). Die Eingabehüllkurvendaten DEVin enthalten ähnlich wie die Eingabespektrumsdaten DSPin mehrere Einheitsdaten. Wie im Abschnitt (d) von 2 zu sehen, enthalten die Einheitsdaten Sätze (Fin, MEV) einer Vielzahl von Subjektfrequenzen Fin, die bei vorbestimmten Intervallen auf der Frequenzachse ausgewählt wurden, und der spektralen Hüllkurvenintensität MEV der Subjektfrequenzen Fin.
  • Ferner ist die Regionsunterteilungseinheit 25 von 1 ein Mittel zum Unterteilen des Frequenzspektrums SPin in eine Vielzahl von Frequenzbändern (die hiernach als "Spektrale Verteilungsregionen" bezeichnet werden) Rin auf der Frequenzachse. Insbesondere identifiziert die Regionsunterteilungseinheit 25 mehrere spektrale Verteilungsregionen Rin, so dass jede der Verteilungsregionen Rin einen lokalen Peak P und Frequenzbänder vor und hinter dem einen lokalen Peak P aufweist, wie in Abschnitt (b) von 2 zu sehen. Wie im Abschnitt (b) von 2 zu sehen, identifiziert die Regionsunterteilungseinheit 25 zum Beispiel einen Mittelpunkt zwischen zwei lokalen Peaks P, die auf der Frequenzachse nebeneinander liegen, als eine Grenze zwischen spektralen Verteilungsregionen Rin (Rin1, Rin2, Rin3, ...). Die Regionsunterteilung kann jedoch auch in einer beliebigen anderen gewünschten Weise als der in Abschnitt (b) von 2 gezeigten durchgeführt werden. Zum Beispiel kann in jedem Frequenzband zwischen zwei lokalen Peaks, die auf der Frequenzachse nebeneinander liegen, eine die niedrigste spektrale Intensität Min (d.h. eine Einsenkung im Frequenzspektrum SPin) darstellende Frequenz als eine Grenze zwischen spektralen Verteilungsregionen Rin identifiziert werden. Daher können die einzelnen spektralen Verteilungsregionen Rin entweder im Wesentlichen dieselbe Bandbreite oder unterschiedliche Bandbreiten aufweisen. Wie im Abschnitt (c) von 2 gezeigt, gibt die Regionsunterteilungseinheit 25 die in spektrale Verteilungregionen Rin aufgeteilte Eingabespektrumsdaten SPin aus.
  • Ferner ist in 1 eine Datenerzeugungseinheit 3a ein Mittel zum Erzeugen von Daten, die ein Frequenzspektrum SPnew einer Ausgabestimme anzeigen (hiernach als "neue Spektrumsdaten" bezeichnet), das als variierende Charakteristiken der Eingabestimme erhalten wird. Die Datenerzeugungseinheit 3a spezifiziert bei der vorliegenden Ausführungsform das Frequenzspektrum SPnew der Ausgabestimme auf der Grundlage eines zuvor vorbereiteten Frequenzspektrums SPt einer Stimme (die hiernach als "Konvertierstimme" bezeichnet wird) und der spektralen Hüllkurve EVin der Eingabestimme. Eine Speichereinheit 51 in 1 ist ein Mittel zum Speichern von Daten, welche das Frequenzspektrum SPt der Konvertierstimme angeben (hiernach als "Konvertierspektrumsdaten DSPt" bezeichnet). In ähnlicher Weise zu den Eingabespektrumsdaten DSPin, die im Abschnitt (c) von 2 gezeigt sind, enthalten die Konvertierspektrumsdaten DSPt eine Vielzahl von Einheitsdaten, die jeweils Sätze (Ft, Mt) einer Vielzahl von Subjektfrequenzen Ft enthalten, die in vorbestimmten Intervallen auf der Frequenzachse ausgewählt wurden, sowie der spektralen Intensität Mt der Subjektfrequenzen Ft.
  • Der Abschnitt (a) von 3 ist eine Kurvendarstellung, die eine Wellenform einer Konvertierstimme zeigt. Die Konvertierstimme ist eine Stimme, die von einer bestimmten Person über einen vorbestimmten Zeitraum hervorgebracht wurde, während im Wesentlichen eine konstante Tonhöhe beibehalten wurde. Im Abschnitt (b) von 3 ist ein Frequenzspektrum SPt eines der Frames der Konvertierstimme veranschaulicht. Das Frequenzspektrum SPt der Konvertierstimme ist ein Spektrum, das allgemein in derselben Weise, wie oben für die Eingabestimme dargelegt, durch Aufteilen der Konvertierstimme in eine Vielzahl von Frames und Durchführen einer Frequenzanalyse (FFT bei der vorliegenden Ausführungsform) an jedem der Frames identifiziert wird. Bei der vorliegenden Ausführungsform wird angenommen, dass die Konvertierstimme ein hervorgebrachter Klang ist, bei dem eine unregelmäßige Schwingung der Stimmbänder auftritt (d.h. eine heisere Stimme). Im Frequenzspektrum SPt der Konvertierstimme erscheinen, wie im Abschnitt (b) von 3 zu sehen, zusätzlich zu lokalen Peaks P, die einem Grundton und harmonischen Tönen entsprechen, auch Peaks p, die der unregelmäßigen Schwingung des Stimmbands entsprechen, in Frequenzbändern zwischen den lokalen Peaks P. Wie oben für die Eingabestimme dargelegt, wird das Frequenzspektrum SPt der Konvertierstimme in eine Vielzahl spektraler Verteilungsregionen Rt (Rt1, Rt2, Rt3, ...) aufgeteilt.
  • In der Speichereinheit 51 werden, wie im Abschnitt (c) von 3 zu sehen, Konvertierspektrumsdaten DSPt gespeichert, die jeweils das Frequenzspektrum SPt eines der Frames, die in Abschnitt (b) von 3 gezeigt sind, angeben; das Frequenzspektrum SPt des Frames wird in eine Vielzahl spektraler Verteilungsregionen Rt aufgeteilt. Nachfolgend wird eine Menge Konvertierspektrumsdaten DSPt, die von einer Konvertierstimme ausgehend erzeugt werden, als "Schablone" bezeichnet. Wie im Abschnitt (d) von 3 zu sehen, weist die Schablone für jeden einer vorbestimmten Anzahl von Frames, in welche die Konvertierstimme aufgeteilt wurde, Konvertierspektrumsdaten DSPt auf, die den spektralen Verteilungsregionen Rt im Frequenzspektrum SP des Frames entsprechen.
  • Bei der vorliegenden Ausführungsform sind in der Speichereinheit 51 eine Vielzahl von Schablonen vorgespeichert, die auf der Grundlage einer Vielzahl von Konvertierstimmen erzeugt wurden, die sich voneinander in der Tonhöhe unterscheiden. Zum Beispiel ist "Schablone 1", die in 1 gezeigt ist, eine Schablone, die Konvertierspektrumsdaten DSPt enthält, die aus einer Konvertierstimme erzeugt wurden, die von einem Menschen mit einer Tonhöhe Pt1 hervorgebracht wurde, und ist "Schablone 2" eine Schablone, die Konvertierspektrumsdaten DSPt enthält, die von einer Konvertierstimme erzeugt wurden, die von einem Menschen mit einer anderen Tonhöhe Pt2 hervorgebracht wurde. In der Speichereinheit 51 sind auch in Entsprechung zu den Schablonen die Tonhöhen Pt (Pt1, Pt2, ...) der Konvertierstimmen im Voraus gespeichert, auf denen die Erzeugung der Schablonen basierte.
  • Eine Tonhöhen/Verstärkungs-Erfassungseinheit 31, die in 1 gezeigt ist, ist ein Mittel zum Erfassen einer Tonhöhe Pin und einer Verstärkung (Klanglautstärke) Ain der Eingabestimme auf der Grundlage der Eingabespektrumsdaten DSPin und Eingabehüllkurvendaten DEVin. Die Tonhöhen/Verstärkungs-Erfassungseinheit 31 kann die Tonhöhe Pin und die Verstärkung Ain mit einem beliebigen aus verschiedenen bekannten Verfahren erfassen bzw. extrahieren. Die Tonhöhen/Verstärkungs-Erfassungseinheit 31 kann die Tonhöhe Pin und die Verstärkung Ain auf der Grundlage des Eingabestimmsignals Sin erfassen, das vom Stimmeingabeabschnitt 10 ausgegeben wird. Die Tonhöhen/Verstärkungs-Erfassungseinheit 31 informiert eine Schablonenbeschaffungseinheit 33 über die erfasste Tonhöhe Pin und informiert auch eine Parametereinstelleinheit 35 über die erfasste Verstärkung Ain. Die Schablonenbeschaffungseinheit 33 ist ein Mittel zum Beschaffen einer beliebigen der Vielzahl von Schablonen, die in der Speichereinheit 51 gespeichert sind, auf der Grundlage der Tonhöhe Pin, über die die Tonhöhen/Verstärkungserfassungseinheit 31 informiert. Insbesondere wählt die Schablonenbeschaffungseinheit 33 aus den gespeicherten Schablonen eine bestimmte Schablone aus und liest sie aus, die einer Tonhöhe Pt entspricht, welche der Tonhöhe Pin der Eingabestimme angenähert ist (oder mit ihr übereinstimmt). Die auf diese Weise ausgelesene Schablone wird an eine Spektrumskonvertiereinheit 411 geliefert.
  • Die Spektrumskonvertiereinheit 411 ist ein Mittel zum Festlegen eines Frequenzspektrums SPnew' auf der Grundlage der Eingabespektrumsdaten, die von der Regionsunterteilungseinheit 25 geliefert wurden, und Konvertierspektrumsdaten DSPt der Schablone, die von der Schablonenbeschaffungseinheit 33 geliefert wurden. Bei der vorliegenden Ausführungsform werden die spektrale Intensität Min des Frequenzspektrums SPin, das durch die Eingabespektrumsdaten DSPin angegeben wird, und die spektrale Intensität Mt des Frequenzspektrums SPt, das durch die Konvertierspektrumsdaten DSPt angegeben wird, in einem bestimmten Verhältnis zusammenaddiert, um dadurch das Frequenzspektrum SPnew' festzulegen, wie unten anhand von 4 im Detail angegeben.
  • Wie oben dargelegt, wird das aus den jeweiligen Frames der Eingabestimme identifizierte Frequenzspektrum SPin in eine Vielzahl spektraler Verteilungsregionen Rin aufgeteilt (siehe Abschnitt (c) von 4) und wird das aus den jeweiligen Frames der Konvertierstimme identifizierte Frequenzspektrum SPt in eine Vielzahl spektraler Verteilungsregionen Rt aufgeteilt (siehe Abschnitt (a) von 4). Zuerst ordnet die Spektrumskonvertiereinheit 411 die spektralen Verteilungsregionen Rin des Frequenzspektrums SPin und die spektralen Verteilungsregionen Rt des Frequenzspektrums SPt einander zu. Zum Beispiel werden diejenigen spektralen Verteilungsregionen Rin und Rt, deren Frequenzbänder einander nahe sind, einander zugeordnet. Alternativ dazu können die spektralen Verteilungsregionen Rin und Rt, die in einer vorbestimmten Reihenfolge angeordnet sind, einander zugeordnet werden, nachdem sie gemäß ihren entsprechenden Positionen in der vorbestimmten Reihenfolge ausgewählt wurden.
  • Zweitens bewegt oder repositioniert die Spektrumskonvertiereinheit 411, wie in den Abschnitten (a) und (b) von 4 gezeigt, die Frequenzspektren SPt der einzelnen spektralen Verteilungsregionen Rt auf der Frequenzachse, so dass sie den Frequenzspektren SPin der einzelnen spektralen Verteilungsregionen Rin entsprechen. Insbesondere ordnet die Spektrumskonvertiereinheit 411 die Frequenzspektren SPt der einzelnen spektralen Verteilungsregionen Rt auf der Frequenzachse in einer solchen Weise um, dass die Frequenzen der lokalen Peaks P, die zu den spektralen Verteilungsregionen Rt gehören, im Wesentlichen mit den Frequenzen Fp der lokalen Peaks P übereinstimmen, die zu den spektralen Verteilungsregionen Rin gehören (Abschnitt (c) von 4), die den spektralen Verteilungsregionen Rt zugeordnet sind.
  • Drittens addiert die Spektrumskonvertiereinheit 411 in einem vorbestimmten Verhältnis die spektrale Intensität Min in der Subjektfrequenz Fin des Frequenzspektrums SPin und die spektrale Intensität Mt in der Subjektfrequenz Ft des Frequenzspektrums SPt (Abschnitt (b) von 4), die der Subjektfrequenz Fin entspricht (z.B. mit ihr übereinstimmt oder ihr nahekommt). Dann setzt die Spektrumskonvertiereinheit 411 die resultierende Summe der Intensität als die spektrale Intensität Mnew' in der Subjektfrequenz des Frequenzspektrums SPnew. Insbesondere spezifiziert die Spektrumskonvertiereinheit 411 das Frequenzspektrum SPnew' pro Subjektfrequenz Fin durch Addieren 1) eines numerischen Werts (α·Mt), der durch Multiplizieren der spektralen Intensität Mt des Frequenzspektrums SPt, angegeben in Abschnitt (b) von 4, mit einem Gewichtungswert a (0 ≤ α ≤ 1) erhalten wird, und 2) eines numerischen Werts ((1 – α)·Min), der durch Multiplizieren der spektralen Intensität Min des Frequenzspektrums SPin mit einem Gewichtungswert (1 – α) erhalten wird, und setzt dadurch die resultierende Summe als die spektrale Intensität Mnew' (= α·Mt + (1 – α)·Min) für die Subjektfrequenz Fin. Dann erzeugt die Spektrumskonvertiereinheit 411 neue Spektrumsdaten DSPnew', welche das Frequenzspektrum SPnew' angeben. Es wird darauf hingewiesen, dass es, wenn die Bandbreite der spektralen Verteilungsregion Rt der Konvertierstimme schmaler als die Bandbreite der spektralen Verteilungsregion Rin der Eingabestimme ist, ein Frequenzband T geben wird, in dem das Frequenzspektrum SPt, das der Subjektfrequenz Fin des Frequenzspektrums SPin entspricht, nicht existiert. Für ein solches Frequenzband T wird ein Minimalwert der Intensität Min des Frequenzspektrums SPin als die Intensität Mnew' des Frequenzspektrums SPnew' verwendet; alternativ dazu kann die Intensität Mnew' des Frequenzspektrums SPnew' in diesem Frequenzband auf null gesetzt werden. Durch die oben angegebenen Operationen, die für jeden der Frames durchgeführt werden, wird das Frequenzspektrum SPnew' für jeden der Frames spezifiziert.
  • Weil die Anzahl der Frames der Eingabestimme von einer Zeitlänge einer Stimmartikulation durch den Benutzer abhängt, während die Anzahl der Frames der Konvertierstimme vorbestimmt ist, stimmen die Anzahl der Frames der Eingabestimme und die Anzahl der Frames der Konvertierstimme oft nicht miteinander überein. Wenn die Anzahl der Frames der Konvertierstimme größer als die Anzahl der Frames der Eingabestimme ist, so genügt es, beliebige der Konvertierspektrumsdaten DSP, die in einer Schablone enthalten sind, die einem oder mehreren zusätzlichen (d.h. zu viel vorhandenen) Frames entsprechen, zu verwerfen. Wenn andererseits die Anzahl der Frames der Konvertierstimme kleiner als die Anzahl der Frames der Eingabestimme ist, können die Konvertierspektrumsdaten DSP in einer geschleiften (d.h. zirkulären) Weise verwendet werden; zum Beispiel können nach der Verwendung der Konvertierspektrumsdaten DSPt, die dem letzten Frame in einer Schablone entsprechen, die Konvertierspektrumsdaten DSPt, die dem ersten (oder führenden) Frame entsprechen, die in der Schablone enthalten sind, erneut verwendet werden.
  • Wie oben beschrieben, verwendet die vorliegende Ausführungsform eine heisere Stimme als die Konvertierstimme, so dass die vom Frequenzspektrum SPnew' repräsentierte Stimme eine heisere Stimme ist, in der die heiseren Charakteristiken der Konvertierstimme widergespiegelt sind. Allgemein besteht eine Tendenz, dass die Rauheit (d.h. der Grad der Unregelmäßigkeit der Schwingungen der Stimmbänder), die für eine derartige heisere Stimme spezifisch ist, hörbarer wird (die Stimme klingt rauer), wenn die Lautstärke der Stimme zunimmt. Zum Reproduzieren einer solchen Tendenz wird bei der vorliegenden Ausführungsform der Gewichtungswert α gemäß der Verstärkung Ain der Eingabestimme gesteuert.
  • 5 ist eine Kurvendarstellung, in der eine Beziehung zwischen der Verstärkung Ain der Eingabestimme und dem Gewichtungswert α aufgezeigt wird. Wie gezeigt, wird, wenn die Verstärkung Ain klein ist, der Gewichtungswert α auf einen relativ kleinen Wert gesetzt (während der Gewichtungswert (1 – α) auf einen relativ großen Wert gesetzt wird). Wie oben dargelegt, ist die Intensität Mnew' des Frequenzspektrums SPnew' die Summe des Produktes zwischen der spektralen Intensität Mt des Frequenzspektrums SPt und dem Gewichtungswert α und dem Produkt zwischen der spektralen Intensität Min des Frequenzspektrums SPin und dem Gewichtungswert (1 – α). Wenn daher der Gewichtungswert α klein ist, wird ein Einfluss des Frequenzspektrums SPt auf das Frequenzspektrum SPnew' relativ reduziert; daher nimmt in einem solchen Fall die hörbare Rauheit der durch das Frequenzspektrum SPnew' repräsentierten Stimme ab. Wie ebenfalls aus 5 hervorgeht, wird der Gewichtungswert α größer (und der Gewichtungswert (1 – α) kleiner), wenn die Verstärkung Ain größer wird. Wenn der Gewichtungswert α groß ist, wird der Einfluss des Frequenzspektrums SPt auf das Frequenzspektrum SPnew' relativ vergrößert, so dass die hörbare Rauheit der Stimme, die vom Frequenzspektrum SPnew' repräsentiert wird, größer wird. Die Parametereinstelleinheit 35, die in 1 gezeigt ist, ist ein Mittel zum Einstellen des Gewichtungswerts α für die Verstärkung Ain, die von der Tonhöhen/Verstärkungs-Erfassungseinheit 31 erfasst wird, um den in 5 gezeigten Charakteristiken zu folgen, sowie zum Festlegen der Gewichtungswerte α und (1 – α) für die Spektrumskonvertiereinheit 411.
  • Ferner kann bei der vorliegenden Ausführungsform die Beziehung zwischen der Verstärkung Ain der Eingabestimme und dem Gewichtungswert α wie vom Benutzer gewünscht eingestellt werden. Eine in 1 dargestellte Parameterzuweisungseinheit 36 weist Operatoren (Bedienelemente) auf, die vom Benutzer bedient werden können. Die Parameterzuweisungseinheit 36 informiert die Parametereinstelleinheit 35 über Parameter u1, u2 und u3, die im Ansprechen auf eine Betätigung der Bedienelemente durch den Benutzer eingegeben werden. Wie in 5 zu sehen, repräsentiert der Parameter u1 einen Wert des Gewichtungswerts α, wenn die Verstärkung Ain der Eingabestimme einen Minimalwert hat, repräsentiert der Parameter u2 einen Maximalwert des Gewichtungswerts α und repräsentiert der Parameter u3 einen Wert der Verstärkung Ain, wenn der Gewichtungswert α den Maximalwert u2 erreicht. Daher ist es, wenn der Benutzer den Wert des Parameters u2 erhöht hat, möglich, die Rauheit der Ausgabestimme relativ zu erhöhen, wenn die Eingabestimme ein großes Klangvolumen hat (d.h. wenn die Verstärkung Ain der Eingabestimme größer als der Wert des Parameters u3 ist). Wenn der Benutzer die Verstärkung Ain erhöht hat, ist es möglich, den Bereich der Eingabestimmenverstärkung Ain zu vergrößern, innerhalb der die Rauheit der Eingabestimme variiert werden kann.
  • Die neuen Spektrumsdaten DSPnew der jeweiligen spektralen Verteilungsregionen, die pro Rahmen der Eingabestimme in der oben beschriebenen Art und Weise erzeugt wurden, werden an eine Hüllkurveneinstelleinheit 412 geliefert. Die Hüllkurveneinstelleinheit 412 ist ein Mittel zum Festlegen eines Frequenzspektrums SPnew durch Einstellen der spektralen Hüllkurve der Spektrumsdaten SPnew' zum Annehmen einer Form, die der spektralen Hüllkurve EVin der Eingabestimme entspricht. In Abschnitt (d) von 4 ist die spektrale Hüllkurve EVin der Eingabestimme durch eine gestrichelte Linie zusammen mit dem Frequenzspektrum SPnew' angegeben. Wie gezeigt, entspricht das Frequenzspektrum SPnew' nicht notwendigerweise in der Form der spektralen Hüllkurve EVin. Daher hat, wenn die dem Frequenzspektrum SPnew' entsprechende Stimme direkt als die Ausgabestimme hörbar wiedergegeben wird, die Ausgabestimme eine andere Tonhöhe und Klangfarbe gegenüber der Eingabestimme und ruft daher tendenziell beim Benutzer ein komisches Gefühl hervor. Deshalb ist die vorliegende Ausführungsform so konstruiert, dass die Tonhöhe und die Klangfarbe der Ausgabestimme so gesteuert wird, dass sie mit denjenigen der Eingabestimme übereinstimmt, indem die Hüllkurveneinstelleinheit 412 die spektrale Hüllkurve des Frequenzspektrums SPnew' einstellt.
  • Insbesondere stellt die Hüllkurveneinstelleinheit 412 die spektrale Intensität des Frequenzspektrums SPnew' so ein, dass die spektrale Intensität Mnew' am lokalen Peak P des Frequenzspektrums SPnew' auf die spektrale Hüllkurve EVin fällt. Die Hüllkurveneinstelleinheit 412 berechnet nämlich zuerst ein Intensitätsverhältnis β zwischen der spektralen Intensität Mnew' an einem lokalen Peak P in den jeweiligen spektralen Verteilungsregionen und der spektralen Intensität MEV der spektralen Hüllkurve EVin in der Frequenz Fp des lokalen Peaks P (d.h. Intensitätsverhältnis β = MEV/Mnew'). Dann multipliziert die Hüllkurveneinstelleinheit 412 jeweils die spektrale Intensität Mnew', die durch die neuen Spektrumsdaten DSPnew' der spektralen Verteilungsregion angegeben werden, mit dem Intensitätsverhältnis β und setzt das resultierende Produkt als die Intensität des Frequenzspektrums SPnew. Wie aus Abschnitt (e) von 4 hervorgeht, stimmt die auf diese Weise spezifizierte spektrale Hüllkurve des Frequenzspektrums SPnew dann mit der spektralen Hüllkurve EVin der Eingabestimme überein.
  • Ferner erzeugt eine Revers-FFT-Einheit 15, die in 1 gezeigt ist, ein Ausgabestimmsignal Snew' eines Zeitbereichs durch Durchführen einer reversen FFT-Operation an den neuen Spektrumsdaten DSPnew, die von der Datenerzeugungseinheit 3a pro Frame durchgeführt wird. Die Ausgabeverarbeitungseinheit 16 multipliziert das auf diese Weise erzeugte framespezifische Ausgabestimmsignal Snew' mit einer Zeitfensterfunktion und erzeugt dann ein Ausgabestimmsignal Snew durch Verbinden der resultierenden Produkte der einzelnen Frames in einer solchen Weise, dass sie einander auf der Zeitachse überlagern. Die Revers-FFT-Einheit 5 und die Ausgabeverarbeitungseinheit 16 fungieren nämlich als ein Mittel zum Erzeugen des Ausgabestimmsignals Snew aus den neuen Spektrumsdaten DSPnew. Die Stimmausgabeeinheit 17 enthält einen D/A-Wandler zum Umwandeln des Ausgabestimmsignals Snew, das von der Ausgabeverarbeitungseinheit 16 geliefert wird, in ein analoges elektrisches Signal, sowie eine Klangvorrichtung (z.B. Lautsprecher oder Kopfhörer) zum hörbaren Wiedergeben einer Stimme auf der Grundlage des Ausgangssignals vom D/A-Wandler. Die von der Stimmausgabeeinheit 17 erzeugte Ausgabestimme hat Charakteristiken der heiseren Konvertierstimme, die in ihr widergespiegelt sind, während die Tonhöhen und die Klangfarbe der Eingabestimme erhalten bleibt.
  • Wie oben dargelegt, kann die vorliegende Ausführungsform eine Ausgabestimme liefern, die sich extrem natürlich anhört, weil sie das Frequenzspektrum SPnew' der Ausgabestimme auf der Grundlage des Frequenzspektrums SPt der Konvertierstimme und der spektralen Hüllkurve EVin der Eingabestimme spezifizieren kann. Ferner kann sie, weil die vorliegende Ausführungsform angeordnet ist, eine aus einer Vielzahl von Schablonen zu spezifizieren, die aus Konvertierstimmen unterschiedlicher Tonhöhen geschaffen wurden, gemäß der Tonhöhe Pin der Eingabestimme eine natürlichere Ausgabestimme erzeugen als das herkömmliche Verfahren zum Erzeugen einer Ausgabestimme auf der Grundlage des Konvertierens von Spektrumsdaten DSPt, die aus einer Konvertierstimme einer einzelnen Tonhöhe erzeugt wurden.
  • Ferner kann die vorliegende Ausführungsform, wo der Gewichtungswert α, der mit der spektralen Intensität Mt des Frequenzspektrums SPt zu multiplizieren ist, gemäß der Verstärkung Ain der Eingabestimme gesteuert wird, eine natürliche Ausgabestimme erzeugen, die einer tatsächlich heiseren Stimme näherkommt, als das herkömmliche Verfahren, bei dem der Gewichtungswert α fest ist. Außerdem kann die Ausführungsform, weil das Verhältnis zwischen der Verstärkung Ain der Eingabestimme und dem Gewichtswert α bei der vorliegenden Ausführungsform im Ansprechen auf die Betätigung durch den Benutzer eingestellt wird, eine Vielzahl von Ausgabestimmen je nach dem Geschmack des Benutzers erzeugen.
  • B. Zweite Ausführungsform:
  • Es folgt eine Beschreibung einer Stimmverarbeitungsvorrichtung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung anhand von 6. Es wird darauf hingewiesen, dass die Elemente der zweiten Ausführungsform der Stimmverarbeitungsvorrichtung D2, die denjenigen in der ersten Ausführungsform der Stimmverarbeitungsvorrichtung D1 ähnlich sind, mit denselben Bezugszeichen wie bei der ersten Ausführungsform bezeichnet sind und dass eine Beschreibung dieser Elemente gegebenenfalls weggelassen wird, um eine unnötige Doppelung zu vermeiden.
  • Während die erste Ausführungsform oben so beschrieben wurde, dass sie das Frequenzspektrum SPin einer Eingabestimme in mehrere spektrale Verteilungsregionen Rin aufteilt und auch das Frequenzspektrum SPt einer Konvertierstimme in eine Vielzahl spektraler Verteilungsregionen Rt aufteilt, bevor die Frequenzspektren von der Datenerzeugungseinheit 3b verarbeitet werden, führt die zweite Ausführungsform derartige Aufteilungsoperationen nicht durch. Deshalb weist die Spektrumsverarbeitungseinheit 2b in der zweiten Ausführungsform keine Regionenaufteilungseinheit 25 auf. Nachdem nämlich Eingabespektrumsdaten DSPin, die ein Frequenzspektrum SPin eines jeden Rahmens angeben, für ein Eingabestimmsignal Sin, das in Abschnitt (a) von 7 angegeben ist, von der Frequenzanalyseeinheit 12 geliefert wurden, werden die Eingabespektrumsdaten DSPin unverändert, d.h. ohne dass sie in die spektralen Verteilungsregionen Rin aufgeteilt wurden, an die Datenerzeugungseinheit 3b ausgegeben, wie aus Abschnitt (b) von 7 hervorgeht. Eine Hüllkurvenidentifikationseinheit 23 der Spektrumsverarbeitungseinheit 2b identifiziert Eingabehüllkurvendaten DEVin des Frequenzspektrums SPin und gibt sie wie bei der ersten Ausführungsform an die Datenerzeugungseinheit 3b aus (siehe Abschnitt (b) von 7).
  • Die zweite Ausführungsform geht davon aus, dass die verwendete Konvertierstimme eine stimmlose Stimme (d.h. eine Flüsterstimme) ist, bei der keine Schwingung der Stimmbänder des Menschen erfolgt. Selbst bei der stimmlosen Stimme können Unterschiede in der Tonhöhe und der Klangqualität hörbar festgestellt werden. Deshalb werden, wie bei der ersten Ausführungsform, eine Vielzahl von Schablonen, die von Konvertierstimmen unterschiedlicher Tonhöhen erzeugt wurden, in einer Speichereinheit 52 auch in der zweiten Ausführungsform vorgespeichert. Der Abschnitt (c) von 7 zeigt eine Wellenform einer Konvertierstimme (stimmlosen Stimme), die mit dem Gefühl einer einzelnen Tonhöhe erzeugt wurde. Wie bei der ersten Ausführungsform wird die Konvertierstimme zuerst in eine Vielzahl von Frames aufgeteilt und dann ein Frequenzspektrum SPt für jeden der Frames identifiziert, wie aus Abschnitt (d) von 7 hervorgeht. Weil das Frequenzspektrum SPt der Konvertierstimme, wie gezeigt, keine charakteristischen Frequenzbänder aufweist, die einen Grundton und harmonische Töne repräsentieren, erscheint, wie in 3 gezeigt, im Frequenzspektrum SPt kein lokaler Peak. Wie in Abschnitt (d) von 7 gezeigt, weist jede der in der Speichereinheit 52 abgelegten Schablonen für jeden der Frames, in welche die Konvertierstimme aufgeteilt wurde, die mit einem Gefühl einer bestimmten Tonhöhe erzeugt wurde, Konvertierspektrumsdaten DSPt (die in diesem Fall nicht in die spektrale Verteilungshüllkurve EVt aufgeteilt sind), welche das Frequenzspektrum SPt angeben, sowie Konvertierhüllkurvendaten DEVt auf, die eine spektrale Hüllkurve EVt des Frequenzspektrums SPt angeben.
  • Wie bei der ersten Ausführungsform wählt die Schablonenbeschaffungseinheit 33, die in 6 gezeigt ist, auf der Grundlage einer Tonhöhe Pin, die von der Tonhöhen/Verstärkungs-Erfassungseinheit 31 mitgeteilt wurde, eine aus einer Vielzahl von Schablonen aus und liest sie aus. Dann gibt die Schablonenbeschaffungseinheit 33 die Konvertierspektrumsdaten DSPt aller Frames, die in der ausgelesenen Schablone enthalten sind, an eine Additionseinheit 424 und die Konvertierhüllkurvendaten DEVt aller Frames an eine Mittlere-Hüllkurven-Beschaffungseinheit 421 aus.
  • Die Mittlere-Hüllkurven-Beschaffungseinheit 421 ist ein Mittel zum Festlegen einer spektralen Hüllkurve (d.h. "mittleren Hüllkurve") EVave, die durch Mitteln der spetralen Hüllkurven EVt erhalten wird, die von den Konvertierhüllkurvendaten DEVt aller Rahmen angegeben werden, wie in Abschnitt (e) von 7 gezeigt. Insbesondere berechnet die Mittlere-Hüllkurven-Beschaffungseinheit 421 einen Mittelwert der spektralen Intensität bestimmter Frequenzen in den spektralen Hüllkurven EVt, die von den Konvertierhüllkurvendaten DEVt aller Rahmen angegeben werden, und spezifiziert eine mittlere Hüllkurve EVave, die den berechneten Mittelwert als ihre spektrale Intensität hat. Dann gibt die Mittlere-Hüllkurven-Beschaffungseinheit 421 die Mittlere-Hüllkurvendaten DEVave, welche die mittlere Hüllkurve EVave angeben, an eine Differenzberechnungseinheit 423 aus.
  • Eingabe-Spektral-Hüllkurvendaten EVin, die aus der Spektrumsverarbeitungseinheit 2b, die in 6 gezeigt ist, ausgegeben werden, werden an die Differenzberechnungseinheit 423 geliefert. Die Differenzberechnungseinheit 423 ist ein Mittel zum Berechnen einer Differenz der spektralen Intensität zwischen der mittleren Hüllkurve EVave, die durch die Mittlere-Hüllkurvendaten DEVave angegeben werden, und der spektralen Hüllkurve EVin, die durch die Eingabe-Spektral-Hüllkurvendaten DEVin angegeben wird. Die Differenzberechnungseinheit 423 berechnet nämlich eine Differenz ΔM zwischen der spektralen Intensität Mt in jeder Subjektfrequenz Ft der mittleren Hüllkurve EVave und der spektralen Intensität Min in jeder Subjektfrequenz Ft der spektralen Hüllkurve EVin und gibt Hüllkurvendifferenzdaten ΔEV an die Additionseinheit 424 aus. Die Hüllkurvendifferenzdaten ΔEV enthalten eine Vielzahl von Einheitsdaten, die jeweils einen Satz (Ft, ΔM) aus der Subjektfrequenz Ft und der Differenz ΔM enthalten.
  • Die Additionseinheit 424 ist ein Mittel zum Addieren des Frequenzspektrums SPt eines jeden der Frames, die durch die Konvertierspektrumsdaten DSPt angegeben wird, und der Differenz ΔM, die durch die Hüllkurvendifferenzdaten ΔEV angegeben wird, um dadurch ein Frequenzspektrum SPnew' zu berechnen. Die Additionseinheit 424 addiert nämlich die spektrale Intensität Mt in jeder Subjektfrequenz Ft des Frequenzspektrums SPt eines jeden der Frames und die Differenz ΔM in der Subjektfrequenz Ft der Hüllkurvendifferenzdaten ΔEV und spezifiziert dann ein Frequenzspektrum SPnew, das die berechnete Summe als die Intensität Mnew' hat. Auf diese Weise gibt die Additionseinheit 424 für jeden der Frames neue Spektrumsdaten DSPnew', die das Frequenzspektrum SPnew' angeben, an eine Mischeinheit 425 aus. Das Frequenzspektrum SPnew, das in der oben beschriebenen Art und Weise spezifiziert wird, hat eine Form, in der das Frequenzspektrum SPt der Konvertierstimme widergespiegelt ist, wie in Abschnitt (f) von 7 veranschaulicht, so dass eine durch das Frequenzspektrum SPnew' repräsentierte Stimme eine stimmlose Stimme ist, die der Konvertierstimme ähnlich ist. Weil ferner eine durch das Frequenzspektrum SPnew' repräsentierte spektrale Hüllkurve allgemein mit der spektralen Hüllkurve EVin der Eingabestimme übereinstimmt, ist die durch das Frequenzspektrum SPnew' repräsentierte Stimme eine stimmlose Stimme, in der die phonologischen Charakteristiken der Eingabestimme widergespiegelt sind. Weil ferner die Additionseinheit 424 die Konvertierspektrumsdaten SPt und die Hüllkurvendifferenzdaten ΔEV für jeden der Frames addiert, reflektiert eine Stimme, die durch Verbinden von Einheitsstimmen, die durch die Frequenzspektren SPnew' der einzelnen Frames angegeben werden, erhalten wurde, in sich präzise eine Variation der Frequenzspektren SPt der einzelnen Frames der Konvertierstimme über die Zeit (insbesondere eine feine Variation der spektralen Intensität Mt in den einzelnen Subjektfrequenzen Ft).
  • Die Mischeinheit 425, die in 6 dargestellt ist, ist ein Mittel zum Mischen des Frequenzspektrums SPin der Eingabestimme und des Frequenzspektrums SPnew, das durch die Additionseinheit 424 spezifiziert wird, mit einem bestimmten Verhältnis, um dadurch ein Frequenzspektrum SPnew zu spezifizieren. Die Mischeinheit 425 multipliziert nämlich die spektrale Intensität Min in der Subjektfrequenz Fin des Frequenzspektrums SPin, das durch die Eingabespektrumsdaten DSPin repräsentiert wird, mit einem Gewichtungswert (1 – α) und multipliziert auch die spektrale Intensität Mnew in der Subjektfrequenz Ft, die der Subjektfrequenz Fin entspricht (ihr gleich ist oder ihr nahekommt), des Frequenzspektrums SPnew, das durch die neuen Spektrumsdaten DSPnew' repräsentiert wird, mit einem Gewichtungswert α. Auf diese Weise spezifiziert die Mischeinheit 425 das Frequenzspektrum SPnew, das eine Summe der resultierenden Produkte aufweist als spektrale Intensität Mnew (= (1 – α)·Min + α·Mnew'). Dann gibt die Mischeinheit 425 die neuen Spektrumsdaten DSPnew, welche das Frequenzspektrum SPnew angeben, an die Revers-FFT-Einheit 15 aus. Der Ausgabe der neuen Spektrumsdaten DSPnew folgende Operationen sind denjenigen in der ersten Ausführungsform ähnlich.
  • Wie bei der ersten Ausführungsform wird der in der Mischeinheit 425 zu verwendende Gewichtungswert α durch die Parametereinstelleinheit 35 gemäß der Verstärkung Ain der Eingabestimme und Parametern gewählt, die vom Benutzer über die Parameterzuweisungseinheit 36 eingegeben werden. Weil die Konvertierstimme in der zweiten Ausführungsform jedoch eine stimmlose Stimme ist, unterscheidet sich das Verhältnis zwischen der Verstärkung Ain der Eingabestimme und dem Gewichtungswert α von demjenigen in der ersten Ausführungsform. Allgemein besteht die Tendenz, dass der Grad der Hauchigkeit in einer Stimme hörbarer wird (nämlich die Stimme mehr wie eine Flüsterstimme klingt), je mehr die Lautstärke der Stimme abnimmt. Um eine derartige Tendenz zu reproduzieren, wird ein entsprechendes Verhältnis zwischen der Verstärkung Ain der Eingabestimme und dem Gewichtungswert α bei der vorliegenden Ausführungsform so eingestellt, dass der Gewichtungswert α größer wird, wenn die Verstärkung Ain der Eingabestimme kleiner wird, wie in 8 zu sehen ist. Die Parameter v1, v2 und v3, die in 8 gezeigt sind, werden im Ansprechen auf die Betätigung der Parameterzuweisungseinheit 36 durch den Benutzer eingestellt. Der Parameter v1 repräsentiert einen Wert des Gewichtungswerts α, wenn die Verstärkung Ain der Eingabestimme einen Minimalwert hat (d.h. einen Maximalwert des Gewichtungswerts α), der Parameter v2 repräsentiert einen Maximalwert der Verstärkung Ain, wenn der Gewichtungswert α den Maximalwert v1 annimmt, und der Parameter v2 repräsentiert einen Wert der Verstärkung Ain, wenn der Gewichtungswert α den Minimalwert (0) annimmt.
  • Wie oben dargelegt, kann die vorliegende Ausführungsform ähnlich wie die erste Ausführungsform eine Ausgabestimme liefern, die sich extrem natürlich anhört, weil sie das Frequenzspektrum SPnew' der Ausgabestimme auf der Grundlage des Frequenzspektrums SPt der Konvertierstimme und der spektralen Hüllkurve EVin der Eingabestimme spezifizieren kann. Weil ferner die vorliegende Ausführungsform zum Erzeugen des Frequenzspektrum SPnew der Ausgabestimme durch Zusammenmischen des Frequenzspektrums SPnew' des durch das Hauchen verursachten (stimmlosen) Klanges und des Frequenzspektrums SPin der Eingabestimme (typischerweise einer stimmhaften Stimme) in einem Verhältnis angeordnet ist, das der Verstärkung Ain der Eingabestimme entspricht, kann sie eine natürliche Ausgabestimme, die dem tatsächlichen Verhalten der Stimmbänder eines Menschen nahekommt, erzeugen.
  • C. Dritte Ausführungsform:
  • Als Nächstes folgt eine Beschreibung einer Stimmverarbeitungsvorrichtung gemäß einer dritten Ausführungsform der vorliegenden Erfindung anhand von 9. Die dritte Ausführungsform der Stimmverarbeitungsvorrichtung D3 ist im Wesentlichen als eine Kombination der ersten Ausführungsform der Stimmverarbeitungsvorrichtung D1 und der zweiten Ausführungsform D2 der Stimmverarbeitungsvorrichtung konstruiert. Es wird darauf hingewiesen, dass Elemente der dritten Ausführungsform der Stimmverarbeitungsvorrichtung D3, die denjenigen der ersten und der zweiten Ausführungsform ähnlich sind, mit denselben Bezugszeichen wie bei der ersten und der zweiten Ausführungsform bezeichnet sind und eine Beschreibung dieser Elemente weggelassen wird, um eine unnötige Doppelung zu vermeiden.
  • Wie in 9 dargestellt, ist die Stimmverarbeitungsvorrichtung D3 hauptsächlich dadurch gekennzeichnet, dass eine Spektrumsverarbeitungseinheit 2a und eine Datenerzeugungseinheit 3a, die denjenigen ähnlich sind, die in der ersten Ausführungsform gezeigt sind, an einer Stufe angeordnet sind, die der Stimmeingabeeinheit 10 und der Frequenzanalyseeinheit 12 folgt, und dass eine Spektrumsverarbeitungseinheit 2b und eine Datenerzeugungseinheit 3b, die denjenigen ähnlich sind, die in der zweiten Ausführungsform gezeigt sind, an einer Stufe angeordnet sind, die der Datenerzeugungseinheit 3a folgt. Neue Spektrumsdaten DSPnew, die aus der Datenerzeugungseinheit 3b ausgegeben werden, werden an die Revers-FFT-Einheit 15 ausgegeben. Die Parameterzuordnungseinheit 36 fungiert sowohl als ein Mittel zum Zuordnen der Parameter u1, u2 und u3 zur Datenerzeugungseinheit 3a als auch als ein Mittel zum Zuordnen der Parameter v1, v2 und v3 zur Datenerzeugungseinheit 3b.
  • In der auf diese Weise angeordneten dritten Ausführungsform geben die Spektrumsverarbeitungseinheit 2a und die Datenerzeugungseinheit 3a neue Spektrumsdaten DSPnew0 auf der Grundlage eingegebener Spektrumsdaten DSPin, die von der Frequenzanalyseeinheit 12 eingegeben werden, und einer Schablone einer Konvertierstimme, die in der Speichereinheit 51 gespeichert ist, allgemein in derselben Art und Weise, die oben im Zusammenhang mit der ersten Ausführungsform beschrieben wurde, aus. Ferner geben die Spektrumsverarbeitungseinheit 2b und die Datenerzeugungseinheit 3b neue Spektrumsdaten DSPnew auf der Grundlage der neuen Spektrumsdaten DSPnew0, die von der Datenerzeugungseinheit 3a geliefert wurden, und einer Schablone einer Konvertierstimme, die in der Speichereinheit 52 gespeichert ist, allgemein in derselben Weise, wie sie im Zusammenhang mit der zweiten Ausführungsform beschrieben wurde, aus. Die auf diese Weise angeordnete dritte Ausführungsform kann allgemein dieselben Vorteile wie die anderen Ausführungsformen erzielen.
  • Während die Speichereinheiten 51 und 52 in 9 als getrennte Komponenten gezeigt sind, können sie auch durch eine einzige Speichereinheit ersetzt werden, in der Schablonen ähnlich denjenigen, die in der ersten und der zweiten Ausführungsform verwendet werden, zusammen gespeichert sind. Ferner können die Spektrumsverarbeitungseinheit 2d und die Datenerzeugungseinheit 3b, die ähnlich denjenigen in der zweiten Ausführungsform sind, an einer Stufe vorgesehen werden, die der Spektrumsverarbeitungseinheit 2a und der Datenerzeugungseinheit 3a, die denjenigen der ersten Ausführungsform ähnlich sind, vorgeschaltet ist.
  • D. Modifikation:
  • Die oben beschriebenen Ausführungsformen können in verschiedenster Weise modifiziert werden, wie unten als Beispiel erläutert ist. Die unten erläuterten Modifikationen können gegebenenfalls auch in Kombination verwendet werden.
    • (1) Während die erste Ausführungsform oben so beschrieben wurde, dass bei ihr das Frequenzspektrum SPnew' durch Zusammenaddieren der spektralen Intensität Min des Frequenzspektrums SPin und der spektralen Intensität Mt des Frequenzspektrums SPt spezifiziert wurde, kann das Frequenzspektrum SPnew' auch in einer beliebigen anderen geeigneten Art und Weise spezifiziert werden. Zum Beispiel kann das Frequenzspektrum SPnew' auch durch Ersetzen des Frequenzspektrums SPin, das in Abschnitt (c) von 4 gezeigt ist, durch das Frequenzspektrum SPt, das in Abschnitt (b) von 4 gezeigt ist, erzeugt werden. Außerdem wurde oben bei der Beschreibung der ersten Ausführungsform zwar spezifiziert, dass das Frequenzspektrum SPnew durch Multiplizieren des Frequenzspektrums SPnew mit dem Intensitätsverhältnis β zwischen der spektralen Intensität Mnew' des Frequenzspektrums SPnew' und der spektralen Intensität MEV der spektralen Hüllkurve EVin der Eingabestimme erhalten wird, doch kann das Frequenzspektrum SPnew' auch in einer beliebigen anderen geeigneten Art und Weise spezifiziert werden. Zum Beispiel kann das Frequenzspektrum SPnew' auch durch Addieren eines bestimmten numerischen Wertes zur spektralen Intensität Mnew' des Frequenzspektrums SPnew', das in Abschnitt (d) von 4 gezeigt ist, pro spektraler Verteilungsregion Rin erzeugt werden (d.h. durch Verschieben des Frequenzspektrums SPnew' entlang der in Abschnitt (d) von 4 gezeigten senkrechten Achse). Der zu addierende numerische Wert ist hier zum Beispiel eine Differenz zwischen der spektralen Intensität MEV der spektralen Hüllkurve EVin und der spektralen Intensität Mnew' des Frequenzspektrums SPnew'. Bei der ersten Ausführungsform ist es nämlich lediglich notwendig, dass die Form des Frequenzspektrums SPt der Konvertierstimme im Frequenzspektrum SPnew' (und im Frequenzspektrum SPnew der Ausgabestimme) widergespiegelt ist, und das Frequenzspektrum SPnew' kann in jeder beliebigen gewünschten Weise spezifiziert werden.
    • (2) In der oben beschriebenen zweiten Ausführungsform ist das Frequenzspektrum SPnew' des gehauchten Klangs über breite Frequenzbänder verteilt. Wenn jedoch die Tendenz berücksichtigt wird, dass gehauchte Klänge eine höhere Frequenz als stimmhafte Klänge haben (Stimmen niederer Frequenz können nämlich kaum zu Flüsterstimmen werden), ist es wünschenswert, die Komponenten der besonders niedrigen Frequenzen aus dem Frequenzspektrum SPnew' zu entfernen, um eine natürlicher klingende Ausgabestimme zu erzeugen. Zu diesem Zweck kann an einer Stufe, die der Additionseinheit 424, die das Frequenzspektrum SPnew' spezifiziert, nachgeschaltet ist, ein Filter 427 vorgesehen werden, wie in 10 gezeigt. Das Filter 427 ist ein Hochpassfilter, das selektiv nur Komponenten von Frequenzen hindurchlässt, die höher als eine vorbestimmte Grenzfrequenz sind. Weil in einem derartigen Fall Komponenten, die niedriger als die Grenzfrequenz sind, aus dem Hauchklang entfernt werden können, ist es möglich, eine natürlichere Ausgabestimme zu erzeugen, die einer natürlichen Stimme näher kommt. Ferner können Anordnungen zum Anheben oder Absenken der Grenzfrequenz zum Beispiel im Ansprechen auf die Betätigung durch den Benutzer oder gemäß der Tonhöhe Pin und/oder der Verstärkung Ain, die von der Tonhöhe/Verstärkungs-Erfassungseinheit 31 erfasst werden, eingesetzt werden.
    • (3) Ferner wurde die zweite Ausführungsform so beschrieben, dass sie den Revers-FFT-Prozess an dem Frequenzspektrum SPnew, das für einen gehauchten Klang repräsentativ ist, und dem Frequenzspektrum SPin einer Eingabestimme ausführt, nachdem diese Frequenzspektren SPnew' und SPin gemischt wurden. Als Alternative kann die Mischeinheit 425, wie in 11 dargestellt, ein Signal (d.h. ein Zeitbereichssignal, das für einen gehauchten Klang repräsentativ ist), das durch Ausführen eines Revers-FFT-Prozesses durch eine Revers-FFT-Einheit 428a, die an einer Stufe angeordnet ist, die der Additionseinheit 424 nachgeschaltet ist, an dem Frequenzspektrum SPnew' erzeugt wird, mit einem Signal (d.h. einem Zeitbereichssignal, das für eine Eingabestimme repräsentativ ist) zusammen mischen, das erzeugt wird, indem das Frequenzspektrum SPin dem Revers-FFT-Prozess durch eine Revers-FFT-Einheit 428b unterzogen wird. Auch in diesem Fall können Anordnungen derart verwendet werden, dass das Mischverhältnis (der Gewichtungswert α) in der Mischeinheit 425 durch die Parametereinstelleinheit 35 in angemessener Weise eingestellt wird. Während die Modifikation oben so beschrieben wurde, dass der Mischeinheit 425 das Ausgangssignal aus der Revers-FFT-Einheit 428b geliefert wird, kann auch das Eingabestimmsignal Sin, das aus der Stimmeingabeeinheit 10 ausgegeben wird, direkt an die Mischeinheit 425 geliefert werden, um dort mit dem Ausgangssignal aus der Revers-FFT-Einheit 428a gemischt zu werden, wie das in 11 mit einer gestrichelten Linie angegeben ist.
    • (4) Ferner spezifiziert in der oben beschriebenen zweiten Ausführungsform die Mittlere-Hüllkurven-Beschaffungseinheit 421 die mittlere Hüllkurve EVave aus den Konvertierhüllkurvendaten DEVt einer Vielzahl von Frames. Alternativ dazu können Mittlere-Hüllkurvendaten DEVave, welche die mittlere Hüllkurve EVave angeben, in der Speichereinheit 52 vorgespeichert sein; in diesem Fall liest die Mittlere-Hüllkurven-Beschaffungseinheit 421 die Mittlere-Hüllkurvendaten DEVave aus der Speichereinheit 52 aus und liefert die ausgelesenen Hüllkurvendaten DEVave an die Differenzberechnungseinheit 423. Ferner wurde die Ausführungsform zwar so beschrieben, dass sie die mittlere Hüllkurve EVave aus den Konvertierhüllkurvendaten DEVt der einzelnen Frames spezifiziert, doch kann die mittlere Hüllkurve EVave auch durch eine Mittelung der Konvertierspektrumsdaten DSPt, welche die Frequenzspektren SPt der einzelnen Frames angeben, spezifiziert werden.
    • (5) Darüber hinaus wurden die Ausführungsformen zwar so beschrieben, dass sie eine heisere Stimme oder eine Flüsterstimme als die Konvertierstimme verwenden, doch kann die Form (insbesondere die Wellenform) der Konvertierstimme auch nach Wunsch gewählt werden. Zum Beispiel kann eine Stimme einer Sinuswellenform als die Konvertierstimme verwendet werden. In diesem Fall kann nach Eingabe einer heiseren Stimme oder einer Flüsterstimme als Eingabestimme die Modifikation eine klare Ausgabestimme erzeugen, aus der die Rauheit, die durch die unregelmäßige Schwingung der Stimmbänder verursacht wurde, oder eine Hauchigkeit, die durch Hauchen von einem Menschen, der die Stimme hervorgebracht hat, verursacht wurde, entfernt wurde.
  • Schließlich sollte erkannt werden, dass die vorliegenden Erfindung auf die Verarbeitung nicht nur von menschlichen Stimmen, sondern auch anderer Typen von Stimmen oder Klängen anwendbar ist.

Claims (11)

  1. Sprachverarbeitungsvorrichtung aufweisend: eine Frequenzanalyseeinheit (12), die ein Frequenzspektrum (SPin) einer Eingabestimme identifiziert, eine Hüllkurvendentifizierungseinheit (23), die Eingabehüllkurvendaten, die eine spektrale Hüllkurve (EVin) des von der Frequenzanalyseeinheit (12) identifizierten Frequenzspektrums (SPin) angeben, erzeugt, eine Beschaffungseinheit (33), die Konvertierspektrumdaten (DSPt) beschafft, welche das Frequenzspektrum (SPt) einer Konvertierstimme angeben, eine Datenerzeugungseinheit (3a), die auf Grundlage der von der Hüllkurvendentifizierungseinheit (23) erzeugten Eingabehüllkurvendaten und der von der Beschaffungseinheit (33) beschafften Konvertierspektrumdaten (DSPt) neue Spektrumdaten erzeugt, welche ein Frequenzspektrum (SPnew) angeben, das seiner Form nach dem Frequenzspektrum (SPt) der Konvertierstimme entspricht und eine im wesentlichen gleiche spektrale Hüllkurve besitzt wie die spektrale Hüllkurve (EVin) der Eingabestimme, und eine Signalerzeugungseinheit, die ein Stimmsignal auf Grundlage der neuen, von der Datenerzeugungseinheit (3a) erzeugten Spektrumdaten erzeugen, dadurch gekennzeichnet, dass die Beschaffungseinheit (33) für jede spektrale Verteilungsregion (Rt1, Rt2, Rt3), die jeweilige Intensitäts-Peaks (P) im Frequenzspektrum (SPt) der Konvertierstimme zeigende Frequenzen enthält, Konvertierspektrumdaten (DSPt) beschafft, die ein zu den spektralen Verteilungsregionen (Rt1, Rt2, Rt3) gehörendes Frequenzspektrum angeben, die Datenerzeugungseinheit (3a) folgendes aufweist: eine Spektrumkonvertiereinheit (411), die für jede spektrale Verteilungsregion (Rin1, Rin2, Rin3), die jeweilige Intensitäts-Peaks (P) im Frequenzspektrum (SPin) der Eingabestimme zeigende Frequenzen enthält, neue Spektrumdaten auf Grundlage der der spektralen Verteilungsregion (Rt1, Rt2, Rt3) entsprechenden Konvertierspektrumdaten (DSPt) erzeugt, und eine Hüllkurvenanpassungseinheit (412), die die Intensität eines von den neuen Spektrumdaten auf Grundlage der Eingabehüllkurvendaten angegebenen Frequenzspektrums (SPnew) anpasst, die Frequenzanalyseeinheit (12) für jede spektrale Verteilungsregion (Rin1, Rin2, Rin3), die jeweilige Intensitäts-Peaks (P) im Frequenzspektrum (SPin) der Eingabestimme zeigende Frequenzen enthält, Eingabespektrumdaten erzeugt, die ein zu der spektralen Verteilungsregion (Rin1, Rin2, Rin3) gehörendes Frequenzspektrum angeben, und die Spektrumkonvertiereinheit (411) für jede spektrale Verteilungsregion (Rin1, Rin2, Rin3) der Eingabestimme und in einem bestimmten Verhältnis, die von den Eingabespektrumdaten der spektralen Verteilungsregion (Rin1, Rin2, Rin3) angegebene Intensität (M) und die von den den spektralen Verteilungsregionen (Rt1, Rt2, Rt3) entsprechenden Konvertierspektrumdaten (DSPt) angegebene Intensität (M) zusammenaddiert, um hierdurch die neuen Spektrumdaten zu erzeugen, die ein Frequenzspektrum (SPnew) angeben, welches als Intensität (M) eine Intensitätssumme (M) besitzt.
  2. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, wobei die Spektrumkonvertiereinheit (411) die neuen Spektrumdaten erzeugt durch Ersetzen der Eingabespektrumdaten jeder der spektralen Verteilungsregionen (Rin1, Rin2, Rin3) durch die der spektralen Verteilungsregion (Rt1, Rt2, Rt3) entsprechenden Konvertierspektrumdaten (DSPt).
  3. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, welche ferner folgendes aufweist: eine Lautstärkenerfassungseinheit, die eine Klanglautstärke der Eingabestimme erfasst, und eine Parametereinstellungseinheit (35), die das bestimmte Verhältnis gemäß der von der Lautstärkenerfassungseinheit erfassten Lautstärke verändert.
  4. Sprachverarbeitungsvorrichtung gemäß Anspruch 1, welche ferner folgendes aufweist: eine Speichereinheit (52), die mehrere Konvertierspektrumdaten (DSPt) speichert, welche Frequenzspektren von in der Tonhöhe unterschiedlichen Konvertierstimmen angeben, und eine Tonhöhenerfassungseinheit (31), die eine Tonhöhe einer Eingabestimme erfasst, und wobei die Beschaffungseinheit (33) aus den mehreren in der Speichereinheit gespeicherten Konvertierspektrumdaten (DSPt) Konvertierspektrumdaten (DSPt) beschafft, welche der von der Tonhöhenerfassungseinheit (31) erfassten Tonhöhe entsprechen.
  5. Sprachverarbeitungsvorrichtung aufweisend: eine Frequenzanalyseeinheit (12), die ein Frequenzspektrum (SPin) einer Eingabestimme identifiziert, eine Hüllkurvendentifizierungseinheit (23), die Eingabehüllkurvendaten, die eine spektrale Hüllkurve (EVin) des von der Frequenzanalyseeinheit (12) identifizierten Frequenzspektrums (SPin) angeben, erzeugt, eine Beschaffungseinheit (33), die Konvertierspektrumdaten (DSPt) beschafft, welche das Frequenzspektrum (SPt) einer Konvertierstimme angeben, eine Datenerzeugungseinheit (3b), die auf Grundlage der von der Hüllkurvendentifizierungseinheit (23) erzeugten Eingabehüllkurvendaten und der von der Beschaffungseinheit beschafften Konvertierspektrumdaten (DSPt) neue Spektrumdaten erzeugt, welche ein Frequenzspektrum (SPnew) angeben, das seiner Form nach dem Frequenzspektrum (SPt) der Konvertierstimme entspricht und eine im wesentlichen gleiche spektrale Hüllkurve besitzt wie die spektrale Hüllkurve (EVin) der Eingabestimme, und eine Signalerzeugungseinheit, die ein Stimmsignal auf Grundlage der neuen, von der Datenerzeugungseinheit (3b) erzeugten Spektrumdaten erzeugen, dadurch gekennzeichnet, dass die Vorrichtung ferner aufweist: eine Speichereinheit (52) die Konvertierspektrumdaten (DSPt) für jeden von mehreren durch Teilen einer Konvertierstimme auf einer Zeitachse (t) erhaltenen Frames speichert, und eine Mittlere-Hüllkurve-Beschaffungseinheit (421), die Mittlere-Hüllkurve-Daten beschafft, welche eine durch Mitteln von Intensität der spektralen Hüllkurven (EVt) in den Frames der Konvertierstimme erhaltene mittlere Hüllkurve (EVave) angeben, und wobei die Datenerzeugungseinheit (3b) folgendes umfasst: eine Differenz-Berechnungseinheit (423), die eine Differenz zwischen der Intensität (M) der von den Eingabehüllkurvendaten angezeigten spektralen Hüllkurve (EVin) und der Intensität (M) der von den Mittlere-Hüllkurve-Daten angezeigten mittleren Hüllkurve (EVave) berechnet, und eine Additions-Einheit (424), die die Intensität des von den Konvertierspektrumdaten (DSPt) für jeden der Frames angezeigten Frequenzspektrums (SPt) und die von der Differenzberechnungseinheit (423) berechnete Differenz addiert, wobei die Datenerzeugungseinheit (3b) die neuen Spektrumdaten auf Grundlage eines von der Additions-Einheit (424) berechneten Wertes erzeugt.
  6. Sprachverarbeitungsvorrichtung gemäß Anspruch 5, welche ferner eine Filtereinheit aufweist, die selektiv eine Komponente einer Stimme hindurchlässt, welche von den neuen Spektrumdaten angegeben wird, die zu einem eine Abschneidefrequenz überschreitenden Frequenzband gehört.
  7. Sprachverarbeitungsvorrichtung gemäß Anspruch 6, welche ferner eine Lautstärkenerfassungseinheit aufweist, die eine Klanglautstärke der Eingabestimme erfasst, und wobei der Filter die Abschneidefrequenz gemäß der von der Lautstärkenerfassungseinheit erfassten Lautstärke verändert.
  8. Sprachverarbeitungsvorrichtung gemäß Anspruch 5, wobei die Datenerzeugungseinheit (3b) in einem bestimmten Verhältnis die Intensität (M) des Frequenzspektrums, das als seine Intensität einen von der Additionseinheit (424) berechneten Wert besitzt, und die Intensität (M) des von der Frequenzanalyseeinheit (12) erfassten Frequenzspektrums (SPin) zusammenaddiert, um hierdurch die neuen Spektrumdaten zu erzeugen, die ein Frequenzspektrum (SPnew) angeben, welches als Intensität (M) eine von der Datenerzeugungseinheit (3b) berechnete Intensitätssumme (M) besitzt.
  9. Sprachverarbeitungsvorrichtung gemäß Anspruch 8, welche ferner folgendes aufweist: eine Lautstärkenerfassungseinheit, die eine Klanglautstärke der Eingabestimme erfasst, und eine Parametereinstellungseinheit (35), die das bestimmte Verhältnis gemäß der von der Lautstärkenerfassungseinheit erfassten Lautstärke verändert.
  10. Programm, um einen Computer, wenn es darauf abläuft, dazu zu veranlassen, folgendes auszuführen einen Frequenzanalyseprozess zum identifizieren eines Frequenzspektrums (SPin) einer Eingabestimme, einen Hüllkurvendentifizierungsprozess zum Erzeugen von Eingabehüllkurvendaten, die eine spektrale Hüllkurve (EVin) des in de Frequenzanalyseprozess identifizierten Frequenzspektrums (SPin) angeben, einen Beschaffungsprozess zum Beschaffen von Konvertierspektrumdaten (DSPt), welche das Frequenzspektrum (SPt) einer Konvertierstimme angeben, einen Datenerzeugungsprozess zum Erzeugen neuer Spektrumdaten welche ein Frequenzspektrum (SPnew) angeben, das seiner Form nach dem Frequenzspektrum (SPt) der Konvertierstimme entspricht und eine im wesentlichen gleiche spektrale Hüllkurve besitzt wie die spektrale Hüllkurve (EVin) der Eingabestimme, auf Grundlage der von dem Hüllkurvendentifizierungsprozess erzeugten Eingabehüllkurvendaten und der von dem Beschaffungsprozess beschafften Konvertierspektrumdaten (DSPt), und einen Signalerzeugungsprozess zum Erzeugen eines Stimmsignals auf Grundlage der neuen, von dem Datenerzeugungsprozess erzeugten Spektrumdaten, dadurch gekennzeichnet, dass der Beschaffungsprozess für jede spektrale Verteilungsregion (Rt1, Rt2, Rt3), die jeweilige Intensitäts-Peaks (P) im Frequenzspektrum (SPt) der Konvertierstimme zeigende Frequenzen enthält, die Konvertierspektrumdaten (DSPt) beschafft, die ein zu den spektralen Verteilungsregionen (Rt1, Rt2, Rt3) gehörendes Frequenzspektrum angeben, der Datenerzeugungsprozess folgendes umfasst: einen Spektrumkonvertierprozess zum Erzeugen neuer Spektrumdaten für jede spektrale Verteilungsregion (Rin1, Rin2, Rin3), die jeweilige Intensitäts-Peaks (P) im Frequenzspektrum (SPin) der Eingabestimme zeigende Frequenzen enthält, auf Grundlage der der spektralen Verteilungsregion (Rt1, Rt2, Rt3) entsprechenden Konvertierspektrumdaten (DSPt), und einen Hüllkurvenanpassungsprozess zum Anpassen der Intensität (M) eines von den neuen Spektrumdaten auf Grundlage der Eingabehüllkurvendaten angegebenen Frequenzspektrums (SPnew), der Frequenzanalyseprozess für jede spektrale Verteilungsregion (Rin1, Rin2, Rin3), die jeweilige Intensitäts-Peaks (P) im Frequenzspektrum (SPin) der Eingabestimme zeigende Frequenzen enthält, Eingabespektrumdaten erzeugt, die ein zu der spektralen Verteilungsregion (Rin1, Rin2, Rin3) gehörendes Frequenzspektrum angeben, und der Spektrumkonvertierprozess für jede spektrale Verteilungsregion (Rin1, Rin2, Rin3) der Eingabestimme und in einem bestimmten Verhältnis, die von den Eingabespektrumdaten der spektralen Verteilungsregion (Rin1, Rin2, Rin3) angegebene Intensität (M) und die von den den spektralen Verteilungsregionen (Rt1, Rt2, Rt3) entsprechenden Konvertierspektrumdaten (DSPt) angegebene Intensität (M) zusammenaddiert, um hierdurch die neuen Spektrumdaten zu erzeugen, die ein Frequenzspektrum (SPnew) angeben, welches als Intensität (M) eine Intensitätssumme (M) besitzt.
  11. Programm, um einen Computer, wenn es darauf abläuft, dazu zu veranlassen, folgendes auszuführen einen Frequenzanalyseprozess zum identifizieren eines Frequenzspektrums (SPin) einer Eingabestimme, einen Hüllkurvendentifizierungsprozess zum Erzeugen von Eingabehüllkurvendaten, die eine spektrale Hüllkurve (EVin) des in de Frequenzanalyseprozess identifizierten Frequenzspektrums (Spin) angeben, einen Beschaffungsprozess zum Beschaffen von Konvertierspektrumdaten (DSPt), welche das Frequenzspektrum (SPt) einer Konvertierstimme angeben, einen Datenerzeugungsprozess zum Erzeugen neuer Spektrumdaten welche ein Frequenzspektrum (SPnew) angeben, das seiner Form nach dem Frequenzspektrum (SPt) der Konvertierstimme entspricht und eine im wesentlichen gleiche spektrale Hüllkurve besitzt wie die spektrale Hüllkurve (EVin) der Eingabestimme, auf Grundlage der von dem Hüllkurvendentifizierungsprozess erzeugten Eingabehüllkurvendaten und der von dem Beschaffungsprozess beschafften Konvertierspektrumdaten (DSPt), und einen Signalerzeugungsprozess zum Erzeugen eines Stimmsignals auf Grundlage der neuen, von dem Datenerzeugungsprozess erzeugten Spektrumdaten, dadurch gekennzeichnet, dass das Programm den Computer dazu veranlasst, ferner einen Mittlere-Hüllkurve-Beschaffungprozess zm Beschaffen von Mittlere-Hüllkurve-Daten, welche eine durch Mitteln von Intensität der spektralen Hüllkurven (EVt) mehrerer Frames einer Konvertierstimme erhaltene mittlere Hüllkurve (EVave) angeben, auszuführen, wobei die Frames durch Teilen der Konvertierstimme auf einer Zeitachse (t) erhalten werden, und wobei der Datenerzeugungsprozess folgendes umfasst: eine Differenz-Berechnungsoperation zum Berechnen einer Differenz zwischen der Intensität (M) der von den Eingabehüllkurvendaten angezeigten spektralen Hüllkurve (EVin) und der Intensität (M) der von den Mittlere-Hüllkurve-Daten angezeigten mittleren Hüllkurve (EVave) und eine Additionsoperation zum Zusammenaddieren der Intensität (M) des von den Konvertierspektrumdaten (DSPt) für jeden der Frames angezeigten Frequenzspektrums (SPt) und die von der Differenz-Berechnungsoperation berechnete Differenz, wobei der Datenerzeugungsprozess die neuen Spektrumdaten auf Grundlage eines Ergebnisses der Addition von dem Additionsprozess erzeugt.
DE602005002403T 2004-06-30 2005-06-23 Gerät und Programm zur Sprachverarbeitung Active DE602005002403T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004194800 2004-06-30
JP2004194800A JP4654621B2 (ja) 2004-06-30 2004-06-30 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
DE602005002403D1 DE602005002403D1 (de) 2007-10-25
DE602005002403T2 true DE602005002403T2 (de) 2008-06-12

Family

ID=34993090

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005002403T Active DE602005002403T2 (de) 2004-06-30 2005-06-23 Gerät und Programm zur Sprachverarbeitung

Country Status (4)

Country Link
US (1) US8073688B2 (de)
EP (1) EP1612770B1 (de)
JP (1) JP4654621B2 (de)
DE (1) DE602005002403T2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5211437B2 (ja) * 2006-05-19 2013-06-12 ヤマハ株式会社 音声処理装置およびプログラム
JP4445536B2 (ja) * 2007-09-21 2010-04-07 株式会社東芝 移動無線端末装置、音声変換方法およびプログラム
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
JP5176981B2 (ja) * 2009-01-22 2013-04-03 ヤマハ株式会社 音声合成装置、およびプログラム
JP2010191042A (ja) * 2009-02-17 2010-09-02 Yamaha Corp 音声処理装置およびプログラム
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US9576445B2 (en) * 2013-09-06 2017-02-21 Immersion Corp. Systems and methods for generating haptic effects associated with an envelope in audio signals
KR101541606B1 (ko) * 2013-11-21 2015-08-04 연세대학교 산학협력단 초음파 신호의 포락선 검출 방법 및 그 장치
JP5928489B2 (ja) * 2014-01-08 2016-06-01 ヤマハ株式会社 音声処理装置およびプログラム
US9607610B2 (en) * 2014-07-03 2017-03-28 Google Inc. Devices and methods for noise modulation in a universal vocoder synthesizer
JP6433063B2 (ja) * 2014-11-27 2018-12-05 日本放送協会 音声加工装置、及びプログラム
WO2024056899A1 (en) * 2022-09-16 2024-03-21 Spinelli Holding Sa System for improving the speech intelligibility of people with temporary or permanent speech difficulties

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54131921A (en) * 1978-04-03 1979-10-13 Keio Giken Kogyo Kk Electronic keyboard instrument
US5336902A (en) * 1992-10-05 1994-08-09 Hamamatsu Photonics K.K. Semiconductor photo-electron-emitting device
JP3240908B2 (ja) * 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
JP3468337B2 (ja) * 1997-01-07 2003-11-17 日本電信電話株式会社 補間音色合成方法
JPH10268895A (ja) * 1997-03-28 1998-10-09 Yamaha Corp 音声信号処理装置
JP3502268B2 (ja) 1998-06-16 2004-03-02 ヤマハ株式会社 音声信号処理装置及び音声信号処理方法
US6549884B1 (en) * 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP2003157100A (ja) * 2001-11-22 2003-05-30 Nippon Telegr & Teleph Corp <Ntt> 音声通信方法及び装置、並びに音声通信プログラム
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3918606B2 (ja) 2002-03-28 2007-05-23 ヤマハ株式会社 音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置

Also Published As

Publication number Publication date
US20060004569A1 (en) 2006-01-05
EP1612770A1 (de) 2006-01-04
US8073688B2 (en) 2011-12-06
JP4654621B2 (ja) 2011-03-23
EP1612770B1 (de) 2007-09-12
DE602005002403D1 (de) 2007-10-25
JP2006017946A (ja) 2006-01-19

Similar Documents

Publication Publication Date Title
DE602005002403T2 (de) Gerät und Programm zur Sprachverarbeitung
DE69811656T2 (de) Stimmentransformation nach einer zielstimme
DE69932786T2 (de) Tonhöhenerkennung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE3687815T2 (de) Verfahren und vorrichtung zur sprachanalyse.
DE69626115T2 (de) Signalqualitätsbewertung
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
EP2099024B1 (de) Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE69131095T2 (de) Verständlichkeitsverbesserungsanordnung für eine Beschallungsanlage
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE60313539T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE69425808T2 (de) Vorrichtung zur Kompression und Expansion der Bandbreite eines Sprachsignals, Verfahren zur Übertragung eines komprimierten Sprachsignals sowie Verfahren zu dessen Wiedergabe
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE69317802T2 (de) Verfahren und Vorrichtung für Tonverbesserung unter Verwendung von Hüllung von multibandpassfiltrierten Signalen in Kammfiltern
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition