DE60022343T2

DE60022343T2 - Durch sprache gesteuertes elektronisches musikinstrument

Info

Publication number: DE60022343T2
Application number: DE60022343T
Authority: DE
Inventors: John W. Jameson; Mark B. Ring
Original assignee: JOHNMACK SAN CARLOS LLC
Current assignee: Johnmack San Carlos Calif Us LLC
Priority date: 1999-05-20
Filing date: 2000-05-19
Publication date: 2006-06-22
Anticipated expiration: 2020-05-20
Also published as: EP1183677B1; EP1183677A1; JP2003500700A; ATE303645T1; WO2000072303A1; DE60022343D1; AU5143400A

Description

HINTERGRUND DER ERFINDUNG
TECHNISCHES GEBIET
Die Erfindung bezieht sich auf Musikinstrumente. Insbesondere bezieht sich die Erfindung auf ein sprachgesteuertes elektronisches Musikinstrument.
BESCHREIBUNG DES STANDES DER TECHNIK
Musikinstrumente sind traditionell schwierig zu spielen, erfordern also eine beträchtliche Investition in Form von Zeit und in manchen Fällen auch Geld, bis man die grundlegenden Fertigkeiten des Bedienens dieses Instruments gelernt hat. Zusätzlich zu häufigen und oft mühsamen Übungsstunden ist üblicherweise Musikunterricht erforderlich, in dem die mechanischen Fertigkeiten zum Erzielen des richtigen musikalischen Ausdrucks, der diesem Instrument zugeordnet ist, z. B. Tonhöhe, Lautheit und Timbre, gelehrt werden. Ferner wird üblicherweise eine musikalische Sprache gelehrt, so dass der Benutzer in der Lage ist, das Instrument zu bedienen, um zuvor niedergeschriebene Stücke zu spielen.
Die Entwicklung von Musikinstrumenten verlief bisher relativ langsam, wobei sich über die letzten Jahrhunderte nur wenige neue Musikinstrumentprodukte durchgesetzt haben. Die Einführung der elektronikbezogenen Technologie hatte und hat jedoch einen beträchtlichen Einfluss auf die Entwicklung von Musikinstrumentprodukten. Der Musik-Synthesizer beispielsweise ließ zusammen mit der Klaviertastaturschnittstelle/-steuerung die Anzahl und Vielfalt von Instrumentenklängen, die seitens einer Person erzeugt werden können, die ein einziges Instrument – das des Klaviers oder Keyboards – zu spielen gelernt hat, immens ansteigen. Jedoch blieb das Erfordernis, dass jemand, der einen Synthesizer bedienen wollte, auch zumindest einige der Grundlagen des musikalischen Ausdrucks lernt, der mit dem Spielen eines Klaviers verbunden ist, bestehen.
Somit war für diejenigen Menschen, die in der Lage sein wollten, sich musikalisch auszudrücken, jedoch nicht gelernt hatten, ein Instrument zu spielen, oder die in der Lage sein wollten, viele Instrumentenklänge hervorzubringen, ohne jedes Instrument spielen zu lernen, immer noch eine beträchtliche Investition an Zeit erforderlich, um die Fertigkeiten zu erlernen, ohne Gewähr, dass sie jemals ein Leistungsniveau erlangen würden, das für sie akzeptabel sein würde.
In den U.S.-Patentschriften Nrn. 3,484,530 und 3,634,596 sind Systeme zum Erzeugen musikalischer Ausgaben aus einem Speicher offenbart, der aufgezeichnete Musiktöne enthält, die durch Eingaben einzelner Töne durch ein Mikrophon stimuliert werden können. Die in diesen Patentschriften offenbarten Systeme sind, so liest man, in der Lage, Tonhöhe, Einsatz, das Halten von Tönen und das Abklingen von Tönen sowie den Lautstärkepegel zu erfassen, und sind in der Lage, diese erfassten Eingaben auf den aufgezeichneten Ton, der gerade abgespielt wird, anzuwenden. In der Tat sind die Systeme Musikton-zu-Musikton-Umwandler, die schnell genug umgewandelt werden können, so dass seitens des Zuhörers oder des Spielers kein Zeitabstand wahrgenommen werden kann. Um diese Fähigkeiten zu erzielen, wurden jedoch ziemlich umständliche und teure elektronische und mechanische Mittel vorgeschlagen, die sich nicht für tragbare oder in der Hand zu haltende Instrumente eignen, sondern in erster Linie für größere Systeme gedacht sind.
Bei den in den obigen Patentschriften offenbarten Systemen ist der Speicher in der Lage, diskrete Töne der chromati schen Tonleiter zu enthalten und auf diskrete Eingabetöne derselben Tonhöhe anzusprechen. Das System ist analog zu einem Klaviaturinstrument, bei dem der Spieler lediglich aus einzelnen Tönen auswählen kann und durch Drücken der jeweiligen Taste einen Ton betätigt. Andere Musikinstrumente geben einem Spieler eine Auswahl von Tonhöhen zwischen Ganz- und Halbtonsprüngen vor. Beispielsweise kann eine Violine eine Tonhöhe erzeugen, die je nachdem, ob die Saite mit Bünden versehen ist, variabel ist, oder eine Schiebe-Posaune kann eine Tonhöhe hervorbringen, die zwischen Ganz- und Halbtonsprünge fällt. Beide diese Instrumente erzeugen eine kontinuierliches Tonhöhe-Frequenzspektrum. Jedoch sind derartige Systeme des Stands der Technik nicht in der Lage, ansprechend auf eine kontinuierlich variierende Tonhöhe am Eingang eine kontinuierlich variierende Tonhöhe am Ausgang zu liefern, noch sind sie bisher in der Lage, eine Tonklangfarbe zu erzeugen, die auf realistische Weise kopiert, was ein echtes Instrument als Funktion der Tonhöhe über die Bandbreite des Instruments tut, noch liefern sie eine Tonqualität oder eine Tonklangfarbe, die auf realistische Weise kopiert, was ein echtes Instrument als Funktion des Stärkegrades am Eingang eines Instruments tut.
Es wurden bereits eine Vielzahl anderer Verfahren vorgeschlagen, die menschliche Stimme zur Steuerung eines Synthesizers zu verwenden, womit also der einzige Mechanismus musikalischen Ausdrucks, den die meisten Menschen haben, genutzt wird. Praktisch jeder, der sprechen kann, hat die Fähigkeit, Parameter, die einen musikalischen Ausdruck darstellen, z. B. Tonhöhe und Lautheit, zu verändern. Ein derartiges Verfahren ist bei R. Rupert, U.S.-Patentschrift Nr. 4,463,650 (7. August 1984) beschrieben. Bei der Vorrichtung von Rupert sind echte instrumentale Töne in einem Speicher enthalten, wobei das System auf die Stimuli einer von ihm als solches bezeichneten „Mundmusik" anspricht, um spielbare Musikinstrumente zu erzeugen, die in Echtzeit auf die Mundmusikstimuli ansprechen. Siehe auch K. Obata, Input apparatus of electronic device for extracting pitch from input waveform signal, U.S.-Patentschrift Nr. 4,924,746 (15. Mai 1990).
Ishikawa, Sakata, Obara, Voice Recognition Interval Scoring System, europäische Patentschrift Nr. 142,935 (29. Mai 1985), unter Anerkennung der Ungenauigkeiten der Singstimme, „betrachtet das Bereitstellen einer Korrektureinrichtung zum mühelosen Korrigieren von in Partitur gesetzten Intervalldaten, und um das Intervall in einem Korrekturmodus zu korrigieren, indem Cursor an zu korrigierenden Abschnitten verschoben werden". Im Rahmen eines ähnlichen Versuchs, mit stimmlichen Ungenauigkeiten umzugehen, verwendet eine von M. Tsunoo u. a., U.S.-Patentschrift Nr. 3,999,456 (28. Dezember 1976), beschriebene Vorrichtung ein Sprachschlüsselsystem für ein sprachgesteuertes Musikinstrument, das den ausgegebenen Ton auf eine Musiktonleiter beschränkt. Die Schwierigkeit bei der Verwendung entweder der Ishikawa- oder der Tsunoo-Vorrichtung für nützliche Zwecke besteht darin, dass die meisten ungeübten Musiker nicht wissen, welche Tonleitern für verschiedene Stücke und Anwendungen geeignet sind. Aufgrund der Frustration des Benutzers, nicht in der Lage zu sein, bestimmte Töne, die er spielen möchte, zu erreichen, kann die Vorrichtung sogar eine Verschlechterung gegenüber dem nicht-verbesserten sprachgesteuerten Musik-Synthesizer darstellen.
Auf einem verwandten Gebiet ist das Konzept von „Musik-Minus-Eins" die Verwendung eines vordefinierten, üblicherweise vorab aufgezeichneten musikalischen Hintergrunds, um kontextbezogene Musik zu liefern, um die herum ein Musiker/Benutzer singt oder ein Instrument spielt, üblicherweise die führende Stimme. Dieses Konzept ermöglicht es dem Benutzer, voller klingende Musik zu machen, indem er eine Hauptstimme spielt, die anderen Stimmen jedoch von anderen Musikern spielen lässt. Vorteile einer solchen Erfahrung umfassen einen höheren Unterhaltungswert, Übungswert und eine Möglichkeit kreativen Ausdrucks.
M. Hoff, Entertainment and creative expression device for easily playing along to background music, U.S.-Patentschrift Nr. 4,771,671 (20. September 1988), offenbart eine Verbesserung des Konzepts Musik-Minus-Eins, wobei dem Musikinstrument, das bei dem sprachgesteuerten Musik-Synthesizer die Hauptstimme spielt, ein gewisses Maß an Intelligenz verliehen wird, in diesem Fall, um keinen Ton zu erzeugen, der bezogen auf die Hintergrundmusik dissonant oder misstönend klingt. Ferner offenbart Hoff eine Variation des sprachgesteuerten Musik-Synthesizers durch Verwendung einer Korrektur. Statt das Intervall bzw. den Tonabstand willkürlich zu korrigieren, wie in den Patentschriften von Tsunoo und Ishikawa vorgeschlagen wurde, passt diese Vorrichtung die Ausgabe des Musik-Synthesizers an eine Ausgabe an, die für den durchschnittlichen Zuhörer bezogen auf die vordefinierte Hintergrundmusik unbedingt gut klingt. Jedoch führt Hoff eine Korrektur der Tonhöhe lediglich im Kontext vorprogrammierter Begleitungen durch, und zwar unter Verwendung des Tonleitertons, der durch die Begleitung, die der erfassten Tonhöhe am nächsten kommt, vorgeschlagen wird. Hoff sieht keine Korrektur der Tonhöhe in der Abwesenheit einer Begleitung vor, beispielsweise der Möglichkeit, dass der Benutzer die für die Korrektur der Tonhöhe zu verwendende Tonleiter auswählt, oder der Möglichkeit, die derzeit erfasste Tonhöhe der Tonika jener Tonleiter zuzuweisen.
Man kennt verschiedene Lösungsansätze in Bezug auf den Prozess der Tonhöheerfassung selbst. Siehe z. B. M. Russ, Sound Synthesis and Sampling, Focal Press, 1996, S. 265, oder L. Rabiner u. a., A Comparative Performance Study of Several Pitch Detection Algorithms, IEEE Transactions on Acoustics, Speech, and Signal Processing, Bd. ASSP-24, Nr. 5, Oktober 1976, S. 399. Laut Russ sind die traditionellen allgemeinen Klassifizierungen für die Tonhöheerfassung a) Nulldurchgang, b) Autokorrelation, c) spektrale Interpretation. Zwei Autokorrelations-Lösungsansätze, die dem vorliegenden Lösungsansatz in gewisser Weise ähneln, sind z. B. S. Dame, Method and Device For Determining The Primary Pitch of A Music Signal, U.S.-Patentschrift Nr. 5,619,004 (8. April 1997), und M.J. Ross, H.L. Shaffer, A. Cohen, R. Freudberg und H.J. Manley, Average Magnitude Difference Function Pitch Extractor, IEEE Trans. on Acoustics, Speech, and Signal Processing, Bd. ASSP-22, Nr. 5 (Oktober 1974).
Es wurden auch bereits andere sprachbetätigte elektronische Instrumente beschrieben, z. B. D. B. Pitt, Voice Actuated Instrument, GB-A-1 393 542; G. Wagner, Didaktisches Elektronisches Musikinstrument, DE 30 09 864 A ; und S. Takushima, T. Tokimoto und K. Kurosawa, Electronic Musical Instrument, U.S.-Patentschrift Nr. 4,633,748.
Ein bedeutender Nachteil der meisten derzeit bekannten Systeme, die eine Sprachsteuerung eines Musikinstruments ermöglichen, besteht darin, dass sie sperrige Gehäuse erfordern und in nichtvertrauten Formfaktoren präsentiert werden, d. h. als imposante technische Ausrüstungsstücke. Somit ist ein Benutzer nicht in der Lage, auf natürliche Weise mit derartigen Instrumenten eine Beziehung zu knüpfen. Solche Vorrichtungen verleihen einem dem Eindruck, dass man, statt ein Musikinstrument zu spielen, vielmehr ein Maschinenteil bedient, das in den meisten Fällen dem Bedienen eines Computers ähnelt. Allein diese Tatsache ist schon eine gute Erklärung für den fehlenden kommerziellen Erfolg und die fehlende Akzeptanz beim Verbraucher, die diese Vorrichtungen bisher begleiteten.
Es wäre vorteilhaft, ein sprachgesteuertes Musikinstrument in einem Formfaktor zu liefern, der das eigentliche Instrument, das das elektronische Instrument repräsentieren soll, am ehesten darstellt. Weiter wäre es vorteilhaft, wenn ein derartiger Formfaktor zur leichten Verwendung eines derartigen Instruments beitragen würde, indem er einem Benutzer eine einfache Bedienmethode liefert. Ferner wäre es vorteilhaft, eine rechentechnisch effiziente Tonhöheerfassungstechnik für ein sprachgesteuertes elektronisches Musikinstrument zu liefern, so dass ein Formfaktor einer verringerten Größe erzielt werden könnte.
ZUSAMMENFASSUNG DER ERFINDUNG
Die Erfindung liefert ein sprachgesteuertes Musikinstrument in einem Formfaktor, der das eigentliche Instrument, das das elektronische Instrument repräsentieren soll, am ehesten darstellt. Ein derartiger Formfaktor trägt zur leichten Verwendung eines derartigen Instruments bei, indem er einem Benutzer eine einfache Bedienmethode liefert. Ferner liefert die Erfindung eine rechentechnisch effiziente Tonhöheerfassungstechnik für ein sprachgesteuertes elektronisches Musikinstrument zu liefern, so dass ein Formfaktor einer verringerten Größe erzielt werden könnte.
Die in dem vorliegenden Dokument beschriebene Vorrichtung ist ein elektronisches, sprachgesteuertes Musikinstrument. Sie ist im Wesentlichen ein elektronisches Kazoo. Der Spieler summt in das Mundstück, und die Vorrichtung imitiert den Klang eines Musikinstruments, dessen Tonhöhe und Lautstärke sich ansprechend auf die Stimme des Spielers ändern.
Dem Spieler wird der Eindruck verliehen, das eigentliche Instrument zu spielen und es auf intime Weise mit den feinen Nuancen seiner Stimme zu steuern. Bedeutend ist, dass die Vorrichtung kompakt und in sich abgeschlossen ist und durch den Benutzer mit einem einfachen Satz von Steuerungen bedient wird. Auf eine solche Weise überwindet die Erfindung viele der Hindernisse auf dem Weg zu einer Akzeptanz derartiger elektronischer Instrumente, wie sie im Stand der Technik gelehrt wurden. Das heißt, dass die Vorrichtung während des Spielens einfach zu bedienen und zu halten ist. Da die Vorrichtung in sich abgeschlossen ist, ein geringes Gewicht aufweist und vollständig integriert ist, liegen keine Drähte frei bzw. sind keine Verbindungen zwischen verschiedenen Komponenten eines Systems herzustellen, was sowohl den Genuss der Vorrichtung als auch das Empfinden, dass die Vorrichtung ein elektronischer Ersatz für das eigentliche Instrument ist, das sie physisch darstellt, schmälern würde. Da die Vorrichtung in einer zweckgebundenen Form, z. B. als Blasinstrument, vorgesehen ist, wird der Benutzer in die musikalische Erfahrung hineingezogen, statt durch die Verwendung eines Mikrophons abgelenkt zu werden. Somit liegt ein stimmliches Bedienen der Vorrichtung sehr stark nahe, dass das eigentliche Instrument, das die Vorrichtung darstellt, gespielt werde, und erzeugt den Eindruck, dass der Benutzer tatsächlich ein Instrument spielt. Indem ferner die kontraintuitive Maßnahme ergriffen wird, die Fähigkeit des Benutzers, die Bedienung der Vorrichtung zu verändern, stark einzuschränken, ist die Benutzerschnittstelle bedeutend vereinfacht. Dies wiederum verleiht der Vorrichtung die Form und Bedienung des eigentlichen Instruments, so dass der Benutzer das Gefühl haben mag, er spiele das Instrument, obwohl er vielleicht nicht die musikalischen Fähigkeiten besitzt, das eigentliche Instrument zu bedienen. Da die Vorrichtung ein einzigartiges Tonhöheerfassungsschema verwendet, das sowohl rechentechnisch effizient als auch für eine integrierte Vorrichtung, z. B. das hierin offenbarte sprachgesteuerte elektronische Musikinstrument, gut geeignet ist, ist es möglich, sowohl eine kompakte, in sich abgeschlossene Vorrichtung als auch, bedeutenderweise, eine Vorrichtung zu liefern, die ein hohes Maß an Musikalität liefert, wodurch der Eindruck, dass der Benutzer tatsächlich ein Musikinstrument spielt, weiter verstärkt wird.
Das Instrument kann im Prinzip eine beliebige Musik erzeugende Klangquelle sein: eine Trompete, eine Posaune, ein Saxophon, eine Oboe, ein Fagott, eine Klarinette, eine Flöte, ein Klavier, eine elektrische Gitarre, eine Stimme, eine Pfeife, d. h. praktisch jede beliebige Klangquelle.
In seiner einfachsten Konfiguration ähnelt das Instrument einer Art Blasinstrument und wird der Zweckmäßigkeit halber in dem gesamten vorliegenden Dokument als HumHorn (dt. etwa: Summhorn) bezeichnet. Jedoch kann die Gestalt und das Erscheinungsbild des Instruments seitens des Herstellers so gestaltet werden, dass diese auf den Klang eines beliebigen traditionellen Instruments abgestimmt sind, falls gewünscht; oder seine Gestalt kann völlig neuartig sein. Die funktionalen Anforderungen an die physische Ausgestaltung des HumHorns sind lediglich folgende:

• dass es in der Hand zu halten ist;
• dass es ein Mundstück hat – wo die Stimme des Spielers eintritt;
• dass es ein oder mehr Lautsprecher aufweist – wo der Klang erzeugt wird; und
• dass es einen Körper hat – wo die Elektronik und die Batterien aufbewahrt werden und wo mit dem Finger betätigte Steuerungen platziert werden können.

Drei Haupt-Softwarekomponenten des HumHorns sind das Frequenzerfassungsmodul, das Lautheitnachverfolgungsmodul und das Toneinsatzmodul.
Das Frequenzerfassungsmodul (FDM) identifiziert die Frequenz der Stimme des Spielers. Es tut dies, indem es die ankommende Klangwelle analysiert und Muster von wiederkehrenden Formen findet. Dieses Verfahren ist rechentechnisch äußerst effizient und eine neuartige Kombination einer Autokorrelation und einer Nulldurchgang- oder Spitzenbasierten Tonhöheerfassung. Das gewählte Instrument wird bei der durch das FDM ermittelten Tonhöhe oder bei einer Abweichung bzw. einem Versatz von dieser Tonhöhe, je nachdem, was der Spieler wünscht, synthetisiert.
Die Lautheitnachverfolgungskomponente misst die Lautheit der Stimme des Spielers, und diese Informationen werden anschließend verwendet, um die Lautstärke des synthetisierten Klangs einzustellen.
Das Toneinsatzmodul erfasst abrupte Änderungen der Lautheit der Stimme des Spielers. Diese Komponente hilft zu entscheiden, wann das synthetisierte Instrument einen neuen Ton beginnen sollte.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine schematische Darstellung eines sprachgesteuerten elektronischen Musikinstruments gemäß der Erfindung;
2 ist eine detailliertere schematische Darstellung eines sprachgesteuerten elektronischen Musikinstruments gemäß der Erfindung; und
3 ist ein Blockdiagramm, das die Komponenten eines sprachgesteuerten Musikinstruments gemäß der Erfindung zeigt;
4 ist ein Prozessfluss, der ein Signalanalysemodul gemäß der Erfindung zeigt;
5 ist ein Signalverlauf, der ein Beispiel eines Eingangssignals zeigt;
6 ist ein Blockdiagramm, das die Komponenten eines Frequenzerfassungsmoduls gemäß der Erfindung zeigt;
7 ist eine Pseudocode-Auflistung, die einen Test zum Bestimmen, ob ein aktueller Abtastwert eine Spitze ist, zeigt, gemäß der Erfindung;
8 ist eine Pseudocode-Auflistung für eine Routine, die über verschiedene Wellensegmente iteriert, gemäß der Erfindung;
9 ist eine Pseudocode-Auflistung für eine Routine, die zwei Wellensegmente vergleicht, gemäß der Erfindung;
10 ist eine Pseudocode-Auflistung für eine Routine, die die Frequenz berechnet und korrigiert, gemäß der Erfindung;
11 ist ein Signalverlauf, der zwei mehrdeutige Wellen zeigt;
12 ist ein Signalverlauf, der eine Lautheitnachverfolgung unter Verwendung von Frequenzinformationen zeigt, gemäß der Erfindung;
13 ist ein Spiel- und Einsatzentscheidungsmodul gemäß der Erfindung;
14 ist eine Pseudocode-Auflistung für ein Spiel- und Einsatzentscheidungsmodul gemäß der Erfindung;
15 ist eine Pseudocode-Auflistung für eine Routine zum Schätzen der Frequenzzuverlässigkeit, gemäß der Erfindung;
16 ist ein Blockdiagramm, das die Komponenten eines Klangsynthetisierungsmoduls zeigt, gemäß der Erfindung;
17 ist eine Pseudocode-Auflistung für einen Nachrichtenprozessor gemäß der Erfindung;
18 ist eine Pseudocode-Auflistung für eine Routine, den nächstliegenden Ton in einem spezifizierten Modus zu finden, gemäß der Erfindung;
19 ist eine C++-Code-Auflistung für einen ersten Abschnitt eines Konstrukteurs für eine GetPitch-Klasse gemäß der Erfindung;
20 ist eine C++-Code-Auflistung für einen zweiten Abschnitt des Konstrukteurs für eine GetPitch-Klasse gemäß der Erfindung;
21 ist eine C++-Code-Auflistung für einen ersten Abschnitt einer GetPitch-Routine gemäß der Erfindung;
22 ist eine C++-Code-Auflistung für einen zweiten Abschnitt der GetPitch-Routine gemäß der Erfindung;
23 ist eine C++-Code-Auflistung für einen dritten Abschnitt der GetPitch-Routine gemäß der Erfindung;
24 ist eine C++-Code-Auflistung für einen vierten Abschnitt der GetPitch-Routine gemäß der Erfindung;
25 ist eine C++-Code-Auflistung für einen ersten Abschnitt einer Code match-Routine (Code Übereinstimmung-Routine) gemäß der Erfindung;
26 ist eine C++-Code-Auflistung für einen zweiten Abschnitt der Code match-Routine (Code Übereinstimmung-Routine) gemäß der Erfindung;
27 ist eine C++-Code-Auflistung für eine Frequenzkorrekturroutine gemäß der Erfindung;
28 ist eine C++-Code-Auflistung für eine Lautheitnachverfolgungsroutine gemäß der Erfindung;
29 ist eine C++-Code-Auflistung für eine Lautheiteinsatzerfassungsroutine gemäß der Erfindung;
30 ist eine C++-Code-Auflistung für einen ersten Abschnitt einer Frequenz-„Güte"-Einschätzung-Routine gemäß der Erfindung;
31 ist eine C++-Code-Auflistung für einen zweiten Abschnitt der Frequenz-„Güte"-Einschätzung-Routine gemäß der Erfindung;
32 ist eine C++-Code-Auflistung für eine Einsatz- und Spiel-Bedingung-Routine gemäß der Erfindung; und
33 ist ein schematisches Diagramm, das eine Architektur eines neuralen Netzwerks zum Bestimmen der Wahrscheinlichkeit einer Wellenformübereinstimmung zeigt.
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
Glossar
Für die Zwecke der hierin erfolgenden Erörterung weisen die folgenden Begriffe die folgende Bedeutung auf:

ADC:: Analog/Digital-Wandler, wandelt analoge Spannungen in digitale Abtastwerte um.
Amplitude:: 1) Wenn auf einen Punkt in dem Signal Bezug genommen wird, ist sie die Entfernung dieses Punktes von der Mittellinie. Wenn die Mittellinie null ist, wie in dem gesamten vorliegenden Dokument angenommen wird, so ist die Amplitude der Absolutwert des Abtastwerts an diesem Punkt. 2) Wenn auf eine Welle oder ein Wellensegment Bezug genommen wird, ist sie der Absolutwert des am weitesten von der Mittellinie entfernten Abtastwerts.
Einsatz:: Der Anfangsteil oder Beginn eines Tons.
DAC:: Digital/Analog-Wandler, wandelt digitale Abtastwerte in analoge Spannungen um.
F, F(t):: siehe Grundfrequenz.
Gefiltertes Signal (gefilterter Abtastwert):: Das Eingangssignal (der Eingangsabtastwert), nachdem es das Bandpassfilter durchlaufen hat. Bei diesem Dokument geht man davon aus, dass alle Signale und Abtastwerte gefiltert sind, wenn nicht explizit etwas anderes angegeben ist.
Grundfrequenz, F(t):: Die Frequenz der niedrigsten in dem Signal vorliegenden Tonhöhe. Sie ist die Frequenz, die als die Tonhöhe erkennbar ist, die gesungen oder gesummt wird.
Grundwelle:: Jegliche Welle in dem Signal, deren Länge die Grundwellenlänge ist. Sie ist die längste wiederholte Welle.
Grundwellenform:: Die längste unteilbare, wiederholte Wellenform
Grundwellenlänge, W(t):: Die (zeitliche) Länge der längsten sich wiederholenden Welle im Eingang. Sie entspricht der wahrgenommenen Tonhöhe des Eingangssignals bei einem gege benen Zeitschritt und ist die Inverse der Grundfrequenz: d. h. W(t) = 1/F(t).
Halbschritt:: Dasselbe wie Halbton.
L, L(t), Lautheit:: Dieser Wert, der die Lautstärke des Eingangssignals darstellt, entspricht dem Wahrnehmungsbegriff von Lautstärke oder Lautheit. Es ist schwer, ihn mathematisch zu beschreiben, da er eine Mischung aus mehreren Faktoren ist. Er ist sehr stark auf die Amplitude einer Welle bezogen, ist in gewissem Maße jedoch auch auf die in der Welle enthaltenen Frequenzen bezogen. Bei diesem Dokument bezieht sich Lautheit immer auf das von dem Spieler empfangene Eingangssignal. Siehe Lautstärke.
Lautheitssprung:: Ein plötzlicher Anstieg der Lautheit der Stimme des Spielers. Er ist ein guter Hinweis darauf, dass der Spieler möchte, dass das Instrument einen Einsatz erzeugt.
MIDI:: Die digitale Musikinstrument-Schnittstelle (Musical Instrument Digital Interface), ein Standardprotokoll, das für eine digitale Kommunikation zwischen Musikinstrumenten und Computern verwendet wird. Sie wird von nahezu allen elektronischen Tastaturen und digitalen Musiksynthesesystemen verwendet.
Modus, Musikmodus bzw. Tonart, Musiktonart:: Ein Satz Halbtöne, die dem Satz aller elf möglichen Halbtöne in einer Oktave entnommen sind, die Musiker verwenden, um Töne in einem Musikabschnitt zu charakterisieren. Beispiele sind: Durtonart, Molltonart, Bluestonart und viele andere esoterische Tonarten, z. B. dorisch, phrygisch, Ganzton-, fünfstufig usw.
Ton:: 1) Der Klang einer durch ein Instrument gespielten Note. Ein Ton beginnt mit einem Einsatz, auf den eine Halteperiode und anschließend ein Abklingen folgt. 2) Eine diskrete, ganzzahl-wertige Tonhöhe; d. h. der Index einer ganzzahl-wertigen Tonhöhe auf einer linearen Musiktonleiter, z. B. in einem musikalischen Notensystem oder auf einer Klaviertastatur, wo ein Intervall von 1 in der Tonleiter einem Halbschritt entspricht. Somit sind zwei Töne, die eine Oktave auseinander liegen, in der Tonleiter durch eine Differenz von 12 getrennt. Siehe Tonhöhe.
Toneinsatz:: Der Anfangsteil oder Beginn eines Tons.
Wahrgenommene Tonhöhe:: Die meisten Klänge, einschließlich der durch Stimmen und Musikinstrumente erzeugten, bestehen aus vielen verschiedenen Frequenzen und weisen viele überlappende Tonhöhen auf. Allgemein nimmt das menschliche Ohr zwei verschiedene Musikklänge als äquivalent wahr, wenn sie die niedrigste Frequenz (oder Grundfrequenz) gemeinsam haben, d. h. sie scheinen dieselbe Tonhöhe zu haben, ungeachtet aller anderer vorhandenen Frequenzen.
Tonhöhe:: Die Position einer Hörfrequenz auf einer linearen Musiktonleiter, z. B. in einem musikalischen Notensystem oder auf einer Klaviertastatur, wo zwei Tonhöhen, die eine Oktave auseinander liegen, durch eine konstante Anzahl von Schritten, z. B. 12, getrennt sind. Im Gegensatz dazu weisen zwei Frequenzen, die eine Oktave auseinander liegen, ein feststehendes Verhältnis, d. h. 2, auf. Die lineare Tonhöhenskala ist für das menschliche Verständnis eingängiger als die logarithmische Skala von Frequenzen. In dem vorliegenden Dokument wird Tonhöhe als kontinuierlicher Wert verstanden, der auf einer beliebigen Position auf der Musiktonleiter liegen kann. Ein Ton dagegen ist ein diskreter Ganzzahlwert.
R:: siehe Abtastrate.
SAM:: Das Signalanalysemodul, das das Eingangssignal Abtastwert um Abtastwert analysiert und Tonhöhe-, Lautstärke- und Einsatzwerte sowie einen Wert ausgibt, der anzeigt, ob ein Ton spielen sollte oder nicht.
Abtastwertrate, Abtastrate:: Die Frequenz, mit R bezeichnet, bei der der ADC (oder DAC) analoge Spannungen in digitale Abtastwerte (oder digitale Abtastwerte in analoge Spannungen) umwandelt. Übliche Abtastraten für Hörsignale betragen 8.000 Hz, 11.025 Hz, 22.050 Hz, 44.100 Hz und 48.000 Hz; je höher die Abtastrate, desto höher die Wiedergabetreue. Wenn nichts anderes angegeben ist, beziehen sich „Abtastwertrate" und „Abtastrate" auf das Abtasten des Eingangssignals.
Abtastwert, Abtastwert(t), s(t):: Ein Zeit-indexierter, digital codierter Wert, der die Höhe der Signalwelle zu einem bestimmten Moment darstellt. Eingangsabtastwerte werden durch den ADC an das SAM geleitet. Der Eingangsabtastwert zu einem Zeitschritt t wird mit s(t) bezeichnet. Ausgangsabtastwerte werden von dem SSM an den DAC geleitet. Wenn nichts anderes angegeben ist, bezieht sich „Abtastwert" auf den Eingangsabtastwert.
Abtasten:: Der Vorgang des Umwandelns eines Eingangssignals in eine Serie von digital codierten Zahlen. Dieser Vorgang wird durch den ADC durchgeführt.
Halbton:: Ein Halbschritt, das kürzeste Intervall bzw. der kürzeste Tonabstand, das bzw. der in der standardmäßigen westeuropäischen Musik verwendet wird. Er ist das Intervall zwischen benachbarten Tasten auf einem Klavier und zwischen benachbarten Tönen in einem Notensystem. In einer Oktave gibt es zwölf gleichmäßig beabstandete Halbtöne. Zwei Töne, die einen Halbton auseinander liegen, weisen somit ein Frequenzverhältnis von 2^1/12 auf.
Signal:: Eine Sequenz von analogen Werten, die sich über die Zeit ändern. Ein Hörsignal sieht, wenn es auf einen Graphen aufgetragen ist, wie eine Welle aus. In jedem Moment weist das Eingangssignal einen bestimmten Wert auf, der in eine digitale Zahl umgewandelt werden kann, die die Spannung des Signals an diesem Punkt darstellt. Der Umwandlungsvorgang wird als Abtasten bezeichnet. Er wird durch den ADC durchgeführt. Desgleichen wird durch den DAC ein Ausgangssignal erzeugt, wenn er über die Zeit eine Serie von digital codierten Abtastwerten empfängt. Wenn nichts anderes angegeben ist, bezieht sich „Signal" auf das Eingangssignal.
Starke Spitze:: Eine Spitze in dem Eingangssignal, die die Kriterien bezüglich STARKER Spitzen des Kästchens 61 in 6 erfüllt. Siehe beiliegenden Text.
Lautstärke:: In dem vorliegenden Dokument bezieht sich Lautstärke immer darauf, wie laut das durch das HumHorn erzeugte Ausgangssignal ist. Siehe Lautheit.
W, W(t):: siehe Grundwellenlänge.
Wellenform:: Die Kontur, einschließlich der Größe, der Anzahl und der Position der Spitzen und Täler in einem gegebenen Wellensegment.
Wellenlänge:: Die zeitliche Länge zwischen dem Anfang einer Welle und dem Anfang der folgenden Welle. Sie ist die Inverse der Frequenz.
Schwache Spitze:: Eine Spitze in dem Eingangssignal, die die Kriterien in Bezug auf SCHWACHE Spitzen des Kästchens 61 in 6 erfüllt. Siehe beiliegenden Text.

Erörterung
Die Erfindung liefert ein sprachgesteuertes Musikinstrument in einem Formfaktor, der das eigentliche Instrument, das das elektronische Instrument repräsentieren soll, am ehesten darstellt. Ein derartiger Formfaktor trägt zur leichten Verwendung eines derartigen Instruments bei, indem er einem Benutzer eine einfache Bedienmethode liefert. Ferner liefert die Erfindung eine rechentechnisch effiziente Tonhöheerfassungstechnik für ein sprachgesteuertes elektronisches Musikinstrument zu liefern, so dass ein Formfaktor einer verringerten Größe erzielt werden könnte.
Die in dem vorliegenden Dokument beschriebene Vorrichtung ist ein elektronisches, sprachgesteuertes Musikinstrument. Sie ist im Wesentlichen ein elektronisches Kazoo. Der Spieler summt in das Mundstück, und die Vorrichtung imitiert den Klang eines Musikinstruments, dessen Tonhöhe und Lautstärke sich ansprechend auf die Stimme des Spielers ändern.
Dem Spieler wird der Eindruck verliehen, das eigentliche Instrument zu spielen und es auf intime Weise mit den feinen Nuancen seiner Stimme zu steuern. Bedeutend ist, dass die Vorrichtung kompakt und in sich abgeschlossen ist und durch den Benutzer mit einem einfachen Satz von Steuerungen bedient wird. Auf eine solche Weise überwindet die Erfindung viele der Hindernisse auf dem Weg zu einer Akzeptanz derartiger elektronischer Instrumente, wie sie im Stand der Technik gelehrt wurden. Das heißt, dass die Vorrichtung während des Spielens einfach zu bedienen und zu halten ist. Da die Vorrichtung in sich abgeschlossen ist, ein geringes Gewicht aufweist und vollständig integriert ist, liegen keine Drähte frei bzw. sind keine Verbindungen zwischen verschiedenen Komponenten eines Systems herzustellen, was sowohl den Genuss der Vorrichtung als auch das Empfinden, dass die Vorrichtung ein elektronischer Ersatz für das eigentliche Instrument ist, das sie physisch dar stellt, schmälern würde. Da die Vorrichtung in einer zweckgebundenen Form, z. B. als Blasinstrument, vorgesehen ist, wird der Benutzer in die musikalische Erfahrung hineingezogen, statt durch die Verwendung eines Mikrophons abgelenkt zu werden. Somit liegt ein stimmliches Bedienen der Vorrichtung sehr stark nahe, dass das eigentliche Instrument, das die Vorrichtung darstellt, gespielt werde, und erzeugt den Eindruck, dass der Benutzer tatsächlich ein Instrument spielt. Indem ferner die kontraintuitive Maßnahme ergriffen wird, die Fähigkeit des Benutzers, die Bedienung der Vorrichtung zu verändern, stark einzuschränken, ist die Benutzerschnittstelle bedeutend vereinfacht. Dies wiederum verleiht der Vorrichtung die Form und Bedienung des eigentlichen Instruments, so dass der Benutzer das Gefühl haben mag, er spiele das Instrument, obwohl er vielleicht nicht die musikalischen Fähigkeiten besitzt, das eigentliche Instrument zu bedienen. Da die Vorrichtung ein einzigartiges Tonhöheerfassungsschema verwendet, das sowohl rechentechnisch effizient als auch für eine integrierte Vorrichtung, z. B. das hierin offenbarte sprachgesteuerte elektronische Musikinstrument, gut geeignet ist, ist es möglich, sowohl eine kompakte, in sich abgeschlossene Vorrichtung als auch, bedeutenderweise, eine Vorrichtung zu liefern, die ein hohes Maß an Musikalität liefert, wodurch der Eindruck, dass der Benutzer tatsächlich ein Musikinstrument spielt, weiter verstärkt wird.
Wesentliche Aspekte der Erfindung umfassen:

• Tragbarkeit – da es kompakt und in sich abgeschlossen ist, kann das hierin offenbarte Instrument leicht transportiert werden, während es gespielt wird oder nicht gespielt wird, beispielsweise in einer Marschkapelle.
• Zugänglichkeit – aufgrund seiner einfachen Schnittstelle kann das hierin offenbarte Instrument von Kör perbehinderten, z. B. teilweise oder vollständig gelähmten Menschen, verwendet werden.
• Simuliertes musikalisches Können – dies beschreibt den Vorgang des Spielens des Instruments.

Das HumHorn imitiert die Erfahrung des Spielens bzw. Darbietens eines eigentlichen Musikinstruments, einschließlich der visuellen, taktilen und auditiven Qualitäten der Erfahrung, und einschließlich der feinabgestimmten auditiven Steuerung eines Instruments, die bisher nur Musikern oblag, die auf dem Gebiet eines Musikinstruments geschult waren, und ferner einschließlich aller persönlichen, psychologischen und sozialen Vorteile, die der Vorgang des Bedienens eines eigentlichen Musikinstruments, ob solo oder zusammen mit anderen Interpreten, ob vor Publikum oder allein, mit sich bringt.
Das Instrument kann im Prinzip eine beliebige Musik erzeugende Klangquelle sein: eine Trompete, eine Posaune, eine Klarinette, eine Flöte, ein Klavier, eine elektrische Gitarre, eine Stimme, eine Pfeife, sogar ein Stimmenchor, d. h. praktisch jede beliebige Klangquelle.
In seiner einfachsten Konfiguration ähnelt das Instrument einer Art Blasinstrument und wird der Zweckmäßigkeit halber in dem gesamten vorliegenden Dokument als HumHorn (dt. etwa: Summhorn) bezeichnet. Jedoch kann die Gestalt und das Erscheinungsbild des Instruments seitens des Herstellers so gestaltet werden, dass diese auf den Klang eines beliebigen traditionellen Instruments abgestimmt sind, falls gewünscht; oder seine Gestalt kann völlig neuartig sein. Die funktionalen Anforderungen an die physische Ausgestaltung des HumHorns sind lediglich folgende:

Drei Haupt-Softwarekomponenten des HumHorns sind das Frequenzerfassungsmodul, das Lautheitnachverfolgungsmodul und das Toneinsatzmodul.
Das Frequenzerfassungsmodul (FDM) identifiziert die Frequenz der Stimme des Spielers. Es tut dies, indem es die ankommende Klangwelle analysiert und Muster von wiederkehrenden Formen findet. Dieses Verfahren ist rechentechnisch äußerst effizient und eine neuartige Kombination einer Autokorrelation und einer Nulldurchgang- oder Spitzenbasierten Tonhöheerfassung. Das gewählte Instrument wird bei der durch das FDM ermittelten Tonhöhe oder bei einem Versatz von dieser Tonhöhe, je nachdem, was der Spieler wünscht, synthetisiert. Man kennt verschiedene Lösungsansätze bezüglich des Prozesses der Tonhöheerfassung selbst. Wie oben erörtert wurde, offenbart Russ, dass die traditionellen allgemeinen Klassifizierungen für eine Tonhöheerfassung a) Nulldurchgang, b) Autokorrelation, c) spektrale Interpretation lauten. Jedoch ist der vorliegende Lösungsansatz rechentechnisch viel effizienter, da die Wellenformen nur über Zeitspannen verglichen (korreliert) werden, die durch ein Unterscheiden zwischen Wellencharakteristika wie z. B. Spitzen oder Nulldurchgänge begrenzt sind, und nicht über Zeitspannen, die durch willkürliche Abtastpunkte begrenzt sind. Für den letzteren Fall ist eine viel größere Anzahl von Korrelationsberechnungen erforderlich. Der vorliegende Lösungsansatz nutzt einfach die Tatsache, dass Wellen durch Unterscheidungsmerkmale wie z. B. Spitzen oder Nulldurchgänge segmentiert werden können. Den Klassifizierungen von Russ zufolge ist der vorliegende Lösungsansatz eine neuartige Kombination der Klassifizierungen (a) und (b) und liefert die Genauigkeit einer Autokorrelation zusammen mit der rechentechnischen Effizienz der Nulldurchgangsverfahren. Als Verbesserung der Autokorrelation berücksichtigt der vorliegende Lösungsansatz außerdem eine Tonhöheänderung über die Zeit, indem er die verglichenen Wellen auf dieselbe Länge streckt oder schrumpfen lässt, bevor die Korrelation durchgeführt wird.
Die Lautheitnachverfolgungskomponente misst die Lautheit der Stimme des Spielers, und diese Informationen werden anschließend verwendet, um die Lautstärke des synthetisierten Klangs einzustellen.
Das Toneinsatzmodul erfasst abrupte Änderungen der Lautheit der Stimme des Spielers. Diese Komponente hilft zu entscheiden, wann das synthetisierte Instrument einen neuen Ton beginnen sollte.
Das HumHorn ist ein in der Hand zu haltender Musik-Synthesizer, dessen Ausgabe durch die menschliche Stimme gesteuert wird. 1 stellt die Funktionalität des Hum-Horns schematisch dar. Der Spieler 10 singt oder summt in das Mundstück 14 des Instruments 12. Ansprechend darauf erzeugt das HumHorn an dem Ausgang 13 den Klang eines Musikinstruments, das in Bezug sowohl auf die Tonhöhe als auch die Lautstärke genau den Nuancen der Stimme des Spielers folgt. Der Spieler kann wählen, welches Instrument das HumHorn imitieren soll, und ihm wird der Eindruck vermittelt, nur durch Singen das gewählte Instrument zu spielen.
Wesentlich für die Erfindung ist die Tatsache, dass der Formfaktor der Vorrichtung ein Musikinstrument ist und dass alle Komponenten der Vorrichtung in dem Instrument selbst enthalten sind. Auf diese Weise wird dem Benutzer nahezu vollständig der Eindruck vermittelt, tatsächlich ein In strument zu spielen und nicht einen Computer oder eine andere elektronische Vorrichtung zu bedienen. Man geht davon aus, dass allein diese Tatsache bedeutend genug ist, um die Technophobie zu überwinden, die viele Menschen einschüchtert, wenn sie sich neuen Technologien gegenüber sehen. Indem die Erfindung also in ein vertrautes Gehäuse, z. B. ein Blasinstrument oder ein anderes hinreichend bekanntes Musikinstrument, platziert wird, wird eine psychologische Barriere überwunden, was ermöglicht, dass die Vorrichtung durch eine breitere Gruppe von Personen genutzt wird. Da sie außerdem klein ist, ein geringes Gewicht aufweist, kompakt und einfach zu bedienen ist, wird eine physische Barriere überwunden, was körperbehinderten Menschen die Fähigkeit verleiht, ein Musikinstrument zu spielen. Indem außerdem die Metapher eines Musikinstruments geliefert wird, wird dem Benutzer und dem Publikum der Eindruck vermittelt, dass tatsächlich ein richtiges Musikinstrument gespielt wird. Dies bedeutet, dass die durch die Vorrichtung erzeugten Klänge mit dem Instrument, dem sie ähnelt, übereinstimmen, wie durch den Benutzer erwartet wird.
Das HumHorn selbst kann jedem bekannten oder neuartigen Instrument ähneln. Eine mögliche Konfiguration ist in 2 gezeigt. Bei diesem Modell führt das Mundstück 5 direkt zu dem Mikrophon 9. Der Lautsprecher befindet sich in einem Doppelkegel-Abschnitt 3, von dem ein Kanal durch das zentrale Gehäuse 11 zu einem Glockenabschnitt 7 führt, wo der Klang übertragen wird. Somit verleiht das Gehäuse dem erzeugten Klang eine akustische Qualität. Die Elektronik und die Batterien sind in dem zentralen Gehäuse enthalten, das ferner mehrere mit den Fingern betätigte Steuerungen aufweist: sowohl Druckknöpfe 1b als auch Auswahlschalter 1a. Diese Steuerungen ermöglichen es dem Spieler, Synthesizer-Parameter, z. B. Instrumentenauswahl, Lautstärke oder Oktave, zu verändern.
Die logische Struktur des HumHorns ist in 3 schematisch dargestellt. Das Mikrophon 30 sendet ein analoges Signal an einen Analog/Digital-Wandler (ADC) 31, der das Signal bei einer feststehenden Frequenz, vorzugsweise 22.050 Hz, abtastet. Der ADC wandelt zu jedem Zeitpunkt immer nur einen Abtastwert um und sendet ihn an ein Bandpassfilter 32 (das das Signal glättet, indem es Frequenzen entfernt, die zu hoch oder zu niedrig sind). Jeder gefilterte Abtastwert wird anschließend an das Signalanalysemodul (SAM) 33 gesendet, wo er in dem Kontext der vorhergehenden Abtastwerte analysiert wird. Nach dem Analysieren des Abtastwerts leitet das SAM die folgenden Informationen an den Synthesizer 38 weiter:

• ob der Synthesizer einen Ton spielen soll oder nicht, und falls ja:
• die aktuelle Frequenz,
• die aktuelle Lautstärke (Lautheit);
• ob die Bedingungen für einen neuen Toneinsatz erfasst wurden.

Neben diesen Informationen von dem SAM empfängt der Synthesizer auch eine Eingabe von den mit den Fingern betätigten Steuerungen 37. Diese Steuerwerte können eine Vielzahl von Synthesizer-Parametern modifizieren, einschließlich (aber nicht ausschließlich) der folgenden:

• des zu imitierenden aktuellen Instruments (Klangquelle);
• der Abweichung von der Stimme des Spielers, d. h. ob der synthetisierte Ton mit derselben Tonhöhe gespielt werden soll, mit der er gesungen wird, oder ob er bei einem festgelegten Intervall über oder unter dieser Tonhöhe gespielt werden soll;
• ob der Synthesizer immer die durch das SAM erfasste genaue Frequenz spielen sollte (kontinuierliche Tonhöhenachverfolgung) oder ob er stattdessen den dieser Frequenz am nächsten gelegenen Ton in einem festgelegten Musikmodus spielen soll (diskrete Tonhöhenachverfolgung);
• des Musikmodus, der für eine diskrete Tonhöhenachverfolgung zu verwenden ist, z. B. chromatisch, Dur, Moll, Blues; und
• ob die aktuelle Tonhöhe die Tonika (erster Ton) in dem gegebenen Musikmodus ist.

Gemäß allen zugeleiteten Informationen wird seitens des Synthesizers ein Ausgangsabtastwert erzeugt, und dieser Ausgangsabtastwert wird einem Digital/Analog-Wandler (DAC) 34 zugeführt. Aus einem Strom von digitalen Ausgangsabtastwerten, die er empfängt, erzeugt der DAC ein analoges Ausgangssignal. Dieses Signal wird an einen Verstärker 35 gesendet, bevor es durch den Lautsprecher 36 übertragen wird.
Der Rest des vorliegenden Dokuments liefert eine ausführliche Erörterung der oben umrissenen Komponenten. Die Softwarekomponenten (die aus 3) werden zuerst beschrieben. Hardwarekomponenten werden als zweites beschrieben.
Softwarekomponenten
Die nachfolgende Erörterung beschreibt zunächst das Filter. Als Nächstes beschreibt die Erörterung die Kern-Softwarekomponente, das SAM, das aus drei Teilmodulen besteht: dem Frequenzerfassungsmodul (FDM), dem Spiel- und Einsatzentscheidungsmodul (PADM) und dem Lautheitnachver folgungsmodul (LTM). Danach beschreibt die Erörterung das Klangsynthetisierungsmodul (SSM).
Das Filter
Das Filter nimmt das rohe Eingangssignal direkt von dem ADC und filtert es, Abtastwert um Abtastwert, digital. Das digitale Filter darf frühere Abtastwerte betrachten, es kann jedoch keine zukünftigen Werte sehen. Das Filter glättet die Rohdaten, wobei es gezackte Spitzen entfernt, die üblicherweise nicht direkt auf die von dem Spieler beabsichtigte Tonhöhe bezogen sind. Es wird ein einfaches Bandpassfilter dritter Ordnung verwendet. Das Filter weist eine niedrige Sperrung von 200 Hz und eine hohe Sperrung von 300 Hz auf. Ein bevorzugtes Filter ist bei W. Press, B. Flannery, S. Teukolsky, W. Vetterling, Numerical Recipes in C, S. 456 – 460, Cambridge University Press (1988), beschrieben. Von diesem Punkt an beziehen sich alle Bezugnahmen auf das Signal, auf Abtastwerte und auf Wellen immer auf die gefilterten Werte, und alle Graphen zeigen gefilterte Werte an. Die rohen, ungefilterten Werte werden als unzugänglich angenommen. Wenn also das digitale Filter durch eine analoge Schaltungsanordnung ersetzt werden sollte, müsste der Rest dieses Dokuments nicht geändert werden.
Das Signalanalysemodul (SAM)
Das Signalanalysemodul (SAM) nimmt den aktuellen Abtastwert als Eingang 40 und erzeugt als Ausgang die vier oben beschriebenen Informationsposten: Ton ein/aus 41, Frequenz 42, Lautheit 43 und Einsatz 44. Die Beziehung zwischen den drei Teilmodulen des SAM ist in 4 schematisch dargestellt. Der Eingangsabtastwert steht allen drei Teilmodulen zur Verfügung. Das FDM 45 berechnet sowohl die Frequenz des Eingangssignals als auch eine Maßzahl der Zuverlässigkeit dieser Berechnung. Erstere wird an das SSM 38 weitergesendet (3), wohingegen die Letztere durch das PADM 46 verwendet wird. Das PADM nutzt auch den durch das LTM 47 berechneten Lautheitswert. Diese Komponenten und ihre Beziehungen werden in den folgenden Abschnitten beschrieben.
Das Frequenzerfassungsmodul (FDM)
Das Frequenzerfassungsmodul (FDM) analysiert das Eingangssignal, um die Grundfrequenz zu entdecken. Es tut dies, indem es in den Formen der ankommenden Wellen nach Mustern sucht. Die Grundwellenlänge ist die größte wiederholte Form.
5 zeigt eine Welle, die einer Welle ähnelt, die eine menschliche Stimme nach einem Bandpassfiltern erzeugen könnte. Die horizontale Achse stellt die Zeit dar; Punkte auf der rechten Seite erfolgen nach Punkten auf der linken Seite. Die vertikale Achse stellt die Signalspannung dar. Punkte oberhalb der mittleren horizontalen Linie weisen eine positive Spannung auf. Punkte unterhalb dieser Linie weisen eine negative Spannung auf. Der ADC wandelt diese Spannungen in digitale Abtastwerte um. Bei dem bevorzugten 8-Bit-ADC fallen die Abtastwerte in den Bereich ±128 (ein 16-Bit-ADC erzeugt Werte im Bereich ±32.768). Je größer der durchschnittliche Betrag von Abtastwerten einer Welle, desto lauter ist sie.
Die Spitzen sind gegebene Markierungen, 1 – 17, die die Reihenfolge, in denen sie auftreten, darstellen. Der Begriff Spitze wird verwendet, um sowohl auf hohe (ungeradzahlige) als auch auf niedrige (geradzahlige) Spitzen zu verweisen. Der Zeitpunkt, zu dem eine Spitze auftritt, wird als t_p bezeichnet, wobei p die Nummer der Spitze ist; z. B. wird der Zeitpunkt, zu dem Spitze 1 auftrat, t₁ geschrieben, usw. Die Welle erstreckt sich von t₁ bis t₁₇ und be steht aus einer Grundwelle, die viermal wiederholt wird: t₁ bis t₅, t₅ bis t₉, t₉ bis t₁₃ und t₁₃ bis t₁₇. Die Dauer oder Länge dieser Welle (z . B . t₁₃ – t₉) ist die Grundwellenlänge und ist umgekehrt proportional zur Grundfrequenz. F(t) = 1/W (t) (1)
wobei W(t) die Grundwellenlänge und F(t) die Grundfrequenz ist. Das FDM findet diese Grundwellenlänge, indem es die längste unteilbare, wiederholte Wellenform – die Grundwellenform – findet. Sie ist unteilbar, wenn sie nicht selbst gänzlich aus einer wiederholten Wellenform besteht. Beispielsweise passt in 5 die Wellenform von t₁₃ bis t₁₇ zu der von t₉ bis t₁₃ und ist die Grundwellenform. Obwohl das Segment von t₉ bis t₁₇ zu dem Segment von t₁ bis t₉ passt, ist es nicht die Grundwellenform, da es in die zwei kleineren passenden Segmente teilbar ist.
Diese Technik – Identifizieren der Grundfrequenz durch Finden der Grundwellenform – arbeitet zugunsten des Hum-Horns, da das Eingangssignal die menschliche Stimme ist und bestimmte Eigenschaften dieses Eingangssignals im Voraus bekannt sind. Erstens kann die Stimme lediglich eine bestimmte Bandbreite von Frequenzen und Wellenlängen hervorbringen. Somit können Wellen, die länger oder kürzer sind als diese Bandbreite, ignoriert werden, wodurch der Verarbeitungsaufwand auf einem vernünftigen Maß gehalten wird. Zweitens kann die menschliche Stimme effektiv bandpassgefiltert werden, und der sich ergebende Signalverlauf ist glatt und verhält sich wohl (siehe unten). In diesem Kontext ist eine sich wohl verhaltende Welle eine Welle, bei der die Grundwelle lediglich eine geringe Anzahl von Spitzen – üblicherweise nicht mehr als vier oder fünf – überspannt. Dies hilft auch den Suchaufwand zu begrenzen.
Das FDM findet die Grundwellenform, indem es in jüngerer Zeit aufgetretene Segmente der Eingangswelle auf der Suche nach der größten wiederholten Form vergleicht. Die Effi zienz des Formabstimmverfahrens des FDM ist auf eine fundamentale Einsicht zurückzuführen: Da die Grundwellenform immer durch Spitzen begrenzt wird, kann bei der Suche nach passenden Wellenformen stark gespart werden, indem lediglich Wellensegmente, die durch Spitzen begrenzt sind, verglichen werden. Aus diesem Grund werden Frequenzberechnungen nur dann durchgeführt, wenn eine neue Spitze erfasst wird. Da die Grundwelle üblicherweise nicht mehr als vier oder fünf Spitzen aufweist, beträgt die Anzahl der Vergleiche allgemein nicht mehr als etwa 25 (wie in Kürze erläutert wird), und der Durchschnitt ist viel geringer als diese Zahl.
Der gesamte Vorgang der Frequenzerfassung ist in 6 dargestellt. Mit jedem neuen Abtastwert 60 wird ein Test durchgeführt, ob dieser Abtastwert klar eine neue Spitze 61 darstellt. Falls dies nicht der Fall ist, wird die Frequenz unverändert auf ihrem vorherigen Wert belassen 65. Wenn der Abtastwert jedoch klar eine neue Spitze darstellt, wird eine sich über in jüngerer Zeit aufgetretene vorherige Spitzen erstreckende Suche durchgeführt, um Wellensegmente zu finden, deren Formen vielleicht zueinander passen 62. Wenn keine gefunden werden, wird die Frequenz wiederum unverändert belassen 65. Wenn es mögliche Übereinstimmungen gibt, werden sie ausführlicher verglichen 63, und die beste Übereinstimmung wird verwendet, um die neue Frequenz zu berechnen 64.
Test bezüglich Spitze
Das in 6 mit 61 bezifferte Kästchen testet, ob der aktuelle Abtastwert eine Spitze darstellt. Der Test misst die erste und die zweite Ableitung der Welle an dem aktuellen Punkt. Es gibt drei mögliche Ergebnisse: STARK, SCHWACH und KEINE. Ein Pseudocode für diesen Test ist in 7 gezeigt. Zeilen 1 – 3 definieren, dass t die aktuelle Zeit ist, dass Abtastwert(t) der Wert des Eingangsabtastwerts bei dem aktuellen Zeitschritt ist und dass Neigung(t) die Neigung bei dem aktuellen Zeitschritt misst. Es gibt zwei Arten von Spitzen: hohe Spitzen (diejenigen, die sich nach unten krümmen – Zeile 5) und niedrige Spitzen (diejenigen, die sich nach oben krümmen – Zeile 6). Die Krümmung ist gleich dem Betrag der zweiten Ableitung an dem Abtastpunkt gesetzt (Zeile 7). Die vertikalen Striche „||" stellen einen Absolutwert dar. Wenn der Abtastwert weder eine hohe Spitze noch eine niedrige Spitze ist, dann liegt keine Spitze vor (Zeile 8, 9). Wenn der Betrag des Abtastwerts niedriger ist als eine Schwelle (Zeile 10) oder wenn der Betrag der zweiten Ableitung zu niedrig ist (Zeile 12), dann existiert die Spitze, ist aber schwach (Zeile 11 oder 13). Andernfalls ist der Punkt eine starke Spitze (Zeile 15). Eine Wellenformsuche wird nur durchgeführt, wenn eine starke Spitze vorliegt.
Man beachte, dass der Test in Zeile 10 nur dazu dient, die Anzahl von Spitzen, die für eine Frequenzschätzung verwendet werden (starke Spitzen), zu verringern, und somit die Rechenlast insgesamt zu verringern. Dieses bestimmte Verfahren zum Aussortieren der Spitzen ist ziemlich willkürlich. Der Test der Zeile 10 könnte ganz und gar eliminiert werden, um die Rate der Frequenzschätzung zu Lasten eines zusätzlichen Rechenaufwands zu erhöhen.
Iteration über einzelne Wellensegmentpaare
Wenn der aktuelle Abtastwert eine starke Spitze ist, so zählt das in 6 mit 62 bezifferte Kästchen (Iteriere über einzelne Wellensegmentpaare) alle Paare von in jüngerer Zeit aufgetretenen Wellensegmenten auf und sendet sie an das mit 63 bezifferte Kästchen, damit sie verglichen werden. Als Beispiel dessen, was bei Kästchen 62 zu tun ist, sei erneut auf 5 Bezug genommen. Man nehme an, dass die Spitze bei t₁₇ in Kästchen 61 gerade erfasst wurde. Sie wird nun als Endpunkt für das zweite von zwei zu vergleichenden Segmenten verwendet. Das erste Segment, Welle1, beginnt an einer Spitze, die vorübergehend als Start markiert ist, und endet an einer späteren Spitze, die vorübergehend als Aufteilen markiert ist. Das zweite Segment, Welle2, beginnt an der Aufteilen-Spitze und endet an der soeben im Kästchen 61 erfassten Spitze, die als Aktuell bezeichnet wird. Anfänglich ist Aufteilen die vorletzte Spitze, und Start ist die unmittelbar vorhergehende Spitze. Dann beginnt ein iterativer Prozess, mittels dessen die Markierungen Start und Aufteilen von einer Spitze zur nächsten zeitlich nach hinten bewegt werden. Jedes Mal, wenn eine Markierung bewegt wird, werden die neuen Segmente Wellel und Welle2 verglichen. Dies wird fortgesetzt, bis alle wahrscheinlichen Segmente verglichen sind. Wie bereits gesagt wurde, müssen nur Wellenlängen innerhalb einer bestimmten Bandbreite berücksichtigt werden. Segmente werden zuerst getestet, ob sie wahrscheinliche Übereinstimmungen sind, bevor sie zum Vergleich an das Kästchen 63 gesendet werden. Die Spitzen Start und Aufteilen müssen ebenfalls starke Spitzen sein.
Unter erneuter Bezugnahme auf 5 ist t₁₇ aktuell, und die in der nachstehenden Tabelle A gezeigten Wellensegmente werden verarbeitet.
Tabelle A. Wellensegmente
Der Pseudocode für das Kästchen 62 ist in 8 angegeben. In den Zeilen 1 – 4 lauten Wellel und Welle2 gemäß der obigen Definition: die Länge()-Funktion ist so definiert, dass sie die Wellenlänge, wie sie oben angegeben wurde, ist; und die Abtastwert()-Funktion gibt den Wert des Eingangsabtastwerts bei der gegebenen Spitze zurück. Die Zeile 6 initialisiert ein Flag, das aufzeichnet, ob eine Übereinstimmung vorlag. Zeilen 7 bis 12 iterieren durch alle Wellensegmente, die in Frage kommende Kandidaten für eine Übereinstimmung sind. Die Wellen müssen innerhalb der Wellenlängen liegen, die die menschliche Stimme erzeugen kann (Zeilen 8, 9). Sie müssen ungefähr dieselbe Länge aufweisen (Zeile 10). Sie müssen ungefähr bei derselben Höhe auf dem Graphen beginnen und enden (Zeilen 11 und 12). Falls alle diese Kriterien erfüllt sind, werden die Wellen anschließend verglichen (Zeile 13). Die Vergleichsprozedur wird in dem folgenden Absatz ausführlich beschrieben, kurz gesagt dehnt sie jedoch die Wellen auf dieselbe Länge aus und subtrahiert anschließend eine von der anderen. Die sich aus dieser Subtraktion ergebende Differenz wird verwendet, um ihre Ähnlichkeit zu bewerten: je näher die Differenz bei Null liegt, desto ähnlicher sind die zwei Wellen. Wenn die zwei Wellen ähnlich genug sind (Zeilen 14 und 15), dann werden sie als passend bzw. übereinstimmend betrachtet. Das Kriterium dafür, ob sie zusammenpassen oder nicht, hängt davon ob, ob derzeit ein Ton gespielt wird. Wenn kein Ton gespielt wird, wird ein strengerer Standard angewendet, was gewährleistet, dass das Spielen bei der richtigen Frequenz beginnt. Nachdem ein Ton zu spielen begonnen wurde und die ungefähre Frequenz festgelegt wurde, wird ein lockererer Standard angewendet. Diese zwei verschiedenen Standards sind aufgrund des Frequenzberechnungs- und Korrekturmoduls (FCCR – Frequency Calculation and Correction Module) nötig: Wie nachfolgend ausführlicher erläutert wird, zwingt das FCCR, nachdem ein Ton festgelegt wurde, jede neue Frequenz, nahe bei der vorherigen zu liegen. Somit ist es viel wichtiger, bei Beginn des Tons die Frequenz richtig hinzubekommen.
Wenn die Segmente zusammenpassen, wird anschließend die Grundwellenlänge, die sie darstellen (der Durchschnitt ihrer Einzellängen) berechnet (Zeile 16). Wenn diese Wellenlänge ungefähr das Doppelte der besten bisher abgestimmten Wellenlänge beträgt (Zeile 17), so ging die Suche zu weit, und Wellel und Welle2 bestehen jeweils aus zwei vollständigen Grundwellenformen. In diesem Fall endet die Verarbeitung, und die neue Frequenz wird zurückgegeben (Zeile 18). Andernfalls wird die Differenz zwischen den Segmenten mit vorherigen Differenzwerten verglichen (Zeile 19). Falls sie die bisher niedrigste ist, wird sie behalten (Zeilen 20 und 21), und das Übereinstimmung-Flag wird auf WAHR gesetzt.
Obwohl sich das hier beschriebene bevorzugte Frequenzerfassungsverfahren auf die Identifizierung von Spitzen stützt, könnte es sich ebenso gut auf die Identifizierung eines beliebigen anderen Unterscheidungsmerkmals, z. B. Nulldurchgänge, stützen. Im Fall von Nulldurchgängen ist das Analog einer starken Spitze (im Kästen 61) ein Nulldurchgang mit einer großen positiven oder negativen Neigung.
Vergleichen zweier Wellensegmente
Das Kästchen 63, das zwei Segmente vergleicht, nimmt zwei Wellensegmente, dehnt das zweite aus oder verkleinert es, so dass es dieselbe Länge wie das erste aufweist, und addiert ihre Abtastwertunterschiede auf. Statt die Unterschiede über jeden Abtastwert in beiden Wellen zu summieren, wird lediglich eine kleine Anzahl gleichmäßig verteilter Abtastwerte (als Prüfpunkte) gewählt, was die Verarbeitung beschleunigt. Der Abstand zwischen jedem Prüfpunkt beträgt ungefähr N_SAMPLES_PER_CHECKPOINT (N_ABTASTWERTE_PRO_PRÜFPUNKT). Der Pseudocode für das Kästchen 63 ist in 9 gezeigt. Die zwei Wellensegmente werden als Wellel und Welle2 bezeichnet. Zeile 2 berechnet die Anzahl der Prüfpunkte auf der Grundlage der Länge der Wellel. Das Bodensymbol „[]" bedeutet, auf die nächstliegende Ganzzahl abzurunden. Der Wert von wavelength ratio (Wellenlängen Verhältnis) stellt die Länge der Welle2 im Vergleich zur Länge der Wellel dar (Zeile 3). Die während-Schleife in den Zeilen 5, 6 und 13 iteriert durch alle Prüfpunkte. Bei Zeile 7 ist t₁ die Zeit des i-ten Prüfpunkts in Wellel. t₂ ist die Zeit des i-ten Prüfpunkts in Welle2 – die auf t₁ beruht, jedoch erweitert oder verringert ist, um derselben Position in Welle2 zu entsprechen. Zeilen 9 und 10 finden die Abtastwerte für Wellel und Welle2 an dem i-ten Prüfpunkts. In Zeile 11 wird die Differenz zwischen den zwei Wellen mit dem Betrag ihrer Differenz an diesem Prüfpunkt aktualisiert. In den Zeilen 12–14 wird der durchschnittliche Betrag der zwei Abtastwerte berechnet, und das Maximum dieses Werts wird für die gesamte Welle beibehalten. Am Ende, in Zeile 16, wird die Summe der Differenzen der Welle sowohl für Länge als auch Höhe normiert, so dass der Effekt der Prozedur sowohl für hohe als auch für niedrige Frequenzen und sowohl für laute als auch für leise Signale derselbe ist.
Die Frequenzberechnungs- und -korrekturroutine (FCCR)
Während des Verlaufs eines Tons ändert sich die Frequenz zwischen aufeinander folgenden Spitzen niemals drastisch. Die menschliche Stimme kann die Frequenz über derartige geringe Zeitskalen einfach nicht sehr stark ändern, und diese Tatsache kann genutzt werden, um ein gewisses Maß an Frequenzkorrektur zu liefern. Wenn sich die aktuelle Frequenz beträchtlich von der zuvor erfassten Frequenz unterscheidet, dann ist entweder die Erstere oder die Letztere falsch. Obwohl man auf viele verschiedene Arten mit dieser Situation umgehen könnte, geht die Frequenzberechnungs- und -korrekturroutine (FCCR) (Kästchen 64 in 6) davon aus, dass die zuletzt erfasste Frequenz falsch ist, und ersetzt sie durch die zuvor erfasste Frequenz. (Besonders aus diesem Grund ist die Frequenzerfassung strenger, wenn ein Ton festgelegt wird, als nachdem der Ton bereits begonnen hat, siehe 8, Zeilen 14 und 15). Dadurch, dass in dem Eingang des HumHorns lediglich kleine Frequenzänderungen akzeptiert werden, scheint sich die Tonhöhe im Ausgang des HumHorns glatt und kontinuierlich zu verändern.
Der Pseudocode für die FCCR ist in 10 gezeigt. Die Zeile 2 berechnet die seit der letzten Wellenübereinstimmung verstrichene Zeit. Die Zeile 3 berechnet, welche Frequenz vorliegen wird, wenn die beste Wellenlänge akzeptiert wird, gemäß Gleichung (1). Die Zeilen 4 – 7 berechnen die prozentuale Frequenzdifferenz zwischen der zuletzt akzeptierten Frequenz und der neu vorgeschlagenen. Der Zähler ist der Größere der beiden, und zur Normierung wird 1 von dem Quotienten subtrahiert. Wenn im Kästchen 62 keine Übereinstimmung gefunden wurde, wird die Frequenz unverändert belassen (Zeile 9). Andernfalls wird ihre Zeit aufgezeichnet (Zeile 9), um bei einer späteren Iteration bei Zeile 2 wiederverwendet zu werden. Wenn die Frequenzänderung innerhalb der Geschwindigkeit lag, die die menschliche Stimme erreichen kann, so wird die Frequenz auf den neuen Wert geändert, andernfalls wird sie unverändert belassen.
Ein alternativer Lösungsansatz bezüglich der Frequenzkorrektur besteht darin, während eines Tons lediglich eine bedeutende Frequenzänderung zu erlauben, jedoch nur dann, wenn die Übereinstimmungsbewertung für die neue Frequenz sehr gut war, d. h. wenn die Differenz in 8, Zeile 13, sehr gering ist. Dies korrigiert einen durch den Sänger schlecht gestarteten Ton oder einen durch das HumHorn nicht korrekt erfassten Toneinsatz.
Die meisten Fehler bei der Frequenzerfassung sind um eine Oktave versetzt. 11 zeigt zwei gefilterte Signalverläufe, die von derselben Stimme aufgezeichnet wurden. Diese Signalverläufe sind besonders interessant, weil sie so sehr mehrdeutig sind und eine Herausforderung für den Frequenzdetektor sind. Die obere Welle weist eine Wellenlänge von knapp unter acht Millisekunden auf, aufgrund einer Formreplikation könnte sie jedoch ohne weiteres auch so interpretiert werden, als sei ihre Wellenlänge doppelt so hoch. Für die untere Welle gilt das Gegenteil. Sie weist eine Wellenlänge von knapp über sieben Millisekunden auf, könnte jedoch ohne weiteres auch so interpretiert werden, dass sie nur die Hälfte dieser Wellenlänge aufweist. Damit das FDM beide Wellenlängen korrekt erkennt, müssen die Parameter sorgfältig abgestimmt sein. Der vollständige Satz von Parameterwerten wird nachfolgend erörtert.
Ein weiteres Verfahren zum Korrigieren der Frequenz beinhaltet ein Verändern des Kästchens 62 in 6. Wenn die beste Übereinstimmung zu weit von der vorherigen Wellenlänge entfernt ist, könnte das Kästchen 62 die Übereinstimmung, die am nächsten bei der vorherigen Wellenlänge lag, zurückgeben. Es ist möglich, dass diese Wellenlänge, obwohl sie nicht die beste Übereinstimmung ist, die echte Grundwellenlänge war.
Die Frequenzkorrektur ist ein wichtiger Teil des Frequenzerfassungsprozesses, und es gibt eine Vielzahl verschiede ner Techniken, um sie zu bewerkstelligen. Bei der Frequenzkorrektur hat der allgemeine Frequenzerfassungsalgorithmus die Anzahl von in Frage kommenden Frequenzen aus dem gesamten Spektrum, das die menschliche Stimme erzeugen kann, auf eine geringe Anzahl von Alternativen, üblicherweise zwei oder drei, reduziert. In diesen Fällen kann die Mehrdeutigkeit, die für den Mehrzweck-Frequenzerfassungsalgorithmus schwierig zu unterscheiden sein kann, für einen zweckgebundenen Algorithmus leichter sein. Zwei Verfahren, die für diese gelegentlichen Frequenzmehrdeutigkeiten verwendet werden können, sind insbesondere: (a) Prädikationsfiltern und andere parametrische Frequenzschätzungstechniken und (b) kontext-sensible probabilistische Verfahren. Im Fall von (a) erfordern diese Verfahren viele Vorab-Informationen über die Welle und sind somit für den Fall einer allgemeinen Frequenzerfassung schwer zu handhaben, sie sind jedoch präzise und effizient, wenn die in Frage kommenden Frequenzen auf eine geringe Anzahl reduziert werden können, wie bei dem Frequenzkorrekturszenario. Im Fall (b) kann der Kontext, d. h. können die Tonhöhen, die der Benutzer kürzlich gesungen hat, helfen, die Wahrscheinlichkeit, dass der Sänger versuchen wird, andere Tonhöhen zu singen, vorauszusagen. Diese Wahrscheinlichkeiten können zusammen mit der geringen Anzahl von Kandidaten, die durch den Frequenzerfassungsalgorithmus gefunden wurden, verwendet werden, um die Tonhöhe, die am wahrscheinlichsten versucht wird, auszuwählen. Wenn der Sänger bei den letzten paar Tönen beispielsweise in aufsteigenden Halbtönen nach oben gesungen hat, dann ist – wenn zwei mehrdeutige Alternativen, eine einen Halbton höher als die letzte Tonhöhe und die andere eine Oktave plus einen Halbton höher, gegeben sind – die Wahrscheinlichkeit größer, dass der Sänger eher die Erstgenannte und nicht die Letztgenannte beabsichtigte. Allgemein können Vorab-Informationen über die menschliche Stimme und die Wellenmuster, die sie erzeugen kann oder die sie wahrscheinlich erzeugen wird, dazu verwendet werden, die endgültige Entscheidung darüber zu treffen, welche Frequenz erfasst wurde.
Schätze Frequenzzuverlässigkeit
Kästchen 66, Schätze Frequenzzuverlässigkeit, ist eine wichtige Routine, sie wird jedoch besser nachfolgend beschrieben, wenn der Kontext für ihre Verwendung klarer wird. Für den Moment sei angemerkt, dass das Kästchen 66 noch nicht beschrieben wurde, dass das Kästchen 66 jedoch in der nachstehenden Erläuterung, wenn eine Messung der Frequenzzuverlässigkeit benötigt wird, beschrieben und erklärt werden wird.
Bemerkungen zum FDM
Die gesamte Frequenzerfassungsprozedur ist rechentechnisch nicht sehr aufwendig – sie besteht hauptsächlich aus Summierungen über einen kleinen Teilsatz von in jüngerer Zeit erfolgten Zeitschritten. Dennoch ist dieser Lösungsansatz sehr effektiv darin, die richtige Grundfrequenz zu finden. Die meisten anderen Verfahren zur Frequenzerfassung stützen sich auf ein viel umfangreicheres Filtern des Signals. Spektralverfahren erfordern mehrere Größenordnungen mehr an Berechnung. Das FDM reagiert außerdem viel schneller als Spektralverfahren; es erfordert weit weniger Abtastwerte, bevor die Grundwellenlänge erfasst wird. Das FDM-Verfahren ist auf eine standardmäßige Autokorrelation bezogen, ist jedoch rechentechnisch weniger aufwendig. Während Autokorrelationsverfahren ein Punktprodukt verwenden, um eine Wellenformähnlichkeit zu messen, was eine große Zahl von Multiplikationen beinhaltet, verwendet das FDM die Summe von Differenzen. Das FDM spart auch beträchtlichen Rechenaufwand ein, indem es lediglich Wellensegmente vergleicht, die durch Wellenformmerkmale – z. B. Spitzen oder Nulldurchgänge – begrenzt werden.
Das Spiel- und Einsatzentscheidungsmodul (PADM)
Der Klang mancher Instrumente am Anfang eines Tons kann ziemlich bezeichnend sein. Beispielsweise weisen Blechinstrumente üblicherweise einen stechenden, rauchigen Klang auf. Dieser Teil des Tons wird als sein Einsatz bezeichnet. Die Frequenz, bei der der Einsatz eines Tons erfolgt, wird als seine Einsatzfrequenz bezeichnet. Insgesamt spielt das HumHorn in vier verschiedenen Fällen einen Einsatz:

• wenn ein abrupter Anstieg der Lautheit erfolgte, der von einer guten Frequenzerfassung begleitet war oder auf den eine solche bald folgte;
• wenn derzeit kein Ton gespielt wird, jedoch über eine gewisse Mindestzeit hinweg eine gute Frequenz erfasst wurde;
• wenn die Tonhöheerfassung kontinuierlich ist und die Tonhöhe sich über den Bereich hinausbewegt hat, in dem der Synthesizer auf der Grundlage der Einsatztonhöhe glatte Tonhöheänderungen erzeugen kann; und
• wenn die Tonhöhenachverfolgung diskret ist und die Tonhöhe sich zu weit von der Einsatztonhöhe entfernt hat und einer anderen Tonhöhe in dem ausgewählten Musikmodus zu nahe gekommen ist.

Der dritte und der vierte dieser Fälle beinhalten Leistungsfähigkeits- und Synthesizeroptionen. Diese Fälle werden durch das SSM (das Klangsynthetisierungsmodul) gehandhabt und werden nachfolgend ausführlich beschrieben. Die ersten zwei Fälle erfordern die Erfassung eines seitens des Spielers beabsichtigten Einsatzes. Diese Fälle werden durch das Spiel- und Einsatzerfassungsmodul (PADM) gehandhabt.
Wenn der Spieler summt, möchte er, dass das HumHorn zu bestimmten Zeiten einen Einsatz erzeugt. Der Spieler benutzt automatisch seine Zunge und Lippen, wobei er Konsonanten erzeugt, üblicherweise ,d', ,t', ,l', ,p', ,b' und/oder ,m', um einen Ton von dem nächsten zu trennen. Allgemein singt man Silben wie ,dum, ba dum, badumpadumpadum' oder ,doodle oo, doodle oo, doodle oo doo doo', um Töne voneinander abzugrenzen. Dadurch signalisiert der Spieler dem HumHorn intuitiv, einen Einsatz zu erzeugen. Das PADM kann diese Signale erfassen und auf dieselben ansprechen, indem es Einsätze an das SSM ausgibt.
In beiden oben genannten Fällen (1) und (2) sollte kein Einsatz ausgegeben werden, wenn ein Zweifel bezüglich der Frequenz des Signals besteht. Ferner muss der Spieler im Fall (2) seit einem gewissen sinnvollen Zeitraum eine gute Frequenz singen. Wie oben erwähnt wurde, wird somit eine Vorgehensweise zum Bestimmen der Zuverlässigkeit der erfassten Frequenz benötigt. Die Frequenzzuverlässigkeitsinformationen werden von dem Kästchen 66 der 6 hereingeleitet. Diese Vorgehensweise gibt einen von vier möglichen Werten zurück:

• SCHLECHT: Die aktuelle Frequenz ist unbekannt, und in letzter Zeit wurde keine zuverlässige Frequenz erfasst.
• UNGEWISS: In letzter Zeit wurde eine Frequenz erfasst, jedoch nicht an der jüngsten Spitze.
• GUT: An der jüngsten Spitze wurde eine Frequenz erfasst, aber in jüngerer Zeit bestanden bzw. bestehen Ungewissheiten.
• STABIL: In jüngerer Zeit wurde und wird konsequent eine Frequenz erfasst.

Die Routine zum Berechnen der Frequenzzuverlässigkeit wird nachfolgend beschrieben. Als erstes wird jedoch das restliche PADM beschrieben. Ein Diagramm der Beziehungen zwischen dem PADM und seiner verwandten Routinen ist in 13 angegeben. Neben der Frequenzzuverlässigkeit erfordert das PADM 46 ferner Informationen über die aktuelle Lautheit der Stimme des Spielers. Die Lautheit wird durch das LTM 47, das Lautheitnachverfolgungsmodul, das nachfolgend beschrieben wird, berechnet. Das PADM benötigt ferner Informationen über kürzliche Änderungen der Lautheit, insbesondere ob die Lautheit in der jüngeren Vergangenheit plötzlich abrupt angestiegen ist. Diese Informationen kommen von der Kürzlicher-Lautheitssprung-Routine 130, die nachfolgend beschrieben wird.
Der Pseudocode für das PADM ist in 14 angegeben. Das PADM gibt in zwei verschiedenen Fällen, entsprechend Fall (1) und Fall (2) oben, einen Einsatz aus. Zeilen 3 – 5 entsprechen Fall (1), Zeilen 7 – 10 entsprechen Fall (2). In dem ersten Fall wird ein Einsatz ausgegeben, wenn: (Zeile 3) kürzlich zumindest eine Frequenzübereinstimmung vorlag (die Frequenzstabilität GUT oder STABIL ist); (Zeile 4) ein abrupter Anstieg der Lautheit erfolgt ist; und (Zeile 5) seit dem letzten Einsatz ausreichend Zeit verstrichen ist. In dem zweiten Fall ist die Frequenzstabilität seit einer gewissen Zeit stetig (Zeile 7), das Signal ist laut genug (Zeile 8), derzeit wird kein Ton gespielt (Zeile 9) und genügend Zeit ist verstrichen, seit der Ton abgeschaltet wurde (Zeile 10). In beiden diesen Fällen werden Flags gesetzt, um anzugeben, dass nun ein Ton spielen sollte (Zeile 12) und dass ein Einsatz ausgegeben werden sollte (Zeile 13). Die Zeit wird zur Verwendung bei der nächsten Iteration bei Zeile 5 aufgezeichnet (Zeile 15). Wenn weder Fall 1 noch Fall 2 zutrifft, wird kein Einsatz ausgegeben (Zeile 17). Wenn für die letzte Spitze ebenfalls keine Übereinstimmung vorlag oder die Lautheit auf einen ausreichend niedrigen Pegel abgesunken ist (Zeile 18), dann wird das Spielen abgeschaltet (Zeile 19), und die Zeit wird zur Verwendung bei der nächsten Iteration bei Zeile 10 aufgezeichnet (Zeile 20).
Schätzung der Frequenzzuverlässigkeit
Die vorliegende Erörterung betrifft Kästchen 66 in 6, Schätze Frequenzzuverlässigkeit. Es mag hilfreich sein, zu Referenzzwecken zu 6 und dem dazugehörigen Text zurückzugehen. Jede Spitze wird ausgewertet, wenn sie auftritt, d. h. immer dann, wenn sich ein Abtastwert bei einer STARKEN oder einer SCHWACHEN Spitze befindet. Schwache Spitzen sind relativ häufig. Obwohl sie nicht verwendet werden, um eine Formübereinstimmung und Frequenzerfassung einzuleiten, sind sie dennoch ein hilfreicher Teil des Formabstimmungsvorgangs, da sie wesentliche Informationen über die Form der Welle liefern. Wenn starke, übereinstimmende Spitzen, d. h. Spitzen, für die das FDM eine Übereinstimmung fand, durch eine geringe Anzahl schwacher Spitzen getrennt sind, dann ist dies ein gutes Zeichen und weist auf ein verlängertes, stabiles Signal bei der erfassten Frequenz hin. Wenn jedoch zu viele schwache Spitzen hintereinander vorliegen, dann ist dies ein schlechtes Zeichen. Es gibt an, dass das Signal selbst schwach ist oder verloren gegangen ist. Ein schwaches oder verloren gegangenes Signal ist ein normaler Teil der Erfassung. Es passiert am häufigsten, wenn der Spieler aufhört, einen Ton zu singen, oder zwei Töne trennt, indem er einen Konsonanten ausspricht, was für ein zusätzliches Rauschen in dem Signal sorgt. Ein weiteres schlechtes Zeichen, d. h. ein Hinweis darauf, dass die Frequenz verloren gegangen ist, liegt vor, wenn eine starke Spitze gefunden wird, das FDM jedoch keine Formübereinstimmung für dieselbe finden kann. Somit kann die Zuverlässigkeit des Signals gemäß guten Zeichen und schlechten Zeichen eingestuft werden. Die guten Zeichen sind starke, übereinstimmende Spitzen. Die schlechten Zeichen sind nicht-übereinstimmende Spitzen und Abfolgen zu vieler schwacher Spitzen hintereinander. Die Frequenz ist STABIL, wenn hintereinander zumindest drei gute Zeichen und keine schlechten Zeichen vorliegen. Sie ist SCHLECHT, wenn hintereinander zumindest fünf schlechte Zeichen und keine guten Zeichen vorliegen. Wenn sie weder SCHLECHT noch STABIL ist, die aktuelle Spitze jedoch eine starke, übereinstimmende Spitze ist, so ist die Frequenzzuverlässigkeit GUT. Wenn keiner dieser Fälle zutrifft, dann ist die Zuverlässigkeit UNGEWISS.
15 zeigt den Pseudocode zum Schätzen der Frequenzzuverlässigkeit. Zeilen 2 – 15 zählen die guten Zeichen und schlechten Zeichen. Zeilen 16 – 23 klassifizieren sie in eine Zuverlässigkeitsschätzung. Wenn die aktuelle Spitze schwach ist (Zeile 2), so wird die Anzahl aufeinander folgender schwacher Spitzen inkrementiert (Zeile 3). Wenn die Anzahl aufeinander folgender schwacher Spitzen zu hoch ist (ein schlechtes Zeichen), dann sollte der Schlechte-Zeichen-Zähler inkrementiert werden (Zeile 5), und der Gute-Zeichen-Zähler sollte auf Null zurückgesetzt werden (Zeile 6). Ferner sollte das Zählen aufeinander folgender schwacher Spitzen erneut beginnen (Zeile 7). Andernfalls muss die Spitze stark sein, da sie nicht schwach ist (Zeile 8). Wenn keine Übereinstimmung gefunden wurde (schlechtes Zeichen), dann wird der Schlechte-Zeichen-Zähler erneut inkrementiert (Zeile 9), der Gute-Zeichen-Zähler wird zurückgesetzt (Zeile 10) und der Schwache-Spitzen-Zähler wird zurückgesetzt (Zeile 11). Wenn jedoch doch eine Übereinstimmung gefunden wurde (gutes Zeichen), so wird der Gute-Zeichen-Zähler inkrementiert (Zeile 13), der Schlechte-Zeichen-Zähler wird zurückgesetzt (Zeile 14), und der Schwache-Spitzen-Zähler wird wiederum zurückgesetzt (Zeile 15). Bei Zeile 16 beginnt die Klassifizierung. Wenn auf dem Weg zur aktuellen Spitze fünf oder mehr schlechte Zeichen hintereinander vorliegen, so ist die Frequenzzuverlässigkeit SCHLECHT (Zeile 17). Wenn drei oder mehr gute Zeichen vorliegen, so ist die Zuverlässigkeit STABIL (Zeile 19). Wenn sie weder SCHLECHT noch STABIL ist, sondern die aktuelle Spitze eine starke, übereinstimmende Spitze ist, so ist die Zuverlässigkeit GUT (Zeile 21). Wenn keiner dieser Fälle zutrifft, dann ist die Zuverlässigkeit UNGEWISS (Zeile 23).
Die Anzahlen guter Zeichen (3) und schlechter Zeichen (5) sind deutlich willkürlich und eine Angelegenheit des Aufeinanderabstimmens. Die Kriterien für gute Zeichen und schlechte Zeichen könnten im Prinzip auch verbessert werden, um andere Indikatoren zu umfassen.
Erfassung von Lautheitssprüngen
Die letzte durch das PADM benötigte Komponente ist die Routine zum Erfassen eines kürzlichen Lautheitssprungs. Diese Routine gibt WAHR zurück, wenn kürzlich ein Lautheitssprung (ein plötzlicher Anstieg der Lautheit der Stimme des Spielers) erfolgte, der nicht bereits als Grundlage für einen Einsatz verwendet wurde. Ein Lautheitssprung gilt immer dann als erfolgt, wenn die aktuelle Lautheit wesentlich größer ist als jegliche vorherige Lautheit in der jüngeren Vergangenheit, d. h. wenn L(t) > SURGE_RATIO·min(L(t – WINDOW_SIZE),..., L(t – ε), (2)wobei L(t) die aktuelle Lautheit ist, wie sie anhand eines der nachfolgend zu beschreibenden Verfahren berechnet wird, SURGE_RATIO das Verhältnis ist, um das die aktuelle Lautheit die frühere Lautheit übersteigen muss, WINDOW_SIZE die Länge der „jüngeren Vergangenheit" ist, d. h. die maximale Zeit, in der ein Lautheitssprung stattfindet, min() den minimalen Wert seiner Argumente zurückgibt und ε = 1/R die Zeit zwischen Abtastwerten ist, wobei R die Abtastrate ist. Wenn ein Lautheitssprung erfolgt, wird ein Flag gesetzt, und die Zeit wird aufgezeichnet. Die Routine gibt dann WAHR für Sprung_Zeit-Sekunden zurück, oder bis das Flag auf Null gesetzt wird (14, Zeile 14).
Die „min"-Funktion in der Gleichung 0 ist im Vergleich zu dem Rest der Funktionen des HumHorns rechentechnisch aufwendig. Ein Verfahren, das diesen Prozess beschleunigen kann, besteht darin, die Lautheitswerte in Intervallbereiche aufzuteilen, von denen jeder eine Bandbreite von Werten darstellt. Wenn ein neuer Lautheitswert ankommt, wird der Intervallbereich, dem er entspricht, inkrementiert. WIN-DOW_SIZE (FENSTER_GRÖSSE) Sekunden später, wenn der Wert das Fenster verlassen sollte, wird der Intervallbereich dekrementiert. Der minimale Wert in dem Fenster liegt in der Bandbreite des niedrigsten, nicht Null betragenden Intervallbereichs. Alternativ dazu könnten die Intervallbereiche auf eine Liste der tatsächlichen durch diesen Intervallbereich dargestellten Werte zeigen. In der Tat könnten die Werte in einer beliebigen standardmäßigen, in eine Reihenfolge gebrachten Datenstruktur gespeichert werden, deren Speicherzeit O(log n) beträgt. Alternativ dazu kann für diesen Vergleich ein Teilsatz vergangener Lautheitswerte verwendet werden, z. B. diejenigen, die der Spitzenerfassung entsprechen.
Das Lautheitnachverfolgungsmodul (LTM)
Die unmittelbare und kontinuierliche Reaktion des HumHorns auf die von Moment zu Moment erfolgenden Anderungen der Lautheit der Stimme des Spielers liefert eine subtile, nuancierte Steuerung, die kein Tasteninstrument erreichen kann. Bei dem HumHorn ist die Steuerung der Lautstärke völlig intuitiv und natürlich; sie muss nicht erst vom Gehirn in die Finger übersetzt werden. Sie ist mühelos und automatisch. Eine reaktionsfähige Lautheitnachverfolgung ist außerdem sehr wichtig, damit das PADM schnelle sowie subtile Toneinsätze erfasst.
Eine Art und Weise, wie das SAM die Lautheit des Eingangssignals nachverfolgt, beinhaltet einen gleitenden Mittelwert des Betrags des Abtastwerts: L(t) = (1 – K)·|s(t)| + K·L(t – ε), (3)wobei L(t) die Lautheit zur Zeit t ist, s(t) der Abtastwert zur Zeit t ist, || den Absolutwert angibt und 0 < K << 1. L(t) ist einfach eine Bahn oder ein Tiefpassfilter des Betrags des Abtastwerts. Dieses Verfahren ist ausreichend, um langsame Änderungen der Lautheit nachzuverfolgen. Es ist jedoch nicht ausreichend, um rasche Änderungen nachzuverfolgen. Um eine rasche Abfolge von Toneinsätzen zu erfassen, ist es notwendig, rasche Änderungen der Lautheit nachzuverfolgen.
Eine unkomplizierte Art und Weise, eine reaktionsfähigere Lautheitnachverfolgung zu bekommen, besteht einfach darin, alle Abtastwerte in der jüngeren Vergangenheit, d. h. über ein Fenster der jüngsten M Schritte, anzusehen. Die Lautheit wird einfach auf den Absolutwert des Abtastwerts in dieser Bandbreite eingestellt, dessen Betrag (d. h. Entfernung von der Mittellinie) am größten ist: L(t) = max(|s(t – M)|,..., |s(t)|), (4)wobei M ungefähr die maximal erwartete Wellenlänge für alle Benutzer ist. Wenn also die Amplituden der Wellen größer werden, nimmt die Lautheit zu, und wenn sie kleiner werden, nimmt die Lautheit ab. Wenn kein Eingangssignal vorliegt, liegt die Lautheit nahe bei Null.
Die Gleichung 0 ist potentiell rechentechnisch aufwendig zu implementieren, obwohl manche Optimierungen entworfen werden können. Ein anderes Verfahren, das einen sehr geringen rechentechnischen Mehraufwand erfordert, verwendet einfach den tatsächlichen Mittelwert (nicht eine Bahn) der Abtastwertbeträge über die letzten M Schritte
Dieser Lösungsansatz ist rechentechnisch trivial, da er bei jedem Zeitschritt lediglich eine Addition und eine Subtraktion erfordert. Die Division kann ignoriert werden, da M immer gleich ist. Er beinhaltet ferner weniger Programmcode als die anderen Lösungsansätze, was je nach den Hardware-Beschränkungen eine wichtige Überlegung sein kann. Ein ähnliches, aber etwas anderes Verfahren misst die Küstenlinienlänge der Welle, um den Grad an Aktivität oder Energie, die sie aufweist, zu schätzen:
Ein ausgefeilteres Verfahren der Lautheitnachverfolgung bewerkstelligt das, was die Gleichung 0 beschreibt, ist jedoch rechentechnisch weit weniger intensiv. Auch dieses Verfahren findet den maximalen Wert in dem vorangehenden Zeitfenster (der Größe M), es aktualisiert jedoch seine Auswertung der Lautheit nur, wenn eine starke oder schwache Spitze ankommt (statt bei jedem Zeitschritt). Als weitere Optimierung sind die einzigen zur Auswertung verwendeten Abtastwerte diejenigen an erkannten Spitzen. Dieser Spitzenbasierte Lösungsansatz passt gut zu dem Spitzenbasierten FDM. Der in 28 gelieferte C++-Code implementiert dieses Verfahren.
Bei jedem der obigen Verfahren, vor allem aber bei dem letzten, können Frequenzinformationen verwendet werden, um M dynamisch anzupassen, d. h. die Größe des Abtastfensters. Wenn die Grundfrequenz hoch ist, können kürzere Fenster verwendet werden; wenn sie niedrig ist, können längere Fenster verwendet werden. Dadurch wird das Modul reaktions fähiger in Bezug auf Änderungen der Lautheit. Wenn die richtige Frequenz immer bekannt wäre, dann ist M idealerweise einen Zeitschritt kleiner als die Grundwellenlänge. Dies ist darauf zurückzuführen, dass die volle Wellenlänge auch die maximale Spitze von der vorherigen Grundwelle enthalten könnte. Wenn die Lautheit in der Tat immer nur dann aktualisiert wird, wenn das FDM eine Übereinstimmung für eine Spitze findet, dann sollte M alles nach der Spitze umfassen, das übereinstimmte, d. h. alles nach der Aufteilen-Spitze der 8 für die am besten übereinstimmende Wellel und Welle2.
Wenn keine Frequenzinformationen zur Verfügung stehen, könnte die längste erwartete Wellenlänge für M verwendet werden. Dadurch wird eine übermäßige Ansprechempfindlichkeit vermieden, wo rasche Änderungen der Lautheit erfasst werden, die in dem Signal eigentlich nicht existieren, was zu häufige Toneinsätze durch das PADM bewirken könnte. Jedoch kann eine größere Ansprechempfindlichkeit durch eine Vielzahl von Heuristika erhalten werden, die die Wellenlänge ausgehend von teilweise oder völlig unzuverlässigen Frequenzinformationen zu schätzen suchen. Wenn für mehrere Spitzen hintereinander keine Übereinstimmung gefunden wurde, dann beginnt die richtige Größe für M unsicher zu werden. In diesem Fall besteht eine gute Heuristik darin, bei dem etwa 0,9-fachen der zuletzt erfassten Grundwellenlänge mit M zu beginnen. Wenn die Frequenz unzuverlässiger wird, kann M als Funktion g(Δt) der Zeit erhöht werden, die seit der letzten GUT-Frequenzzuverlässigkeitsmessung verstrichen ist. Das heißt M(t) = min[wmax, 0,9 W(tlm)/g(t – tlm)] (7)wobei w_max die längste erwartete Wellenlänge ist, t die aktuelle Zeit ist, t_lm der letzte Zeitpunkt war, zu dem das FDM eine Übereinstimmung erfasste, und W(x) die Wellenlänge zum Zeitpunkt x ist. Dieses Verfahren ist besonders nütz lich während der Lautheitssenken, die das Aussprechen von Konsonanten begleiten, wenn die Frequenzerfassung unzuverlässig werden kann.
Da eine Einsatzerfassung zum großen Teil auf einer Lautheitnachverfolgung beruht, sollte das Lautheitnachverfolgungsmodul im Idealfall darauf abgestimmt sein, wie empfindlich die Einsatzerfassung gemäß dem Wunsch des Spielers sein soll. Insbesondere sollte g(Δt) von den stimmlichen Fähigkeiten des einzelnen Spielers abhängen. Es gibt eine Grenze bezüglich dessen, wie schnell jemand die Tonhöhe seiner Stimme verändern kann. Man geht davon aus, dass die meisten Menschen die Tonhöhe nicht schneller als bei einer Rate von etwa einer Oktave in 40 Millisekunden verändern können. Wenn das Ziel darin besteht, falsche Einsätze zu minimieren, so kann g() den Schlimmster-Fall-Wert berechnen, so als ob die Frequenz bei dieser maximalen Rate in der Tat abfallen würde, wobei in dem Moment der letzten Übereinstimmung des FDM begonnen wird. Um jedoch den Genuss für einen großen Markt von Benutzern zu erhöhen, ist es vorzuziehen, M langsamer als bei dieser maximalen Rate zu verändern. Dies ermöglicht eine ansprechempfindlichere Einsatzerfassung zu dem Preis, dass bei denjenigen Benutzern, die ihre Tonhöhe während Konsonantenklängen gerne sehr rasch ändern, möglicherweise einige zusätzliche Einsätze erzeugt werden. Es ist zweckmäßig, beim Umgang mit Frequenzen und Wellenlängen aufgrund der logarithmischen Wahrnehmung von Tonhöhen durch das menschliche Ohr exponentielle Funktionen zu verwenden, und somit ist es zweckmäßig, folgendes zu definieren:
wobei Δt_d die Zeit ist, die benötigt wird, bis sich die Wellenlänge verdoppelt, d. h. bis die Frequenz eine Oktave abnimmt. Der Parameter Δt_d kann angepasst werden, um die angenommene Geschwindigkeit der Veränderung der Tonhöhe des Spielers widerzuspiegeln. In dem oben erwähnten Schlimms ter-Fall-Szenario ist Δt_d 0,04 Sekunden, und g(0,040) = 2. Natürlich kann die Wachstumsrate des Abtastfensters neben den Gleichungen (7) und (8) auf verschiedene Arten ausgedrückt werden, ohne von der essentiellen Wesensart des Lösungsansatzes abzuweichen.
12 zeigt ein typisches Profil von Lautheitswerten, die unter Verwendung der Gleichungen (7) und (8) erhalten werden. Das Lautheitsprofil 122 ist der entsprechenden Sequenz von Abtastwertbeträgen 123 überlagert. Man beachte, dass die Lautheit nur an den Spitzen aktualisiert ist, wie bei dem obigen Verfahren beschrieben wurde.
Weitere technische Einzelheiten
Im Einklang mit dem Pseudocode-Konzept wurden bei dem oben dargestellten Code bestimmte technische Einzelheiten weggelassen. Eine derartige Einzelheit ist die Verwendung von Ringpuffern, um die neuen Daten zu enthalten. Es besteht natürlich kein Erfordernis, alle zuvor aufgezeichneten Daten zu behalten. Alte Daten werden einfach ringförmig mit neuen Daten überschrieben. Diese Technik gilt für alle Informationen, die über eine Reihe von Iterationen angesammelt werden. Die Größe des Ringpuffers ist groß genug ausgelegt, um alle Informationen zu enthalten, die notwendig sind, die längstmögliche Wellenlänge, die die menschliche Stimme hervorbringen kann, w_max, zu verarbeiten. Allgemein müssen die Puffer genügend Daten halten, um einen Zeitraum von knapp über 2 w_max abzudecken.
Um mögliche Mehrdeutigkeitsprobleme, die sich aus der Unvollkommenheit des Pseudocodes ergeben können, zu vermeiden, ist in den 19 – 32 ein funktionierender C++-Programmcode enthalten.
Das Klangsynthetisierungsmodul
Wie in 3 gezeigt wurde, empfängt der Klangsynthesizer die folgenden Eingänge von dem SAM: Ton ein/aus, Frequenz, Lautheit und Einsatz. Von dem mit den Fingern betätigten Steuersystem (FAC-System) empfängt er Parameter von dem Benutzer, die Präferenzen bezüglich Instrument, Oktave/Versatz, diskret gegenüber kontinuierlich und Musikmodus sowie vielleicht anderer, hier nicht erwähnter Steuerungen festlegen. Diese Eingänge und ihre Beziehungen werden nun ausführlich beschrieben. Der Ausgang des SSM ist ein Strom von Ausgangsabtastwerten, die zur Umwandlung in das Ausgangssignal an den DRC gesendet werden.
Die innere Struktur des SSM 38 ist in 16 angezeigt. Das SSM besteht aus zwei Hauptkomponenten: dem Nachrichtenprozessor (MP) 160 und dem Klangerzeuger (SG) 161. Die Kästchen Tonhöheumwandlung und Lautstärkeumwandlung sind untergeordnete Funktionen, die nachfolgend beschrieben werden. Der MP nimmt die durch das SAM und die FAC erzeugten Informationen und erzeugt Nachrichten, die er an den SG sendet. Das auffallendste an dem SSM ist die asynchrone Beziehung zwischen dem Nachrichtenprozessor und dem Klangerzeuger. Der MP empfängt in regelmäßigen Abständen, vorzugsweise 8.000 Hz, 11.025 Hz oder 22.050 Hz, Signale von dem SAM, und der SG erzeugt in regelmäßigen Abständen, vorzugsweise bei derselben Rate, Klangabtastwerte. Jedoch können die Nachrichten nicht in regelmäßigen Abständen von dem MP an den SG gesendet werden. Stattdessen werden Nachrichten nur dann gesendet, wenn der Ausgang aus dem SG geändert werden muss.
Der SG erzeugt Klänge von einem Instrument, und zwar immer jeweils einen Ton. Er kann selbst und ohne weitere Hilfe ein Ausgangssignal, d. h. eine Serie von Ausgangsabtastwerten, erzeugen, das das angeforderte Instrument imitiert, wie es den angeforderten Ton mit der angeforderten Lautstärke spielt. Wenn der Ton zu spielen beginnt, spielt er weiter, bis er abgeschaltet wird. Der MP sendet Nachrichten an den SG, die ihm sagen, dass er einen Ton beginnen oder beenden soll. Während ein Ton spielt, kann der MP Nachrichten senden, um die Tonhöhe und die Lautstärke des Tons zu ändern. Der MP kann auch Nachrichten senden, die dem SG mitteilen, welches Instrument imitiert werden soll.
Die Erörterung beschreibt die Tonhöhe- und Lautstärkeumwandlungsfunktionen, den Nachrichtenprozessor und den Klangerzeuger ausführlich.
Die Tonhöhe- und Lautstärkeumwandlungsfunktionen
Die Tonhöheumwandlungsfunktion 162 nimmt die durch das SAM erzeugte Frequenz und transformiert sie für den MP in eine Tonhöhe. Obwohl die Tonhöhe und die Frequenz oft dazu verwendet werden, dasselbe zu benennen, besteht ein subtiler Unterschied. Die Frequenz tritt natürlich auf; die Tonhöhe ist vom Menschen gemacht. Die Frequenz beschreibt Schall als physikalisches Phänomen (Zyklen pro Sekunde). Die Tonhöhe ist psychophysikalisch und beschreibt, wie wir Schall wahrnehmen. Wenn zwei Frequenzen eine Oktave auseinander liegen, weisen sie ein feststehendes Verhältnis, d. h. 2, auf. Im Gegensatz dazu ist die Tonhöhe die Position einer Hörfrequenz auf einer linearen Musiktonleiter, z. B. einem Notensystem oder einer Klaviertastatur, wo zwei Tonhöhen, die eine Oktave auseinander liegen, durch eine konstante Anzahl von Schritten, z. B. 12, getrennt sind. Die lineare Tonhöhenskala ist dem menschlichen Verständnis eingängiger als die exponentielle Skala von Frequenzen. In dem vorliegenden Dokument wird Tonhöhe als kontinuierlicher Wert verstanden, der an jedem beliebigen Punkt auf einer linearen Musiktonleiter liegen kann. Ein Ton liegt ebenfalls auf einer linearen Musiktonleiter, weist jedoch einen diskreten Ganzzahlwert auf. Wie zuvor angegeben wurde, ist die Frequenz die Inverse der Wellenlänge: F = 1/W. Wenn man den Basis-2-Logarithmus einer Frequenz nimmt, wird diese in einen Tonhöhenwert auf einer linearen Skala umgewandelt, wobei zwei Tonhöhen, die eine Oktave auseinander liegen, einen Unterschied von Eins aufweisen. Eine Multiplikation mit 12 ergibt die normale chromatische 12-Ton-Skala. Somit gilt P = 12 log2 (F), (9)wobei P die sich ergebende Tonhöhe ist und F die durch das FDM gegebene Frequenz ist. Ein Hinzuaddieren von 12 zu P erhöht es um eine Oktave. Ein Subtrahieren von 12 verringert es um eine Oktave.
Die Lautstärkeumwandlungsfunktion 163 nimmt den Lautheitswert von dem SAM und wandelt ihn in einen Lautstärkesteuerungswert für den MP um. Die Lautstärke kann jegliche monotone Funktion der Lautheit sein, obwohl die bevorzugte Funktion lautet: Lautstärke = A·(Lautheit – B) (10)wobei A ein Konstante-Skala-Faktor ist und B eine konstante systematische Abweichung ist. Aufgrund der logarithmischen Eigenschaften des Ohres mag es wünschenswert sein, dass die Lautstärkeumwandlung eine exponentielle Funktion ist.
Der Nachrichtenprozessor (MP)
Der MP empfängt Informationen von dem SAM und von der FAC. Von dem SAM empfängt er vier Werte: Ton ein/aus, Einsatz, Tonhöhe und Lautstärke, wobei die letzten beiden umgewandelte Frequenz und Lautheit sind, wie soeben beschrieben wurde. Die Informationen von dem SAM kommen synchron an: 4 Werte bei jedem Zyklus. Die FAC sendet Spielerpräferenzwerte, z. B. Instrumenten- und Oktaveneinstellungen. Die FAC-Informationen kommen auf asynchrone Weise an, immer dann, wenn der Benutzer einen oder mehr Parameter ändern möchte.
Beispielsweise könnte der Spieler eine Taste drücken, um das durch das SSM imitierte Instrument zu wechseln, oder um das SSM zu veranlassen, bei einem Versatz von einer oder mehr Oktaven von der gesungenen Tonhöhe zu spielen. Der MP speichert die jüngsten Einstellungen als interne Variablen und wendet sie immer dann entsprechend an, wenn Nachrichten an den SG gesendet werden. Bei 16 sind vier derartige Variablen gezeigt: Oktave 164, kontinuierlich 165, Modus 166 und neue Tonika 167. Anforderungen von der FAC bezüglich eines Instrumentenwechsels erfordern keine beträchtliche Verarbeitung durch den MP und können bei der Ankunft gehandhabt werden. Sie werden einfach zu Nachrichten gebildet und direkt an den SG geleitet.
Die Variable „Oktave" hält einen Wert zwischen –3 und +3. Wenn sie nicht Null ist, gibt diese Variable an, dass das HumHorn eine Tonhöhe erzeugen sollte, die so und so viele Oktaven unter oder über der gesummten Tonhöhe liegt. Hier werden nur Oktavenversätze erörtert, im Prinzip könnte der Benutzer jedoch jeglichen Versatz von der gesungenen Tonhöhe festlegen, z. B. eine große Terz (4 Halbtöne) oder eine vollkommene Quinte (7 Halbtöne). Diese Nicht-Oktaven-Versätze können verwendet werden, um ansprechende und interessante parallele Melodien zur Begleitung der gesummten Tonhöhen zu erzeugen.
Die Variable „kontinuierlich", falls WAHR, gibt an, dass die durch das HumHorn gespielte Tonhöhe für diejenigen Menschen mit einer sehr guten Stimmkontrolle genau der gesummten Tonhöhe folgen sollte. Wenn die Stimme des Spielers ihre Tonhöhe um einen winzigen Grad verändert, sollte sich die ausgegebene Tonhöhe um denselben Grad ändern. Bei der kontinuierlichen Tonhöhenachverfolgung kann das Instrument allen subtilen Tonhöhevariationen, die durch den Spieler verwendet werden, einschließlich Vibrato, folgen. Folglich kann das Instrument manchmal eine unangenehme, weinerliche Qualität aufweisen, was bei manchen Instrumentenklängen ausgeprägter ist als bei anderen. Beispielsweise ist es fast unmöglich, ein Klavier wie ein Klavier klingen zu lassen, wenn man die kontinuierliche Tonhöhenachverfolgung durchführt. Es klingt letztlich eher wie ein Honky-Tonk-Klavier. Außerdem haben wenige Leute eine besonders gute Tonhöhenkontrolle über ihre Stimme. Aus diesen Gründen liefert das HumHorn die Option, das Instrument den Ton spielen zu lassen, der der Tonhöhe des Benutzers am nächsten kommt. Dann bleibt die Tonhöhe des Instruments stabil, auch wenn die Stimme des Spielers etwas wackelt. Wenn also kontinuierlich FALSCH ist, so sollte die gespielte Tonhöhe nach oben oder nach unten auf den nächstliegenden Ton in der Musiktonleiter oder in dem durch den Spieler ausgewählten Modus gerundet werden, wie nachfolgend beschrieben wird. Die Variablen „Modus" und „new_tonic" („neue_Tonika") werden ebenfalls nachfolgend beschrieben.
Ein Pseudocode für den Nachrichtenprozessor ist in 17 gezeigt. In Zeile 2 ist die Tonhöhe modifiziert, so dass sie die Tonhöheskala des SG sowie die aktuelle Oktavenvariable widerspiegelt. Man geht davon aus, dass der SG eine lineare Tonhöhenskala aufweist, die in Halbschrittintervalle diskretisiert ist, die den traditionellen Tönen auf einer Klaviatur entsprechen. Dies ist das durch das MIDI-Protokoll verwendete System. Der Anfangston in der Skala ist willkürlich und hängt von dem SG ab. Der Wert synthesizer_offset (Synthesizer_Versatz) ist die Differenz zwischen eine Tonhöhe auf der mathematisch abgeleiteten Tonhöhenskala, wie bei Gleichung 0 beschrieben ist, und der entsprechenden Tonhöhe für den SG. Dies ist für alle Tonhöhen ein konstanter Versatz. Für das MIDI-Protokoll entspricht die Frequenz 440 Hz dem 69. Ton auf der Klaviatur. In diesem Fall beträgt der Synthesizer-Versatz 12 log₂(440) – 69 oder etwa 36,38 (etwas über drei Oktaven).
Bei Zeile 5 wird der der Tonhöhe am nächsten liegende Ton für den durch den Spieler gewählten Musikmodus berechnet. Ein Musikmodus bzw. eine Tonart ist ein Teilsatz der elf Halbtöne in einer Oktave. Beispiele sind: Dur, Moll, Blues und viele weitere esoterische Tonarten, z. B. dorisch, phrygisch, Ganzton- und fünfstufig. Der chromatische Modus besteht aus jedem Halbton in der Oktave, die mit 0 – 11 nummeriert sind. Die Durtonart besteht aus den folgenden Halbtönen: {0, 2, 4, 5, 7, 9, 11}. Der erste Ton in dem Modus (Ton Null) wird als Tonika bezeichnet, und alle Halbtöne in dem Modus sind ein Versatz von der Tonika. Die Modusvariable ermöglicht dem Benutzer, auszuwählen, welcher Modus zu verwenden ist. Indem er die der Variable „new_tonic" zugewiesene mit dem Finger betätigte Steuerung drückt, kann der Spieler die Tonika jeder beliebigen Tonhöhe zuweisen, die er derzeit singt. Wenn die Tonhöheverfolgung kontinuierlich ist, so wird der chromatische Modus verwendet (Zeilen 3 und 4), also wird der nächstliegende Halbton nachgeschlagen. Die nearest mode_note_routine (nächstliegender_Modus_Tonhöhe-Routine) wird nachfolgend beschrieben.
Die Zeilen 6 – 13 entscheiden, ob Gründe vorliegen, trotz der Tatsache, dass von dem SAM kein Einsatzsignal vorliegt, einen Einsatz auszugeben. Die zwei Fälle in den Zeilen 8 – 9 und den Zeilen 11 – 12 entsprechen den Fällen 3 bzw. 4, die oben erörtert wurden. Bei dem ersten dieser Fälle ist die Tonhöhenachverfolgung kontinuierlich (Zeile 8), und die Tonhöhe hat sich über den Bereich hinaus bewegt, in dem der Synthesizer glatte Tonhöheänderungen auf der Grundlage der Einsatztonhöhe erzeugen kann (Zeile 9). Die Einsatztonhöhe ist current_note (aktueller_Ton) bei Zeile 7, der bei einem vorherigen Einsatz eingestellt wurde (Zeile 16). Die Bandbreite, die die Tonhöhe überschritten hat, ist MAX_BEND_RANGE (MAX_BIEGUNG_BANDBREITE) in Zeile 9. In dem zweiten Fall (Zeilen 11 – 12) ist die Tonhöhenachverfolgung diskret, und die Tonhöhe liegt viel näher bei einem anderen Ton in dem Modus als bei dem Einsatzton (Zeile 12). Der Einsatzton für diesen Fall ist wiederum current_note. MAX_PITCH_ERROR (MAX_TONHÖHE_FEHLER), ein Wert zwischen 0,5 und 1,0, bestimmt, wie viel näher die Tonhöhe bei dem anderen Ton liegen muss. Ein Wert von 0,5 gibt an, dass die Tonhöhe auf den nächstliegenden Ton gerundet werden sollte. Ein Wert von mehr als 0,5 fungiert als eine Art Hysterese, wobei verhindert wird, dass sich der Ton verändert, wenn die Stimme des Spielers ein wenig instabil ist.
Die Zeilen 14 – 33 senden dem SG die entsprechende Nachricht für die aktuelle Situation, falls überhaupt. Wenn aus einem der oben angegebenen Gründe und somit für einen der vier oben beschriebenen Fälle ein Einsatz ausgegeben wurde, wird eine Nachricht gesendet, den neuen Ton bei der neuen Lautstärke zu spielen (Zeilen 14 – 22). Ob nun die Tonhöhenachverfolgung diskret oder kontinuierlich ist – der SG empfängt eine Nachricht, einen nearest_note (nächstliegender_Ton), einen Ganzzahltonwert, zu spielen. Wenn die Tonhöhenachverfolgung kontinuierlich ist, empfängt der SG ebenfalls eine Nachricht, die Tonhöhe um einen gewissen Betrag nach oben oder unten zu biegen, um mit der Eingangsfrequenz übereinzustimmen. Zeilen 15 und 16 speichern den Ton und die Lautstärke für zukünftige Bezugnahmen. Wenn der SG derzeit einen Ton spielt, sendet die Zeile 18 eine Nachricht an den SG, dass er aufhören soll. Die Zeile 19 gibt die Nachricht aus, den neuen Ton bei der neuen Lautstärke zu spielen. Wenn die Tonhöhenachverfolgung kontinuierlich ist (Zeile 20), wird der neue Ton dazu angepasst, zu der Tonhöhe der Stimme des Spielers zu passen (Zeile 21). Die Zeit des Einsatzes wird aufgezeichnet (Zeile 22).
Beginnend bei Zeile 24 liegt kein Einsatz vor, der Synthesizer spielt jedoch immer noch einen zuvor eingesetzten Ton. Wenn das SAM einen Ton-Aus-Befehl gesendet hat (Zeile 24), dann wird an den SG eine Nachricht gesandt, zu spielen aufzuhören (Zeile 25). Andernfalls spielt derzeit ein Ton und sollte weiterspielen, jedoch sollen vielleicht seine Tonhöhe oder Lautstärke angepasst werden (Zeilen 26 – 33). Da es eine Weile dauern kann, bis der SG seine Befehle verarbeitet, werden Veränderungen der Tonhöhe und der Lautstärke nur gelegentlich ausgesendet. Der Wert SG_REFRACTORY_PERIOD (SG_REFRAKTÄR_PERIODE) hängt von dem SG ab und legt fest, wie viel Zeit verstreichen muss, bevor eine neue Tonhöhe- oder Lautstärkenachricht gesendet werden kann. Wenn sich die neue Lautstärke beträchtlich von der bereits spielenden Lautstärke unterscheidet (Zeile 27), dann wird an den SG eine Nachricht gesendet, die Lautstärke an den neuen Wert anzupassen (Zeile 29), und die neue Lautstärke wird gespeichert (Zeile 28). Wenn die Tonhöhenachverfolgung kontinuierlich ist und sich die Tonhöhe geändert hat (Zeile 31), wird die Tonhöhe angepasst (Zeile 32). In beiden Fällen wird die Zeit zur erneuten Verwendung bei Zeile 26 aufgezeichnet (Zeilen 30 und 33).
Die adjust_pitch-Routine (Tonhöhe_Anpassen-Routine) hängt wiederum von dem SG ab. Für das MIDI-Protokoll ist es möglich, die Tonhöhe über eine gleitende Tonhöhenverschiebung anzupassen, sowie die maximal zulässige Bandbreite der gleitenden Tonhöhenverschiebung (MAX_BEND_RANGE (MAX_GLEITENDE_VERSCHIEBUNG_BANDBREITE)) anzupassen. Die adjust_pitch-Routine tut beides, falls erforderlich.
Die Funktion, die den am nächsten liegenden Moduston zurückgibt, ist in 18 als Pseudocode gezeigt. Vier Modi sind am Anfang definiert, obwohl viele andere vorliegen könnten. Jeder Modus ist in Bezug auf die Halbtöne, aus denen er besteht, definiert, wobei bei der Tonika, bei der Position Null, begonnen wird und eine Oktave über der Tonika, bei Position 12, geendet wird. In der Durtonart liegt der zweite Ton zwei Halbtöne über der Tonika. Der nächste liegt zwei weitere Halbtöne über demselben, d. h. vier über der Tonika. Der nächste liegt einen weiteren Halbton darüber. Die Tonika selbst ist eine Ganzzahl zwischen 0 und 11 und ist ein Ton in der niedrigsten Oktave der linearen Tonhöhenskala. Der zwölfte Halbton über der Tonika ist eine Oktave über der Tonika, er hat jedoch denselben Platz in dem Modus wie die Tonika und wird ebenfalls als die Tonika betrachtet. In der Tat sind alle Modi oktavenblind, d. h. sie sind Versätze von der nächstliegenden Tonika darunter. Wenn also die Tonhöhe 38,3 ist und die Tonika 2 ist, so ist die nächstliegende Tonika unter 38,3 36 (2 + 12 + 12 + 12). Wenn die Variable new_tonic (neue_Tonika) eingestellt wird, so wird die Ganzzahl, d. h. der Halbton, die bzw. der der gegebenen Tonhöhe am nächsten ist, als Tonika gespeichert, jedoch auf die erste Oktave in der Skala reduziert, so dass sie bzw. er einen Wert zwischen 0 und 11 aufweist (Zeile 7). Die Variable „Versatz" ist die Differenz zwischen der Tonhöhe und der nächstliegenden Tonika unter derselben (Zeile 8). Bei Zeile 9 ist mode_note (Modus_Ton) (eine Ganzzahl) die Nummer in dem festgelegten Modus, die einem Versatz am nächsten liegt (eine Reelle). Die Differenz zwischen denselben (Zeile 10) ergibt bei Hinzufügung zu der ursprünglichen Tonhöhe den nächstliegenden Moduston (Zeile 11).
Der Klangerzeuger
Es gibt zwei Hauptarten, wie der Klangerzeuger implementiert werden kann: mit einem standardmäßigen MIDI-Modul (MIDI = Musical Instrument Digital Interface, digitale Musikinstrument-Schnittstelle) oder mit einem selbstentworfenen Synthesizer. Da die Anforderungen an dieses Modul weitaus geringer sind als die Fähigkeiten der meisten MIDI-Systeme, mag es vorzuziehen sein, ein kundenspezifisches Synthesizermodul zu bauen und zu entwerfen, um Chipraum zu sparen. Dagegen sind die Fähigkeiten der „von der Stange erhältlichen" MIDI-Chips für unsere Zwecke allgemein ausreichend, und in der Tat wurde die Nachrichtenübermittlungsmethodologie des Nachrichtenprozessors in Übereinstimmung mit MIDI-Standards entworfen. Eine MIDI-Verarbeitungseinheit könnte somit unsere Spezifikationen mit geringen oder gänzlich ohne Modifikationen erfüllen.
Hardwarekomponenten
Das HumHorn besteht aus den folgenden Hardwarekomponenten, von denen jede entweder nach Kundenvorstellungen gebaut ist oder „von der Stange" erhältlich ist:

1) ein Gehäuse zum Enthalten aller folgenden Komponenten sowie Batterien;
2) ein Mikrophon;
3) einen oder mehr Lautsprecher;
4) eine Elektronik, die folgende Merkmale umfasst: a) einen ADC, b) einen oder mehr Chips zum Ausführen des: i) SAM, ii) MP und iii) SG; c) einen DRC, d) einen Verstärker und e) eine Lautstärkeregelung;
5) mit den Fingern betätigte Steuerungsschalter, Tasten und Skalen; und
6) optional eine kleine Anzeige, um dem Spieler zu helfen, Parameter auszuwählen, und/oder um anzugeben, welche Parameter eingestellt sind.

All diese Komponenten sind unkompliziert. Lediglich 4)b) erfordert eingehende Überlegungen bezüglich der besten Art und Weise der Implementierung. Drei mögliche Implementierungen sind:

• eine monolithische Lösung, bei der alle drei Verarbeitungselemente auf einem einzigen Chip – ob nach Kundenvorstellungen entworfen oder „von der Stange" – kombiniert sind, der gemäß den oben beschriebenen Spezifikationen programmiert ist;
• zwei separate Chips: einer für das SAM und den MP, der gemäß den oben beschriebenen Spezifikationen programmiert ist; der andere für den SG, wahrscheinlich ein „von der Stange erhältlicher" MIDI-Chip, möglicherweise jedoch ein anderer Mehrzweck-Chip, der für eine Klangsynthese programmiert ist; oder
• ein „von der Stange erhältlicher" MIDI-Chip oder ein anderer Klangsynthesizer, der eine gewisse eingebaute kundenspezifische Programmierung ermöglicht, in den der Code für das SAM und den MP platziert werden.

In jedem dieser Fälle könnten der ADC, der DAC oder beide bereits auf dem Chip vorliegen. Der Filtermechanismus des SAM könnte durch ein Filtermikrophon oder einen anderen Mechanismus ersetzt werden, der das notwendige Bandpassfiltern mechanisch oder mit einer analogen Schaltungsanordnung durchführt.
Was die mit den Fingern betätigten Steuerungen betrifft, ist es wünschenswert, zumindest zwei verschiedene Arten zu haben: diejenigen, die sich in eine Position schalten und dort bleiben, und diejenigen, die auf ein Loslassen hin zurückkehren. Als Beispiel betrachte man die für die Tonhöhenachverfolgung verwendeten FACs. Es ist am besten, einen Schalter zu haben, der in einen kontinuierlichen oder diskreten Tonhöhenachverfolgungsmodus versetzt werden kann und der dort bleibt, nachdem er eingestellt wurde. Ferner ist es wünschenswert, eine Taste aufzuweisen, die vorübergehend zu dem entgegengesetzten Modus wechselt. Wenn sich also der Spieler in einem kontinuierlichen Modus befindet und rasch, eine Tonhöhe festlegen möchte oder eine schnelle Tonleiter in einer Musiktonart singen möchte, kann er die Taste drücken und sie dann, wenn er fertig ist, unmittelbar loslassen. Desgleichen kann der Spieler, wenn er sich in dem diskreten Modus befindet, rasch zu einer anderen Tonhöhe – einschließlich einer außerhalb der aktuellen Musiktonart befindlichen Tonhöhe – gleiten, indem er die Taste vorübergehend drückt und dann durch Loslassen der Taste unmittelbar in die Tonart zurückkehrt. Tasten sind außerdem für ein rasches Wechseln zwischen Instrumenten und Oktaven wünschenswert, was dem Spieler ermöglicht, als Ein-Mann-Band zu fungieren.
Das Gehäuse des Instruments kann selbst eine Vielzahl von Zwecken und Funktionen aufweisen. Insbesondere kann das Gehäuse zwei Abschnitte aufweisen: einen Innenbehälter und einen Außenmantel. Der Innenbehälter enthält die Elektronik und Batterien in einer einfachen, zweckmäßigen, leicht zu handhabenden und in sich abgeschlossenen Einheit. Sein Zweck besteht darin, die schweren und teuren Posten in einer kompakten und modularen Form zu halten. Der Beitrag des Außenmantels ist seine Gestaltung. Der Außenmantel kann so hergestellt sein, dass er jeder beliebigen traditionellen oder neuartigen Instrumentenform sowohl bezüglich ihrer visuellen als auch ihrer akustischen Eigenschaften ähnelt. Der Mantel kann auch das Mikrophon und/oder (einen) Lautsprecher enthalten. Das Innen- und das Außengehäuse können so hergestellt sein, dass sie ohne weiteres getrennt werden können. Wenn sie ordnungsgemäß aneinander befestigt sind, liefert der Mantel mittels eines physischen Schlüssels auf der Innenoberfläche des Außenmantels, der in einen entsprechenden Schlitz auf der Außenseite des Innenbehälters passt, Informationen an den Innenbehälter. Zusammen mit anderen möglichen Informationen würde der Schlüssel eine Beschreibung des erwarteten Instrumentenklangs liefern, den der SG erzeugen soll. Indem also der Innenbehälter aus einem Mantel in Form eines Instruments gezogen und in einen anderen Mantel in Form eines anderen Instruments eingefügt wird, ändert sich der durch den SG erzeugte Klang von dem des erstgenannten Instruments zu dem des letztgenannten Instruments. Eine Vielzahl unterschiedlicher Mäntel könnte hergestellt werden, damit der Spieler nicht nur den auditiven Eindruck, sondern auch den taktilen und visuellen Eindruck des Spielens eines spezifischen Musikinstruments gewinnen kann.
Halsmikrophon
Statt dass der Benutzer in ein Mundstück summt, das ein Mikrophon enthält, wie oben erörtert, ist es auch möglich, ein Mikrophon an dem Kragen eines Kleidungsstücks zu platzieren. Dieser Kragen umgibt den Hals, so dass das Mikrophon leicht gegen die Kehle gedrückt wird. Da lediglich die Tonhöhe erfasst wird, ist die Audioqualität anderweitig nicht wichtig – deshalb funktioniert diese Vorgehensweise. Es kann zweckmäßig sein, sich keine Gedanken darum machen zu müssen, ein Mikrophon zu halten oder den Mund in der Nähe eines Mikrophons zu haben.
Trichtermikrophon
Mundstücke von Instrumenten sind unhygienisch und führen dazu, dass man nur ungern sein Instrument mit jemand anderem gemeinsam benutzt. Durch ein trichterförmiges Behältnis an dem Mikrophonende des Instruments wird man psychologisch und mechanisch davon abgehalten, dasselbe mit seinen Lippen zu berühren. Ferner:

• ermöglicht es eine größere Lippenbewegungsfreiheit, was zum Bilden von Konsonantenlauten wichtig ist, was wichtig beim Erzeugen einer schnellen Sequenz von Einsätzen ist;
• bildet es einen besseren Eingang für den Klang des Singens/Summens seitens des Benutzers; und
• hilft es, den Klang der Stimme des Spielers zu verstecken, so dass Zuhörer sich stattdessen auf den Klang des Instruments konzentrieren können.

Parameterwerte
Die in der nachfolgenden Tabelle B dargelegten Parameterwerte funktionieren in den durchgeführten Tests gut.
Tabelle B. Parameterwerte
Die obigen Parameterwerte sind lediglich beispielhaft und sollen keine Einschränkung darstellen. In der eigentlichen Praxis wären andere Parameterwerte gleichermaßen geeignet.
Weitere Fragen
Latenzf'ragen und der „Vorab-Einsatz"
Für einen Toneinsatz mit einer bisher undefinierten Frequenz weist das oben beschriebene FDM eine Verzögerung von weniger als 30 Millisekunden (etwa 1/30 einer Sekunde) von dem Zeitpunkt, zu dem der Sänger die neue Tonhöhe beginnt, bis sie schließlich durch das FDM erfasst wird, auf. Dabei wird angenommen, dass der tiefste gesungene Ton das C ist, das zwei Oktaven unter dem mittleren C liegt, das eine Frequenz von 65 Hz aufweist (ein außergewöhnlich tiefer Ton), wobei in diesem Fall ein Zyklus 15 Millisekunden dauert und zwei Zyklen 30 Millisekunden dauern. Wenn das SSM einen neuen Instrumenteneinsatz erst erzeugt, nachdem das FDM die Tonhöhe erfasst, kann dieser Einsatz geringfügig wahrnehmbar und möglicherweise misstönend sein, wobei diese Verzögerung betont wird. Es ist möglich, den Eindruck der Verzögerung auf folgende Weise zu verringern. Für jedes Instrument gibt es einen nicht-stimmhaften Einsatzklang. Wenn die Stimme des Sängers eine Schwelle erreicht, beginnt das SSM, den nicht-stimmhaften Einsatzklang zu spielen. Dann, wenn zu dem Zeitpunkt begonnen wird, zu dem das FDM die Tonhöhe erfasst, wird dieser nicht-stimmhafte Klang allmählich in den Klang des Instrumenteneinsatzes bei der erfassten Tonhöhe übergeleitet. Dies würde eine spezialisierte MIDI-Programmierung erfordern, wenn eine standardmäßige MIDI verwendet werden sollte.
Glätten der Tonhöhe
Oben wurde erwähnt, dass das Instrument aufgrund der geringfügigen Tonhöheschwankungen der Stimme des Sängers, die der Klang des HumHorns in der Tat betonen kann, während einer kontinuierlichen Tonhöhenachverfolgung manchmal weinerlich klingen kann. Es ist möglich, diese Weinerlichkeit beträchtlich abzumildern, indem das resultierende Tonhöheprofil, das durch das Instrument gespielt wird, geglättet wird. Das heißt, dass die Absicht der Tonhöheglättungsfunktion darin besteht, die Flexibilität der kontinuierlichen Tonhöhenachverfolgung zu ermöglichen und dabei die Weinerlichkeit, die manche Instrumente bei den Stimmen mancher Menschen aufweisen, abzumildern.
Eine Möglichkeit, die Tonhöhe zu glätten, besteht darin, das durch das FDM erzeugte Tonhöheprofil durch ein Tiefpassfilter zu leiten. Ein besseres Verfahren wird erhalten, indem Prinzipien aus der Theorie der Steuersysteme verwendet werden. Man stelle sich die durch das Instrument gespielte Tonhöhe als ein Nachverfolgen des durch das FDM erzeugten Tonhöheprofils vor. Wir können auf die Art, in der dieses Nachverfolgen stattfindet, der Tonhöhe des Instruments Masse verleihen. Insbesondere gilt: E = PFDM – Pinst d2 Pinst/dt2 = k1·E + k2·int time(E) – k3·dPin/dt (11)wobei P_FDM die durch das FDM angegebene Tonhöhe ist, P_inst die durch das Instrument zu spielende Tonhöhe ist, E der Tonhöhenachverfolgungsfehler zwischen dem Instrument und der Ausgabe des FDM ist, int_time() für Integration über die Zeit steht und k1, k2 und k3 Konstanten sind. Das Obige ist bei Steuersystemen als Proportional-Integral-Differential-Steuerungsgesetz (PID-Steuerungsgesetz) bekannt und ist eine relativ effektive Art und Weise, wie man das P_inst das P_FDM glatt nachverfolgen lässt. Der Differentialbegriff (der dritte Begriff) stabilisiert P_inst da er einen dämpfenden Effekt aufweist. Er wird verwendet, um Oszillationen in der Steuerung abzudämpfen. Der Integralbegriff verbessert die Genauigkeit der Nachverfolgung. Indem die Werte der Konstanten geändert werden, können wir verschiedene Pegel des Glättens, der Nachverfolgungsgenauigkeit und der Ansprechzeiten erhalten. In der Tat gibt es für diesen Zweck wahrscheinlich bessere Steuerungsgesetze als dieses, z. B. Voreil-Verzögerungs-Steuerung, der Hauptgedanke wird jedoch durch das PID-Steuerungsgesetz dargestellt.
Wenn ein Tonhöheglättungsverfahren verwendet wird, sollte eine Einrichtung zum automatischen Deaktivieren desselben immer dann vorliegen, wenn eine beabsichtigte Tonänderung oder jegliche Art relativ großer Frequenzänderung vorliegt. Man erinnere sich, dass das Glätten lediglich dazu gedacht ist, die Weinerlichkeit zu beseitigen, die lediglich geringe Frequenzschwankungen (allgemein weniger als einen Halbton) beinhaltet. Diese Strategie kann einfach dadurch implementiert werden, dass P_inst = P_FDM immer dann eingestellt wird, wenn die Änderung bei P_FDM eine bestimmte Schwelle übersteigt.
Netzwerkerweiterungen
Die folgenden Überlegungen sind auf eine HumBand^TM-Technologie bezogen, insbesondere die Verwendung von HumBand^TM in Bezug auf das Internet, z. B. als Internet-Einrichtung. Der HumBand^TM-Stimmanalyseprozess extrahiert eine geringe Menge wichtiger Informationen aus dem Stimmstrom und verwendet sie dazu, die gewünschten Instrumente zu spielen. Man schätzt, dass eine nicht-komprimierte Bandbreite von nicht mehr als 300 Bytes/Sekunde notwendig ist, um alle Nuancen zu erfassen, dies kann jedoch ohne Verlust auf geschätzte 500 Bits/Sekunde im Durchschnitt, vielleicht weniger, stark komprimiert werden. Ein drei Minuten dauerndes Lied würde somit etwa 11 Kbytes für eine Stimme verbrauchen. Mehrere Stimmen erfordern proportional mehr. Dies ist eine ziemlich niedrige Zahl und legt nahe, dass HumBand^TM-Email, -Downloads und andere Formen einer HumBand^TM-Kommunikation mit geringem Mehraufwand durchgeführt werden können.
Interaktives Musizieren in der Gruppe über Web-/Chat-ähnlichen Dienst
Um diesen Dienst zu nutzen, wird man ein Mitglied einer Online-Gruppe, nachdem man sich mit Name und Passwort in die Website HumJam.com eingeloggt hat. Jede Person in der Gruppe ist zu einer bestimmten Zeit entweder Teil des Publikums bzw. Zuhörer oder ein Musizierender.
Zuhörer:
Als Zuhörer kann man eine Darbietung während der Darbietung in Echtzeit kommentieren und erörtern. Es kann spezielle Symbole oder Hör-Icons geben, die eine bestimmte Bedeutung haben und die dem Darbietenden gesendet werden können. Beispielsweise Applaus, Bravo-Rufe, Buh-Rufe, Gelächter, Beifallsrufe und Pfeifen, die bzw. den bzw. das der Darstellende hört. Ferner kann jeder Angehörige des Publikums an einer Wähl- bzw. Abstimmrunde teilnehmen, um seine subjektive Meinung bezüglich der Qualität der Darbietung auszudrücken.
Darbietender:
Der Darbietende wird aufgrund seines angeborenen versteckten Wunsches, live vor einem Publikum zu spielen, zu der Session hingezogen. Das ist aufregend und macht Spaß, und aufgrund der Anonymität des Internets sowie der durch die HumBand^TM gelieferten stimmlichen Tarnung ist sie auch weniger abschreckend als eine Darbietung auf der Bühne. Man stelle sich vor, eine Darbietung für eine Menge von Dutzenden oder Hunderten (oder sogar Tausenden!) in der abgeschiedenen Privatheit seines eigenen Heims zu geben. Während der Darbietung ist das HumBand^TM-Instrument über eine Schnittstelle direkt mit dem Internet verbunden, so dass die Darbietung über die Website HumJam.com live übertragen werden kann. Der Darbietende bekommt live eine Rückmeldung von den Zuhörern, und am Ende der Darbietung kann er eine Bewertung durch die Zuhörer empfangen.
Wählen bzw. Abstimmen wird zu drei Zwecken durchgeführt

• Um das Niveau der Darbietungsgruppe zu erhöhen/verringern. Wenn die Rangfolge einer Person (durch Wählen bzw. Abstimmen) auf ein ausreichend hohes Niveau angestiegen ist, kann man in einer Darbietungsgruppe auf einem höher bewerteten Niveau mitmachen. Auf diesem Niveau spielt man für ein Publikum von Dar bietenden, die sich in der gleichen Rangfolge befinden. Beispielsweise soll das Eintrittsniveau Rang 1 sein. Bei Rang 1 kann jeder spielen, und jeder kann wählen bzw. abstimmen. Diejenigen mit ausreichend hohen Stimmzahlen können zu Rang 2 aufsteigen. Bei Rang 2 wird man nur von anderen beurteilt, die Rang 2 oder einen höheren Rang erreicht haben.
• Um den Rang und das Gewicht beim Wählen bzw. Abstimmen zu erhöhen/verringern. Wenn eine Person, die einen höheren Rang aufweist als der Darbietende, über die Darbietung abstimmt, zählt seine Stimme mehr als die Stimmen derjenigen, deren Rang niedriger ist.
• Um die Chancen, einen Preis zu empfangen, zu erhöhen/verringern. Dem Darbietenden, der für diesen Zeitraum den höchsten Rang aufweist, oder möglicherweise dem Darbietenden, dessen Rangfolge sich über einen gegebenen Zeitraum hinweg am stärksten erhöht hat, können regelmäßig, z. B. täglich/wöchentlich/monatlich, Preise verliehen werden. Dann ähnelt eine Rangfolge insofern einer Vorgabe beim Golfspielen, als die Chance, einen Preis zu gewinnen, davon abhängt, wie gut die eigene Leistung in Bezug auf das bisherige oder durchschnittliche Können ist.

Das obige Verfahren ist ein Vorschlag einer einzelnen Art eines interaktiven Szenarios, das an die Lust vieler Menschen am Wettbewerb und an Darbietungen appellieren könnte. Ferner wäre eine Art Preis die Gelegenheit, für ein sehr großes Publikum, z. B. die zusammengefassten Zuhörerschaften aller Gruppen, oder auf speziell beworbenen Veranstaltungen zu spielen, auf denen die gewinnenden Darbietenden (jeglicher Rangfolge) spielen.
Ein internationales Unterfangen.
Derartige interaktive Darbietungen wären eines der einzigen Online-Beispiele für echte, ungehinderte internationale Kommunikationen, da Musik kulturelle/sprachliche Schranken durchbricht. Das Internet und HumBand^TM könnten eine bisher ungekannte Form einer unmittelbarer internationaler Kommunikation einleiten.
Technische Fragen
Jeder Darbietende und jeder Zuhörer ist in der Lage, über seine Internet-fähige HumBand^TM teilzunehmen. Alle Darbietenden senden Informationen mittels ihrer HumBand^TM. Alle Zuhörer hören bei diesen Darbietungen über ihre HumBands^TM/PCs/PC-Kopfhörer/HumBand^TM-Kopfhörer oder eine andere HumBand^TM-Codec-befähigte Vorrichtung zu.
Der Darbietende spielt zu einer Begleitung, die durch den HumJam.com-HumServer^TM bereitgestellt wird. Der Server sendet die Begleitungsinformationen über den HumBand-Codec an den Darbietenden. Die Begleitung wird auf jeglicher freigegebenen Vorrichtung gespielt. Der HumBand-Codec ähnelt sehr stark MIDI, ist jedoch vielleicht bezüglich einer Stimmsteuerung optimiert.
Der Darbietende spielt synchron mit seiner Begleitung, und sein Signal wird über diesen selben Codec an den Server zurückgesendet. Erst dann sendet der Server die Darbietung mittels Rundsendung an das Publikum. Für das Publikum sind der Darbietende und die Begleitung in perfekter Synchronie. Es gibt kein Latenzproblem. Dies ist darauf zurückzuführen, dass der Server das Signal des Darbietenden empfängt und in der Lage ist, es mit der Begleitung zu kombinieren, und zwar zeitlich ordnungsgemäß gesteuert, so dass das resultierende Signal die Darbietung, wie sie durch den Darbietenden gehört wird, reproduziert. Obwohl also eine geringe Verzögerung vorliegt, wird die Darbietung somit dennoch live und in voller Wiedergabetreue rundgesendet.
Zuhörer senden ihre Kommentare und Stimmabgaben an den Server, der sie nachzählt, organisiert und aufteilt.
Jamsessions für mehrere Darbieter
Dieses Szenario wird am meisten durch das Latenzproblem behindert. Insbesondere liegt eine merkliche Zeitverzögerung zwischen einem Senden eines Signals seitens eines Darbietenden über das Internet und der Ankunft desselben vor. Für die meisten Formen der Kommunikation ist diese begrenzte Latenz nicht nachteilig, da eine Synchronie nie erforderlich ist. Eine Verzögerung von 200 ms zwischen dem Senden einer Kommunikation und deren Empfang ist kaum wahrnehmbar. Wenn jedoch mehrere Teilnehmer versuchen, einen Klang zu synchronisieren, macht eine derartige Verzögerung dies unmöglich. Jeder Darbietende wartet auf das Signal des anderen, um zu synchronisieren. Diese Verzögerung verstärkt zusätzlich die Verzögerung an dem anderen Ende. Der Effekt vervielfacht sich, und es kann keine Form der Synchronie aufrechterhalten werden.
Um diesen Kaskadeneffekt (Schneeballeffekt) zu eliminieren und das allgemeine Latenzproblem abzumildern, es jedoch nicht gänzlich zu eliminieren, kann ein zentraler Server – ein Leiter – einen stetigen Puls, z. B. das Ticken eines Metronoms, an alle Parteien senden, der bzw. das zeitlich so gesteuert ist, dass jeder Teilnehmer das Signal gleichzeitig empfängt. Jeder Darbietende kann seine Darbietung dann zeitlich auf diesen Puls abstimmen und eine geringfügige Verzögerung von den anderen Darbietenden erwarten, wobei er allmählich (oder vielleicht schnell) lernt, diese geringe Verzögerung zu ignorieren und sich an diese anzupassen. Der Puls ist effektiv die Begleitung. Eine Software an dem Ort des Darbietenden kann diese Verzögerung nach Abschluss des Stücks berücksichtigen und kann für jeden Darbietenden den Klang der gesamten Darbietung ohne die Verzögerungen abspielen.
Gruppenkompositionen
Die obigen Konzepte können kombiniert werden, um ein Abstimmen über einzelne musikalische Parts zu ermöglichen, die anschließend miteinander verbunden werden, um eine aus einer Gruppenanstrengung hervorgegangene HumBand^TM-Komposition zu erzeugen.
Song-E-Mail, „HumMail^TM"
Man kann aus einer oder aus mehreren Stimmen bestehende Songs, die man auf seiner HumBand^TM aufgezeichnet hat, aufzeichnen und per E-Mail an Freunde versenden, die die Songs auf ihren eigenen HumBands^TM abspielen können.
Herunterladen von Songs
Es können Darbietungen von der Site heruntergeladen werden, unterschiedliche Stücke, die von verschiedenen interessanten und/oder berühmten Darbietenden gespielt werden. Da die heruntergeladenen Informationen viel präziser sind, da sie eine weitaus größere Feinheit und Nuance enthalten als übliche MIDI-Darbietungen, kann man einen größeren Realismus und eine größere ansprechende Wirkung erwarten.
Downloads von Begleitungen
Die Begleitungsabschnitte vieler vieler unterschiedlicher Stücke könnten zur Verfügung gestellt werden, so dass man sie in seine HumBand^TM herunterladen könnte (niedrige Bandbreite) und dann dazu spielen könnte.
Kompositions-Kettenbriefe
Genauso wie man eine Begleitung herunterladen kann, kann man eine Begleitung per E-Mail empfangen, ein Musikstück anhängen und das Ganze weitersenden, eine Art „serielles Jamming". Alternativ dazu könnten unvollständige Stücke zu der Site hochgeladen werden, um zu ermöglichen, dass andere mitspielen und möglicherweise auch etwas beitragen.
Selbstbegleitung
Auf dem Markt gibt es ein Softwareprodukt, das eine automatische Begleitung für Instrumente und Stimme liefert. Der Darbietende wählt ein Stück, und die Software spielt den Hintergrund und folgt gleichzeitig der Stimme/dem Instrument des Darbietenden. Die Geschwindigkeit der Begleitung wird kontinuierlich modifiziert, um auf die Geschwindigkeit des Darbietenden abgestimmt zu sein. Ein ähnliches System könnte für die HumBand^TM gebaut werden, vielleicht im Bunde mit dieser Firma, das dem Darbietenden folgt und eine intelligente Begleitung liefert. Diese Begleitungen könnten von der Website heruntergeladen werden.
Kontextsensible Tonhöhekorrektur
Es könnten Song-Partituren in die HumBand^TM heruntergeladen und, der Stimme des Darbietenden folgend, abgespielt werden, wobei die tatsächliche Stimme mit der beabsichtigten Musik abgestimmt wird. Sogar Spieler mit einer sehr schlechten Tonhöhekontrolle könnten absolut tonrein spielen. Dies könnte beinhalten, dass Instrumenten- und Oktavwechsel an bestimmten Stellen in dem Song automatisch erfolgen.
Downloads von Instrumenten-Wavetables
Wenn neue Instrumentenklänge (sowohl natürliche als auch synthetische) verfügbar werden, können ihre Wavetables an die Website gesendet werden. Somit können HumBand^TM-Besitzer zu jeder Zeit auf eine riesige Bibliothek interessanter Instrumentenklänge aus dem Internet zugreifen, und ihre Auswahl möglicher Klänge ist im Vergleich zu den wenigen, die zur Zeit des Kaufs auf der HumBand^TM installiert sind, stark erweitert. Die für einen Wavetable-Download erforderlichen Daten sind nicht so vernachlässigbar wie für einen Download eines Songs.
Downloads von Steuerungssoftware
Software, „Humlets^TM, könnten von der Site in die HumBand^TM herunterladbar sein und könnten auf viele sinnvolle Arten eine Steuerung modifizieren, z. B.:

• Hinzufügen/Verbessern von Effekten, z. B. Echoplex, Chorus und andere Verzerrungen.
• Hinzufügen von Möglichkeiten, z. B. zusätzliche Ausschmückungen/Riffe, die der Spieler willentlich aufrufen kann. Diese Riffe/Ausschmückungen können kontextsensibel sein, so dass sie je nach Skalengrad, Rhythmus und Stil des Stücks zum Zeitpunkt des Aufrufs auf unterschiedliche Weise gespielt werden können. Der Stil des Stücks könnte zusammen mit dem Download ausgewählt werden. Beispiele sind: Barock, Klassik, Jazz, Dixieland und Hardrock. Diese Kontextsensibilität könnte gemäß einer im Voraus (in Hardware) eingerichteten bestimmten Formel angewendet werden oder könnte in einer heruntergeladenen Software verkörpert sein.
• Hinzufügen einer neuen Funktionalität, die beispielsweise die Art und Weise, auf die kontextsensible Ef fekte und Begleitungen gespielt werden, modifizieren/verbessern könnte.
• Modifizieren der Kernfunktionalität. Wenn sich unsere Tonhöheerkennungs- und Einsatzerfassungsalgorithmen verbessern, könnten diese Verbesserungen als Updates herunterladbar sein.
• Neue Kernfunktionalität. Die absoluten Grundlagen der HumBand^TM könnten modifizierbar sein. Beispielsweise könnte eine neue Funktionalität hinzugefügt werden, z. B. eine Klangfarbensteuerung durch die Erkennung bestimmter stimmlicher Nuancen, z. B. Veränderungen von Oberschwingungen der Stimme.

Unterricht
Ebenfalls von der Website HumJam.com erhältlich: Musikunterricht. Unterricht könnte von Menschen bereitgestellt werden (bezahlt) oder von Software (kostenlos). Software könnte online oder offline verwendet werden und würde dem Lernenden beispielsweise dabei helfen, die Tonhöhenkontrolle zu verbessern. Dies könnte erfolgen, indem eine Auswahl für den Lernenden gespielt wird oder indem dem Lernenden alternativ dazu ermöglicht wird, eine Partitur zu lesen, und indem darauf gewartet wird, dass der Lernende spielt, was er gehört oder gelesen hat. Die Software könnte sowohl die richtige Tonhöhe als auch die Tonhöhe des Lernenden als zwei gleichzeitige Echtzeitgraphen zeigen. Der Lernende könnte dann visuell sehen, wenn seine Tonhöhe zu hoch oder zu tief ist.
Besonders hohe Wiedergabetreue
Wenn die Darbietungsfähigkeiten der HumBand^TM des Spielers unzureichend sind (je nach dem Modell), kann er HumMail^TM an die Website senden und im Gegenzug eine komprimierte Version der Aufzeichnung empfangen, z. B. im MP3-Format, die auf der besten erhältlichen HumBand^TM-Ausrüstung durchgeführt wurde. Da dies ein etwas umständlicher Vorgang wäre, würde kein Spieler dies als selbstverständliche Sache tun, es wäre jedoch in den Fällen ein sinnvoller Dienst, in denen der Darbietende eine besonders gute Aufnahme polieren und behalten möchte. Am wichtigsten ist, dass dies eine gute Werbefläche für die Ausrüstung am oberen Ende der Bandbreite liefern würde und dadurch die Verkaufszahlen anheben würde.
Lernspiele
Die Site HumJam.com könnte HumBandTM-Spiele zur Online-Nutzung oder zum Herunterladen sponsern. Ein Beispiel ist ein „Simon"-artiges Spiel, bei dem der Spieler eine Abfolge von Tönen nachahmen muss. Wenn der Spieler die Töne korrekt wiederholt, wird die Sequenz um einen anderen Ton erweitert. Zusätzlich dazu, dass er die Töne einfach in der richtigen Reihenfolge singt, muss der Spieler sie vielleicht auch mit unterschiedlichen Instrumentenklängen spielen, die zwischen Tönen wechseln, oder er muss sie vielleicht in wechselnden Oktaven spielen.
Infrarot-Vernetzung
Die HumBand^TM könnte mit einem Infrarottor gebaut werden, um eine drahtlose Vernetzung zwischen Instrumenten, die sich im selben Raum befinden, zu ermöglichen. Mögliche Verwendungen sind:

• Gemeinsam verwendete Lautsprecher. Die HumBand^TM jedes Spielers könnte die Ausgabe von allen teilnehmenden Spielern spielen, wobei jeder Person ermöglicht wird, durch seine eigene HumBand^TM die ganze Gruppe zu hören.
• Stille Jamsessions. Jeder Spieler schließt Kopfhörer an seine eigene HumBand^TM an und kann alle Instrumente spielen hören. Beobachter hören nur ein Bündel von Summtönen. Geeignet für lange Nächte und empfindliche Nachbarn.
• Synchronisation. Die HumBand^TM könnte sich automatisch an einen Beat anpassen, der durch eine zentrale Quelle vorgegeben ist oder über die diversen Spieler gemittelt ist, um Einsätze und Aufhebungen erkennen und erzeugen zu helfen. Dies würde unter Anfängern einen besser koordinierten Klang fördern, z. B. bei Schulkindern in HumBand^TM-Chorgruppen.
• Korrektur der Gruppentonhöhe. Dasselbe Konzept wie oben kann auf die Regulierung der Tonhöhe angewendet werden. Die Tonhöhekorrekturalgorithmen können dazu ausgelegt sein, den durchschnittlichen Spieler bestmöglich zu berücksichtigen, wobei sie die Tonhöhe von Ausreißern automatisch so anpassen, dass sie mit dem Rest der Band übereinstimmen.
• Eigenständiges Spiel. Mehrstimmige Stücke, die vorab aufgezeichnet wurden, können auf einer Gruppe von Instrumenten abgespielt werden, wobei jedes eine einzelne Stimme nimmt und sie zeitlich auf die anderen Instrumente abgestimmt spielt. Eine Gruppe von Instrumenten, die bedienungsfrei dasteht, könnte einen unheimlichen Eindruck einer unsichtbaren Band vermitteln. Oder bei richtiger Durchführung kann vor den Augen des Publikums eine eindrucksvolle Aufzeichnung ins Leben gerufen werden. Dies ist keine interaktive Anwendung der HumBand^TM, aber Freunden und Nachbarn ist dies vielleicht nicht klar ...
• Jam-Darbietungen vor Ort mit HumJam.com. Örtliche Jamsessions unter Gruppen von Freunden, die zusammen im selben Raum sitzen, könnten durch die HumJam.com-Website rundgesendet werden. Infrarot-Vernetzung, vernachlässigbare Latenz und eine niedrige Bandbreite ermöglichen, dass das LAN-Band die gesamte Darbietung live im Internet ausstrahlt.
• Automatische Teile. Da viele Töne gleichzeitig gespielt werden, kann die Harmonie abgeleitet werden, und neue musikalische Teile können automatisch erfunden und zusammen mit dem Rest der Band gespielt werden: Der Al-Improvisierende.
• Technisch ausgefeilte Interaktionen. Es besteht das Potential eines neuen Paradigmas einer musikalischen Zusammenarbeit, die entstehen kann, wenn alle Instrumente in der Band sowohl in Echtzeit verbunden werden als auch mit einem sehr hohen Steuerungsniveau bedient werden. Dies ist eine grundlegend andere Art von Zusammenspiel als es heutzutage in Bands existiert . Die Möglichkeiten einer Interaktion scheinen endlos, z. B.: Durch einen Dirigenten gesteuerte Darbietungen. Man stelle sich eine Band vor, bei der der Dirigent die Darbietung nicht nur indirekt durch händische Gesten, sondern direkt steuert, indem er die Instrumentenklänge jeder Gruppe dynamisch auswählt! Andere Parameter, z. B. Tonhöhe, Oktave und Lautstärke, könnten ebenfalls gesteuert werden. Die Avantgarde. Durch die Verwendung interaktiver Dynamik sorgen moderne Komponisten oft für zusätzliche Willkür und Komplexität bei Darbietungen. Jede HumBand könnte dazu programmiert sein, derart mit den anderen zu kooperieren, dass ein Spielen bestimmter Töne oder ein Auswählen bestimmter Parameter an einem Instrument die Parameter an einem anderen Instrument automatisch verändert. Ein organischer Synergismus könnte sich entwickeln, wenn die Spieler selbst von der fortwährenden Veränderlichkeit der Darbietung ebenso überrascht sind wie das Publikum.

Verwendung eines adaptiven Moduls bei dem FDM
Die Zuverlässigkeit des FDM kann durch die Hinzufügung eines adaptiven Moduls, z. B. eines neuralen Netzwerks, beträchtlich verbessert werden. In der Tat eignet sich die Architektur für das FDM sehr gut für diese Verbesserung. Der vorliegende Lösungsansatz besteht darin, das adaptive Modul in die Wellenformvergleichsroutine zu integrieren, um den Code im Kästchen 63 im Wesentlichen zu ersetzen. 33 zeigt ein neurales Vorwärtsregelungs-Mehrschicht-Perzeptronnetzwerk (neurales FFMLP-Netzwerk, FFMLP = feedforward multilayer perceptron), dessen Eingaben die Abtastwerte bei gleichmäßig beabstandeten Intervallen entlang der Wellen sind. Die erste Wellenform (zwischen t_start und t_aufteilen) wird in die Eingangsschicht 334 eingegeben, und Abtastwerte von der Welle zwischen t_aufteilen und t_aktuell werden in deine Eingangsschicht 336 eingegeben. Verbindungen von den Eingangsschichten werden anschließend zu der verborgenen Schicht 332 weitergeleitet, und Verbindungen von dieser Schicht werden zu dem einzigen Ausgangsknoten 338 weitergeleitet. Die gewünschte Ausgabe des Letzteren, d. h. des Netzwerks, ist die Wahrscheinlichkeit, dass die Form der ersten Welle mit der Form der zweiten Welle übereinstimmt. Die Variable „Differenz" (siehe 9) ist so definiert, dass sie auf eine gewisse Weise invers mit dieser Wahrscheinlichkeit in Beziehung steht.
Es gibt viele Arten, die Eingabe in das Netzwerk vorab zu verarbeiten, und es gibt viele Arten von adaptiven Modulen, die denselben Zweck erfüllen könnten. Ferner kann ein Netzwerk oder ein anderer adaptiver Algorithmus gebaut werden, um sowohl das Kästchen 62 als auch das Kästchen 63 zu ersetzen. Der Algorithmus nimmt eine spezifische Anzahl der jüngsten Abtastwerte als seine Eingabe, und der Algorithmus ist trainiert, an seinem Ausgang eine Schätzung für den Aufteilungspunkt innerhalb dieser Werte zu erzeugen. Jedoch besteht der Vorteil des FDM darin, dass im Vergleich zu standardmäßigen Autokorrelations-Lösungsansätzen ein viel kleinerer Satz von Wellen auf eine Übereinstimmung hin getestet wird. Das FDM ist somit sogar dann immer noch effizient, wenn ein komplexeres und adaptiveres Formvergleichsmodul das Kästchen 63 ersetzt.
Eine sehr populäre Art und Weise, ein FFMLP zu trainieren, beinhaltet einen Rückausbreitungsalgorithmus. Wie bei jedem überwachten Lernverfahren erfordert das Netzwerk Beispiele erwünschter Ausgaben für gegebene Eingaben. Eine große Sammlung von Klangdateien (SFs – sound files) muss von einem repräsentativen Teilsatz der erwarteten Benutzerpopulation erhalten werden, und diese Dateien werden anschließend markiert, wo es angebracht ist, um zu benennen, welche die gewünschten Eingaben und Ausgaben sein sollen. Beispielsweise könnte jede Klangdatei eine begleitende Markierungsdatei aufweisen, die Tripletts der Form t_start, t_aufteilen und t_aktuell enthält, die Versätze in der Wellendatei benennen, zusammen mit Zielwerten für das Kästchen 108. Der Zielwert ist gleich Eins, wenn die Segmente übereinstimmen, und Null, wenn sie nicht übereinstimmen. Diese Art überwachten Trainings für FFMLPs kennt und versteht man ziemlich gut. Alternativ dazu könnte der Benutzer eine Rückmeldung direkt an das Netzwerk liefern, wenn die durch das HumHorn erzeugte Tonhöhe falsch ist. In beiden Fällen passt sich das Netzwerk an, um die Fehlerwahrscheinlichkeit in ähnlichen Situationen in der Zukunft zu verringern.
Obwohl die Erfindung hierin unter Bezugnahme auf das bevorzugte Ausführungsbeispiel beschrieben wird, werden Fachleute ohne weiteres erkennen, dass die hierin dargelegten Anwendungen durch andere Anwendungen ersetzt werden können, ohne von dem Schutzumfang der vorliegenden Erfindung abzuweichen. Demgemäß sollte die Erfindung lediglich durch die nachfolgend enthaltenen Patentansprüche beschränkt sein, so dass lediglich die unabhängigen Patentansprüche die Erfindung definieren.

Claims

Ein in der Hand zu haltendes, in sich abgeschlossenes, sprachgesteuertes elektronisches Musikinstrument, das ein Mundstück (5), an dem die Stimme eines Benutzers eintritt, ein Signalanalysemodul (SAM, 33), das ein Eingangssignal (40) von dem Mundstück (5) empfängt, eine oder mehrere Benutzersteuerungen (FAC, 1a, 1b, 37), eine oder mehrere Klangwiedergabevorrichtungen (34, 35, 36), die mit dem Signalanalysemodul (SAM, 33) gekoppelt sind, ein Gehäuse (11), wobei das Mundstück (5), die eine oder die mehreren Benutzersteuerungen (FAC, 1a, 1b, 37) und die eine oder die mehreren Klangwiedergabevorrichtungen (34, 35, 36) gänzlich innerhalb der Grenzen des Gehäuses (11) enthalten sind, aufweist und das ferner folgende Merkmale aufweist ein Klangsynthetisierungsmodul (SSM, 38), das mit dem Signalanalysemodul (SAM, 33) gekoppelt und gänzlich innerhalb der Grenzen des Gehäuses (11) enthalten ist; und wobei das Signalanalysemodul (SAM, 33) die Frequenz des Eingangssignals (40) identifiziert und ein Frequenzausgangssignal (42) liefert, das dieselbe angibt, und die Lautheit des Eingangssignals (40) bestimmt und ein Lautheitsausgangssignal (43) liefert, das dieselbe angibt; wobei das Klangsynthetisierungsmodul (SSM, 38) sowohl das Frequenzausgangssignal (40) als auch das Lautheitsausgangssignal (43) von dem Signalanalysemodul (SAM, 33) empfängt, wobei das Klangsynthetisierungsmodul (SSM, 38) das Frequenzausgangssignal (40) in ein Tonhöhesignal transformiert (162) und das Lautheitsaus gangssignal (43) in einen Volumensteuerwert umwandelt (163), um ein Ausgangsprobensignal zu erzeugen, das im Wesentlichen sowohl die Tonhöhe als auch das Volumen der Stimme des Benutzers erfasst; wobei die eine oder die mehreren Klangwiedergabevorrichtungen (34, 35, 36) das Ausgangsprobensignal empfangen und einen Ausgangsklang (13) erzeugen, der im Wesentlichen sowohl die Tonhöhe als auch das Volumen der Stimme des Benutzers erfasst und den Klang eines traditionellen Instruments imitieren kann; wobei die Tonhöhe und das Volumen des Instruments im Wesentlichen der Tonhöhe und dem Volumen der Stimme des Benutzers folgen.
Das Instrument gemäß Anspruch 1, bei dem das Signalanalysemodul (SSM, 38) folgendes Merkmal aufweist: eine Tonhöheerfassungstechnik, um die Frequenz des Eingangssignals (40) für das sprachgesteuerte elektronische Musikinstrument zu identifizieren.
Das Instrument gemäß Anspruch 2, bei dem die Tonhöheerfassungstechnik folgende Schritte umfasst: Bestimmen kürzlich erfolgter Zeitschritte; Summieren von Unterschieden über eine kleine Teilmenge von kürzlich erfolgten Zeitschritten, um eine richtige Grundfrequenz zu finden; Bestimmen von Wellensegmenten; und Vergleichen lediglich von Wellensegmenten, die durch Wellenformmerkmale wie z.B. Spitzen oder Nulldurchgänge begrenzt sind.
Das Instrument gemäß Anspruch 1, bei dem das Gehäuse (11) in einer Form gebildet ist, die ein Musikinstrument darstellt.
Das Instrument gemäß Anspruch 1, bei dem das Signalanalysemodul (SAM, 33) ferner folgende Merkmale aufweist: ein Frequenzerfassungsmodul (FDM, 45) zum Empfangen des Eingangssignals (40), zum Identifizieren der Frequenz des Eingangssignals und zum Liefern des Frequenzausgangssignals (42), das dieselbe angibt, an das Klangsynthetisierungsmodul (SSM, 38); ein Lautheitnachverfolgungsmodul (LTM, 47) zum Empfangen des Eingangssignals (40), zum Bestimmen der Lautheit des Eingangssignals (40) und zum Liefern des Lautheitsausgangssignals (43), das dieselbe angibt, an das Klangsynthetisierungsmodul (SSM, 38); und ein Toneinsatzmodul (PADM, 46) zum Empfangen des Eingangssignals (40), zum Bestimmen eines Ton-Ein-/-Aus-Werts und eines Einsatzwerts und zum Liefern eines Ton-Ein-/-Aus-Ausgangssignals (41) und eines Einsatzausgangssignals (44), die dieselben angeben, an einen Klangsynthetisierer (SSM, 38).
Das Instrument gemäß Anspruch 1, bei dem zumindest eine der einen oder der mehreren Benutzersteuerungen (FAC, 37, 1a, 1b) entweder eine Steuerung, die auf eine Betätigung eines Benutzers hin umschaltet und in ihrer Position verbleibt, oder eine Steuerung, die auf eine Freigabe durch einen Benutzer hin zurückkehrt, umfasst.
Das Instrument gemäß Anspruch 1, bei dem das Klangsynthetisierungsmodul (SSM, 38) auf steuerbare Weise wirksam ist, um entweder eine kontinuierliche Tonhöhe nachverfolgung oder eine diskrete Tonhöhenachverfolgung zu liefern (162), wobei das Tonhöhesignal der exakten Frequenz des Frequenzausgangssignals (40) während der kontinuierlichen Tonhöhenachverfolgung entspricht, und wobei das Tonhöhesignal dem Ton entspricht, der während der diskreten Tonhöhenachverfolgung am nächsten bei dem Frequenzausgangssignal (40) liegt; und wobei zumindest eine der einen oder der mehreren Benutzersteuerungen (FAC, 37, 1a, 1b) einen Schalter umfasst, der auf wählbare Weise entweder die kontinuierliche Tonhöhenachverfolgung oder die diskrete Tonhöhenachverfolgung einstellen kann, wobei der Schalter bei der ausgewählten Tonhöhenachverfolgung bleibt, nachdem dieselbe eingestellt wurde.
Das Instrument gemäß Anspruch 1, bei dem das Klangsynthetisierungsmodul (SSM, 38) auf steuerbare Weise wirksam ist, um entweder eine kontinuierliche Tonhöhenachverfolgung oder eine diskrete Tonhöhenachverfolgung zu liefern (162), wobei das Tonhöhesignal der exakten Frequenz des Frequenzausgangssignals (40) während der kontinuierlichen Tonhöhenachverfolgung entspricht, und wobei das Tonhöhesignal dem Ton entspricht, der während der diskreten Tonhöhenachverfolgung am nächsten bei dem Frequenzausgangssignal (40) liegt; und wobei zumindest eine der einen oder der mehreren Benutzersteuerungen (FAC, 1a, 1b, 37) eine Taste (FAC, 1a, 1b, 37) umfasst, die das Instrument vorübergehend von der kontinuierlichen Tonhöhenachverfolgung zu der diskreten Tonhöhenachverfolgung wechseln lässt, wobei, wenn der Benutzer das Instrument in der kontinuierlichen Tonhöhenachverfolgung bedient und eine Tonhöhe auswählen oder eine Tonleiter in einem Musikmodus singen möchte, der Benutzer die Taste (FAC, 1a, 1b, 37) drücken und, wenn er fertig ist, unverzüglich loslassen kann.
Das Instrument gemäß Anspruch 1, bei dem das Klangsynthetisierungsmodul (SSM, 38) auf steuerbare Weise wirksam ist, um entweder eine kontinuierliche Tonhöhenachverfolgung oder eine diskrete Tonhöhenachverfolgung zu liefern (162), wobei das Tonhöhesignal der exakten Frequenz des Frequenzausgangssignals (40) während der kontinuierlichen Tonhöhenachverfolgung entspricht, und wobei das Tonhöhesignal dem Ton entspricht, der während der diskreten Tonhöhenachverfolgung am nächsten bei dem Frequenzausgangssignal (40) liegt; und bei dem zumindest eine der einen oder der mehreren Benutzersteuerungen (FAC, 1a, 1b, 37) eine Taste umfasst, mittels derer ein Benutzer, während das Instrument für die diskrete Tonhöhenachverfolgung eingestellt wird, vorübergehend zu einer anderen Tonhöhe ziehen kann, einschließlich einer außerhalb eines aktuellen Musikmodus liegenden Tonhöhe, indem er vorübergehend die Taste drückt.
Das Instrument gemäß Anspruch 1, bei dem zumindest eine der einen oder der mehreren Benutzersteuerungen (FAC, 1a, 1b, 37) eine Taste zum Wechseln zwischen Oktaven umfasst.
Das Instrument gemäß Anspruch 1, bei dem das Gehäuse (11) folgende Merkmale umfasst: einen Innenbehälter und einen Außenmantel; wobei der Innenbehälter das Signalanalysemodul (SAM, 33) enthält; und wobei der Außenmantel so hergestellt ist, dass er einem traditionellen Musikinstrument ähnelt.
Das Instrument gemäß Anspruch 11, bei dem der Außenmantel das Mundstück (5) und/oder die eine oder die mehreren Klangwiedergabevorrichtungen (34, 35, 36) enthält.
Das Instrument gemäß Anspruch 1, das ferner folgendes Merkmal aufweist: eine Stromquelle, die gänzlich innerhalb der Grenzen des Gehäuses (11) enthalten ist.
Das Instrument gemäß Anspruch 11, bei dem der Innenbehälter und der Außenmantel so gebildet sind, dass sie zusammenpassen, wobei der Außenmantel eine Instrumentbeschreibung und einen Kommunikationsweg umfasst, der Informationen an den Innenbehälter liefert, die eine Beschreibung eines tatsächlichen Instrumentenklanges umfassen, der durch ein traditionelles Instrument erzeugt wird, dem der Außenmantel ähnelt; bei dem ein Herausziehen des Innenbehälters aus dem Außenmantel, wobei der Außenmantel in Form eines Instruments erzeugt ist, und ein Einfügen desselben in einen anderen Außenmantel, der in Form eines anderen Instruments vorgesehen ist, den Innenbehälter dazu konfiguriert, einen Klang zu liefern, der durch ein Instrument erzeugt wird, dem der Außenmantel, mit dem der Innenbehälter derzeit ein Paar bildet, ähnelt.
Das Instrument gemäß Anspruch 14, bei dem ein physischer Schlüssel auf einer Innenoberfläche des Außenmantels in einen entsprechenden Schlitz auf einer Außenseite des Innenbehälters passt, um das Instrument dazu zu konfigurieren, einen Klang wiederzugeben, der einem tatsächlichen Instrument zugeordnet ist, das die Form aufweist, die durch den Außenmantel dargestellt wird.
Das Instrument gemäß Anspruch 14, das ferner folgendes Merkmal aufweist: eine Mehrzahl unterschiedlicher Außenmäntel, die so hergestellt sind, dass der Benutzer nicht nur den auditiven Eindruck, sondern auch einen taktilen und visuellen Eindruck erhält, ein spezifisches Musikinstrument zu spielen.
Das Instrument gemäß Anspruch 1, bei dem das Gehäuse (11) in Form entweder einer Trompete, einer Posaune, eines Saxophons, einer Oboe, eines Fagotts, einer Klarinette, einer Flöte, eines Klaviers, einer elektrischen Gitarre oder einer Pfeife vorgesehen ist.
Das Instrument gemäß Anspruch 1, bei dem das Signalanalysemodul (SAM, 33) eine Kombination einer Autokorrelation und eines Nulldurchgangs oder einer spitzenbasierten Tonhöheerfassung implementiert.
Das Instrument gemäß Anspruch 6, bei dem die eine oder die mehreren Benutzersteuerungen (FAC, 37, 1a, 1b) ferner eine beliebige der folgenden umfasst beziehungsweise umfassen: eine Musikmodus-Auswahltaste und eine Tonika-Einstelltaste für einen Musikmodus, wobei die Tonikaeinstellung eine Auswahl dessen umfasst, ob eine aktuelle Tonhöhe ein erster Ton in dem Musikmodus ist.
Das Instrument gemäß Anspruch 6, bei dem die eine oder die mehreren Benutzersteuerungen (FAC, 37, 1a, 1b) ferner folgendes Merkmal umfasst beziehungsweise umfassen: zumindest eine Instrumentenauswahltaste (FAC, 37, 1a, 1b) zum Bewirken eines dauerhaften oder vorübergehenden Instrumentenwechsels, optional durch dauerhaftes oder vorübergehendes Zuweisen eines Instruments zu einer Taste (FAC, 37, 1a, 1b), wobei ein Pressen der Taste (FAC, 37, 1a, 1b) einen durch das Instrument erzeugten Klang zu einem Klang eines anderen Instruments verändert, das der Taste (FAC, 37, 1a, 1b) zugewiesen ist, bis die Taste (FAC, 37, 1a, 1b) losgelassen oder gewechselt wird.
Das Instrument gemäß Anspruch 13, bei dem das Gehäuse (11) folgende Merkmale aufweist: einen Innenbehälter und einen Außenmantel; wobei die Stromquelle in dem Außenmantel enthalten ist; wobei der Innenbehälter das Signalanalysemodul (SAM, 33) enthält; und wobei der Außenmantel so hergestellt ist, dass er einem traditionellen Musikinstrument ähnelt.