DE68907616T2

DE68907616T2 - Verfahren und Gerät zur Musiktranskribierung.

Info

Publication number: DE68907616T2
Application number: DE89103498T
Authority: DE
Inventors: Masaki Fujimoto; Masanori Mizuno; Yosuke Takashima; Shichirou Tsuruta
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1988-02-29
Filing date: 1989-02-28
Publication date: 1994-03-03
Anticipated expiration: 2009-03-01
Also published as: AU614582B2; KR890013602A; AU3079689A; EP0331107B1; EP0331107A2; DE68907616D1; EP0331107A3; KR970009939B1

Description

Die vorliegende Erfindung betrifft ein Verfahren und ein Gerät zur automatischen Musiktranskribierung für die Erstellung von Partiturtranskriptionsdaten von stimmlichen Tönen in Liedern, Summstimmen und Musikinstrumenttönen.
Ein solches in der Technik bekannte Transkriptionssystem ist in der UK-Patentanmeldung GB-A-2 139 405A offenbart, wobei die musikalische Tonhöhe und der Zeitwert durch Verwendung einer schnellen Fourier-Transformierungsoperation und einer Leistungsspektrumberechnung bestimmt und die erhaltenen Werte angezeigt werden.
Bei einem automatischen Musiktranskriptionssystem zur Transformation akustischer Signale, wie jene von stimmlichen Tönen in Liedern, Summstimmen und Musikinstrumenttönen, zu Partiturdaten ist es notwendig, aus den akustischen Signalen die Tondauer, Tonabstände, Tonarten, Taktarten und Tempi, die für Partituren die grundlegende Information darstellen, zu entnehmen.
Da akustische Signale eine Art von Signalen sind, die ständige Wiederholungen von Grundwellenformen enthalten, ist es im allgemeinen nicht möglich, die obengenannte Information unmittelbar zu erhalten.
Daher haben die Antragsteller bereits ein automatisches Musiktranskriptionssystem vorgeschlagen, das zum Beispiel in der ungeprüften japanischen Patentanmeldung Nr. 62-178409 offenbart ist.
Dieses automatische Musiktranskriptionssystem, das in Fig. 1 dargestellt ist, besteht aus einem Autokorrelationsanalysiermittel 14 zur Umsetzung gesummter stimmlicher Tonsignale 11 in digitale Signale durch einen Analog/Digital (A/D-) Wandler 12 und somit zur Entwicklung stimmlicher Tondaten l3 und zur Erlangung von Informationen über Tonhöhe und Tonstärke 15 aus den stimmlichen Tondaten 13; sowie aus einem Segmentierungsmittel 16 zur Unterteilung des eingegebenen Liedes oder der gesummten Töne in eine Mehrzahl von Segmenten auf der Basis der Tonstärkeninformation, die von dem obengenannten Autokorrelationsanalysiermittel gewonnen wurde; einem Tonintervallidentifizierungsmittel 17 zur Identifizierung des Tonintervalls auf der Basis der obengenannten Tonhöhendaten in bezug auf jedes der durch das obengenannte Segmentierungsmittel erstellten Segmente; einem Tonartbestimmungsmittel 18 zur Bestimmung der Tonart des eingegebenen Liedes oder der gesummten stimmlichen Töne auf der Basis des durch das obengenannte Tonintervallidentifizierungsmittel bestimmten Tonintervalls; einem Tempo- und Taktbestimmungsmittel 19 zur Bestimmung von Tempo und Takt des eingegebenen Liedes oder der gesummten stimmlichen Töne auf der Basis der durch Teilung von dem obengenannten Segmentierungsmittel erhaltenen Segmente; einem Partiturdatenkompiliermittel 110 zur Erarbeitung von Partiturdaten auf der Basis der Ergebnisse, die von dem obengenannten Segmentierungsmittel, Tonintervallidentifizierungsmittel und Tonartbestimmungsmittel und Tempo- und Taktartenbestimmungsmittel zur Verfügung gestellt werden; und ein Partiturdatenausgabemittel 111 zur Erzeugung einer Ausgabe der Partiturdaten 112, die durch das obengenannte Partiturdatenkompiliermittel erarbeitet wurden.
In dieser Hinsicht muß festgehalten werden, daß akustische Signale wie jene von stimmlichen Tönen in Liedern, gesummten Stimmen und Musikinstrumenttönen aus Wiederholungen von Grundwellenformen bestehen. In einem automatischen Musiktranskriptionssystem zur Transformierung solcher akustischer Signale in Partiturdaten ist es zunächst notwendig, für jeden analytischen Zyklus die Wiederholungsfrequenz der Grundwellenform in dem akustischen Signal zu ermitteln. Diese Frequenz wird in der Folge als "die Tonhöhenfrequenz" bezeichnet und ihr entsprechender Zyklus wird als "Tonhöhenzyklus" bezeichnet, und der Begriff, der die Kombination von diesen darstellt, wird als "Tonhöhe" verstanden, um verschiedene Arten von Information zu Punkten wie Tonintervall und Tondauer in akustischen Signalen genau zu bestimmen.
Zu den bestehenden Bestimmungsverfahren zählen die Frequenzanalyse und Autokorrelationsanalyse, die in der Bereichen der stimmlichen Tonsynthese und stimmlichen Tonerkennung entwickelt wurden. Dennoch wurde bisher die Autokorrelationsanalyse verwendet, da sie die Tonhöhe ohne Beeinträchtigung durch Geräusche in der Umgebung ermitteln kann und zusätzlich eine leichte Verarbeitung ermöglicht.
In dem obengenannten automatischen Partiturtranskriptionssystem ermittelt das System die Autokorrelationsfunktion nach der Umwandlung von akustischen Signalen in Digitalsignale. Daher kann eine Autokorrelationsfunktion nur für jeden Abtastzyklus ermittelt werden.
Daher kann die Tonhöhe nur durch die Auflösung, die durch diesen Abtastzyklus bestimmt wird, ermittelt werden. Wenn die Auflösung einer derart ermittelten Tonhöhe gering ist, dann besitzen das Intervall und die Dauer des Tons, die durch die in der Folge beschriebenen Verfahren bestimmt werden, ein geringes Maß an Genauigkeit.
Weiterhin ist es denkbar, eine höhere Frequenz für das Abtasten zu verwenden, aber eine solche Methode führt infolge eines Anstiegs in der für die Rechenoperationen zu verarbeitenden Datenmenge, wie jene für die Berechnung der Autokorrelationsfunktion, wahrscheinlich dazu, daß das System nicht imstande ist, eine Echtzeitverarbeitung auszuführen, wie auch zu einer voluminöseren Konstruktion des Gerätes für das automatische Musiktranskriptionssystem und somit zu einem höheren Preis.
Akustische Signale haben das charakteristische Merkmal, daß ihre Tonstärke unmittelbar nach einer Veränderung im Ton erhöht wird, und dieses Merkmal wird in der Segmentierung einer Tonfolge auf der Basis der Tonstärkeninformation genutzt.
Akustische Signale, insbesondere jene, die in von Menschen gesungenen Liedern vorhanden sind, müssen jedoch nicht unbedingt ein bestimmtes Muster in der Veränderung ihrer Tonstärkeninformation enthalten, sondern weisen in Beziehung auf das Veränderungsmuster Fluktuationen auf. Zusätzlich enthalten solche Signale auch abrupte Töne, wie Geräusche von außen. Unter diesen Umständen hat eine einfache Tonsegmentierung mit dem Schwerpunkt auf der Veränderung in der Tonstärkeninformation nicht unbedingt zu einer guten Unterteilung der einzelnen Töne geführt.
In dieser Hinsicht wird festgestellt, daß akustische Signale, die von einem Menschen erzeugt werden, auch in der Tondauer nicht stabil sind. Das heißt, solche Signale weisen viele Fluktuationen in der Tonhöhe auf. Dies stellt ein Hindernis in der Durchführung einer guten Segmentierung auf der Basis der Tonhöheninformation dar.
Somit sind angesichts der in der Tonhöheninformation bestehenden Fluktuationen die herkömmlichen Systeme so konstruiert, daß sie in einigen Fällen zwei oder mehrere Töne als ein einziges Segment behandeln.
Darüberhinaus eignen sich selbst jene Töne, die von Musikinstrumenten erzeugt werden, in einigen Fällen nicht leicht für die Segmentierung auf der Basis der Tonhöheninformation wegen der Umgebungsgeräusche, die in die Tonhöheninformation eindringen, nachdem sie von der akustischen Signal-Eingabevorrichtung zur Umsetzung der akustischen Signale in elektrische Signale erfaßt wurden.
Da nun Tonabstände, Taktarten, Tempi usw. auf der Basis von Tonsegmenten (Tondauer) bestimmt werden müssen, ist das Segmentierungsverfahren ein sehr wichtiger Faktor, besonders in der Erarbeitung von Partiturdaten, und da eine verminderte Genauigkeit der Segmentierung eine deutliche Verringerung in der Genauigkeit der schließlich entwickelten Partiturdaten bedingt, ist es wünschenswert, daß die Genauigkeit des Segmentierungsverfahrens selbst, das auf der Tonstärkeninformation beruht, sowohl für den Fall, in dem die endgültige Segmentierung auf der Basis sowohl der Ergebnisse der auf der Tonhöheninformation beruhenden Segmentierung als auch der Ergebnisse der auf der Tonstärkeninformation beruhenden Segmentierung durchgeführt wird, als auch für den Fall, in dem die endgültige Segmentierung auf der Basis der Tonstärkeninformation durchgeführt wird, verbessert wird.
Der Versuch, Segmente, die aus akustischen Signalen bestehen, mit Bezugnahme auf ein Tonintervall auf der Achse eines absoluten Tonintervalls zu identifizieren, würde nun zur der Erkenntnis führen, daß akustische Signale, besonders jene akustischen Signale, die von einem Menschen hervorgebracht werden, in ihrem Tonintervall nicht stabil sind und beträchtliche Fluktuationen in der Tonhöhe aufweisen, selbst wenn dieselbe Tonhöhe (oder 1 Ton) beabsichtigt ist. Dies hat die Durchführung der Identifizierung eines Tonintervalls solcher Signale erschwert.
Bei einem Übergang von einem Ton zu einem anderen kommt es vor allem oft vor, daß kein gleichmäßiger Übergang zu der Tonhöhe des folgenden Tons möglich ist, wobei Fluktuationen in der Tonhöhe zuvor und danach auftreten. Folglich wurde ein solcher Teil im Laufe eines Segmentierungsverfahrens oft als ein Abschnitt eines anderen Tones angesehen, mit dem Ergebnis, daß er bei der Identifizierung eines Tonintervalls einer anderen Tonhöhe zugeordnet wurde.
Um dies genauer zu erklären: für das obengenannte automatische Musiktranskriptionssystem werden Methoden, die eine einfache Rechenoperation ermöglichen, wie eine Methode zur Identifizierung eines bestimmten Tones mit einer Tonhöhe, die auf der absoluten Achse dem Durchschnittswert der Tonhöheninformation innerhalb des Segments am nächsten ist, oder mit einer Tonhöhe, die die auf der absoluten Achse dem Mittelwert der Tonhöheninformation des Segments am nächsten ist, in Betracht gezogen. Bei einer solchen Methode ist es möglich, das Tonintervall gut zu identifizieren, selbst wenn das akustische Signal Fluktuationen aufweist, wenn der Unterschied im Tonintervall zwischen zwei angrenzenden Tönen auf einer Tonleiter ein ganzer Ton ist, zum Beispiel do und re in der C-Dur Tonleiter, wenn aber der Unterschied im Tonintervall zwischen zwei angrenzenden Tönen ein Halbton ist, zum Beispiel mi und fa in der C-Dur Tonleiter, kann es manchmal wegen der Fluktuationen in der Tonhöhe der akustischen Signale zu einer mangelnden Genauigkeit in der Identifizierung des Tonintervalls kommen. So kam es manchmal vor, daß ein Ton, der in der C-Dur Tonleiter mi sein sollte, als fa identifiziert wurde.
Da das Tonintervall gemeinsam mit der Tondauer ein wesentliches Element darstellt, ist eine genaue Identifizierung erforderlich, und wenn diese genaue Identifizierung nicht möglich ist, ist die Genauigkeit der erhaltenen Partiturdaten gering.
Andererseits ist die Tonart eines akustischen Signals nicht nur ein Element von Partiturdaten, sondern auch ein wesentlicher Schlüssel für die Bestimmung eines Tonintervalls, da eine Tonart in einer gewissen Beziehung zu einem Tonintervall und vor allem zu der Häufigkeit des Auftretens eines Tonintervalls steht. Daher ist es für die Verbesserung der Genauigkeit eines Tonintervalls wünschenswert, die Tonart zu bestimmen und das identifizierte Tonintervall zu überprüfen, und es ist wünschenswert, daß die Tonart der akustischen Signale richtig bestimmt wird.
Ferner weichen, wie oben erwähnt, die Tonintervalle akustischer Signale, besonders jener, die von menschlichen Stimmen hervorgebracht werden, von dem absoluten Tonintervall ab und je größer diese Abweichung ist, desto ungenauer ist das auf der Tonintervallachse identifizierte Tonintervall, was zu einer verringerten Genauigkeit der schließlich erarbeiteten Musiktranskriptionsdaten geführt hat.
Das in der veröffentlichten Patentanmeldung Nr. 62-178409 von der gegenwärtigen Anmelderin offenbarte obengenannte automatische Musiktranskriptionssystem und -gerät konnte eine geringe Genauigkeit in den erhaltenen Partiturdaten erzielen, so daß es sich als schwierig herausstellte, diese in der Praxis zu anzuwenden.
Die vorliegende Erfindung wurde mit Berücksichtigung der obengenannten Probleme geschaffen. Daher ist es ein primäres Ziel der Erfindung, ein in der Praxis verwendbares System und Gerät zur automatischen Musiktranskription zu schaffen, das die Genauigkeit der endgültigen Partiturdaten verbessern kann.
Ein weiteres Ziel der vorliegenden Erfindung ist die Schaffung eines Systems und Gerätes zur automatischen Musiktranskription, das die Genauigkeit der endgültigen Partiturdaten durch eine gute Durchführung der Segmentierung auf der Basis der Tonstärkeninformation oder Tonhöheninformation verbessern kann, ohne durch Fluktuationen in akustischen Signalen oder das abrupte Eindringen von Umweltgeräuschen beeinflußt zu werden.
Ein weiteres Ziel der vorliegenden Erfindung ist der Vorschlag einer neuartigen Methode zur Identifizierung von Tonintervallen, die Tonleiter genau identifizieren können, sowie die Schaffung eines Systems und Gerätes zur automatischen Musiktranskription, die weitere Verbesserungen in der Genauigkeit der endgültigen Partiturdaten ermöglichen.
Ein weiteres Ziel der vorliegenden Erfindung ist die Schaffung eines Systems und Gerätes zur automatischen Musiktranskription für die Verbesserung der Genauigkeit der endgültigen Partiturdaten aufgrund ihrer Fähigkeit, genauere Information über das Tonintervall durch Korrektur der Tonhöhe eines Segments zu erhalten, das mit einem Tonintervall identifiziert wurde, das sich wegen der Fluktuationen, die in dem Tonintervall zum Zeitpunkt des Überganges zum nächsten Ton in einem akustischen Signal auftreten, von jenem unterscheidet, das beispielsweise von einem Sänger beabsichtigt war, wobei eine solche Korrektur in bezug auf die Tonintervallinformation über das vorangehende Segment und das folgende Segment durchgeführt wird.
Ein weiteres Ziel der vorliegenden Erfindung ist die Schaffung eines Systems und Gerätes zur automatischen Musiktranskription, die die Tonart von akustischen Signalen genau bestimmen und in der Genauigkeit der endgültigen Partiturdaten weitere Verbesserungen erzielen können.
Ein weiteres Ziel der vorliegenden Erfindung ist die Schaffung eines Systems und Gerätes zur automatischen Musiktranskription, die imstande sind, das Ausmaß der Abweichung der Tonintervallachse eines akustischen Signals von der Achse des absoluten Tonintervalls festzustellen, wobei eine Korrektur der Tonhöheninformation im Verhältnis zu einer solchen Abweichung vorgenommen wird und dadurch die Kompilierung der Partiturdaten in dem folgenden Verfahren verbessert werden kann.
Ein weiteres Ziel der vorliegenden Erfindung ist die Schaffung einer Methode und eines Gerätes zur Ermittlung der Tonhöhe, die die Tonhöhe eines akustischen Signals mit großer Genauigkeit ohne Verwendung einer höheren Abtastfrequenz ermitteln können.
Für das Erreichen dieser und anderer Ziele schafft die vorliegende Erfindung ein Verfahren zur Musiktranskribierung, wie in Anspruch 1 offenbart ist, und ein Gerät, wie in Anspruch 22 beschrieben ist. Weitere vorteilhafte Merkmale dieses Verfahrens gehen aus den abhängigen Ansprüchen hervor. Das automatische Musiktranskriptionssystem gemäß der vorliegenden Erfindung besteht aus der Gewinnung der Tonhöheninformation und der Tonstärkeninformation aus dem eingegebenen akustischen Signal, Korrektur der Tonhöheninformation im Verhältnis zu dem Ausmaß der Abweichung der Tonintervallachse für das obengenannte akustische Signal von der absoluten Tonintervallachse, Unterteilung des akustischen Signals in einzelne Tonsegmente auf der Basis der korrigierten Tonhöheninformation, während auch das akustische Signal in einzelne Tonsegmente auf der Basis der Veränderungen in der Tonstärkeninformation unterteilt wird, Durchführung genauerer Unterteilungen des akustischen Signals auf der Basis der von diesen beiden Schritten erhaltenen Segmentinformation, Identifizierung der Tonintervalle der akustischen Signale in den einzelnen Segmenten entlang der Achse des absoluten Tonintervalls mit Bezugnahme auf die Tonhöheninformation, und ferner neuerliche Unterteilung des akustischen Signals in einzelne Tonsegmente aufgrund des Umstandes, ob die identifizierten Tonintervalle der fortlaufenden Segmente identisch sind, Bestimmung der Tonart des akustischen Signals auf der Basis der gewonnenen Tonhöheninformation, Korrektur des vorgeschriebenen Tonintervalls auf der Tonleiter für die bestimmte Tonart auf der Basis der Tonhöheninformation, Bestimmung von Takt und Tempo des akustischen Signals auf der Basis der Segmentinformation, und schließlich Kompilierung der Partiturdaten aufgrund der Information über Tonintervall, Tondauer, Tonart, Takt und Tempo gemäß der Bestimmung.
Zur Erreichung der obengenannten Ziele ist das automatische Musiktranskriptionssystem der vorliegenden Erfindung ferner mit einem Mittel zur Gewinnung der Tonhöheninformation und der Tonstärkeninformation aus dem eingegebenen akustischen Signal versehen, sowie mit einem Mittel zur Korrektur der Tonhöheninformation in Übereinstimmung mit dem Ausmaß der Abweichung des Tonintervalls für das akustische Signal in bezug auf die Achse des absoluten Tonintervalls, einem Mittel zur Unterteilung des akustischen Signals in einzelne Tonsegmente auf der Basis der korrigierten Tonhöheninformation, einem Mittel zur Unterteilung des akustischen Signals in Einzeltonsegmente auf der Basis der Veränderungen in der Tonstärkeninformation, einem Mittel zur weiteren Unterteilung des akustischen Signals in Segmente auf der Basis beider dieser so erhaltenen Segmentinformationssätze, einem Mittel zur Identifizierung der Tonintervalle für die akustischen Signale in den einzelnen Segmenten entlang der Achse des absoluten Tonintervalls, einem Mittel zur neuerlichen Unterteilung des akustischen Signals in einzelne Tonsegmente aufgrund des Umstandes, ob die Tonintervalle der identifizierten fortlaufenden Segmente identisch sind, einem Mittel zur Bestimmung der Tonart des akustischen Signals auf der Basis der gewonnenen Tonhöheninformation, einem Mittel zur Korrektur dem vorgeschriebenen Tonintervalls für die bestimmte Tonart auf der Basis der Tonhöheninformation, einem Mittel zur Bestimmung von Takt und Tempo des akustischen Signales auf der Basis der Segmentinformation, und schließlich einem Mittel zur Kompilierung der Partiturdaten aus der Information über Tonintervall, Tondauer, Tonart, Takt und Tempo gemäß der Bestimmung.
Zur Erreichung der obengenannten Ziele ist das automatische Musiktranskriptionssystem gemäß der vorliegenden Erfindung ferner dadurch gekennzeichnet, daß es ein Mittel zur Eingabe akustischer Signale umfaßt, sowie ein Mittel zur Verstärkung der so eingegebenen akustischen Signale, ein Mittel zur Umsetzung der verstärkten analogen Signale in digitale Signale, ein Mittel zur Gewinnung der Tonhöheninformation durch Ausführung einer Autokorrelationsanalyse der digitalen akustischen Signale und zur Gewinnung der Tonstärkeninformation durch Ausführung der Operationen zur Bestimmung der Quadratsumme, einem Speichermittel zur Speicherung des vorgeschriebenen Musiktranskribierungsverfahrens, ein Steuermittel zur Ausführung des in dem Speichermittel gespeicherten Musiktranskribierungsverfahrens, ein Mittel zum Starten der Verarbeitung durch die Steuermittel und ein Mittel zur bedarfsweisen Erzeugung der Ausgabe von Partiturdaten, die durch die Verarbeitung erhalten wurden, wobei die Eingabemittel für die akustischen Signale, die Verstärkungsmittel, die Analog/Digital-Umsetzungsmittel und die Mittel zur Gewinnung der Tonhöheninformation und der Tonstärkeninformation in Hardware konstruiert sind.
Aufgrund der äußerst bedeutenden Verbesserung in der Genauigkeit bei der Erzeugung der endgültigen Partiturdaten kann durch die vorliegende Erfindung ein Musiktranskriptionssystem mit ausreichenden Möglichkeiten für die praxisorientierte Anwendung geschaffen werden, da das erfindungsgemäße System die Tonhöheninformation und Tonstärkeninformation aus akustischen Signalen wie stimmlichen Tönen in Liedern, summenden Stimmen und Musikinstrumenttönen genau ermitteln, die akustischen Signale genau in einzelne Tonsegmente auf der Basis dieser Information unterteilen und dadurch das Tonintervall und die Tonart mit großer Genauigkeit identifizieren kann, wobei sich diese Leistungsmerkmale in der Verringerung des Einflusses von Geräuschkomponenten und Tonstärkefluktuationen in den akustischen Signalen bei der Verarbeitung der eingegebenen akustischen Signale als wirksam erwiesen haben.
Fig. 1 ist ein Blockdiagramm, welches das automatische Musiktranskriptionssystem in einem Zustand zeigt, der zu der vorliegenden Erfindung führt.
Fig. 2 ist ein Blockdiagramm, welches das erste Ausführungsbeispiel einer Konstruktion des automatischen Musiktranskriptionssystems der vorliegenden Erfindung zeigt.
Fig. 3 ist ein Ablaufdiagramm, das den Vorgang für das automatische Musiktranskriptionsverfahren in dem System für das erste Ausführungsbeispiel der vorliegenden Erfindung zeigt.
Fig. 4 ist ein zusammenfassendes Ablaufdiagramm, welches das Segmentierungsverfahren auf der Basis der Tonstärkeninformation gemäß der vorliegenden Erfindung zeigt.
Fig. 5 ist ein Ablaufdiagramm, das ein Beispiel des Segmentierungsverfahrens genauer zeigt.
Fig. 6 ist ein charakteristisches Kurvendiagramm, das ein Beispiel einer Segmentierung durch ein solches Verfahren zeigt.
Fig. 7 ist ein zusammenfassendes Ablaufdiagramm, das ein weiteres Beispiel des von der Erfindung geschaffenen Segmentierungsverfahrens, das auf der Tonstärkeninformation beruht, zeigt.
Fig. 8 ist ein Ablaufdiagramm, welches das Segmentierungsverfahren genauer zeigt.
Fig. 9 ist ein Ablaufdiagramm, das ein Beispiel des von der Erfindung geschaffenen Segmentierungsverfahrens, das auf der Tonstärkeninformation beruht, zeigt.
Fig. 10 ist ein charakteristisches Kurvendiagramm, das die chronologische Veränderung der Tonstärkeninformation gemeinsam mit den Ergebnissen der Segmentierung zeigt.
Fig. 11 ist ein Ablaufdiagranim, das ein Beispiel des von der Erfindung geschaffenen Segmentierungsverfahrens, das auf der Tonstärkeninformation beruht, zeigt.
Fig. 12 ist ein charakteristisches Kurvendiagramm, das die chronologischen Veränderungen der Tonstärkeninformation und der Anstiegsermittlungsfunktionen gemeinsam mit den Ergebnissen der Segmentierung zeigt.
Fig. 13 und Fig. 14 sind Ablaufdiagramme, die jeweils ein Beispiel des von der vorliegenden Erfindung geschaffenen Segmentierungsverfahrens darstellen, das auf der Tonstärkeninformation beruht.
Fig. 15 ist ein charakteristisches Kurvendiagramm, das die chronologischen Veränderungen der Tonstärkeninformation und der Anstiegsermittlungsfunktionen gemeinsam mit den Ergebnissen der Segmentierung zeigt.
Fig. 16 und Fig. 17 sind Ablaufdiagramme, die jeweils ein Beispiel des von der vorliegenden Erfindung geschaffenen Segmentierungsverfahrens darstellen, das auf der Tonhöheninformation beruht.
Fig. 18 ist eine schematische Darstellung, die zur Erklärung der Länge der Serien dient.
Fig. 19 ist ein Ablaufdiagramm, welches das Prüfverfahren für die Segmentierung gemäß der vorliegenden Erfindung zeigt.
Fig. 20 ist eine schematische Darstellung, die zur Erklärung des Prüfverfahrens dient.
Fig. 21 ist ein Ablaufdiagramm, welches das Tonintervallidentifizierungsverfahren gemäß der vorliegenden Erfindung zeigt.
Fig. 22 ist eine schematische Darstellung, die zur Erklärung des Abstandes der Tonhöheninformation zur Achse dem absoluten Tonintervalls in jedem Segment dient.
Fig. 23 ist ein Ablaufdiagramm, das ein Beispiel des Tonintervallidentifizierungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 24 ist eine schematische Darstellung, die ein Beispiel eines solchen Tonintervallidentifizierungsverfahrens zeigt.
Fig. 25 ist ein Ablaufdiagramm, das ein Beispiel des Tonintervallidentifizierungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 26 ist eine schematische Darstellung, die ein Beispiel eines solchen Tonintervallidentifizierungsverfahrens zeigt.
Fig. 27 ist ein Ablaufdiagramm, das ein Beispiel des Tonintervallidentifizierungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 28 ist eine schematische Darstellung, die ein Beispiel eines solchen Tonintervallsidentifizierungsverfahren zeigt.
Fig. 29 ist ein Ablaufdiagramm, das ein Beispiel des Verfahrens zur Korrektur des identifizierten Tonintervalls gemäß der vorliegenden Erfindung zeigt.
Fig. 30 ist eine schematische Darstellung, die ein Beispiel der Korrektur eines solchen identifizierten Tonintervalls zeigt.
Fig. 31 ist ein Ablaufdiagramm, das ein Beispiel des Tonintervallidentifizierungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 32 ist eine schematische Darstellung, die ein Beispiel eines solchen Tonintervallidentifizierungsverfahren zeigt.
Fig. 33 ist ein Ablaufdiagramm, das ein Beispiel des Tonintervallidentifizierungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 34 ist ein Diagramm zur Erklärung der Länge der Serien, die in der gegenwärtigen Erfindung anwendbar sind.
Fig. 35 ist eine schematische Darstellung, die ein Beispiel eines solchen Tonintervallidentifizierungsverfahrens zeigt.
Fig. 36 ist ein Ablaufdiagramm, das ein Beispiel des Verfahrens zur Korrektur des identifizierten Tonintervalls gemäß der vorliegenden Erfindung zeigt.
Fig. 37 ist eine schematische Darstellung, die zur Erklärung eines solchen Korrekturverfahrens für das identifizierte Tonintervall dient.
Fig. 38 ist ein Ablaufdiagramm, das ein Beispiel des Tonartbestimmungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 39 ist eine Tabelle, die einige Beispiele der Wichtungsfaktoren für jede Tonleiter zeigt, die in Übereinstimmung mit jeder Tonart erstellt wurden.
Fig. 40 ist ein Ablaufdiagramm, das ein Beispiel des Tonartbestimmungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 41 ist ein Ablaufdiagramm, das ein Beispiel des Abstimmverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 42 ist ein Histogramm, das den Verteilungszustand der Tonhöheninformation zeigt.
Fig. 43 ist ein Ablaufdiagramm, das ein Beispiel des Tonhöhenermittlungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 44 ist eine schematische Darstellung, welche die Autokorrelationsfunktionskurven zeigt, die für Tonhöhenermittlungsverfahren verwendet werden.
Fig. 45 ist ein Ablaufdiagramm, das ein Beispiel des Tonhöhenermittlungsverfahrens gemäß der vorliegenden Erfindung zeigt.
Fig. 46 ist eine schematische Darstellung, welche die Autokorrelationsfunktionskurven zeigt, die für das Tonhöhenermittlungsverfahren verwendet werden.
Fig. 47 ist ein Blockdiagramm, welches das zweite Ausführungsbeispiel der Konstruktion des automatischen Musiktranskriptionssystems zeigt.
Im folgenden Teil werden verschiedene Ausführungsbeispiele der vorliegenden Erfindung mit Bezugnahme auf die beigefügten Zeichnungen näher erklärt.
Fig. 2 ist ein Blockdiagramm, das die Konstruktion des automatischen Musiktranskriptionssystems zeigt, bei dem das erste Ausführungsbeispiel gemäß der vorliegenden Erfindung angewendet wird, und Fig. 3 ist ein Ablaufdiagramm, das die Verfahrensprozedur für das System zeigt.
In Fig. 2 hat die Zentrale Verarbeitungseinheit (CPU) 1 die Gesamtsteuerung über das ganze System und führt das Partiturverarbeitungsprogramm aus, das in Fig. 3 dargestellt und in der Hauptspeichervorrichtung 3 gespeichert ist, die mit der CPU durch den Bus 2 verbunden ist, an dem Tastatur 4 als Eingabevorrichtung, Anzeigeeinheit 5 als Ausgabevorrichtung, Hilfsspeichervorrichtung 6 zur Verwendung als Arbeitsspeicher und Analog/Digital-Wandler 7 zusätzlich zu der CPU 1 und der Hauptspeichervorrichtung 3 angeschlossen sind.
An dem Analog/Digital-Wandler 7 ist zum Beispiel die akustische Signaleingabevorrichtung 8 angeschlossen, die aus einem Mikrophon besteht. Diese akustische Signaleingabevorrichtung 8 erfaßt die akustischen Signale in gesungenen Liedern, die von dem Benutzer hervorgebracht werden, transformiert dann die Signale in elektrische Signale und gibt die elektrischen Signale an den Analog/Digital-Wandler 7 aus.
Die CPU 1 startet das Musiktranskriptionsverfahren, wenn sie einen Befehl dazu erhält, der auf der Tastatur- Eingabevorrichtung 4 eingegeben wird, und führt das in der Hauptspeichervorrichtung 3 gespeicherte Programm aus, wobei die akustischen Signale, die von dem Analog/Digital-Wandler 7 in digitale Signale umgesetzt wurden, in der Hilfsspeichervorrichtung 6 zwischengespeichert werden und danach diese akustischen Signale in Partiturdaten umgewandelt werden, indem das obengenannte Programm durchgeführt wird, so daß die Partiturdaten den Erfordernissen entsprechend ausgegeben werden können.
In der Folge wird die Verarbeitung zur Partiturtranskription, nachdem die CPU 1 die akustischen Signale für die Programmdurchführung aufgenommen hat, näher mit Bezugnahme auf das Ablaufdiagramm beschrieben, das in Form von Funktionsebenen in Fig. 3 dargestellt ist.
Zunächst ermittelt die CPU 1 die Tonhöheninformation für die akustischen Signale für jeden analytischen Zyklus durch ihre Autokorrelationsanalyse der akustischen Signale und ermittelt auch die Tonstärkeninformation für jeden analytischen Zyklus durch Verarbeitung der akustischen Signale zur Berechnung der Quadratsumme und führt dann Nachbehandlungen wie die Beseitigung von Geräuschen und eine Interpolationsoperation (Schritte SP 1 und SP 2) durch. Danach berechnet die CPU 1 in bezug auf die Tonhöheninformation das Ausmaß der Abweichung der Tonintervallachse des akustischen Signals in bezug auf die Achse des absoluten Tonintervalls auf der Basis des Verteilungszustandes um die Tonintervallachse und führt dann das Abstimmverfahren (Schritt SP 3) durch, das darin besteht, die erhaltene Tonhöheninformation im Verhältnis zu dem Ausmaß der Abweichung der Tonintervallachse zu verschieben. Mit anderen Worten, die CPU führt eine Korrektur der Tonhöheninformation auf solche Weise durch, daß der Unterschied zwischen der Tonintervallachse, die für die von dem Sänger oder Musikstrument erzeugten, akustischen Signale aufgezeichnet wurde, und der Achse des absoluten Tonintervalls geringer wird.
Danach führt die CPU 1 das Segmentierungsverfahren durch, das die akustischen Signale in einzelne Tonsegmente unterteilt, mit einer kontinuierlichen Dauer der Tonhöheninformation, in der die erhaltene Tonhöheninformation als Anzeige für ein Tonintervall betrachtet werden kann, und führt das Segmentierungsverfahren neuerlich auf der Basis der Veränderungen in der erhaltenen Tonstärkeninformation durch (Schritte SP 4 und SP 5). Auf der Basis dieser Segmentinformationssätze berechnet die CPU 1 die Standardlängen, die jeweils der Dauer einer halben Note und einer Achtelnote und so weiter entsprechen, und führt das Segmentierungsverfahren genauer auf der Basis solcher Standardlängen aus (Schritt SP 6).
Die CPU 1 identifiziert somit das Tonintervall eines bestimmten Segments mit dem Tonintervall auf der absoluten Tonintervallachse, dem die jeweilige Tonhöheninformation am nächsten zu sein scheint, wie auf der Basis der Tonhöheninformation des Segments beurteilt wird, das durch eine solche Segmentierung erhalten wird, und führt ferner das Segmentierungsverfahren neuerlich durch, abhängig davon, ob das Tonintervall der identifizierten fortlaufenden Segmente identisch ist (Schritte SP 7 und SP 8).
Danach ermittelt die CPU 1 die Produktsumme der Häufigkeit des Auftretens des Tonintervalls, die durch Ausarbeiten der klassifizierten Summe der Tonhöheninformation um die Tonintervallachse nach dem Abstimmen und gewisser vorbestimmter Wichtungsfaktoren, die abhängig von der Tonart bestimmt werden, erhalten wird und bestimmt auf der Basis der maximalen Information dieser Produktsumme die Tonart, zum Beispiel die C- Dur-Tonart oder die a-Moll-Tonart, für das Musikstück in den eingegebenen akustischen Signalen, wonach das Tonintervall durch genaueres Prüfen desselben Tonintervalls in bezug auf die Tonhöheninformation hinsichtlich des vorbestimmten Tonintervalls in der Tonleiter für die bestimmte Tonart überprüft und korrigiert wird (Schritte SP 9 und SP 10). Danach führt die CPU 1 eine Überprüfung der Segmentierungsergebnisse auf der Basis durch, ob das letztendlich bestimmte Tonintervall identische fortlaufende Segmente enthält oder ob eine Veränderung in der Tonstärke vorliegt und führt den letzten Segmentierungsschritt aus (Schritt SP 11).
Wenn das Tonintervall und die Segmente auf diese Weise bestimmt sind, ermittelt die CPU 1 den Takt unter dem Gesichtspunkt, daß ein Takt mit dem ersten Taktschlag beginnt, daß der letzte Ton in einer Phrase nicht zu dem nächsten Takt reicht, daß es für jeden Takt eine Unterteilung gibt usw., bestimmt die Taktart auf der Basis dieser Taktinformation und der Segmentierungsinformation und bestimmt das Tempo auf der Basis dieser bestimmten Taktarteninformation und der Länge eines Taktes (Schritte SP 12 und SP 13).
Danach kompiliert die CPU 1 schließlich die Partiturdaten, indem die erhaltene Information über Tonintervall, Tondauer, Tonart, Taktart und Tempo geordnet wird (Schritt SP 14).

Segmentierung aufgrund der Tonstärkeninformation

Es folgt eine genaue Erklärung der Ablaufdiagramme in Fig. 5 und Fig. 4 hinsichtlich des Segmentierungsverfahrens (Schritt SP 5 in Fig. 3), das auf der Tonstärkeninformation über diese akustischen Signale beruht und in einem automatischen Musiktranskriptionssystem wie diesem anwendbar ist. In dieser Hinsicht ist zu beachten, daß Fig. 4 ein Ablaufdiagramm zeigt, das ein solches Verfahren in den Funktionsebenen darstellt, während Fig. 5 ein Ablaufdiagramm zeigt, das größere Einzelheiten des in Fig. 4 gezeigten darstellt.
Darüberhinaus werden die akustischen Signale für die Tonstärkeninformation über die akustischen Signale in bezug auf die einzelnen Abtastpunkte innerhalb des analytischen Zyklus quadriert, und die Gesamtsumme dieser quadratischen Werte wird zur Darstellung der Tonstärkeninformation von diesem analytischen Zyklus verwendet.
Die CPU 1 vergleicht die Tonstärkeninformation an jedem analytischen Punkt mit dem Schwellenwert, teilt das akustische Signal in einen Abschnitt, der größer als der Schwellenwert ist, und einen Abschnitt, der kleiner als der Schwellenwert ist, wobei der Abschnitt, der größer als der Schwellenwert ist, als Segment für den effektiven Abschnitt behandelt wird, und der Abschnitt, der kleiner als der Schwellenwert ist, als Segment für den ungültigen Abschnitt behandelt wird, und eine Markierung für den Beginn eines effektiven Segments am Anfangsteil des effektiven Abschnitts angebracht wird und eine Markierung für den Beginn eines ungültigen Segments am Anfangsteil des ungültigen Abschnitts angebracht wird (Schritte SP 15 und SP 16). Dieses Merkmal wurde in das System angesichts der Tatsache aufgenommen, daß oftmals ein Versagen bei der Identifizierung eines Tonintervalls wegen der fehlenden Stabilität auftritt, die häufig im Tonintervall von akustischen Signalen in dem Bereich eintritt, in dem die Tonstärkeninformation gering ist, und daß dieses Merkmal auch für den Nachweis von Restabschnitten dient.
Die CPU 1 führt dann Rechenoperationen durch, um eine Funktion für die Veränderung der Tonstärkeninformation innerhalb des effektiven Segments zu ermitteln, das durch die obengenannte Teilung erhalten wurde, und ermittelt den Punkt der Veränderung im Anstieg der Tonstärkeninformation auf der Basis dieser Schwankungsfunktion, und dann teilt die CPU das effektive Segment am ermittelten Punkt der Veränderung im Anstieg in kleinere Teile, wobei eine Markierung für den Beginn eines effektiven Segments an den so bestimmten Punkt gesetzt wird (Schritte SP 17 und SP 18). Dieses Merkmal wurde eingeführt, da das obengenannte Verfahren alleine zur Erzeugung eines Segments neigt, das zwei oder mehr Töne enthält, da ein Übergang von einem Ton zum nächsten vorliegen kann, während die Tonstärke auf einem etwas höheren Wert gehalten wird, so daß ein solches Segment weiter unterteilt werden kann, wobei die feststellbare Tatsache genutzt wird, daß ein solches Segment einen Anstieg in der Tonstärke zu Beginn des nächsten Tons aufweist.
Danach mißt die CPU 1 die Längen der einzelnen Segmente, unabhängig davon, ob sie effektive oder ungültige Segmente sind, wobei jedes Segment mit einer kürzeren als der vorbestimmten Länge mit dem unmittelbar vorangehenden Segment zur Bildung eines Segments verbunden wird. (Schritte SP 19 und SP 20). Dieses Merkmal wurde angesichts der Tatsache aufgenommen, daß Signale manchmal infolge vorhandener Geräusche oder ähnlichem in winzige fragmentarische Segmente unterteilt sein können, so daß ein solches fragmentarisches Segment mit einem anderen verbunden werden kann. Dieses Merkmal wird auch dazu verwendet, eine Mehrzahl von Segmenten, die sich aus einer weiteren Unterteilung von Segmenten auf der Basis des obengenannten Punktes der Veränderung im Anstieg ergibt, zu verbinden.
In der Folge wird dieses Verfahren mit Bezugnahme auf das Ablaufdiagramm in Fig. 5 näher erklärt.
Die CPU 1 löscht zunächst den Parameter t für den analytischen Punkt auf Null und beurteilt dann, nachdem festgestellt wurde, daß die zu verarbeitenden analytischen Punktdaten noch nicht beendet sind, ob die Tonstärkeninformation (Stärke (t)) des akustischen Signals an dem analytischen Punkt kleiner als der Tonstärken-Schwellenwert ist (Schritte SP 21 - SP 23).
Falls die Tonstärkeninformation, Stärke (t), kleiner als der Schwellenwert p ist, inkrementiert die CPU 1 den Parameter t für den analytischen Punkt neuerlich und beurteilt die Tonstärkeninformation beim nächsten analytischen Punkt, wobei sie wieder zu Schritt SP 22 zurückkehrt (Schritt SP 24).
Andererseits setzt die CPU 1 eine Markierung für den Anfangspunkt eines effektiven Segments an dem analytischen Punkt, falls bei Schritt SP 23 festgestellt wird, daß der Wert der Tonstärkeninformation, Stärke (t) über dem Schwellenwert p liegt, und geht zur Verarbeitung der folgenden Schritte über, beginnend mit dem nächsten Schritt SP 26 (Schritt SP 25).
Zu diesem Zeitpunkt bestätigt die CPU 1, daß die Verarbeitung noch nicht an allen analytischen Punkten beendet ist und beurteilt neuerlich, ob der Wert der Tonstärkeninformation geringer als der Schwellenwert p ist, und wenn der Wert der Tonstärkeninformation, Stärke (t), über dem Tonstärken-Schwellenwert liegt, kehrt sie zu Schritt SP 26 zurück, wobei der Parameter t für den analytischen Punkt inkrementiert wird, (Schritte SP 26 - SP 28). Wenn andererseits der Wert der Tonstärkeninformation, Stärke (t), unter dem Schwellenwert p liegt, setzt die CPU 1 eine Markierung für den Anfangspunkt eines ungültigen Segments an dem analytischen Punkt und kehrt dann zu dem obengenannten Schritt SP 22 zurück (Schritt SP 29).
Die CPU 1 führt das obengenannte Verfahren durch, bis das Verfahren nachweislich an allen analytischen Punkten bei den Schritten SP 22 oder SP 24 beendet ist, und geht dann zur Verarbeitung der folgenden Schritte über, beginnend mit dem Schritt 30, nachdem die Unterteilung der Segmente in effektive Segmente über dem Schwellenwert p und in ungültige Segmente unter dem Schwellenwert p durch den Vergleich der Tonstärkeninformation, Stärke (t), mit dem Schwellenwert p an allen analytischen Punkten vorgenommen wurde.
In dem anschließenden Verfahren löscht die CPU 1 den Parameter t für den analytischen Punkt auf Null und beginnt das folgende Verfahren beim analytischen Anfangspunkt (Schritt SP 30). Die CPU 1 beurteilt, ob der analytische Punkt als Beginn eines effektiven Segments markiert ist (Schritte SP 31 und SP 32), nachdem festgestellt wurde, daß die zu verarbeitenden analytischen Punktdaten noch nicht beendet sind. Falls der analytische Punkt nicht der Beginn eines effektiven Segments ist, inkrementiert die CPU 1 den Parameter t für den analytischen Punkt und kehrt dann zu dem obengenannten Schritt SP 29 zurück (Schritt SP 33).
Wenn andererseits die CPU 1 einen analytischen Punkt erfaßt, an dem ein effektives Segment beginnt, wird neuerlich festgestellt, daß kein analytischer Punkt mehr verarbeitet werden muß und beurteilt ferner, ob der analytische Punkt den Beginn eines ungültigen Segments darstellt (Schritte SP 34 und SP 35). Falls der analytische Punkt nicht den Beginn eines ungültigen Segments darstellt, was bedeutet, daß er ein analytischer Punkt innerhalb eines effektiven Segments ist, ermittelt die CPU 1 die Funktion für die Veränderung d(t) der Tonstärkeninformation, Stärke (t) (die in dem folgendem Teil als Anstiegsermittlungsfunktion bezeichnet wird, da sie zur Extraktion eines Anstiegs in der Tonstärkeninformation in dem folgenden Verfahren verwendet wird), indem Rechenoperationen gemäß der Gleichung (1) (Schritt SP 36) durchgeführt werden
d(t) = {Stärke (t+k) - Stärke (t)}/
{Stärke (t+k) + Stärke (t)} ... (1)
wobei k eine natürliche Zahl darstellt, die zur Erfassung der Tonstärkenschwankungen angemessen ist.
Danach beurteilt die CPU 1, ob der so erhaltene Wert der Anstiegsermittlungsfunktion d(t) kleiner als der Schwellenwert d ist, und wenn er kleiner ist, inkrementiert die CPU 1 den Parameter t für den analytischen Punkt und kehrt zu Schritt SP 34 zurück (Schritte SP 37 und SP 38). Wenn andererseits die Anstiegsermittlungsfunktion d(t) sich als größer als der Schwellenwert d erweist, setzt die CPU 1 die Markierung für den Beginn eines neuen effektiven Segments an dem analytischen Punkt (Schritt SP 39). Dabei wird das effektive Segment in kleinere Teile unterteilt.
Danach stellt die CPU 1 fest, daß die Verarbeitung noch nicht an allen analytischen Punkten beendet ist, und beurteilt dann, ob eine Markierung für den Beginn eines ungültigen Segments an dem analytischen Punkt angebracht ist, an dem die Verarbeitung durchgeführt wird, und falls eine solche Markierung gesetzt ist, kehrt die CPU zu dem obengenannten Schritt SP 31 zurück und führt das Nachweisverfahren für den Anfangspunkt des nächsten effektiven Segments durch (Schritte SP 40 und SP 41).
Wenn andererseits der Punkt kein analytischer Punkt für den Beginn eines ungültigen Segments ist, erhält die CPU 1 die Anstiegsermittlungsfunktion d(t) durch die Gleichung (1) auf der Basis der Tonstärkeninformation, Stärke (t), und beurteilt, ob die Anstiegsermittlungsfunktion d(t) kleiner als der Schwellenwert d ist (Schritte SP 42 und SP 43). Wenn die Funktion kleiner ist, kehrt die CPU 1 zu dem obengenannten Schritt, SP 34, zurück, und fährt mit der Bearbeitung zu Ermittlung eines Veränderungspunktes im Anstieg der Tonstärkeninformation fort. Wenn die Anstiegsermittlungsfunktion d(t) an dem analytischen Punkt kontinuierlich über dem Schwellenwert bei Schritt SP 43 liegt, kehrt die CPU 1 in der Zwischenzeit zu Schritt SP 40 zurück, um den Parameter t für den analytischen Punkt zu inkrementieren und zu beurteilen, ob die Anstiegsermittlungsfunktion d(t) in bezug auf den nächsten analytischen Punkt kleiner als der Schwellenwert d wird.
Wenn die CPU 1 durch Wiederholung des obengenannten Verfahrens bei den Schritten SP 31, SP 34 oder SP 40 festgestellt hat, daß das Verfahren an allen analytischen Punkten beendet ist, fährt die CPU 1 mit dem Verfahren zur Überprüfung der Segmente auf der Basis der Segmentlänge bei Schritt SP 45 und den folgenden Schritten fort.
In diesem Verfahren löscht die CPU 1 den Parameter t für den analytischen Punkt auf Null und stellt danach fest, daß die analytischen Punktdaten noch nicht beendet sind, und beurteilt dann, ob eine Markierung für den Beginn eines Segments an dem bestimmten analytischen Punkt gesetzt ist, unabhängig davon, ob es ein effektives Segment oder ein ungültiges Segment ist (Schritte SP 45 - SP 47). Falls der Punkt kein Anfangspunkt eines Segments ist, kehrt die CPU 1 zu Schritt SP 46 zurück, um den Parameter t für den analytischen Punkt zu inkrementieren und zu den Daten bei dem nächsten analytischen Punkt überzugehen (Schritt SP 48). Falls die CPU 1 einen Anfangspunkt für ein Segment erfaßt hat, stellt die CPU 1 den Segmentlängenparameter L auf den Anfangswert "1", um die Länge des Segments ausgehend von diesem Punkt zu berechnen (Schritt SP 49).
Danach inkrementiert die CPU 1 den Parameter t des analytischen Punktes und beurteilt ferner, nachdem festgestellt wurde, daß die analytischen Punktdaten noch nicht beendet sind, ob eine Markierung für den Beginn eines Segments an dem bestimmten analytischen Punkt gesetzt ist, unabhängig davon, ob es ein effektives Segment oder ein ungültiges Segment ist (Schritte SP 50 - SP 52). Wenn die CPU 1 feststellt, daß der analytische Punkt kein Anfangspunkt eines Segments ist, inkrementiert die CPU 1 den Segmentlängenparameter L und inkrementiert auch den Parameter t des analytischen Punktes, wonach sie zu dem obengenannten Schritt SP 51 zurückkehrt (Schritte SP 53 und SP 54).
Durch Wiederholung des aus den Schritten SP 51 bis SP 54 bestehenden Verfahrens kommt die CPU 1 bald zu einem analytischen Punkt, an dem eine Markierung für den Beginn eines Segments gesetzt ist, wobei ein positives Ergebnis bei Schritt SP 52 erhalten wird. Der zu diesem Zeitpunkt ermittelte Segmentlängenparameter entspricht dem Abstand zwischen dem markierten analytischen Punkt zur Verarbeitung und dem unmittelbar vorangehenden markierten analytischen Punkt zur Verarbeitung, d.h. der Länge des Segments. Wenn ein positives Ergebnis bei Schritt SP 52 erhalten wird, beurteilt die CPU 1, ob der Parameter L (d.h. die Segmentlänge) kürzer als der Schwellenwert m ist, und wenn er über dem Schwellenwert m liegt, kehrt die CPU 1 zu dem obengenannten Schritt SP 46 zurück, ohne die Markierung für den Beginn eines Seginents zu entfernen, aber wenn er kleiner als der Schwellenwert m ist, entfernt die CPU 1 die an der Vorderseite angebrachte, den Beginn eines Segments kennzeichnende Markierung, um so dieses Segment mit dem vorangehenden Segment zu verbinden, und kehrt dann zu dem obengenannten Schritt SP 46 zurück (Schritte SP 55 und SP 56).
Wenn die CPU 1 von dem Schritt SP 55 oder SP 56 zu dem Schritt SP 46 zurückgekehrt ist, erhält die CPU 1 ferner sofort ein positives Ergebnis bei Schritt SP 47, wenn die analytischen Punktdaten nicht beendet sind und fährt mit der Verarbeitung an den folgenden Schritten fort, beginnend mit Schritt SP 49, und geht zur Suchoperation nach einer weiteren Markierung, die auf die soeben gefundene Markierung folgt, über, und die CPU findet die nächste Markierung auf dieselbe Weise wie oben beschrieben und führt die Prüfung der Segmentlänge durch.
Durch derartige Wiederholung der Verarbeitungsoperation schließt die CPU 1 die Prüfung aller Segmentlängen ab und wenn sie bei Schritt SP 46 ein positives Ergebnis erhält, beendet die CPU 1 das Verarbeitungsprogramm.
Fig. 6 zeigt ein Beispiel einer Segmentierung durch ein Verfahren, auf die soeben beschriebene Weise. Bei diesem Beispiel kommt es durch Wiederholung der Verfahren in den Schritten bis zu SP 29 zu einer Unterscheidung zwischen den effektiven Segmenten, S1 - S8, und den ungültigen Segmenten, S11 - S18, auf der Basis der Tonstärkeninformation, Stärke (t). Danach wird durch Wiederholung der Verfahren bis zu Schritt SP 44 das effektive Segment 54 weiter in kleinere Segmente, 541 und 542, an dem Punkt der Veränderung im Anstieg der Tonstärke auf der Basis der Anstiegsermittlungsfunktion d(t) unterteilt. Ferner werden anschließend die Verarbeitung bei Schritt SP 45 und die folgenden Schritte durchgeführt, und dann wird eine Prüfung auf der Basis der Segmentlänge vorgenommen. In diesem Beispiel wird jedoch insbesondere keine Verbindung der Segmente durchgeführt, da kein Segment kürzer als die vorgeschriebene Länge ist.
Daher ist bei den obenbeschriebenen Ausführungsbeispielen das System imstande, eine äußerst genaue Segmentierung durchzuführen, und es neigt nicht zu einer fehlerhaften Segmentierung aufgrund von Geräuschen oder Tonstärkenfluktuationen, da die Tonstärkeninformation die akustischen Signale in effektive Segmente über dem Schwellenwert und ungültige Segmente unter dem Wert teilt, und da die effektiven Segmente weiter in kleinere Segmente durch den Punkt der Veränderung im Anstieg der Tonstärkeninformation unterteilt werden, und da die so erhaltenen Segmente auf der Basis der Segmentlänge geprüft werden.
Mit anderen Worten, dieses Verfahren kann auch die Verwendung instabiler Perioden mit geringer Stimmkraft in den folgenden Verfahren, wie der Identifizierung des Tonintervalls, ausscheiden, da die Abschnitte, die eine weit über dem Schwellenwert liegende Tonstärkeninformation enthalten, als effektive Segmente angenommen werden. Da das System zur Unterteilung eines Segments in kleinere Teile durch Ermittlung eines Punktes der Veränderung im Anstieg der Tonstärke entwickelt wurde, ist es ferner möglich, daß das System die Segmentierung gut durchführt, selbst wenn ein Übergang zu dem nächsten Ton eintritt, während die Tonstärke über dem vorgeschriebenen Pegel bleibt. Da das System ferner zur Durchführung einer Prüfung auf der Basis der Segmentlänge entwickelt wurde, ist es möglich, die Unterteilung eines Tons oder einer Restperiode in eine Vielzahl von Segmenten zu vermeiden.
In dem oben angeführten Beispiel wurden ferner die Länge der obengenannten effektiven Abschnitte einschließlich der weiter unterteilten, obengenannten, effektiven Abschnitte und jene der obengenannten ungültigen Abschnitte ermittelt, was aber nicht unbedingt erforderlich ist. In einem solchen Fall müssen eine Anfangsmarkierung und eine Endmarkierung zu Beginn beziehungsweise am Ende jedes Abschnitts über dem Schwellenwert bei Schritt SP 66 gesetzt werden, wie in dem Blockdiagramm in Fig. 7 dargestellt ist, das das Verarbeitungsverfahren zeigt. Mit Bezugnahme auf das Ablaufdiagramm in Fig. 8, das nähere Einzelheiten des in Fig. 7 gezeigten darstellt, wird genauer erklärt, daß die CPU 1 zu dem obengenannten Schritt, SP 22, zurückkehrt, nachdem eine Markierung eines Segmentendpunktes an dem entsprechenden analytischen Punkt gesetzt wurde, wenn der Wert der Tonstärkeninformation, Stärke (t), kleiner als der Tonstärken-Schwellenwert wird (Schritt 29'). Bei diesem Ausführungsbeispiel beendet das System das Programm, wenn es die Beendigung der Verarbeitung in bezug auf alle analytischen Punkt an den Schritten SP 31, SP 34 oder SP 40 nachweist, indem die obengenannten Verfahren wiederholt werden. Die zu diesem Zeitpunkt verarbeiteten Segmente sind dieselben, wie die in Fig. 6 gezeigten.
Ferner ist es möglich, das Segmentierungsverfahren auch durch den in dem Ablaufdiagramm in Fig. 9 dargestellten Vorgang durchzuführen. In diesem Fall ist der Vorgang vom Beginn bis zu Schritt SP 28 mit den in Fig. 8 dargestellten Schritten identisch. Die CPU 1 erkennt bald einen analytischen Punkt, dessen Tonstärkeninformation, Stärke (t), unter dem Schwellenwert p liegt, indem die Verarbeitung an den Schritten SP 26 bis SP 28 auf dieselbe Weise wie in Fig. 8 dargestellt wiederholt wird, und erhält bei Schritt SP 27 ein positives Ergebnis. Zu diesem Zeitpunkt setzt die CPU 1 eine Markierung für das Ende des Segments an diesem analytischen Punkt und erfaßt danach auf der Basis der Anfangsmarkierungsinformation für das obengenannte Segment und der Endmarkierungsinformation für das Segment die Länge L des Segments und beurteilt, ob die Länge L geringer als der Schwellenwert m ist (Schritte SP 68- SP 70). Dieser Beurteilungsschritt ist so aufgebaut, daß kein zu kurzes Segment als effektives betrachtet wird und der Schwellenwert m wurde in bezug auf Musiknoten festgelegt. Die CPU 1 inkrementiert den Parameter t und kehrt zu dem obengenannten Schritt SP 22 zurück, nachdem die Anfangs- und Endmarkierungen für das Segment gelöscht wurden, wenn sie ein positives Ergebnis bei diesem Schritt 70 erhält. Wenn sie aber ein negatives Ergebnis erhält, weil die Länge des Segments ausreichend ist, inkrementiert sie jedoch sofort den Parameter t, ohne die Markierungen zu löschen, und kehrt zu dem obengenannten Schritt SP 21 zurück (Schritte SP 71 und SP 72).
Durch Wiederholung dieses Verarbeitungsablaufs beendet die CPU 1 die Verarbeitung in bezug auf die gesamte Tonstärkeninformation und beendet bei einem positiven Ergebnis in Schritt SP 23 oder SP 26 dieses Programm.
Fig. 10 stellt die chronologische Veränderung der Tonstärkeninformation dar und ein Beispiel der Ergebnisse der Segmentierung, die dieser chronologischen Veränderung entsprechen. Bei diesem Beispiel werden die Segmente, S1, S2 ... SN, durch Ausführung des in Fig. 9 angegebenen Verfahrens erhalten. Ferner liegt die Tonstärkeninformation in der Periode für die Zeitpunkte t1-t2 über dem Schwellenwert p, da aber die Periode kurz ist und ihre Länge unter dem Schwellenwert m liegt, wird sie nicht als ein Segment bestimmt.
Ferner kann auch der Segmentierungsverarbeitungsvorgang, der in der Folge beschrieben wird, angewendet werden. Dieses Verfahren wird mit Bezugnahme auf das in Fig. 11 dargestellte Ablaufdiagramm erklärt.
Die CPU 1 löscht zunächst den Parameter t für den analytischen Punkt auf Null und führt dann, nachdem sie festgestellt hat, daß die zu verarbeitenden Daten noch nicht vollendet sind (Schritte SP 80 und SP 81), Rechenoperationen in bezug auf den analytischen Punkt t auf der Basis der Tonstärkeninformation (t) für den analytischen Punkt t und der Anstiegsermittlungsfunktion d(t) durch (Schritt SP 82).
Hier muß k auf einen geeigneten Zeitunterschied eingestellt werden, der zur Erfassung der Veränderung in der Tonstärkeninformation geeignet ist.
Danach beurteilt die CPU 1, ob die Anstiegsermittlungsfunktion d(t) an dem analytischen Punkt t über dem Schwellenwert d liegt, und inkrementiert den Parameter t und kehrt zu dem obengenannten Schritt SP 81 zurück, wenn sie ein negatives Ergebnis erhält, da die Funktion kleiner als der Schwellenwert d ist (Schritte SP 83 und SP 84).
Durch Wiederholung dieses Verarbeitungsvorgangs ermittelt die CPU 1 bald einen analytischen Wert unmittelbar nach einer Veränderung der Anstiegsermittlungsfunktion d(t) auf einen Wert über dem Schwellenwert d und erhält ein positives Ergebnis bei Schritt SP 83. Zu diesem Zeitpunkt stellt die CPU 1 fest, nachdem sie eine Segmentanfangsmarkierung an diesem analytischen Punkt gesetzt hat, daß die zu verarbeitenden Daten an dem analytischen Punkt noch nicht beendet sind, und dann führt die CPU 1 Rechenoperationen durch, um neuerlich die Anstiegsermittlungsfunktion d(t) der Tonstärkeninformation in bezug auf diesen analytischen Punkt auf der Basis der Tonstärkeninformation, Stärke (t), an diesem analytischen Punkt und der Tonstärkeninformation, Stärke (t + k), an dem analytischen Punkt t+k, der k-Segmente vor diesem analytischen Punkt liegt, zu ermitteln (Schritte SP 85 und SP 87).
Danach beurteilt die CPU 1, ob die Anstiegsermittlungsfunktion d(t) an diesem analytischen Punkt t kleiner als der Schwellenwert d ist, und wenn sie ein negatives Ergebnis erhält, da die Funktion über dem Schwellenwert d liegt, inkrementiert sie den Parameter t und kehrt zu dem obengenannten Schritt SP 86 zurück (Schritte SP 88 - SP 89). Wenn die CPU 1 ein positives Ergebnis erhält, da die Funktion kleiner als der Schwellenwert d ist, kehrt sie im Gegensatz dazu zu dem obengenannten Schritt SP 81 zurück und fährt dann mit der Verarbeitungsoperation zur Ermittlung eines Veränderungspunktes fort, der unmittelbar einer Veränderung der Anstiegsermittlungsfunktion d(t) auf einen Wert über den Schwellenwert d folgt.
Durch eine derartige Wiederholung des Verarbeitungsvorgangs setzt die CPU 1 eine Segmentanfangsmarkierung an jeden Veränderungspunkt des Anstiegs der Tonstärkeninformation und beendet bald die Verarbeitung aller Tonstärkeninformationen, wobei ein positives Ergebnis bei Schritt SP 81 oder SP 86 erhalten und daraufhin dieses Programm beendet wird.
Ferner wurde das System so entwickelt, daß es das Segmentierungsverfahren durch eine derartige Ermittlung des Anstiegs in der Tonstärkeninformation angesichts der Tatsache durchführt, daß zum Beispiel ein Sänger die Tonstärke auf den höchsten Wert zu dem Zeitpunkt des Beginns eines neuen Tons anhebt, wenn er oder sie die Tonhöhe verändert, wobei die Stimme danach allmählich in der Stärke verringert wird. Es spiegelt auch die Tatsache wider, daß Töne von Musikinstrumenten die Eigenschaft besitzen, daß zu Beginn eines Tons ein Einsatz erfolgt, der danach abgeschwächt wird.
Fig. 12 zeigt ein Beispiel der chronologischen Veränderung der Tonstärkeninformation, Stärke (t), und der chronologischen Veränderung der Anstiegsermittlungsfunktion d(t) und im Falle dieses Beispiels führt die Ausführung der Verarbeitungsoperation, die in Fig. 11 dargestellt ist, zu der Unterteilung der Signale in die Segmente S1, S2.
Ferner kann ein Segmentierungsverfahren, wie in Fig. 13 und Fig. 14 dargestellt, durchgeführt werden.
Es kann eine weitere Anordnung des Segmentierungsverfahrens auf der Basis der Tonstärkeninformation verwendet werden, die in der Folge beschrieben ist.
Fig. 13 zeigt ein Ablaufdiagramm, das dieses Verfahren in der Funktionsebene zeigt, während Fig. 14 ein Ablaufdiagramm ist, das nähere Einzelheiten der Darstellung von Fig. 13 angibt. Zunächst führt die CPU 1 Rechenoperationen durch, um die Schwankungsfunktion für die Tonstärkeninformation in bezug auf jeden analytischen Punkt zu bestimmen, ermittelt einen Anstieg in der Tonstärkeninformation auf der Basis der Funktion und setzt eine Segmentanfangsmarkierung an dem analytischen Punkt für den Anstieg (Schritte SP 90 und SP 91).
Ferner wurde das System zur Durchführung einer Segmentierung durch Ermittlung eines Anstiegs in der Tonstärkeninformation angesichts der Tatsache entwickelt, daß akustische Signale die Eigenschaft besitzen, daß sie zu Beginn eines neuen Tons eine maximale Stärke erreichen, wenn ihr Tonintervall verändert wurde, und danach eine allmähliche Abschwächung der Stärke erfolgt.
Danach mißt die CPU 1 die Länge von dem Anfangspunkt eines Segments zu jenem des nächsten Segments, d.h. die Segmentlänge, und scheidet ein Segment mit einer unzureichenden Segmentlänge aus, indem der Abschnitt mit einem anderen vorderen oder hinteren, Segment verbunden wird. (Schritte SP 92 und SP 93).
Das System wurde so entwickelt, daß ein Segment nicht als solches behandelt wird, wenn seine Länge zu kurz ist, da akustische Signale manchmal Fluktuationen in ihrer Tonstärkeninformation aufweisen und auch störende Geräusche enthalten können, und weil es außerdem notwendig ist zu verhindern, daß Segmentierungsfehler infolge einer Mehrzahl von Spitzen auftreten, die manchmal bei der Veränderung der Tonstärke in einem stimmlichen Ton zu beobachten sind, selbst wenn der Sänger versucht, einen einzigen Ton hervorzubringen.
Somit ist dieses System imstande, das Segmentierungsverfahren aufgrund der Information über einen Anstieg in der Tonstärkeninformation durchzuführen, wobei zusätzlich die Segmentlänge berücksichtigt wird.
In der Folge wird dieses Verfahren mit Bezugnahme auf Fig. 14 genauer erklärt.
In Fig. 14 sind die Schritte von SP 80 bis SP 89 dieselben wie in Fig. 11 und werden hier nicht erklärt. Das heißt, der Schritt SP 110 und die folgenden Schritte werden für eine Prüfung der Segmente verwendet.
Zur Durchführung einer Segmentprüfung löscht die CPU 1 zunächst den Parameter t auf Null und stellt dann fest, daß die zu verarbeitenden analytischen Punktdaten noch nicht beendet sind, und beurteilt, ob eine Markierung für den Anfang eines Segments in bezug auf den analytischen Punkt gesetzt wurde (Schritte SP 110 - SP 112). Wenn die CPU 1 ein negatives Ergebnis erhält, da keine derartige Markierung angebracht ist, inkrementiert sie den Parameter t und kehrt zu dem obengenannten Schritt SP 111 zurück (Schritt SP 113). Durch Wiederholung dieses Vorgangs ermittelt die CPU 1 bald einen analytischen Punkt mit einer solchen Markierung und erhält bei Schritt SP 112 ein positives Ergebnis.
Zu diesem Zeitpunkt inkrementiert die CPU 1 den Parameter t, stellt 1 als Längenparameter L ein und stellt dann fest, daß die zu verarbeitenden analytischen Punktdaten noch nicht beendet sind, und beurteilt, ob eine Segmentanfangsmarkierung an dem analytischen Punkt t angebracht ist (Schritte SP 114 - 117). Wenn die CPU 1 ein negatives Ergebnis erhält, da an dem zu verarbeitenden analytischen Punkt keine derartige Markierung angebracht ist, inkrementiert die CPU 1 sowohl den Längenparameter L als auch den Parameter t des analytischen Punktes und kehrt zu dem obengenannten Schritt SP 116 zurück (Schritt SP 118 und SP 119).
Durch Wiederholung des Verfahrens ermittelt die CPU 1 bald einen analytischen Punkt, an dem eine Segmentanfangsmarkierung angebracht wurde, und erhält bei Schritt SP 117 ein positives Ergebnis. Der Längenparameter L entspricht zu diesem Zeitpunkt dem Abstand zwischen dem analytischen Punkt, an dem eine Markierung angebracht und der Gegenstand der Verarbeitung ist, und dem unmittelbar vorangehenden markierten analytischen Punkt, d.h. der Länge des Segments. Wenn bei Schritt SP 117 ein positives Ergebnis erhalten wird, beurteilt die CPU 1, ob der Parameter L (die Segmentlänge) kürzer als der Schwellenwert m ist, und wenn der Parameter über dem Schwellenwert m liegt, kehrt die CPU 1 zu dem obengenannten Schritt SP 111 zurück, ohne die Segmentanfangsmarkierung zu entfernen, wenn aber der Parameter kleiner als der Schwellenwert m ist, entfernt die CPU 1 die Segmentanfangsmarkierung an der Vorderseite, d.h. verbindet dieses Segment mit dem Segment an der Vorderseite, und kehrt zu dem obengenannten Schritt SP 111 zurück (Schritte SP 120 und SP 121)
Fig. 15 zeigt ein Beispiel der chronologischen Veränderung der Tonstärkeninformation, Stärke (t), und der chronologischen Veränderung der Anstiegsermittlungsfunktion d(t), und in diesem Beispiel werden die akustischen Signale in die Segmente S1, S2, ... SN unterteilt, indem sie bis zu dem Schritt SP 89, der in Fig. 14 dargestellt ist, verarbeitet werden. Durch die Durchführung der Verarbeitung ab Schritt S2 110 werden jedoch jene Segmente, die eine kurze Länge besitzen, ausgeschlossen, mit dem Ergebnis, daß das Segment S3 und das Segment S4 zu einem einzigen Segment S34 verbunden werden.
In dem obengenannten Ausführungsbeispiel wurde ferner die in der Gleichung (1) ausgedrückte Funktion als die Funktion zur Anstiegsermittlung angewendet, es kann auch eine andere Funktion angewendet werden. Zum Beispiel kann eine Differentialfunktion mit einem festen Nenner verwendet werden.
Ferner wird in dem obengenannten Ausführungsbeispiel eine Quadratsumme des akustischen Signals als Tonstärkeninformation verwendet, es kann aber auch ein anderer Parameter verwendet werden. Zum Beispiel kann anstelle der Quadratsumme eine Quadratwurzel verwendet werden.
Ferner wird in dem obengenannten Ausführungsbeispiel gezeigt, daß ein Segment mit unzureichender Länge mit dem unmittelbar vorangehenden Segment verbunden wird, aber ein solches kurzes Segment kann auch mit dem unmittelbar folgenden Segment verbunden werden. Ein solches kurzes Segment kann auch mit dem unmittelbar vorangehenden Segment verbunden werden, wenn das unmittelbar vorangehende Segment kein Restabschnitt ist, aber mit dem unmittelbar folgenden Segment, wenn das unmittelbar vorangehende Segment ein Restabschnitt ist.

Segmentierung auf der Basis der Tonhöheninformation

In der Folge wird ein Segmentierungsverfahren des automatischen Musiktranskriptionssystems gemäß der vorliegenden Erfindung auf der Basis der Tonhöheninformation (siehe Schritt SP 4 in Fig. 3) genau mit Bezugnahme auf die in Fig. 16 und Fig. 17 dargestellten Ablaufdiagramme beschrieben.
In diesem Zusammenhang zeigt Fig. 16 ein Ablaufdiagramm, das ein solches Verfahren auf der Funktionsebene darstellt, und Fig. 17 ist ein Ablaufdiagramm mit näheren Einzelheiten.
Die CPU 1 berechnet die Länge einer Serie in bezug auf alle Abtastpunkte in jedem analytischen Zyklus auf der Basis der erhaltenen Tonhöheninformation (Schritt SP 130). Hier bedeutet die Länge einer Serie eine Serie der Periode RUN, die einen Wert der Tonhöheninformation in einem vorgeschriebenen engen Bereich R1 mit symmetrischer Form um die Tonhöheninformation an dem Beobachtungspunkt P1 besitzt, wie in Fig. 18 dargestellt ist. Die von einem Sänger oder ähnlichem erzeugten akustischen Signale werden mit der Absicht erzeugt, solche Töne zu bilden, die ein regelmäßiges Tonintervall für jede vorgeschriebene Periode einnehmen, und selbst wenn sie Fluktuationen aufweisen, kann davon ausgegangen werden, daß sich die Veränderungen in der Tonhöheninformation für eine Periode, in der ein und dasselbe Tonintervall beabsichtigt ist, in einem engen Bereich befinden. Somit dient die Serienlänge RUN als Richtgröße zur Erfassung der Periode für denselben Ton.
In der Folge führt die CPU 1 eine Berechnung zur Ermittlung eines Abschnitts durch, in dem die Abtastpunkte mit einer Serienlänge über dem vorgeschriebenen Wert kontinuierlich auftreten (Schritt SP 131), wodurch der Einfluß aufgrund von Veränderungen in der Tonhöheninformation vermieden wird. Danach ermittelt die CPU 1 einen Abtastpunkt mit der im Verhältnis zu jedem der durch die Berechnung gefundenen Abschnitte maximalen Serienlänge als charakteristischen Punkt (Schritt SP 132).
Wenn schließlich der Unterschied in der Tonhöheninformation (d.h. der Unterschied der Tonhöhe) an zwei angrenzenden charakteristischen Punkten über dem vorgeschriebenen Wert liegt, ermittelt die CPU 1 das Ausmaß der Schwankung in der Tonhöheninformation zwischen den charakteristischen Punkten in bezug auf die einzelnen, dazwischenliegenden Abtastpunkte und segmentiert die akustischen Signale an dem Abtastpunkt, wo das Ausmaß einer solchen Schwankung maximal ist (Schritt SP 133).
Auf diese Weise kann dieses System das Segmentierungsverfahren auf der Basis der Tonhöheninformation durchführen, ohne durch Fluktuationen in den akustischen Signalen oder durch plötzliche Außengeräusche beeinflußt zu werden.
In der Folge wird dieses Verfahren genauer mit Bezugnahme auf Fig. 17 erklärt.
Zunächst erarbeitet die CPU 1 die Länge der Serie run(t) durch Berechnung in bezug auf alle Abtastpunkte t (t = 0 bis N) in jedem analytischen Zyklus (Schritt SP 140).
Danach, nachdem der Parameter t, der den zu verarbeitenden Abtastpunkt darstellt, auf Null gelöscht wurde, stellt die CPU 1 fest, daß die Verarbeitung in bezug auf alle Abtastpunkte noch nicht beendet ist, und beurteilt, ob die Serienlänge run(t) an dem Abtastpunkt t, der Gegenstand der Verarbeitung ist, kleiner als der Schwellenwert r ist (Schritte SP 141 bis 143). Wenn die CPU als Ergebnis dieser Operation entscheidet, daß die Länge der Serie unzureichend ist, inkrementiert sie den Parameter t und kehrt zu dem obengenannten Schritt SP 142 zurück (Schritt SP 144).
Durch Wiederholung dieses Verfahrens wählt die CPU 1 bald einen Abtastpunkt mit einer Serienlänge run(t) als Gegenstand der Verarbeitung, die länger als der Schwellenwert r ist, und erhält bei Schritt SP 143 ein negatives Ergebnis. Zu diesem Zeitpunkt speichert die CPU 1 den Parameter t als den Parameter s und markiert ihn als den Anfangspunkt, wo die Serienlänge run(t) den Schwellenwert r überschritten hat, wonach sie feststellt, daß die Verarbeitung in bezug auf alle Abtastpunkte noch nicht beendet ist, und beurteilt, ob die Serienlänge run(t) an dem als Gegenstand der Verarbeitung angenommenen Abtastpunkt t kleiner als der Schwellenwert r ist (Schritte SP 145 bis SP 147). Wenn die CPU 1 als Ergebnis dieser Operation feststellt, daß die Serienlänge run(t) ausreichend ist, inkrementiert sie den Parameter t und kehrt zu dem obengenannten Schritt SP 146 zurück (Schritt SP 148).
Durch Wiederholung dieser Verarbeitungsoperation ermittelt die CPU 1 bald einen Abtastpunkt als Gegenstand der Verarbeitung, bei dem die Serienlänge run(t) kürzer als der Schwellenwert r ist, und erhält bei Schritt SP 147 ein positives Ergebnis. Somit erfaßt die CPU 1 jene fortlaufenden Abschnitte, wo die Serienlänge run(t) kürzer als der Schwellenwert r ist, d.h. den Abschnitt von dem markierten Punkt s zu dem Abtastpunkt t-1 einen Punkt voran, und die CPU 1 setzt eine Markierung als einen charakteristischen Punkt an jenem Punkt, der die maximale Serienlänge unter diesen Abtastpunkten angibt (Schritt SP 149). Dann kehrt die CPU 1 bei Beendigung dieses Verfahrens zu dem obengenannten Schritt SP 142 zurück und führt das Nachweisverfahren für den nächsten kontinuierlichen Abschnitt durch, bei dem die Serienlänge run(t) über dem Schwellenwert r liegt.
Wenn die CPU 1 den Nachweis des kontinuierlichen Abschnitts, bei dem die Serienlänge run(t) über dem Schwellenwert r liegt, und die Markierung der charakteristischen Punkte beendet hat, wobei die Verarbeitung aller Abtastpunkte auf diese Weise beendet wurde, löscht die CPU 1 den Parameter t wieder auf Null, wobei sie danach feststellt, daß die Verarbeitung in bezug auf alle Abtastpunkte noch nicht beendet wurde, und beurteilt, ob die Markierung als charakteristischer Punkt auf dem Abtastpunkt angebracht wurde, der als Gegenstand der Verarbeitung dient (Schritte SP 150 bis SP 152). Wenn keine derartige Markierung angebracht ist, inkrementiert die CPU 1 den Parameter t und kehrt zu dem obengenannten Schritt SP 151 zurück (Schritt SP 153).
Durch Wiederholung dieses Verfahrens wird ein Abtastpunkt, der mit einer Markierung versehen ist, als Gegenstand der Verarbeitung gewählt und der erste charakteristische Punkt ermittelt. Danach speichert und markiert die CPU 1 diesen Wert t als den Parameter s und, indem der Parameter t weiter inkrementiert und festgestellt wird, daß die Verarbeitung in bezug auf alle Abtastpunkte noch nicht beendet ist, beurteilt die CPU 1, ob eine Markierung als charakteristischer Punkt an dem Abtastpunkt, der als Gegenstand der Verarbeitung dient, angebracht ist (Schritte SP 154 bis 157). Wenn keine derartige Markierung angebracht ist, inkrementiert die CPU 1 den Parameter t und kehrt zu dem obengenannten Schritt SP 154 zurück (Schritt SP 158).
Bei Wiederholung dieses Verfahrens wird bald ein Abtastpunkt, der mit einer Markierung versehen ist, als Gegenstand der Verarbeitung gewählt und der nächste charakteristische Punkt t ermittelt. Zu diesem Zeitpunkt beurteilt die CPU 1, ob der Unterschied in der Tonhöheninformation zwischen diesen jeweils angrenzenden charakteristischen Punkten s und t kleiner als der Schwellenwert q ist, und wenn er kleiner ist, kehrt die CPU 1 zu dem obengenannten Schritt SP 154 zurück und fährt mit dem Verfahren zur Ermittlung des nächsten Paares angrenzender charakteristischer Punkte fort, wenn aber der Unterschied über dem Schwellenwert q liegt, ermittelt die CPU 1 das Ausmaß der Schwankung in der Tonhöheninformation zwischen den charakteristischen Punkten in bezug auf die einzelnen dazwischenliegenden Abtastpunkte s bis t und setzt eine Segmentmarkierung an dem Abtastpunkt mit dem maximalen Schwankungsausmaß (Schritte SP 159 bis 161).
Durch Wiederholung dieses Verfahrens werden Segmentmarkierungen nacheinander zwischen charakteristischen Punkten gesetzt und es wird bald ein positives Ergebnis bei Schritt SP 156 erhalten, woraufhin das Verfahren beendet wird.
Daher ist das obengenannte Ausführungsbeispiel imstande, das Segmentierungsverfahren gut durchzuführen, selbst wenn Fluktuationen in den akustischen Signalen auftreten oder wenn plötzliche Außengeräusche in diesen enthalten sind, da das System das Segmentierungsverfahren unter Verwendung einer Serienlänge durchführt, die eine Länge darstellt, in der sich die Tonhöheninformation in einem engen Bereich befindet.
In dem obengenannten Ausführungsbeispiel verarbeitet das System ferner die aus der Autokorrelationsanalyse erhaltene Tonhöheninformation zur Segmentierung. Dennoch versteht sich, daß das Verfahren zur Ermittlung der Tonhöheninformation nicht darauf beschränkt ist.

Verfahren zur Prüfung der Segmentierung

In der Folge wird mit Bezugnahme auf das Ablaufdiagramm in Fig. 19 eine genaue Beschreibung in bezug auf das Verfahren zur Prüfung der Segmentierung bei Betrieb des automatischen Musiktranskriptionssystems gemäß der vorliegenden Erfindung gegeben (siehe Schritt SP 6 in Fig. 3).
Der Zweck dieses Prüfverfahrens ist die Verbesserung der Genauigkeit des Tonintervall-Identifizierungsverfahrens durch Ausführung einer weiteren Segmentierung der Segmente vor dem Verfahren zur Identifizierung eines Tonintervalls und durch Ausführung des Tonintervall-Identifizierungsverfahrens mit diesen Segmenten, da das identifizierte Tonintervall höchstwahrscheinlich fehlerhaft ist, was zu einer Verringerung in der Genauigkeit der erzeugten Partiturdaten führt, wenn aufgrund eines Fehlers auf diese Weise bestimmt wird, daß ein Segment aus zwei oder mehr Tönen besteht. In diesem Fall ist es denkbar, daß ein einziger Ton in zwei oder mehr Segmente unterteilt wird, wobei dieses Verfahren kein Problem darstellt, da diese Segmente, von denen aufgrund der identifizierten Tonleiter und der Tonstärkeninformation angenommen wird, daß sie einen einzigen Ton bilden, durch das Segmentierungsverfahren in Schritt SP 11 verbunden werden. Bei einem solchen Prüfverfahren zur Segmentierung stellt die CPU 1 zunächst fest, daß das zur Verarbeitung gewählte Segment nicht das letzte Segment ist und führt dann die Abgleichung des einzelnen Segments mit dem gesamten Segmentierungsergebnis durch (Schritte SP 170 und SP 171).
Hier bezeichnet Abgleichung ein Verfahren, das die Endsumme der absoluten Werte der Unterschiede zwischen dem Wert eines Teils der bestimmten Segmentlänge, dividiert durch seine Ganzzahl, oder dem Wert, der durch Multiplikation der Segmentlänge mit ihrer Ganzzahl erhalten wurde, und dem Wert der Länge des anderen Segments und der Häufigkeit einer fehlenden Übereinstimmung zwischen dem Wert für einen Teil der Länge des Segments, dividiert durch seine Ganzzahl, oder dem Wert, der durch Multiplikation der Segmentlänge mit ihrer Ganzzahl erhalten wurde, und dem Wert der Länge des anderen Segments (d.h. die Anzahl fehlender Übereinstimmungen) ermittelt. Ferner ist in diesem Ausführungsbeispiel das andere Segment, das als Gegenstück für die Abgleichung dient, sowohl das Segment, das aufgrund der Tonhöheninformation erhalten wurde, als auch das Segment, das aufgrund der Tonstärkeninformation erhalten wurde.
Wenn zum Beispiel das erste Segment S1 von den zehn Segmenten, die in Fig. 20 dargestellt sind und durch das vorangehende Segmentierungsverfahren (Schritt SP 4 und SP 5 in Fig. 3) ermittelt wurden, Gegenstand der Verarbeitung ist, erzeugt dieses Abgleichungsverfahren "1 + 3 + 1 + 1 + 5 + 0 + 0 + 1 + 9 = 21" als Endsummeninformation über die Unterschiede und "sieben" als die Anzahl fehlender Übereinstimmungen.
Wenn die Anzahl fehlender Übereinstimmungen und das Ausmaß dieser fehlenden Übereinstimmungen (d.h. die Information über die Endsumme der Differenzen) für den Gegenstand der Verarbeitung so erhalten wurde, speichert die CPU 1 die Information in der Hilfsspeichervorrichtung 6 und kehrt dann zu dem obengenannten Schritt SP 170 zurück und wählt das nächste Segment als das für die Verarbeitung bestimmte Segment (Schritt SP 172).
Die Wiederholung der Verfahrensschleife, die aus diesen Schritten SP 170 bis SP 172 besteht, liefert eine Information über die Anzahl fehlender Übereinstimmungen und das Ausmaß der fehlenden Übereinstimmungen in bezug auf alle Segmente, und bald wird bei Schritt SP 170 ein positives Ergebnis erhalten. Zu diesem Zeitpunkt bestimmt die CPU 1 die Standardlänge auf der Basis der Segmentlänge, die hinsichtlich der gespeicherten Information über die gesamte Häufigkeit fehlender Übereinstimmungen und über das Ausmaß solcher fehlenden Übereinstimmungen in der Hilfsspeichervorrichtung einem Minimum dieser Faktoren unterliegt (Schritt SP 173). Hier bezeichnet Standardlänge die zeitliche Dauer gleich einer Viertelnote oder ähnlichem.
In dem Beispiel von Fig. 20 wird "60" als die Segmentlänge mit dem Minimum in der Anzahl fehlender Übereinstimmungen und dem Minimum deren Ausmaßes ermittelt, und "120", d.h. der Wert, der zweimal so groß wie diese Länge "60" ist, wird als Standardlänge gewählt. In der Praxis entspricht die Länge, die eine Viertelnote braucht, dem Wert innerhalb des vorgeschriebenen Bereichs, und von diesem Gesichtspunkt aus wird "120" anstelle von "60" als Standardlänge ermittelt.
Wenn die Standardlänge ermittelt ist, unterteilt die CPU 1 die Segmente weiter, die im allgemeinen länger als die Standardlänge sind, um einen Wert, der ungefähr der Hälfte der Standardlänge entspricht, wobei das Prüfverfahren für diesen Segmentierungsschritt beendet wird (SP 174). Bei dem in Fig. 20 angeführten Beispiel wird das fünfte Segment S5 weiter in "61" und "60" geteilt; das sechste Segment S6 wird weiter in "63" und "62" geteilt; das neunte Segment S9 wird weiter in "60" und "59" geteilt; das zehnte Segment S10 wird weiter in "58", "58", "58" und "57" geteilt.
Gemäß dem oben angeführten Ausführungsbeispiel ist es daher möglich, eine weitere Unterteilung der Segmente durchzuführen, selbst wenn zwei oder mehr Töne als ein einziges Segment segmentiert wurden. Mit dem System ist es daher möglich, solche Verfahren wie das Tonintervall- Identifizierungsverfahren und das Tonintervall- Korrekturverfahren, genau auszuführen.
In Hinblick auf diese Weise der weiteren Segmentierung kommt es nicht vor, daß irgendwelche Segmente, die einem einzigen Ton entsprechen und irrtümlich in zwei oder mehr Abschnitte unterteilt wurden, jemals so bleiben wie sie sind, da das System ein Nachbehandlungsverfahren vorsieht, das die Segmente, von denen angenommen wird, daß sie einen einzigen Ton bilden, miteinander verbindet.
Ferner zeigt das oben angeführte Ausführungsbeispiel die Ermittlung der Standardlänge auf der Basis der Anzahl fehlender Übereinstimmungen und des Ausmaßes der fehlenden Übereinstimmungen, aber die Ermittlung der Länge kann auch auf Basis der Häufigkeit des Auftretens einer Segmentlänge erfolgen.
Ferner zeigte das oben angeführte Ausführungsbeispiel einen Fall, in dem eine Zeitdauer gleich einer Viertelnote als Standardlänge verwendet wird, aber es kann auch eine Zeitdauer gleich einer Achtelnote als Standardlänge verwendet werden. In diesem Fall wird eine weitere Segmentierung nicht durch eine Länge gleich der Hälfte der Standardlänge, sondern durch die Standardlänge selbst durchgeführt.
Ferner zeigte das oben angeführte Ausführungsbeispiel einen Fall, in dem die vorliegende Erfindung bei einem Verarbeitungssystem verwendet wird, das sowohl eine Segmentierung auf der Basis der Tonhöheninformation als auch eine auf der Basis der Tonstärkeninformation aufweist, und dennoch kann die vorliegende Erfindung bei einem automatischen Musiktranskriptionssystem verwendet werden, bei dem zumindest das Segmentierungsverfahren auf Tonstärkeninformation beruht.

Identifizierung des Tonintervalls

In der Folge wird eine genaue Beschreibung mit Bezugnahme auf das Ablaufdiagramm in Fig. 21 des Tonintervall- Identifizierungsverfahrens (Schritt SP 7 in Fig. 3) für ein automatisches Musiktranskriptionssystem wie dieses angeführt.
Die CPU 1 stellt zunächst fest, daß die Verarbeitung des letzten Segments noch nicht beendet ist und stellt dann die Tonhöheninformation (xO) für das niedrigste Tonintervall, das für die akustischen Signale auf der Achse eines absoluten Tonintervalls angenommen wird, als den Tonintervallparameter xj ein (j = 0 bis m - 1, wobei m die Anzahl der Tonintervalle ausdrückt, die für das akustische Signal auf der Achse eines absoluten Tonintervalls im Hochtonbereich angenommen wird ausdrückt) und ermittelt durch Berechnung und speichert den Abstand &epsi;j der Tonhöheninformation pi (i = 0 bis n - 1, wobei n die Anzahl von Tonhöheninformationen für dieses Segment ausdrückt) im Verhältnis zu diesem Tonintervall (Schritte SP 180 bis SP 182).
Hier wird der Abstand &epsi;j als die Quadratsumme des Unterschieds pi - xj (siehe Fig. 22) zwischen jeder Tonhöheninformation pi in dem als Gegenstand für die Berechnung des Abstands gewählten Segment und der Tonhöheninformation xj für das Tonintervall auf der Achse des absoluten Tonintervalls definiert, wie durch folgende Gleichung ausgedrückt wird:
Danach beurteilt die CPU 1, ob der Tonintervallparameter xj die Tonhöheninformation xm-1 für das Tonintervall auf der Achse des höchsten absoluten Tonintervalls, das das akustische Signal vermutlich erreichen kann, geworden ist, und wenn ein negatives Ergebnis erhalten wird, wird das Tonintervall xj erneuert, um die Tonhöheninformation xj + 1 für das Tonintervall auf der Achse des absoluten Tonintervalls zu entwickeln, das um einen halben Schritt höher ist als jenes Tonintervall, das bis zu diesem Zeitpunkt für die Verarbeitung verwendet wurde, und kehrt dann zu dem obengenannten Abstandsberechnungsschritt SP 182 zurück (Schritte SP 183 und SP 184).
Durch Wiederholung dieser Verfahrensschleife, die aus diesen Schritten SP 183 und SP 184 besteht, wird der Abstand &epsi;0 bis &epsi;m-1 zwischen der Tonhöheninformation und allen Tonintervallen auf der Achse der absoluten Tonleiter durch Berechnung ermittelt, und bald wird in Schritt SP 183 ein positives Ergebnis erhalten. Zu diesem Zeitpunkt erfaßt die CPU 1 den kleinsten der Abstände in bezug auf die einzelnen im Speicher gespeicherten Tonintervalle und bestimmt jenes Tonintervall, bei dem der Abstand minimal ist, als das Tonintervall dieses Segments und stellt dann das nächste Segment als das zu verarbeitende Segment ein, wonach wieder zu dem obengenannten Schritt SP 180 zurückgekehrt wird (Schritte SP 185 und SP 186).
Durch derartige Wiederholung des Verfahrens werden die Tonintervalle für alle Segmente identifiziert und ein positives Ergebnis wird in Schritt SP 180 erhalten, woraufhin die CPU 1 das spezielle Verarbeitungsprogramm beendet.
Daher kann das obenbeschriebene Ausführungsbeispiel aufgrund der Berechnung des Abstands zwischen der Tonhöheninformation über jedes Segment und der Achse des absoluten Tonintervalls und der Identifizierung des Tonintervalls des Segments mit einem solchen Tonintervall auf der Achse des absoluten Tonintervalls, die einen minimalen Abstand ergibt, das Tonintervall mit einem hohen Maß an Genauigkeit identifizieren.
Ferner wird in dem obengenannten Ausführungsbeispiel der Abstand durch die Gleichung (2) berechnet, aber der Abstand kann auch durch die folgende Gleichung ermittelt werden:
Ferner kann die Tonhöheninformation, die in dem Verfahren zur Identifizierung des Tonintervalls verwendet wird, entweder in Hz, der Frequenzeinheit, oder in Cent, einer Einheit, die häufig im Bereich der Musik verwendet wird, ausgedrückt werden.
In der Folge wird ein weiteres Verfahren zur Identifizierung von Tonintervallen mit dem automatischen Musiktranskriptionssystem gemäß der vorliegenden Erfindung mit Bezugnahme auf das Ablaufdiagramm in Fig. 23 genau beschrieben.
Zunächst wählt die CPU 1 das Anfangssegment von den durch das Segmentierungsverfahren erhaltenen Segmenten und ermittelt dann durch Berechnung den durchschnittlichen Wert aller Tonhöheninformationen, die in diesem Segment vorliegen (Schritte SP 190 und SP 191).
Danach identifiziert die CPU 1 das Tonintervall, das auf der Achse des absoluten Tonintervalls gefunden wurde und dem berechneten Durchschnittswert am nächsten ist, als das Tonintervall für das bestimmte Segment (Schritt SP 192). Danach wird das Tonintervall jedes Segments des akustischen Signals mit jedem der Tonintervalle identifiziert, das sich um einen Halbtonschritt von der Achse des absoluten Tonintervalls unterscheidet. Die CPU 1 unterscheidet, ob ein bestimmtes derart bearbeitetes Segment, dessen Tonsegment dadurch identifiziert wurde, das letzte Segment ist (Schritt SP 193). Wenn die CPU 1 als Ergebnis dieser Operation ermittelt, daß die Verarbeitung beendet ist, wird das Programm für das bestimmte Programm beendet, aber wenn das Verfahren noch nicht beendet ist, wählt die CPU 1 das nächste Segment als Gegenstand der Verarbeitung und kehrt zu dem obengenannten Schritt SP 191 zurück (Schritt SP 194).
Durch Wiederholung dieser Verarbeitungsschleife, die aus den Schritten SP 191 bis SP 194 besteht, wird die Identifizierung der Tonintervalle in bezug auf alle Segmente auf der Basis der Tonhöheninformation in dem Segment durchgeführt.
In diesem Zusammenhang wurde das System zur Verwendung des Durchschnittswertes für das Tonintervall-Identifizierungsverfahren entwickelt, weil die akustischen Signale in einer Weise fluktuieren, daß sie um den vom Sänger oder ähnlichem beabsichtigten Tonintervall kreisen, selbst wenn diese Signale Fluktuationen aufweisen können, und daß der Durchschnittswert dem beabsichtigten Tonintervall entspricht.
Fig. 24 zeigt ein Beispiel der Identifizierung eines Tonintervalls durch ein solches Verfahren. Die Kurve PIT in strichlierter Linie stellt die Tonhöheninformation des akustischen Signals dar, während die volle Linie VR in vertikaler Richtung die Unterteilung jedes Segments zeigt. Der Durchschnittswert für jedes Segment wird in diesem Beispiel durch die volle Linie HR in horizontaler Richtung angezeigt, und das identifizierte Tonintervall wird durch die strichlierte Linie HP in horizontaler Richtung dargestellt. Wie aus dieser Fig. 24 hervorgeht, weist der Durchschnittswert eine sehr geringe Abweichung im Verhältnis zu dem Tonintervall auf der Achse des absoluten Tonintervalls auf und dadurch kann die Identifizierung des Tonintervalls gut durchgeführt werden.
Bei diesem Ausführungsbeispiel wird folglich der Durchschnittswert der Tonhöheninformation in bezug auf jedes Segment ermittelt und das Tonintervall des Segments mit einem solchen Tonintervall auf der Achse des absoluten Tonintervalls identifiziert, das dem Durchschnittswert am nächsten ist. Daher ist das System imstande, die Tonintervalle mit einem hohen Maß an Genauigkeit zu identifizieren. Da dieses System ferner ein Abstimmverfahren bei den akustischen Signalen vor der Identifizierung des Tonintervalls durchführt, kann durch diese Methode ein Durchschnittswert ermittelt werden, der einen Wert nahe dem Tonintervall auf der Achse des absoluten Tonintervalls annimmt, wodurch eine deutliche Erleichterung in der Durchführung des Identifizierungsverfahrens erzielt wird.
In dem obengenannten Beispiel wird das Tonintervall des Segments auf der Basis des Durchschnittswerts der Tonhöhe identifiziert, aber die Identifizierung der Segmente ist nicht darauf beschränkt. Sie kann auf dem Mittelwert der Tonhöhe basieren. Mit anderen Worten, das Verfahren wird wie in der Folge mit Bezugnahme auf das Ablaufdiagramm in Fig. 25 beschrieben, durchgeführt.
Wie in Fig. 25 dargestellt ist, wählt die CPU 1 zunächst das Anfangssegment von den durch die Segmentierung erhaltenen Segmenten und ermittelt dann den Mittelwert aller in dem Segment enthaltenen Tonhöheninformationen (Schritte SP 190 und SP 195). Hier ist der Mittelwert jener Wert der Tonhöheninformation, der in der Mitte liegt, wenn die Tonhöheninformationen für das bestimmte Segment, beginnend mit der größten, der Reihe nach angeordnet werden, wenn die Anzahl solcher Daten eine ungerade ist, und der Durchschnittswert von den beiden in der Mitte angeordneten Informationen, wenn die Anzahl gerade ist.
Die anderen Verarbeitungsschritte außer Schritt SP 195 und SP 196 sind im wesentlichen dieselben wie die in Fig. 23 dargestellten.
Durch Wiederholung dieser Verarbeitungsschleife, die aus den Schritten SP 195, SP 196, SP 193 und SP 194 besteht, wird die Identifizierung der Tonintervalle auf der Basis der Tonhöheninformation in dem bestimmten Segment in bezug auf alle Segmente durchgeführt.
Hier liegt der Grund für die Verwendung des Mittelwerts für das Verfahren zur Identifizierung des Tonintervalls in dem System darin, daß selbst wenn akustische Signale fluktuieren, davon ausgegangen wird, daß sie um das vom Sänger oder ähnlichem beabsichtigte Tonintervall fluktuieren, so daß der Mittelwert dem beabsichtigten Tonintervall entspricht.
Fig. 26 zeigt ein Beispiel der Identifizierung von Tonintervallen durch dieses Verfahren, und die strichlierte Kurve PIT zeigt die Tonhöheninformation des akustischen Signals, während die volle Linie VR in vertikaler Richtung die Unterteilung des Segments angibt. Der Mittelwert für jedes Segment wird in diesem Beispiel durch die volle Linie HR in horizontaler Richtung angezeigt, und das identifizierte Tonintervall wird durch die strichlierte Linie HP in horizontaler Richtung angegeben. Wie aus dieser Fig. 26 hervorgeht, weist der Mittelwert eine geringe Abweichung im Verhältnis zu dem Tonintervall auf der Achse des absoluten Tonintervalls auf, und dadurch kann das System die Identifizierung des Tonintervalls gut durchführen. Es ist auch möglich, das Tonintervall zu identifizieren, ohne durch irgendeinen instabilen Zustand der Tonhöheninformation unmittelbar vor oder nach der Unterteilung eines Segments beeinträchtigt zu werden (zum Beispiel, die Kurventeile C1 und C2).
Da das System in diesem Ausführungsbeispiel den Mittelwert der Tonhöheninformation von jedem Segment ermittelt und das Tonintervall bei einem solchen Tonintervall auf der Achse des absoluten Tonintervalls identifiziert, das dem Mittelwert am nächsten liegt, kann das System das Tonintervall mit einem hohen Maß an Genauigkeit identifizieren. Ferner wendet dieses System vor der Identifizierung des Tonintervalls ein Abstimmverfahren der akustischen Signale an. Daher nimmt der Mittelwert durch diese Methode einen Wert an, der dem Tonintervall auf der Achse des absoluten Tonintervalls nahe liegt, so daß die Durchführung der Identifizierung deutlich vereinfacht wird.
Ferner kann das Verfahren zur Identifizierung des Tonintervalls auf der Basis eines Spitzenpunktes im Anstieg der Tonstärke durchgeführt werden (Schritt SP 7 in Fig. 3). Eine Erklärung dieses Merkmals wird mit Bezugnahme auf Fig. 27 und Fig. 28 gegeben. Das in Fig. 27 dargestellte Verarbeitungsverfahren ist im wesentlichen dasselbe wie jenes von Fig. 23 und unterscheidet sich nur in den Schritten SP 197 und SP 198.
Die CPU 1 wählt zunächst das Anfangssegment von den durch das Segmentierungsverfahren erhaltenen Segmenten und wählt dann den Abtastpunkt, der den maximalen Anfangswert (eine Spitze im Anstieg) in der Veränderung der Tonstärkeninformation auf dem Segment aufweist (Schritte SP 190 und SP 197).
Danach identifiziert die CPU 1 jenes Tonintervall auf der Achse des absoluten Tonintervalls als das Tonintervall für das bestimmte Segment, das der Tonhöheninformation über den Abtastpunkt am nächsten ist, bei dem die Spitze im Anstieg der Tonstärke verursacht wird (Schritt SP 198). In diesem Zusammenhang werden die Tonintervalle der einzelnen Segmente der akustischen Signale mit jedem der Tonintervalle identifiziert, die sich um einen Halbtonschritt auf der Achse des absoluten Tonintervalls unterscheiden.
Hier wurde die Spitze im Anstieg der Tonstärkeninformation für das Verfahren zur Identifizierung des Tonintervalls verwendet, da davon ausgegangen wird, daß selbst wenn akustische Signale Fluktuationen aufweisen, der Sänger oder ähnliches das Stimmvolumen derart kontrolliert, daß das Tonintervall an einer Lautstärkenspitze erreicht wird, wobei die Lautstärke der Stimme zu dem Zeitpunkt vergrößert wird, bei dem das Tonintervall zu einem neuen Ton verschoben wird. Tatsächlich wurde schlüssig nachgewiesen, daß es eine sehr enge Beziehung zwischen einer Spitze im Anstieg der Tonstärkeninformation und dem Tonintervall gibt.
Fig. 28 zeigt ein Beispiel der Identifizierung des Tonintervalls durch dieses Verfahren, und die erste strichlierte Kurve PIT stellt die Tonhöheninformation des akustischen Signals dar, die zweite strichlierte Kurve POW stellt die Tonstärkeninformation dar, und die volle Linie VR in der vertikalen Richtung stellt die Unterteilung der Segmente dar. Die Tonhöheninformation an der Spitze des Anstiegs in jedem Segment wird in diesem Beispiel durch die volle Linie HR in horizontaler Richtung dargestellt, während das identifizierte Tonintervall durch die strichlierte Linie HP in horizontaler Richtung angezeigt wird. Wie aus dieser Fig. 28 hervorgeht, weist die Tonhöheninformation in bezug auf den Spitzenpunkt im Anstieg der Tonstärkeninformation eine sehr geringe Abweichung von dem Tonintervall auf der Achse des absoluten Tonintervalls auf, und es wurde beobachtet, daß durch dieses Merkmal eine gute Identifizierung des Tonintervalls durch das System möglich ist.
Daher ermittelt das System gemäß dem obenbeschriebenen Ausführungsbeispiel die Tonhöheninformation über den Spitzenpunkt im Anstieg der Tonstärkeninformation für jedes Segment und identifiziert das Tonintervall des Segments mit einem solchen Tonintervall auf der Achse des Tonintervalls, das dieser Tonhöheninformation am nächsten ist. Somit ist das System imstande, das Tonintervall mit einem hohen Maß an Genauigkeit zu identifizieren. Ferner wendet das System vor der Identifizierung des Tonintervalls ein Abstimmverfahren der akustischen Signale an, so daß die Tonhöheninformation im Verhältnis zu dem Spitzenpunkt im Anstieg der Tonstärkeninformation einen Wert annimmt, der dem Tonintervall auf der Achse des absoluten Tonintervalls nahe liegt, und daher ist die Durchführung der Identifizierung mit diesem System sehr einfach.
Da das System den Spitzenpunkt im Anstieg der Tonstärkeninformation verwendet, kann das System das Tonintervall gut identifizieren, selbst wenn das Segment so kurz ist, daß die Anzahl der Abtastpunkte im Vergleich zu der Identifizierung eines Tonintervalls durch statistische Verarbeitung der Tonhöheninformation in dem Segment klein ist, mit dem Ergebnis, daß die Identifizierung des Tonintervalls durch dieses Segment nur geringfügig durch die Segmentlänge beeinflußt wird.
Ferner zeigt das obengenannte Ausführungsbeispiel ein Verfahren zur Identifizierung des Tonintervalls auf der Basis der Tonhöheninformation in bezug auf den Spitzenpunkt der Tonstärkeninformation, es ist aber auch ein zweckmäßiges Verfahren zur Durchführung der Identifizierung des Tonintervalls auf der Basis der Tonhöheninformation über den Abtastpunkt, der den maximalen Wert der Tonstärkeninformation über dieses Segment angibt.
In der Folge wird eine weitere Anordnung des Tonintervall-Identifizierungsverfahrens und Prüfverfahrens für die einmal identifizierten Tonintervalle, die von diesem automatischen Musiktranskriptionssystem gemäß der vorliegenden Erfindung durchgeführt werden, mit Bezugnahme auf das Ablaufdiagramm in Fig. 29 näher beschrieben.
Die CPU 1 erhält zunächst einen Durchschnittswert, zum Beispiel der Tonhöheninformation des bestimmten Segments, in bezug auf das durch die Segmentierung erhaltene Segment und identifiziert dann das Tonintervall eines bestimmten Segments mit jenem der Tonintervalle, die sich voneinander durch einen Halbtonschritt auf der Achse des absoluten Tonintervalls unterscheiden, das dem Durchschnittswert am nächsten ist (Schritt SP 200).
Das somit identifizierte Tonintervall wird durch dieses System auf folgende Weise geprüft. Hier werden jene Segmente überprüft, von denen angenommen wird, daß sie mit einem Tonintervall identifiziert wurden, unabhängig von den Segmenten, die den geprüften Segmenten infolge der Unterteilung als getrennte Segmente aufgrund der Instabilität des Tonintervalls zu dem Zeitpunkt des Tonüberganges vorangehen bzw. folgen.
Die CPU 1 stellt zunächst fest, daß die Verarbeitung des letzten Segments noch nicht beendet ist und beurteilt, ob die Länge des Segments, das als Gegenstand der Verarbeitung gewählt wird, kürzer als der Schwellenwert ist, und wenn die Länge über dem Schwellenwert liegt, verschiebt die CPU 1 die Verarbeitungsoperation zu dem nächsten Segment, um dieses als Gegenstand der Verarbeitung zu wählen, und kehrt dann zu Schritt SP 200 zurück (Schritte SP 201 und SP 202).
Der Grund für diese Verarbeitungsweise liegt in der Tatsache, daß die Länge eines Segments kurz ist, wenn es als ein gesondertes Segment identifiziert wird, obwohl es Teil eines einzigen Tons wie zu Beginn oder am Ende bei einem Tonübergang ist. Wenn nachgewiesen wird, daß das zu verarbeitende Segment eine kurze Länge aufweist, bestimmt die CPU 1 das Abgleichen der Veränderungsneigung in der Tonhöheninformation für das bestimmte Segment und der Veränderungsneigung in der Überschreitung und bestimmt auch die Abgleichung der Veränderungsneigung in der Tonhöheninformation für das Segment und der Veränderungsneigung in der Unterschreitung, wodurch beurteilt wird, ob die Veränderungsneigung in der Tonhöheninformation bei diesem Segment eine Überschreitung oder eine Unterschreitung darstellt (Schritte SP 203 und SP 204).
Hier ist zu beachten, daß zum Zeitpunkt des Überganges von einem Ton zum anderen in einigen Fällen ein allmählicher Übergang von einem etwas höheren Tonintervallsniveau zu jenem des Tons in der Nähe des Anfangs des nächsten Tons auftritt, daß manchmal ein allmählicher Übergang von einem etwas niedrigeren Tonintervallsniveau zu jenem des Tons in der Nähe des Anfangs des nächsten Tons auftritt, daß manchmal ein Übergang mit einer allmählichen Abnahme in der Tonhöhe von dem Tonintervallsniveau eines Tons zum nächsten Ton in der Nähe des Endes des Tons auftritt, und daß manchmal ein Übergang mit einem allmählichen Anstieg in der Tonhöhe von dem Tonintervallsniveau eines Tons zum nächsten Ton in der Nähe des Endes des Tons auftritt. Von den Segmentteilen, in denen sich das Tonintervall mit einer Neigung zu einem allmählichen Anstieg in der Tonhöhe oder mit einer Neigung zu einer allmählichen Abnahme in der Tonhöhe durch die Auswirkung eines Tonüberganges verändert, obwohl sie Teile einzelner Töne sind, werden jene Teile, die in der Tonhöhe höher als das richtige Tonintervall sind, als "Überschreitung" bezeichnet, und von den Segmentteilen, in welchen sich das Tonintervall mit einer Neigung zu einem allmählichen Anstieg in der Tonhöhe oder mit einer Neigung zu einer allmählichen Abnahme in der Tonhöhe durch die Auswirkung eines Tonüberganges verändert, obwohl sie Teile einzelner Töne sind, werden jene Teile, die in der Tonhöhe niederer als das richtige Tonintervall sind, als "Unterschreitung" bezeichnet.
Solche Überschreitungsteile und Unterschreitungsteile werden manchmal als unabhängige Segmente unterschieden, und in einem solchen Fall beurteilt die CPU 1, ob es möglich ist, daß das als Gegenstand des Verfahrens gewählte Segment ein Segment ist, das eine Überschreitung oder Unterschreitung aufweist, wobei das System die Abgleichung zwischen der Veränderungsneigung in der Tonhöheninformation für das Segment und der richtigen Neigung zu einem Anstieg in der Tonhöhe oder der richtigen Neigung zu einer Abnahme in der Tonhöhe wie oben erwähnt bestimmt.
Wenn die CPU 1 in diesem Beurteilungsverfahren ein negatives Ergebnis erhält, wählt sie das nächste Segment als Gegenstand der Verarbeitung und kehrt zu dem obengenannten Schritt SP 201 zurück. Wenn andererseits die CPU 1 entscheidet, daß die Möglichkeit besteht, daß das Segment eine Überschreitung oder Unterschreitung wiedergibt, ermittelt sie den Unterschied zwischen dem identifizierten Tonintervall des bestimmten Segments und den identifizierten Tonintervallen des unmittelbar vorangehenden Segments und des unmittelbar folgenden Segments im Verhältnis zu dem Segment, wobei eine Markierung an dem Segment gesetzt wird, das den kleineren Unterschied aufweist, und beurteilt danach, ob der Unterschied in dem Tonintervall des so markierten Segments kleiner als der Schwellenwert ist (Schritte SP 205 und SP 206).
Wenn ein Ton durch das Segmentierungsverfahren in getrennte Segmente unterteilt wurde, obwohl sie einen einzigen Ton bilden, unterscheidet sich das Tonintervall eines solchen Segments nicht stark von den Tonintervallen der vorangehenden Segmente und der folgenden Segmente, aber wenn ein solches Segment einen deutlichen Unterschied im Tonintervall zu den vorangehenden und folgenden Segmenten aufweist, wird davon ausgegangen, daß das Segment kein Segment ist, das eine Überschreitung oder Unterschreitung wiedergibt, wobei in diesem Fall die CPU 1 das nächste Segment als Gegenstand der Verarbeitung wählt und zu dem obengenannten Schritt SP 201 zurückkehrt.
Wenn andererseits das bestimmte Segment einen geringen Unterschied im Tonintervall zu jenem des markierten Segments aufweist, beurteilt die CPU 1, ob es eine Veränderung in der Tonstärkeninformation über dem Schwellenwert in der Nähe der Grenze zwischen dem bestimmten Segment und dem markierten Segment gibt (Schritt SP 206). Wenn ein Übergang von einem Ton zum anderen stattfindet, kommt es häufig vor, daß sich auch die Tonstärkeninformation verändert und wenn die Veränderung in der Tonstärkeninformation groß ist, wird davon ausgegangen, daß das bestimmte Segment kein Segment ist, das eine Überschreitung oder Unterschreitung wiedergibt. In diesem Fall wählt die CPU 1 das nächste Segment als Gegenstand der Verarbeitung und kehrt zu dem obengenannten Schritt SP 201 zurück.
Wenn in der Beurteilung bei diesem Schritt SP 207 ein positives Ergebnis erhalten wird, wird davon ausgegangen, daß das bestimmte Segment ein Segment ist, das eine Überschreitung oder Unterschreitung wiedergibt. Daher korrigiert die CPU 1 das Tonintervall des bestimmten Segments auf jenes des markierten Segments und wählt das nächste Segment als Gegenstand der Verarbeitung und kehrt danach zu dem obengenannten Schritt SP 201 zurück (Schritt SP 208).
Wenn die CPU 1 die Prüfung des letzten Segments durch ein Prüfverfahren des Tonintervalls in bezug auf alle Segmente durch Wiederholung eines derartigen Verfahrens beendet, wird ein positives Ergebnis bei Schritt SP 201 erhalten, wodurch dieses spezielle Verarbeitungsprogramm beendet wird.
Fig. 30 zeigt ein Beispiel, in dem das identifizierte Tonintervall durch das soeben beschriebene Verfahren korrigiert wird. Hier stellt die Kurve die Tonhöheninformation PIT dar, und in diesem Beispiel sollen das zweite Segment S2 und das dritte Segment S3 dasselbe Tonintervall bilden. Das zweite Segment S2 wurde vor der Korrektur mit dem Tonintervall R2 identifiziert, das um einen Halbtonschritt unter dem Tonintervall R3 lag, mit dem das dritte Segment S3 identifiziert wurde, aber das Tonintervall R3C dieses Segments S2 wurde später durch dieses Verfahren auf das Tonintervall R3 des Segments S3 verändert.
Daher kann dieses System die Genauigkeit der Partiturdaten aufgrund der verbesserten Genauigkeit der identifizierten Tonintervalle und folglich einem höheren Maß an Genauigkeit in der Ausführung der folgenden Verfahren verbessern, da das System so entwickelt wurde, daß eine Korrektur des einmal identifizierten Tonintervalls durch den Nachweis jener Segmente, die irrtümlich mit falschen Tonintervallen identifiziert wurden, durchgeführt wird, wobei für die Korrektur die Segmentlänge, die Neigung der Veränderung in der Tonhöheninformation, der Unterschied des bestimmten Segments im Tonintervall zu den vorangehenden und folgenden Segmenten, und der Unterschied des bestimmten Segments in der Tonstärkeninformation zu den vorangehenden und folgenden Segmenten verwendet werden.
Ferner wurde das obengenannte Ausführungsbeispiel zur Ermittlung jener Segmente entwickelt, die mit falschen Tonintervallen identifiziert wurden, wobei der Unterschied in der Tonstärkeninformation zwischen einem bestimmten Segment und den vorangehenden und folgenden Abschnitten berücksichtigt wird, aber es ist ein zweckmäßiges Verfahren, solche falsch identifizierten Segmente auf der Basis von zumindest Segmentlänge, der Neigung der Veränderung in der Tonhöheninformation und dem Unterschied im Tonintervall zwischen dem bestimmten Segment und den vorangehenden und folgenden Segmenten zu ermitteln.
Ferner versteht sich, daß die Methode für den Nachweis einer Überschreitung oder einer Unterschreitung auf der Basis der Veränderung in der Tonhöheninformation nicht auf die obengenannte Methode beschränkt ist, die diese einfach durch eine ansteigende Tendenz oder eine fallende Tendenz erkennt, sondern auch eine andere Methode, wie der Vergleich mit einem Standardmuster, angewendet werden kann.
Wie in der Folge erklärt wird, kann das Verfahren zur Identifizierung von Tonintervallen auch von einem anderen Gesichtspunkt aus durchgeführt werden (Siehe Schritt SP 7 in Fig. 3). Eine Erklärung zu diesem Punkt wird mit Bezugnahme auf Fig. 31 und Fig. 32 gegeben.
Die CPU 1 wählt zunächst das erste Segment von den durch Segmentierung erhaltenen Segmenten und erstellt ein Histogramm für alle Tonhöheninformationen in dem bestimmten Segment (Schritte SP 210 und SP 211).
Danach erfaßt die CPU 1 den am häufigsten auftretenden Wert der Tonhöheninformation, d.h. den häufigsten Wert, in dem Histogramm und identifiziert das Tonintervall des bestimmten Segments mit jenem Tonintervall auf der Achse des absoluten Tonintervalls, das dem erfaßten häufigsten Wert am nächsten ist (Schritte SP 212 und SP 213). Ferner wird das Tonintervall jedes Segments eines akustischen Signals mit jedem der Tonintervalle auf der Achse des absoluten Tonintervalls mit einem Unterschied von einem Halbtonschritt identifiziert. Dann beurteilt die CPU 1, ob das durch dieses Verfahren mit einem Tonintervall identifizierte Segment das letzte Segment ist (Schritt SP 214). Wenn das Ergebnis anzeigt, daß das Verfahren beendet ist, beendet die CPU 1 dieses Verarbeitungsprogramm, und wenn das Verfahren noch nicht beendet ist, wählt die CPU 1 das nächste Segment als Gegenstand der Verarbeitung und kehrt zu dem obengenannten Schritt, SP 211, zurück (Schritt SP 215).
Durch Wiederholung einer Verfahrensschleife, die aus diesen Schritten, SP 211 bis SP 215, besteht, wird die Identifizierung des Tonintervalls auf der Basis der Information über den häufigsten Wert der Tonhöheninformation in jedem bestimmten Segment mit Bezugnahme auf alle Segmente durchgeführt.
Hier wird die Tonhöheninformation über den häufigsten Wert in diesem System zur Identifizierung des Tonintervalls angesichts der Tatsache verwendet, daß die Tonhöheninformation, die den häufigsten Wert aufweist, vermutlich dem beabsichtigten Tonintervall entspricht, da angenommen wird, daß die akustischen Signale, die Fluktuationen aufweisen, in einem Bereich um das von dem Sänger oder ähnlichem beabsichtigten Tonintervall fluktuieren.
Zur Verwendung der Tonhöheninformation, die den häufigsten Wert aufweist, zur Identifizierung des Tonintervalls von Tonsegmenten ist es ferner notwendig, eine große Zahl von Abtastschritten zu verwenden und eine Periode für das akustische Signal zu wählen, um eine Tonhöheninformation von dem akustischen Signal (dem analytischen Zyklus) in einem solchen Ausmaß zu erhalten, daß das Identifizierungsverfahren gut durchgeführt werden kann. Fig. 32 zeigt ein Beispiel der Identifizierung von Tonintervallen durch ein derartiges Verfahren und die strichlierte Kurve PIT drückt die Tonhöheninformation über das akustische Signal aus, während die volle Linie VR in der vertikalen Richtung die Unterteilung des Segments zeigt. Die Tonhöheninformation mit dem häufigsten Wert für jedes Segment wird in diesem Beispiel durch die volle Linie HP in horizontaler Richtung dargestellt und das identifizierte Tonintervall wird durch die strichlierte Linie HP in horizontaler Richtung dargestellt. Wie aus Fig. 32 hervorgeht, weist die Tonhöheninformation mit dem häufigsten Wert eine sehr geringe Abweichung von dem Tonintervall HR auf der Achse des absoluten Tonintervalls auf und ist somit zur guten Durchführung des Identifizierungsverfahrens zweckmäßig. Es ist auch offensichtlich, daß diese Methode die Tonintervalle identifizieren kann, ohne durch die Instabilität des Zustandes der Tonhöheninformation (zum Beispiel der kurvigen Abschnitte C1 und C2) in der Nähe der Segmentunterteilung beeinflußt zu werden. Daher ist es durch das obengenannte Ausführungsbeispiel möglich, die Tonintervalle mit einem hohen Maß an Genauigkeit zu bestimmen, da der häufigste Wert aus der Tonhöheninformation über jedes Segment ermittelt wird und das Tonintervall des Segments mit einem solchen Tonintervall auf der Achse des absoluten Tonintervalls identifiziert wird, das dem häufigsten Wert in der Tonhöheninformation am nächsten ist. Ferner wird vor der Identifizierung des Tonintervalls ein Abstimmverfahren bei den akustischen Signalen angewendet, wobei die Tonhöheninformation mit dem häufigsten Wert, wie durch diese Methode bearbeitet wurde, den Wert annimmt, der dem Tonintervall auf der Achse des absoluten Tonintervalls am nächsten ist, wodurch die Durchführung des Identifizierungsverfahrens leicht gemacht wird.
Es ist auch möglich, das Verfahren zur Identifizierung der Tonintervalle durch das in der Folge beschriebene Verarbeitungsverfahren durchzuführen. Es folgt eine Beschreibung dieses Verfahrens mit Bezugnahme auf die Figuren 33 bis 35.
Die CPU 1 wählt zunächst das Anfangssegment von jenen Segmenten, die durch das Segmentierungsverfahren erhalten wurden (Schritt SP 6 in Fig. 3) und berechnet die Serienlänge, run(t), in bezug auf jeden analytischen Punkt in dem Segment (Schritte SP 220 und SP 221).
In der Folge wird die Länge einer Serie mit Bezugnahme auf Fig. 34 erklärt. Die chronologische Veränderung in der Tonhöheninformation ist in Fig. 34 dargestellt, in der die analytischen Punkte t entlang der horizontalen Achse dargestellt sind, während die Tonhöheninformation auf der vertikalen Achse eingetragen ist. Als Beispiel wird die Länge einer Serie an dem analytischen Punkt tp in der Folge erklärt.
Der Bereich des analytischen Punktes, der den Wert zwischen der Tonhöheninformation h0 und h2 mit einer Abweichung um einen sehr geringen Bereich Δh jeweils ober- und unterhalb in bezug auf die Tonhöheninformation über den bestimmten analytischen Punkt tp einnimmt, ist der Bereich von dem analytischen Punkt t0 zu dem analytischen Punkt ts, wie in Fig. 34 dargestellt, und die Periode L von diesem analytischen Punkt t0 zu dem analytischen Punkt ts wird als die Länge der Serie für den analytischen Punkt tp bezeichnet.
Wenn die Länge der Serie, run(t), auf diese Weise in bezug auf alle analytischen Punkte in dem Segment berechnet ist, ermittelt die CPU 1 den analytischen Punkt, an dem die Länge der Serie, run(t), am längsten ist (Schritt SP 222). Danach nimmt die CPU 1 die Tonhöheninformation an dem analytischen Punkt, der die längste Länge der Serie, run(t), aufweist und identifiziert das Tonintervall des bestimmten Segments mit einem Tonintervall auf der Achse des absoluten Tonintervalls, das dieser Tonhöheninformation am nächsten ist (Schritt SP 223). Ferner wird das Tonintervall jedes der Segmente von akustischen Signalen mit jedem der Tonintervalle identifiziert, die sich um einen Halbtonschritt auf der Achse des absoluten Tonintervalls unterscheiden.
Danach beurteilt die CPU 1, ob das Segment, das durch dieses Verfahren mit einem Tonintervall identifiziert wurde, das letzte Segment ist (Schritt SP 224). Wenn die CPU 1 als Ergebnis dieser Operation ermittelt, daß das Verfahren beendet ist, beendet sie dieses Verarbeitungsprogramm, und wenn das Verfahren noch nicht beendet ist, wählt sie das nächste Segment als Gegenstand der Verarbeitung und kehrt zu dem obengenannten Schritt SP 221 zurück (Schritt SP 225).
Durch eine derartige Wiederholung der Verfahrensschleife, die aus den Schritten SP 221 bis SP 225 besteht, führt die CPU 1 die Identifizierung der Tonintervalle auf der Basis der Tonhöheninformation über den analytischen Punkt durch, die die Länge der längsten Serie in dem Segment in bezug auf alle Segmente angibt.
In dieser Hinsicht wurde das System zur Nutzung der Länge der Serie, run(t), für das Verfahren zur Identifizierung der Tonintervalle angesichts der Tatsache entwickelt, daß selbst wenn akustische Signale Fluktuationen aufweisen, sie in einem schmalen Bereich schwanken, wenn der Sänger oder ähnliches dasselbe Tonintervall erzeugen will, und es wurde als Tatsache festgestellt, daß es ein hohes Maß an Korrelation zwischen der Tonhöheninformation über den analytischen Punkt, die die Länge der längsten Serie angibt, und der beabsichtigten Tonleiter gibt.
In Fig. 35 ist ein Beispiel für die Identifizierung der Tonintervalle der eingegebenen akustischen Signale durch dieses Verfahren dargestellt.
In Fig. 35 wird die Verteilung der Tonhöheninformation in bezug auf den analytischen Zyklus durch eine strichlierte Kurve PIT dargestellt. Die vertikalen Linien VR1, VR2, VR3 und VR4 stellen die Unterteilungen der Segmente dar, die durch das Segmentierungsverfahren bestimmt wurden, während die volle Linie HR in horizontaler Richtung die Tonhöheninformation über den analytischen Punkt darstellt, die die Länge der längsten Serie in diesem Segment angibt. Ferner stellt die strichlierte Linie HP das durch die Tonhöheninformation identifizierte Tonintervall dar. Wie aus Fig. 35 hervorgeht, weist die Tonhöheninformation, die die Länge der längsten Serie angibt, eine geringe Abweichung in bezug auf das Tonintervall auf der Achse des absoluten Tonintervalls auf, und es ist daher offensichtlich, daß diese Methode die Tonintervalle gut identifizieren kann.
Demgemäß kann das oben beschriebene Ausführungsbeispiel die Identifizierung von Tonintervallen mit geringeren Fehlern durchführen, da es zur Identifizierung des Tonintervalls jedes Segments auf der Basis des Abschnitts entwickelt wurde, in dem die Veränderung in der Tonhöheninformation in dem Segment gering und kontinuierlich ist, d.h. des Abschnitts, in dem die Veränderung in dem Tonintervall gering ist, indem der analytische Punkt ermittelt wird, an dem die in bezug auf den analytischen Punkt jedes Segments festgestellte Länge der Serie am längsten ist.

Korrektur des identifizierten Tonintervalls

In der Folge wird eine genaue Beschreibung in bezug auf das Ablaufdiagramm in Fig. 36 über das Verfahren (Schritt SP 10 in Fig. 3) zur Korrektur der Tonintervalle gegeben, die durch das Tonintervall-Identifizierungsverfahren bei dem obengenannten Schritt SP 7 identifiziert wurden.
Vor der Durchführung eines solchen Verfahrens zur Korrektur der Tonintervalle erhält die CPU 1 zunächst zum Beispiel den Durchschnittswert der Tonhöheninformation in dem bestimmten Segment in bezug auf die durch Segmentierung erhaltenen Segmente und identifiziert das Tonintervall des Segments mit einem der Tonintervalle mit einem Unterschied von einem Halbtonschritt auf der Achse des absoluten Tonintervalls, das dem durchschnittlichen Wert am nächsten ist, der aus der Tonhöheninformation in dem Segment erhalten wurde (Schritt SP 230), und erstellt danach ein Histogramm in bezug auf die zwölfteilige Tonleiter für alle Tonhöheninformationen, wobei der Wichtungsfaktor ermittelt wird, der für jeden Schritt in der Tonleiter durch die Tonart und ihre Produktsumme mit der Häufigkeit des Auftretens jeder Tonleiter bestimmt wurde, und bestimmt die Tonart, die die maximale Produktsumme angibt, als Tonart für das bestimmte akustische Signal (Schritt SP 231).
In dem Korrekturverfahren stellt die CPU 1 zunächst fest, daß die Verarbeitung des letzten Segments noch nicht beendet ist, und beurteilt dann, ob das für das Segment, das als Gegenstand der Verarbeitung dient, identifizierte Tonintervall eines jener Tonintervalle ist (zum Beispiel mi, fa, si, do in der C-Dur-Tonart), die sich um einen Halbtonschritt von den Tonintervallen unterscheiden, die beidseitig an das Tonintervall der bestimmten Tonart angrenzen, und wenn dies nicht der Fall ist, nimmt die CPU 1 das nächste Segment als Gegenstand der Verarbeitung, ohne eine Korrektur des Tonintervalls durchzuführen, und kehrt zu Schritt SP 232 zurück (Schritt SP 232 bis SP 234).
Wenn andererseits das identifizierte Tonintervall in dem in Verarbeitung befindlichen Segment eines jener Tonintervalle ist, erarbeitet die CPU 1 die klassifizierten Gesamtsummen der Tonhöheninformationen, die zwischen dem identifizierten Tonintervall des Segments und dem Tonintervall bestehen, das sich davon um einen Halbtonschritt auf der Tonleiter für die so bestimmte Tonart unterscheidet (Schritt SP 235). Wenn zum Beispiel das Tonintervall für das in Verarbeitung befindliche Segment "mi" in der C-Dur-Tonart ist, findet die CPU 1 die Verteilung der Tonhöheninformation zwischen den Informationssätzen, die jeweils "mi" und "fa" in dem bestimmten in Verarbeitung befindlichen Segment entsprechen. Daraus folgt, daß die Tonhöheninformation, die nicht zwischen diesen Halbtonschritten vorhanden ist, nicht zur Bestimmung der klassifizierten Gesamtsumme berechnet wird, selbst wenn sie Teil der Tonhöheninformation in diesem Segment ist. Dann ermittelt die CPU 1, ob es mehr Tonhöheninformationen gibt, die größer als die Tonhöheninformation über diesen Halbtonschritt- Zwischenabschnitt sind, oder ob es mehr Tonhöheninformationen gibt, die kleiner als die Tonhöheninformation über diesen Halbtonschritt-Zwischenabschnitt sind, und identifiziert das Tonintervall, das der Tonhöheninformation näher ist, die in einer größeren Anzahl auf der Achse des absoluten Tonintervalls vorhanden ist, als das Tonintervall für das Segment (Schritt SP 236)
Bei Beendigung der Prüfung und Korrektur der Ergebnisse des Identifizierungsverfahrens nimmt die CPU das nächste Segment als Gegenstand der Verarbeitung und kehrt zu dem obengenannten Schritt SP 232 zurück.
Angesichts der größeren Möglichkeit von Fehlern in der Identifizierung aufgrund des Unterschiedes um einen Halbtonschritt von angrenzenden Tonintervallen wurde das System so entwickelt, daß die Tonintervalle geprüft werden, wenn die identifizierten Tonintervalle jene mit einem Halbtonunterschied zu den angrenzenden Tonintervallen in der für sie bestimmten Tonart sind.
Durch Wiederholung des obengenannten Verfahrens, wobei die Prüfung der Tonintervalle in bezug auf alle Segmente durchgeführt wird, bis die Prüfung des letzten Segments beendet ist, erhält die CPU 1 ein positives Ergebnis bei Schritt SP 232 und beendet dieses Verarbeitungsprogramm.
Fig. 37 zeigt ein Beispiel der Korrektur eines einmal identifizierten Tonintervalls, in dem die bestimmte Tonart die C-Dur-Tonart ist und das auf der Basis des durchschnittlichen Werts der Tonhöheninformation identifizierte Tonintervall "mi" ist. Dieses Segment wird einem Korrekturverfahren unterzogen, da das identifizierte Tonintervall "mi" ist und die Tonhöheninformation, die zwischen "mi" und "fa" - folglich nur die Tonhöheninformation in der Periode T1 - vorliegt, wird berechnet, um die klassifizierten Gesamtsummen zu bestimmen, und die Tonhöheninformation ober- und unterhalb des Tonhöheninformationswertes PC für den Abschnitt zwischen "mi" und "fa" wird berechnet, um die klassifizierte Gesamtsumme zu bestimmen, und da die Tonhöheninformation größer als der Tonhöheninformationswert PC in dieser Periode T1 überwiegt, wird das Tonintervall dieses Segments mit dem Tonintervall für "fa" neu identifiziert.
Daher kann das obengenannte Ausführungsbeispiel das Tonintervall jedes Segments genau identifizieren, da es zur Durchführung einer genaueren Prüfung des Tonintervalls des Segments entwickelt wurde, wenn ein Tonintervall, in dem der Unterschied zwischen den angrenzenden Tonintervallen ein Halbtonschritt in der Tonart ist, die für das identifizierte Tonintervall bestimmt wurde. Ferner zeigt das obengenannte Ausführungsbeispiel ein System, das ein Segment mit dem Tonintervall identifiziert, zu dem der durchschnittliche Wert der Tonhöheninformation am nächsten liegt, aber es ist auch möglich, daß eine ähnliche Prüfungsart bei jenen Tonintervallen angewendet wird, die durch eine andere Methode zur Identifizierung von Tonintervallen identifiziert wurden.
Das obengenannte Ausführungsbeispiel wurde auch zur Neuidentifizierung der Tonintervalle entwickelt, abhängig von dem relativen Volumen der größeren Tonhöheninformation und der kleineren Tonhöheninformation im Vergleich zu der Tonhöheninformation in dem Abschnitt zwischen den beiden Segmenten, die als Gegenstand der Prüfung angenommen wurden, aber es kann auch eine andere Methode zur Durchführung einer solchen Prüfung angewendet werden. Zum Beispiel kann die Prüfung auf der Basis des durchschnittlichen oder häufigsten Tonhöheninformationswerts der Tonhöheninformation über das bestimmte, in Verarbeitung befindliche Segment vorgenommen werden, der in dem Abschnitt zwischen den zwei Tonintervallen, die als Gegenstand einer solchen Prüfung angenommen wurden, vorkommt.

Verfahren zur Bestimmung einer Tonart

Es folgt eine genaue Beschreibung des Verfahrens zur Bestimmung der Tonart, die den akustischen Signalen zugrunde liegt, (Schritt SP 9 in Fig. 3) durch ein derartiges automatisches Musiktranskriptionssystem mit Bezugnahme auf das Ablaufdiagramm in Fig. 38.
Die CPU 1 entwickelt Histogramme über die Tonleiter aus allen Tonhöheninformationen, die durch das obengenannte Abstimmverfahren abgestimmt wurden (Schritt SP 240). In diesem Zusammenhang bezeichnet Tonleiterhistogramm jene Histogramme, die die zwölf Tonleiter auf der Achse des absoluten Tonintervalls betreffen, d.h. jene in "C (do)", "Cis: Des (do#:reB)", "D (re)", ..., "A (la)", "Ais: B (la#:sib)", "H (si)", und wenn die Tonhöheninformation nicht auf der Achse des absoluten Tonintervalls liegt, zeigen die Histogramme die klassifizierten Gesamtsummen der Werte, die jenen Tonleitern auf den beiden Tonintervallen auf der Achse des absoluten Tonintervalls zugeordnet wurden, welchen die Tonhöheninformation im Verhältnis zum Abstand zu jenen Intervallen am nächsten ist. Aus diesem Grund wird das Tonintervall, das sich um eine Oktav unterscheidet, als dasselbe Tonintervall behandelt.
Danach erhält die CPU 1 die Produktsumme der Wichtungsfaktoren, die in Fig. 39 dargestellt sind und durch die entsprechenden Tonarten und die obengenannten Tonleiterhistogramme in bezug auf die 24 Tonarten mit insgesamt zwölf Dur-Tonarten "C-Dur", "Des-Dur", "D-Dur", ... "B-Dur", "H-Dur" und zwölf Moll-Tonarten, "a-Moll", " b-Moll" "h-Moll", ..."g-Moll", "gis-Moll" bestimmt wurde (Schritt SP 241).
Ferner zeigt Fig. 39 den Wichtungsfaktor für "C-Dur" in der ersten Spalte, SPALTE 1, jenen für "a-Moll" in der zweiten Spalte, SPALTE 2, jenen für "Des-Dur" in der dritten Spalte, SPALTE 3, und jenen für "b-Moll" in der vierten Spalte, SPALTE 4. Für die anderen Tonarten wendet das System dasselbe Verfahren an, wobei der Wichtungsfaktor, "202021020201", vom Grundton (do) für die Durtonarten, und der Wichtungsfaktor, "202201022010" vom Grundton (la) für die Moll-Tonarten verwendet wird.
Hier werden die Wichtungsfaktoren so bestimmt, daß jenen Tonintervallen eine Bewertung ungleich "0" gegeben wird, die ohne Zwischenzeichen (#, b) für die bestimmte Tonart ausgedrückt werden können, und daß auch "2" für die Übereinstimmung der Fünfton- und Siebentonleiter in den Dur-Tonarten und Moll-Tonarten verwendet wird, d.h. für die Tonleitern, in welchen eine Übereinstimmung im Unterschied des Tonintervalls zum Grundton herrscht, wenn die Grundnoten einer Dur-Tonleiter und einer Moll-Tonleiter in Übereinstimmung gebracht werden, und "1" wird für die Tonleiter verwendet, in denen es keine Übereinstimmung im Unterschied des Tonintervalls gibt. Ferner entsprechen diese Wichtungsfaktoren dem Maß an Bedeutung der einzelnen Tonintervalle in der bestimmten Tonart.
Wenn die CPU 1 auf diese Weise die Produktsummen für alle 24 Tonarten erhalten hat, wird die Tonart, in der die Produktsumme am größten ist, als die Tonart für die besonderen akustischen Signale bestimmt und dieses Verfahren zur Bestimmung der Tonart beendet (Schritt SP 242).
Daher erstellt das obengenannte Ausführungsbeispiel Histogramme für Tonleitern, erfaßt die Häufigkeit des Auftretens für die einzelnen Tonintervalle in bezug auf die Tonleitern, ermittelt die Produktsumme mit dem Wichtungsfaktor als Parameter für die Bedeutung des Tonintervalls, das in Übereinstimmung mit der Häufigkeit des Auftretens und der Tonart bestimmt werden soll, und bestimmt die Tonart, in der die Produktsumme am größten ist, als die Tonart für die akustischen Signale und folglich ist das System imstande, die Tonart für solche Signale genau zu bestimmen und die auf der Basis einer solchen Tonart identifizierten Tonintervalle zu prüfen, wobei eine weitere Verbesserung in der Genauigkeit der Partiturdaten erzielt wird.
Ferner sind die Wichtungsfaktoren nicht auf jene in dem obengenannten Ausführungsbeispiel beschränkt, und es ist zum Beispiel möglich, dem Grundton ein größeres Gewicht zu geben.
Ferner sind die Mittel zur Bestimmung der Tonart nicht auf die obengenannten beschränkt, und die Bestimmung der Tonart kann durch das in Fig. 40 dargestellte Verarbeitungsverfahren durchgeführt werden. Dieses Verfahren wird nicht erklärt, da es dem in Fig. 38 dargestellten bis zu Schritt SP 241 entspricht.
Wenn die CPU 1 die Produktsummen für die 24 Tonarten bei Schritt SP 241 erhält, ermittelt sie die Tonart mit der größten Produktsumme für die Dur-Tonart bzw. die Tonart mit der größten Produktsumme für die Moll-Tonart (Schritt SP 243). Danach ermittelt die CPU 1 die Tonart, in der die Dominante (die Note, die fünf Schritte höher als der Grundton ist) der Prüfungstonart der Grundton für die ermittelte Dur-Tonart ist, und die Tonart, in der die Subdominante (d.h. die Note, die fünf Schritte tiefer als der Grundton ist) der Prüfungstonart der Grundton für die ermittelte Dur-Tonart ist, und ermittelt auch die Tonart, in der die Dominante (d.h. die Note, die fünf Schritte höher als der Grundton ist) der Prüfungstonart der Grundton für die ermittelte Moll-Tonart ist, und die Tonart, in der die Subdominante (die Note, die fünf Schritte tiefer als der Grundton ist) der Prüfungstonart der Grundton für die ermittelte Moll-Tonart ist (Schritt SP 244).
Die CPU 1 bestimmt schließlich die richtige Tonart durch Auswahl einer Tonart aus den sechs Prüfungstonarten, die auf diese Weise auf der Basis des Verhältnisses zwischen der Anfangsnote (d.h. dem Tonintervall des Anfangssegments) und der Endnote (d.h. dem Tonintervall des Endsegments) ermittelt wurden (Schritt SP 245).
Das System wurde so entwickelt, daß nicht die Tonart mit der größten Produktsumme sofort als die Tonart bestimmt wird, die das akustische Signal aufweist, da die Grundnote, die Dominante und die Subdominante häufig in der Melodie eines Musikstückes auftreten, und da es in einigen Fällen häufig vorkommen kann, daß die Dominante und die Subdominante vom Grundton erzeugt werden, und da die Bestimmung der Tonart nur durch den größten Wert der Produktsumme zur Bestimmung nicht der tatsächlichen Tonart, sondern jener Tonart führen kann, in der die Dominante oder Subdominante in der richtigen Tonart als Grundton dient. Nachdem empirisch gezeigt wurde, daß der Anfangston und der Endton in einem Musikstück ein einzigartiges Verhältnis in bezug auf die Tonart haben, wie oben erwähnt, wird daher die endgültige Bestimmung der Tonart auf der Basis dieses Verhältnisses durchgeführt. Zum Beispiel kann bei der C- Dur-Tonart beobachtet werden, daß die Musik häufig mit einer der Noten "do", "mi" und "so" beginnt und mit "do" endet, und auch in den anderen Tonarten endet die Musik oft mit dem Grundton. Daher ist das System gemäß des obengenannten Ausführungsbeispiels imstande, die Tonart genau zu bestimmen, das auf der Basis einer solchen Tonart identifizierte Tonintervall zu prüfen, und die Genauigkeit der Partiturdaten weiter zu verbessern, da die Erstellung von Partiturhistogrammen durchgeführt wird, wodurch die Häufigkeit des Auftretens jeder Tonleiter erfaßt wird, um die Produktsumme mit dem Wichtungsfaktoren als Parameter für das Maß an Bedeutung der Tonleiter, die in Übereinstimmung mit der Frequenz und der Tonart bestimmt wurden, zu ermitteln, sechs Tonarten als Prüfungstonarten auf der Basis der Produktsumme zu bestimmen und schließlich die Tonart mit Bezugnahme auf die Anfangsnote und die Endnote in dem Musikstück zu bestimmen.
Ferner wurde das obengenannte Ausführungsbeispiel so entwickelt, daß insgesamt sechs Prüfungstonarten durch Ermittlung der Tonart mit der maximalen Produktsumme für die D- Tonart bzw. die Moll-Tonart erhalten werden, und es ist schließlich eine zweckmäßige Methode, die Tonart aus insgesamt drei Prüfungstonarten zu bestimmen, die aus diesen Tonarten mit der maximalen Produktsumme ermittelt werden, ohne eine Unterscheidung zwischen der Dur-Tonart und der Moll-Tonart zu treffen.

Abstimmverfahren

Mit Bezugnahme auf das ausführliche Ablaufdiagramm in Fig. 41 folgt eine genaue Beschreibung des Abstimmverfahrens (Schritt SP 3 in Fig. 3) in einem automatischen Musiktranskriptionssystem, das die Transkription von Partituren durch dieses Verfahren durchführt.
Die CPU 1 setzt zunächst die eingegebene Tonhöheninformation, die in Hz, einer Einheit für Frequenz, ausgedrückt ist, in Tonhöhendaten um, die in Cent (einem Wert, der durch Multiplikation des Verhältnisses der Frequenz eines bestimmten Tonintervalls zu dem Standard-Tonintervall mit 1.200 abgeleitet wird, ausgedrückt in Form eines Logarithmus mit 2 als Basis) dargestellt sind, einer Einheit für die Tonleiter (Schritt SP 250). In dieser Hinsicht entspricht ein Unterschied um 100 Cent dem Halbtonschritt im Tonintervall. Danach erstellt die CPU 1 ein Histogramm wie jenes, das in Fig. 42 dargestellt ist, wobei die klassifizierten Gesamtsummen der einzelnen Sätze von Tonhöhendaten berechnet werden und identische numerische Werte die zwei niedrigsten Stellen der Cent-Werte bilden (Schritt SP 251). Genauer gesagt, die CPU 1 führt Rechenoperationen durch, um die klassifizierten Gesamtsummen zu erarbeiten, wobei die Daten mit den Cent-Werten 0, 100, 200 ... als identische Daten behandelt werden und die Daten mit den Cent-Werten 1, 101, 201, ... als identische Daten behandelt werden, und die Daten mit den Cent-Werten 2, 102, 202, ... als identische Daten behandelt werden, bis die Berechnung beendet ist, um die klassifizierten Gesamtsummen der Datengruppe mit den Cent- Werten 99, 199, 299, ... zu ermitteln. Somit entwickelt das System ein Histogramm für die Tonhöheninformation mit einer vollen Breite von 100 Cent, die um ein Cent variiert, wie in Fig. 42 dargestellt.
Hier enthält die Tonhöheninformation, die sich um jeweils 100 Cent unterscheidet, aber für die Berechnung der klassifizierten Gesamtsummen als identisch gilt, Unterschiede um ein Ganzfaches des Halbtonschritts, und die akustischen Signale nehmen den Halbtonschritt und den Ganztonschritt als Standard für einen Unterschied in dem Tonintervall. Somit zeigen die Histogramme, die von diesem System entwickelt werden, keine gleichförmige Verteilung, sondern geben die Spitze der Frequenz in der Nähe des Cent-Wertes an, der der Achse des Tonintervalls entspricht, die von dem Sänger, der die akustischen Signale hervorgebracht hat, oder von dem besonderen Musikinstrument, das solche Signale erzeugt hat, gehalten wird.
Danach löscht die CPU 1 die Parameter i und j auf Null und setzt den Parameter MIN auf A, das einen ausreichend großen Wert darstellt (Schritt SP 252). Danach führt die CPU 1 Rechenoperationen zur Bestimmung einer statistischen Verteilung, VAR, die um den CENT-Wert i angeordnet ist, unter Verwendung der erhaltenen Histogramminformation durch (Schritt SP 253). Danach beurteilt die CPU 1, ob der durch die Berechnung erhaltene Verteilungswert VAR größer als der Parameter MIN ist und erneuert den Verteilungswert VAR an dem Wert des Parameters MIN, wenn der VAR-Wert kleiner als der Parameter ist, und verändert auch den Parameter j, so daß dieser den Wert des Parameters i erhält, und fährt anschließend mit dem Schritt SP 256 fort. Wenn der VAR-Wert größer als der Parameter MIN ist, fährt die CPU 1 unmittelbar mit dem Schritt SP 256 fort, ohne Durchführung der Erneuerungsoperation (Schritte SP 254 bis SP 256). Danach beurteilt die CPU 1, ob der Parameter i den Wert 99 besitzt und wenn er sich von dem Wert unterscheidet, wird der Parameter i inkrementiert, wonach sie zu dem obengenannten Schritt SP 253 zurückkehrt (Schritt SP 257).
Auf diese Weise erhält die CPU 1 die Cent-Information (j) mit der geringsten Verteilung aus der klassifizierten Gesamtsummeninformation, die über die Tonhöheninformation erhalten wurde. Da hier die Verteilung um die Cent-Information die kleinste ist, kann sie als Cent-Gruppe (j, 100 + j, 200 + j, ...) bei jedem Halbtonschritt, der das Zentrum des akustischen Signals bildet, beurteilt werden. Mit anderen Worten, es kann angenommen werden, daß die Cent-Gruppe die Achse des Tonintervalls für den Sänger oder das Musikinstrument darstellt.
Daher verschiebt die CPU 1 die Achse des Tonintervalls um den Wert dieser Cent-Information, wodurch diese Achse jener des absoluten Tonintervalls angepaßt wird. Zunächst beurteilt die CPU 1, ob der Parameter j kleiner als 50 Cent ist, d.h. zu welcher der Achsen des absoluten Tonintervalls, jener der höheren oder jener der niederen Töne, der Parameter j näher liegt, und wenn der Parameter näher der Achse der höheren Töne liegt, modifiziert die CPU 1 die gesamte Tonhöheninformation, indem sie diese um den erhaltenen Wert des Cent j zu der Achse der höheren Töne verschiebt, aber wenn der Parameter näher der Achse der niederen Töne liegt, modifiziert die CPU 1 die gesamte Tonhöheninformation, indem sie diese um den erhaltenen Wert des Cent j zu der Achse der niederen Töne verschiebt (Schritte SP 258 bis SP 260).
Auf diese Weise wird die Achse der akustischen Signale nahezu exakt an die Achse des absoluten Tonintervalls angepaßt und die auf diese Weise entwickelte Tonhöheninformation wird für die folgenden Verfahren verwendet.
Daher ist das obengenannte Ausführungsbeispiel imstande, eine größere Genauigkeit in den Partiturdaten zu erzielen, unabhängig von der Quelle des akustischen Signals, da das System nicht die erhaltene Information als solche dem Segmentierungsverfahren oder solchen Verfahren, wie jenen zur Identifizierung der Tonintervalle, unterzieht, sondern die klassifizierten Gesamtsummmen bei jedem Halbtonschritt auf derselben Achse ermittelt, wobei das Ausmaß der Abweichung von der Achse des absoluten Tonintervalls aus der Information über die klassifizierten Gesamtsummen erfaßt wird und die Achse des Tonintervalls für das akustische Signal um das Ausmaß der Abweichung modifiziert wird, so daß die modifizierte Tonhöheninformation für die folgenden Verfahren verwendet werden kann.
Ferner stellt das obengenannte Ausführungsbeispiel ein System dar, das ein Abstimmverfahren an der durch Autokorrelationsanalyse erhaltenen Tonhöheninformation durchführt, aber die Methode zur Ermittlung der Tonhöheninformation ist natürlich nicht darauf beschränkt.
In dem obengenannten Ausführungsbeispiel erhält das System ferner die Achse des Tonintervalls für das akustische Signal durch Anwendung der Verteilung, und es kann noch eine weitere statistische Technik bei dem Nachweisverfahren für die Achse angewendet werden.
Ferner verwendet das obengenannte Ausführungsbeispiel Cent als Einheit für die Tonhöheninformation, die der statistischen Verarbeitung in dem Abstimmverfahren unterzogen wird, aber es versteht sich, daß die anwendbaren Einheiten nicht darauf beschränkt sind.

Ermittlung der Tonhöheninformation

Es folgt eine weitere Beschreibung in bezug auf die Ermittlung der Tonhöheninformation (siehe Schritt SP 1 in Fig. 3) in einem automatischen Musiktranskriptionssystem, das die Partiturtranskription durch dieses Verfahren ausführt.
Ein genaues Ablaufdiagramm für ein solches Verfahren zur Ermittlung der Tonhöheninformation ist in Fig. 43 dargestellt. Zunächst ermittelt die CPU 1 aus den N-Teilen des akustischen Signals y(t) (t=O, ..., N-1; wobei t die Abtastzahl darstellt, wenn der Abtastpunkt s auf 0 eingestellt ist), das innerhalb der analytischen Fenster liegt, an dem genannten Abtastpunkt s und den folgenden Abtastpunkten, die Autokorrelationsfunktion φ (τ) (τ=0, ...N-1; u=0, ... N-1-τ), wie in der folgenden Gleichung dargestellt (Schritt SP 270):
die das obengenannte akustische Signal y(t) und das akustische Signal, das durch Verschieben des akustischen Signals um τ-Teile im Verhältnis zu dem genannten Abtastpunkt s erhalten wurde, darstellt. Die auf diese Weise erhaltene Autokorrelationskurve ist ferner in Fig. 44 dargestellt.
Danach erfaßt die CPU 1 das Ausmaß der Abweichung, z, das ein Maximum des lokalen Maximums für die Autokorrelationsfunktionen φ(τ) um ein Ausmaß der Abweichung ungleich 0 angibt, d.h. den Tonhöhenzyklus für das akustische Signal, wie in Form der Skala für die Abtastnummer ausgedrückt, aus dem Wert der Autokorrelationsfunktionen φ(τ) für die N- Teile, und die CPU 1 nimmt die Autokorrelationsfunktionen, φ(z-1), φ(z), φ(z+1), in Hinblick auf die insgesamt drei vorangehenden und folgenden Abweichungsmaße, z-1, z, z+1, einschließlich dieses Abweichungsmaßes z (Schritt SP 271) heraus. Bei Beendigung dieser Ermittlung führt die CPU 1 ein Interpolationsverfahren zur Normung dieser Autokorrelationsfunktionen, φ(z-1), φ(z), φ(z+1), auf die in den folgenden Gleichungen dargestellte Weise durch (Schritt SP 272):
p 1 = φ(z - 1) / (N - z + 1) ... (5)
p 2 = φ(z) / (N - z) ... (6)
p 3 = φ(z + 1) / (N - z - 1) ... (7)
Das System wendet dieses Verfahren an, da wegen der hier gelieferten analytischen Fenster die Zahl der zu addierenden Teile (N - τ-Teile) in Übereinstimmung mit der Zunahme des Abweichungsmaßes τ in der Berechnung der Produktsummen abnehmen würde, wenn die Rechenoperationen zur Ermittlung der Autokorrelationsfunktionen gemäß der Gleichung (4) durchgeführt wurden, und da jedes der Maxima für die Autokorrelationenfunktionen, die bei Vergrößerung des Abweichungsmaßes τ gleich werden sollten, allmählich im Laufe der Zeit unter dem Einfluß einer solchen Verringerung der Zahl der Teile für die Addition abnehmen würde, wie in Fig. 44 dargestellt. Daher wird das Interpolationsverfahren für die Normung zur Beseitigung eines solchen Einflusses durchgeführt.
Danach erhält die CPU 1 den Tonhöhenzyklus τp, der für das akustische Signal auf der Skala der Abtastzahl dargestellt ist und durch Rechenoperationen geglättet wurde, die mit der folgenden Gleichung durchgeführt wurden (Schritt SP 273):
τp = z-(p3-p1) / [2{p1-p2) (p2-p3)}] ... (8)
Hier wird die Gleichung (8) zur Berechnung des Abweichungsmaßes τp, wie auf der Skala der Abtastzahl dargestellt, verwendet, das den maximalen Wert auf einer Parabel CUR aufweist, die als eine Parabel angesehen wird, die durch die Autokorrelationswerte für das Abweichungsmaß z geht, das den Tonhöhenzyklus für das akustische Signal darstellt, das auf der Skala der einmal erhaltenen Abtastzahl dargestellt ist, sowie der Abweichungsmaße, z-1 und z+1, die dem Abweichungsmaß z vorangehen bzw. folgen (Siehe Fig. 44). Mit anderen Worten, das System ermittelt das Ausmaß der Abweichung, das den maximalen Wert angibt, aus der Information, die in der Parabel enthalten ist, indem die Parabel in Annäherung an die Kurve um den ersten Maximalwert für die Autokorrelationsfunktion φ(τ) gezogen wird.
Dieses Merkmal wurde aufgenommen, um die Unzulänglichkeit zu beseitigen, daß es bisher nicht möglich war, die Tonhöheninformation exakt zu ermitteln, da der Tonhöhenzyklus (z), wo der Maximalwert am größten wird, falls er ermittelt wird, seine Position nur in einem Abtastpunkt klärt, und da die herkömmliche Methode das lokale Maximum nicht nachweisen konnte, selbst wenn es zwischen den Abtastpunkten existierte, so daß die erhaltene Information Fehler in einem derartigen Ausmaß enthielt, da die Autokorrelationsfunktion φ(τ) an jedem Abtastpunkt erhalten wird.
Da die Autokorrelationsfunktion φ(τ) durch eine Kosinusfunktion dargestellt werden kann, die, wenn die MacLaurin-Expansion angewendet wird, in einer geraden Funktion dargestellt werden kann, ist es ferner möglich, diese in einer parabolischen Funktion darzustellen, wenn die Glieder über dem vierten Grad ignoriert werden können, und das Ausmaß der Abweichung, das das lokale Maximum angibt, kann mit geringem Unterschied zu dem tatsächlichen Ausmaß der Abweichung festgestellt werden, selbst wenn das Ausmaß der Abweichung durch Annäherung in einer Parabel bestimmt wird.
Danach berechnet die CPU 1 die Tonhöhenfrequenz fp aus dem Tonhöhenzyklus τp des akustischen Signals, das mit Bezugnahme auf die Skala für die Abtastzahlen dargestellt ist, in Übereinstimmung mit der folgenden Gleichung:
fp = fs / τp ... (9)
und dann fährt die CPU 1 mit dem nächsten Verfahren fort (Schritt SP 274). fs stellt ferner die Abtastfrequenz dar. Daher kann das obengenannte Ausführungsbeispiel das lokale Maximum der Autokorrelationsfunktion ermitteln, selbst wenn das Maximum zwischen den Abtastpunkten liegt und kann daher die Tonhöhenfrequenz im Vergleich zu der herkömmlichen Methode ohne Anheben der Abtastfrequenz genauer bestimmen, so daß das System anschließende Verfahren wie die Segmentierung, die Identifizierung des Tonintervalls und die Bestimmung der Tonart, genauer durchführen kann.
In dem obengenannten Ausführungsbeispiel wird das Interpolationsverfahren zur Normung zur Beseitigung des Einflusses der analytischen Fenster vor der Interpolation des Tonhöhenzyklus durchgeführt, und dennoch ist es zulässig, die Interpolation des Tonhöhenzyklus unter Verzicht auf ein solches Normungsverfahren vorzunehmen.
Ferner zeigt ein weiteres oben beschriebenes Ausführungsbeispiel ein System, das die Korrektur des Tonhöhenzyklus durch Anwendung einer Parabel vornimmt. Eine solche Korrektur kann mit einer anderen Funktion durchgeführt werden. Zum Beispiel kann eine solche Korrektur mit einer geraden Funktion der vierten Ordnung durch Anwendung der Autokorrelationsfunktionen für die fünf vorangehenden und folgenden Punkte mit einem Abweichungsausmaß entsprechend der einmal erhaltenen Tonhöhenfrequenz durchgeführt werden.
Ferner kann das Verfahren zur Ermittlung der Tonhöheninformation (Schritt SP 1 in Fig. 3) auch durch die in dem Ablaufdiagramm in Fig. 45 dargestellte Prozedur durchgeführt werden. Zunächst ermittelt die CPU 1 aus den N-Teilen des akustischen Signals y(t) (t=0, ..., N-1; wobei t die Abtastzahl darstellt, wenn der Abtastpunkt s auf 0 eingestellt ist), das innerhalb der analytischen Fenster an dem genannten Abtastpunkt s und den folgenden Abtastpunkten liegt, die Autokorrelationsfunktion; die CPU 1, die mit diesem Verfahren arbeitet, ermittelt zunächst die Autokorrelationsfunktion φ(τ) (τ=0, ...N-1; u=0, ... N-1-τ), die in der Gleichung (4) dargestellt ist, durch Rechenoperation (Schritt SP 280).
Die Gleichung (4) stellt das obengenannte akustische Signal y(t) und das durch Verschieben des akustischen Signals um die Menge der τ-Teile im Verhältnis zu dem genannten Abtastpunkt s erhaltene akustische Signal dar. Ferner ist die Autokorrelationskurve, die auf diese Weise erhalten wird, in den Fig. 46A bzw. 46B dargestellt.
Danach erfaßt die CPU 1 das Ausmaß der Abweichung, z, das den Maximalwert für die Autokorrelationsfunktionen φ(τ) angibt, mit einem Ausmaß der Abweichung ungleich 0, d.h. den Tonhöhenzyklus für das akustische Signal, das in Form der Skala der Abtastzahl dargestellt ist, aus den Werten der N-Teile der Autokorrelationsfunktionen φ(τ) (Schritt SP 281).
Danach nimmt die CPU 1 die Autokorrelationsfunktionen φ (z-1), φ(z), φ(z+1), für die drei vorangehenden und folgenden Abweichungsausmaße, z-1, z, z+1, einschließlich dieses Ausmaßes der Abweichung z und berechnet den Parameter A, der in der folgenden Gleichung dargestellt ist (Schritte SP 282 und SP 283). Ferner ist der Parameter A der Wichtungsdurchschnitt für die Autokorrelationsfunktionen φ(z-1) ,φ (z) und φ(z+1).
A={φ(z-1)+2φ(z)+φ(z+1)}/4 ...(10)
Nach Beendigung dieses Verfahrens nimmt die CPU 1 die Autokorrelationsfunktionen φ/y und φ/(y+1) für die Ausmaße der Abweichung y und y+1, die dem halben Ausmaß der Abweichung, z/2, am nächsten sind, als das Ausmaß der Abweichung, z, und erarbeitet den Parameter B, der in der folgenden Gleichung dargestellt ist:
B={φ(y)+φ(y+1)}/2 ...(11)
(Schritte SP 284 und SP285). Ferner stellt der Parameter B den Durchschnitt der Autokorrelationsfunktionen φy und φ(y+1) dar. Danach vergleicht die CPU 1 beide Parameter A und B um zu bestimmen, welcher von diesen den größeren Wert besitzt, und wenn Parameter A größer als Parameter B ist, wählt die CPU 1 das Ausmaß der Abweichung z als das Ausmaß der Abweichung τp (Schritte SP 286 und SP 287). Wenn andererseits der Parameter B größer als der Parameter A ist, wählt die CPU 1 das Ausmaß der Abweichung z/2 als das Ausmaß der Abweichung τp der Tonhöhe entsprechend (Schritt SP 288).
Auf diese Weise wurde das System so entwickelt, daß es nicht das Ausmaß der Abweichung mit dem Maximalwert für die Autokorrelationsfunktion direkt als Tonhöhenzyklus verwendet, aufgrund der Beobachtung, daß die Autokorrelationsfunktion in der Nähe des zweiten lokalen Maximalpunktes als die Funktion erfaßt wird, die den Maximalwert ergibt, vorausgesetzt daß das Ausmaß der Abweichung, das zweimal so groß wie das Ausmaß der Abweichung, das den tatsächlichen Maximalwert angibt, ist, nahezu exakt mit dem Abtastpunkt zusammenfällt und daß das Ausmaß der Abweichung, das den tatsächlichen Maximalwert angibt, so daß es auf der Basis der verhältnismäßigen Größe der Parameter A und B beurteilt werden kann, zur Ermittlung verwendet werden kann, ob die in Verarbeitung befindliche Information ein Fall wie oben beschrieben ist, und daß eine Hälfte des Ausmaßes der Abweichung als jenes anzunehmen ist, das dem Tonhöhenzyklus entspricht, wenn der Wert dem Ausmaß der Abweichung nicht entspricht, das den tatsächlichen Maximalwert angibt. Ferner zeigt Fig. 46(B) einen Fall, in dem der Wert in der Nähe des ersten lokalen Maximums als der Maximalwert erfaßt wird, und in diesem Fall ist der Parameter A immer größer als der Parameter B, wie in Fig. 46(B) dargestellt, und das erhaltene Ausmaß der Abweichung z wird als solches für den Tonhöhenzyklus verwendet, der in dem folgenden Verfahren verwendet wird.
Die CPU 1 ermittelt die Tonhöhenfrequenz fp durch Rechenoperation gemäß der Gleichung (9) aus der auf diese Weise erhaltenen Tonhöhenfrequenz τp, die in Form der Skala für die Abtastzahl dargestellt ist. Danach geht die CPU 1 zu dem nächsten Verfahren (Schritt SP 289).
Folglich wurde in dem obengenannten Ausführungsbeispiel das System für die Abtastfrequenz so entwickelt, daß das Auftreten des Maximalwertes nachgewiesen wird, selbst wenn die Autokorrelationsfunktion in der Nähe des zweiten lokalen Maximalpunktes den Maximalwert erreicht, und Interpolation bei dem Tonhöhenzyklus angewendet wird, so daß das System die Tonhöheninformation mit einem höheren Maß an Genauigkeit im Vergleich zu dem Stand der Technik ermitteln kann, ohne die Abtastfrequenz zu erhöhen, und das System kann daher die folgenden Verfahren, wie die Segmentierung, das Identifizierungsverfahren des Tonintervalls und das Bestimmungsverfahren der Tonart durchführen.
Ferner kennzeichnet das obengenannte Ausführungsbeispiel ein System, für das die Parameter A und B, die zur Beurteilung verwendet werden, ob das Ausmaß der Abweichung, das den Maximalwert angibt, irgendeinem Punkt in der Nähe der tatsächlichen Spitze entspricht, gewichtete Durchschnittswerte sind, es können aber andere Parameter für eine solche Beurteilung herangezogen werden.
Ferner zeigt das obengenannte Ausführungsbeispiel die vorliegende Erfindung, wie sie bei einem automatischen Musiktranskriptionssystem angewendet wird, aber die vorliegende Erfindung kann auch bei verschiedenen Arten von Geräten angewendet werden, die das Verfahren zur Ermittlung der Tonhöheninformation aus akustischen Signalen benötigen.
In dem obengenannten Ausführungsbeispiel führt die CPU 1 ferner alle Verfahrensschritte, die in Fig. 3 dargestellt sind, gemäß den Programmen aus, die in der Hauptspeichervorrichtung 3 gespeichert sind, aber das System kann so entwickelt sein, daß die CPU 1 alle Verfahrensschritte mit einer Hardwarekonstruktion durchführt. Zum Beispiel, wie in Fig. 47 dargestellt, in der die Teile, die ihren Gegenstücken in Fig. 2 entsprechen, mit denselben Bezugszeichen versehen sind, kann das System so entwickelt sein, daß das von der akustischen Signaleingabevorrichtung 8 übertragene akustische Signal durch die Verstärkerschaltung 10 verstärkt und danach in ein digitales Signal umgewandelt wird, indem es in den Digital/Analog-Wandler 12 über eine Vorfilterschaltung 11 geleitet wird, wobei das so in ein Digitalsignal umgewandelte akustische Signal für die Autokorrelationsanalyse durch den Signalprozessor 13 zur Ermittlung der Tonhöheninformation verarbeitet wird und auch zur Ermittlung der Summe des Quadratwerts verarbeitet wird, wodurch die Tonstärkeninformation ermittelt wird, die dem Verarbeitungssystem, das mit Software arbeitet, geliefert wird. Als Signalprozessor 13, der für eine derartige Hardwarekonstruktion (10 bis 13) verwendet wird, kann ein Prozessor (zum Beispiel u PD 7720, hergestellt von Nippon Electric Corporation) verwendet werden, der die Echtzeitverarbeitung von Signalen in dem stimmlichen Tonbereich durchführen kann und auch Schnittsignale besitzt, die der CPU 1 in dem Host-Rechner geliefert werden. Ein System gemäß der vorliegenden Erfindung kann eine äußerst genaue Segmentierung durchführen, ohne von Geräuschen oder Fluktuationen in der Tonstärkeninformation beeinflußt zu werden, selbst wenn diese vorhanden sind, die Tonart gut bestimmen und das Tonintervall jedes Segments genau identifizieren und die endgültigen Partiturdaten mit Genauigkeit erzeugen.
Ferner kann ein System gemäß der vorliegenden Erfindung eine Tonhöhenermittlungsmethode und ein Tonhöhenermittlungsgerät liefern, die imstande sind, die Tonhöheninformation im Vergleich zu dem Stand der Technik mit einem höheren Maß an Genauigkeit zu ermitteln, ohne die Abtastfrequenz durch die Verwendung von Autokorrelationsfunktionen zu erhöhen.
Ferner kann ein System gemäß der vorliegenden Erfindung die Genauigkeit der Nachbehandlung weiter verbessern, wie des Verfahrens zur Identifizierung der Tonintervalle und somit die Genauigkeit der letztlich erzeugten Partiturdaten.

Claims

1. Verfahren zur Musiktranskribierung, das die folgenden Schritte umfaßt:

Eingabe eines akustischen Signals;

Ermittlung einer Tonhöheninformation und einer akustischen Stärkeinformation aus dem eingegebenen akustischen Signal;

Korrektur der Tonhöheninformation im Verhältnis zu dem Ausmaß der Abweichung der Tonhöheninformation für das akustische Signal von einer absoluten Tonintervallachse;

erste Unterteilung des akustischen Signals in einzelne Tonsegmente auf der Basis der korrigierten Tonhöheninformation, während die zweite Unterteilung des akustischen Signals in einzelne Tonsegmente auf der Basis der Veränderungen in der Tonstärkeninformation erfolgt;

dritte Unterteilung des akustischen Signals auf der Basis beider Segmentinformationen, die in dem ersten und zweiten Unterteilungsschritt erhalten wurden;

Identifizierung der Tonintervalle der akustischen Signale in jedem der Segmente entlang der absoluten Tonintervallachse mit Bezugnahme auf die Tonhöheninformation;

vierte Unterteilung des akustischen Signals wieder in Einzeltonsegmente aufgrund der Tatsache, ob die identifizierten Tonintervalle der fortlaufenden Segmente identisch sind;

Bestimmung einer Tonart des akustischen Signals auf der Basis der ermittelten Tonhöheninformation;

Bestimmung eines Takts und Tempos des akustischen Signals auf der Basis der Segmentinformation; und

Kompilierung von Partiturdaten aus der erhaltenen Information über Tonintervall, Tonlänge, Tonart, Takt und Tempo.

2. Verfahren zur Musiktranskribierung nach Anspruch 1, welches ferner einen Schritt zur Beseitigung von Geräuschen von und Interpolation der ermittelten Tonhöheninformation und Tonstärkeninformation nach der Ermittlung der Tonhöhen- und Tonstärkeninformation umfaßt.

3. Verfahren zur Musiktranskribierung nach Anspruch 1 oder 2, wobei der zweite Unterteilungsschritt folgende Schritte umfaßt:

Vergleich der Tonstärkeninformation mit einem vorbestimmten Wert und Unterteilung des akustischen Signals in einen ersten Abschnitt, der größer als der vorbestimmte Wert ist, wobei der erste Abschnitt als effektiver Abschnitt erkannt wird, und in einen zweiten Abschnitt, der kleiner als der vorbestimmte Wert ist, wobei der zweite Abschnitt als ungültiger Abschnitt erkannt wird;

Ermittlung eines Veränderungspunktes im Anstieg der Tonstärkeninformation in bezug auf den effektiven Abschnitt;

Unterteilung des effektiven Segments in kleinere Teile an diesem Veränderungspunkt im Anstieg;

Messung der Segmentlänge sowohl der effektiven als auch der ungültigen Abschnitte; und

Verbinden jedes Segments mit einer Länge unter einer vorbestimmten Länge mit dem vorangehenden Segment zur Bildung eines Segments.

4. Verfahren zur Musiktranskribierung nach Anspruch 2, wobei der zweite Unterteilungsschritt folgende Schritte umfaßt:

Ermittlung eines Veränderungspunktes im Anstieg der Tonstärkeninformation in bezug auf den effektiven Abschnitt; und

Unterteilung des akustischen Signals auf der Basis des ermittelten Veränderungspunkt im Anstieg.

5. Verfahren zur Musiktranskribierung nach Anspruch 1 oder 2, wobei der zweite Unterteilungsschritt folgende Schritte umfaßt:

Unterteilung des akustischen Signals in einen ersten Abschnitt, der größer als ein vorbestimmter Tonstärkenwert ist, wobei der erste Abschnitt als effektiver Abschnitt erkannt wird, und in einen zweiten Abschnitt, der kleiner als der vorbestimmte Tonstärkenwert ist, wobei der zweite Abschnitt als ungültiger Abschnitt erkannt wird;

Messung der Länge sowohl des ersten als auch des zweiten Abschnitts; und

Verbinden jedes Segments mit einer Länge unter einer vorbestimmten Länge mit dem vorangehenden Segment.

6. Verfahren zur Musiktranskribierung nach Anspruch 1 oder 2, wobei der zweite Unterteilungsschritt folgende Schritte umfaßt:

Ermittlung eines Veränderungspunktes im Anstieg der Tonstärkeninformation; und

Unterteilung des akustischen Signals in bezug auf den Veränderungspunkt im Anstieg.

7. Verfahren zur Musiktranskribierung nach Anspruch 1 oder 2, wobei der zweite Unterteilungsschritt folgende Schritte umfaßt:

Ermittlung eines Veränderungspunktes im Anstieg der Tonstärkeninformation;

Unterteilung des akustischen Signals in bezug auf den Veränderungspunkt im Anstieg; und

8. Verfahren zur Musiktranskribierung nach einem der vorangehenden Ansprüche, wobei der erste Unterteilungsschritt folgende Schritte umfaßt:

Berechnen einer Länge jeder einer Serie von Abtastpunkten auf der Basis der ermittelten Tonhöheninformation;

Nachweis eines Abschnitts, in dem die berechnete Länge der Serie, die einen vorbestimmten Wert übersteigt, anhält;

Ermittlung eines Abtastpunktes in der Serie von Punkten mit maximaler Länge in bezug auf jeden der nachgewiesenen Abschnitte und Erkennen des Abtastpunktes als charakteristischen Punkt;

Nachweis des Ausmaßes der Schwankung in der Tonhöheninformation zwischen den charakteristischen Punkten in bezug auf die einzelnen dazwischenliegenden Abtastpunkte, wenn der Unterschied in der Tonhöheninformation an zwei angrenzenden charakteristischen Punkten einen vorbestimmten Wert übersteigt; und

Unterteilung der akustischen Signale an dem Abtastpunkt, an dem das Ausmaß der Tonhöhenschwankung maximal ist.

9. Verfahren zur Musiktranskribierung nach einem der vorangehenden Ansprüche, wobei der dritte Unterteilungsschritt folgende Schritte umfaßt:

Bestimmung einer Standardlänge entsprechend einer vorbestimmten Dauer einer Note auf der Basis jeder der Längen des im ersten Unterteilungsschritt unterteilten Segments; und

Unterteilung des ersten unterteilten Segments auf der Basis der Standardlänge und neuerliche genaue Unterteilung des unterteilten Segments mit einer Länge über der vorbestimmten Dauer der Note.

10. Verfahren zur Musiktranskribierung nach einem der vorangehenden Ansprüche, wobei der Tonintervall- Identifizierungsschritt folgende Schritte umfaßt:

Berechnen des Abstandes entlang der absoluten Tonintervallachse zwischen jedem Segment der Tonhöheninformation und dem absoluten Tonintervall;

Nachweis des geringsten Abstandes; und

Erkennen des Tonintervalls mit dem geringsten Abstand als ein tatsächliches Tonintervall des Segments.

11. Verfahren zur Musiktranskribierung nach einem der Ansprüche 1 bis 9, wobei der Tonintervall-Identifizierungsschritt folgende Schritte umfaßt:

Berechnen eines Durchschnittswertes aller Tonhöheninformationen des Segments; und

Identifizierung des Tonintervalls des Segments, das auf der absoluten Tonintervallachse nachgewiesen wurde und dem berechneten Durchschnittswert am nächsten ist, als ein tatsächliches Tonintervall für das bestimmte Segment.

12. Verfahren zur Musiktranskribierung nach einem der Ansprüche 1 bis 9, wobei der Tonintervall-Identifizierungsschritt folgende Schritte umfaßt:

Ermittlung eines Zwischenwertes der Tonhöheninformation jedes Segments; und

Identifizierung des Tonintervalls mit einem Zwischenwert, der dem absoluten Tonintervall am nächsten ist, als ein tatsächliches Tonintervall.

13. Verfahren zur Musiktranskribierung nach einem der Ansprüche 1 bis 9, wobei der Tonintervall-Identifizierungsschritt folgende Schritte umfaßt:

Ermittlung des häufigsten Wertes der Tonhöheninformation; und

Identifizierung des Tonintervalls dessen häufigster Wert der Tonhöheninformation jenem des absoluten Tonintervalls am nächsten ist, als ein tatsächliches Tonintervall.

14. Verfahren zur Musiktranskribierung nach einem der Ansprüche 1 bis 9, wobei der Tonintervall-Identifizierungsschritt folgende Schritte umfaßt:

Ermittlung einer Tonhöheninformation über den Spitzenpunkt im Anstieg der Tonstärkeninformation für jedes Segment; und

Identifizierung des Tonintervalls mit einem Spitzenpunkt, der der Tonhöheninformation am nächsten ist, als ein tatsächliches Tonintervall.

15. Verfahren zur Musiktranskribierung nach einem der Ansprüche 1 bis 9, wobei der Tonintervall-Identifizierungsschritt folgende Schritte umfaßt:

Berechnen der Länge der Serie, die in bezug auf einen analytischen Punkt für jedes Segment ermittelt wird;

Ermittlung eines Segment mit der maximalen Serienlänge; und

Identifizierung des ermittelten Tonintervalls mit dem absoluten Tonintervall auf der Basis der Tonhöheninformation für den analytischen Punkt mit der maximalen Serienlänge.

16. Verfahren zur Musiktranskribierung nach einem der Ansprüche 10 bis 15, wobei der Tonintervall-Identifizierungsschritt folgende Schritte umfaßt:

Ermittlung von Segmenten, deren Länge unter einem vorbestimmten Wert liegt;

Ermittlung von Segmenten, bei welchen sich eine Tonhöhe in konstantem Maße verändert;

Nachweis eines Unterschieds in dem identifizierten Tonintervall zwischen dem ermittelten Segment und den angrenzenden Segmenten; und

Identifizierung des Tonintervalls, dessen Unterschied unter einem vorbestimmten Wert liegt, als ein tatsächliches Tonintervall.

17. Verfahren zur Musiktranskribierung nach Anspruch 16, wobei der Tonintervall-Identifizierungsschritt folgende Schritte umfaßt:

Ermittlung von Segmenten des Tonintervalls, die sich von dem angrenzenden Tonintervall um einen Halbtonschritt auf der Tonleiter für die Tonart unterscheiden;

Klassifizierung der Summen der Tonhöheninformationen, die zwischen dem identifizierten Tonintervall des Segments und dem Tonintervall, das sich davon um einen Halbtonschritt auf der Tonleiter für die Tonart unterscheidet, bestehen; und

Identifizierung eines tatsächlichen Tonintervalls des Segments in Übereinstimmung mit den klassifizierten Summen der Tonhöheninformationen.

18. Verfahren zur Musiktranskribierung nach einem der vorangehenden Ansprüche, wobei der Tonart-Bestimmungsschritt folgende Schritte umfaßt:

Klassifizierung der Summen der Tonhöheninformationen in bezug auf die absolute Tonintervallachse;

Ermittlung der Häufigkeit des Auftretens der Tonleiter des Tonintervalls in dem akustischen Signal;

Berechnung einer Produktsumme mit einem vorbestimmten Wichtungsfaktor und der ermittelten Häufigkeit des Auftretens der Tonleiter des Tonintervalls in bezug auf alle möglichen Tonarten; und

Identifizierung der Tonart mit der maximalen Produktsumme als tatsächliche Tonart des akustischen Signals.

19. Verfahren zur Musiktranskribierung nach einem der vorangehenden Ansprüche, wobei der Tonhöheninformation- Ermittlungsschritt folgende Schritte umfaßt:

Umwandlung eines analogen Signals des eingegebenen akustischen Signals in eine digitale Form;

Berechnen einer Autokorrelationsfunktion des akustischen Signals in der digitalen Form;

Nachweis eines Abweichungsausmaßes mit einem maximalen lokalen Maximum für die berechneten Autokorrelationsfunktionen bei einem Abweichungsausmaß ungleich 0;

Nachweis einer Näherungskurve, durch welche die Autokorrelationsfunktionen einer Mehrzahl von Abtastpunkten einschließlich jenes, der dieses Abweichungsausmaß angibt, gehen;

Bestimmung eines Abweichungsausmaßes, das das lokale Maximum der Autokorrelation auf der berechneten Näherungskurve angibt; und

Nachweis einer Tonhöhenfrequenz in Übereinstimmung mit dem bestimmten Abweichungsausmaß.

20. Verfahren zur Musiktranskribierung nach einem der Ansprüche 1 bis 19, wobei der Tonhöheninformation- Ermittlungsschritt folgende Schritte umfaßt:

Nachweis einer Tonhöheninformation in Übereinstimmung mit der maximalen Information der berechneten Autokorrelationsfunktion;

Beurteilung, ob der lokale Maximalpunkt der Autokorrelationsfunktion etwa das Zweifache einer Frequenzkomponente der erfaßten Tonhöheninformation ausmacht; und

Ausgabe einer tatsächlichen Tonhöheninformation entsprechendem dem lokalen Maximum, wenn das Ergebnis dieser Beurteilung positiv ist.

21. Verfahren zur Musiktranskribierung nach einem der Ansprüche 1 bis 20, wobei der Tonhöheninformation- Korrekturschritt folgende Schritte umfaßt:

Klassifizierung der Summen der Tonhöheninformation;

Nachweis eines Abweichungsausmaßes von der absoluten Tonintervallachse der Tonhöheninformation bei den klassifizierten Summen; und

Modifizierung des Tonintervalls für das akustische Signal um das Abweichungsausmaß.

22. Gerät zur Musiktranskribierung, bestehend aus einem:

Mittel (8) zur Eingabe eines analogen akustischen Signals;

Mittel (10) zur Verstärkung des eingegebenen akustischen Signals;

Mittel (12) zur Umwandlung des analogen Signals in die digitale Form;

Mittel zur Verarbeitung (13) des digitalen akustischen Signals zur Ermittlung einer Tonhöheninformation und einer Tonstärkeninformation, wobei dieses Verarbeitungsmittel folgendes enthält:

ein Mittel zur Korrektur der Tonhöheninformation im Verhältnis zu dem Abweichungsausmaß der Tonhöheninformation des akustischen Signals von einer absoluten Tonintervallachse;

ein erstes Mittel zur Unterteilung des akustischen Signals in einzelne Tonsegmente auf der Basis der korrigierten Tonhöheninformation;

ein zweites Mittel zur Unterteilung des akustischen Signals in einzelne Tonsegmente auf der Basis der Veränderungen in der Tonstärkeninformation;

ein drittes Mittel zur Unterteilung des akustischen Signals auf der Basis beider Segmentinformationen, die durch das erste und zweite Unterteilungsmittel erhalten wurden;

ein Mittel zur Identifizierung der Tonintervalle der akustischen Signale in jedem der Segmente entlang der absoluten Tonintervallachse in bezug auf die Tonhöheninformation;

ein viertes Mittel zur neuerlichen Unterteilung des akustischen Signals in Einzeltonsegmente aufgrund der Tatsache, ob die identifizierten Tonintervalle der fortlaufenden Segmente identisch sind;

ein Mittel zur Bestimmung einer Tonart des akustischen Signals auf der Basis der ermittelten Tonhöheninformation;

ein Mittel zur Bestimmung eines Takts und Tempos des akustischen Signals auf der Basis der Segmentinformation; und

ein Mittel zur Kompilierung von Partiturdaten aus der erhaltenen Information über Tonintervall, Tonlänge, Tonart, Takt und Tempo;

ein Mittel (3) zur Speicherung des Verarbeitungsprogramms;

ein Mittel (1) zur Steuerung des Signalverarbeitungsprogramms; und

ein Mittel (5) zur Anzeige der transkribierten Musik.