DE19881155B4

DE19881155B4 - Verfahren zur Erkennung von Musikpartituren und computerlesbares Aufnahmemedium zur Speicherung eines Programmes zur Erkennung von Musikpartituren

Info

Publication number: DE19881155B4
Application number: DE19881155T
Authority: DE
Inventors: Tetsuo Hino
Original assignee: Kawai Musical Instrument Manufacturing Co Ltd
Current assignee: Kawai Musical Instrument Manufacturing Co Ltd
Priority date: 1997-07-09
Filing date: 1998-06-24
Publication date: 2007-04-19
Anticipated expiration: 2018-06-25
Also published as: JP3558834B2; WO1999003090A1; JPH1145088A; DE19881155T1

Abstract

Verfahren zur Erkennung einer Musikpartitur, umfassend das Lesen des Bildes einer Musikpartitur und die Erkennung der Musikzeichen darin, um die Daten zum Abspielen oder zur Anzeige der Musikpartitur vorzubereiten, dadurch gekennzeichnet, daß Projektionen auf eine Querachse von einer Notenlinienstartposition xs auf eine Notenlinienendposition xe bezüglich eines gegebenen Höhenbereiches y1-y2, gesetzt pro Zeichen, abgeleitet werden, basierend auf den Notenlinienpositionen, daß wenn eine Breite eines Bereiches x1-x2, in dem ein Wert der Projektion einen gegebenen Schwellwert th1 überschreitet, einen weiteren gegebenen Schwellwert th2 überschreitet, ein Rechteck, umgeben durch x1, x2, y1 und y2 gesetzt wird, als Rahmen zur Extraktion einer Eigenschaft des korrespondierenden Zeichens, daß Bereiche im Höhenbereich y1-y2, die nicht mit einem Notenlinienbild überlappen, als Extraktionsbereiche in den Rahmen gesetzt werden, um periphere Eigenschaften in einer Querrichtung zu erhalten, wobei die Periphereigenschaften für eine Mehrzahl von Graden von linken und rechten Enden in jedem Extraktionsbereich abgeleitet werden, daß jeder Extraktionsbereich in...

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Erkennung von Musikpartituren, das eine hohe Erkennungsrate ohne Löschen der Notenlinien erzielt sowie ein computerlesbares Aufnahmemedium, welches ein Programm zur Erkennung von Musikpartituren speichert.

Wenn Noten, Pausen und andere Zeichen auf einer Musikpartitur durch Verwendung eines Personal Computers, eines Scanners, etc. erkannt werden, wird das Bild einer Musikpartitur in zwei Werte zerlegt und eingelesen, dann werden die Notenlinien und Absätze erkannt woraufhin nach dem Löschen der Notenlinien pro Absatz ein gegebener rechteckiger Rahmen zum Lesen pro Zeichen gesetzt wird, um eine Musterübereinstimmungsüberprüfung zwischen den Daten eines derartigen Rahmens und den Daten von Rahmen, die in einer Auswahl vorher vorbereitet wurden, durchzuführen, so das die Zeichen erkannt werden.

Die EP 0 354 581 A2 zeigt ein Datenlesegerät, das Daten in Form von Punkten von einem Aufnahmeblatt, auf dem Daten in der Form eines Gittermusters aufgenommen sind, liest und die gelesenen Daten in binäre Daten decodiert. Das Datenlesegerät hat einen Bildsensor, um das Schwarz-Weiß-Niveau der Punkte des Gitters zu lesen und die eingelesenen Niveaus durch eine Hardwarekomponente oder duech eine von Software gesteuerte CPU in Binärcodes umzuwandeln. Durch die Minimierung der Größe der Punkte kann ein Muster eine hohe Aufzeichnungsdichte haben.

Die JP 01-304497 A zeigt ein Verfahren und ein Gerät zur Erkennung einer Partitur. Dabei werden Noten aus der Partitur gelesen und gespeichert. Ein Decodierungsgerät erkennt die Position der fünf Notenlinien, entfernt den Teil, wo die fünf Notenlinien mit anderen Symbolen verbunden sind und führt die Zerlegung in schwarze Verbindungselemente durch, um Notenbilder herauszuziehen. Dann wird ein weiteres Bild parallel zu dem Notenhals gescannt, um die X- und Y- Koordinaten zu berechnen und das Projektionsprofil des Bildes zu erzeugen. Der Bereich der Hälse ist durch die Koordinatendifferenz begrenzt und das Bild wird in dem begrenzten Bereich analysiert, um die Breite, Länge und Position des Halses zu bestimmen. Dieses Verfahren reduziert den Informationsdurchlauf, der notwendig ist, um die Notenhälse zu erkennen.

Die JP 09-097060 A zeigt ein Gerät zur Erkennung einer Partitur, in dem Teile, die dünne Linien des Bildes einer Partitur bilden, getrennt werden, Symbole, die aus dünnen Linien aus den getrennten Bildern zusammengesetzt sind, erkannt werden, und dicke Symbole aus dem verbleibenden dicken Bild erkannt werden, Ein Scanner scannt eine Musikpartitur und erzeugt binäre oder Grauskalen-Bilddaten. Die eingelesene Bildinformation wird in einem RAM oder auf einer Festplatte gespeichert. Die Teile, welche die dünnen Linien bilden, werden von den Bilddaten der Partitur getrennt und die Symbole, die aus den dünnen Linien zusammengesetzt sind, werden aus den getrennten Bildern mit dünnen Linien erkannt. Dann werden die dicken Symbole aus dem verbleibenden dicken Bild erkannt. So werden der dicke Teil, die dünnen länglichen Linien und die dünnen Querlinien in dem Bild einer Musikpartitur in der Vorbehandlung getrennt, um eine Erkennungsmethode zu schaffen, die dem Lesen einer Musikpartitur durch einen Menschen nahekommt und in der die Symbole oder Komponenten der Symbole effizient erkannt werden.

Die JP 06-102868 A zeigt ein Partitur-Erkennungsgerät zur effektiven Erkennung einer Partitur mit wenig Rechenaufwand, um Ereignisse in der Partitur genau zu erkennen und Musik auszugeben. Horizontale Verläufe, die mehr als eine spezifische Anzahl von Punkten in der horizontalen Richtung verlaufen, in der sich die fünf Linien der Partitur erstrecken sollten, werden aus den ursprünglichen Bilddaten gewonnen und ein Satz von horizontalen Verläufen, die senkrecht in gleichen Abständen angeordnet sind, werden als die fünf Notenlinien identifiziert. Dann wird der Neigungswinkel der fünf identifizierten Notenlinien bestimmt und die ursprünglichen Bilddaten werden Punkt für Punkt senkrecht verschoben, um die Neigung zu korrigieren. Dann werden die korrigierten Bilddaten Punkt für Punkt horizontal verschoben, um die Neigung in der senkrechten Richtung zu korrigieren. Daraufhin werden die fünf Notenlinien, Noten, Symbole und ihre Positionen usw. aus den Bilddaten, die horizontal und vertikal korrigiert worden sind, erkannt.

Bei dem obigen Erkennungsverfahren werden durch die Entfernung der Notenlinien aus dem Bild auch diejenigen Bereiche des Zeichens auf den Notenlinien entfernt, die an die Notenlinien anstoßen. Daher wird die Kontinuität der Pixel zerstört, so das auf Grund dieser Teilung die Umrahmung des Zeichens nicht durchgeführt werden kann. Hieraus resultiert das Problem, daß ein zu erkennendes Zeichen nicht präzise als ein zusammenhängendes Zeichen erkannt werden kann. Zur Lösung dieses Problems wurde eine Technik zum Halten unterteilter Bilder auf den Notenlinien verwendet. Da dieses Verfahren jedoch ebenfalls nicht vollständig ist, kann ein Umrahmungsfehler auf Grund der Entfernung der Notenlinien nicht vermieden werden, was zu einer Verringerung der Erkennungsrate führt. Wenn darüber hinaus zur Zeit der Entfernung der Notenlinien ein Rauschen verbleibt, werden eine Mehrzahl von Zeichen, die separat umrahmt werden sollten, auf Grund des Rauschens pixelverbunden (Rahmenkoppelung), so daß sie als ein Rahmen extrahiert werden, was die Erkennung nachteilig beeinflußt.

Die vorliegende Erfindung wurde im Hinblick auf die vorhergehenden Probleme des Standes der Technik durchgeführt und sieht ein Verfahren zur Erkennung von Musikpartituren vor, das eine hohe Erkennungsrate erreichen kann, ohne Entfernung der Notenlinien sowie ein computerlesbares Aufnahmemedium, welches ein Programm zur Erkennung von Musikpartituren speichert.

Als Resultat einer Analyse der obigen Probleme haben die Erfinder die in der Folge gezeigte vorliegende Erfindung gemacht, unter Berücksichtigung der Tatsache, daß wenn zu erkennende Objekte auf Zeichen wie Schlüssel, Zeitangaben, Abkürzungen, Vorzeichen und Pausen eingeschränkt werden, deren Höhenpositionen an den Notenlinien fixiert sind, oder deren Höhenpositionen unter Verwendung der Notenlinien als Gitter fixiert sind und deren charakterisierende Bereiche innerhalb der Notenlinien existieren, diejenigen Bereiche, die die Objektbilder vollständig beschreiben, präzise rahmenextrahiert werden können und diejenigen Eigenschaften, die anfällig für eine Beeinflussung oder Deformation, ein Ausradieren oder eine Verschmutzung sind, aus den erzielten Rahmen extrahiert werden können, so daß die präzise Erkennung ohne Löschen der Notenlinien erreicht werden kann.

Insbesondere ist eine Struktur der vorliegenden Erfindung (anwendbar auch auf eine Struktur eines computerlesbaren Aufnahmemediums gemäß Anspruch 2) im Wesentlichen durch ein Verfahren zur Erkennung einer Musikpartitur charakterisiert, durch das Lesen des Bildes einer Musikpartitur und die Erkennung der Musikzeichen darin, um die Daten zum Abspielen oder zur Anzeige der Musikpartitur vorzubereiten, in dem, wie später in 2 gezeigt, Projektionen auf eine Querachse von einer Notenlinienstartposition xs auf eine Notenlinienendposition xe bezüglich eines gegebenen Höhenbereiches y1-y2, gesetzt pro Zeichen, abgeleitet werden, basierend auf den Positionennotenlinien und, wenn eine Breite eines Bereiches x1-x2, in dem ein Wert der Projektion einen gegebenen Schwellwert th1 überschreitet, einen weiteren gegebenen Schwellwert th2 überschreitet, ein Rechteck, umgeben durch x1, x2, y1 und y2 gesetzt wird, als Rahmen zur Extraktion einer Eigenschaft des korrespondierenden Zeichens (Rahmenextraktionsfunktion), daß, wie später in 4 gezeigt, Bereiche im Höhenbereich y1-y2, die nicht mit einem Notenlinienbild überlappen, als Extraktionsbereiche in den Rahmen gesetzt werden, um periphere Eigenschaften in einer Querrichtung zu erhalten, wobei die Periphereigenschaften, die für eine Mehrzahl von Graden von linken und rechten Enden in jedem Extraktionsbereich abgeleitet werden, und daß darüber hinaus, wie später in 5 gezeigt, jeder Extraktionsbereich in eine Mehrzahl von Gitterbereichen unterteilt ist, die so gesetzt sind, daß sie sich gegenseitig teilweise in Höhenrichtung überlappen, wobei ein Mindestwert der peripheren Eigenschaften in jedem Gitterbereich pro Grad abgeleitet wird und als Eigenschaftenmenge in jedem Gitterbereich gesetzt wird, wobei die Eigenschaftenmenge pro Grad für jedes der linken und rechten Enden und pro Gitterbereich abgeleitet werden und als Eigenschaft des Rahmens gesetzt werden (Eigenschaften-mengenextraktionsftinktion), und daß das Zeichen mit einer festen Position auf den Notenlinien bzw. mit den Notenlinien in einem Gitter in dem Musikpartiturbild durch einen Mustervergleich mit in einem Lexikon gespeicherten Eigenschaften erkannt wird (Mustervergleichsfunktion).

Die Struktur nach Anspruch 2 sieht ein computerlesbares Aufnahmemedium vor, das ein Programm zur Erkennung von Musikpartituren speichert, zur Ausführung der Rahmenextraktionsfunktion, der Eigenschaftsmengenextraktionsfunktion und der Mustervergleichsfunktion, welches die vorhergehende Struktur nach Anspruch 1 repräsentiert.

Bezüglich des Bereiches, in dem ein Objektzeichen vollständige Eigenschaften aufweist, wird der Höhenbereich auf gegebene Sektionen ausgewählt aus vier Sektionen gesetzt, die durch die Notenlinien gebildet werden (siehe die später beschriebenen 3 und 4) und der Querbereich wird durch Verwendung der Projektionen auf die Querachse in dem vorhergehenden Höhenbereich abgeleitet. Auf diese Weise kann die Rahmenextraktion ohne Löschen der Notenlinien erzielt werden. Zu diesem Zeitpunkt wird eine Unterteilung bezüglich eines Teiles des Zeichens, wie z. B. ein F-Schlüssel, erwartet. Da diese jedoch aneinander angrenzen, ist eine Koppelung derselben in einem späteren Prozeß möglich.

In dem derart abgeleiteten Rahmen sind die Höhenpositionen die Notenlinienpositionen selbst, so daß keine Fehler auf Grund der Rahmenextraktion entstehen. Andererseits, da die Querpositionen auf der Projektionssegmentierung basieren, sind Fehler auf verschiedenen Ebenen zu erwarten. Da die vorhergehenden peripheren Eigenschaften von den linken und rechten Enden in dieser Struktur jedoch als Eigenschaften zur Verwendung in dem Mustervergleich eingesetzt werden, können die Fehler der Querpositionen in Fehler bezüglich der Referenzzeichen konvertiert werden.

Darüber hinaus, sind die Sektionen, in denen die peripheren Eigenschaften abgeleitet werden, als Sektionen ohne Einfluß durch die Notenlinien gesetzt, jede Sektion ist in Gitter unterteilt, die sich teilweise gegenseitig überlappen und der Durchschnitt in jedem Gitter wird als Eigenschaftsmenge gesetzt. Daher kann die Eigenschaftsmenge unanfällig für einen Einfluß durch Deformation, schlechte Erkennbarkeit, Verwischung oder Versatz des Bildes sein.

Wenn ein Zeichen erkannt wird (C-Schlüssel, Abkürzung, Schlüsselvorzeichen oder etwas Ähnliches) dessen Pixel in einem aktuellen Bild nicht kontinuierlich sind, wir die Erkennung bei dem normalen Erkennungsverfahren zunächst pro Rahmen durchgeführt, in dem die Pixel kontinuierlich sind, woraufhin eine positionale Beziehung der unterschiedlichen Rahmen überprüft wird, um das Erkennungsresultat zu bestimmen. Andererseits kann das Rahmenextraktionsverfahren (Funktion) in der vorhergehenden Struktur das vorhergehende Zeichen als ein Rahmen extrahieren, so daß eine Vereinfachung in dem Erkennungsverfahren und eine Verbesserung in der Erkennungsgenauigkeit erreicht werden kann.

1 ist ein Blockdiagramm, das die Struktur einer Ausführungsform eines Erkennungssystemes für Musikpartituren zeigt, was durch das Einlesen in ein externes Speichermedium eines computerlesbaren Speichermediums durchgeführt wird, das ein Programm zur Erkennung einer Musikpartitur gemäß der vorliegenden Erfindung speichert,
2 ist ein Flowchart, das den Hauptprozeß einer CPU zeigt,
3 ist ein erklärendes Diagramm, das ein Verfahren zur Umrahmung zeigt, unter Verwendung von Projektionen auf die Querachse,
4 ist ein beschreibendes Diagramm, das periphere Eigenschafts-extraktionssektionen auf Rahmendaten zeigt sowie ein peripheres Datenextraktionsverfahren, und
5 ist ein beschreibendes Diagramm, das den Zustand zeigt, in dem Gitterbereiche in jeden der peripheren Eigenschaftsextraktionssektionen auf den Rahmendaten gesetzt werden.
(Ausführungsform 1)
In der Folge wird eine Ausführungsform der vorliegenden Erfindung basierend auf den beigefügten Zeichnungen beschrieben. 1 ist ein Blockdiagramm, das die Struktur einer Ausführungsform eines Erkennungssystemes für Musikpartituren zeigt, das durch das Einlesen in ein externes Speichermedium betrieben wird, wie z. B. ein später beschriebenes Laufwerk für flexible Platten FDD 5(oder ein CD-Rom-Laufwerk oder etwas Ähnliches), ein computerlesbares Aufnahmemedium, das ein Programm zur Erkennung einer Musikpartitur gemäß der vorliegenden Erfindung speichert. Das System hat die Form eines Computers, wie z. B. eines Personal Computers, versehen mit einem Scanner und einem MIDI Interface Schaltkreis. Eine CPU 1 ist eine zentrale Verarbeitungseinheit zur Steuerung des gesamten Erkennungssystemes für Musikpartituren, basierend auf Programmen, die in einem ROM 2 oder RAM 3 gespeichert sind. Darüber hinaus ist ein Zeitgeberschaltkreis eingeschlossen, zur Ausführung eines Interrupts an die CPU 1 pro gegebener voreingestellter Periode. Der RAM 3 wird neben der Funktion als Programmbereich auch als Bilddatenpuffer, als Arbeitsbereich, etc. verwendet. Ein Festplattenlaufwerk HDD 4 und das Laufwerk für flexible Platten FDD 5 speichert Programme, Bilddaten, Abspieldaten, etc. Unter der Kontrolle der CPU 1 zeigt eine Kathodenstrahlröhre (CRT) 6 Bilddaten, die von einem CRT-Schnittstellenschaltkreis 7 ausgegeben werden. Über eine Tastatur 8 eingegebene Daten werden in die CPU 1 über einen Tastaturschnittstellenschaltkreis 9 übertragen. Unter der Kontrolle der CPU 1 druckt ein Drucker 10 von einem Druckerschnittstellenschaltkreis 11 ausgegebenen Daten aus.
Ein Scanner 12 scannt optisch beispielsweise eine (gedruckte) Musikpartitur und konvertiert sie in zweiwertige Bilddaten, Graustufenbilddaten oder Farbbilddaten und kann von jedem gewünschten Typ sein, wie z. B. ein Flachbettscanner, ein Handscanner oder ein Einzugsscanner. Durch den Scanner 12 aufgenommene Bilddaten werden in den RAM 3 oder auf die Festplatte 4 über einen Scannerschnittstellenschaltkreis 13 eingegeben. Ein MIDI-Interface-Schaltkreis 14 ist ein Schaltkreis zur Durchführung der Übertragung/Entgegennahme von MIDI-Daten bzgl. einer externen MIDI-Einrichtung, wie z. B. einem Tongeneratormodul. Ein Bus 15 verbindet die jeweiligen Schaltkreise in diesem Erkennungssystem für Musikpartituren, um einen Austausch unterschiedlicher Daten, Programme, Adressen, etc. zu ermöglichen. Zusätzlich kann eine Zeigereinrichtung wie eine Maus, ein serieller Schnittstellenschaltkreis wie ein RS232C oder ähnliches vorgesehen sein.
Bei dieser Struktur, wie in der Folgenden Tabelle 1 gezeigt, werden Bezugsmuster, die in dem Mustervergleich einzusetzen sind, für jeden Notenlinienbereich vorbereitet, in dem Eigenschaften zu extrahieren sind. Wie später beschrieben, unterscheidet sich der Grad der Eigenschaftsvectordaten bzgl. dieser Bezugsmuster abhängig von der Anzahl der Notenliniensektionen. Tabelle 1
2 ist eine Flowchart, der den Hauptprozess der CPU 1 zeigt. Bei Schritt S1 wird das Bild einer Musikpartitur in den RAM 3 durch den Scanner 12 eingegeben. Das Bild wird als zweiwertige Bilddaten eingegeben. Bei Schritt S2 werden die Notenlinien in dem eingegebenen zweiwertigen Bild der Musikpartitur erfasst. Bei Schritt S3 wird eine Neigungskorrektur ausgeführt, basierend auf einer Abweichung von jeder der fünf Linien relativ zur horizontalen Linie. Zu diesem Zeitpunkt werden die Positionen der Notenlinien (beispielsweise der 5. Linie L0, der vierten Linie L1 ..., der fünften Linie L4) als L(5) gespeichert und Notenlinienbreiten (Breiten der jeweiligen Linien der Notenlinien) werden als Lth gespeichert.
Eine Abfolge der Erkennung eines Zeichens ist derart, daß die Erkennung von einem Extraktionsbereich ausgeht, in dem die Erkennungsgenauigkeit so hoch wie möglich ist (geordnet nach breiteren Extraktionsbereichen). Die Originalbilder in dem Rahmen, die erfolgreich erkannt worden sind, werden in der Abfolge gelöscht. Vor der Durchführung einer derartigen Erkennung muß die Rahmenextraktion durchgeführt werden. In dieser Struktur wird sie in der folgenden Weise durchgeführt. Bei Schritt S4 werden Projektionen (Projektionsmengen) auf die Querachse von einer Notenlinienstartposition xs zu einer Notenlinienendposition xe bezüglich der vier Notenlinienbereiche (korrespondierend zu einem Höhenbereich y1-y2 in Anspruch 1 oder 2) abgeleitet, umgeben durch die Notenlinienpositionen L(5) von L0 bis L4, gezeigt in den 3 und 4, und als P(4)(x) gespeichert.
Wenn Zeichen (Schlüssel, Abkürzungen, ein Teil von Zeitangaben) in den vorhergehenden Notenlinienbereichen umgeben durch L0 bis L4 erkannt werden, fügt der Schritt S5 die Projektionsdaten von allen vier Notenlinienbereichen zusammen, um P'(x) abzuleiten und setzt einen Projektionssegmentierungsschwellwert thr1 und einen Segmentierungsobjektbreitenschwellwert thr2 aus den Notenlinienbreiten (thr2=Lth).
Bei Schritt S6 werden die Projektionen von x=0 gescannt. Bei Schritt S7 wird x, welches P'(x)>thr1 ergibt, auf x1 gesetzt und x, das zu P'(x)<thr1 führt, wird auf x2 gesetzt. Wenn dann x2–x1>thr2 ist, wird ein Rechteck, umgeben durch x1, x2, L0 und L4 als rechteckiger Rahmen gesetzt (in 3 repräsentieren mit einem Netz überzogene Bereiche segmentierter Rahmen). Der vorhergehende Prozess wird bis zu den Notenlinienendpositionen durchgeführt, so daß die Rahmengebung beendet ist. Zu diesem Zeitpunkt wird die Rahmenkoppelung durchgeführt, da es möglich ist, daß der F-Schlüssel nicht präzise extrahiert werden kann, wenn die Positionen der aneinandergrenzenten Rahmen nah beieinander liegen (es kann auch vorgesehen sein, daß nachdem die Zeichenerkennung in diesem Projektionsbereich beendet ist, nur die verweigerten Rahmen einer Koppelung unterworfen werden, um die Erkennung mit einem gekoppelten Rahmen wiederholt durchzuführen).
Bei Schritt S8, wie in 4 gezeigt, wird ein Rahmenbild aus dem vorhergehenden Rahmenrechteck extrahiert, so daß Positionen korrespondierend zu den Notenlinienpositionen L(5) auf dem Originalbild als Koordinatenwerte L'(5) auf dem Rahmenbild gesetzt werden.
Bei Schritt S9, wie in 4 gezeigt, werden Bereiche, in denen periphere Eigenschaften abgeleitet werden, bezüglich der vier durch L'(5) gebildeten Sektionen gesetzt, so daß sie jeweils von [L'(n) + Lth/2] bis [L'(n+1) – Lth/2] definiert sind. Versetzungen von Lth/2 sind vorgesehen, was es den Eigenschaftsableitungsbereichen ermöglicht, ohne Einfluß durch die Notenlinien zu sein.
Bei Schritt S10 werden die peripheren Eigenschaften für jeden der vorhergehenden Sektionen von den linken und rechten Enden derselben jeweils bis zum dritten Grad abgeleitet. Wie in 4 gezeigt, erzielt man die peripheren Daten durch die Durchführung eines Querscannens von den linken und rechten Enden zu den gegenüberliegenden Enden, um die Längen der Scannlinien bis zum dritten Grad abzuleiten (erstgradig peripher, zweitgradig peripher, drittgradig peripher) an Punkten, an denen weiße Pixel zu schwarzen Pixel werden. Die peripheren Daten werden für alle Sektionen abgeleitet und gespeichert.
Bei Schritt S11, wie in 5 gezeigt, werden vier Gitterbereiche in jeder Sektion gesetzt. Die Gitterbereiche werden gesetzt, so das sie sich mit den angrenzenden Gitterbereichen über die Hälfte der Gitterbreite überlappen. Die Anzahl der Gittersektionen ist 16 an jedem der linken und rechten Enden und daher insgesamt 32.
Puffer zur Speicherung der Eigenschaftsmengen in jedem der Gitter werden auf V(d)(n) (d: peripherer Grad, n: Gitter) gesetzt. Bei Schritt S12 werden die peripheren Daten der vorhergehenden Gitterbereiche pro Grad als Durchschnitt gebildet und die so erzielten Werte werden in den Puffern gespeichert.
Bei Schritt S13, werden die so erzielten 3 × 32 = 96 Grad Eigenschaftsmengen einem Mustervergleich mit den vorhergehenden Referenzmustern unterzogen [Refferenzmuster für Zeichen bzgl. der Eigenschaftssektionen, d. h. die Notenliniensektionen umgeben durch L0 bis L4], vorhergehend durch einen entsprechenden Prozeß vorbereitet. Ein Vergleichsverfahren bei diesem Vergleich ist ein Vergleichsverfahren bei dem Variationen der Eigenschaftsmengen unter Berücksichtigung von Fehlern in Querrichtung der Projektionssegmentierung gewichtet werden.
Eine Erkennung für die anderen Notenliniensektionen wird entsprechend zu der Obigen durchgeführt. In diesem Falle ergibt sich der Grad der extrahierten Eigenschaftsmengen durch (die Anzahl der Notenliniensektionen) x2 (von links nach rechts) x4 (die Anzahl der Gitter in jeder Sektion) x3 (peripherer Grad).
Bei dem Rahmenextraktionsverfahren dieser Struktur können die Projektionen, begrenzt auf den Bereich der gegebenen Sektionen, gesetzt pro Zeichen der Notenliniensektionen (beispielsweise der Sektionen L0 bis L4 im Falle eines G-Schlüssels, wie in 4 gezeigt) zur akkuraten Bestimmung der Querposition des extrahierten Rahmen verwendet werden. Darüber hinaus, da die Eigenschaftsextraktionspositionen und die Gittersektionen (die Postitionen der Notenlinien selbst sind nicht in den Gittersektionen enthalten) ebenfalls auf den Notenlinienpositionen basieren, ist eine erzielte Eigenschaftsverteilung korrekt bezüglich den Notenlinienpositionen, so daß die konsistenten Eigenschaften bezüglich eines Zeichens erzielt werden können, dessen Höhenpositionen durch die Notenlinien bestimmt ist. In der vorhergehenden Weise können die Zeichen, die eine fixierte Position auf den Notenlinien haben oder die Notenlinien in einem Gitter in dem Bild der Musikpartitur wie in Tabelle 1 gezeigt haben, erkannt werden.
(Ausführungsform 2)
Der Mustervergleich zwischen den Projektionsdaten in dem segmentierten Bereich der Rahmensegmentierung basierend auf den Projektionen in der vorhergehenden Ausführungsform, sowie Referenzprojektionsdaten, vorbereitet durch den entsprechenden Prozeß, werden eingesetzt als Vorvergleichsprozeß des Mustervergleiches unter Verwendung der vorhergehenden peripheren Eigenschaften. Wenn der Übereinstimmungsgrad in dem Vorvergleichsprozeß gering ist, werden die Schritte S8 und die folgenden Schritte vermieden, um den Erkennungsprozeß schneller zu machen. Wenn der Übereinstimmungsgrad in dem Vorvergleich einen Referenzwert befriedigt, wird der Mustervergleich einschl. dieses Vergleichsgrades bei Schritt S13 durchgeführt, um die Erkennungsgenauigkeit zu erhöhen.
(Ausführungsform 3)
Obwohl die peripheren Daten in der Querrichtung als Eigenschaft zur Verwendung in dem Mustervergleich eingesetzt werden, werden die peripheren Daten in Höhenrichtung zu den vorhergehenden Eigenschaften hinzugefügt, zur Verbesserung der Erkennungsgenauigkeit.
Als periphere Daten in der Höhenrichtung werden gescannt Daten bis zum dritten Grad von oberen und unteren Seiten (korrespondierend zu gegebenen Notenlinienpositionen) der Extraktionssektionen verwendet. Da die Rahmensegmentierung basierend auf den Projektionen Fehler der Rahmenrechtecke in Querrichtung einschließen, wenn die Eigenschaftsextraktionspositionen basierend auf den Querrichtungen der Rahmenrechtecke gesetzt sind, ist es möglich, daß die Erkennung nicht befriedigend durchgeführt werden kann. Im Hinblick hierauf wird eine Querposition, in der ein positiver Peak der Projektionsdaten im Bereich des segmentierten Rechteckes erzielt wird, auf xpm gesetzt, während eine Querposition, in der ein negativer Peak desselben erzielt wird, auf xpf gesetzt wird und, durch Verwendung der peripheren Daten in den Sektionen, die die jeweiligen Positionen in ihrer Mitte haben, können die Zeicheneigenschaften, die frei von einem Einfluß des Querfehlers des Rahmenrechteckes sind, extraiert werden.
(Ausführungsform 4)
Bei dem herkömmlichen Erkennungsverfahren, nachdem individuelle Vorzeichen, wie z. B. ein b, erkannt worden sind, wird ein Schlüsselvorzeichen im Lichte der Beziehung der jeweiligen Positionen derselben erkannt. Da diese positional Beziehung jedoch nicht präzise erkannt werden kann, ist die Erkennung eines Schlüsselvorzeichens als schwierig angesehen worden. Bei der Struktur der vorliegenden Erfindung, wie in 3 gezeigt, kann die Erkennung eines derartigen Schlüsselvorzeichens oder etwas Ähnlichem unter Verwendung des vorhergehenden Verfahren erreicht werden, da die Schlüsselvorzeichen in einem Stück durchgeführt werden (ein Beispiel gezeigt durch drei b-Vorzeichen in der Figur).
(Ausführungsform 5)
Bezüglich eines Textes, der fest auf einer Linie angeordnet ist, kann der Text gemäß der vorhergehenden Struktur der vorliegenden Erfindung erkannt werden, unter Verwendung der Linienpositionen an Stelle der Notenlinienpositionen.
Nach Maßgabe der Struktur der vorliegenden Erfindung wie oben im Detail beschrieben, werden die gegebenen Sektionen der vier Sektionen, definiert durch die Notenlinien, bezüglich des Höhenbereiches gesetzt, während der Querbereich durch Verwendung der Projektionen auf die Querachse in den vorhergehenden Höhensektionen abgeleitet wird. Daher kann die Rahmenextraktion ohne Löschen der Notenlinien durchgeführt werden. In den so abgeleiteten Rahmen sind die Höhenpositionen die Positionen der Notenlinien selbst, so daß keine Fehler hervorgerufen durch die Extraktion der Rahmen entstehen. Andererseits können die Fehler der Querpositionen in Fehler relativ zu den Referenzmustern konvertiert werden, sogar bei der Rahmenextraktion gemäß der Projektionssegmentierung an den Querpositionen, wobei Fehler auf einem gewissen Niveau berücksichtigt werden, da der Mustervergleich unter Verwendung der peripheren Eigenschaften von den linken und rechten Enden durchgeführt wird. Darüber hinaus werden die Sektionen, in denen die peripheren Eigenschaften abgeleitet werden, als diejenigen Sektionen gewählt, die frei von Einflüssen durch die Notenlinien sind, wobei jede Sektion in Gitter unterteilt ist, die sich gegenseitig teilweise überlappen und der Durchschnitt in jedem Gitter wird auf die Eigenschaftsmenge gesetzt. Auf diese Weise kann die Eigenschaftsmenge frei von einem Einfluß durch Deformation, Abnutzung, Verschmutzung oder Versatz des Bildes gehalten werden.
Industrielle Anwendbarkeit
Wie oben beschrieben sind die Strukturen des Erkennungsverfahrens für Musikpartituren und das computerlesbare Speichermedium, das das Programm zu Erkennung von Musikpartituren speichert, nützlich für einen Fall in dem eine Musikpartitur mechanisch erkannt wird und insbesondere geeignet für einen Fall, in dem Daten für eine Karaoke-Vorführung mit einer Musikpartitur vorbereitet werden, oder einem Fall, wo eine manuelle Vorführung teilweise durch ein mechanische Vorführung bei einer Studioaufnahme oder einer Live-Performance ersetzt wird.

Claims

Verfahren zur Erkennung einer Musikpartitur, umfassend das Lesen des Bildes einer Musikpartitur und die Erkennung der Musikzeichen darin, um die Daten zum Abspielen oder zur Anzeige der Musikpartitur vorzubereiten, dadurch gekennzeichnet, daß Projektionen auf eine Querachse von einer Notenlinienstartposition xs auf eine Notenlinienendposition xe bezüglich eines gegebenen Höhenbereiches y1-y2, gesetzt pro Zeichen, abgeleitet werden, basierend auf den Notenlinienpositionen, daß wenn eine Breite eines Bereiches x1-x2, in dem ein Wert der Projektion einen gegebenen Schwellwert th1 überschreitet, einen weiteren gegebenen Schwellwert th2 überschreitet, ein Rechteck, umgeben durch x1, x2, y1 und y2 gesetzt wird, als Rahmen zur Extraktion einer Eigenschaft des korrespondierenden Zeichens, daß Bereiche im Höhenbereich y1-y2, die nicht mit einem Notenlinienbild überlappen, als Extraktionsbereiche in den Rahmen gesetzt werden, um periphere Eigenschaften in einer Querrichtung zu erhalten, wobei die Periphereigenschaften für eine Mehrzahl von Graden von linken und rechten Enden in jedem Extraktionsbereich abgeleitet werden, daß jeder Extraktionsbereich in eine Mehrzahl von Gitterbereichen unterteilt ist, die so gesetzt sind, daß sie sich gegenseitig teilweise in Höhenrichtung überlappen, wobei ein Mindestwert der peripheren Eigenschaften in jedem Gitterbereich pro Grad abgeleitet wird und als Eigenschaftenmenge in jedem Gitterbereich gesetzt wird, wobei die Eigenschaftenmenge pro Grad für jedes der linken und rechten Enden und pro Gitterbereich abgeleitet wird und als Eigenschaft des Rahmens gesetzt wird, und daß das Zeichen mit einer festen Position auf den Notenlinien oder mit den Notenlinien in einem Gitter in dem Musikpartiturbild durch einen Mustervergleich mit in einem Lexikon gespeicherten Eigenschaften erkannt wird.
Computerlesbares Medium, welches ein Erkennungsprogramm zum Lesen des Bildes einer Musikpartitur und zur Erkennung von Zeichen darin speichert, zur Vorbereitung der Daten zum Abspielen oder zur Anzeige der Musikpartitur, wobei dieses Erkennungsprogramm für Musikpartituren eine Rahmenextraktionsfunktion aufweist, welche Projektionen auf eine Querachse von einer Notenlinienstartposition xs auf eine Notenlinienendposition xe bezüglich eines gegebenen Höhenbereiches y1-y2, gesetzt pro Zeichen, ableitet, basierend auf den Notenlinienpositionen, wobei wenn eine Breite eines Bereiches x1-x2, in dem ein Wert der Projektion einen gegebenen Schwellwert th1 überschreitet, einen weiteren gegebenen Schwellwert th2 überschreitet, ein Rechteck, umgeben durch x1, x2, y1 und y2 gesetzt wird, als Rahmen zur Extraktion einer Eigenschaft des korrespondierenden Zeichens, wobei Bereiche im Höhenbereich y1-y2, die nicht mit einem Notenlinienbild überlappen, als Extraktionsbereiche in den Rahmen gesetzt werden, um periphere Eigenschaften in einer Querrichtung zu erhalten, wobei die Periphereigenschaften für eine Mehrzahl von Graden von linken und rechten Enden in jedem Extraktionsbereich abgeleitet werden, wobei jeder Extraktionsbereich in eine Mehrzahl von Gitterbereichen unterteilt ist, die so gesetzt sind, daß sie sich gegenseitig teilweise in Höhenrichtung überlappen, wobei ein Mindestwert der peripheren Eigenschaften in jedem Gitterbereich pro Grad abgeleitet wird und als Eigenschaftenmenge in jedem Gitterbereich gesetzt wird, wobei die Eigenschaftenmenge pro Grad für jedes der linken und rechten Enden und pro Gitterbereich abgeleitet wird und als Eigenschaft des Rahmens gesetzt wird, und daß das Zeichen mit einer festen Position auf den Notenlinien oder mit den Notenlinien in einem Gitter in dem Musikpartiturbild durch einen Mustervergleich mit in einem Lexikon gespeicherten Eigenschaften erkannt wird.