-
Die
vorliegende Erfindung bezieht sich auf ein Verfahren zur Erkennung
von Musikpartituren, das eine hohe Erkennungsrate ohne Löschen der
Notenlinien erzielt sowie ein computerlesbares Aufnahmemedium, welches
ein Programm zur Erkennung von Musikpartituren speichert.
-
Wenn
Noten, Pausen und andere Zeichen auf einer Musikpartitur durch Verwendung
eines Personal Computers, eines Scanners, etc. erkannt werden, wird
das Bild einer Musikpartitur in zwei Werte zerlegt und eingelesen,
dann werden die Notenlinien und Absätze erkannt woraufhin nach
dem Löschen
der Notenlinien pro Absatz ein gegebener rechteckiger Rahmen zum
Lesen pro Zeichen gesetzt wird, um eine Musterübereinstimmungsüberprüfung zwischen
den Daten eines derartigen Rahmens und den Daten von Rahmen, die
in einer Auswahl vorher vorbereitet wurden, durchzuführen, so
das die Zeichen erkannt werden.
-
Die
EP 0 354 581 A2 zeigt
ein Datenlesegerät,
das Daten in Form von Punkten von einem Aufnahmeblatt, auf dem Daten
in der Form eines Gittermusters aufgenommen sind, liest und die
gelesenen Daten in binäre
Daten decodiert. Das Datenlesegerät hat einen Bildsensor, um
das Schwarz-Weiß-Niveau
der Punkte des Gitters zu lesen und die eingelesenen Niveaus durch
eine Hardwarekomponente oder duech eine von Software gesteuerte
CPU in Binärcodes
umzuwandeln. Durch die Minimierung der Größe der Punkte kann ein Muster eine
hohe Aufzeichnungsdichte haben.
-
Die
JP 01-304497 A zeigt ein Verfahren und ein Gerät zur Erkennung einer Partitur.
Dabei werden Noten aus der Partitur gelesen und gespeichert. Ein
Decodierungsgerät
erkennt die Position der fünf
Notenlinien, entfernt den Teil, wo die fünf Notenlinien mit anderen
Symbolen verbunden sind und führt
die Zerlegung in schwarze Verbindungselemente durch, um Notenbilder
herauszuziehen. Dann wird ein weiteres Bild parallel zu dem Notenhals
gescannt, um die X- und Y- Koordinaten zu berechnen und das Projektionsprofil
des Bildes zu erzeugen. Der Bereich der Hälse ist durch die Koordinatendifferenz
begrenzt und das Bild wird in dem begrenzten Bereich analysiert,
um die Breite, Länge
und Position des Halses zu bestimmen. Dieses Verfahren reduziert
den Informationsdurchlauf, der notwendig ist, um die Notenhälse zu erkennen.
-
Die
JP 09-097060 A zeigt ein Gerät
zur Erkennung einer Partitur, in dem Teile, die dünne Linien
des Bildes einer Partitur bilden, getrennt werden, Symbole, die
aus dünnen
Linien aus den getrennten Bildern zusammengesetzt sind, erkannt
werden, und dicke Symbole aus dem verbleibenden dicken Bild erkannt
werden, Ein Scanner scannt eine Musikpartitur und erzeugt binäre oder
Grauskalen-Bilddaten. Die eingelesene Bildinformation wird in einem
RAM oder auf einer Festplatte gespeichert. Die Teile, welche die
dünnen
Linien bilden, werden von den Bilddaten der Partitur getrennt und
die Symbole, die aus den dünnen
Linien zusammengesetzt sind, werden aus den getrennten Bildern mit
dünnen
Linien erkannt. Dann werden die dicken Symbole aus dem verbleibenden
dicken Bild erkannt. So werden der dicke Teil, die dünnen länglichen
Linien und die dünnen Querlinien
in dem Bild einer Musikpartitur in der Vorbehandlung getrennt, um
eine Erkennungsmethode zu schaffen, die dem Lesen einer Musikpartitur
durch einen Menschen nahekommt und in der die Symbole oder Komponenten
der Symbole effizient erkannt werden.
-
Die
JP 06-102868 A zeigt ein Partitur-Erkennungsgerät zur effektiven Erkennung
einer Partitur mit wenig Rechenaufwand, um Ereignisse in der Partitur
genau zu erkennen und Musik auszugeben. Horizontale Verläufe, die
mehr als eine spezifische Anzahl von Punkten in der horizontalen
Richtung verlaufen, in der sich die fünf Linien der Partitur erstrecken
sollten, werden aus den ursprünglichen
Bilddaten gewonnen und ein Satz von horizontalen Verläufen, die
senkrecht in gleichen Abständen
angeordnet sind, werden als die fünf Notenlinien identifiziert.
Dann wird der Neigungswinkel der fünf identifizierten Notenlinien
bestimmt und die ursprünglichen
Bilddaten werden Punkt für
Punkt senkrecht verschoben, um die Neigung zu korrigieren. Dann
werden die korrigierten Bilddaten Punkt für Punkt horizontal verschoben,
um die Neigung in der senkrechten Richtung zu korrigieren. Daraufhin
werden die fünf
Notenlinien, Noten, Symbole und ihre Positionen usw. aus den Bilddaten,
die horizontal und vertikal korrigiert worden sind, erkannt.
-
Bei
dem obigen Erkennungsverfahren werden durch die Entfernung der Notenlinien
aus dem Bild auch diejenigen Bereiche des Zeichens auf den Notenlinien
entfernt, die an die Notenlinien anstoßen. Daher wird die Kontinuität der Pixel
zerstört,
so das auf Grund dieser Teilung die Umrahmung des Zeichens nicht
durchgeführt
werden kann. Hieraus resultiert das Problem, daß ein zu erkennendes Zeichen
nicht präzise
als ein zusammenhängendes
Zeichen erkannt werden kann. Zur Lösung dieses Problems wurde
eine Technik zum Halten unterteilter Bilder auf den Notenlinien
verwendet. Da dieses Verfahren jedoch ebenfalls nicht vollständig ist,
kann ein Umrahmungsfehler auf Grund der Entfernung der Notenlinien
nicht vermieden werden, was zu einer Verringerung der Erkennungsrate
führt.
Wenn darüber
hinaus zur Zeit der Entfernung der Notenlinien ein Rauschen verbleibt,
werden eine Mehrzahl von Zeichen, die separat umrahmt werden sollten,
auf Grund des Rauschens pixelverbunden (Rahmenkoppelung), so daß sie als
ein Rahmen extrahiert werden, was die Erkennung nachteilig beeinflußt.
-
Die
vorliegende Erfindung wurde im Hinblick auf die vorhergehenden Probleme
des Standes der Technik durchgeführt
und sieht ein Verfahren zur Erkennung von Musikpartituren vor, das
eine hohe Erkennungsrate erreichen kann, ohne Entfernung der Notenlinien
sowie ein computerlesbares Aufnahmemedium, welches ein Programm
zur Erkennung von Musikpartituren speichert.
-
Als
Resultat einer Analyse der obigen Probleme haben die Erfinder die
in der Folge gezeigte vorliegende Erfindung gemacht, unter Berücksichtigung
der Tatsache, daß wenn
zu erkennende Objekte auf Zeichen wie Schlüssel, Zeitangaben, Abkürzungen,
Vorzeichen und Pausen eingeschränkt
werden, deren Höhenpositionen
an den Notenlinien fixiert sind, oder deren Höhenpositionen unter Verwendung
der Notenlinien als Gitter fixiert sind und deren charakterisierende
Bereiche innerhalb der Notenlinien existieren, diejenigen Bereiche,
die die Objektbilder vollständig
beschreiben, präzise
rahmenextrahiert werden können
und diejenigen Eigenschaften, die anfällig für eine Beeinflussung oder Deformation,
ein Ausradieren oder eine Verschmutzung sind, aus den erzielten
Rahmen extrahiert werden können,
so daß die
präzise
Erkennung ohne Löschen
der Notenlinien erreicht werden kann.
-
Insbesondere
ist eine Struktur der vorliegenden Erfindung (anwendbar auch auf
eine Struktur eines computerlesbaren Aufnahmemediums gemäß Anspruch
2) im Wesentlichen durch ein Verfahren zur Erkennung einer Musikpartitur
charakterisiert, durch das Lesen des Bildes einer Musikpartitur
und die Erkennung der Musikzeichen darin, um die Daten zum Abspielen
oder zur Anzeige der Musikpartitur vorzubereiten, in dem, wie später in 2 gezeigt,
Projektionen auf eine Querachse von einer Notenlinienstartposition
xs auf eine Notenlinienendposition xe bezüglich eines gegebenen Höhenbereiches
y1-y2, gesetzt pro Zeichen, abgeleitet werden, basierend auf den
Positionennotenlinien und, wenn eine Breite eines Bereiches x1-x2,
in dem ein Wert der Projektion einen gegebenen Schwellwert th1 überschreitet,
einen weiteren gegebenen Schwellwert th2 überschreitet, ein Rechteck,
umgeben durch x1, x2, y1 und y2 gesetzt wird, als Rahmen zur Extraktion
einer Eigenschaft des korrespondierenden Zeichens (Rahmenextraktionsfunktion),
daß, wie
später
in 4 gezeigt, Bereiche im Höhenbereich y1-y2, die nicht
mit einem Notenlinienbild überlappen,
als Extraktionsbereiche in den Rahmen gesetzt werden, um periphere
Eigenschaften in einer Querrichtung zu erhalten, wobei die Periphereigenschaften,
die für
eine Mehrzahl von Graden von linken und rechten Enden in jedem Extraktionsbereich
abgeleitet werden, und daß darüber hinaus,
wie später
in 5 gezeigt, jeder Extraktionsbereich in eine Mehrzahl
von Gitterbereichen unterteilt ist, die so gesetzt sind, daß sie sich
gegenseitig teilweise in Höhenrichtung überlappen,
wobei ein Mindestwert der peripheren Eigenschaften in jedem Gitterbereich
pro Grad abgeleitet wird und als Eigenschaftenmenge in jedem Gitterbereich
gesetzt wird, wobei die Eigenschaftenmenge pro Grad für jedes
der linken und rechten Enden und pro Gitterbereich abgeleitet werden
und als Eigenschaft des Rahmens gesetzt werden (Eigenschaften-mengenextraktionsftinktion),
und daß das
Zeichen mit einer festen Position auf den Notenlinien bzw. mit den
Notenlinien in einem Gitter in dem Musikpartiturbild durch einen Mustervergleich
mit in einem Lexikon gespeicherten Eigenschaften erkannt wird (Mustervergleichsfunktion).
-
Die
Struktur nach Anspruch 2 sieht ein computerlesbares Aufnahmemedium
vor, das ein Programm zur Erkennung von Musikpartituren speichert,
zur Ausführung
der Rahmenextraktionsfunktion, der Eigenschaftsmengenextraktionsfunktion
und der Mustervergleichsfunktion, welches die vorhergehende Struktur
nach Anspruch 1 repräsentiert.
-
Bezüglich des
Bereiches, in dem ein Objektzeichen vollständige Eigenschaften aufweist,
wird der Höhenbereich
auf gegebene Sektionen ausgewählt
aus vier Sektionen gesetzt, die durch die Notenlinien gebildet werden
(siehe die später
beschriebenen 3 und 4) und der
Querbereich wird durch Verwendung der Projektionen auf die Querachse
in dem vorhergehenden Höhenbereich
abgeleitet. Auf diese Weise kann die Rahmenextraktion ohne Löschen der
Notenlinien erzielt werden. Zu diesem Zeitpunkt wird eine Unterteilung bezüglich eines
Teiles des Zeichens, wie z. B. ein F-Schlüssel, erwartet. Da diese jedoch
aneinander angrenzen, ist eine Koppelung derselben in einem späteren Prozeß möglich.
-
In
dem derart abgeleiteten Rahmen sind die Höhenpositionen die Notenlinienpositionen
selbst, so daß keine
Fehler auf Grund der Rahmenextraktion entstehen. Andererseits, da
die Querpositionen auf der Projektionssegmentierung basieren, sind
Fehler auf verschiedenen Ebenen zu erwarten. Da die vorhergehenden
peripheren Eigenschaften von den linken und rechten Enden in dieser
Struktur jedoch als Eigenschaften zur Verwendung in dem Mustervergleich
eingesetzt werden, können
die Fehler der Querpositionen in Fehler bezüglich der Referenzzeichen konvertiert
werden.
-
Darüber hinaus,
sind die Sektionen, in denen die peripheren Eigenschaften abgeleitet
werden, als Sektionen ohne Einfluß durch die Notenlinien gesetzt,
jede Sektion ist in Gitter unterteilt, die sich teilweise gegenseitig überlappen
und der Durchschnitt in jedem Gitter wird als Eigenschaftsmenge
gesetzt. Daher kann die Eigenschaftsmenge unanfällig für einen Einfluß durch
Deformation, schlechte Erkennbarkeit, Verwischung oder Versatz des
Bildes sein.
-
Wenn
ein Zeichen erkannt wird (C-Schlüssel,
Abkürzung,
Schlüsselvorzeichen
oder etwas Ähnliches) dessen
Pixel in einem aktuellen Bild nicht kontinuierlich sind, wir die
Erkennung bei dem normalen Erkennungsverfahren zunächst pro
Rahmen durchgeführt,
in dem die Pixel kontinuierlich sind, woraufhin eine positionale
Beziehung der unterschiedlichen Rahmen überprüft wird, um das Erkennungsresultat
zu bestimmen. Andererseits kann das Rahmenextraktionsverfahren (Funktion)
in der vorhergehenden Struktur das vorhergehende Zeichen als ein
Rahmen extrahieren, so daß eine
Vereinfachung in dem Erkennungsverfahren und eine Verbesserung in
der Erkennungsgenauigkeit erreicht werden kann.
-
1 ist
ein Blockdiagramm, das die Struktur einer Ausführungsform eines Erkennungssystemes
für Musikpartituren
zeigt, was durch das Einlesen in ein externes Speichermedium eines
computerlesbaren Speichermediums durchgeführt wird, das ein Programm
zur Erkennung einer Musikpartitur gemäß der vorliegenden Erfindung
speichert,
-
2 ist
ein Flowchart, das den Hauptprozeß einer CPU zeigt,
-
3 ist
ein erklärendes
Diagramm, das ein Verfahren zur Umrahmung zeigt, unter Verwendung
von Projektionen auf die Querachse,
-
4 ist
ein beschreibendes Diagramm, das periphere Eigenschafts-extraktionssektionen
auf Rahmendaten zeigt sowie ein peripheres Datenextraktionsverfahren,
und
-
5 ist
ein beschreibendes Diagramm, das den Zustand zeigt, in dem Gitterbereiche
in jeden der peripheren Eigenschaftsextraktionssektionen auf den
Rahmendaten gesetzt werden.
-
(Ausführungsform 1)
-
In
der Folge wird eine Ausführungsform
der vorliegenden Erfindung basierend auf den beigefügten Zeichnungen
beschrieben. 1 ist ein Blockdiagramm, das
die Struktur einer Ausführungsform
eines Erkennungssystemes für
Musikpartituren zeigt, das durch das Einlesen in ein externes Speichermedium
betrieben wird, wie z. B. ein später
beschriebenes Laufwerk für
flexible Platten FDD 5(oder ein CD-Rom-Laufwerk oder etwas Ähnliches),
ein computerlesbares Aufnahmemedium, das ein Programm zur Erkennung
einer Musikpartitur gemäß der vorliegenden
Erfindung speichert. Das System hat die Form eines Computers, wie
z. B. eines Personal Computers, versehen mit einem Scanner und einem
MIDI Interface Schaltkreis. Eine CPU 1 ist eine zentrale Verarbeitungseinheit
zur Steuerung des gesamten Erkennungssystemes für Musikpartituren, basierend
auf Programmen, die in einem ROM 2 oder RAM 3 gespeichert
sind. Darüber
hinaus ist ein Zeitgeberschaltkreis eingeschlossen, zur Ausführung eines
Interrupts an die CPU 1 pro gegebener voreingestellter
Periode. Der RAM 3 wird neben der Funktion als Programmbereich
auch als Bilddatenpuffer, als Arbeitsbereich, etc. verwendet. Ein
Festplattenlaufwerk HDD 4 und das Laufwerk für flexible
Platten FDD 5 speichert Programme, Bilddaten, Abspieldaten,
etc. Unter der Kontrolle der CPU 1 zeigt eine Kathodenstrahlröhre (CRT) 6 Bilddaten,
die von einem CRT-Schnittstellenschaltkreis 7 ausgegeben
werden. Über
eine Tastatur 8 eingegebene Daten werden in die CPU 1 über einen
Tastaturschnittstellenschaltkreis 9 übertragen. Unter der Kontrolle
der CPU 1 druckt ein Drucker 10 von einem Druckerschnittstellenschaltkreis 11 ausgegebenen
Daten aus.
-
Ein
Scanner 12 scannt optisch beispielsweise eine (gedruckte)
Musikpartitur und konvertiert sie in zweiwertige Bilddaten, Graustufenbilddaten
oder Farbbilddaten und kann von jedem gewünschten Typ sein, wie z. B.
ein Flachbettscanner, ein Handscanner oder ein Einzugsscanner. Durch
den Scanner 12 aufgenommene Bilddaten werden in den RAM 3 oder
auf die Festplatte 4 über
einen Scannerschnittstellenschaltkreis 13 eingegeben. Ein
MIDI-Interface-Schaltkreis 14 ist ein Schaltkreis zur Durchführung der Übertragung/Entgegennahme
von MIDI-Daten bzgl. einer externen MIDI-Einrichtung, wie z. B.
einem Tongeneratormodul. Ein Bus 15 verbindet die jeweiligen
Schaltkreise in diesem Erkennungssystem für Musikpartituren, um einen
Austausch unterschiedlicher Daten, Programme, Adressen, etc. zu
ermöglichen.
Zusätzlich
kann eine Zeigereinrichtung wie eine Maus, ein serieller Schnittstellenschaltkreis
wie ein RS232C oder ähnliches
vorgesehen sein.
-
Bei
dieser Struktur, wie in der Folgenden Tabelle 1 gezeigt, werden
Bezugsmuster, die in dem Mustervergleich einzusetzen sind, für jeden
Notenlinienbereich vorbereitet, in dem Eigenschaften zu extrahieren
sind. Wie später
beschrieben, unterscheidet sich der Grad der Eigenschaftsvectordaten
bzgl. dieser Bezugsmuster abhängig
von der Anzahl der Notenliniensektionen. Tabelle
1
-
2 ist
eine Flowchart, der den Hauptprozess der CPU 1 zeigt. Bei
Schritt S1 wird das Bild einer Musikpartitur in den RAM 3 durch
den Scanner 12 eingegeben. Das Bild wird als zweiwertige
Bilddaten eingegeben. Bei Schritt S2 werden die Notenlinien in dem
eingegebenen zweiwertigen Bild der Musikpartitur erfasst. Bei Schritt
S3 wird eine Neigungskorrektur ausgeführt, basierend auf einer Abweichung
von jeder der fünf
Linien relativ zur horizontalen Linie. Zu diesem Zeitpunkt werden
die Positionen der Notenlinien (beispielsweise der 5. Linie L0,
der vierten Linie L1 ..., der fünften
Linie L4) als L(5) gespeichert und Notenlinienbreiten (Breiten der
jeweiligen Linien der Notenlinien) werden als Lth gespeichert.
-
Eine
Abfolge der Erkennung eines Zeichens ist derart, daß die Erkennung
von einem Extraktionsbereich ausgeht, in dem die Erkennungsgenauigkeit
so hoch wie möglich
ist (geordnet nach breiteren Extraktionsbereichen). Die Originalbilder
in dem Rahmen, die erfolgreich erkannt worden sind, werden in der
Abfolge gelöscht.
Vor der Durchführung
einer derartigen Erkennung muß die
Rahmenextraktion durchgeführt
werden. In dieser Struktur wird sie in der folgenden Weise durchgeführt. Bei
Schritt S4 werden Projektionen (Projektionsmengen) auf die Querachse
von einer Notenlinienstartposition xs zu einer Notenlinienendposition
xe bezüglich
der vier Notenlinienbereiche (korrespondierend zu einem Höhenbereich
y1-y2 in Anspruch 1 oder 2) abgeleitet, umgeben durch die Notenlinienpositionen
L(5) von L0 bis L4, gezeigt in den 3 und 4,
und als P(4)(x) gespeichert.
-
Wenn
Zeichen (Schlüssel,
Abkürzungen,
ein Teil von Zeitangaben) in den vorhergehenden Notenlinienbereichen
umgeben durch L0 bis L4 erkannt werden, fügt der Schritt S5 die Projektionsdaten
von allen vier Notenlinienbereichen zusammen, um P'(x) abzuleiten und
setzt einen Projektionssegmentierungsschwellwert thr1 und einen
Segmentierungsobjektbreitenschwellwert thr2 aus den Notenlinienbreiten
(thr2=Lth).
-
Bei
Schritt S6 werden die Projektionen von x=0 gescannt. Bei Schritt
S7 wird x, welches P'(x)>thr1 ergibt, auf x1
gesetzt und x, das zu P'(x)<thr1 führt, wird
auf x2 gesetzt. Wenn dann x2–x1>thr2 ist, wird ein Rechteck,
umgeben durch x1, x2, L0 und L4 als rechteckiger Rahmen gesetzt
(in 3 repräsentieren
mit einem Netz überzogene
Bereiche segmentierter Rahmen). Der vorhergehende Prozess wird bis
zu den Notenlinienendpositionen durchgeführt, so daß die Rahmengebung beendet
ist. Zu diesem Zeitpunkt wird die Rahmenkoppelung durchgeführt, da
es möglich
ist, daß der
F-Schlüssel
nicht präzise
extrahiert werden kann, wenn die Positionen der aneinandergrenzenten
Rahmen nah beieinander liegen (es kann auch vorgesehen sein, daß nachdem
die Zeichenerkennung in diesem Projektionsbereich beendet ist, nur
die verweigerten Rahmen einer Koppelung unterworfen werden, um die
Erkennung mit einem gekoppelten Rahmen wiederholt durchzuführen).
-
Bei
Schritt S8, wie in 4 gezeigt, wird ein Rahmenbild
aus dem vorhergehenden Rahmenrechteck extrahiert, so daß Positionen
korrespondierend zu den Notenlinienpositionen L(5) auf dem Originalbild
als Koordinatenwerte L'(5)
auf dem Rahmenbild gesetzt werden.
-
Bei
Schritt S9, wie in 4 gezeigt, werden Bereiche,
in denen periphere Eigenschaften abgeleitet werden, bezüglich der
vier durch L'(5)
gebildeten Sektionen gesetzt, so daß sie jeweils von [L'(n) + Lth/2] bis [L'(n+1) – Lth/2]
definiert sind. Versetzungen von Lth/2 sind vorgesehen, was es den
Eigenschaftsableitungsbereichen ermöglicht, ohne Einfluß durch
die Notenlinien zu sein.
-
Bei
Schritt S10 werden die peripheren Eigenschaften für jeden
der vorhergehenden Sektionen von den linken und rechten Enden derselben
jeweils bis zum dritten Grad abgeleitet. Wie in 4 gezeigt,
erzielt man die peripheren Daten durch die Durchführung eines
Querscannens von den linken und rechten Enden zu den gegenüberliegenden
Enden, um die Längen
der Scannlinien bis zum dritten Grad abzuleiten (erstgradig peripher,
zweitgradig peripher, drittgradig peripher) an Punkten, an denen
weiße
Pixel zu schwarzen Pixel werden. Die peripheren Daten werden für alle Sektionen
abgeleitet und gespeichert.
-
Bei
Schritt S11, wie in 5 gezeigt, werden vier Gitterbereiche
in jeder Sektion gesetzt. Die Gitterbereiche werden gesetzt, so
das sie sich mit den angrenzenden Gitterbereichen über die
Hälfte
der Gitterbreite überlappen.
Die Anzahl der Gittersektionen ist 16 an jedem der linken und rechten
Enden und daher insgesamt 32.
-
Puffer
zur Speicherung der Eigenschaftsmengen in jedem der Gitter werden
auf V(d)(n) (d: peripherer Grad, n: Gitter) gesetzt. Bei Schritt
S12 werden die peripheren Daten der vorhergehenden Gitterbereiche
pro Grad als Durchschnitt gebildet und die so erzielten Werte werden
in den Puffern gespeichert.
-
Bei
Schritt S13, werden die so erzielten 3 × 32 = 96 Grad Eigenschaftsmengen
einem Mustervergleich mit den vorhergehenden Referenzmustern unterzogen
[Refferenzmuster für
Zeichen bzgl. der Eigenschaftssektionen, d. h. die Notenliniensektionen
umgeben durch L0 bis L4], vorhergehend durch einen entsprechenden
Prozeß vorbereitet.
Ein Vergleichsverfahren bei diesem Vergleich ist ein Vergleichsverfahren
bei dem Variationen der Eigenschaftsmengen unter Berücksichtigung
von Fehlern in Querrichtung der Projektionssegmentierung gewichtet
werden.
-
Eine
Erkennung für
die anderen Notenliniensektionen wird entsprechend zu der Obigen
durchgeführt. In
diesem Falle ergibt sich der Grad der extrahierten Eigenschaftsmengen
durch (die Anzahl der Notenliniensektionen) x2 (von links nach rechts)
x4 (die Anzahl der Gitter in jeder Sektion) x3 (peripherer Grad).
-
Bei
dem Rahmenextraktionsverfahren dieser Struktur können die Projektionen, begrenzt
auf den Bereich der gegebenen Sektionen, gesetzt pro Zeichen der
Notenliniensektionen (beispielsweise der Sektionen L0 bis L4 im
Falle eines G-Schlüssels,
wie in 4 gezeigt) zur akkuraten Bestimmung der Querposition
des extrahierten Rahmen verwendet werden. Darüber hinaus, da die Eigenschaftsextraktionspositionen
und die Gittersektionen (die Postitionen der Notenlinien selbst
sind nicht in den Gittersektionen enthalten) ebenfalls auf den Notenlinienpositionen
basieren, ist eine erzielte Eigenschaftsverteilung korrekt bezüglich den
Notenlinienpositionen, so daß die
konsistenten Eigenschaften bezüglich
eines Zeichens erzielt werden können,
dessen Höhenpositionen
durch die Notenlinien bestimmt ist. In der vorhergehenden Weise
können
die Zeichen, die eine fixierte Position auf den Notenlinien haben
oder die Notenlinien in einem Gitter in dem Bild der Musikpartitur
wie in Tabelle 1 gezeigt haben, erkannt werden.
-
(Ausführungsform 2)
-
Der
Mustervergleich zwischen den Projektionsdaten in dem segmentierten
Bereich der Rahmensegmentierung basierend auf den Projektionen in
der vorhergehenden Ausführungsform,
sowie Referenzprojektionsdaten, vorbereitet durch den entsprechenden
Prozeß,
werden eingesetzt als Vorvergleichsprozeß des Mustervergleiches unter
Verwendung der vorhergehenden peripheren Eigenschaften. Wenn der Übereinstimmungsgrad
in dem Vorvergleichsprozeß gering
ist, werden die Schritte S8 und die folgenden Schritte vermieden,
um den Erkennungsprozeß schneller
zu machen. Wenn der Übereinstimmungsgrad
in dem Vorvergleich einen Referenzwert befriedigt, wird der Mustervergleich
einschl. dieses Vergleichsgrades bei Schritt S13 durchgeführt, um
die Erkennungsgenauigkeit zu erhöhen.
-
(Ausführungsform 3)
-
Obwohl
die peripheren Daten in der Querrichtung als Eigenschaft zur Verwendung
in dem Mustervergleich eingesetzt werden, werden die peripheren
Daten in Höhenrichtung
zu den vorhergehenden Eigenschaften hinzugefügt, zur Verbesserung der Erkennungsgenauigkeit.
-
Als
periphere Daten in der Höhenrichtung
werden gescannt Daten bis zum dritten Grad von oberen und unteren
Seiten (korrespondierend zu gegebenen Notenlinienpositionen) der
Extraktionssektionen verwendet. Da die Rahmensegmentierung basierend
auf den Projektionen Fehler der Rahmenrechtecke in Querrichtung
einschließen,
wenn die Eigenschaftsextraktionspositionen basierend auf den Querrichtungen
der Rahmenrechtecke gesetzt sind, ist es möglich, daß die Erkennung nicht befriedigend
durchgeführt
werden kann. Im Hinblick hierauf wird eine Querposition, in der
ein positiver Peak der Projektionsdaten im Bereich des segmentierten
Rechteckes erzielt wird, auf xpm gesetzt, während eine Querposition, in
der ein negativer Peak desselben erzielt wird, auf xpf gesetzt wird
und, durch Verwendung der peripheren Daten in den Sektionen, die
die jeweiligen Positionen in ihrer Mitte haben, können die
Zeicheneigenschaften, die frei von einem Einfluß des Querfehlers des Rahmenrechteckes
sind, extraiert werden.
-
(Ausführungsform 4)
-
Bei
dem herkömmlichen
Erkennungsverfahren, nachdem individuelle Vorzeichen, wie z. B.
ein b, erkannt worden sind, wird ein Schlüsselvorzeichen im Lichte der
Beziehung der jeweiligen Positionen derselben erkannt. Da diese
positional Beziehung jedoch nicht präzise erkannt werden kann, ist
die Erkennung eines Schlüsselvorzeichens
als schwierig angesehen worden. Bei der Struktur der vorliegenden
Erfindung, wie in 3 gezeigt, kann die Erkennung
eines derartigen Schlüsselvorzeichens
oder etwas Ähnlichem
unter Verwendung des vorhergehenden Verfahren erreicht werden, da
die Schlüsselvorzeichen
in einem Stück
durchgeführt
werden (ein Beispiel gezeigt durch drei b-Vorzeichen in der Figur).
-
(Ausführungsform 5)
-
Bezüglich eines
Textes, der fest auf einer Linie angeordnet ist, kann der Text gemäß der vorhergehenden
Struktur der vorliegenden Erfindung erkannt werden, unter Verwendung
der Linienpositionen an Stelle der Notenlinienpositionen.
-
Nach
Maßgabe
der Struktur der vorliegenden Erfindung wie oben im Detail beschrieben,
werden die gegebenen Sektionen der vier Sektionen, definiert durch
die Notenlinien, bezüglich
des Höhenbereiches
gesetzt, während
der Querbereich durch Verwendung der Projektionen auf die Querachse
in den vorhergehenden Höhensektionen
abgeleitet wird. Daher kann die Rahmenextraktion ohne Löschen der
Notenlinien durchgeführt
werden. In den so abgeleiteten Rahmen sind die Höhenpositionen die Positionen
der Notenlinien selbst, so daß keine
Fehler hervorgerufen durch die Extraktion der Rahmen entstehen.
Andererseits können die
Fehler der Querpositionen in Fehler relativ zu den Referenzmustern
konvertiert werden, sogar bei der Rahmenextraktion gemäß der Projektionssegmentierung
an den Querpositionen, wobei Fehler auf einem gewissen Niveau berücksichtigt
werden, da der Mustervergleich unter Verwendung der peripheren Eigenschaften von
den linken und rechten Enden durchgeführt wird. Darüber hinaus
werden die Sektionen, in denen die peripheren Eigenschaften abgeleitet
werden, als diejenigen Sektionen gewählt, die frei von Einflüssen durch
die Notenlinien sind, wobei jede Sektion in Gitter unterteilt ist,
die sich gegenseitig teilweise überlappen
und der Durchschnitt in jedem Gitter wird auf die Eigenschaftsmenge
gesetzt. Auf diese Weise kann die Eigenschaftsmenge frei von einem
Einfluß durch
Deformation, Abnutzung, Verschmutzung oder Versatz des Bildes gehalten
werden.
-
Industrielle
Anwendbarkeit
-
Wie
oben beschrieben sind die Strukturen des Erkennungsverfahrens für Musikpartituren
und das computerlesbare Speichermedium, das das Programm zu Erkennung
von Musikpartituren speichert, nützlich für einen
Fall in dem eine Musikpartitur mechanisch erkannt wird und insbesondere
geeignet für
einen Fall, in dem Daten für
eine Karaoke-Vorführung mit
einer Musikpartitur vorbereitet werden, oder einem Fall, wo eine manuelle
Vorführung
teilweise durch ein mechanische Vorführung bei einer Studioaufnahme
oder einer Live-Performance ersetzt wird.