JP3607065B2 - Music score recognition method and computer readable recording medium having recorded music score recognition program - Google Patents

Music score recognition method and computer readable recording medium having recorded music score recognition program Download PDF

Info

Publication number
JP3607065B2
JP3607065B2 JP36687897A JP36687897A JP3607065B2 JP 3607065 B2 JP3607065 B2 JP 3607065B2 JP 36687897 A JP36687897 A JP 36687897A JP 36687897 A JP36687897 A JP 36687897A JP 3607065 B2 JP3607065 B2 JP 3607065B2
Authority
JP
Japan
Prior art keywords
score
image
threshold
threshold value
staff
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36687897A
Other languages
Japanese (ja)
Other versions
JPH11194762A (en
Inventor
誠至 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kawai Musical Instrument Manufacturing Co Ltd
Original Assignee
Kawai Musical Instrument Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kawai Musical Instrument Manufacturing Co Ltd filed Critical Kawai Musical Instrument Manufacturing Co Ltd
Priority to JP36687897A priority Critical patent/JP3607065B2/en
Priority to US09/380,225 priority patent/US6580805B1/en
Priority to PCT/JP1998/002895 priority patent/WO1999034352A1/en
Publication of JPH11194762A publication Critical patent/JPH11194762A/en
Application granted granted Critical
Publication of JP3607065B2 publication Critical patent/JP3607065B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/30Character recognition based on the type of data
    • G06V30/304Music notations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Character Discrimination (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、楽譜認識方法及び楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
画像をスキャナ等で入力してこれらに含まれる文字や記号を認識させるには、認識率に重大な影響を及ぼす原稿の傾きの調整等と共に、取り込む画像の解像度を調整することが行われ、更に2値化画像の取り込みの場合は、2値化しきい値の設定を行って、2値画像の判定を行う必要がある。
【0003】
【発明が解決しようとする課題】
原稿の傾きや取り込み解像度については、最適な状態にすることは比較的容易であるが、2値化しきい値については、認識アルゴリズムに依存する部分なので、認識アルゴリズムが知らされていない場合には、最適な値への設定が難しい。また表示の解像度によっては、2値化の状態を充分に目視でチェックできない場合も多い。
従って手動で設定した2値化のしきい値が適当でないために、認識性能が充分に引き出せないということが多い。
更に認識が行われた後、認識率の低い原因が2値化しきい値であることが判明した場合、もう一度画像の取り込みからやり直すと、結局処理工数が増え、処理に時間が掛かるといった問題を生ずる。
【0004】
本発明は従来技術の以上のような問題に鑑み創案されたもので、認識率に重大な影響を及ぼす画像2値化のしきい値設定を、認識に最適な値に自動で設定することができる構成を提供せんとするものである。
【0005】
【課題を解決するための手段】
そのため本願請求項1の構成は、楽譜情報読込手段と、しきい値設定手段と、画像取込手段とを有して実行され、楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識方法において、上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、同じくしきい値設定手段により、2値化された楽譜イメージの五線間隔に対する五線線幅の割合を求め、その割合から画像状態を判定し、これにより次の2値化しきい値を算出設定し、このしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域から最終的なしきい値を求めるステップと、該しきい値設定手段により、最終的に計算設定されたしきい値で前記読み取った楽譜イメージを2値化するステップと、上記画像取込手段により、この2値化された楽譜イメージから音楽記号を認識するステップとを実行することを基本的特徴としている。
請求項3の構成は、上記手順を、記録媒体として提供するものであって、その具体的構成は、楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識プログラムを記憶したコンピュータ読み取り可能な記録媒体であって、該プログラムの実行により、楽譜情報読込手段と、しきい値設定手段と、画像取込手段とが該コンピュータ上に実現され、上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、同じくしきい値設定手段により、2値化された楽譜イメージの五線間隔に対する五線線幅の割合を求め、その割合から画像状態を判定し、これにより次の2値化しきい値を算出設定し、このしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域から最終的なしきい値を求めるステップと、該しきい値設定手段により、最終的に計算設定されたしきい値で前記読み取った楽譜イメージを2値化するステップと、上記画像取込手段により、この2値化された楽譜イメージから音楽記号を認識するステップとを実行させるための楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0006】
これらの構成では、2値化しきい値の設定を楽譜情報に基づいて行う際、そのしきい値が適当か否かを判断するために5線の認識プロセスを含んでおり、そのため、操作者の試行錯誤による設定が必要なくなり、自動的に最適なしきい値に設定され、認識がなされる。それによって全体的な認識率の向上も図れることになる。その場合、上記5線認識プロセスにおいて利用される楽譜情報として、図1に示すように、五線間隔Hと五線の線幅tを求め、この割合が最適になるしきい値を検出すると良い。その理由を以下に説明する。2値化しきい値が替わると2値画像の濃さが変わり、線の太さが変わる。よって、2値化しきい値によって、楽譜画像の五線の線幅が変化する。様々な楽譜を階調画像として取り込み、これを様々なしきい値で2値化し、最も高い認識率が得られるものに対して、五線の線幅を五線間隔によって正規化した値(五線間隔に対する五線の線幅の割合)が略一定の値をとる場合、この値に近づくように2値化しきい値を設定すれば、略妥当な認識率で2値楽譜画像を作成することができる。解像度等によって、最適なしきい値における五線間隔に対する五線の線幅の割合が変化する場合(解像度が低いと、五線間隔に対する五線の線幅の割合が高い方が認識率が高く、逆に解像度が高いと、その反対となるような場合)には、五線間隔に対して、線形関数やテーブル変換などにより、目標値を変えるようにすれば良い。
【0007】
更に五線の線幅や間隔が段落毎或いはパート毎に違う等の場合には、単に五線の間隔と五線の線幅を求めただけでは、結局適切なしきい値の設定はできないことになる。そこで請求項2の構成は、画像を複数のブロックに分割(例えば段落毎やパート毎、或いは五線毎に、更には横方向に分割)し、各ブロック毎に、楽譜情報を用いて2値化しきい値の設定を行い、楽譜イメージを2値化画像として取り込む構成としている。すなわち、楽譜情報読込手段と、しきい値設定手段と、画像取込手段とを有して実行され、楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識方法において、上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、同じくしきい値設定手段により、2値化された楽譜イメージを複数ブロックに分割し、分割された楽譜イメージを、ブロック毎に所定の2値化しきい値により2値化し、2値化された楽譜イメージの五線間隔に対する五線線幅の割合をブロック毎に求め、その割合から画像状態を判定し、これにより次の2値化しきい値をブロック毎に算出設定し、そのしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域からブロック毎に最終的なしきい値を求めるステップと、該しきい値設定手段により、ブロック毎に最終的に計算設定されたしきい値で前記読み取った楽譜イメージをブロック毎に2値化するステップと、上記画像取込手段により、このブロック毎に異なる2値化しきい値で2値化された楽譜イメージから音楽記号を認識するステップとを実行することを特徴としている。
【0008】
同様に請求項4の構成は、上記手順を、楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体として提供するものであって、その具体的構成は、楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識プログラムを記憶したコンピュータ読み取り可能な記録媒体であって、該プログラムの実行により、楽譜情報読込手段と、しきい値設定手段と、画像取込手段とが該コンピュータ上に実現され、上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、同じくしきい値設定手段により、2値化された楽譜イメージを複数ブロックに分割し、分割された楽譜イメージを、ブロック毎に所定の2値化しきい値により2値化し、2値化された楽譜イメージの五線間隔に対する五線線幅の割合をブロック毎に求め、その割合から画像状態を判定し、これにより次の2値化しきい値をブロック毎に算出設定し、そのしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域からブロック毎に最終的なしきい値を求めるステップと、該しきい値設定手段により、ブロック毎に最終的に計算設定されたしきい値で前記読み取った楽譜イメージをブロック毎に2値化するステップと、上記画像取込手段により、このブロック毎に異なる2値化しきい値で2値化された楽譜イメージから音楽記号を認識するステップとを実行させるための楽譜認識プログラムを、上記記録媒体に含む構成である。この構成の場合も、前記楽譜情報として、五線間隔と五線の線幅が適していることは言うまでもない。
【0009】
【発明の実施の形態】
(実施例1)
以下本発明の一実施形態を添付図面に基づき説明する。図2は本発明の請求項4に係る楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体を後述するフレキシブルディスクドライブFDD5等の外部記憶装置(或いはCD−ROMドライブ等)で読み込ませて稼動する楽譜認識装置の実施例構成を示すブロック図である。この装置は、パソコンなどの電子計算機の構成に、スキャナやMIDIインターフェース回路を付加したものである。CPU1は、ROM2或いはRAM3に格納されるプログラムに基づき、楽譜認識装置全体の制御を行う中央演算処理装置である。また予め設定された所定の周期でCPU1に割り込みをかけるタイマ回路を内蔵している。RAM3はプログラムエリアの他、画像データバッファ、ワークエリア等として使用される。ハードディスク装置HDD4及びフレキシブルディスクドライブFDD5は、プログラム及び画像データ、演奏データ等を格納する。CRT6はCPU1の制御に基づき、CRTインターフェース回路7から出力される映像情報を表示し、キーボード8から入力された情報は、キーボードインターフェース回路9を経てCPU1に取り込まれる。プリンタ10は、CPU1の制御に基づき、プリンタインターフェース回路11から出力される印字情報を印字する。
【0010】
スキャナ12は、例えば(印刷された)楽譜を光学的に走査して、グレースケール或いはカラーの画像を単色階調付データに変換するもの(但し2値画像も取り込める)であり、フラットベッド型、ハンディ型、フィーダ型等任意のタイプのスキャナを使用できる。スキャナ12によって読み取られた画像情報は、スキャナインターフェース回路13を介して、RAM3或いはHDD4に取り込まれる。MIDIインターフェース回路14は、音源モジュール等の外部のMIDI機器との間でMIDIデータの送受信を行う回路である。バス15は、本楽譜認識装置内の各回路を接続し、各種データ、プログラム、アドレス等をやり取りさせている。なお、この他にマウスなどのポインティングデバイスやRS232C等のシリアルインターフェース回路等を備えていても良い。
【0011】
図3はCPU1のメイン処理を示すフローチャートである。ステップSIにおいては、スキャナ12によって楽譜のイメージ(この中には五線の線幅及び五線間隔も楽譜情報として取り込まれる)をRAM3に取り込む。画像は単色階調付イメージとして取り込む。もちろんそのような形式でハードディスク等に保存されたイメージファイルを読み込んでも良い。カラー画像の場合には、その画像形式に応じた処理によって、単色階調付画像に変換することができる。スキャナから取り込んだりファイルとして読み込んだ画像が2値画像であった場合には、自動2値化はできないので、そのまま認識するか、自動2値化を行うために階調付画像として取り込みをやり直す。楽譜イメージを取り込んだRAM3の記憶容量が足りない場合には、画像を部分的にRAM3に格納した上で、順次処理することもできる。尚、本構成では1画素8ビット256階調で取り込んでいるが、このビット数に限定されるわけではない。また階調は、数値の大きいものが白、数値の小さいものが黒として、以下説明される。
【0012】
ステップSIIにおいて、自動2値化処理(しきい値設定処理)が行われる。この自動2値化処理については、後述する。そしてステップSIIIにおいて、2値化画像取り込みが行われ、設定された2値化しきい値に基づいて、楽譜イメージを2値化画像として取り込む。
【0013】
図4は、上記自動2値化処理のメイン処理ステップを示している。まずステップS1において、2分法によるしきい値(thres)の検出を行う。256段階全てで五線の線幅と五線間隔を検出し、目標のしきい値を求めても良いが、実行速度に問題が出てきてしまうので、2分法で最適しきい値を求めることにした。この処理については、後述する。
【0014】
前述のように、256階調であれば、2分法のループ8回程度で目的のしきい値が得られる。しかし、本実施形態では、五線間隔及び五線の線幅を整数で求めているため、五線間隔に対する五線の線幅の割合が段階的に変化しており、8回未満で目的のしきい値を検出できる場合もある。この状態で自動2値化のしきい値検出処理を終了しても良いが、目的の割合と同値の帯域が広い場合は、しきい値をその帯域の中点とした方が、より正確なしきい値を得ることができる。そこで、ステップS3において、割合が目標値と同じ値になる帯域が存在する場合には、その帯域の上限と下限を求め、その中点をしきい値(thres)とするようにした。ステップS2は、その際、割合が目標値と同じ値になる帯域が存在するか否かを判断するために行われる処理であり、しきい値判定処理の結果(ret)の値がしきい値判定終了コード[T_OK(目的の割合DEST_PERと等しい値となった場合の値)]になったか否かが判定される。ステップS3は、上述のように、帯域の上限と下限を求め、その中点をしきい値(thres)とする処理である。即ちステップS30において、帯域上限(thres2)を検出し、ステップS31において、帯域下限(thres3)を検出して、ステップS32において、この上限(thres2)と下限(thres3)の中点を求め、しきい値(thres)として設定する。この上限及び下限の検出についても、後述するように、2分法によって行うことができる。尚、五線の線幅及び五線間隔を実数で検出する等して、割合が充分連続的に変化するようにすれば、帯域の上限及び下限の検出処理は不要となる。この後、上述したように、ステップSIIIにおいて、2値化画像取り込みが行われ、設定された2値化しきい値に基づいて、楽譜イメージが2値化画像として取り込まれる。
【0015】
図5は、上記ステップS1における2分法によるしきい値(thres)の検出手順を示している。ステップS100において、初期設定を行う。即ち最大しきい値(thresMax)に階調最大値255を、また最小しきい値(thresMin)に階調最小値0をセットし、更に2分法によるしきい値検出処理ループの繰り返し回数をカウントするカウンタ(ct)に256をセットすると共に、しきい値判定処理結果の最大値(retMax)及び同結果の最小値(retMin)に、五線間隔・五線の線幅が検出できなかったことを示すT_NOTをセットする。
【0016】
次にステップS101において、前記thresMaxとthresMinの中間の値をしきい値(thres)とする。ステップS102において、このしきい値(thres)の後述する判定処理を行ってその結果をretとする。その判定処理結果とは、後述するように、T_OK(しきい値が目的の割合DEST_PERと等しい値と判定された場合の出力結果)、T_THIN(しきい値が目的の割合DEST_PERより小さい値と判定された場合、即ち五線の線幅が細いと判定された場合の出力結果)、T_THICK(しきい値が目的の割合DEST_PERより大きい値と判定された場合、即ち五線の線幅が太いと判定された場合の出力結果)、T_NOT(五線間隔、五線の線幅が検出できないと判断された場合の出力結果)がある。
【0017】
ステップS103において、上記判定処理結果(ret)がT_NOTであるか否かが判断され、T_NOTでないと判断された場合、即ち五線間隔及び五線の線幅が検出できる場合は、ステップS104に移行して、上記判定処理結果(ret)がT_OKか否かが判定される。この処理結果(ret)がT_OKならば、ループから抜け出し、2分法によるしきい値の検出処理を終了する(即ち図4のステップS2における判定がYESとなり、ステップS3の処理に移る)。他方、該処理結果(ret)がT_OKでないならば、ステップS105に移行し、該処理結果(ret)がT_THICKか否かが判定される。この処理結果がT_THICKならば(五線の線幅が太い場合)、ステップS107において、しきい値(thres)を最大しきい値(thresMax)とし、ステップS101の計算式においてしきい値を再計算する際に、最大しきい値(thresMax)をより小さい側に変更できるようにする(五線の線幅が細い側寄りになるようにしきい値を設定し直す)。一方前記処理結果がT_THICKでないならば(五線の線幅が細い場合)、ステップS106において、しきい値(thres)を最小しきい値(thresMin)とし、ステップS101の計算式においてしきい値を再計算する際に、最小しきい値(thresMin)をより大きい側に変更できるようにする(五線の線幅が太い側寄りになるようにしきい値を設定し直す)。
【0018】
ステップS103において、上記判定処理結果(ret)がT_NOTであると判断された場合、即ち五線間隔及び五線の線幅が検出できない場合は、しきい値が濃い側或いは薄い側のどちらに振れているかを、ステップS109以下のしきい値オーバーフローチェックで判定し、これに基づいて2分法の処理を行う。但ししきい値オーバーフローチェックは処理コストの高い処理になるので、両端のしきい値判定結果を、同結果の最小値(retMin)及びその最大値(retMax)として保存しておく。そしてステップS108で、retMax並びにretMinがT_NOTか否かが判定され、両方がT_NOTの場合、ステップS109でしきい値のオーバーフローチェックがなされる。そしてステップS110において、しきい値が濃い側或いは薄い側のどちらに振れているかが判定され、黒側にオーバーフローしている場合は、ステップS112において、しきい値(thres)をその最大値(thresMax)にセットし、しきい値判定結果の最大値(retMax)がT_NOTとなる。逆に白側にオーバーフローしている場合は、ステップS111において、しきい値(thres)をその最小値(thresMin)にセットし、しきい値判定結果の最小値(retMin)がT_NOTとなる。
【0019】
上記のステップS108において、retMax或いはretMinのうちの一方がT_NOTでないと判定された場合は、ステップS113以下でT_NOTでない側に近づくように2分法処理を行うことで、しきい値オーバーフローチェックの呼び出し回数を減らすことができる。該ステップS113において、retMaxとretMinのどちらがT_NOTでないかが判定され、retMaxがT_NOTでない場合はステップS114で、しきい値(thres)をその最小値(thresMin)にセットし、しきい値判定結果の最小値(retMin)がT_NOTとなる。retMinがT_NOTでない場合はステップS115で、しきい値(thres)をその最大値(thresMax)にセットし、しきい値判定結果の最大値(retMax)がT_NOTとなる。
【0020】
しきい値判定結果(ret)がT_OKの場合以外は、ステップS117でカウンタ(ct)の数を半分に減らして、以上の処理をカウンタ(ct)の数が1になる(ステップS116)までループで繰り返す。このように、開始帯域をthresMinからthresMaxとし、2分法により、領域を狭めていき、最後に判定された結果が、2値化しきい値(thres)となる(参照ステップS1)。
【0021】
以上のようにして2値化しきい値が検出された後、上述のように、ステップS2において、しきい値判定がret=T_OKで終了した場合には、ステップS3で、T_OKの帯域のどこをしきい値とするか決定する必要がある。図6はそのような決定を行う場合の、ステップS30における帯域上限(thres2)の検出手順を示している。
【0022】
まずステップS300において、初期設定を行う。即ち上記の最大しきい値(thresMax)をそのまま本処理における最大しきい値(thresMax2)とし、また上記処理によって求められたしきい値(thres)を本処理における最小しきい値(thresMin2)としてセットすると共に、2分法によるしきい値検出処理ループの繰り返し回数をカウントするカウンタ(ct)に上記最大しきい値(thresMax2)から最小しきい値(thresMin2)を引いた値+1をセットする。
【0023】
次にステップS301において、前記thresMax2とthresMin2の中間の値をしきい値(thres2)とする。ステップS302において、このしきい値(thres2)の後述する判定処理を行ってその結果をretとする。その判定処理結果とは、後述するように、T_OK(しきい値が目的の割合DEST_PERと等しい値と判定された場合の出力結果)、T_THIN(しきい値が目的の割合DEST_PERより小さい値と判定された場合、即ち五線の線幅が細いと判定された場合の出力結果)、T_THICK(しきい値が目的の割合DEST_PERより大きい値と判定された場合、即ち五線の線幅が太いと判定された場合の出力結果)、T_NOT(五線間隔、五線の線幅が検出できないと判断された場合の出力結果)がある。
【0024】
ステップS303において、上記判定結果(ret)がT_OKであるか否かが判断され、T_OKであると判断された場合、即ち判定結果(ret)が目的の割合(DEST_PER)と等しい値になった場合は、ステップS305で、前記しきい値(thres2)の値を最小しきい値(thresMin2)としてセットする。ステップS303において、上記判定結果(ret)がT_OKでないと判断された場合は、しきい値(thres2)の値を最大しきい値(thresMax2)としてセットする。その後ステップS307でカウンタ(ct)の数を半分に減らして、以上の処理をカウンタ(ct)の数が1になる(ステップS306)までループで繰り返す。このように、五線の線幅の五線間隔に対する割合が或る帯域を持った場合の帯域上限の検出フローは、thres=T_OKとなった時点での、thresからthresMaxまでを2分法で検索し、T_OKである領域とそうでない領域の境界を検出する。即ち開始帯域をthresMin2からthresMax2とし、2分法により、領域を狭めていく。最後に判定された結果が、thres2となる(参照ステップS30)。
【0025】
ステップS31の帯域の下限の検出も同様のフローで行い、下限の結果はthres3となる。これについては、thresからthresMinまでを2分法で検索し、T_OKである領域とそうでない領域の境界を検出することになり、処理手順は上記帯域の上限の検出と同様になるので、省略する。そして、上述のように、ステップS32において、以上のようにして求められたthres2とthres3の中点をしきい値(thres)とする。
【0026】
図7は図5のステップS102及び図6のステップS302におけるしきい値判定の処理フローを示している。まずステップS1020において、五線間隔(blank)及び五線の線幅(thick)の検出を行う。即ち図8に示すように、楽譜を縦方向に走査し、上記しきい値(thres、thres2、thres3)より値が大きいか小さいかで背景と図を分離し、図9に示すように、背景及び図の夫々のラン長のヒストグラムを作成する。そして背景、図、夫々のヒストグラムの最大値を持つ添字、或いは最大値を持つ添字付近の或る帯域の値の重心位置を、五線間隔(blank)及び五線の線幅(thick)とする。実際は上記blankは、背景のラン長であるので、五線間隔に対する五線の線幅の割合を計算する際には、五線間隔として、(blank+thick)を充当する(blankの両端にthick/2を足したものとする)。また画像の縦方向の走査は、横座標Xの全ての位置において行う必要はない。処理速度の向上のため、図10に示すように、或る間隔をおいて行えば良い。
【0027】
この検出時点でblank=0となった場合(ステップS1021)、五線間隔の検出に失敗している(真っ黒か真っ白の何れかで検出できない)ので、ステップS1028で判定結果(ret)をT_NOTとして処理を終了する。五線間隔や五線の線幅の検出失敗は、この他にも、thick=0の場合やthick>blankとなった場合や、thickやblankが或る範囲を超えた場合を追加しても良い。
【0028】
この判定後ステップS1022において、五線間隔(blank+thick)に対する五線の線幅(thick)の割合(per)を求める。もちろんより正確な値を得たり、認識率との対応をより良好にしたりするために、フローとは異なる数式により上記割合(per)を求めても良い。次にステップS1023において、この割合(per)が目的の割合(DEST_PER)と等しいか否かが判定され、等しいと判定された場合は、ステップS1027において、判定結果(ret)を、T_OKとし、ステップS1024において、それより大きいと判定された場合は、ステップS1025において、判定結果(ret)を、T_THICKとし、更にそれより小さいと判定された場合は、ステップS1026において、判定結果(ret)を、T_THINとして判定を終了する。
【0029】
図5におけるステップS109のしきい値オーバーフローチェックとは、そのしきい値で2値化した場合、略真っ黒或いは真っ白になる状態を判定することを言う。よってそのチェックは、画素の値がしきい値より大きいものと小さいものをカウントし、この数を判定すれば良い。もちろん画像全ての画素を計測する必要はなく、前記五線間隔や五線の線幅検出時のX位置でチェックすれば良い。正確さは要求されないので、高速化のために、更にX位置を削減しても良い。オーバーフローチェック時は、黒か白どちらかにオーバーフローしているとして、黒のカウント数がチェック画素数(オーバーフローチェックを行うX位置での画素合計)の半分以上になった時点で黒にオーバーフローしたと判定して処理を終了し、黒のカウント数がチェック画素数の半分に満たなかった場合には白にオーバーフローしたと判定しても良い。
【0030】
(実施例2)
上記実施例1では、画像全体で検出した五線間隔と五線の線幅をしきい値決定の基準値としているが、これは、五線以外の部分のラン長も反映されたものなので、表題や絵、楽譜の折り目の影等の影響を受け、ヒストグラムの山が正しい五線間隔や五線の線幅よりもずれてしまい、五線の部分のみで検出した場合の五線間隔や五線の線幅とは異なってしまう場合がある。よって一旦大まかなしきい値で2値化した画像について五線認識を行い、その後の2分法のしきい値検出処理を、この五線周辺に限定する。
【0031】
本構成においても、前記実施例と同様にしてRAM3に格納された単色階調付き画像(1画素8ビット形式で格納)を適当な2値化しきい値で2値化する。五線認識は、2値化しきい値にさほど影響を受けないので、単純に仮のしきい値を階調の中央の値とする。このしきい値で五線間隔と五線の線幅の検出を行い、これが五線認識の許容範囲内であれば、このしきい値で五線検出を行う。即ち、五線部分の画像を縦方向に走査して、しきい値より大きいか否かで線部分とブランクの部分とに分け、夫々のヒストグラムを作成する。これらのヒストグラムを元に、五線間隔と五線の線幅の認識を行う。許容範囲内でない場合は、更に2分法により許容範囲になる値を探しても良いが、五線認識を行うのをやめ、前記実施例と同様に、画像全体で五線間隔と五線の線幅の検出を行い、しきい値を設定する方法に切り替えても良い。
【0032】
五線認識は、RAM3中に、階調画像領域とは別に作成した仮の2値化画像に対して行うようにしても良い。即ち、五線部分の画像を縦方向に走査して、0か1かで線部分とブランクの部分とに分け、夫々のヒストグラムを作成する。これらのヒストグラムを元に、五線間隔と五線の線幅の認識を行う。但し、記憶領域削減のために、別の領域を作らず、仮の2値化画像を階調付き画像の最下位ビットに上書きしても良い(256階調程度であれば、最下位ビットの変更はしきい値の検出にあまり影響を与えないため)。
【0033】
また求められた仮の2値化しきい値に基づいて、階調付き画像から直接五線を認識しても良い。更に五線が1本検出できた時点で、その認識処理を終了しても良い。図11に示すように、検出した五線を囲む矩形(点線部分)を設定する。左右端は五線の端点とする。加線は五線よりも少し太い線で書かれることが多く、また加線の間幅も五線より広い場合が多いので、前記矩形の上下は、加線を含まない領域としても良い。
【0034】
上記実施例1と同様な方法で、2値化したしきい値を検出する。但し処理領域を、上記の矩形に限定する。これによってより正確な五線間隔及び五線の線幅が得られ、且つ矩形が小さいため、以降の処理工数は低減される。また五線認識が既に行われているので、この時点で五線間隔は検出されており、2分法処理時には、五線の線幅の検出だけを行うようにすれば、更に高速化できる。
【0035】
本実施例において、仮の2値化のための2値化しきい値の決定を、モード法や微分ヒストグラム等の通常の画像処理方式であるしきい値選択法を用いても良い。また上記しきい値判定領域は、矩形(長方形)ではなく、五線の開始及び終了位置を結んだ平行四辺形領域でも良いし、図12に示すような五線認識で検出された五線ずらし量を考慮した短冊型領域でも良い。更に五線の線幅の検出を正確に行うために、2分法によるしきい値検出時、五線間隔及び五線の線幅の検出だけでなく、最初に検出されている五線に沿って、そのしきい値で2値化された画像の図を上下に走査し、五線であるのが確実な部分のラン長の平均値を取る処理を追加することもできる。
【0036】
(実施例3)
1つの楽譜画像の中で1つの2値化しきい値を決定すれば、殆どの場合それで充分である。しかし、これでは不十分な場合がある。特に顕著な例は、幅が違う五線が存在する場合である。このような時には、同じしきい値で2値化すると、基準とならなかった五線のしきい値が最適値からずれてしまい、認識率が低下する。そのため本実施例では、前記実施例と同様な方法で五線を検出し(全ての五線を検出する)、夫々の五線を囲む矩形を検出する。大かっこの認識も行い、図13(b)に示すように、パート毎の矩形としても良い。これらの矩形はしきい値決定のための矩形であり、この矩形内で、最初の実施例1と同様な手段により、夫々の2値化しきい値を決定する。
【0037】
しきい値決定後の2値化処理は、矩形内はそのしきい値で2値化するが、矩形間は、図13(a)に示されるように、
▲1▼ 上下の矩形領域のしきい値の中間値で2値化した場合に、2つの領域の中点から図が存在しない箇所を探索し、検出された位置で分離する。
▲2▼ 同様に2値化した場合に、図が存在しない領域を求め、最も広い領域にわたっている箇所で分離する。
▲3▼ 2つの矩形領域の中間のしきい値を、様々な方法で補間する。
▲4▼ 2つの矩形領域の真ん中で2つのしきい値の領域を分離する。
等の方法で2値化する。
【0038】
図13は、しきい値決定における2値化の例を示している。そのうち同図(b)は、読み取られた楽譜画像であり、点線の矩形がしきい値決定矩形である。また同図(a)は、決定されたしきい値の状態を示しており、b及びfの区間は、各矩形内で決定されたしきい値が用いられ、a及びcの画像の端の区間は、前記bの区間と同じしきい値が用いられ、eの区間は、前記fの区間と同じしきい値が用いられ、更にdの区間は、2つの領域の各しきい値を線形補間して用いる。
【0039】
またしきい値を変動させることにより、部分的な印刷のかすれ等に対応することもできる。これは、図13のように横方向に1つの矩形だけとする(横方向には同じしきい値)のではなく、複数の矩形に分割することによって、実現可能である。
【0040】
上記しきい値判定領域は、矩形(長方形)ではなく、前述と同様、五線の開始及び終了位置を結んだ平行四辺形領域でも良いし、五線認識で検出された五線ずらし量を考慮した短冊型領域でも良い。
【0041】
【発明の効果】
以上詳述した本発明の構成によれば、楽譜情報を利用して、認識に最適な2値化画像を得ることができ、認識率を向上せしめることが可能となる。また画像スキャン時に最適なしきい値への設定の手間がなくなり、作業効率が改善されることになる。
【図面の簡単な説明】
【図1】五線の線幅と五線間隔を示す説明図である。
【図2】本発明の請求項4に係る楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体を外部記憶装置で読み込ませて稼動する楽譜認識装置の実施例構成を示すブロック図である。
【図3】CPUのメイン処理を示すフローチャートである。
【図4】自動2値化処理のメイン処理ステップを示すフローチャートである。
【図5】2分法によるしきい値の検出手順を示すフローチャートである。
【図6】しきい値判定がT_OKで終了した際T_OKの帯域のどこをしきい値とするか決定する場合の帯域上限の検出手順を示すフローチャートである。
【図7】しきい値判定の処理フローを示すフローチャートである。
【図8】楽譜を縦方向に走査してしきい値より値が大きいか小さいかで背景と図を分離する状態を示す説明図である。
【図9】五線に線幅及び五線間隔の夫々のラン長のヒストグラムを示すグラフである。
【図10】画像の縦方向の走査を或る間隔をおいて行う状態を示す説明図である。
【図11】しきい値判定を行うために設定された五線を囲む矩形の設定状態を示す説明図である。
【図12】しきい値判定領域として設定された短冊型の例を示す説明図である。
【図13】しきい値決定における2値化処理の例を示す説明図である。
【符号の説明】
1 CPU
2 ROM
3 RAM
4 ハードディスク装置
5 フレキシブルディスクドライブ
6 CRT
7 CRTインターフェース回路
8 キーボード
9 キーボードインターフェース回路
10 プリンタ
11 プリンタインターフェース回路
12 スキャナ
13 スキャナインターフェース回路
14 MIDIインターフェース回路
15 バス
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a score recognition method and a computer-readable recording medium on which a score recognition program is recorded.
[0002]
[Prior art]
In order to input characters with a scanner or the like to recognize characters and symbols included in these images, it is necessary to adjust the resolution of the image to be captured, as well as to adjust the inclination of the document that significantly affects the recognition rate. In the case of capturing a binarized image, it is necessary to determine a binary image by setting a binarization threshold value.
[0003]
[Problems to be solved by the invention]
It is relatively easy to make the document tilt and capture resolution optimal, but since the binarization threshold depends on the recognition algorithm, if the recognition algorithm is not known, Setting to the optimal value is difficult. Further, depending on the display resolution, there are many cases where the binarization state cannot be sufficiently visually checked.
Therefore, since the binarization threshold value set manually is not appropriate, the recognition performance cannot often be sufficiently obtained.
Further, after the recognition is performed, if it is found that the cause of the low recognition rate is the binarization threshold value, if the image capture is performed again from the beginning, the processing man-hours increase and the processing takes time. .
[0004]
The present invention was devised in view of the above problems of the prior art, and it is possible to automatically set a threshold value for image binarization that has a significant effect on the recognition rate to a value optimal for recognition. It is intended to provide a possible configuration.
[0005]
[Means for Solving the Problems]
Therefore, the configuration of claim 1 of the present application is executed by including a score information reading means, a threshold setting means, and an image reading means, reading a score, and automatically reading the read score data by computer processing. In a score recognition method for recognizing music symbols and creating data for performance and / or score display, the score information reading means reads the score as a gradation image, and the threshold value setting means reads the score. The score image According to a predetermined binarization threshold A binarization step; Similarly, the threshold setting means obtains the ratio of the staff width to the staff interval of the binarized score image, determines the image state from the ratio, and thereby calculates and sets the next binarization threshold Sequentially changing the threshold value to obtain a final threshold value from a threshold band when the ratio of the staff width to the staff interval becomes a target ratio; and By setting means, finally Basically performing the steps of binarizing the read musical score image with a calculated threshold value and recognizing music symbols from the binarized musical score image by the image capturing means. Characteristic.
The configuration of claim 3 provides the above procedure as a recording medium. The specific configuration reads a score, automatically recognizes a music symbol by computer processing from the read score data, and performs a performance. And / or a computer-readable recording medium storing a score recognition program for creating data for displaying a score, and by executing the program, score information reading means, threshold setting means, and image capture Means is implemented on the computer, the score information reading means reads the score as a gradation image, and the threshold value setting means reads the score image read According to a predetermined binarization threshold A binarization step; Similarly, the threshold setting means obtains the ratio of the staff width to the staff interval of the binarized score image, determines the image state from the ratio, and thereby calculates and sets the next binarization threshold Sequentially changing the threshold value to obtain a final threshold value from a threshold band when the ratio of the staff width to the staff interval becomes a target ratio; and By setting means, finally A score for executing the step of binarizing the read score image with a threshold value calculated and the step of recognizing a musical symbol from the binarized score image by the image capturing means. A computer-readable recording medium having a recognition program recorded thereon.
[0006]
In these configurations, the binarization threshold is set based on the score information. Includes a 5-line recognition process to determine if the threshold is appropriate, Therefore, the setting by the trial and error of the operator is not necessary, and the optimum threshold value is automatically set and recognized. As a result, the overall recognition rate can be improved. In that case, Used in the 5-line recognition process As musical score information, as shown in FIG. 1, a staff interval H and a staff line width t are obtained, and a threshold value at which this ratio is optimal is detected. The reason will be described below. When the binarization threshold is changed, the density of the binary image changes and the thickness of the line changes. Therefore, the line width of the staff of the score image changes depending on the binarization threshold. Various music scores tone Imported as an image, binarized with various threshold values, the value obtained by normalizing the line width of the staff by the staff interval for the one with the highest recognition rate (the staff line relative to the staff interval) When the ratio of width takes a substantially constant value, a binary score image can be created with a substantially reasonable recognition rate by setting a binarization threshold value so as to approach this value. When the ratio of the line width of the staff to the staff interval at the optimum threshold changes depending on the resolution, etc. (If the resolution is low, the higher the ratio of the staff width to the staff interval, the higher the recognition rate, On the contrary, when the resolution is high, the opposite is true). For the staff interval, the target value may be changed by a linear function or table conversion.
[0007]
In addition, if the line width and interval of the staff are different for each paragraph or part, it is not possible to set an appropriate threshold after all by simply calculating the interval of the staff and the line width of the staff. Become. Therefore, the configuration of claim 2 divides the image into a plurality of blocks (for example, divided into paragraphs, parts, or staffs, and further divided in the horizontal direction), and each block is binarized using score information. The threshold value is set and the score image is captured as a binary image. That is, a musical score information reading unit, a threshold setting unit, and an image capturing unit are executed to read a musical score, and the musical score data that has been read is automatically recognized by computer processing to perform a performance. And / or in a score recognition method for creating data for displaying a score, a step of reading a score as a gradation image by the score information reading means, and a score image read by the threshold setting means According to a predetermined binarization threshold By the step of binarization and the threshold value setting means, The binarized musical score image is divided into a plurality of blocks, the divided musical score image is binarized by a predetermined binarization threshold value for each block, and the staff corresponding to the staff interval of the binarized musical score image The ratio of the line width is obtained for each block, the image state is determined from the ratio, and the next binarization threshold value is calculated and set for each block, and the threshold value is sequentially changed to correspond to the staff interval. A step of obtaining a final threshold value for each block from a threshold band when the staff width ratio becomes a target ratio, and finally, for each block by the threshold setting means The score image that has been read with the threshold value calculated For each block The binarization step and the image capture means With different binarization threshold for each block And a step of recognizing a musical symbol from the binarized musical score image.
[0008]
Similarly, the configuration of claim 4 provides the above procedure as a computer-readable recording medium on which a score recognition program is recorded. The specific configuration reads the score, and the read score data is stored in the computer. A computer-readable recording medium storing a score recognition program for automatically recognizing music symbols by processing and creating data for performance and / or score display, and by executing the program, score information reading means And a threshold setting means and an image capturing means are realized on the computer, the score information reading means reads the score as a gradation image, and the score read by the threshold setting means Image According to a predetermined binarization threshold By the step of binarization and the threshold value setting means, The binarized musical score image is divided into a plurality of blocks, the divided musical score image is binarized by a predetermined binarization threshold value for each block, and the staff corresponding to the staff interval of the binarized musical score image The ratio of the line width is obtained for each block, the image state is determined from the ratio, and the next binarization threshold value is calculated and set for each block, and the threshold value is sequentially changed to correspond to the staff interval. A step of obtaining a final threshold value for each block from a threshold band when the staff width ratio becomes a target ratio, and finally, for each block by the threshold setting means The score image that has been read with the threshold value calculated For each block The binarization step and the image capture means With different binarization threshold for each block The recording medium includes a score recognition program for executing a step of recognizing a music symbol from a binarized score image. Also in this configuration, it goes without saying that the staff interval and the line width of the staff are suitable as the musical score information.
[0009]
DETAILED DESCRIPTION OF THE INVENTION
(Example 1)
Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings. FIG. 2 shows a musical score which is read and operated by an external storage device (or a CD-ROM drive or the like) such as a flexible disk drive FDD5 described later. It is a block diagram which shows the Example structure of a recognition apparatus. In this apparatus, a scanner and a MIDI interface circuit are added to the configuration of an electronic computer such as a personal computer. The CPU 1 is a central processing unit that controls the overall score recognition apparatus based on a program stored in the ROM 2 or RAM 3. A timer circuit for interrupting the CPU 1 at a predetermined cycle set in advance is incorporated. The RAM 3 is used as an image data buffer, a work area, etc. in addition to a program area. The hard disk device HDD4 and the flexible disk drive FDD5 store programs, image data, performance data, and the like. The CRT 6 displays video information output from the CRT interface circuit 7 based on the control of the CPU 1, and information input from the keyboard 8 is taken into the CPU 1 through the keyboard interface circuit 9. The printer 10 prints the print information output from the printer interface circuit 11 based on the control of the CPU 1.
[0010]
The scanner 12 optically scans a (printed) musical score, for example, and converts a grayscale or color image into a single color. tone This is to convert to attached data (however, binary images can be taken in), and any type of scanner such as flatbed type, handy type, feeder type, etc. can be used. Image information read by the scanner 12 is taken into the RAM 3 or the HDD 4 via the scanner interface circuit 13. The MIDI interface circuit 14 is a circuit that transmits and receives MIDI data to and from an external MIDI device such as a sound module. The bus 15 connects each circuit in the score recognition apparatus and exchanges various data, programs, addresses, and the like. In addition, a pointing device such as a mouse or a serial interface circuit such as RS232C may be provided.
[0011]
FIG. 3 is a flowchart showing the main processing of the CPU 1. In step SI, an image of a musical score (in which the staff width and staff spacing are also taken in as musical score information) is fetched into the RAM 3 by the scanner 12. Single color image tone Import as an attached image. Of course, an image file saved on a hard disk or the like in such a format may be read. In the case of a color image, monochrome processing is performed by processing according to the image format. tone It can be converted into an attached image. If the image imported from the scanner or read as a file is a binary image, it cannot be automatically binarized, so it can be recognized as it is or for automatic binarization. tone Import again as an attached image. When the storage capacity of the RAM 3 into which the musical score image is taken is insufficient, the image can be partially processed after being partially stored in the RAM 3. In this configuration, one pixel is 8 bits 256. tone However, the number of bits is not limited to this. Also tone Is described below, assuming that the larger numerical value is white and the smaller numerical value is black.
[0012]
In step SII, automatic binarization processing (threshold setting processing) is performed. This automatic binarization process will be described later. In step SIII, a binarized image is captured, and a score image is captured as a binarized image based on the set binarization threshold.
[0013]
FIG. 4 shows the main process steps of the automatic binarization process. First, in step S1, a threshold value (thres) is detected by a bisection method. It is possible to detect the target line width and staff interval in all 256 stages and obtain the target threshold value. However, since there is a problem with the execution speed, the optimum threshold value is obtained by the bisection method. It was to be. This process will be described later.
[0014]
As mentioned above, 256 tone If so, the target threshold value can be obtained in about eight dichotomy loops. However, in this embodiment, since the staff interval and the line width of the staff are obtained by integers, the ratio of the line width of the staff to the staff interval changes stepwise, and the target interval is less than 8 times. In some cases, a threshold can be detected. In this state, the threshold detection processing for automatic binarization may be terminated, but if the band with the same value as the target ratio is wide, it is more accurate to set the threshold as the midpoint of the band. The threshold can be obtained. Therefore, in step S3, when there is a band whose ratio is the same as the target value, an upper limit and a lower limit of the band are obtained, and the middle point is set as a threshold value (thres). Step S2 is a process that is performed to determine whether or not there is a band whose ratio is the same as the target value. The value of the threshold determination process (ret) is a threshold value. It is determined whether or not the determination end code [T_OK (value when equal to the target ratio DEST_PER)] is reached. Step S3 is a process for obtaining the upper limit and the lower limit of the band and setting the middle point as a threshold value (thres) as described above. That is, in step S30, the band upper limit (thres2) is detected, in step S31, the band lower limit (thres3) is detected, and in step S32, a midpoint between the upper limit (thres2) and the lower limit (thres3) is obtained, and the threshold is set. Set as a value (thres). The detection of the upper limit and the lower limit can also be performed by a bisection method as described later. If the ratio is changed sufficiently continuously, for example, by detecting the line width and staff interval of the staff in real numbers, the detection processing of the upper limit and the lower limit of the band becomes unnecessary. Thereafter, as described above, in step SIII, a binarized image is captured, and a score image is captured as a binarized image based on the set binarization threshold.
[0015]
FIG. 5 shows a procedure for detecting a threshold (thres) by the bisection method in step S1. In step S100, initial setting is performed. That is, the maximum threshold value (thresMax) tone Maximum value 255 and again to minimum threshold (thresMin) tone The minimum value 0 is set, and 256 is set to the counter (ct) that counts the number of times the threshold detection processing loop is repeated by the bisection method, and the maximum value (retMax) of the threshold judgment processing result and the same result are set. Is set to the minimum value (retMin) of T_NOT indicating that the staff interval and the line width of the staff could not be detected.
[0016]
In step S101, an intermediate value between the thresMax and thresMin is set as a threshold value (thres). In step S102, the threshold value (thres) is determined later, and the result is set as ret. As will be described later, the determination processing result is T_OK (output result when the threshold value is determined to be equal to the target ratio DEST_PER), and T_THIN (the threshold value is determined to be smaller than the target ratio DEST_PER). , That is, the output result when the line width of the staff is determined to be thin), T_THICK (when the threshold value is determined to be greater than the target ratio DEST_PER, that is, the line width of the staff is thick) Output result when it is determined), T_NOT (output result when it is determined that the staff interval and the line width of the staff cannot be detected).
[0017]
In step S103, it is determined whether or not the determination processing result (ret) is T_NOT. If it is determined that the determination result is not T_NOT, that is, if the staff interval and the line width of the staff can be detected, the process proceeds to step S104. Then, it is determined whether or not the determination processing result (ret) is T_OK. If this process result (ret) is T_OK, the process exits from the loop and the threshold value detection process by the bisection method is terminated (that is, the determination in step S2 in FIG. 4 is YES, and the process proceeds to step S3). On the other hand, if the processing result (ret) is not T_OK, the process proceeds to step S105, and it is determined whether or not the processing result (ret) is T_THICK. If this processing result is T_THICK (when the staff width is thick), the threshold value (thres) is set to the maximum threshold value (thresMax) in step S107, and the threshold value is recalculated in the calculation formula of step S101. In this case, the maximum threshold value (thresMax) can be changed to a smaller side (the threshold value is reset so that the line width of the staff is closer to the narrow side). On the other hand, if the processing result is not T_THICK (when the staff width is thin), the threshold value (thres) is set to the minimum threshold value (thresMin) in step S106, and the threshold value is set in the calculation formula of step S101. At the time of recalculation, the minimum threshold value (thresMin) can be changed to a larger side (the threshold value is reset so that the line width of the staff is closer to the thicker side).
[0018]
In step S103, when it is determined that the determination processing result (ret) is T_NOT, that is, when the staff interval and the line width of the staff cannot be detected, the threshold value fluctuates to the darker side or the thinner side. Is determined by a threshold overflow check in step S109 and subsequent steps, and based on this, a bisection process is performed. However, since the threshold overflow check is a process with high processing cost, the threshold judgment results at both ends are stored as the minimum value (retMin) and the maximum value (retMax) of the result. In step S108, it is determined whether or not retMax and retMin are T_NOT. If both are T_NOT, a threshold value overflow check is performed in step S109. In step S110, it is determined whether the threshold value is shifted to the dark side or the light side. If the threshold value overflows to the black side, the threshold value (thres) is set to the maximum value (thresMax) in step S112. ) And the maximum value (retMax) of the threshold determination result is T_NOT. On the contrary, if it overflows to the white side, in step S111, the threshold value (thres) is set to the minimum value (thresMin), and the minimum value (retMin) of the threshold determination result becomes T_NOT.
[0019]
In the above step S108, if it is determined that one of retMax or retMin is not T_NOT, the threshold overflow check is invoked by performing a bisection process so as to approach the non-T_NOT side in step S113 and subsequent steps. The number of times can be reduced. In step S113, it is determined whether retMax or retMin is not T_NOT. If retMax is not T_NOT, in step S114, the threshold value (thres) is set to its minimum value (thresMin), and the threshold determination result The minimum value (retMin) is T_NOT. If retMin is not T_NOT, in step S115, the threshold value (thres) is set to its maximum value (thresMax), and the maximum value (retMax) of the threshold determination result becomes T_NOT.
[0020]
Unless the threshold judgment result (ret) is T_OK, the number of counters (ct) is reduced to half in step S117, and the above processing is looped until the number of counters (ct) becomes 1 (step S116). Repeat with. In this way, the start band is changed from thresMin to thresMax, the region is narrowed by the bisection method, and the final determination result becomes the binarization threshold value (thres) (reference step S1).
[0021]
After the binarized threshold value is detected as described above, as described above, in step S2, when the threshold value determination ends with ret = T_OK, in step S3, where in the T_OK band It is necessary to decide whether to use a threshold value. FIG. 6 shows a procedure for detecting the upper band limit (thres2) in step S30 when such a determination is made.
[0022]
First, in step S300, initial setting is performed. That is, the maximum threshold value (thresMax) is set as it is as the maximum threshold value (thresMax2) in this processing, and the threshold value (thres) obtained by the above processing is set as the minimum threshold value (thresMin2) in this processing. At the same time, a value (+1) obtained by subtracting the minimum threshold value (thresMin2) from the maximum threshold value (thresMax2) is set in a counter (ct) that counts the number of times the threshold detection processing loop is divided by the bisection method.
[0023]
In step S301, an intermediate value between thresMax2 and thresMin2 is set as a threshold value (thres2). In step S302, the threshold value (thres2) is determined later, and the result is set as ret. As will be described later, the determination processing result is T_OK (output result when the threshold value is determined to be equal to the target ratio DEST_PER), and T_THIN (the threshold value is determined to be smaller than the target ratio DEST_PER). , That is, the output result when the line width of the staff is determined to be thin), T_THICK (when the threshold value is determined to be greater than the target ratio DEST_PER, that is, the line width of the staff is thick) Output result when it is determined), T_NOT (output result when it is determined that the staff interval and the line width of the staff cannot be detected).
[0024]
In step S303, it is determined whether or not the determination result (ret) is T_OK. If it is determined that the determination result (ret) is T_OK, that is, if the determination result (ret) is equal to the target ratio (DEST_PER). In step S305, the threshold value (thres2) is set as the minimum threshold value (thresMin2). If it is determined in step S303 that the determination result (ret) is not T_OK, the threshold value (thres2) is set as the maximum threshold value (thresMax2). Thereafter, the number of counters (ct) is reduced to half in step S307, and the above processing is repeated in a loop until the number of counters (ct) becomes 1 (step S306). In this way, the detection flow at the upper limit of the band when the ratio of the staff width to the staff interval has a certain band, the threshold from thres to thresMax at the time when thres = T_OK is obtained by the bisection method. A search is performed to detect a boundary between a region that is T_OK and a region that is not. That is, the start band is changed from thresMin2 to thresMax2, and the region is narrowed by the bisection method. The result determined last is thres2 (reference step S30).
[0025]
The detection of the lower limit of the band in step S31 is performed in the same flow, and the result of the lower limit is thres3. For this, a search from thres to thresMin is performed by a bisection method, and a boundary between a region that is T_OK and a region that is not T_OK is detected, and the processing procedure is the same as the detection of the upper limit of the band, and is omitted. . As described above, in step S32, the middle point of thres2 and thres3 obtained as described above is set as a threshold value (thres).
[0026]
FIG. 7 shows a process flow of threshold determination in step S102 of FIG. 5 and step S302 of FIG. First, in step S1020, the staff interval (blank) and the line width (thick) of the staff are detected. That is, as shown in FIG. 8, the score is scanned in the vertical direction, and the background and the figure are separated depending on whether the value is larger or smaller than the threshold values (thres, thres2, thres3), and the background is shown in FIG. And a histogram of each run length in the figure is created. Then, the center of gravity of the value of a certain band in the vicinity of the subscript having the maximum value of the background, the figure, and each histogram or the subscript having the maximum value is defined as the staff interval (blank) and the line width (thick) of the staff. . Since the blank is actually the run length of the background, when calculating the ratio of the line width of the staff to the staff interval, (blank + thick) is applied as the staff interval (thick / 2 at both ends of the blank). ). Further, it is not necessary to scan the image in the vertical direction at all positions on the abscissa X. In order to improve the processing speed, as shown in FIG.
[0027]
If blank = 0 at this time of detection (step S1021), detection of the staff interval has failed (cannot be detected as either black or white), so the determination result (ret) is set to T_NOT in step S1028. The process ends. In addition to this, detection failure of the staff interval and staff line width may be added even when thick = 0, thick> blank, or when thick or blank exceeds a certain range. good.
[0028]
In step S1022 after this determination, the ratio (per) of the line width (thick) of the staff to the staff interval (blank + thick) is obtained. Of course, in order to obtain a more accurate value or improve the correspondence with the recognition rate, the ratio (per) may be obtained by a mathematical expression different from the flow. In step S1023, it is determined whether the ratio (per) is equal to the target ratio (DEST_PER). If it is determined that the ratio is equal, in step S1027, the determination result (ret) is set to T_OK. If it is determined in S1024 that it is greater than that, the determination result (ret) is set to T_THICK in step S1025, and if it is determined that it is smaller than that, the determination result (ret) is determined to be T_THIN in step S1026. To end the determination.
[0029]
The threshold value overflow check in step S109 in FIG. 5 refers to determining a state of being substantially black or white when binarization is performed with the threshold value. Therefore, the check can be performed by counting the pixel values that are larger or smaller than the threshold value and determining this number. Of course, it is not necessary to measure all the pixels of the image, and it is sufficient to check at the X position when detecting the staff interval and the line width of the staff. Since accuracy is not required, the X position may be further reduced for speeding up. At the time of overflow check, it is assumed that it overflowed to either black or white, and it overflowed to black when the black count number becomes more than half of the check pixel count (the total number of pixels at the X position where the overflow check is performed) If the determination is completed and the process is terminated, and the black count is less than half of the number of check pixels, it may be determined that it has overflowed to white.
[0030]
(Example 2)
In the first embodiment, the staff interval detected in the entire image and the line width of the staff are used as reference values for determining the threshold value. This is because the run length of the part other than the staff is also reflected. Due to the influence of titles, pictures, shadows of the folds of the score, etc., the peaks in the histogram deviate from the correct staff spacing and staff width, and the staff spacing and It may be different from the line width. Therefore, staff recognition is performed on an image once binarized with a rough threshold value, and the threshold detection processing of the subsequent bisection method is limited to the periphery of the staff.
[0031]
Also in this configuration, an image with a single color gradation (stored in one pixel 8-bit format) stored in the RAM 3 is binarized with an appropriate binarization threshold in the same manner as in the above embodiment. The staff recognition is not so much affected by the binarization threshold, so the temporary threshold is simply set to the center value of the gradation. The staff interval and the line width of the staff are detected with this threshold, and if this is within the permissible range of staff recognition, the staff is detected with this threshold. That is, the image of the staff portion is scanned in the vertical direction, and divided into a line portion and a blank portion depending on whether or not it is larger than the threshold value, and respective histograms are created. Based on these histograms, the staff interval and the line width of the staff are recognized. If it is not within the allowable range, a value that falls within the allowable range may be further searched by the bisection method. However, the staff recognition is stopped, and the staff interval and the staves of the entire image are stopped as in the above embodiment. You may switch to the method of detecting a line width and setting a threshold value.
[0032]
The staff recognition may be performed on a temporary binary image created separately from the gradation image area in the RAM 3. That is, the image of the staff portion is scanned in the vertical direction, and divided into a line portion and a blank portion based on 0 or 1, and respective histograms are created. Based on these histograms, the staff interval and the line width of the staff are recognized. However, in order to reduce the storage area, a temporary binarized image may be overwritten on the least significant bit of the image with gradation without creating another area (if the gradation is about 256, the least significant bit Because changes do not significantly affect threshold detection).
[0033]
Further, the staff may be directly recognized from the gradation-added image based on the obtained temporary binarization threshold value. Furthermore, the recognition process may be terminated when one staff is detected. As shown in FIG. 11, a rectangle (dotted line portion) surrounding the detected staff is set. The left and right ends are the end points of the staff. The added line is often written with a slightly thicker line than the staff, and the width between the added lines is often wider than the staff. Therefore, the upper and lower sides of the rectangle may be a region not including the added line.
[0034]
A binarized threshold value is detected by the same method as in the first embodiment. However, the processing area is limited to the above rectangle. As a result, a more accurate staff interval and staff line width can be obtained, and since the rectangle is small, the subsequent processing steps are reduced. Further, since staff recognition has already been performed, the staff interval is detected at this point, and at the time of bisection processing, it is possible to further increase the speed by detecting only the line width of the staff.
[0035]
In this embodiment, the threshold value selection method which is a normal image processing method such as a mode method or a differential histogram may be used to determine the binarization threshold value for provisional binarization. Further, the threshold judgment area is not a rectangle (rectangle), but may be a parallelogram area connecting the start and end positions of the staff, or the staff shift detected by staff recognition as shown in FIG. It may be a strip-shaped region in consideration of the amount. In addition, in order to accurately detect the line width of the staff, not only the detection of the staff interval and the line width of the staff, but also the first detected staff when the threshold value is detected by the bisection method. In addition, it is possible to add a process of scanning the figure of the image binarized with the threshold value up and down and taking the average value of the run lengths of the portions that are sure to be the staff.
[0036]
(Example 3)
It is sufficient in most cases to determine one binarization threshold in one musical score image. However, this may not be sufficient. A particularly prominent example is when there are staffs with different widths. In such a case, if binarization is performed with the same threshold value, the threshold value of the staff that has not become a reference is deviated from the optimum value, and the recognition rate decreases. Therefore, in this embodiment, staffs are detected by the same method as in the previous embodiment (all staffs are detected), and a rectangle surrounding each staff is detected. Recognition of brackets is also performed, and a rectangle for each part may be used as shown in FIG. These rectangles are rectangles for determining threshold values, and the binarized threshold values are determined within the rectangles by means similar to those in the first embodiment.
[0037]
In the binarization processing after the threshold value is determined, binarization is performed with the threshold value in the rectangle, but between the rectangles, as shown in FIG.
{Circle around (1)} When binarization is performed with the middle value of the threshold values of the upper and lower rectangular areas, a place where no figure exists is searched from the midpoint of the two areas and separated at the detected position.
{Circle around (2)} Similarly, when binarization is performed, a region where no figure is present is obtained and separated at the portion over the widest region.
(3) Interpolate a threshold value between two rectangular areas by various methods.
{Circle around (4)} Two threshold areas are separated in the middle of two rectangular areas.
It binarizes by the method of etc.
[0038]
FIG. 13 shows an example of binarization in threshold value determination. FIG. 2B shows the score image that has been read, and the dotted rectangle is the threshold value determination rectangle. FIG. 9A shows the state of the determined threshold value, and the threshold value determined in each rectangle is used for the sections b and f, and the edges of the images of a and c are used. The same threshold is used for the section b as the section b, the same threshold as the section f is used for the section e, and the threshold value of the two areas is linear for the section d. Interpolate and use.
[0039]
Further, by changing the threshold value, it is possible to deal with partial printing fading. This can be realized by dividing into a plurality of rectangles instead of only one rectangle in the horizontal direction as shown in FIG. 13 (the same threshold value in the horizontal direction).
[0040]
The threshold judgment area is not a rectangle (rectangle), but may be a parallelogram area connecting the start and end positions of the staff, as described above, or consider the amount of staff shift detected by staff recognition. It may be a strip-shaped area.
[0041]
【The invention's effect】
According to the configuration of the present invention described in detail above, it is possible to obtain a binarized image that is optimal for recognition using score information, and to improve the recognition rate. In addition, there is no need to set an optimum threshold value when scanning an image, and work efficiency is improved.
[Brief description of the drawings]
FIG. 1 is an explanatory diagram showing the line width and staff interval of a staff.
FIG. 2 is a block diagram showing the configuration of an embodiment of a score recognition apparatus that operates by reading a computer-readable recording medium that records a score recognition program according to claim 4 of the present invention with an external storage device;
FIG. 3 is a flowchart showing main processing of a CPU.
FIG. 4 is a flowchart showing main processing steps of automatic binarization processing.
FIG. 5 is a flowchart showing a threshold detection procedure by a bisection method.
FIG. 6 is a flowchart showing a procedure for detecting the upper limit of the band when determining which of the T_OK bands is to be used as the threshold when the threshold determination ends with T_OK.
FIG. 7 is a flowchart showing a processing flow of threshold determination.
FIG. 8 is an explanatory diagram showing a state in which a background is separated from a figure depending on whether the score is scanned in the vertical direction and the value is larger or smaller than a threshold value.
FIG. 9 is a graph showing histograms of run lengths for line widths and staff intervals on the staff.
FIG. 10 is an explanatory diagram illustrating a state in which scanning in the vertical direction of an image is performed at certain intervals.
FIG. 11 is an explanatory diagram showing a setting state of a rectangle surrounding a staff set for threshold value determination.
FIG. 12 is an explanatory diagram showing an example of a strip shape set as a threshold determination region.
FIG. 13 is an explanatory diagram showing an example of binarization processing in threshold determination.
[Explanation of symbols]
1 CPU
2 ROM
3 RAM
4 Hard disk devices
5 Flexible disk drive
6 CRT
7 CRT interface circuit
8 Keyboard
9 Keyboard interface circuit
10 Printer
11 Printer interface circuit
12 Scanner
13 Scanner interface circuit
14 MIDI interface circuit
15 bus

Claims (4)

楽譜情報読込手段と、しきい値設定手段と、画像取込手段とを有して実行され、楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識方法において、
上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、
上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、
同じくしきい値設定手段により、2値化された楽譜イメージの五線間隔に対する五線線幅の割合を求め、その割合から画像状態を判定し、これにより次の2値化しきい値を算出設定し、このしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域から最終的なしきい値を求めるステップと、
該しきい値設定手段により、最終的に計算設定されたしきい値で前記読み取った楽譜イメージを2値化するステップと、
上記画像取込手段により、この2値化された楽譜イメージから音楽記号を認識するステップと
を実行することを特徴とする楽譜認識方法。
A musical score information reading means, a threshold value setting means, and an image capturing means are executed to read a musical score, automatically recognize a music symbol by computer processing from the read musical score data, and perform performance and / or Or, in a score recognition method for creating data for score display,
A step of reading a score with a gradation image by the score information reading means;
Binarizing the score image read by the threshold setting means with a predetermined binarization threshold ;
Similarly, the threshold setting means obtains the ratio of the staff width to the staff interval of the binarized musical score image, determines the image state from the ratio, and thereby calculates and sets the next binarization threshold The threshold value is sequentially changed to obtain a final threshold value from the threshold band when the ratio of the staff width to the staff interval becomes the target ratio;
A step of binarizing the read musical score image with a threshold value finally calculated and set by the threshold value setting means ;
And a step of recognizing a music symbol from the binarized musical score image by the image capturing means.
楽譜情報読込手段と、しきい値設定手段と、画像取込手段とを有して実行され、楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識方法において、
上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、
上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、
同じくしきい値設定手段により、2値化された楽譜イメージを複数ブロックに分割し、分割された楽譜イメージを、ブロック毎に所定の2値化しきい値により2値化し、2値化された楽譜イメージの五線間隔に対する五線線幅の割合をブロック毎に求め、その割合から画像状態を判定し、これにより次の2値化しきい値をブロック毎に算出設定し、そのしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域からブロック毎に最終的なしきい値を求めるステップと、
該しきい値設定手段により、ブロック毎に最終的に計算設定されたしきい値で前記読み取った楽譜イメージをブロック毎に2値化するステップと、
上記画像取込手段により、このブロック毎に異なる2値化しきい値で2値化された楽譜イメージから音楽記号を認識するステップと
を実行することを特徴とする楽譜認識方法。
A musical score information reading means, a threshold value setting means, and an image capturing means are executed to read a musical score, automatically recognize a music symbol by computer processing from the read musical score data, and perform performance and / or Or, in a score recognition method for creating data for score display,
A step of reading a score with a gradation image by the score information reading means;
Binarizing the score image read by the threshold setting means with a predetermined binarization threshold ;
Similarly, the binarized score image is divided into a plurality of blocks by the threshold setting means, and the divided score image is binarized by a predetermined binarization threshold value for each block. The ratio of the staff width to the staff spacing of the image is obtained for each block, the image state is determined from the ratio, and the next binarization threshold is calculated and set for each block, and the threshold is sequentially set. Changing, and obtaining a final threshold value for each block from the threshold band when the ratio of the staff width to the staff interval becomes the target ratio;
Binarizing the read musical score image for each block with a threshold value finally calculated and set for each block by the threshold setting means ;
And a step of recognizing a music symbol from a score image binarized with a different binarization threshold for each block by the image capturing means.
楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識プログラムを記憶したコンピュータ読み取り可能な記録媒体であって、該プログラムの実行により、楽譜情報読込手段と、しきい値設定手段と、画像取込手段とが該コンピュータ上に実現され、
上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、
上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、
同じくしきい値設定手段により、2値化された楽譜イメージの五線間隔に対する五線線幅の割合を求め、その割合から画像状態を判定し、これにより次の2値化しきい値を算出設定し、このしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域から最終的なしきい値を求めるステップと、
該しきい値設定手段により、最終的に計算設定されたしきい値で前記読み取った楽譜イメージを2値化するステップと、
上記画像取込手段により、この2値化された楽譜イメージから音楽記号を認識するステップと
を実行させるための楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium storing a score recognition program for reading a score, automatically recognizing a music symbol by computer processing from the read score data, and creating data for performance and / or score display By executing the program, a score information reading unit, a threshold setting unit, and an image capturing unit are realized on the computer.
A step of reading the score as a gradation image by the score information reading means;
Binarizing the score image read by the threshold value setting means with a predetermined binarization threshold value ;
Similarly, the threshold setting means obtains the ratio of the staff width to the staff interval of the binarized score image, determines the image state from the ratio, and thereby calculates and sets the next binarization threshold The threshold value is sequentially changed to obtain a final threshold value from the threshold band when the ratio of the staff width to the staff interval becomes the target ratio;
A step of binarizing the read musical score image with a threshold value finally calculated and set by the threshold value setting means ;
A computer-readable recording medium on which a score recognition program for executing the step of recognizing a music symbol from the binarized score image by the image capturing means is recorded.
楽譜を読み取り、この読み取った楽譜データをコンピュータ処理により自動的に音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識プログラムを記憶したコンピュータ読み取り可能な記録媒体であって、該プログラムの実行により、楽譜情報読込手段と、しきい値設定手段と、画像取込手段とが該コンピュータ上に実現され、
上記楽譜情報読込手段により、楽譜を階調イメージで読み取るステップと、
上記しきい値設定手段により、読み取った楽譜イメージを所定の2値化しきい値により2値化するステップと、
同じくしきい値設定手段により、2値化された楽譜イメージを複数ブロックに分割し、分割された楽譜イメージを、ブロック毎に所定の2値化しきい値により2値化し、2値化された楽譜イメージの五線間隔に対する五線線幅の割合をブロック毎に求め、その割合から画像状態を判定し、これにより次の2値化しきい値をブロック毎に算出設定し、そのしきい値を順次変化させて、五線間隔に対する五線線幅の割合が目的の割合となる時のしきい値の帯域からブロック毎に最終的なしきい値を求めるステップと、
該しきい値設定手段により、ブロック毎に最終的に計算設定されたしきい値で前記読み取った楽譜イメージをブロック毎に2値化するステップと、
上記画像取込手段により、このブロック毎に異なる2値化しきい値で2値化された楽譜イメージから音楽記号を認識するステップと
を実行させるための楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
A computer-readable recording medium storing a score recognition program for reading a score, automatically recognizing a music symbol by computer processing from the read score data, and creating data for performance and / or score display By executing the program, a score information reading unit, a threshold setting unit, and an image capturing unit are realized on the computer.
A step of reading the score as a gradation image by the score information reading means;
Binarizing the score image read by the threshold value setting means with a predetermined binarization threshold value ;
Similarly, the binarized musical score image is divided into a plurality of blocks by the threshold setting means, and the divided musical score image is binarized by a predetermined binarization threshold for each block. The ratio of the staff width to the staff interval of the image is obtained for each block, the image state is determined from the ratio, and the next binarization threshold is calculated and set for each block, and the threshold is sequentially set. A step of obtaining a final threshold value for each block from a threshold band when a ratio of the staff width to the staff interval becomes a target ratio by changing,
Binarizing the read musical score image for each block with a threshold value finally calculated and set for each block by the threshold setting means ;
A computer-readable recording medium on which a score recognition program for executing a step of recognizing a music symbol from a score image binarized with a different binarization threshold for each block by the image capturing means is recorded. .
JP36687897A 1997-12-26 1997-12-26 Music score recognition method and computer readable recording medium having recorded music score recognition program Expired - Fee Related JP3607065B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP36687897A JP3607065B2 (en) 1997-12-26 1997-12-26 Music score recognition method and computer readable recording medium having recorded music score recognition program
US09/380,225 US6580805B1 (en) 1997-12-26 1998-06-29 Method and recognizing music and computer-readable recording medium having music-recognizing program recorded therein
PCT/JP1998/002895 WO1999034352A1 (en) 1997-12-26 1998-06-29 Method and recognizing music and computer-readable recording medium having music-recognizing program recorded therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36687897A JP3607065B2 (en) 1997-12-26 1997-12-26 Music score recognition method and computer readable recording medium having recorded music score recognition program

Publications (2)

Publication Number Publication Date
JPH11194762A JPH11194762A (en) 1999-07-21
JP3607065B2 true JP3607065B2 (en) 2005-01-05

Family

ID=18487918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36687897A Expired - Fee Related JP3607065B2 (en) 1997-12-26 1997-12-26 Music score recognition method and computer readable recording medium having recorded music score recognition program

Country Status (3)

Country Link
US (1) US6580805B1 (en)
JP (1) JP3607065B2 (en)
WO (1) WO1999034352A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009153067A (en) * 2007-12-21 2009-07-09 Canon Inc Image processing method and image processing apparatus
KR101459766B1 (en) * 2008-02-12 2014-11-10 삼성전자주식회사 Method for recognizing a music score image with automatic accompaniment in a mobile device
JP2012138009A (en) * 2010-12-27 2012-07-19 Kawai Musical Instr Mfg Co Ltd Musical score recognition device, and computer program
JP5765848B2 (en) * 2011-03-31 2015-08-19 株式会社河合楽器製作所 Sound reproduction program and sound reproduction device
US9378654B2 (en) * 2014-06-23 2016-06-28 D2L Corporation System and method for rendering music

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01304497A (en) * 1988-06-02 1989-12-08 Casio Comput Co Ltd Method and device for score recognition
JPH0287776A (en) * 1988-09-26 1990-03-28 Toshiba Corp Picture processing unit
JPH0535924A (en) * 1991-07-31 1993-02-12 Yamaha Corp Automatic musical score recognizing device
JPH0785245A (en) * 1993-09-10 1995-03-31 Mitsubishi Electric Corp Visual sensor
TW250558B (en) * 1993-10-20 1995-07-01 Yamaha Corp Sheet music recognition device

Also Published As

Publication number Publication date
WO1999034352A1 (en) 1999-07-08
JPH11194762A (en) 1999-07-21
US6580805B1 (en) 2003-06-17

Similar Documents

Publication Publication Date Title
US7539344B2 (en) Boundary detection method between areas having different features in image data
JP3883696B2 (en) Method for scanning and detecting multiple photos and removing artificial edges
US7738734B2 (en) Image processing method
US5706363A (en) Automated recognition system for printed music
US6813367B1 (en) Method and apparatus for site selection for data embedding
JP3607065B2 (en) Music score recognition method and computer readable recording medium having recorded music score recognition program
JP3549936B2 (en) Digital information decryption method
US6862370B2 (en) Image detecting method, image detecting system, program, and recording medium for image detection
JP3698867B2 (en) Circular pattern determination method, apparatus and recording medium
JP5125961B2 (en) Binarization processing apparatus, information processing apparatus, binarization processing method, and binarization processing program
JPS6162983A (en) Musical score reader
JP2000184200A (en) Moire removing device
JP3613356B2 (en) Score recognition device
JP4254008B2 (en) Pattern detection apparatus and method
JP3989647B2 (en) Image processing method, apparatus, and recording medium
JPH0679348B2 (en) Line cutting method
JP4439054B2 (en) Character recognition device and character frame line detection method
JP2002314790A (en) Color image information processing method, program used for implementing the method, and color image information processing unit
US6738530B1 (en) Method of recognizing character in which correction of inclination of character is carried out and apparatus for carrying out this method
JPH07120392B2 (en) Character pattern cutting device
JP3712825B2 (en) Image processing method, apparatus, and recording medium
JP2877548B2 (en) Document image attribute discrimination method
JP2000331118A (en) Image processor and recording medium
JP2003187186A (en) Music score recognition device
JP2826229B2 (en) Barcode label scanning position detection method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041006

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees