JP3608965B2

JP3608965B2 - 自動オーサリング装置および記録媒体

Info

Publication number: JP3608965B2
Application number: JP36033298A
Authority: JP
Inventors: 秀明田中; 和行名古; 克彦佐藤
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-12-18
Filing date: 1998-12-18
Publication date: 2005-01-12
Anticipated expiration: 2018-12-18
Also published as: JP2000181931A

Description

【０００１】
【発明の属する技術分野】
この発明は、画像ベース電子書籍の目次や索引から参照ページへのリンク編集等を自動的に実行できる自動オーサリング装置に関する。
【０００２】
【従来の技術】
近年、（株）ソニーの「電子ブック」や、ボイジャー（Ｖｏｙａｇｅｒ）社の「電子書籍（ＥｘｐａｎｄＢｏｏｋ）」等で代表されるような電子書籍の提案が活発化している。しかしながら、上記電子書籍はテキストベースの電子書籍であるために、（１）電子化されていない既存の紙書籍のコンテンツ化にはＯＣＲ（光学式文字読み取り装置）等を用いてテキストデータに変換しなければならず、コンテンツ化には長時間を要する。（２）漫画や写真雑誌等のテキスト以外のデータが大部分を占める書籍はコンテンツし難く、コンテンツの種類が一般的な読み物系よりも辞書系（参照系）へ偏り勝ちである。
【０００３】
したがって、既存のテキストベース電子書籍のタイトル数は、数百オーダーと少なく、且つ、内容が辞書系に偏っており、その普及率は紙書籍の数％にも達していないのが現状である。
【０００４】
ところが、最近では、上述のようなテキストベース電子書籍の欠点を無くすものとして画像ベースの電子書籍が出現している。この例としては、（株）小学館の「漫画ＲＯＭ（リード・オンリ・メモリ）」等が上げられる。
【０００５】
上記画像ベース電子書籍は、▲１▼ 基本的には既存の紙書籍をスキャニングするだけの単純作業でコンテンツ作業が行え、短期間に大量のコンテンツ供給が可能となる。▲２▼ テキストベースの書籍では不可能であった漫画や写真雑誌等のコンテンツ供給が可能となる。▲３▼ 外字や異体字や古文書等のように、文字コード体系に合っていない文字が存在しても容易に取り込める。▲４▼ 言語（文字コード）に依存しないため海外普及が容易である。等の利点を有し、次世代の電子書籍の形態として非常に有望なものと考えられている。
【０００６】
また、上述のような電子化コンテンツを利用する技術として、ハイパーテキストに代表されるリンク機能（情報と情報とを結合して関連情報間で経路を作成する機能）がある。このリンク機能の概念を図２４に示す。図２４においては、文字列や図形や画像等でなるオブジェクトから他のオブジェクトへのリンクは破線矢印で示している。また、上記オブジェクトからページへのリンクは実線矢印で示されている（但し、コンテンツにはページの概念はない）。尚、上記ページは各番号で示されている。
【０００７】
図２４においては、ページ１における第１行目に存在するオブジェクト（文字列）からは、ページ２にリンクされている。また、ページ１における第４行目に存在するオブジェクトからは、ページ５における第５行目に存在するオブジェクトにリンクされている。また、ページ１における最終行に存在するオブジェクトからは、ページ４にリンクされている。そして、上記リンク機能とは、ビューア等において、ページ１におけるリンクが張られているオブジェクトをマウス等によって指定することによって、リンク先のページやオブジェクトへジャンプする機能である。
【０００８】
このようなリンク機能は、既存の紙メディアでは不可能な機能であり、電子化コンテンツの大きな魅力である。その反面、リンク情報を付加する編集（リンク編集）を含む電子書籍の編集（以下、オーサリングと言う）の際に、上記リンク編集作業を行う必要がある。したがって、このようなリンク編集を効率的に行えることが、オーサリング装置には重要な要素となる。
【０００９】
従来より、上記リンク編集を自動的に行うものとして、特開平６−２２３０６５号公報「電子ドキュメントにおける自動リンク情報作成方法」がある。この自動リンク情報作成方法においては、テキストベースの電子ドキュメントからリンク対象となるキーワードを抽出し、文書構成を判定して、これらを基に目次と本文とのリンク付けを自動的に行うものである。
【００１０】
以上のことにより、種々の利点を有して次世代の電子書籍の形態として非常に有望な上記画像ベース電子書籍に、特開平６−２２３０６５号公報に開示された自動リンク情報作成方法を適用することによって、漫画や写真雑誌等のテキスト以外の電子コンテンツのハイパーテキスト化が可能になるのである。
【００１１】
【発明が解決しようとする課題】
しかしながら、上記従来の特開平６−２２３０６５号公報に開示された自動リンク情報作成方法は、テキスト（文字コードデータ）を対象としているために、画像ベース電子書籍に適用する場合には以下のような問題がある。
【００１２】
上述のように、上記従来の自動リンク情報作成方法はテキストを対象としている。そこで、画像ベース電子書籍に適用する場合には、ＯＣＲを利用して画像をテキストに変換する手法が考えられる。ところが、現状のＯＣＲでは、１００％の正解結果を得ることは困難であり、認識結果には誤認識文字（ＯＣＲが読み取り間違えた文字）が含まれる。現状の高性能日本語ＯＣＲでも認識正解率は９８％程度であり、認識結果に誤認識文字が２％程度は含まれる。したがって、ＯＣＲを利用して画像をテキストに変換した画像ベース電子書籍に上記従来の自動リンク情報作成方法を適用する場合には、上記誤認識によって、総ての文字が正しい「完全テキスト」を前提とした上記従来の自動リンク情報作成方法では誤動作が発生するという問題がある。以下、この誤動作に付いて詳細に説明する。
【００１３】
上記特開平６−２２３０６５号公報によれば、上記従来の自動リンク情報作成方法では、文字列「ＣＯＮＴＥＮＴＳ」の有無によって目次ページを判定し、例えばキー文字列「ＳＹＳＴＥＭＯＵＴＬＩＮＥ」によって目次ページと本文ページとのリンク付けを行っている。したがって、上記ＯＣＲによってテキストに変換する際に、上記文字列「ＣＯＮＴＥＮＴＳ」の文字「Ｏ（オー）」が「０（ゼロ）」と誤認識された場合には、目次ページを判定できないことになる。同様に、目次ページに在るキー文字列「ＳＹＳＴＥＭＯＵＴＬＩＮＥ」と本文ページに在るキー文字列「ＳＹＳＴＥＭＯＵＴＬＩＮＥ」との何れか一方でも誤認識されれば、リンク付けができないことになる。ページ数「１」を英小文字エル「ｌ」と誤認識した場合も同様である。
【００１４】
尚、上述のような誤動作を解決する方法として、上記ＯＣＲの認識結果をオペレータが修正して上記完全テキストを得る方法も考えられる。ところが、その場合には、本来は不用である上記完全テキストを作成する処理が必要となる。したがって、上記解決方法は、上記オーサリング作業の軽減化のために行う自動リンク編集を行うことを考えると、本末転倒な解決方法であるといえる。
【００１５】
そこで、この発明の目的は、画像ベース電子書籍に対して自動的にリンク編集を行うことができる自動オーサリング装置を提供することにある。
【００１６】
上記目的を達成するため、請求項１に係る発明は、画像ベース電子書籍を自動的にオーサリングする自動オーサリング装置であって、書籍の各ページの画像を入力する画像入力手段と、文字認識時の誤認識傾向を距離値に変換して予め作成した距離テーブルと、上記距離テーブルを用いて２文字列間の距離を計算する距離計算手段と、上記画像入力手段から取り込まれた画像データに対して領域分割を行って、文字領域，写真領域，図形領域を含む領域を抽出する領域分割手段と、上記領域分割手段によって抽出された文字領域の画像データに基づいて、文字認識を行う文字認識手段と、文字列の集合に対して、上記距離計算手段による２文字列間の距離の算出結果を用いて複数のクラスタに分割し、各クラスタを代表する代表文字列を抽出するクラスタリング手段と、上記書籍全ページのヘッダまたはフッターの何れか一方の文字列の集合に対する上記クラスタリング結果を用いて、各クラスタに属する文字列に係るページの境界を当該書籍の区切りとすると共に、各クラスタの代表文字列を上記区切り間の代表タイトル文字列として書籍構造を抽出する書籍構造抽出手段を備えて、上記画像入力手段から取り込まれた書籍の画像データに基づいて、当該書籍の書籍構造を抽出することを特徴とする自動オーサリング装置を提供する。
【００１７】
上記構成によれば、書籍構造抽出手段によって、「書籍の「章」や「節」の代表タイトル文字列は該当する「章」や「節」における「ヘッダ」あるいは「フッター」に記載されていることが多い」ことを利用して、書籍全ページのヘッダあるいはフッターの何れか一方の文字列の集合に対してクラスタリング手段によるクラスタリングが行われて、当該書籍の章や節等の区切りと上記区切り間の代表タイトル文字列とでなる書籍構造が自動的に抽出される。その際に、上記文字列の分類にクラスタリングを用いることによって、上記ヘッダあるいはフッターの文字認識結果における誤認識が吸収される。
【００１８】
また、請求項２に係る発明は、画像ベース電子書籍を自動的にオーサリングする自動オーサリング装置であって、書籍の各ページの画像を入力する画像入力手段と、文字認識時の誤認識傾向を距離値に変換して予め作成した距離テーブルと、上記距離テーブルを用いて２文字列間の距離を計算する距離計算手段と、上記画像入力手段から取り込まれた画像データに対して領域分割を行って、文字領域，写真領域，図形領域を含む領域を抽出する領域分割手段と、上記領域分割手段によって抽出された文字領域の画像データに基づいて、文字認識を行う文字認識手段と、文字列の集合に対して、上記距離計算手段による２文字列間の距離の算出結果を用いて複数のクラスタに分割し、各クラスタを代表する代表文字列を抽出するクラスタリング手段と、上記書籍全ページのヘッダあるいはフッターの何れか一方の文字列の集合に対する上記クラスタリング結果を用いて、各クラスタに属する文字列に係るページの境界を当該書籍の区切りとすると共に、各クラスタの代表文字列を上記区切り間の代表タイトル文字列として書籍構造を抽出する書籍構造抽出手段と、上記各ページ毎の文字認識結果に基づいて、上記距離計算手段による文字列間距離およびキーワードを用いて、予め設定されたルールに従って、目次ページまたは索引ページの判定を行うリンク元ページ判定手段と、上記目次ページまたは索引ページの文字認識結果に基づいて、予め設定されたルールに従って、リンク元オブジェクトを項目文字列部とこの項目文字列が記載されているページのページ番号文字列部とに分けて抽出するリンク元オブジェクト抽出手段と、上記目次ページにおける上記各リンク元オブジェクトの項目文字列と上記書籍の区切り間の代表タイトル文字列とに間する上記距離算出手段による距離算出結果に基づいて、上記リンク元オブジェクトに対応する上記書籍の区切りを判定するリンク先クラスタ判定手段と、上記各リンク元オブジェクトのページ番号文字列およびこのページ番号文字列が上記距離テーブルを参照して置換された誤認識し易い数字と、当該リンク元オブジェクトに対応する上記書籍の区切りの開始ページ番号との比較結果に基づいて、目次ページに対するリンク付けを行う目次ページリンク決定手段を備えて、上記画像入力手段から取り込まれた書籍の画像データに基づいて、各目次の項目から参照ページへのリンク付けを行うことを特徴とする自動オーサリング装置を提供する。
【００１９】
上記構成によれば、リンク先クラスタ判定手段によってリンク元オブジェクトに対応する上記書籍の区切りが判定される。その際に、上記リンク元オブジェクトの項目文字列と上記書籍の区切り間の代表タイトル文字列との距離を用いることによって、上記項目文字列の誤認識が吸収される。さらに、目次ページリンク決定手段によって、上記各リンク元オブジェクトのページ番号文字列と上記対応する書籍の区切りの開始ページ番号との比較結果に基づいて上記目次ページに対するリンク付けが自動的に行われる。その際に、上記ページ番号文字列と開始ページ番号とが一致しない場合には上記ページ番号文字列を誤認識し易い数字に置換して上記比較を繰り返すことによって、上記ページ番号文字列の誤認識が吸収される。
【００２０】
また、請求項３に係る発明は、画像ベース電子書籍を自動的にオーサリングする自動オーサリング装置であって、書籍の各ページの画像を入力する画像入力手段と、文字認識時の誤認識傾向を距離値に変換して予め作成した距離テーブルと、上記距離テーブルを用いて２文字列間の距離を計算する距離計算手段と、上記画像入力手段から取り込まれた画像データに対して領域分割を行って、文字領域，写真領域，図形領域を含む領域を抽出する領域分割手段と、上記領域分割手段によって抽出された文字領域の画像データに基づいて、文字認識を行う文字認識手段と、上記各ページ毎の文字認識結果に基づいて、上記距離計算手段による文字列間距離およびキーワードを用いて、予め設定されたルールに従って、目次ページまたは索引ページの判定を行うリンク元ページ判定手段と、上記目次ページまたは索引ページの文字認識結果に基づいて、予め設定されたルールに従って、リンク元オブジェクトを項目文字列部とこの項目文字列が記載されているページのページ番号文字列部とに分けて抽出するリンク元オブジェクト抽出手段と、上記索引ページにおける上記各リンク元オブジェクトの項目文字列を検索元文字列とし、上記項目文字列に対応するページ番号文字列およびこのページ番号文字列が上記距離テーブルを参照して置換された誤認識し易い数字をリンク先の注目ページ番号とし、上記注目ページ番号のページの文字認識結果から上記検索元文字列と同じ文字数の文字列を順次切り出して検索先文字列とし、上記検索元文字列と検索先文字列との距離を上記距離計算手段によって算出し、この算出結果に基づいて索引ページに対するリンク付けを行う索引ページリンク決定手段を備えて、上記画像入力手段から取り込まれた書籍の画像データに基づいて、索引の各項目から参照ページへのリンク付けを自動的に行うことを特徴とする自動オーサリング装置を提供する。
【００２１】
上記構成によれば、索引ページリンク決定手段によって、上記各リンク元オブジェクトの項目文字列をこの項目文字列に対応するページ番号のページの文字認識結果中から検索し、この検索結果に基づいて索引ページに対するリンク付けが自動的に行われる。その際に、上記文字認識結果から切り出した文字列と項目文字列との距離を用いることによって、上記項目文字列の誤認識が吸収される。さらに、上記項目文字列が検索されない場合には上記ページ番号文字列を誤認識し易い数字に置換して上記検索を繰り返すことによって、上記ページ番号文字列の誤認識が吸収される。
【００２２】
また、請求項４に係る発明は、請求項２に記載の自動オーサリング装置において、上記リンク元オブジェクト抽出手段によって抽出された上記索引ページにおける上記各リンク元オブジェクトの項目文字列を検索元文字列とし、上記項目文字列に対応するページ番号文字列およびこのページ番号文字列が上記距離テーブルを参照して置換された誤認識し易い数字をリンク先の注目ページ番号とし、上記注目ページ番号のページの文字認識結果から上記検索元文字列と同じ文字数の文字列を順次切り出して検索先文字列とし、上記検索元文字列と検索先文字列との距離を上記距離計算手段によって算出し、この算出結果に基づいて索引ページに対するリンク付けを行う索引ページリンク決定手段を備えて、上記画像入力手段から取り込まれた書籍の画像データに基づいて、目次あるいは索引の各項目から参照ページへのリンク付けを自動的に行うことを特徴とする自動オーサリング装置を提供する。
【００２３】
上記構成によれば、請求項２に係る発明の場合と同様に、リンク先クラスタ判定手段によって上記リンク元オブジェクトに対応する上記書籍の区切りが判定される際に、上記項目文字列と上記代表タイトル文字列との距離を用いることによって、上記項目文字列の誤認識が吸収される。また、目次ページリンク決定手段によって目次ページに対するリンク付けが自動的に行われる際に、上記ページ番号文字列を誤認識し易い数字に置換することによって、上記ページ番号文字列の誤認識が吸収される。
【００２４】
さらに、索引ページリンク決定手段によって索引ページに対するリンク付けが自動的に行われる際に、上記文字認識結果から切り出された文字列と上記項目文字列との距離を用いることによって、上記項目文字列の誤認識が吸収される。また、上記ページ番号文字列を誤認識し易い数字に置換することによって、上記ページ番号文字列の誤認識が吸収される。
【００２５】
また、請求項５に係る発明は、請求項２乃至請求項４の何れか一つに記載の自動オーサリング装置において、上記リンク元オブジェクト抽出手段は、上記リンク元ページ判定手段によって目次ページまたは索引ページであると判定されたページの文字認識結果に基づいて、各リンク元オブジェクト毎に、上記リンク元オブジェクトを構成する項目文字列の配列方向に直交する方向への文字長さのヒストグラムを作成するヒストグラム作成手段と、上記ヒストグラムに対して判別分析によって二値化閾値を計算する二値化閾値算出手段と、上記二値化閾値以下の長さを有する文字連なりを上記リンク元オブジェクトにおける項目文字列とページ番号文字列とを分離するセパレータの候補として抽出し、この抽出されたセパレータ候補中から上記方向への文字長さの分散が最小となる連続区間を上記セパレータとして抽出するセパレータ抽出手段と、
上記リンク元オブジェクトにおける上記抽出されたセパレータの一側を上記項目文字列とする一方、他側を上記ページ番号文字列として分離して抽出するオブジェクト抽出手段を有していることを特徴とする自動オーサリング装置を提供する。
【００２６】
上記構成によれば、上記リンク元オブジェクト抽出手段によって、「目次や索引では「項目文字列」と「その項目が記載されているページ番号」とが「…」，「−」あるいは「空白」等のセパレータを介して同じ列や行を構成している」ことを利用して、目次ページまたは索引ページにおける上記項目文字列の配列方向に直交する方向への文字長さのヒストグラムと二値化閾値とに基づいて上記セパレータが抽出される。そして、このセパレータに基づいて、上記項目文字列とページ番号文字列とが自動的に分離されて抽出される。
【００２７】
また、請求項６に係る発明は、請求項１、請求項２、請求項３、請求項４又は請求項５に記載の自動オーサリング装置における各手段の機能をコンピュータに実行させるための自動オーサリングプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
【００２８】
上記構成によれば、請求項４に係る発明の場合と同様に、上記ヘッダやフッターの文字列，リンク元オブジェクトの項目文字列およびページ番号文字列の誤認識を吸収した目次ページあるいは索引ページに対するリンク付けが自動的に行われる。
【００２９】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図１は、本実施の形態の自動オーサリング装置におけるブロック図である。主制御部１は、本自動オーサリング装置の動作を制御し、後に詳述するような自動オーサリング処理動作を実行する。
【００３０】
入力制御部２は、キーボード３やマウス４から操作者によって入力された入力信号をデータバス５のデータ形式に変換し、データバス５を介して主制御部１に送出する。画像入力部６は、スキャナ７で読み取られた画像データをデータバス５のデータ形式に変換し、データバス５を介してメモリ８のページ画像部２８に送出する。また、外部記憶装置制御部９は、外部記憶装置１０の書籍画像ファイル１１に格納されている書籍の画像データをデータバス５のデータ形式に変換して、データバス５を介してメモリ８のページ画像部２８に送出する。尚、書籍コンテンツファイル１２には、自動リンク付けされた際のリンク情報が格納されている。ＣＲＴ（陰極線管）制御部１３は、ビデオＲＡＭ（ランダム・アクセス・メモリ）１５に格納されている表示データをデータバス５を介して読み出し、ＣＲＴのデータ形式に変換してＣＲＴ１４に表示させる。
【００３１】
距離テーブル１６は、文字認識の誤認識傾向を距離値に変換して予め作成された参照専用のテーブルであり、参照データはデータバス５を介して距離計算部１７等へ送出される。尚、距離テーブル１６については、後に詳細に説明する。距離計算部１７は、２つの文字列間の距離（類似度）を、距離テーブル１６からの参照データを用いて動的計画法（ＤＰ）マッチングによって演算し、演算結果を内部メモリ等に格納する。尚、距離計算部１７についても、後に詳細に説明する。
【００３２】
領域分割部１８は、上記メモリ８のページ画像部２８に格納された画像データを参照して、文字領域（縦書き，横書き，ヘッダ，フッター領域）、写真画像領域、図形画像領域、及び、線分領域を抽出し、メモリ８の領域分割結果部２９に格納する。尚、上記領域分割は、例えば特開平４−１０５４８６号公報や特開平４−１１４５６０号公報等に開示された周知の方法によって行う。
【００３３】
図２は、上記メモリ８のページ画像部２８に格納された目次ページの画像に対して、上記領域分割部１８によって領域分割を行った結果の概念を示す。領域４１ａ，４１ｂは、ヘッダ横書き文字領域として抽出されている。また、領域４２，４３は、横書き文字領域として抽出されている。また、領域４４，４５は、縦書き文字領域として抽出されている。また、領域４６は、フッター横書き文字領域として抽出されている。尚、実際には、領域４１ａ，４１ｂの上側に存在する横線部や領域４５の下部に存在する電話機マーク等も、夫々線分領域や図形領域として抽出されるのであるが、本実施の形態は文字領域のみをリンク付けの対象とするのでこれらの抽出結果は省略している。
【００３４】
図３は、上記メモリ８のページ画像部２８に格納された索引ページの画像に対して、領域分割部１８によって領域分割を行った結果の概念を示す。領域５１はヘッダ横書き文字領域として、領域５２，５３は横書き文字領域として、領域５４はフッター横書き文字領域として抽出されている。
【００３５】
文字認識部１９は、上記メモリ８の領域分割結果部２９に格納された文字領域情報を用いてページ画像部２８に格納された画像データに対して、認識辞書２０を参照して文字認識を行う。そして、得られた認識結果をメモリ８の認識結果部３０に格納する。尚、上記文字認識は、例えば「確立モデルによる音声認識」（中川聖一著、電子情報通信学会、コロナ社、初版昭和６３年）に記載されているような「部分空間法」や「複合類似度」等によって行う。その際には、認識辞書２０には主成分分析によって求められた固有べクトル等が格納される。
【００３６】
リンク元ページ判定部２１は、上記メモリ８の認識結果部３０に格納された認識結果と、距離計算部１７によって演算された文字列間距離とに基づいて、予め設定されたキーワードおよびルールに従って、注目ページが目次や索引等のリンク元ページであるか否かを判断する。そして、判断結果を主制御部１に返す。リンク元オブジェクト抽出部２２は、上記メモリ８の書籍構造結果部３１に格納された書籍構造を参照して得られるリンク元ページを注目ページとし、メモリ８の認識結果部３０に格納された注目ページに対応する認識結果を参照して、注目ページの各行の認識結果をオブジェクト文字列部とページ番号文字列部とに分けてリンク元オブジェクトとして抽出する。そして、抽出結果をメモリ８のオブジェクト部３２に格納する。尚、ヒストグラムバッファ部３４には、リンク元オブジェクト抽出中に作成された文字高さ（幅）のヒストグラムが格納される。
【００３７】
クラスタリング部２３は、上記メモリ８のクラスタリングメモリ部３３に格納されている文字列集合に対して、距離計算部１７に指令して、例えば上記「確立モデルによる音声認識」（中川聖一著、電子情報通信学会、コロナ社、初版昭和６３年）に記載されているような「ＫＢＧアルゴリズム（基本的にはｋ−平均法と同じ）」等によってクラスタリングを行わせる。そして、各文字列に対するクラスタリング結果と各クラスタの代表文字列とをクラスタリングメモリ部３３に格納する。
【００３８】
書籍構造抽出部２４は、上記メモリ８の領域分割結果部２９および認識結果部３０の内容を参照しながら、書籍全体における各ページのヘッダまたはフッターを抽出してクラスタリングを行う。そして、クラスタリングメモリ部３３に格納された上記クラスタリングの結果に基づいて章や節等の書籍構造を抽出し、抽出結果を書籍構造結果部３１に格納する。
【００３９】
リンク先クラスタ判定部２５は、上記距離計算部１７に指令して、メモリ８のオブジェクト部３２に格納されている各リンク元オブジェクトのオブジェクト文字列と、書籍構造結果部３１に格納された各書籍構造の情報（章や節等）を代表する代表タイトル文字列との距離を算出させる。そして、リンク元のオブジェクト文字に対応するリンク先構造情報の先頭アドレスを求めて主制御部１に返す。
【００４０】
目次ページリンク決定部２６は、上記メモリ８のオブジェクト部３２に格納されている当該リンク元オブジェクトのページ番号文字列の数字と、リンク先クラスタ判定部２５によって求められた当該リンク元のオブジェクトに対応するリンク先の章や節の開始ページ番号との比較を、上記ページ番号文字列の数字を上記距離テーブル１６に格納された数字の距離値を参照して誤認識し易い数字に置換しながら一致するまで行い、その比較結果に基づいて目次ページのリンク付けを自動的に行う。そして、リンク付け結果のリンク先ページ番号をメモリ８のオブジェクト部３２に格納する。
【００４１】
図４は、こうして目次ページのリンク元オブジェクト（図２に示す目次ページにおける文字列５６「文字を入力する」）に自動的にリンク付けされた、リンク先ページの画像例である。
【００４２】
索引ページリンク決定部２７は、上記メモリ８のオブジェクト部３２に格納されている当該リンク元オブジェクトのオブジェクト文字列を、検索元文字列とする。また、オブジェクト部３２に格納されている当該リンク元オブジェクトのページ番号文字列を注目ページ番号とする。また、メモリ８の認識結果部３０に格納されている上記注目ページ番号のページに関する認識結果から、順次上記検索元文字列と同じ文字数の文字列を切り出して検索先文字列とする。そして、上記ページ番号を上述のようにして誤認識し易い数字に置換しながら距離計算部１７に指令して上記検索元文字列と検索先文字列との間の距離を算出させ、この距離が閾値以内であれば上記注目ページに検索先文字列が存在すると判定して、索引ページとのリンク付けを自動的に行う。そして、上記注目ページ番号をリンク先ページ番号としてメモリ８のオブジェクト部３２に格納する。
【００４３】
図５は、こうして索引ページのリンク元オブジェクト（図３に示す索引ページにおける文字列５７「カタカナ」）に自動的にリンク付けされた、リンク先ページの画像例である。
【００４４】
図６は、上記距離テーブル１６の概念図である。この距離テーブル１６は、上述したように、文字認識の誤認識傾向を基に予め作成しておく参照専用テーブルであり、その縦横のサイズが認識対象文字数（本実施の形態における認識対象文字数は４０００であるとする）の二次元テーブルである。各行および各列は認識対象の各文字に対応しており、行及び列で決まる２文字間の距離値が要素値として格納されている。この距離値のデータサイズは１バイトであり、距離値は０〜２５５までの整数値を取る。図６（ｂ）に、図６（ａ）における数字「０」行の数字「０」列から文字「Ｒ」列までの距離値の具体例を示す。図６（ｂ）に関してのみ言えば、数字「０」に最も距離が近い文字は「Ｏ（距離＝１）」であり、最も距離が遠い文字は「１（距離＝２５５）」である。その他の文字の列についても夫々距離値が設定してあり、距離値が小さい文字ほど数字「０」に形状が類似しており、誤認識し易いことを示す。尚、この距離テーブル１６は、予め、大量の認識評価実験の結果に基づいて作成しておく。
【００４５】
図７は、上記距離計算部１７の詳細なブロック図である。距離計算制御部６１は、データバス５を介して送出されてくる第１文字列データを第１文字列バッファ６２に格納する。同様に、第２文字列データを第２文字列バッファ６３に格納する。そして、データバス５を介して主制御部１，クラスタリング部２３，リンク先クラスタ判定部２５あるいは索引ページリンク決定部２７から送出されてくる距離計算命令に従って、ＤＰマッチング部６５に対して距離計算命令を送る。
【００４６】
そうすると、上記ＤＰマッチング部６５は、上記第１文字列バッファ６２および第２文字列バッファ６３と、距離テーブル１６（図１参照）とを参照し、下記の式（１）によって距離計算を行う。そして、得られた計算結果は距離バッファ６４に格納される。
【数１】

【００４７】
尚、上記ＤＰマッチングとは、要素数が異なる２つのデータ間（本実施の形態の場合は２つの文字列間）の最適経路による距離を求める演算方式で、古くから音声認識やオンライン手書き文字認識に採用されており、例えば上記「確立モデルによる音声認識」（中川聖一著、電子情報通信学会、コロナ社、初版昭和６３年）に記載されている。こうして、距離バッファ６４に格納された計算結果は、データバス５および距離計算制御部６１を介して、データバス５に接続された他のブロックから参照することができるのである。
【００４８】
図８は、上記メモリ８のページ画像部２８の詳細な構成概念図である。このページ画像部２８は、ヘッダ部６６と画像データ部６７とで構成される。ヘッダ部６６には、横画素数部６８，縦画素数部６９，データ長部（１画素当たり）７０およびモノクロ／カラー部７１が設けられている。そして、画像入力部６から又は外部記憶装置制御部９から画像データを書き込む場合には、１ページ当たりの画像のサイズやデータ長等の画像情報がヘッダ部６６に格納される一方、画像データが画像データ部６７に格納される。こうして、ページ画像部２８に格納された画像情報および画像データは、データバス５に接続された他のブロックから参照することができるのである。
【００４９】
図９は、上記メモリ８の領域分割結果部２９の詳細な構成概念図である。この領域分割結果部２９は、書籍１冊毎に複数の領域結果部７４に分割されており、各領域結果部７４には、先頭から順に一領域の分割結果が格納される。また、上記一つの領域結果部７４は、その領域がどのような種類の領域であるかを示す領域フラグ部７５と、ページ番号が格納されるページ番号部７６と、当該ページ内での領域番号が格納される領域番号部７７と、当該領域の矩形領域に間する開始Ｘ座標が格納される開始Ｘ座標部７８と、上記矩形領域の開始Ｙ座標が格納される開始Ｙ座標部７９と、上記矩形領域の終了Ｘ座標が格納される終了Ｘ座標部８０と、上記矩形領域の終了Ｙ座標が格納される終了Ｙ座標部８１で構成されている。尚、領域フラグ部７５〜終了Ｙ座標部８１には、何れもバイナリデータが格納される。
【００５０】
上記領域フラグ部７５に格納されるバイナリデータの各ビットは夫々以下のような意味を有している。すなわち、下位ビットから順に、文字領域ビット（１：文字領域）、写真領域ビット（１：写真領域）、図形領域ビット（１：図形領域）、線分領域ビット（１：線分領域）、縦／横ビット（１：横、０：縦）、ヘッダ−フッタービット（１：ヘッダ、０：フッター）の順で構成されている。ここで、上記縦／横ビットは、当該領域が文字領域あるいは線分領域である場合にセットされ、文字領域である場合には縦書きか横書きかを示し、線分領域である場合には縦線か横線かを示す。
【００５１】
こうして、上記領域分割結果部２９に格納された領域分割結果は、データバス５に接続された他のブロックから参照することができるのである。
【００５２】
図１０は、上記メモリ８の認識結果部３０の詳細な構成概念図である。この認識結果部３０は、領域分割部１８によって分割された１領域毎に、ヘッダ部８５と認識結果部８６で構成されている。ヘッダ部８５は固定長であり、図１０（ａ）に示すように、領域分割結果部２９へのポインタ８７と文字数部８８とに分けられる。ここで、ポインタ８７には、当該認識結果に係る認識領域を示す領域分割結果部２９へのポインタであり、図９における複数の領域結果部７４のうち該当する領域結果部７４の先頭アドレスが上記ポインタとして格納される。このポインタによって、認識対象領域に関する図９に示す各種情報と認識結果とが対応付けられるのである。尚、文字数部８８には、認識結果の文字数が格納される。
【００５３】
また、上記認識結果部８６には該当する領域の認識結果が格納され、そのサイズは可変長である。ここで、この認識結果のサイズは、ヘッダ部８５の文字数部８８を参照することによって分かる。認識結果部８６は、図１０（ｂ）に示すように、ヘッダ部８５の文字数部８８に格納された文字数（図１０（ｂ）では「Ｎ」）分の文字認識結果が格納される結果部８９を有する。１文字分の結果部８９は、コード部９１と、類似度部９２と、開始Ｘ座標部９３と、開始Ｙ座標部９４と、終了Ｘ座標部９５と、終了Ｙ座標部９６で構成されている。そして、コード部９１には、該当文字の認識結果コードが格納される。また、類似度部９２には、上述した部分空間法や複合類似度法によって計算された類似度が格納される。また、開始Ｘ座標部９３〜終了Ｙ座標部９６には、切り出し座標が格納される。尚、コード部９１には、認識処理での行切り出し結果や空白抽出結果に基づいて、行末を示す改行コードや空白を示すスペースコードも格納される。そして、コード部９１に上記改行コードやスペースコードが格納された場合には、類似度部９２〜終了Ｙ座標部９６のデータは「０」クリアされる。
【００５４】
図１１は、上記メモリ８の書籍構造結果部３１の詳細な構成概念図である。この書籍構造結果部３１は、書籍１冊分が複数の構造情報部１００に分割されており、各構造情報部１００には先頭から順に構造情報が格納される。ここで、各構造情報部１００のサイズは固定長である。また、一つの構造情報部１００は、代表タイトル文字列部１０１と、文字数部１０２と、開始ページ番号部１０３と、終了ページ番号部１０４で構成されている。そして、代表タイトル文字列部１０１には、各ページのヘッダ文字列またはフッター文字列をクラスタリングすることによって求められた各クラスタの代表タイトルの文字列が格納される。また、文字数部１０２には、上記代表タイトル文字列の文字数が格納される。また、開始ページ番号部１０３には、上記何れかのクラスタで表される該当構造の開始ページ番号が格納される。また、終了ページ番号部１０４には、該当構造の終了ページ番号が格納される。
【００５５】
図１２は、上記メモリ８のオブジェクト部３２の詳細な構成概念図である。このオブジェクト部３２は、書籍１冊分が複数のオブジェクト格納部１０５に分割されており、各オブジェクト格納部１０５には、先頭から順にオブジェクト情報が格納される。ここで、各オブジェクト格納部１０５のサイズは固定長である。また、一つのオブジェクト格納部１０５は、オブジェクト文字列部１０６と、ページ番号文字列部１０７と、オブジェクト文字列文字数部１０８と、ページ番号文字列文字数部１０９と、リンク元ページ番号部１１０と、開始Ｘ座標部１１１と、開始Ｙ座標部１１２と、終了Ｘ座標部１１３と、終了Ｙ座標部１１４と、目次・索引フラグ部１１５と、リンク先ページ番号部１１６で構成されている。そして、オブジェクト文字列部１０６およびページ番号文字列部１０７には、リンク元オブジェクト抽出部２２で抽出されたオブジェクト文字列とページ番号文字列とが格納される。また、オブジェクト文字列文字数部１０８およびページ番号文字列文字数部１０９には、上記オブジェクト文字列およびページ番号文字列の文字数が格納される。また、リンク元ページ番号部１１０には、該当オブジェクトが存在したページ番号（リンク元ページ番号）が格納される。また、開始Ｘ座標部１１１〜終了Ｙ座標部１１４には、該当オブジェクト文字列の外接矩形座標が格納される。また、目次・索引フラグ部１１５には、該当オブジェクトが存在するページは目次ページであるか索引ページであるかが格納される。具体的には、目次ページである場合には「０（０ｘ００）」が格納され、索引ページである場合には「１（０ｘ０１）」が格納される。また、リンク先ページ番号部１１６には、リンク元オブジェクト抽出部２２によって各オブジェクトが抽出された段階では、初期値（０ｘｆｆ）が格納されている。そして、目次ページリンク決定部２６や索引ページリンク決定部２７によってリンク先ページ番号が決定された時点で、この決定されたリンク先ページ番号が格納される。
【００５６】
図１３は、上記メモリ８のクラスタリングメモリ部３３の詳細な構成概念図である。このクラスタリングメモリ部３３は、書籍１冊分が複数のデータ部１２１に分割されており、各データ部１２１には先頭から順にデータ（ヘッダ情報またはフッダー情報）が格納される。一つのデータ部１２１は、文字列部１２２と、文字列文字数部１２３と、ページ番号部１２４と、クラスタ番号部１２５と、クラスタ代表フラグ部１２６で構成されている。ここで、文字列部１２２〜ページ番号部１２４の値は書籍構造抽出部２４によって設定され、クラスタ番号部１２５およびクラスタ代表フラグ部１２６にはクラスタリング部２３でクラスタリングされた結果が格納される。
【００５７】
上記構成の自動オーサリング装置は、以下のように動作する。図１４は、上記主制御部１の制御の下に行われる自動オーサリング処理動作のフローチャートである。
【００５８】
ステップＳ１で、書籍１冊分の画像データが入力されてメモリ８のページ画像部２８に格納される。ここで、上記書籍が紙書籍である場合には、画像入力部６が制御されて、スキャナ７で読み取られた紙書籍の画像データがデータバス５を介してメモリ８のページ画像部２８に送出されて格納される。また、上記書籍の画像データが外部記憶装置１０に蓄積されている場合には、外部記憶装置制御部９が制御されて、外部記憶装置１０の書籍画像ファイル１１から読み出された所望の画像データがデータバス５を介してメモリ８のページ画像部２８に送出されて格納される。
【００５９】
ステップＳ２で、上記領域分割部１８が制御されて、上記ステップＳ１においてページ画像部２８に格納された画像データに対して領域分割処理が行われる。そして、図２や図３のように得られた領域分割結果の情報が、図９に示すようなフォーマットでメモリ８の領域分割結果部２９に格納される。
【００６０】
ステップＳ３で、上記文字認識部１９が制御されて、上記ステップＳ２において領域分割されて領域分割結果部２９に格納された領域分割結果を用いて文字認識処理が行われる。その場合の文字認識処理は、次のように行われる。すなわち、図９に示す領域分割結果部２９の第１領域結果部７４から順に領域フラグ部７５を参照して文字領域の領域結果部７４を探す。そして、文字領域の領域結果部７４における開始Ｘ座標部７８〜終了Ｙ座標部８１から領域座標を求め、この領域座標に該当する画像データをページ画像部２８から読み出し、この文字領域の画像データに対して文字認識処理を行うのである。こうして得られた認識結果は、メモリ８の認識結果部３０に格納される。
【００６１】
以上のステップＳ１〜ステップＳ３までの処理は、以降の自動リンク付けを行うための前処理であり、１冊の書籍分総ての画像データに対して、各ページ画像毎に順次実行される。したがって、上記ステップＳ３が終了した時点では、メモリ８の領域分割結果部２９および認識結果部３０には、１冊の書籍分のデータが保持されることになる。
【００６２】
ステップＳ４で、上記書籍構造抽出部２４，クラスタリング部２３および距離計算部１７が制御されて、上記領域分割結果および文字認識結果に基づいて書籍構造が次のようにして抽出される。すなわち、メモリ８の領域分割結果部２９および認識結果部３０から、当該書籍１冊分の全ヘッダ領域または全フッター領域の認識結果文字列が抽出されて、クラスタリングメモリ部３３に格納される。そして、この格納された全文字列を母集団としたクラスタリングが行われて、「章」や「節」等の単位に上記文字列を分類することによって書籍構造が抽出されるのである。こうして抽出された書籍構造の代表タイトル文字列や領域座標等の情報は、メモリ８の書籍構造結果部３１に格納される。
【００６３】
ステップＳ５で、上記リンク元ページ判定部２１が制御されて、次のようにしてリンク元ページ判定が行われる。すなわち、メモリ８の認識結果部３０に格納されているページ画像毎の認識結果を入力データとし、予め設定されたキーワードとルールとに基づいて、注目ページが、目次ページ，索引ページおよびそれ以外のページの何れに属するかが判定されるのである。
【００６４】
ステップＳ６で、上記リンク元オブジェクト抽出部２２が制御されて、上記注目ページが目次ページあるいは索引ページである場合（つまりリンク元ページである場合）には、次のようにしてリンク元オブジェクト抽出処理が行われる。すなわち、メモリ８の認識結果部３０から注目ページの認識結果が読み出される。そして、各行毎に「項目（オブジェクト文字列）」と「ページ番号」とに分離して上記「項目」の切り出し座標およびリンク元のページ番号文字列等と共に抽出され、メモリ８のオブジェクト部３２に格納される。
【００６５】
ステップＳ７で、上記目次ページリンク決定部２６，索引ページリンク決定部２７，リンク先クラスタ判定部２５および距離計算部１７が制御されて、次のようにして上記ステップＳ６において抽出されたオブジェクトとリンク先ページとのリンク付けが行われる。すなわち、注目オブジェクトが上記目次ページに在る場合には、書籍構造結果部３１の各代表タイトル文字列とオブジェクト部３２における注目オブジェクトのオブジェクト文字列との距離計算が行われ、計算結果に基づいてリンク先の「章」や「節」の構造情報（リンク先構造情報）が得られる。そして、オブジェクト部３２における注目オブジェクトのページ番号文字列部１０７と、距離テーブル１６と、書籍構造結果部３１のリンク先の構造情報部１００における開始ページ番号部１０３とに基づいて、後に詳述するようにして、リンク元ページやリンク先ページのオブジェクトの誤認識を吸収した自動リンク付けが行われる。
【００６６】
これに対して、注目オブジェクトが上記索引ページに在る場合には、オブジェクト部３２における注目オブジェクトのページ番号文字列部１０７からページ番号を読み出して注目ページとし、オブジェクト部３２における注目ページの認識結果中に注目オブジェクトが存在するか否かを、認識結果部３０および領域分割結果部２９の内容と距離計算部１７の計算結果とに基づいて誤認識を吸収して判定する。そして、存在する場合には索引ページ注目オブジェクトと上記注目ページであるリンク先ページとがリンク付けされる。
【００６７】
こうして上記目次ページまたは索引ページの注目オブジェクトにリンク付けられたリンク先ページのページ番号が、オブジェクト部３２のリンク先ページ番号部１１６に格納される。
【００６８】
ステップＳ８で、上記外部記憶装置制御部９が制御されて、メモリ８のオブジェクト部３２に格納されているリンク情報（リンク元ページ番号やオブジェクト切り出し座標やリンク先ページ番号等）が読み出され、書籍コンテンツファイル１２のリンク情報形式に変換されて書籍コンテンツファイル１２に格納される。こうして結果出力が行われた後、自動オーサリング処理動作を終了する。
【００６９】
以下、この発明の特徴である書籍構造抽出，リンク元ページ判定，リン元オブジェクト抽出および目次ページまたは索引ページの自動リンクに付いて、さらに詳細に説明する。
【００７０】
図１５は、図１４に示す自動オーサリング処理動作のフローチャート中の上記ステップＳ４において実行される書籍構造抽出サブルーチンのフローチャートを示す。図１４における上記ステップＳ３において１冊の書籍分総ての画像データに対する文字認識処理が終了すると書籍構造抽出サブルーチンがスタートする。
【００７１】
ここで、上記書籍構造抽出処理動作の説明に先立って、クラスタリングによる書籍の構造抽出の概念について説明する。図１６は、ある書籍の全ページのヘッダ部における正解文字列とこの正解文字列の文字認識結果と誤認識結果との一例を示す。
【００７２】
現在の文字認識技術では、認識手法や言語処理方式の発展に伴って以前に比べてその認識率も速度も飛躍的に向上しているものの、図１６に示すように誤認識は発生する。特に、形態が類似している類似文字において誤認識が著しい。尚、図１６に示す例の場合には、正解文字列と文字認識結果との文字数に違いは生じていないが、実際に大量の文字の文字認識を行うと、幾つかの個所では正解文字列と文字認識結果とに文字数の違いが生ずる。これは、認識対象文字画像データに含まれる接触文字や分離文字に対する切り出し処理のエラーに起因する。そこで、本実施の形態においては、上述の誤認識は今後も発生し続ける−文字認識では１００％の認識率はありえない−と想定し、これらの誤認識を吸収しつつ自動リンク付けを行うのである。
【００７３】
本実施の形態において用いるＤＰマッチングは、上述したように、要素数の異なる２つのデータ間（文字数の異なる２つの文字列間）の距離を演算するものである。そして、本実施の形態において用いる２文字間の距離テーブル１６は、採用する認識手法から見た誤認識のし易さ（特徴空間での文字の類似性）を反映したテーブルである。したがって、上記式（１）によって求められる２文字列間距離は、当該２文字列間における文字列長の差異を吸収した最適な２文字列間の距離となるのである。そして、２文字列間の距離が算出できれば、パターン認識の分野でよく行われているクラスタリング手法（例えば、ＬＢＧアルゴリズム，ｋ−平均法あるいはＷａｒｄ方等）が適用可能となるのである。
【００７４】
図１７は、図１６の文字認識結果に対するクラスタリング結果を二次元平面１３０上に示した図である。クラスタ１３１は文字列「文字を入力する」を代表文字列とするクラスタであり、クラスタ１３２は文字列「データを移動・複写する」を代表文字列とするクラスタであり、クラスタ１３３は文字列「電話帳を作る」を代表文字列とするクラスタであり、クラスタ１３４は文字列「電話帳から探す」を代表文字列とするクラスタである。ここで、上記文字認識結果の文字列は、上記２文字列間距離に基づいて各クラスタ毎に「章」や「節」の単位として分類される。
【００７５】
以上が、上記書籍構造抽出処理の概念の説明である。つまり、上記書籍構造抽出処理によれば、不完全なテキストをＤＰマッチングと誤認識度合いを反映した距離テーブル１６とに基づいてクラスタリングを行なうことによって、各クラスタを構成する文字列が掲載されたページの集合が、書籍を構成する「章」や「節」の単位として抽出されるのである。
【００７６】
以下、図１５に従って、上記書籍構造抽出処理動作について説明する。書籍構造抽出処理は、上述したように、書籍１冊の全ページ画像に対する領域分割および文字認識が終了すると開始される。
【００７７】
ステップＳ１１で、上記ヘッダあるいはフッターの何れかが処理対象文字列として選択される。これは、メモリ８の認識結果部３０の総ての認識結果におけるポインタ８７（図１０参照）で示される領域分割部２９の該当する領域結果部７４を求め、この領域結果部７４の領域フラグ部７５における最下位から６ビット目のバイナリデータを参照することによってヘッダあるいはフッターに該当する認識結果を識別する。そして、ヘッダあるいはフッターに該当する認識結果の文字列長をメモリ８の認識結果部３０の該当する文字数部８８から読み出し、ヘッダに該当する認識結果の文字列長の総和と、フッターに該当する認識結果の文字列長の総和とを算出する。その結果、ヘッダおよびフッターのうち文字列長の総和が大きい方（つまり、情報量の多い方）を、書籍構造抽出処理の対象文字列とする。以下の説明においては、便宜上ヘッダーが対象文字列となった場合を想定する。
【００７８】
ステップＳ１２で、各ページのヘッダあるいはフッターの文字列が抽出されて、メモリ８のクラスタリングメモリ部３３に格納される。これは、メモリ８の認識結果部３０のポインタ８７で示される領域分割部２９の該当する領域結果部７４の領域フラグ部７５を参照してヘッダ（対象文字列はヘッダと仮定している）の認識結果を探し、認識結果部３０におけるヘッダの認識結果に該当する文字数部８８で示される文字数だけコード部９１からコード情報を読み出す。そして、メモリ８のクラスタリングメモリ部３３における文字列部１２２にコード情報（文字列）を格納し、文字列文字数部１２３に上記文字数を格納し、ページ番号部１２４には領域分割結果部２９の該当文字列の領域結果部７４におけるページ番号部７６の内容を格納することによって行われる。
【００７９】
ステップＳ１３で、上記ステップＳ１２に示すようにしてメモリ８のクラスタリングメモリ部３３に格納された全ヘッダ（または全フッター）の文字列を母集団として、ＬＢＧアルゴリズムによってクラスタリングが行われる。その際における２文字列間の距離は、距離計算部１７によって距離テーブル１６を参照することによって求められる。そして、クラスタリングの結果として、各ヘッダ（各フッター）文字列毎に、その文字列が属するクラスタリング番号がクラスタリングメモリ部３３のクラスタ番号部１２５に格納される。さらに、その文字列がそのクラスタの代表文字列である場合には、クラスタリングメモリ部３３のクラスタ代表フラグ部１２６に「１」が格納される。
【００８０】
ステップＳ１４で、上記ステップＳ１３において、メモリ８のクラスタリングメモリ部３３に格納されたクラスタリング結果から書籍構造が抽出され、メモリ８の書籍構造結果部３１に出力される。すなわち、各クラスタの代表文字列が代表タイトル文字列部１０１に格納される。また、代表文字列の文字数が文字数部１０２に格納される。また、各クラスタを構成するヘッダ文字列（またはフッター文字列）のページ番号を検索して得られた最小値が開始ページ番号部１０３に格納される一方、最大値が終了ページ番号１０４に格納されるのである。そうした後に、書籍構造抽出処理を終了して図１４に示す自動オーサリング処理動作のフローチャートにリターンする。
【００８１】
上記書籍構造の抽出結果を、図１６および図１７を例に具体的に述べれば次の様になる。すなわち、書籍構造結果部３１の第１構造情報部１００には、代表タイトル文字列「文字を入力する」、開始ページ番号「１」、終了ページ番号「９」が格納される。また、第２構造情報部１００には、代表タイトル文字列「データを移動・複写する」、開始ページ番号「１０」、終了ページ番号「１７」が格納される。第３構造情報部１００には、代表タイトル文字列「電話帳を作る」、開始ページ番号「１８」、終了ページ番号「２２」が格納される。また、第４構造情報部１００には、代表タイトル文字列「電話帳から探す」、開始ページ番号「２３」、終了ページ番号「２８」が格納されるのである。
【００８２】
上述のようにして得られた書籍構造結果は、後述する目次ページからの自動リンク付け処理時において、目次ページの誤認識を吸収するために用いられる。
【００８３】
このように、各ヘッダ（フッター）の文字列に対してクラスタリングを行って代表文字列を求めることによって、図１６及び図１７に示すように、各クラスタのメンバ文字列中に存在する誤認識結果を吸収して上記書籍構造を抽出することができるのである。
【００８４】
図１８は、図１４に示す自動オーサリング処理動作のフローチャート中の上記ステップＳ５において実行されるリンク元ページ判定サブルーチンのフローチャートである。図１４における上記ステップＳ４において書籍構造抽出処理が終了するとリンク元ページ判定サブルーチンがスタートする。
【００８５】
ここで、上記リンク元ページ判定部２１に対する入力データは注目ページ番号であり、上記注目ページは「目次ページ」，「索引ページ」または「その他のページ」の何れであるかが出力データである。この入出力データは、データバス５を介して主制御部１とリンク元ページ判定部２１との間で通信される。尚、上述したように、上記リンク元ページ判定処理はルールに基づいて行われるのであるが、その場合のルールは、
・目次ページや索引ページの行末はリンク先ページ数を表す数字が多い
・目次ページや索引ページ中の認識結果には目次や索引を表すキーワードが存在する
である。但し、キーワード検索は完全一致検索ではなく、距離計算部１７によって求めたキーワードと検索文字列間の距離が閾値以下である場合にはキーワードは存在すると判定する。これは、文字認識部１９による目次ページや索引ページの文字列に対する誤認識を吸収するためである。
【００８６】
ステップＳ２１で、上記主制御部１から送出されてくる「注目ページ」に関する認識結果が走査される。これは、メモリ８の領域分割結果部２９と認識結果部３０とを参照することによって行う。そして、この走査結果から以下の情報が求められる。（１）全行数に対する末尾文字が数字である行数の比率の算出。（２）目次キーワード「目次」，「もくじ」，「Ｃｏｎｔｅｎｔｓ」，「コンテンツ」に対する最小距離文字列の検索とその最小距離の算出。（３）索引キーワード「索引」，「さくいん」，「Ｉｎｄｅｘ」，「インデックス」に対する最小距離文字列の検索とその最小距離の算出。
【００８７】
ここで、上記３つの情報の算出は次の様にして行う。
（１）は、上記注目ページの全行数と末尾文字が数字である行数とを算出する。そして、末尾文字が数字である行数の全行数に対する百分率（以下、行末数字比率と言う）を算出する。
（２）は、注目ページに関する認識結果の各文字を先頭文字として固定して、順次目次キーワード「目次」，「もくじ」，「Ｃｏｎｔｅｎｔｓ」，「コンテンツ」と同じ文字数となる文字列を切り出す。そして、目次キーワードと切り出し文字列との距離を距離計算部１７によって行い、最小距離を求める。
（３）は、索引キーワード「索引」，「さくいん」，「Ｉｎｄｅｘ」，「インデックス」に関して上記（２）と同じ処理を行って、索引キーワードと切り出し文字列との最小距離を求める。
【００８８】
ステップＳ２２で、上記ステップＳ２１における（１）で算出された行末数字比率が８０％以上であるか否かが判別される。その結果、８０％以上であればステップＳ２３に進み、そうでなければステップＳ２７に進む。ステップＳ２３で、目次キーワードの存在が判定される。これは、上記ステップＳ２１における（２）で算出された目次キーワードと切り出し文字列との最小距離が閾値（例えば「５０」）以下であるか否かによって行われる。そして、上記最小距離が閾値以下であれば目次キーワードは存在すると判定されてステップＳ２４に進む。一方、上記閾値より大きければステップＳ２５に進む。ステップＳ２４で、注目ページは目次ページであることを表す値「０（０ｘ００）」が出力される。そうした後に、リンク元ページ判定処理を終了して図１４に示す自動オーサリング処理動作のフローチャートにリターンする。
【００８９】
ステップＳ２５で、上記索引キーワードの存在が判定される。これは、上記ステップＳ２１における（３）で算出された索引キーワードと切り出し文字列との最小距離が閾値（例えば「５０」）以下であるか否かによって行われる。そして、上記最小距離が閾値以下であれば索引キーワードは存在すると判定されてステップＳ２６に進む。一方、上記閾値より大きければステップＳ２７に進む。ステップＳ２６で、注目ページは索引ページであることを表す値「１（０ｘ０１）」が出力される。そうした後、リンク元ページ判定処理を終了して図１４に示す自動オーサリング処理動作のフローチャートにリターンする。
【００９０】
ステップＳ２７で、注目ページはその他のページであることを表す値「０ｘｆｆ」が出力される。そうした後、リンク元ページ判定処理を終了して図１４に示す自動オーサリング処理動作のフローチャートにリターンする。
【００９１】
図１９は、図１４に示す自動オーサリング処理動作のフローチャート中の上記ステップＳ６において実行されるリンク元オブジェクト抽出サブルーチンのフローチャートである。図１４における上記ステップＳ５においてリンク元ページ判定処理が終了するとリンク元オブジェクト抽出サブルーチンがスタートする。
【００９２】
図２０は、図３に示す索引ページの画像における上から３行目までを抽出した索引の一例を示す。索引は、項目とページ番号とが何某かのセパレータで分離されている構成されているのが普通である。図２０（ａ）に示す例では、項目とページ番号とがセパレータ「…」で分離されている。また、図２０（ｂ）に示す例では、項目とページ番号とがセパレータ「―」で分離されている。また、図２０（ｃ）に示す例では、項目とページ番号とがセパレータ「空白」で分離されている。目次ページの場合には縦書きが多いが、基本的には索引ページと同様にセパレートされている。
【００９３】
このように、目次ページの場合も索引ページの場合も、項目文字列方向に直交する方向への幅が項目文字幅に比べて非常に小さい記号文字または空白の連続がセパレータとなっているものが殆どである。そこで、本実施の形態においては、この特徴を利用して目次ページあるいは索引ページからのオブジェクト切り出しを行うのである。尚、以下の説明では、リンク元ページは横書きであり、項目および数字は行方向に配列されているものとする。
【００９４】
ステップＳ３１で、上記リンク元ページ判定処理によってリンク元ページと判定されたページの認識結果から、各行単位に、文字高さ（縦書きの場合には文字幅）のヒストグラムが作成される。このヒストグラムの作成は、認識結果部３０の開始Ｘ座標部９３〜終了Ｙ座標部９６の内容を入力データとして各文字の高さ（幅）を求め、その頻度を算出することによって作成する。こうして作成されたヒストグラムは、メモリ８のヒストグラムバッファ部３４に格納される。
【００９５】
ステップＳ３２で、上記ステップＳ３１において作成されたヒストグラムに対して判別分析による二値化閾値が計算される。尚、上記判別分析アルゴリズムは、電子情報通信学会論文誌８０／４Ｖｏｌ．Ｊ６３−ＤＮｏ．「判別および最小２乗基準に基づく自しきい値選定法」に記載されている計算方法を用いる。この判別分析法の利点は、パラメータが不要で且つ最適な閾値を計算できる点である。
【００９６】
図２１は、上記文字高さのヒストグラムおよび二値化閾値の例を示す。図２１において横軸はサイズ（文字高さを表す画素数）を示し、縦軸は頻度を示す。図中○印１４１で囲まれた部分は高さが小さい記号文字（列方向で言えば「…」や「−」）の高頻度部を表し、○印１４２で囲まれた部分は高さが通常の文字の高頻度部を表している。そして、高さが小さい記号文字の山と高さが通常の文字の山との間に、判別分析で求められた二値化閾値Ａが存在する。そこで、二値化閾値Ａより小さいサイズの文字をセパレータ候補であると判定するのである。
【００９７】
ところで、文字の大小関係は原稿フォントによって変動する。そこで、本実施の形態においては、文字の高さ（幅）のヒストグラムに対して判別分析を行って二値化閾値Ａを算出することによって、文字の大小判定を動的に行うのである。
【００９８】
ステップＳ３３で、注目行において、上記セパレータ候補は「空白」であるか否かが判別される。その結果、「空白」であればステップＳ３６に進み、そうでなければステップＳ３４に進む。ここで、「空白」の判定は以下のような判定条件に基づいて行う。すなわち、
（１）行（列）の中心付近にその行（列）における最大空白（文字間隔）が存在し、その空白長が行（列）長の２０％以上である。
（２）判別分析で求めた二値化閾値Ａ以下の文字高さ（幅）の平均が、行の高さ（列の幅）の５０％よりも大きい（小さい記号が存在しない）。
である。そして、上記２つの判定条件のうち何れか１つでも満たす場合には、上記セパレータは「空白」であると判定するのである。
【００９９】
ステップＳ３４で、上記セパレータは「空白」ではないので、以下のような仮区間の設定が行われる。これは、上記ステップＳ３２において求められた二値化閾値Ａ以下の高さ（幅）を有する全文字（記号）を注目行から抽出し、二値化閾値Ａ以下の高さ（幅）の文字（記号）が連続する最大区間を抽出し、この最大区間の両端を仮のセパレータ開始文字とセパレータ終了文字として設定することによって行う。
【０１００】
ステップＳ３５で、上記セパレータを抽出するセパレータ抽出が行われる。殆どの場合には、上記ステップＳ３４における仮区間の設定によってセパレータ区間が抽出される。ところが、切り出すべきオブジェクト文字列の終了が小文字（ぁ，っ，ゃ，ュ，ョ等）であった場合にその小文字がセパレータ文字と判定される場合がある。そのようなエラーを修正するために本セパレータ抽出が行われる。これは、上記仮区間の左右両端の文字を順次１つずつ消去しながら文字高さ（文字幅）の分散を求め、その分散が最小となり且つ文字列の長さが最大となる区間を上記セパレータとして抽出するのである。そして、注目行における上記抽出されたセパレータによって分離された左側（縦書きの場合には上側）の認識結果がオブジェクト文字列（項目文字列）となり、右側（下側）の認識結果がページ番号文字列となるのである。
【０１０１】
ステップＳ３６で、空白切り出しが行われる。これは、上記セパレータは「空白」であるので、注目行の中心付近で最大長の「空白」列を上記セパレータとすることによって行う。そして、上記セパレータによって分離された左側（上側）の認識結果がオブジェクト文字列（項目文字列）となり、右側（下側）の認識結果がページ番号文字列となる。
【０１０２】
ステップＳ３７で、上記ステップＳ３５において抽出されたセパレータおよび上記ステップＳ３６において切り出されたセパレータの情報に基づいて、上記セパレータより左右（上下）の認識結果がリンク元オブジェクトとして抽出される。ステップＳ３８で、上記ステップＳ３７において、上述のようにして各行の認識結果から抽出されたリンク元オブジェクトの情報が、順次出力されて、メモリ８のオブジェクト部３２における該当するオブジェクト格納部１０５に格納される。そうした後、リンク元オブジェクト抽出処理を終了して図１４に示す自動オーサリング処理動作のフローチャートにリターンする。
【０１０３】
上記リンク元オブジェクト抽出結果を、図２０における文字列「カタカナ」を例に具体的に述べれば次の様になる。すなわち、オブジェクト部３２の該当オブジェクト格納部１０５におけるオブジェクト文字列部１０６には抽出オブジェクト「カタカナ」（誤認識文字はそのまま含んで）が格納される。また、ページ番号文字列部１０７には抽出オブジェクト「３０」（誤認識文字はそのまま含んで）が格納される。また、オブジェクト文字列文字数部１０８には抽出オブジェクト“カタカナ”の文字数「４」が格納される。また、ページ番号文字列文字数部１０９には抽出オブジェクト“３０”の文字数「２」が格納される。また、リンク元ページ番号部１１０には当該リンク元ページの番号「３５２」（図３の領域５４を参照）が格納される。また、開始Ｘ座標部１１１〜終了Ｙ座標部１１４には抽出オブジェクト“カタカナ”の外接矩形座標が格納される。また、目次・索引フラグ部１１５には当該リンク元ページは索引ページであることを示す「１（目次の場合には０）」（図３の領域５１を参照）が格納される。また、上記リンク先ページ番号部１１６には、リンクが張られていないことを表す初期値「０ｘｆｆ」が格納されるのである。
【０１０４】
上述したように、上記領域分割処理、文字認識処理、書籍構造抽出処理、リンク元ページ判定処理、リンク元オブジェクト抽出処理が順次行われて、目次ページや索引ページに存在する総てのオブジェクトが抽出されると、本実施の形態における最も特徴的な自動リンクサブルーチンが行われるのである。
【０１０５】
図２２は、図１４に示す自動オーサリング処理動作のフローチャート中の上記ステップＳ７において実行される自動リンクサブルーチンのフローチャートである。図１４における上記ステップＳ６においてリンク元オブジェクト抽出処理が終了すると自動リンクサブルーチンがスタートする。
【０１０６】
ステップＳ４１で、上記抽出された全リンク元オブジェクトが順に走査されて、注目オブジェクトが目次ページのオブジェクトであるか索引ページのオブジェクトであるかが判別される。これは、リンク元ページ判定部２１の判定結果に基づいて、リンク元オブジェクト抽出部２２によってオブジェクト部３２に格納された目次・索引フラグ部１１５の内容を参照し、「０」であれば注目オブジェクトは目次ページのオブジェクトであると判別する一方、「１」であれば索引ページのオブジェクトであると判別することで行う。そして、目次ページのオブジェクトであると判別された場合にはステップＳ４２に進む一方、索引ページのオブジェクトであると判別された場合にはステップＳ４６に進む。
【０１０７】
ステップＳ４２で、注目オブジェクトに対するリンク先構造情報の決定が行われる。これは、リンク先クラスタ判定部２５によって、注目オブジェクトの文字列（オブジェクト部３２のオブジェクト文字列部１０６に格納されている）と、書籍構造結果部３１における全構造情報部１００の代表タイトル文字列部１０１に格納された代表タイトル文字列との距離を、距離計算部１７によって算出する。そして、最小距離を呈する代表タイトル文字列に関する書籍構造情報をリンク先構造情報として決定することによって行う。
【０１０８】
上述のようにリンク先の決定にリンク元オブジェクト文字列と代表タイトル文字列との距離を用いることによって、リンク元オブジェクト文字列あるいは代表タイトル文字列に対する誤認識を吸収することができる。例えば、図１６に示すヘッダ情報を有する書籍における目次ページの認識結果および誤認識結果の例を図２３に示す。このように、文字列の認識には誤認識が付きまとうため（また、ヘッダ部分の文字列も正確に認識されるとは限らず）、常に誤認識を考慮した処理が必要となるのである。
【０１０９】
具体的に説明すれば、図１６に示すヘッダ情報に対するクラスタリング処理結果から得られた代表タイトル文字列を「文字を入力する」，「データを移動・複写する」，「電話帳を作る」および「電話帳から探す」（図１７）とし、同じ書籍における目次ページの認識結果を図２３とした場合、上記リンク先構造情報の決定処理は、例えば注目オブジェクトの文字列を「文字を入カする（「入力」の漢字「力」が片仮名「カ」に誤認識されている）」と、各代表タイトル文字列を「文字を入力する」，「データを移動・複写する」，「電話帳を作る」及び「電話帳から探す」との距離を計算し、最も距離が近い代表タイトル文字列「文字を入力する」をリンク先構造情報として決定するのである。したがって、注目オブジェクトの文字列に誤認識文字が含まれていても正しいリンク先構造情報が得ることができるのである。
【０１１０】
ステップＳ４３で、リンク付け可能か否かの判定が行われる。これは、オブジェクト部３２における注目オブジェクトのオブジェクト格納部１０５におけるページ番号文字列部１０７の内容を数値に変換し、この数値が、書籍構造結果部３１における上記決定されたリンク先構造情報（書籍構造）の開始ページ番号部１０３の内容（数値）と合致するか否かが判別することによって行われる。そして、合致する場合（つまり、リンク付け可能な場合）にはステップＳ５０に進み、そうでなければステップＳ４４に進む。
【０１１１】
ステップＳ４４で、ページ番号文字列の置き換えが行われる。これは、注目オブジェクトのオブジェクト格納部１０５におけるページ番号文字列部１０７の内容を、距離テーブル１６における例えば行がページ番号文字列部１０７の内容であり例えば列が数字である部分から要素値（距離）が閾値（例えば「５０」）以内で且つ最小値を呈する列の数字に置き換えることによって行われる。
【０１１２】
ステップＳ４５で、上記ステップＳ４４におけるページ番号文字列の置き換えは可能であったか否かが判別される。これは、要素値（距離）が上記閾値以内である数字が距離テーブル１６に存在したか否かを判別することによって行われる。そして、置き換えが可能であった場合には、上記ステップＳ４３に戻って置換された数字に関してリンク付け可能か否かの判定が行われる。一方、置き換えが不可能であった場合にはステップＳ５０に進む。
【０１１３】
ステップＳ４６で、注目ページにおける注目オブジェクトの検索が行われる。これは、オブジェクト部３２の注目オブジェクトに係るオブジェクト格納部１０５におけるページ番号文字列部１０７の内容を数値に変換して注目ページ番号とする。そして、この注目ページ番号のページ（注目ページ）に関する認識結果中に注目オブジェクトの文字列（オブジェクト部３２のオブジェクト文字列部１０６の内容）が存在するか否かを判別することによって行われる。この場合の検索は、上記リンク元ページ判定処理時における目次キーワードあるいは索引キーワードの検索時と同様に、距離計算部１７によって計算された２文字列の間の距離が閾値以下である文字列を検索する方式によって行う。こうして、上記注目ページに関する認識結果や注目オブジェクトの文字列に含まれる誤認識を吸収するのである。
【０１１４】
ステップＳ４７で、上記ステップＳ４６における検索結果に基づいて、リンク付け可能か否かの判定が行われる。これは、上記注目オブジェクトの文字列が上記注目ページの認識結果内に存在する（正確には、ある閾値以内の類似度を有する認識結果が存在する）かを判定することによって行う。そして、リンク付け可能な場合にはステップＳ５０に進み、そうでなければステップＳ４８に進む。
【０１１５】
ステップＳ４８で、注目オブジェクトのページ番号文字列に誤認識が在ったとして上記ページ番号文字列の置き換えが行われる。これは、注目オブジェクトが目次ページのオブジェクトである場合における上記ステップＳ４４と同じ処理によって行う。
【０１１６】
ステップＳ４９で、注目オブジェクトが目次ページのオブジェクトである場合における上記ステップＳ４５と同じ処理によって、上記ステップＳ４８におけるページ番号文字列の置き換えは可能であったか否かが判別される。そして、置き換えが可能であった場合には、上記ステップＳ４６に戻って次の注目ページにおける注目オブジェクトの検索が行われる。一方、置き換えが不可能であった場合にはステップＳ５０に進む。
【０１１７】
ステップＳ５０で、リンク先ページ番号がオブジェクト部３２における注目オブジェクトのリンク先ページ番号部１１６に出力される。これは、上記ステップＳ４３においてリンク付け可能と判別された場合には、上記ステップＳ４２において決定されたリンク先構造情報の開始ページ番号を上記リンク先ページ番号とする。また、上記ステップＳ４７においてリンク付け可能と判別された場合には、上記ステップＳ４６において得られた注目ページ番号を上記リンク先ページ番号とする。さらに、上記ステップＳ４５あるいはステップＳ４９において置き換え不可能と判定された場合には、エラー値「０ｘｆｆ（＝初期値）」を上記リンク先ページ番号とすることによって行われる。そうした後、自動リンク処理を終了して図１４に示す自動オーサリング処理動作のフローチャートにリターンする。
【０１１８】
以上のように、本実施の形態においては、画像入力部６あるいは外部記憶装置制御部９によって書籍１冊分の画像データをメモリ８のページ画像部２８に取り込み、領域分割部１８によって上記画像データに対して領域分割処理を行い、文字認識部１９によって上記分割された領域に対して文字認識処理を行う。そうした後に、１冊の書籍分総てに関する上記領域分割処理および文字認識処理に基づいて以下のようなリンク編集を行う。その場合のリンク編集は、次の様な書籍が有する特徴を利用して行う。
（ａ）目次や索引では「項目文字列」と「その項目が記載されているページ番号」とが、「…」，「−」あるいは「空白」等のセパレータを介して同じ列や行を構成している。
（ｂ）目次ページの「項目」は、その書籍の「章」や「節」の代表タイトル文字列であることが多い。
（ｃ）書籍の「章」や「節」の代表タイトル文字列は、該当する「章」や「節」における「ヘッダ」あるいは「フッター」に記載されている。
（ｄ）索引ページの「項目文字列」は、対応付けられたページ番号のページの文字認識結果中に存在する。
【０１１９】
すなわち、先ず、書籍構造抽出部２４で、特徴（ｃ）を利用して、ヘッダあるいはフッターから文字列を抽出し、クラスタリング部２３によるクラスタリング結果に基づいて代表タイトル文字列とその代表タイトル文字列のクラスタに属する先頭ページ番号とを求める。次に、リンク元ページ判定部で、特徴（ａ）とルールとを利用して目次ページおよび索引ページを判定する。次に、リンク元オブジェクト抽出部２２で、特徴（ａ）を利用して目次ページおよび索引ページの各行から「項目文字列」と「ページ番号」とを分離して抽出する。
【０１２０】
そして、上記目次ページの場合には、リンク先クラスタ判定部２５で、上記特徴（ｂ），（ｃ）を利用して、目次ページの「項目文字列」との距離が最小の代表タイトル文字列とその代表タイトル文字列のクラスタに属する先頭ページ番号とを求める。次に、目次ページリンク決定部２６で、目次ページにおいて「項目文字列」と対を成す「ページ番号」が上記得られた「該当クラスタの先頭ページ番号」に合致するかを調べ、合致しない場合には距離テーブル１６を利用して上記「ページ番号」を最も誤認識され易い数字に変換して上記合致の判定を行う。そして、合致する場合に上記「該当クラスタの先頭ページ番号」をリンク先ページ番号とする。
【０１２１】
また、上記索引ページの場合には、上記索引ページリンク決定部２７で、上記特徴（ｄ）を利用して、索引ページの「項目文字列」と対を成す「ページ番号」のページの文字認識結果中に「項目文字列」が存在するかを調べ、存在しない場合には距離テーブル１６を利用して上記「ページ番号」を最も誤認識され易い数字に変換して上記存在の判定を行う。そして、存在する場合に上記「ページ番号」をリンク先ページ番号とする。
【０１２２】
そうした後、上記目次ページリンク決定部２６および索引ページリンク決定部２７で、上記得られたリンク先ページ番号とリンク元ページ番号やリンク元オブジェクトの切り出し座標等を、外部記憶装置１０の書籍コンテンツファイル１２に格納するようにしている。
【０１２３】
すなわち、本実施の形態によれば、書籍１冊分の画像データの文字認識結果に基づいて上記書籍構造抽出部２４で書籍構造を抽出する際に、クラスタリング部２３によってヘッダあるいはフッターの文字列の認識結果に対してクラスタリングを行うので、ヘッダあるいはフッターの文字列の誤認識を吸収できる。また、目次ページの「項目文字列」に該当する「代表タイトル文字列」の検索や索引ページの「項目文字列」に一致する注目ページ中の認識結果の検索を、完全一致ではなく最小距離を利用して行うので、「項目文字列」，「代表タイトル文字列」および「注目ページ中の認識結果」の誤認識を吸収できる。また、リンク付け可能の判定の際に上記「ページ番号」を最も誤認識され易い数字に変換しながら上記判定を行うので、リンク元ページ番号の誤認識を吸収できる。したがって、漫画や写真雑誌等の画像ベース電子書籍に対する自動リンク編集を可能にするのである。
【０１２４】
上記自動オーサリング装置においては、自動オーサリング処理のプログラムを以下の何れかの方法によって、ＲＯＭ（リード・オンリ・メモリ）またはＲＡＭ（何れも図示せず）に記憶している。
（ａ）予め上記ＲＯＭに記憶しておく。
（ｂ）上記自動オーサリング処理のプログラムの一部または全部をフロッピーディスクやハードディスク装置等の記録媒体に格納しておき、必要に応じて上記プログラムを上記ＲＡＭにインストールする。
（ｃ）コンピュータネットワークから上記自動オーサリング処理のプログラムを上記ＲＡＭにインストールする。
【０１２５】
【発明の効果】
以上より明らかなように、請求項１に係る発明の自動オーサリング装置は、画像入力手段，距離テーブル，距離計算手段，領域分割手段，文字認識手段，クラスタリング手段および書籍構造抽出手段を備えて、上記領域分割手段および文字認識手段で得られた書籍全ページのヘッダあるいはフッターの何れか一方の文字列の集合に対して、上記クラスタリング手段によってクラスタリングを行い、上記書籍構造抽出手段によって、上記各クラスタに属する文字列に係るページの境界を当該書籍の章や節等の区切りとすると共に、各クラスタの代表文字列を上記区切り間の代表タイトル文字列として書籍構造を抽出するので、画像ベース電子書籍の章や節等の書籍構造を自動的に抽出できる。したがって、この抽出された書籍構造を利用して画像ベース電子書籍のハイパーテキスト化が可能になる。
【０１２６】
その際に、上記文字列の分類にクラスタリングを用いることによって、上記ヘッダあるいはフッターの文字認識結果における誤認識を吸収することができる。したがって、現在の文字認識精度であっても高い精度で書籍構造を抽出できる。
【０１２７】
また、請求項２に係る発明の自動オーサリング装置は、画像入力手段，距離テーブル，距離計算手段，領域分割手段，文字認識手段，クラスタリング手段，書籍構造抽出手段，リンク元ページ判定手段，リンク元オブジェクト抽出手段，リンク先クラスタ判定手段および目次ページリンク決定手段を備えて、上記リンク元ページ判定手段によって各ページ毎に目次ページあるいは索引ページの判定を行い、上記リンク元オブジェクト抽出手段によって目次ページまたは索引ページからリンク元オブジェクトを項目文字列部とページ番号文字列部とに分けて抽出し、上記リンク先クラスタ判定手段によって目次ページにおける各リンク元オブジェクトの項目文字列に対応する上記書籍の区切りを判定し、上記目次ページリンク決定手段によって上記各リンク元オブジェクトのページ番号文字列と上記書籍の区切りの開始ページ番号との比較結果に基づいて目次ページに対するリンク付けを行うので、画像ベース電子書籍における各目次の項目から参照ページへのリンク付けを自動的に行うことができる。
【０１２８】
その際に、上記書籍構造抽出にクラスタリングを用いることによって、上記ヘッダまたはフッターの文字認識結果における誤認識を吸収することができる。さらに、上記リンク元オブジェクトに対応する上記書籍の区切りの判定に、上記リンク元オブジェクトの項目文字列と上記書籍の区切り間の代表タイトル文字列との距離を用いることによって、上記項目文字列の誤認識を吸収できる。さらに、上記各リンク元オブジェクトのページ番号文字列と上記書籍の区切りの開始ページ番号との比較の際に、上記ページ番号文字列と開始ページ番号とが一致しない場合には上記ページ番号文字列を誤認識し易い数字に置換して上記比較を繰り返すことによって、上記ページ番号文字列の誤認識を吸収できるのである。
【０１２９】
したがって、画像ベース電子書籍をテキストベース電子書籍に変換する際における文字認識精度が現状の９８％程度であっても、目次ページと本文ページとのリンク付けを正しく行うことができる。
【０１３０】
また、請求項３に係る発明の自動オーサリング装置は、画像入力手段，距離テーブル，距離計算手段，領域分割手段，文字認識手段，リンク元ページ判定手段，リンク元オブジェクト抽出手段および索引ページリンク決定手段を備えて、上記索引ページリンク決定手段によって、上記各リンク元オブジェクトにおけるページ番号のページの文字認識結果中からの上記項目文字列の検索結果に基づいて索引ページに対するリンク付けを行うので、画像ベース電子書籍における各索引の項目から参照ページへのリンク付けを自動的に行うことができる。
【０１３１】
その際に、上記書籍構造抽出にクラスタリングを用いることによって、上記ヘッダあるいはフッターの文字認識結果における誤認識を吸収することができる。さらに、上記ページ番号に係る文字認識結果中からの上記項目文字列の検索に、上記文字認識結果から切り出した文字列と上記項目文字列との距離を用いることによって、上記項目文字列の誤認識を吸収することができる。さらに、上記検索の際に上記項目文字列が検索されない場合には上記ページ番号文字列を誤認識し易い数字に置換して上記検索を繰り返すことによって、上記ページ番号文字列の誤認識を吸収することができるのである。
【０１３２】
したがって、画像ベース電子書籍をテキストベース電子書籍に変換する際における文字認識精度が現状の９８％程度であっても、索引ページと本文ページとのリンク付けを正しく行うことができる。
【０１３３】
また、請求項４に係る発明の自動オーサリング装置は、請求項２に係る発明の自動オーサリング装置に、請求項３に係る発明における索引ページリンク決定手段を付加したので、画像ベース電子書籍における各目次あるいは索引の項目から参照ページへのリンク付けを自動的に行うことができる。
【０１３４】
その際に、請求項２および請求項３に係る発明の場合と同様に、上記ヘッダあるいはフッターの文字認識結果における誤認識を吸収し、上記項目文字列における誤認識を吸収し、上記ページ番号文字列の誤認識を吸収することができるのである。
【０１３５】
また、請求項５に係る発明の自動オーサリング装置における上記リンク元オブジェクト抽出手段は、各リンク元オブジェクト毎に項目文字列の配列方向に直交する方向への文字長さのヒストグラムを作成するヒストグラム作成手段と、上記ヒストグラムに対して判別分析によって二値化閾値を計算する二値化閾値算出手段と、上記二値化閾値以下の長さを有する文字の連なりでなるセパレータ候補中から上記方向への文字長さの分散が最小となる連続区間を上記セパレータとして抽出するセパレータ抽出手段と、上記リンク元オブジェクトにおける上記抽出されたセパレータの一側を上記項目文字列とし他側を上記ページ番号文字列として抽出するオブジェクト抽出手段を有しているので、「…」，「−」あるいは「空白」等のセパレータの特徴を利用して、上記項目文字列とページ番号文字列とを自動的に分離して抽出できる。
【０１３６】
また、請求項６に係る発明の記録媒体には、請求項４における上記画像入力手段，距離計算手段，領域分割手段，文字認識手段，クラスタリング手段，書籍構造抽出手段，リンク元ページ判定手段，リンク元オブジェクト抽出手段，リンク先クラスタ判定手段，目次ページリンク決定手段および索引ページリンク決定手段として、コンピュータを機能させて、書籍の画像データに基づいて目次あるいは索引の各項目から参照ページへのリンク付けを自動的に行う自動オーサリングプログラムが記録されているので、請求項４に係る発明の場合と同様に、上記ヘッダあるいはフッターの文字列や上記リンク元オブジェクトの項目文字列およびページ番号文字列の誤認識を吸収した目次ページあるいは索引ページに対するリンク付けを自動的に行うことができる。
【図面の簡単な説明】
【図１】この発明の自動オーサリング装置におけるブロック図である。
【図２】図１における領域分割部による目次ページに対する領域分割結果の概念図である。
【図３】図１における領域分割部による索引ページに対する領域分割結果の概念図である。
【図４】図２に示す目次ページに対するリンク先ページの画像例を示す図である。
【図５】図３に示す索引ページに対するリンク先ページの画像例を示す図である。
【図６】図１における距離テーブルの概念図である。
【図７】図１における距離計算部の詳細なブロック図である。
【図８】図１におけるページ画像部の詳細な構成概念図である。
【図９】図１における領域分割結果部の詳細な構成概念図である。
【図１０】図１における認識結果部の詳細な構成概念図である。
【図１１】図１における書籍構造結果部の詳細な構成概念図である。
【図１２】図１におけるオブジェクト部の詳細な構成概念図である。
【図１３】図１におけるクラスタリングメモリ部の詳細な構成概念図である。
【図１４】図１における制御部の制御の下に行われる自動オーサリング処理動作のフローチャートである。
【図１５】図１４に示す自動オーサリング処理動作中において実行される書籍構造抽出サブルーチンのフローチャートである。
【図１６】ある書籍の全ページのヘッダ部における正解文字列と文字認識結果と誤認識結果の一例を示す図である。
【図１７】図１６に示す文字認識結果に対するクラスタリング結果を示す図である。
【図１８】図１４に示す自動オーサリング処理動作中において実行されるリンク元ページ判定サブルーチンのフローチャートである。
【図１９】図１４に示す自動オーサリング処理動作中において実行されるリンク元オブジェクト抽出サブルーチンのフローチャートである。
【図２０】図３に示す索引ページから抽出した索引の例を示す図である。
【図２１】文字高さのヒストグラム及び二値化閾値の例を示す図である。
【図２２】図１４に示す自動オーサリング処理動作中において実行される自動リンクサブルーチンのフローチャートである。
【図２３】目次ページの認識結果および誤認識結果の例を示す図である。
【図２４】リンク機能の概念を示す図である。
【符号の説明】
１…主制御部、５…データバス、
６…画像入力部、８…メモリ、
９…外部記憶装置制御部、１０…外部記憶装置、
１１…書籍画像ファイル、１２…書籍コンテンツファイル、
１６…距離テーブル、１７…距離計算部、
１８…領域分割部、１９…文字認識部、
２１…リンク元ページ判定部、２２…リンク元オブジェクト抽出部、
２３…クラスタリング部、２４…書籍構造抽出部、
２５…リンク先クラスタ判定部、２６…目次ページリンク決定部、
２７…索引ページリンク決定部、２８…ページ画像部、
２９…領域分割結果部、３０…認識結果部、
３１…書籍構造結果部、３２…オブジェクト部、
３３…クラスタリングメモリ部、３４…ヒストグラムバッファ部。

Claims

画像ベース電子書籍を自動的にオーサリングする自動オーサリング装置であって、
書籍の各ページの画像を入力する画像入力手段と、
文字認識時の誤認識傾向を距離値に変換して予め作成した距離テーブルと、
上記距離テーブルを用いて２文字列間の距離を計算する距離計算手段と、
上記画像入力手段から取り込まれた画像データに対して領域分割を行って、文字領域，写真領域，図形領域を含む領域を抽出する領域分割手段と、
上記領域分割手段によって抽出された文字領域の画像データに基づいて、文字認識を行う文字認識手段と、
文字列の集合に対して、上記距離計算手段による２文字列間の距離の算出結果を用いて複数のクラスタに分割し、各クラスタを代表する代表文字列を抽出するクラスタリング手段と、
上記書籍全ページのヘッダまたはフッターの何れか一方の文字列の集合に対する上記クラスタリング結果を用いて、各クラスタに属する文字列に係るページの境界を当該書籍の区切りとすると共に、各クラスタの代表文字列を上記区切り間の代表タイトル文字列として書籍構造を抽出する書籍構造抽出手段を備えて、
上記画像入力手段から取り込まれた書籍の画像データに基づいて、当該書籍の書籍構造を抽出することを特徴とする自動オーサリング装置。
画像ベース電子書籍を自動的にオーサリングする自動オーサリング装置であって、
書籍の各ページの画像を入力する画像入力手段と、
文字認識時の誤認識傾向を距離値に変換して予め作成した距離テーブルと、
上記距離テーブルを用いて２文字列間の距離を計算する距離計算手段と、
上記画像入力手段から取り込まれた画像データに対して領域分割を行って、文字領域，写真領域，図形領域を含む領域を抽出する領域分割手段と、
上記領域分割手段によって抽出された文字領域の画像データに基づいて、文字認識を行う文字認識手段と、
文字列の集合に対して、上記距離計算手段による２文字列間の距離の算出結果を用いて複数のクラスタに分割し、各クラスタを代表する代表文字列を抽出するクラスタリング手段と、
上記書籍全ページのヘッダあるいはフッターの何れか一方の文字列の集合に対する上記クラスタリング結果を用いて、各クラスタに属する文字列に係るページの境界を当該書籍の区切りとすると共に、各クラスタの代表文字列を上記区切り間の代表タイトル文字列として書籍構造を抽出する書籍構造抽出手段と、
上記各ページ毎の文字認識結果に基づいて、上記距離計算手段による文字列間距離およびキーワードを用いて、予め設定されたルールに従って、目次ページまたは索引ページの判定を行うリンク元ページ判定手段と、
上記目次ページまたは索引ページの文字認識結果に基づいて、予め設定されたルールに従って、リンク元オブジェクトを項目文字列部とこの項目文字列が記載されているページのページ番号文字列部とに分けて抽出するリンク元オブジェクト抽出手段と、
上記目次ページにおける上記各リンク元オブジェクトの項目文字列と上記書籍の区切り間の代表タイトル文字列とに間する上記距離算出手段による距離算出結果に基づいて、上記リンク元オブジェクトに対応する上記書籍の区切りを判定するリンク先クラスタ判定手段と、
上記各リンク元オブジェクトのページ番号文字列およびこのページ番号文字列が上記距離テーブルを参照して置換された誤認識し易い数字と、当該リンク元オブジェクトに対応する上記書籍の区切りの開始ページ番号との比較結果に基づいて、目次ページに対するリンク付けを行う目次ページリンク決定手段を備えて、
上記画像入力手段から取り込まれた書籍の画像データに基づいて、各目次の項目から参照ページへのリンク付けを行うことを特徴とする自動オーサリング装置。
画像ベース電子書籍を自動的にオーサリングする自動オーサリング装置であって、
書籍の各ページの画像を入力する画像入力手段と、
文字認識時の誤認識傾向を距離値に変換して予め作成した距離テーブルと、
上記距離テーブルを用いて２文字列間の距離を計算する距離計算手段と、
上記画像入力手段から取り込まれた画像データに対して領域分割を行って、文字領域，写真領域，図形領域を含む領域を抽出する領域分割手段と、
上記領域分割手段によって抽出された文字領域の画像データに基づいて、文字認識を行う文字認識手段と、
上記各ページ毎の文字認識結果に基づいて、上記距離計算手段による文字列間距離およびキーワードを用いて、予め設定されたルールに従って、目次ページまたは索引ページの判定を行うリンク元ページ判定手段と、
上記目次ページまたは索引ページの文字認識結果に基づいて、予め設定されたルールに従って、リンク元オブジェクトを項目文字列部とこの項目文字列が記載されているページのページ番号文字列部とに分けて抽出するリンク元オブジェクト抽出手段と、
上記索引ページにおける上記各リンク元オブジェクトの項目文字列を検索元文字列とし、上記項目文字列に対応するページ番号文字列およびこのページ番号文字列が上記距離テーブルを参照して置換された誤認識し易い数字をリンク先の注目ページ番号とし、上記注目ページ番号のページの文字認識結果から上記検索元文字列と同じ文字数の文字列を順次切り出して検索先文字列とし、上記検索元文字列と検索先文字列との距離を上記距離計算手段によって算出し、この算出結果に基づいて索引ページに対するリンク付けを行う索引ページリンク決定手段を備えて、
上記画像入力手段から取り込まれた書籍の画像データに基づいて、索引の各項目から参照ページへのリンク付けを自動的に行うことを特徴とする自動オーサリング装置。
請求項２に記載の自動オーサリング装置において、
上記リンク元オブジェクト抽出手段によって抽出された上記索引ページにおける上記各リンク元オブジェクトの項目文字列を検索元文字列とし、上記項目文字列に対応するページ番号文字列およびこのページ番号文字列が上記距離テーブルを参照して置換された誤認識し易い数字をリンク先の注目ページ番号とし、上記注目ページ番号のページの文字認識結果から上記検索元文字列と同じ文字数の文字列を順次切り出して検索先文字列とし、上記検索元文字列と検索先文字列との距離を上記距離計算手段によって算出し、この算出結果に基づいて索引ページに対するリンク付けを行う索引ページリンク決定手段を備えて、
上記画像入力手段から取り込まれた書籍の画像データに基づいて、目次あるいは索引の各項目から参照ページへのリンク付けを自動的に行うことを特徴とする自動オーサリング装置。
請求項２乃至請求項４の何れか一つに記載の自動オーサリング装置において、
上記リンク元オブジェクト抽出手段は、
上記リンク元ページ判定手段によって目次ページまたは索引ページであると判定されたページの文字認識結果に基づいて、各リンク元オブジェクト毎に、上記リンク元オブジェクトを構成する項目文字列の配列方向に直交する方向への文字長さのヒストグラムを作成するヒストグラム作成手段と、
上記ヒストグラムに対して判別分析によって二値化閾値を計算する二値化閾値算出手段と、
上記二値化閾値以下の長さを有する文字連なりを上記リンク元オブジェクトにおける項目文字列とページ番号文字列とを分離するセパレータの候補として抽出し、この抽出されたセパレータ候補中から上記方向への文字長さの分散が最小となる連続区間を上記セパレータとして抽出するセパレータ抽出手段と、
上記リンク元オブジェクトにおける上記抽出されたセパレータの一側を上記項目文字列とする一方、他側を上記ページ番号文字列として分離して抽出するオブジェクト抽出手段を有していることを特徴とする自動オーサリング装置。
請求項１、請求項２、請求項３、請求項４又は請求項５に記載の自動オーサリング装置における各手段の機能をコンピュータに実行させるための自動オーサリングプログラムを記録したコンピュータ読み取り可能な記録媒体。