JP2004046528A

JP2004046528A - 文書方向推定方法および文書方向推定プログラム

Info

Publication number: JP2004046528A
Application number: JP2002202959A
Authority: JP
Inventors: Yutaka Katsuyama; 勝山　裕
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-07-11
Filing date: 2002-07-11
Publication date: 2004-02-12
Anticipated expiration: 2022-07-11
Also published as: JP4194309B2

Abstract

【課題】本発明は、画像中の文書方向を推定する文書方向推定方法および文書方向推定プログラムに関し、文書画像から文字方向を決定する際に、文書方向の推定精度を保ちながら処理速度を速くし、かつ文書画像全体から文書方向を推定することを目的とする。
【解決手段】画像をレイアウト解析してテキスト領域を抽出する第１のステップと、抽出したテキスト領域内の矩形について距離が近い矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返して矩形数を減らす第２のステップと、まとめた矩形をもとに文書方向を決定する第３のステップとを有する文書方向推定方法である。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、画像中の文書方向を推定する文書方向推定方法および文書方向推定プログラムに関するものである。
【０００２】
【従来の技術】
従来、文書をスキャナー装置で読み取った文書画像の文字認識は、文書画像から文字領域を抽出し、抽出した文字領域について文字の配置されている方向に文字認識するようにしていた。
【０００３】
この際、抽出した文字領域について、４方向に順次回転して文字認識をそれぞれ行い、領域内文字の信頼度の平均値を求め、次に、全体の画像での平均値が最も高い方向を文書の方向とし、文字認識していた（特開平８−２１２２９８号公報）。
【０００４】
また、文書画像から文字領域を抽出し、抽出した文字領域に属性（タイトル、本文など）をつける。文字領域を４方向に回転して文字認識を行い、領域内文字の信頼度を予め定めた属性の優先順位を使って文書方向を決定する。このとき、方向決定には、各文字領域から求めた方向をもとに文書全体の方向を多数決で決める（特開平９−６９１３６号公報）。
【０００５】
また、文書画像から文字領域を抽出し、抽出した文字領域を４方向に回転して文字認識を行い、領域内文字の信頼度からそれぞれの領域の方向を決める。文書全体では、部分領域の面積を考慮して方向を決定する（特開平２００１−３１２６９７号公報）。
【０００６】
【発明が解決しようとする課題】
上述した従来の技術では、全て文字領域を求め、当該文字領域について画像を回転し、回転後の画像の文字認識をそれぞれ行い、信頼度の高い方向を文書方向と決定していた。
【０００７】
このため、以下のような課題があった。
（１）　文字領域が正しく行われていればよいが、例えば文字領域の中に一部図形がかかる場合は、そのパターンの文字認識結果の信頼度や距離値が、領域全体の信頼度や距離値の平均などに影響を与えてしまい、領域の文書方向を正しく求められないという問題があった。
【０００８】
（２）　文書画像から抽出した文字領域の全てについて文字認識してその信頼度から方向を推定することは、当該文字領域に含まれる文字数分の文字認識処理が必要となり、文書方向決定のための処理時間が長くかかってしまうという問題があった。
【０００９】
（３）　（２）の問題を避けるため、文書方向を決定する文字領域の数を制限して少なくして高速化を図ることが考えられるが、文字領域を減らしたのでは文書全体としての方向を誤る可能性が大となってしまう問題があった。
【００１０】
本発明は、これらの問題を解決するため、文書画像から文字方向を決定する際に、文書方向の推定精度を保ちながら処理速度を速くし、かつ文書画像全体から文書方向を推定することを目的としている。
【００１１】
【課題を解決するための手段】
図１を参照して課題を解決するための手段を説明する。
【００１２】
図１において、レイアウト解析手段１４は、画像をレイアウト解析してテキスト領域、表領域などを抽出するものである。
【００１３】
探索領域抽出手段１５は、テキスト領域内の矩形について距離が近い矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返して矩形数を減らすなどするものである。
【００１４】
文字認識手段１６は、文字を認識するものである。
次に、動作を説明する。
【００１５】
レイアウト解析手段１４が画像をレイアウト解析してテキスト領域を抽出し、探索領域抽出手段１５が抽出したテキスト領域内の矩形について距離が近い矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返して矩形数を減らし、まとめた矩形をもとに文書方向を決定するようにしている。
【００１６】
この際、探索領域抽出手段１５が抽出したテキスト領域内の各矩形について、矩形サイズが所定サイズの範囲内、かつ当該矩形を中心にした所定探索領域内で白から黒あるいは黒から白あるいは両者の変化数を当該探索領域で除算した値が所定範囲内、かつ前記探索範囲内に大きな矩形がない当該矩形について前記距離が近いを矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返すようにしている。
【００１７】
また、探索領域抽出手段１５がまとめた矩形の重心を算出して当該重心に最も近い矩形を選択して当該選択した矩形を中心に探索領域を決定するようにしている。
【００１８】
また、まとめた矩形内の全矩形あるいは探索領域内の全矩形を４方向に回転させてそれぞれの文字認識を行い、最も確からしい文書方向を決定するようにしている。
【００１９】
また、画像をレイアウト解析して抽出した表領域内の、各セルについてレイアウト解析して抽出したテキスト領域について、レイアウト解析してテキスト領域を抽出するようにしている。
【００２０】
従って、文書画像から文字方向を決定する際に、文書方向の推定精度を保ちながら処理速度を速くし、かつ文書画像全体から文書方向を推定することが可能となる。
【００２１】
【発明の実施の形態】
次に、図１から図８を用いていて本発明の実施の形態および動作を順次詳細に説明する。
【００２２】
図１は、本発明のシステム構成図を示す。
図１において、処理装置１は、プログラムに従い各種処理を実行するものであって、入力手段１１、ラベリング手段１２、文字サイズ推定手段１３、レイアウト解析手段１４、探索領域抽出手段１５、文字認識手段１６、および出力手段１７などから構成されるものである。
【００２３】
入力手段１１は、ＯＣＲ２で読み取った文書の画像を取り込んだりなどするものである。
【００２４】
ラベリング手段１２は、画像上で、ある黒画素に注目して当該黒画素に隣接する他の黒画素を順次連結した当該領域にラベルを付与するものである。
【００２５】
文字サイズ推定手段１３は、ラベリング手段１２によってラベルを付与した、画素の連結した領域中の文字サイズ（文字に相当する矩形のサイズ）の最頻度のサイズ（縦Ｈ０、横Ｗ０のサイズ）を算出するものである（図５の（ｂ）参照）。
【００２６】
レイアウト解析手段１４は、画像中の表領域、図形領域、およびテキスト領域を解析するものである（図４参照）。
【００２７】
探索領域抽出手段１５は、テキスト領域内の矩形について、距離が近い矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返して矩形数を減らし、当該まとめた矩形の重心に最も近い矩形を中心とした所定サイズの探索領域を抽出するものである（図７参照）。
【００２８】
文字認識手段１６は、文字を認識するものである。
出力手段１７は、文字認識結果をファイル４に出力するものである。
【００２９】
ＯＣＲ２は、書類をスキャナで読み取って画像を生成するものである。
画像データ３は、書類をスキャナで読み取った画像である。
【００３０】
ファイル４は、画像データ３について文字認識した結果を格納するファイルである。
【００３１】
次に、図２および図３のフローチャートの順番に従い、図１の構成の動作を順次詳細に説明する。
【００３２】
図２および図３は、本発明の動作説明フローチャートを示す。
図２において、Ｓ１は、入力する。これは、文書をスキャナーなどで読み取った文書画像を図１の処理装置１に入力する。
【００３３】
Ｓ２は、黒画素連結領域を抽出する。これは、画像上で例えば左上の黒画素に連結する他の黒画素を全て抽出し当該領域にラベルを付与する（ラベリング）。
【００３４】
Ｓ３は、文字サイズを推定する。これは、Ｓ１でラベリングした黒画素を連結した各領域をもとに，文字サイズを推定する（図５の（ｂ）で後述）。
【００３５】
Ｓ４は、レイアウト解析を行う。これは、Ｓ２で抽出した黒画素の連結領域についてレイアウト解析、即ち、表領域、図領域、およびテキスト領域を解析する（図４を用いて後述する）。そして、テキスト領域については、Ｓ１１以降の処理を実行する。表領域については、Ｓ３１以降を実行する。
【００３６】
Ｓ１１は、Ｓ４のレイアウト解析でテキスト領域と解析された領域（テキスト領域）について、１つのテキスト領域を選択する。
【００３７】
Ｓ１２は、テキスト領域内の１矩形を選択する。
Ｓ１３は、条件３，４，５の判定を行う。これは、テキスト領域内の矩形につて、後述する図７の条件３，４、５の判定を行う。ここで、
・条件３は、矩形の幅ＷとＳ３で推定した文字サイズＷ０との差の絶対値が閾値以下、かつ、矩形の高ＨがＳ３で推定した文字サイズＨ０との差の絶対値が閾値以下かを判別する。
【００３８】
・条件４は、探索領域（図７の（ｂ）参照）内の線密度が閾値以下か判別する（図７を用いて後述する）。
【００３９】
・条件５は、探索矩形内に大きな矩形がない。
以上の３つの条件を全て満たしたときにＹＥＳとなり、Ｓ１４で文字候補として抽出し、Ｓ１５に進む。一方、ＮＯの場合には、Ｓ１５に進む。
【００４０】
Ｓ１５は、テキスト領域内の矩形について全てＳ１２からＳ１５の処理を終了したか判別する。ＹＥＳの場合には、Ｓ１６に進む。ＮＯの場合には、Ｓ１２以下を繰り返す。
【００４１】
Ｓ１６は、全てのテキスト領域が終了か判別する。ＹＥＳの場合には、全てのテキスト領域について、文字候補の抽出を終了したので、Ｓ１７に進む。ＮＯの場合には、Ｓ１１に戻り繰り返す。
【００４２】
Ｓ１７は、文字候補をクラスタリングする。
Ｓ１８は、クラスタが指定の数か判別する。これらＳ１７、Ｓ１８は、Ｓ１４で抽出したテキスト領域内の文字候補の矩形についてクラスタリング、即ち、ある矩形に近い他の矩形をまとめることを順次行い、全体のまとめた矩形の数が所定数（例えば３個）になるまで繰り返す（図８を用いて後述する）。ＹＥＳの場合には、クラスタの数が指定の数になったので、Ｓ１９に進む。ＮＯの場合には、Ｓ１７を繰り返す。
【００４３】
Ｓ１９は、矩形候補を生成する。これは、Ｓ１８のＹＥＳでクラスタリングして指定個数になったので、当該指定個数になった矩形の集合を矩形候補とする。
【００４４】
Ｓ２０は、重心を計算する。これは、Ｓ１９で矩形の集合の矩形候補の全体の重心を求める（図８参照）。
【００４５】
Ｓ２１は、重心に最も近い矩形候補を選択する。これは、Ｓ２０で求めた重心に最も近い矩形候補を選択する（図８の矩形候補□（中が黒）を選択する）。
【００４６】
Ｓ２２は、Ｓ２１で選択した矩形を中心とした探索領域を求める。これは、Ｓ２１で求めた例えば図８の矩形候補□（中が黒）を中心として探索領域を求める。そして、図２のＳ４１に進む。
【００４７】
Ｓ４１は、探索領域の取り込みを行う。
Ｓ４２は、４方向に回転した画像を作成する。これらＳ４１、Ｓ４２は、図２のＳ２２で求めた、例えば図８の探索領域の画像を取り込み、４方向に回転させた画像をそれぞれ作成する。
【００４８】
Ｓ４３は、文字認識する。これは、Ｓ４４で４方向に回転させた探索領域の画像について、それぞれ文字認識を行う。
【００４９】
Ｓ４４は、最も確からしい方向を判定する。これは、Ｓ４３で４方向に回転させた探索領域の画像について、それぞれ文字認識を行い、文字認識度の最も高い方向を文字方向として判定する。
【００５０】
Ｓ４５は、領域終了か判別する。ＹＥＳの場合には、Ｓ４６に進む。ＮＯの場合には、Ｓ４１に戻り、次の探索領域について繰り返す。
【００５１】
Ｓ４６は、各探索領域の方向を決定する。
Ｓ４７は、多数決で方向を決定する。これらＳ４６、Ｓ４７は、各探索領域の文字認識率の高い方向をそれぞれ決定し、テキスト領域内で当該決定した探索領域内の文字方向について多数決で１つを決定する。
【００５２】
Ｓ４８は、全体を多数決した方向で文字認識する。これは、Ｓ４７で決めた方向で、当該テキスト領域内の全ての文字矩形について文字認識を行う。
【００５３】
以上によって、文書画像上でテキスト領域を抽出し、条件３，４，５の判定で文字候補矩形のみを抽出し、抽出した文字候補についてクラスタリングを行ってまとめた矩形を生成して矩形数を減らし（例えば３個、５個などに減らし）、当該減らしたまとめた矩形の重心に最も近い文字候補矩形を中心に探索領域を設定し、当該探索領域内について文字認識して文字方向を判定してテキスト領域の全体の文字方向を多数決で決定し、当該決定した文字方向でテキスト領域内の矩形の文字認識を行うことにより、テキスト領域内の文字方向を少ない探索領域内のみで迅速かつに処理量少なくして決定し、決定した文字方向でテキスト領域内の文字認識を行うことが可能となる。
【００５４】
図２のＳ３１は、Ｓ４のレイアウト解析で表領域と判定されたので、当該表領域内のセルを抽出する。
【００５５】
Ｓ３２は、セル内をレイアウト解析してテキスト領域だけ抽出する。これは、Ｓ４のレイアウト解析と同様に行う。
【００５６】
Ｓ３３は、条件１，２に合致した領域を抽出する。これは、表のセル内のテキスト領域について、後述する図６の（ａ）の条件１，２に合致する領域を抽出する。ここで、
・条件１は、領域サイズが閾値の範囲内
・条件２は、領域内の黒画素密度が閾値の範囲内
とそれぞれ判定し、両者が満たされた領域のみを抽出する。
【００５７】
Ｓ３４は、閾値サイズ以上の領域か判別する。ＹＥＳの場合には、表領域のセル内のテキスト領域と判明したので、既述したＳ１１からＳ２２で探索領域を求め、続いて図３のＳ４１からＳ４８で文字方向を決定して文字認識する。一方、Ｓ３４のＮＯの場合には、Ｓ３５で面積でソートし、Ｓ３６で大きな指定個を探索領域として求め、当該求めた探索領域について既述した図３のＳ４１からＳ４８で文字方向を決定して文字認識する。
【００５８】
以上によって、表領域内のセルがテキスト領域の場合にも、同様に探索領域を求めて文字方向を迅速かつ処理量少なく決定し、当該文字方向でテキスト領域の文字認識を行うことが可能となる。
【００５９】
図４は、本発明の説明図（その１）を示す。
図４の（ａ）は、原画像例を示す。ここでは、画像上に図示のように、図、テキスト、表があるとする。
【００６０】
図４の（ｂ）は、レイアウト解析結果例を示す。これは、図４の（ａ）の原画像について、既述した図２のＳ４のレイアウト解析して得たレイアウト解析結果の例を示す。ここで、
・表領域は、黒画素が所定以上の長さ連結する罫線で構成されている領域として判定する。
【００６１】
・図領域は、サイズが閾値より大きな黒画素連結領域がある領域として判定する。
【００６２】
・テキスト領域は、原画像中で、表領域、図領域でない領域をここでは、テキスト領域と判定する。
【００６３】
以上の処理によって、原画像中からテキスト領域を抽出したり、更に、表領域内のセルについてレイアウト解析してテキスト領域を抽出（既述した図２のＳ３２）したりなどすることが可能となる。
【００６４】
図５は、本発明の説明図（その２）を示す。
図５の（ａ）は、ラベリング結果例を示す。ここで、各矩形は、原画像上で、ある黒画素に連結する他の黒画素をまとめ、当該まとめた黒画素のあつまりについて内接する矩形として生成したものである。
【００６５】
図５の（ｂ）は、文字サイズ推定例を示す。
図５の（ｂ−１）は、文字サイズの幅Ｗ０を推定する説明図を示す。図示の曲線は、図５の（ａ）などのラベリング結果の各文字矩形の幅Ｗを全て求め、横軸を当該求めた幅、縦軸をその頻度で表した曲線である。そして、図示のように求めた最頻度の幅を文字サイズ幅Ｗ０と推定する。本実施例は最頻度の文字サイズ幅を文字サイズ幅Ｗ０として推定したが、平均文字サイズ幅を文字サイズ幅Ｗ０として推定してもよい。
【００６６】
図５の（ｂ−２）は、文字サイズの高Ｈ０を推定する説明図を示す。図示の曲線は、図５の（ａ）などのラベリング結果の各文字矩形の高Ｈを全て求め、横軸を当該求めた高、縦軸をその頻度で表した曲線である。そして、最頻度の高Ｈ０を図示のように求め、文字サイズ高Ｈ０と推定する。本実施例は最頻度の文字サイズ高を文字サイズ高Ｈ０として推定したが、平均文字サイズ高を文字サイズ高Ｈ０として推定してもよい。
【００６７】
図６は、本発明の説明図（その３）を示す。
図６の（ａ）は、条件を示す。これは、既述した図２の表領域内のセルについてレイアウト解析して抽出したテキスト領域について、テキストが含まれている可能性が高い領域を抽出する条件であって、ここでは、
・条件１は、閾値＜領域サイズ＜閾値
・条件２は、閾値＜領域内の黒画素密度＜閾値
である。即ち、条件１で表領域内のセルについてテキスト領域とレイアウト解析された領域について、当該領域のサイズが所定の閾値の範囲内（条件１）、かつ当該領域内の黒画素の密度が所定の閾値の範囲内（条件２）のときに、可能性大のテキスト領域として抽出する。
【００６８】
図７は、本発明の説明図（その４）を示す。
図７の（ａ）は、条件を示す。これら条件３，４，５は、既述した図２のＳ１３の条件３，４，５であって、文字矩形として抽出する条件であり、
・条件３は、ΔＷ＝｜Ｗ−Ｗ０｜＜閾値　かつ　ΔＨ＝｜Ｈ−Ｈ０｜＜閾値
（Ｗ０，Ｈ０は推定文字サイズの幅、高（図５の（ｂ）））
・条件４は、閾値＜探索領域の線密度＜閾値
（線密度は領域内をラスタスキャンしたときの白から黒の変化点数／領域面積）
・条件５は、探索矩形内に大きな矩形が無い
（探索領域内をラベリングして大きな矩形を探索して無い）
である。ここで、条件３は、テキスト領域内の矩形の幅Ｗと高Ｈが、既述した図５の（ｂ）で推定した文字サイズの幅Ｗ０と高Ｈ０とのそれぞれの差が所定閾値以内であるという条件である。条件４は、文字矩形を中心とした探索領域の線密度（探索領域内を一定方向にスキャンして例えば白から黒に変わる点の数を当該探索領域の面積で除算した値）が所定の閾値の範囲内であるという条件である。条件５は、文字矩形を中心とした探索領域内に、大きな矩形がないという条件である。
【００６９】
以上の条件３，４，５を満たした場合、既述した図２のＳ１３のＹＥＳとなり、当該文字矩形を文字候補として抽出することが可能となる。
【００７０】
図７の（ｂ）は、探索領域の決定例を示す。図示のテキスト領域内の例えばほぼ中央の文字”か”の矩形に注目し、当該矩形の幅Ｗ，高Ｈとし、当該矩形を中心にして探索領域を図示のように設け、図７の（ａ）の条件３，４，５を適用し、ここでは、文字矩形候補として抽出する。
【００７１】
図８は、本発明の説明図（クラスタリングと最終探索領域の抽出例）を示す。図８において、▲１▼の文字矩形は、既述した図２のＳ１４で文字候補として抽出された矩形を示す。
【００７２】
▲２▼のクラスタリング結果のクラスタは、文字矩形をクラスタリング、即ち、文字矩形に最も距離の近い他の文字矩形同士をまとめることを繰り返し行い、文字矩形の数を減らすことで求められた。文字矩形間の距離は、本実施例の場合、各矩形の左上の座標同士の距離とした。図８では３個に減らした、クラスタとしてまとめた文字矩形を示す。
【００７３】
▲３▼の×は、クラスタ重心である。本実施例では、クラスタ重心は、クラスタを構成する文字矩形の左上の座標値の平均値から求められる。
▲４▼の探索領域は、クラスタ重心に最も近い矩形□（中が黒）を中心に求めた探索領域を示す。
【００７４】
以上のようにして算出した▲４▼の探索領域について、既述した図３のＳ４１からＳ４８の処理により、文字方向を迅速かつ処理量を少なくして決定し、当該決定した文字方向でテキスト領域内の文字認識を行うことが可能となる。
【００７５】
【発明の効果】
以上説明したように、本発明によれば、画像中からテキスト領域を抽出し、当該テキスト領域中の矩形のうちから条件３，４，５により文字矩形候補を抽出し、当該文字矩形候補をまとめて数を減らし、当該減らした後のまとめた矩形の重心に近い文字矩形候補を中心に所定サイズの探索領域を決定し、当該探索領域で文字方向を決め、当該決めた文字方向でテキスト領域の文字認識を行う構成を採用しているため、文書画像から文字方向を決定する際に、文書方向の推定精度を保ちながら処理量を削減して迅速、かつ文書画像全体から文書方向を推定することが可能となる。そして、推定した文字方向でテキスト領域の文字認識を行うことが可能となる。
【図面の簡単な説明】
【図１】本発明のシステム構成図である。
【図２】本発明の動作説明フローチャート（その１）である。
【図３】本発明の動作説明フローチャート（その２）である。
【図４】本発明の説明図（その１）である。
【図５】本発明の説明図（その２）である。
【図６】本発明の説明図（その３）である。
【図７】本発明の説明図（その４）である。
【図８】本発明の説明図（クラスタリングと最終探索領域の抽出例）である。
【符号の説明】
１：処理装置
１１：入力手段
１２：ラベリング手段
１３：文字サイズ推定手段
１４：レイアウト解析手段
１５：探索領域抽出手段
１６：文字認識手段
１７：出力手段
２：ＯＣＲ
３：画像データ
４：ファイル（認識結果）

Claims

画像中の文書方向を推定する文書方向推定方法において、
画像をレイアウト解析してテキスト領域を抽出する第１のステップと、
前記抽出したテキスト領域内の矩形について距離が近い矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返して矩形数を減らす第２のステップと、
前記まとめた矩形をもとに文書方向を決定する第３のステップと
を有する文書方向推定方法。
前記抽出したテキスト領域内の各矩形について、当該矩形サイズが所定サイズの範囲内、かつ当該矩形を中心にした所定探索領域内で白から黒あるいは黒から白あるいは両者の変化数を当該探索領域で除算した値が所定範囲内、かつ前記探索範囲内に大きな矩形がない当該矩形について前記距離が近いを矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返すことを特徴とする請求項１記載の文書方向推定方法。
前記まとめた矩形の重心を算出して当該重心に最も近い矩形を選択して当該選択した矩形を中心に探索領域を決定することを特徴とする請求項１あるいは請求項２記載の文書方向推定方法。
前記まとめた矩形内の全矩形あるいは前記探索領域内の全矩形を４方向に回転させてそれぞれの文字認識を行い、最も確からしい文書方向を決定することを特徴とする請求項１から請求項３のいずれかに記載の文書方向推定方法。
前記画像をレイアウト解析して抽出した表領域内の、各セルについてレイアウト解析して抽出したテキスト領域について、前記第２のステップ以降を実行することを特徴とする請求項１から請求項４のいずれかに記載の文書方向推定方法。
画像中の文書方向を推定する文書方向推定プログラムにおいて
コンピュータに、
画像をレイアウト解析してテキスト領域を抽出する第１のステップと、
前記抽出したテキスト領域内の矩形について距離が近い矩形をまとめることを、まとめた矩形が指定数あるいはまとめ処理が指定回数となるまで繰り返して矩形数を減らす第２のステップと、
前記まとめた矩形をもとに文書方向を決定する第３のステップと
を実行させるための文書方向推定プログラム。