JP5604276B2

JP5604276B2 - 文書画像生成装置および文書画像生成方法

Info

Publication number: JP5604276B2
Application number: JP2010269828A
Authority: JP
Inventors: 毅九津見
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-12-02
Filing date: 2010-12-02
Publication date: 2014-10-08
Anticipated expiration: 2030-12-02
Also published as: JP2012118890A

Description

本発明は、画像により表現される文章に対して補足説明情報を付加する処理を行う文書画像生成装置および文書画像生成方法に関する。

第１の言語を用いた文書を表す原文書画像を解析し、原文書画像に含まれる文書中の単語および連語に対する第２の言語を用いた訳語などの補足説明情報を、前記単語および連語に近接した行間に配置して表示する装置がある。

たとえば、特許文献１には、原文書画像に含まれる文書中の特定の文字列（原文文字列）に対応する辞書情報（訳語）の文字列を、原文文字列の直下の行間に配置して表示する技術が開示されている。

特許文献１に開示される技術では、原文文字列に対応する辞書情報の文字列が、原文文字列の直下の行間に配置されて表示されるので、原文文字列とその文字列に対応する辞書情報の文字列との対応関係がわかりやすく、原文と辞書情報とを対比して視認するのに利便性がよい。

特開平４−３１１２６２号公報

しかしながら、特許文献１に開示される技術では、原文文字列の配列方向の長さに対して辞書情報の文字列の配列方向の長さが長い場合には、辞書情報の文字列を縮小して原文文字列の直下の行間に配置して表示する。そのため、表示される辞書情報の文字列が小さくなりすぎて、視認が困難になるおそれがある。

したがって本発明の目的は、単語および連語に対する訳語などの補足説明情報を付加した文書の画像を生成する文書画像生成装置であって、補足説明情報の視認性が劣化するのが抑制された画像を生成することができる文書画像生成装置および文書画像生成方法を提供することである。

本発明は、少なくとも単語、または複数の単語からなる連語を含んでなる文書を表す画像から、前記単語、または前記連語に対する補足説明を示す補足説明情報を文書に付加した補足説明付文書を表す画像を生成する文書画像生成装置であって、
文書を表す画像である原文書画像を取得する原文書画像取得手段と、
前記原文書画像取得手段が取得した原文書画像から文字領域を抽出し、抽出した文字領域に含まれる文字の認識と、原文書画像中における文字の位置の特定を行う文字認識手段と、
前記文字認識手段が認識した文字で構成される文書に対して自然言語処理を行うことによって、文書に含まれる単語または連語の意味を確定し、各単語または連語の意味に対応する補足説明情報を取得する補足説明情報取得手段と、
前記文字認識手段が認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める位置決定手段と、
前記位置決定手段が定めた原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する画像生成手段とを備え、
前記位置決定手段は、
補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定手段と、
補足説明情報を近接して配置させる文書中の単語または連語が、行頭または行末にあるか否かを判定する行頭行末判定手段と、
単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置すべき開始位置を、単語または連語の最初の文字の端に設定する開始位置設定手段であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行頭にあると判定された場合には、前記開始位置を、行頭から所定の長さだけ外方に延出した位置に修正する開始位置設定手段と、
単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置することが可能な終端位置を、単語または連語の最後の文字の端に設定する終端位置設定手段であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行末にあると判定された場合には、前記終端位置を、行末から所定の長さだけ外方に延出した位置に修正する終端位置設定手段と、を含むことを特徴とする文書画像生成装置である。

また本発明は、前記補足説明情報取得手段は、文書に含まれる単語または連語に対応する補足説明情報が複数存在する場合には、存在する全ての補足説明情報を取得し、このうち１つの補足説明情報を選択して選択情報として設定し、
前記位置決定手段は、
前記補足説明情報取得手段が設定した前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定手段と、
前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いと判定された場合、前記補足説明情報取得手段が取得した前記選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に着目し、着目した補足説明情報の長さが前記選択情報の長さよりも短い場合に、前記選択情報を、着目した補足説明情報に置換える補足説明情報置換手段とをさらに含むことを特徴とする。

また本発明は、前記文書画像生成装置によって実行され、少なくとも単語、または複数の単語からなる連語を含んでなる文書を表す画像から、前記単語、または前記連語に対する補足説明を示す補足説明情報を文書に付加した補足説明付文書を表す画像を生成する文書画像生成方法であって、
前記文書画像生成装置の原文書画像取得手段が、文書を表す画像である原文書画像を取得する原文書画像取得工程と、
前記文書画像生成装置の文字認識手段が、前記原文書画像取得工程で取得した原文書画像から文字領域を抽出し、抽出した文字領域に含まれる文字の認識と、原文書画像中における文字の位置の特定を行う文字認識工程と、
前記文書画像生成装置の補足説明情報取得手段が、前記文字認識工程で認識した文字で構成される文書に対して自然言語処理を行うことによって、文書に含まれる単語または連語の意味を確定し、各単語または連語の意味に対応する補足説明情報を取得する補足説明情報取得工程と、
前記文書画像生成装置の位置決定手段が、前記文字認識工程で認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める位置決定工程と、
前記文書画像生成装置の画像生成手段が、前記位置決定工程で定めた原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する画像生成工程とを含み、
前記位置決定工程は、
前記位置決定手段の長さ判定手段が、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定工程と、
前記位置決定手段の行頭行末判定手段が、補足説明情報を近接して配置させる文書中の単語または連語が、行頭または行末にあるか否かを判定する行頭行末判定工程と、
前記位置決定手段の開始位置設定手段が、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置すべき開始位置を、単語または連語の最初の文字の端に設定する開始位置設定工程であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行頭にあると判定された場合には、前記開始位置を、行頭から所定の長さだけ外方に延出した位置に修正する開始位置設定工程と、
前記位置決定手段の終端位置設定手段が、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置することが可能な終端位置を、単語または連語の最後の文字の端に設定する終端位置設定工程であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行末にあると判定された場合には、前記終端位置を、行末から所定の長さだけ外方に延出した位置に修正する終端位置設定工程と、を含むことを特徴とする文書画像生成方法である。

また本発明は、前記文書画像生成装置によって実行され、少なくとも単語、または複数の単語からなる連語を含んでなる文書を表す画像から、前記単語、または前記連語に対する補足説明を示す補足説明情報を文書に付加した補足説明付文書を表す画像を生成する文書画像生成方法であって、
前記補足説明情報取得工程では、前記補足説明情報取得手段が、文書に含まれる単語または連語に対応する補足説明情報が複数存在する場合には、存在する全ての補足説明情報を取得し、このうち１つの補足説明情報を選択して選択情報として設定し、
前記位置決定工程では、
前記長さ判定手段が、前記補足説明情報取得工程で設定した前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定工程と、
前記補足説明情報置換手段が、前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いと判定された場合、前記補足説明情報取得工程で取得した前記選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に着目し、着目した補足説明情報の長さが前記選択情報の長さよりも短い場合に、前記選択情報を、着目した補足説明情報に置換える補足説明情報置換工程とをさらに含むことを特徴とする。

本発明によれば、文書画像生成装置は、原文書画像取得手段と、文字認識手段と、補足説明情報取得手段と、位置決定手段と、画像生成手段とを備える。原文書画像取得手段は、文書を表す画像である原文書画像を取得する。文字認識手段は、原文書画像から文字領域を抽出し、抽出した文字領域に含まれる文字の認識と、原文書画像中における文字の位置の特定を行う。補足説明情報取得手段は、認識した文字で構成される文書に対して自然言語処理を行うことによって、文書に含まれる単語または連語の意味を確定し、各単語または連語の意味に対応する補足説明情報を取得する。位置決定手段は、認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める。画像生成手段は、原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する。

そして、位置決定手段が有する開始位置設定手段は、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置すべき開始位置を、単語または連語の最初の文字の端に設定する。この開始位置設定手段は、長さ判定手段が、補足説明情報の長さが補足説明情報に対応する単語または連語の長さよりも長いと判定し、行頭行末判定手段が、単語または連語が行頭にあると判定した場合には、前記開始位置を、行頭から所定の長さだけ外方に延出した位置に修正する。また、位置決定手段が有する終端位置設定手段は、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置することが可能な終端位置を、単語または連語の最後の文字の端に設定する。この終端位置設定手段は、長さ判定手段が、補足説明情報の長さが補足説明情報に対応する単語または連語の長さよりも長いと判定し、行頭行末判定手段が、単語または連語が行末にあると判定した場合には、前記終端位置を、行末から所定の長さだけ外方に延出した位置に修正する。

本発明の文書画像生成装置では、補足説明情報を近接して配置させるべき単語または連語の長さよりも長い補足説明情報については、当該単語または連語が行中の先頭または末尾にある場合には、補足説明情報を近接して配置させるべき単語または連語に近接した行間の位置に加えて、行頭または行末を所定の長さだけ延出した行間の位置を含む位置に、補足説明情報の行に沿った方向の配置位置が定められる。このため、補足説明情報を配置する際には、行頭または行末を所定の長さだけ延出した部分にまで補足説明情報が配置され、極端に補足説明情報の長さが圧縮されることがなく、読み易い大きさで補足説明情報を配置することができる。

また本発明によれば、補足説明情報取得手段は、文書に含まれる単語または連語に対応する補足説明情報が複数存在する場合には、存在する全ての補足説明情報を取得し、このうち１つの補足説明情報を選択して選択情報として設定する。位置決定手段は、認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める。画像生成手段は、原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する。

そして、位置決定手段が有する補足説明情報置換手段は、選択情報の長さが選択情報に対応する単語または連語の長さよりも長いと判定された場合、補足説明情報取得手段が取得した選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に着目し、着目した補足説明情報の長さが選択情報の長さよりも短い場合に、選択情報を、着目した補足説明情報に置換える。

本発明の文書画像生成装置では、補足説明情報を近接して配置させるべき単語または連語の長さよりも長い選択情報については、補足説明情報取得手段が取得した選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に置換えられる。このため、補足説明情報を配置する際には、極端に補足説明情報の長さが圧縮されることがなく、読み易い大きさで補足説明情報を配置することができる。

また本発明によれば、文書画像生成方法は、前記文書画像生成装置によって実行され、原文書画像取得工程と、文字認識工程と、補足説明情報取得工程と、位置決定工程と、画像生成工程とを含む。原文書画像取得工程では、原文書画像取得手段が文書を表す画像である原文書画像を取得する。文字認識工程では、文字認識手段が原文書画像から文字領域を抽出し、抽出した文字領域に含まれる文字の認識と、原文書画像中における文字の位置の特定を行う。補足説明情報取得工程では、補足説明情報取得手段が認識した文字で構成される文書に対して自然言語処理を行うことによって、文書に含まれる単語または連語の意味を確定し、各単語または連語の意味に対応する補足説明情報を取得する。位置決定工程では、位置決定手段が認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める。画像生成工程では、画像生成手段が原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する。

そして、位置決定工程が含む開始位置設定工程では、開始位置設定手段が、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置すべき開始位置を、単語または連語の最初の文字の端に設定する。この開始位置設定工程では、長さ判定工程において、補足説明情報の長さが補足説明情報に対応する単語または連語の長さよりも長いと判定され、行頭行末判定工程において、単語または連語が行頭にあると判定された場合には、前記開始位置を、行頭から所定の長さだけ外方に延出した位置に修正する。また、位置決定工程が含む終端位置設定工程では、終端位置設定手段が、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置することが可能な終端位置を、単語または連語の最後の文字の端に設定する。この終端位置設定工程では、長さ判定工程において、補足説明情報の長さが補足説明情報に対応する単語または連語の長さよりも長いと判定され、行頭行末判定工程において、単語または連語が行末にあると判定された場合には、前記終端位置を、行末から所定の長さだけ外方に延出した位置に修正する。

本発明の文書画像生成方法では、補足説明情報を近接して配置させるべき単語または連語の長さよりも長い補足説明情報については、当該単語または連語が行中の先頭または末尾にある場合には、補足説明情報を近接して配置させるべき単語または連語に近接した行間の位置に加えて、行頭または行末を所定の長さだけ延出した行間の位置を含む位置に、補足説明情報の行に沿った方向の配置位置が定められる。このため、補足説明情報を配置する際には、行頭または行末を所定の長さだけ延出した部分にまで補足説明情報が配置され、極端に補足説明情報の長さが圧縮されることがなく、読み易い大きさで補足説明情報を配置することができる。

また本発明によれば、補足説明情報取得工程では、前記補足説明情報取得手段が、文書に含まれる単語または連語に対応する補足説明情報が複数存在する場合には、存在する全ての補足説明情報を取得し、このうち１つの補足説明情報を選択して選択情報として設定する。位置決定工程では、位置決定手段が、認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める。画像生成工程では、画像生成手段が、原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する。

そして、位置決定工程が含む補足説明情報置換工程では、補足説明情報置換手段が、選択情報の長さが選択情報に対応する単語または連語の長さよりも長いと判定された場合、補足説明情報取得工程において取得した選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に着目し、着目した補足説明情報の長さが選択情報の長さよりも短い場合に、選択情報を、着目した補足説明情報に置換える。

本発明の文書画像生成方法では、補足説明情報を近接して配置させるべき単語または連語の長さよりも長い選択情報については、補足説明情報取得工程において取得した選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に置換えられる。このため、補足説明情報を配置する際には、極端に補足説明情報の長さが圧縮されることがなく、読み易い大きさで補足説明情報を配置することができる。

本発明の第１実施形態に係る文書画像生成装置１の構成を示すブロック図である。原文書画像および補足説明付文書画像の一例を示す図である。文書画像生成装置１が実行する処理の手順を示すフローチャートである。ＣＰＵ１１により実行される文字認識処理により得られる文字データの一例を示す図である。文書画像生成装置１が実行する補足説明情報取得処理の手順を示すフローチャートである。文書画像生成装置１が実行する付属情報決定処理の手順を示すフローチャートである。文書画像生成装置１が実行する付属情報決定処理の手順を示すフローチャートである。文書画像生成装置１が実行する後方修正処理の手順を示すフローチャートである。文書画像生成装置１が実行する前方修正処理の手順を示すフローチャートである。訳語が行頭または行末のスペースを利用して配置される場合の一例を示す図である。訳語の長さが単語よりも長い場合における訳語の配置の一例を示す図である。訳語の長さが連語よりも長い場合における訳語の配置の一例を示す図である。文書画像生成装置１が実行する補足説明付文書画像生成処理の手順を示すフローチャートである。補足説明テキストレイヤおよび印画像レイヤの一例を示す図である。本発明の第２実施形態に係る文書画像生成装置５の構成を示すブロック図である。文書画像生成装置５が実行する付属情報決定処理の手順を示すフローチャートである。文書画像生成装置５が実行する補足説明情報置換処理の手順を示すフローチャートである。置換された訳語が配置される場合の一例を示す図である。本発明の第３実施形態に係る文書画像生成装置６の構成を示すブロック図である。

（第１実施形態）
図１は、本発明の第１実施形態に係る文書画像生成装置１の構成を示すブロック図である。本実施形態の文書画像生成装置１は、ＰＣまたはサーバ装置などの汎用コンピュータを用いて構成されており、演算を行うＣＰＵ（Central Processing Unit）１１と、演算に伴って発生する一時的な情報を記憶するＲＡＭ（Random Access Memory）１２と、光ディスクまたはメモリカードなどの記録媒体２から情報を読み取るＣＤ−ＲＯＭ（Compact Disc−Read Only Memory）ドライブなどのドライブ部１３と、ハードディスクなどの記憶部１４と、使用者が操作することによる各種の処理指示などの情報が入力されるキーボードまたはポインティングデバイスなどの入力部１５と、各種の情報を表示する液晶ディスプレイなどの表示部１６と、外部のウェブサーバ装置４が接続されている通信ネットワークＮに接続された通信部１７とを備えている。

ＣＰＵ１１は、記録媒体２からコンピュータプログラム２１をドライブ部１３に読み取らせ、読み取ったコンピュータプログラム２１を記憶部１４に記憶させる。コンピュータプログラム２１は、必要に応じて記憶部１４からＲＡＭ１２へロードされる。ＣＰＵ１１は、原文書画像取得手段１１１、文字認識手段１１２、文字修正手段１１３、補足説明情報取得手段１１４、位置決定手段としての機能を果たす付属情報決定手段１１５、および画像生成手段１２２を含んで構成され、ロードされたコンピュータプログラム２１に基づいて文書画像生成装置１に必要な処理を実行する。付属情報決定手段１１５は、長さ判定手段１１６、行頭行末判定手段１１７、終端位置設定手段１１８、開始位置設定手段１１９、後方修正処理手段１２０、および前方修正処理手段１２１を含む。なお、コンピュータプログラム２１は、インターネットまたはＬＡＮ（Local Area Network）などの通信ネットワークを介して図示しない外部のサーバ装置から文書画像生成装置１へダウンロードされて記憶部１４に記憶される形態であってもよい。

また、記憶部１４は、自然言語処理に必要なデータを記録した辞書データベース２２を記憶している。辞書データベース２２は、言語の文法、構文の出現頻度、および単語の意味などを示す情報を記録している。辞書データベース２２は、最初から記憶部１４に記憶されている形態でもよく、また記録媒体２に記録されてあってドライブ部１３で記録媒体２から読み取られて記憶部１４に記憶される形態でもよい。

通信部１７は、通信ネットワークＮを介してウェブサーバ装置４から送信されたウェブページ用のデータを受信し、ＣＰＵ１１は、受信したデータに基づいたウェブページである原文書画像を表示部１６に表示させる。本実施形態の文書画像生成装置１では、ＣＰＵ１１は、ウェブページである原文書画像を表示部１６に表示する際に、コンピュータプログラム２１をＲＡＭ１２にロードし、ロードしたコンピュータプログラム２１に従って、本発明の文書画像生成方法の処理を実行し、ウェブページである原文書画像に含まれる単語または連語に対する訳語などの補足説明情報を生成して表示する処理を行う。

文書画像生成方法では、ウェブサーバ装置４から受信したデータに基づいたウェブページである原文書画像から、文書中の単語または連語に対する訳語を補足説明情報として付加した補足説明付文書画像を生成する。ここで連語とは、複数の単語から構成され、独自の意味を有する語句であり、名詞句、動詞句、熟語、または慣用句などが連語に相当する。また連語には、連語に含まれる複数の単語が文書中に連続して配置されている連続連語と、複数の単語が不連続に配置されている不連続連語とがある。不連続連語は、たとえば、「He takes difference into consideration.」という文章の「takes … into consideration」のように、連語に含まれる複数の単語の間に他の単語が配置されている連語である。また本実施形態では、連語の途中で改行が行われている連語についても、不連続連語として扱う。

図２は、原文書画像および補足説明付文書画像の一例を示す図である。図２（ａ）は、原文書画像１１１ａの一例を示し、図２（ｂ）は補足説明付文書画像１２２ａの一例を示す。図２（ａ）に示す原文書画像１１１ａには、第１の言語（たとえば、英語）を用いた「X-ray crystallographic analysis also confirmed the molecular structure.」という内容の文章が含まれている。本発明の文書画像生成方法では、図２（ｂ）に示すように、連語「X-ray crystallographic analysis」、並びに単語「confirmed」、「molecular」および「structure」に対する第２の言語（たとえば、日本語）を用いた訳語を付した補足説明付文書画像１２２ａを生成する。連語「X-ray crystallographic analysis」は、本来は連続連語であるものの、図２（ａ）に示す例では途中で改行が行われているので、不連続連語として扱われる。本実施形態においては、図２に示すように、左から右に向かう横書きの文書に対し、単語または連語の下側の行間に訳語を配置する例について説明する。

以下では、本実施形態の文書画像生成装置１が、コンピュータプログラム２１に従って、文書画像生成方法の処理を実行する処理の手順について説明する。図３は、文書画像生成装置１が実行する処理の手順を示すフローチャートである。文書画像生成装置１のＣＰＵ１１は、通信ネットワークＮを介してウェブサーバ装置４から送信されたウェブページ用のデータを通信部１７で受信すると、ＲＡＭ１２にロードしたコンピュータプログラム２１に従って、以下の処理を実行する。

ステップｓ１１では、ＣＰＵ１１の原文書画像取得手段１１１は、通信部１７で受信したデータに基づいて、ウェブページである原文書画像を表す画像データを生成することにより、ウェブページ用のデータと原文書画像とを取得する。そして、ＣＰＵ１１は、ウェブページ用のデータと原文書画像を表す画像データとをＲＡＭ１２に記憶させる。

次にステップｓ１２では、ＣＰＵ１１の文字認識手段１１２は、ＲＡＭ１２に記憶された画像データが表す原文書画像から、文字が含まれている文字領域を抽出する。さらに文字認識手段１１２は、ステップｓ１３において、抽出した文字領域に含まれる文字を認識する処理を実行する。ステップｓ１３の文字認識処理では、ＣＰＵ１１は、たとえば従来のＯＣＲ（Optical Character Recognition）技術を利用して、文字領域に含まれる文字の認識と、原文書画像中の文字位置の特定とを行う。

ステップｓ１３においてＣＰＵ１１が実行した文字認識処理により、たとえば図４に示す文字データ１１２ａが得られる。図４は、ＣＰＵ１１により実行される文字認識処理により得られる文字データ１１２ａの一例を示す図である。図４に示す例は、図２に示した例の原文書画像１１１ａ中から文字を認識した結果の一部を示している。

文字認識処理により得られた文字データ１１２ａは、文字の認識結果と文字に係る付属情報とを含んでなる。文字認識処理では、行内にあるスペースも文字として認識するようになっており、文字データ１１２ａにはスペースを認識した認識結果とその認識結果に係る付属情報とが含まれている。図４に示す文字データ１１２ａは、文字のそれぞれに付した文字番号、各文字の原文書画像における位置、文字領域に付した領域番号、各文字の行内での位置を示す行内位置情報、文字のサイズ、および文字の内容を示す認識結果を含んでなる。各文字の位置は、原文書画像における文字の左端のＸ座標、上端のＹ座標、右端のＸ座標、および下端のＹ座標で表されている。図４には、原文書画像の下端左端を原点とし、座標をポイントの単位で表した例を示している。行内位置情報は、行頭を示す「１」、行末を示す「２」、行中を示す「０」、および行頭かつ行末を示す「３」の何れかの数値で文字の行内での位置を示す。たとえば、ＣＰＵ１１は、原文書画像中で文字の左側に他の文字が無い場合に行内位置情報の「１」を生成し、文字の右側に他の文字が無い場合に行内位置情報の「２」を生成し、右にも左にも他の文字がない場合に行内位置情報の「３」を生成し、右にも左にも他の文字がある場合に行内位置情報の「０」を生成する処理を行う。文字のサイズとしては、文字のフォントサイズをポイントの単位で示している。ＣＰＵ１１は、ステップｓ１３の文字認識処理により取得した文字データ１１２ａを、ＲＡＭ１２に記憶させる。

次にステップｓ１４では、ＣＰＵ１１の文字修正手段１１３は、ＲＡＭ１２に記憶したウェブページ用のデータから、テキストデータを抽出し、抽出したテキストデータとステップｓ１３で認識した文字とを比較し、文字をテキストデータに合わせるように、認識した文字を修正する処理を行う。なお、ウェブページ用のデータが画像データなどのテキストデータを抽出できないデータである場合は、ステップｓ１４の処理を省略してもよい。

次にステップｓ１５では、ＣＰＵ１１の補足説明情報取得手段１１４は、文字認識処理により取得された文字データ１１２ａから、認識文字で構成される文書に含まれる単語または連語に対する補足説明情報である訳語を取得する補足説明情報取得処理を実行する。図５は、文書画像生成装置１が実行する補足説明情報取得処理の手順を示すフローチャートである。

ステップｓ１５１では、ＣＰＵ１１は、ステップｓ１３で取得した文字データ１１２ａに基づいて、文書に含まれる各行におけるテキストの内容を表す行データを生成する。ＣＰＵ１１は、文字番号の順に行頭の文字から行末の文字まで文字を並べることによって一行分の行データを生成し、各行毎に行データを生成する。ＣＰＵ１１は、たとえば表１に示す行データを生成する。表１に示す例は、図２に示した例の原文書画像１１１ａ中から行データを生成した結果を示している。

表１に示す例では、「０」を開始値として各行に順に付した行番号に関連付けて、各行におけるテキストの内容を表す行テキストが関連付けられている。行テキストの内容は、文字認識処理で認識された文字を示す文字コードからなる。

次にステップｓ１５２では、ＣＰＵ１１は、生成した行データに基づき、文書に含まれるテキストの内容を表すテキストデータ、および文書中での改行位置を記録した改行データを生成する。ステップｓ１５２では、ＣＰＵ１１は、各行の行テキストを行番号の順に連結することにより、テキストデータを生成する。このとき、文書に記載されている言語が英語などのスペースで単語が区切られている言語である場合は、各行テキストの最後尾にスペースを挿入した上で行テキストを連結する。これは、スペースで単語が区切られている言語では、改行位置が単語の区切りになっていることが多いためである。日本語などのスペースで単語が区切られていない言語の場合は、ＣＰＵ１１は、スペースを挿入せずに行テキストを連結する。更にステップｓ１５２では、ＣＰＵ１１は、行テキストを連結する都度、連結により生成されたテキストデータの中でどの位置が文書中での改行位置に対応した位置であるかを記録することにより、改行データを生成する。

ＣＰＵ１１は、たとえば表２に示すテキストデータ、および表３に示す改行データを生成する。

表２に示す例では、表１に示す例の各行データを順に連結した内容となっている。表２中ではテキストデータを２行にわたって表示しているが、データ上ではテキストデータは一行分のデータとなっている。

ステップｓ１５２では、ＣＰＵ１１は、ステップｓ１２において抽出された文字領域からステップｓ１３で認識された文字が含まれるテキストデータを生成する。すなわち、ステップｓ１５２においてＣＰＵ１１が生成するテキストデータには、一般的に複数の文が含まれる。表３に示す改行データの例では、各行番号が示す行における改行位置を、「０」を開始値としてテキスト中の各文字に順に付した番号で示している。スペースで単語が区切られている言語の場合は、表３に示すように、改行位置は、行テキストを連結する際に挿入したスペースの位置とすればよい。スペースで単語が区切られていない言語の場合は、各行末の文字の位置を改行位置とすればよい。改行位置で行データを連結したテキストデータを生成することにより、以降の処理で行う自然言語処理では、複数の行にわたって文単位で自然言語処理を実行することができ、効率的で高精度の自然言語処理を実行することが可能となる。たとえば、複数の行にわたる連語については、行単位の自然言語処理では連語に含まれる各単語に対する訳語が得られるのみであるのに対し、複数の行にわたった自然言語処理では連語の訳語が得られる。

次にステップｓ１５３では、ＣＰＵ１１は、生成したテキストデータに対して、自然言語処理を行うことにより、テキストデータが表す文章に含まれる単語および連語の意味を推定する処理を行う。ステップｓ１５３では、ＣＰＵ１１は、辞書データベース２２に記録されたデータに基づいて、文章の形態素解析、局所構文解析、および品詞推定などの自然言語処理を行うことにより、文章中に含まれる単語、および複数の単語からなる連語を特定し、意味を推定する。

次にステップｓ１５４では、ＣＰＵ１１は、文章に含まれる単語および連語のうち、補足説明付文書画像に付加するために訳語を取得すべき単語および連語を選択する処理を行う。辞書データベース２２に記録してあるデータでは、単語および連語のそれぞれについて難易度を予め定めてあり、また記憶部１４は、補足説明付文書画像中に訳語を付加すべき単語および連語の難易度を設定した設定情報を記憶している。設定情報の内容は、使用者が入力部１５を操作することにより、使用者によって予め設定しておくことが可能である。ステップｓ１５４では、ＣＰＵ１１は、設定情報で定められた難易度以上の難易度が定められている単語および連語を、訳語を取得すべき単語および連語として選択する。ステップｓ１５４において、ＣＰＵ１１は、訳語を配置することが必要な単語および連語を選択する。なお、ステップｓ１５４では、訳語を付加すべき単語および連語の難易度を入力するための入力画面を表示部１６に表示し、入力部１５で難易度を入力される処理を行ってもよく、また、使用者が入力部１５を操作することにより、訳語を取得すべき単語および連語を逐一指定する処理を行ってもよい。

次にステップｓ１５５では、ＣＰＵ１１は、選択した単語および連語のそれぞれについて、辞書データベース２２から訳語を取得する処理を行う。ＣＰＵ１１は、訳語が複数存在する場合、ステップｓ１５３の自然言語処理により推定した意味に対応する訳語を取得する。ＣＰＵ１１は、単語または連語と、取得した訳語とを関連付けた訳語データを生成してＲＡＭ１２に記憶させる。ＣＰＵ１１は、たとえば表４に示す訳語データを生成する。

表４に示す例では、訳語を取得すべき連語として「X-ray crystallographic analysis 」が選択され、訳語を取得すべき単語として「confirmed」、「molecular」および「structure」が選択され、それぞれに対して訳語が関連付けられている。

ＣＰＵ１１は、ステップｓ１５５において訳語データを生成し、訳語の取得を完了すると、図３に示すステップｓ１６に処理を進める。

ステップｓ１６では、ＣＰＵ１１の付属情報決定手段１１５は、ステップｓ１５において取得した補足説明情報である訳語のそれぞれについて、補足説明付文書画像に訳語を配置する際の位置およびサイズなどの訳語の配置状態を示す付属情報を決定する付属情報決定処理を実行する。図６Ａおよび図６Ｂは、文書画像生成装置１が実行する付属情報決定処理の手順を示すフローチャートである。

ステップｓ１６０１では、ＣＰＵ１１の長さ判定手段１１６は、ステップｓ１３においてＣＰＵ１１が実行した文字認識処理により得られた文字データ１１２ａに基づいて、文書に含まれる各行の行間の大きさを計算する。ステップｓ１６０１では、ＣＰＵ１１の長さ判定手段１１６は、文字データ１１２ａから各行の先頭文字の上端および下端のＹ座標を取得し、一の行の先頭文字の下端のＹ座標と次の行の先頭文字の上端のＹ座標との差を計算することにより、行間の大きさを計算する。ＣＰＵ１１は、計算した行間の大きさを各行に関連付けてＲＡＭ１２に記憶させる。

次にステップｓ１６０２では、ＣＰＵ１１は、ステップｓ１５においてＣＰＵ１１が実行した補足説明情報取得処理により得られた訳語の中から、一の訳語を選択する。次にステップｓ１６０３では、ＣＰＵ１１は、ステップｓ１６０２で選択した訳語が不連続連語の訳語であるか否かを判定する。ＣＰＵ１１は、訳語が不連続連語の訳語であると判定した場合にはステップｓ１６０４に処理を進め、訳語が不連続連語の訳語ではないと判定した場合にはステップｓ１６０５に処理を進める。

ステップｓ１６０４では、ＣＰＵ１１は、訳語に係る不連続連語に含まれる単語または連続単語列のうち、行間に訳語を配置することにより訳語を近接させる単語または連続単語列を決定する処理を行う。ステップｓ１６０４では、ＣＰＵ１１は、不連続連語に含まれる先頭単語、連続単語列、または最長単語の長さを互いに比較し、長さが最大である単語または連続単語列を、訳語を近接させる単語または連続単語列として決定する処理を行う。長さの比較には、連続単語列に含まれるスペースをも一文字として数えた文字数を比較すればよい。不連続連語の場合、できるだけ長い単語または連続単語列に訳語を近接させた方が訳語と連語との対応関係を把握し易い。また使用者が文章を文頭から順に読んでいく際には、不連続連語の訳語はできるだけ先頭の単語に近接していた方が意味を理解し易い。従って、ステップｓ１６０４の処理により、不連続連語の意味がより理解し易くなる位置に、訳語の配置位置が定められる。

ステップｓ１６０３で訳語が不連続連語の訳語ではないと判定された場合、またはステップｓ１６０４が終了した場合、ステップｓ１６０５においてＣＰＵ１１の長さ判定手段１１６は、訳語のフォントサイズを決定する処理を行う。ステップｓ１６０５では、ＣＰＵ１１は、訳語を近接して配置させるべき単語、連語または連続単語列が含まれる行と次の行との行間の大きさを取得し、取得した行間の大きさと、訳語を近接して配置させるべき単語、連語または連続単語列のフォントサイズとを比較する。行間の大きさが、単語、連語または連続単語列のフォントサイズの４０％よりも小さい場合には、ＣＰＵ１１は、訳語のフォントサイズを、単語、連語または連続単語列のフォントサイズの４０％に決定する。行間の大きさが、単語、連語または連続単語列のフォントサイズの８０％よりも大きい場合には、ＣＰＵ１１は、訳語のフォントサイズを、単語、連語または連続単語列のフォントサイズの８０％に決定する。行間の大きさが、単語、連語または連続単語列のフォントサイズの４０％以上８０％以下である場合には、ＣＰＵ１１は、訳語のフォントサイズを、行間と同じ大きさに決定する。なお、閾値として、４０％または８０％とは異なる値を用いてもよい。

ＣＰＵ１１がステップｓ１６０５のように、各単語または連語別に訳語のフォントサイズを決定することにより、画像読取時に行が歪んで読み取られるなどの原因により文書中で行間の大きさに変動がある場合でも、各行の文字に重ならないように訳語を配置することができる。なお、本実施形態では、各単語または連語別に訳語のフォントサイズを決定するのではなく、行単位で訳語のフォントサイズを決定する処理を行ってもよい。この場合には、一行内で訳語のフォントサイズが変動することがないので、行間に訳語を配置した文書の美観が向上する。また本実施形態では、文字を認識した文字領域単位で統一した訳語のフォントサイズを定める処理を行ってもよい。この場合には、訳語のフォントサイズが段落などの文字領域内で統一され、行間に訳語を配置した文書の美観が向上する。

次にステップｓ１６０６では、ＣＰＵ１１の終端位置設定手段１１８および開始位置設定手段１１９は、単語または連語に近接する行間の中で、行に沿った方向の訳語を配置すべき開始位置、および訳語を配置することが可能な終端位置を設定する処理を行う。ここで、開始位置は、訳語が配置されたときの訳語の先端の位置であり、終端位置は、訳語がこれ以降には配置されないように定めた限界の位置である。ステップｓ１６０６では、ＣＰＵ１１は、訳語を近接して配置させるべき単語、連語または連続単語列の最初の文字の左端のＸ座標を、開始位置に設定し、単語、連語または連続単語列の最後の文字の右端のＸ座標を、終端位置に設定する。連語の途中に改行が存在する場合には、ＣＰＵ１１は、行末を終端位置に設定する。なお、本実施形態では、開始位置を、単語、連語または連続単語列の最初の文字の左端から所定量だけずらした位置としてもよく、終端位置を、最後の文字の右端から所定量だけずらした位置としてもよい。またステップｓ１６０６では、ＣＰＵ１１は、以前の処理により開始位置または終端位置が既に定まっている場合は既に定まっている位置を採用する処理を行う。

次にステップｓ１６０７では、ＣＰＵ１１の長さ判定手段１１６は、訳語の文字数にフォントサイズを乗じることによって訳語の長さを計算し、終端位置の値から開始位置の値を引くことによって訳語を配置可能な配置スペースの長さを計算し、訳語の長さが配置スペースの長さよりも長いか否かを判定する。ＣＰＵ１１は、訳語の長さが配置スペースの長さ以下であると判定した場合にはステップｓ１６０８に処理を進め、訳語の長さが配置スペースの長さを超えると判定した場合にはステップｓ１６１１に処理を進める。

ステップｓ１６０８では、ＣＰＵ１１は、訳語の長さの圧縮率を「１」に決定する。すなわち、ＣＰＵ１１は、訳語を縮小せずに文書中に配置することになる。次にステップｓ１６０９では、ＣＰＵ１１は、単語または連語に近接する行間の中で、行に交差する方向の訳語の配置位置を決定する処理を行う。ステップｓ１６０９では、ＣＰＵ１１は、訳語を近接して配置させるべき単語、連語または連続単語列に含まれる各文字の下端のＹ座標を全て取得し、取得したＹ座標の値を平均し、Ｙ座標の平均値から訳語のフォントサイズだけ下方へずらした位置を、行に交差する方向の訳語の配置位置と決定する。ステップｓ１６０９の処理により、補足説明付文書画像中で訳語を配置する位置が、文書中の単語、連語または連続単語列に近接する行間に定まる。またステップｓ１６０５以降、ステップｓ１６０９までの処理により、ステップｓ１６０２で選択した訳語のフォントサイズ、配置位置、および圧縮率を示す付属情報が決定される。

次にステップｓ１６１０では、ＣＰＵ１１は、取得した訳語のうち、まだ付属情報を決定していない訳語があるか否かを判定する。ＣＰＵ１１は、まだ付属情報を決定していない訳語があると判定した場合には、処理をステップｓ１６０２に戻し、まだ付属情報を決定していない訳語の中から一の訳語を選択する。また、ＣＰＵ１１は、まだ付属情報を決定していない訳語が無いと判定した場合には、付属情報決定処理を終了し、図３に示すステップｓ１７に処理を進める。

ステップｓ１６０７で訳語の長さが配置スペースの長さよりも長いと判定された場合、ステップｓ１６１１では、ＣＰＵ１１は、配置スペースの長さの値を訳語の長さの値で除することにより、訳語の長さの圧縮率を計算する。次にステップｓ１６１２では、ＣＰＵ１１は、計算した圧縮率が予め定められた閾値より小さいか否かを判定する。圧縮率の閾値は、１以下の所定の値に予め定められており、コンピュータプログラム２１に含まれているか、または設定により記憶部１４に記憶されている。ＣＰＵ１１は、圧縮率が閾値以上であると判定した場合には前述のステップｓ１６０９に処理を進め、圧縮率が閾値より小さいと判定した場合には図６Ｂに示す圧縮率緩和処理の最初のステップであるステップｓ１６５１に処理を進める。

ステップｓ１６５１では、ＣＰＵ１１の行頭行末判定手段１１７は、訳語を近接して配置させるべき単語、連語または連続単語列（着目語）が、その行中の末尾にあるか否かを判定する。ＣＰＵ１１は、着目語が行中の末尾にあると判定した場合にはステップｓ１６５２に処理を進め、着目語が行中の末尾以外の箇所にあると判定した場合にはステップｓ１６５５に処理を進める。

ステップｓ１６５２では、ＣＰＵ１１の終端位置設定手段１１８は、その行の行末のＸ座標から所定の長さ（たとえば、原文文字の標準的なサイズの２字分）だけ右の位置のＸ座標を終端位置に設定することにより、終端位置を修正する。

次にステップｓ１６５３では、ＣＰＵ１１の長さ判定手段１１６は、訳語を配置可能な配置スペースの長さを計算し、訳語の長さが配置スペースの長さよりも長いか否かを判定する。ＣＰＵ１１は、訳語の長さが配置スペースの長さ以下であると判定した場合には前述したステップｓ１６０８に処理を進め、訳語の長さが配置スペースの長さよりも長いと判定した場合にはステップｓ１６５４に処理を進める。ステップｓ１６５４では、ＣＰＵ１１は、配置スペースの長さの値を訳語の長さの値で除することにより、訳語の長さの圧縮率を計算し、その後、前述したステップｓ１６０９に処理を進める。

ステップｓ１６５１で、訳語を近接して配置させるべき単語、連語または連続単語列がその行の末尾以外の箇所にあると判定した場合、ステップｓ１６５５では、ＣＰＵ１１は、行中で、当該単語、連語または連続単語列の後方に隣接する位置（右隣）に、他の訳語を行間に配置しない単語が存在するか否かを判定する。ＣＰＵ１１は、他の訳語を行間に配置しない単語が後方に存在すると判定した場合にはステップｓ１６６０に処理を進め、他の訳語を行間に配置しない単語が後方に存在しないと判定した場合にはステップｓ１６５６に処理を進める。

ステップｓ１６５６では、ＣＰＵ１１の行頭行末判定手段１１７は、訳語を近接して配置させるべき単語、連語または連続単語列（着目語）が、その行中の先頭にあるか否かを判定する。ＣＰＵ１１は、着目語がその行の先頭にあると判定した場合にはステップｓ１６５７に処理を進め、着目語がその行の先頭以外の箇所にあると判定した場合にはステップｓ１６６３に処理を進める。

ステップｓ１６５７では、ＣＰＵ１１の開始位置設定手段１１９は、その行の行末のＸ座標から所定の長さ（たとえば原文文字の標準的なサイズの２字分）だけ左の位置のＸ座標を開始位置に設定することにより、開始位置を修正する。次にステップｓ１６５８では、ＣＰＵ１１は、訳語を配置可能な配置スペースの長さを計算し、訳語の長さが配置スペースの長さよりも長いか否かを判定する。ＣＰＵ１１は、訳語の長さが配置スペースの長さ以下であると判定した場合には前述したステップｓ１６０８に処理を進め、訳語の長さが配置スペースの長さよりも長いと判定した場合にはステップｓ１６５９に処理を進める。

ステップｓ１６５９では、ＣＰＵ１１は、配置スペースの長さの値を訳語の長さの値で除することにより、訳語の長さの圧縮率を計算し、その後、前述したステップｓ１６０９に処理を進める。

ステップｓ１６５５で、他の訳語を行間に配置しない単語が後方に存在すると判定した場合、ステップｓ１６６０では、ＣＰＵ１１は、後方に隣接する単語の最後の文字の右端のＸ座標を終端位置に設定することにより、終端位置を修正する。次にステップｓ１６６１では、ＣＰＵ１１は、訳語を配置可能な配置スペースの長さを計算し、訳語の長さが配置スペースの長さよりも長いか否かを判定する。ＣＰＵ１１は、訳語の長さが配置スペースの長さ以下であると判定した場合には前述したステップｓ１６０８に処理を進め、訳語の長さが配置スペースの長さよりも長いと判定した場合にはステップｓ１６６２に処理を進める。ステップｓ１６６２では、ＣＰＵ１１は、配置スペースの長さの値を訳語の長さの値で除することにより、訳語の長さの圧縮率を計算し、その後、前述したステップｓ１６０９に処理を進める。

ステップｓ１６５６で、着目語がその行の先頭以外の箇所にあると判定した場合、ステップｓ１６６３では、ＣＰＵ１１は、行中で、訳語を近接して配置させるべき単語、連語または連続単語列の前方に隣接する位置（左隣）に、他の訳語を行間に配置しない単語が存在するか否かを判定する。ＣＰＵ１１は、他の訳語を行間に配置しない単語が前方に存在すると判定した場合にはステップｓ１６６４に処理を進め、他の訳語を行間に配置しない単語が前方に存在しないと判定した場合にはステップｓ１６６５に処理を進める。

ステップｓ１６６４では、ＣＰＵ１１は、前方に隣接する単語の中心位置よりも後方に位置する範囲内で、開始位置を前方にずらすことにより、開始位置を修正する。ステップｓ１６６４では、たとえば、ＣＰＵ１１は、訳語の長さから配置スペースの長さを引いた値が、前方に隣接する単語の中心位置から開始位置までの距離より小さい場合には、訳語の長さから配置スペースの長さを引いた値だけ開始位置を前方にずらす処理を行う。またたとえば、ＣＰＵ１１は、訳語の長さから配置スペースの長さを引いた値が、前方に隣接する単語の中心位置から開始位置までの距離以上である場合には、前方に隣接する単語の中心位置から所定量だけ後方にずれた位置を開始位置とする処理を行う。開始位置を前方にずらし過ぎた場合は、訳語と単語または連語との対応関係が不明瞭となるので、ステップｓ１６６４の処理では、開始位置を、前方に隣接する単語の中心位置よりも後方の位置とするのが適切である。ステップｓ１６６４が終了した後は、ＣＰＵ１１は、ステップｓ１６６１に処理を進める。

ステップｓ１６６３で、他の訳語を行間に配置しない単語が前方に存在しないと判定した場合、ステップｓ１６６５では、ＣＰＵ１１は、訳語を近接して配置させるべき単語、連語または連続単語列の位置が行末ではなく、当該単語、連語または連続単語列の後方に隣接する単語の長さから所定の最小訳語間隔を差し引いた値よりも、後方の単語に近接して配置させるべき訳語の長さが小さいか否かを判定する。最小訳語間隔は、文書中に配置する訳語が互いに区別できるように訳語の間に確保すべきスペースの長さの下限値である。最小訳語間隔の値としては、予め定められている値を用いるか、または訳語のフォントサイズに応じた値を用いる。ＣＰＵ１１は、後方の単語の長さから最小訳語間隔を差し引いた値よりも後方の訳語の長さが小さいと判定した場合にはステップｓ１６６６に処理を進め、後方の訳語の長さが後方の単語の長さから最小訳語間隔を差し引いた値以上と判定した場合にはステップｓ１６６７に処理を進める。

ステップｓ１６６６では、ＣＰＵ１１の後方修正処理手段１２０は、後方の訳語を配置する位置を本来の位置より後方へずらし、選択中の訳語を配置することが可能な終端位置をより後方へずらす後方修正処理を実行する。図７は、文書画像生成装置１が実行する後方修正処理の手順を示すフローチャートである。

ステップｓ１６６６１では、ＣＰＵ１１は、現在の配置スペースの長さと行中の単語の間隔と後方の単語の長さとを足し合わせた値から、後方の訳語の長さと最小訳語間隔とを差し引いた値が、圧縮率を「１」とした選択中の訳語の長さよりも小さいか否かを判定する。ＣＰＵ１１は、前記値が圧縮率１の訳語の長さよりも小さいと判定した場合にはステップｓ１６６６２に処理を進める。

ステップｓ１６６６２では、ＣＰＵ１１は、現在の配置スペースの長さと行中の単語の間隔と後方の単語の長さとを足し合わせた値から、後方の訳語の長さと最小訳語間隔とを差し引いた値で、圧縮率を「１」とした選択中の訳語の長さを除することにより、訳語の長さの圧縮率を計算する。次にステップｓ１６６６３では、ＣＰＵ１１は、計算した圧縮率を圧縮率１の訳語の長さに乗ずることにより訳語の長さを計算し、訳語の開始位置の座標に訳語の長さを加算した座標を終端位置の座標に設定することにより、訳語の終端位置を修正する。次にステップｓ１６６６４では、ＣＰＵ１１は、後方の単語の開始位置の座標に後方の単語の長さを加算した座標から、後方の訳語の長さを差し引いた座標を、後方の訳語の開始位置に設定することにより、後方の訳語を配置すべき位置を修正する。

ステップｓ１６６６１で、現在の配置スペースの長さと行中の単語の間隔と後方の単語の長さとを足し合わせた値から、後方の訳語の長さと最小訳語間隔とを差し引いた値が、圧縮率を「１」とした選択中の訳語の長さ以上であると判定した場合、ステップｓ１６６６５では、ＣＰＵ１１は、訳語の長さの圧縮率を「１」に決定する。次にステップｓ１６６６６では、ＣＰＵ１１は、訳語の開始位置の座標に圧縮率１の訳語の長さを加算した座標を終端位置の座標に設定することにより、訳語の終端位置を修正する。次にステップｓ１６６６７では、ＣＰＵ１１は、訳語の開始位置の座標に訳語の長さと最小訳語間隔とを加算した座標を、後方の訳語の開始位置に設定することにより、後方の訳語を配置すべき位置を修正する。

ステップｓ１６６６４またはステップｓ１６６６７が終了した後は、ＣＰＵ１１は、ステップｓ１６６６の後方修正処理を終了し、前述したステップｓ１６０９に処理を進める。

ステップｓ１６６５で、訳語を近接して配置させるべき単語、連語または連続単語列の位置が行末であるか、または、後方の訳語の長さが、後方の単語の長さから最小訳語間隔を差し引いた値以上であると判定した場合、ステップｓ１６６７では、ＣＰＵ１１は、訳語を近接して配置させるべき単語、連語または連続単語列の位置が行頭ではなく、当該単語、連語または連続単語列の前方に隣接する単語の長さから最小訳語間隔を差し引いた値よりも、前方の単語に近接して配置させるべき訳語の長さが小さいか否かを判定する。ＣＰＵ１１は、前方の単語の長さから最小訳語間隔を差し引いた値よりも前方の訳語の長さが小さいと判定した場合には、ステップｓ１６６８に処理を進める。またＣＰＵ１１は、前方の訳語の長さが、前方の単語の長さから最小訳語間隔を差し引いた値以上と判定した場合には、前述したステップｓ１６０９に処理を進める。

ステップｓ１６６８では、ＣＰＵ１１の前方修正処理手段１２１は、選択中の訳語を配置することが可能な開始位置をより前方へずらす前方修正処理を実行する。図８は、文書画像生成装置１が実行する前方修正処理の手順を示すフローチャートである。

ステップｓ１６６８１では、ＣＰＵ１１は、現在の配置スペースの長さと行中の単語の間隔と前方の単語の長さとを足し合わせた値から、後方の訳語の長さと最小訳語間隔とを差し引いた値が、圧縮率を「１」とした選択中の訳語の長さよりも小さいか否かを判定する。ＣＰＵ１１は、前記値が圧縮率１の訳語の長さよりも小さいと判定した場合には、ステップｓ１６６８２に処理を進める。

ステップｓ１６６８２では、ＣＰＵ１１は、現在の配置スペースの長さと行中の単語の間隔と前方の単語の長さとを足し合わせた値から、前方の訳語の長さと最小訳語間隔とを差し引いた値で、圧縮率を「１」とした選択中の訳語の長さを除することにより、訳語の長さの圧縮率を計算する。次にステップｓ１６６８３では、ＣＰＵ１１は、前方の単語の開始位置の座標に前方の単語の長さと最小訳語間隔とを加算した座標を、訳語の開始位置に設定することにより、選択中の訳語の開始位置を修正する。

ステップｓ１６６８１で、現在の配置スペースの長さと行中の単語の間隔と前方の単語の長さとを足し合わせた値から、前方の訳語の長さと最小訳語間隔とを差し引いた値が、圧縮率を「１」とした選択中の訳語の長さ以上であると判定した場合、ステップｓ１６６８４では、ＣＰＵ１１は、訳語の長さの圧縮率を「１」に決定する。次にステップｓ１６６８５では、ＣＰＵ１１は、訳語の終端位置の座標から圧縮率１の訳語の長さを差し引いた座標を開始位置の座標に設定することにより、訳語の開始位置を修正する。

ステップｓ１６６８３またはステップｓ１６６８５が終了した後は、ＣＰＵ１１は、ステップｓ１６６８の前方修正処理を終了し、前述したステップｓ１６０９に処理を進める。

以上のようなステップｓ１６０１以降の付属情報決定処理、特にステップｓ１６０７以降の処理により、訳語を近接して配置させるべき単語、連語または連続単語列の長さよりも長い訳語については、訳語の長さが配置スペースに収まるように、訳語の長さが縮小される。訳語の長さを縮小することにより、訳語を配置したときに他の訳語に位置が重なることがなく、単語または連語と訳語との対応関係が明確となる。また当該単語、連語または連続単語列が行中の先頭または末尾にある場合には、訳語を近接して配置させるべき単語、連語または連続単語列に近接した行間の位置に加えて、行頭または行末を所定の長さだけ超えたＸ座標の行間の位置を含む位置に、訳語の行に沿った方向の配置位置が定められる。このため、訳語を配置する際には、行頭または行末を所定の長さだけ超えた部分にまで訳語が配置され、極端に訳語の長さが圧縮されることがなく、読み易い大きさで訳語を配置することができる。

図９は、訳語が行頭または行末のスペースを利用して配置される場合の一例を示す図である。図９（ａ）には、訳語Ｂ１の長さを縮小して訳語Ｂ１を配置した例を示し、図９（ｂ）には、行末を所定の長さＸ１だけ超えた位置にまで訳語Ｂ１を配置した例を示し、図９（ｃ）には、行頭を所定の長さＸ２だけ超えた位置にまで訳語Ｂ１を配置した例を示す。「identified as」と表記される連語Ａ１に対する、「〜が〜であると認識する」と表記される訳語Ｂ１の長さが長いので、図９（ａ）に示す例では訳語Ｂ１の長さが圧縮されているが、図９（ｂ）および図９（ｃ）に示す例では、行末または行頭を所定の長さＸ１，Ｘ２だけ超えた部分を含む位置に訳語Ｂ１が配置され、訳語Ｂ１の大きさが図９（ａ）に比べて読み易い大きさとなっている。

また、ステップｓ１６０７以降の処理により、他の訳語を配置すべき単語が前後に存在しない場合には、訳語を近接して配置させるべき単語、連語または連続単語列に近接した行間の位置に加えて、前後の単語に近接した行間の位置を含む位置に、訳語の行に沿った方向の配置位置が定められる。このため、訳語を配置する際には、前後の単語に近接した部分にまで訳語が配置され、極端に訳語の長さが圧縮されることがなく、読み易い大きさで訳語を配置することができる。

図１０は、訳語の長さが単語よりも長い場合における訳語の配置の一例を示す図である。図１０（ａ）には、訳語Ｂ２の長さを縮小して訳語Ｂ２を配意した例を示し、図１０（ｂ）には、前後の単語Ａ３に近接した行間の位置にまで訳語Ｂ２を配置した例を示す。「show」と表記される単語Ａ２に対する、「〜を〜に示す」と表記される訳語Ｂ２の長さが長く、「an」と表記される後方の単語Ａ３には訳語が配置されないので、図１０（ｂ）に示す例では、後方の単語Ａ３に近接した部分を含む位置に訳語Ｂ２が配置され、訳語Ｂ２の大きさが図１０（ａ）に比べて読み易い大きさとなっている。

また前述の処理では、前後の単語が共に他の訳語を配置すべき単語であっても、前後の単語に近接して配置すべき他の訳語の長さが単語の長さに比べて十分に短い場合は、訳語を近接して配置させるべき単語、連語または連続単語列に近接した行間の位置に加えて、前後の単語に近接した行間の位置の一部を含む位置に、訳語の行に沿った方向の配置位置が定められる。

図１１は、訳語の長さが連語よりも長い場合における訳語の配置の一例を示す図である。図１１は、「identified as」と表記される連語Ａ４に近接して、「〜が〜であると認識する」と表記される訳語Ｂ４が配置される例を示す。図１１（ａ）は、後方の単語Ａ５に近接した行間の位置の一部にも訳語Ｂ４を配置した例を示す。後方の単語Ａ５に近接した行間の位置の一部にも訳語Ｂ４を配置する場合は、訳語Ｂ４の終端位置を後方へずらし、更に、後方の単語Ａ５に近接して配置すべき他の訳語Ｂ５の位置をより後方にずらすことになる。図１１（ｂ）は、後方の単語Ａ５に近接した行間の位置の一部にも訳語Ｂ４を配置した上で訳語Ｂ４の長さを縮小した例を示す。訳語Ｂ４の終端位置を後方へずらしても、訳語Ｂ４の配置スペースよりも訳語Ｂ４の長さの方がまだ長い場合には、訳語Ｂ４の長さを縮小することになる。図１１（ｃ）は、前方の単語Ａ６に近接した行間の位置の一部にも訳語Ｂ４を配置した例を示す。前方の単語Ａ６に近接した行間の位置の一部にも訳語Ｂ４を配置する場合は、前方の単語Ａ６に近接して配置すべき他の訳語Ｂ６の位置は変更せずに、訳語Ｂ４の開始位置を前方へずらすことになる。図１１（ｄ）は、前方の単語Ａ７に近接した行間の位置の一部にも訳語Ｂ４を配置した上で訳語Ｂ４の長さを縮小した例を示す。訳語Ｂ４の開始位置を前方へずらしても、訳語Ｂ４の配置スペースよりも訳語Ｂ４の長さの方がまだ長い場合には、訳語Ｂ４の長さを縮小することになる。このように、前後の単語に他の訳語が配置されていても、単語と訳語との対応関係が保たれる範囲内で前後の単語に近接した部分にまで訳語が配置されることにより、極端に訳語の長さが圧縮されることがなく、読み易い大きさで訳語を配置することができる。

以上のように、ステップｓ１６の付属情報決定処理を終了した後は、ＣＰＵ１１は、訳語データに含まれる訳語に、決定した付属情報を関連付けた上で、訳語データをＲＡＭ１２に記憶させ、図３に示すステップｓ１７に処理を進める。ステップｓ１３〜ｓ１６の処理は、ステップｓ１２で抽出した文字領域のそれぞれについて実行される。

ステップｓ１７では、ＣＰＵ１１の画像生成手段１２２は、原文書画像中に、付属情報で定められた配置状態でそれぞれの訳語を配置した補足説明付文書画像を生成する補足説明付文書画像生成処理を行う。図１２は、文書画像生成装置１が実行する補足説明付文書画像生成処理の手順を示すフローチャートである。

ステップｓ１７１では、ＣＰＵ１１は、原文書画像と同一の大きさのレイヤ中に、訳語データに含まれるそれぞれの訳語のテキストデータを、付属情報が示すサイズで、付属情報が示す配置位置に配置した補足説明テキストレイヤを生成する。具体的には、ＣＰＵ１１は、付属情報が示すフォントサイズで生成した訳語の長さを圧縮率で圧縮し、訳語の先頭文字の左端は開始位置となり、訳語の下端は行に交差する方向の配置位置となるように、各訳語のテキストを配置した画像を生成する。ステップｓ１７１では、ＣＰＵ１１は、生成する補足説明テキストレイヤ中の訳語のテキストデータ以外の部分は透明にしておく。

次にステップｓ１７２では、ＣＰＵ１１は、原文書画像と同一の大きさの画像中に、訳語を取得した不連続連語に対する下線に相当する線を、不連続連語であることを示す印として配置した印画像レイヤを生成する。ステップｓ１７２では、ＣＰＵ１１は、生成する印画像レイヤ中の線以外の部分は透明にしておく。

図１３は、補足説明テキストレイヤおよび印画像レイヤの一例を示す図である。図１３に示す例は、図２に例を示した原文書画像１１１ａ中から生成した補足説明テキストレイヤ１６ａおよび印画像レイヤ１６ｂである。図１３（ａ）は、補足説明テキストレイヤ１６ａを示し、原文書画像中の単語および連語に対する訳語が配置されている。図１３（ｂ）は、印画像レイヤ１６ｂを示し、原文書画像中の連語「X-ray crystallographic analysis」に対する下線に相当する線が配置されている。この連語は、連語の途中で改行が行われることにより不連続連語となっており、連語に対する下線に相当する線が配置される。

次にステップｓ１７３では、ＣＰＵ１１は、原文書画像と同一の大きさの透明なレイヤ中に、原文書画像中の各文字の位置に相当する位置に各文字を示すテキストデータを透明にした状態で配置した原文書テキストレイヤを生成する。次にステップｓ１７４では、ＣＰＵ１１は、原文書画像を画像レイヤにした原文書画像レイヤを生成する。次にステップｓ１７５では、ＣＰＵ１１は、補足説明テキストレイヤ１６ａ、印画像レイヤ１６ｂ、および原文書テキストレイヤを、原文書画像レイヤに重ねることにより、補足説明付文書画像を生成し、生成した補足説明付文書画像を表す画像データをＲＡＭ１２に記憶させ、図３に示すステップｓ１８に処理を進める。

たとえば、ステップｓ１７では、ＰＤＦ（Portable Document Format）形式の画像で補足説明付文書画像を生成することとし、ＣＰＵ１１は、ＰＤＦ形式のレイヤとして各レイヤを生成し、生成した補足説明テキストレイヤ１６ａ、印画像レイヤ１６ｂ、および原文書テキストレイヤを、原文書画像レイヤに重ねることにより、ＰＤＦ形式の補足説明付文書画像を生成する。図２（ｂ）に示す補足説明付文書画像１２２ａは、図２（ａ）に示す原文書画像１１１ａに図１３に示す補足説明テキストレイヤ１６ａおよび印画像レイヤ１６ｂ並びに透明な原文書テキストレイヤを重ねることにより生成した補足説明付文書画像である。原文書画像レイヤに補足説明テキストレイヤ１６ａおよび原文書テキストレイヤを重ねた補足説明付文書画像を生成することにより、文書の内容および訳語の内容を補足説明付文書画像から検索することが可能となり、また文書の内容および訳語の内容をコピーすることも容易となる。なお、印画像レイヤ１６ｂおよび原文書テキストレイヤは、補足説明付文書画像を生成するために必須のものではなく、ステップｓ１７では、原文書画像レイヤに少なくとも補足説明テキストレイヤ１６ａを重ねることにより、印画像レイヤ１６ｂおよび原文書テキストレイヤの少なくとも一方のレイヤを含まない補足説明付文書画像を生成する処理を行ってもよい。

ステップｓ１８では、ＣＰＵ１１は、生成した補足説明付文書画像を表示部１６に表示させる処理を行い、本実施形態の文書画像生成装置１による文書画像生成の処理を終了する。なお、文書画像生成装置１は、更に、図示しない画像形成装置を用いて補足説明付文書画像を形成する処理を行ってもよい。

以上の処理により、ウェブページに含まれる単語または連語に対する訳語が行間に配置された補足説明付文書画像が表示部１６に表示される。ウェブページを閲覧する使用者は、外国語で記載されたウェブページであっても、訳語を利用してウェブページの内容を理解することができる。補足説明付文書画像は、元のウェブページである原文書画像レイヤに補足説明テキストレイヤ１６ａを重ねることによって生成されるので、使用者はウェブページのレイアウトが維持された状態で訳語付のウェブページを閲覧することができる。

また、本実施形態の文書画像生成装置１による文書画像生成の処理により、図２（ｂ）に示すような補足説明付文書画像１２２ａが生成される。文書に含まれる単語または連語に対する訳語が、単語または連語に近接する行間に配置されており、文書を読む使用者は、訳語を利用して文書の内容を理解することができる。なお、図２（ｂ）には、単語または連語に近接する上下の行間のうち、下側の行間に訳語を配置する例を示しているが、本実施形態では、単語または連語の上側の行間に訳語を配置してもよい。補足説明付文書画像は、原文書画像レイヤに補足説明テキストレイヤ１６ａを重ねることによって生成されるので、文書に含まれる文字のサイズおよび位置は不変であり、文書のレイアウトは維持される。したがって、原文書と訳語付の文書とを比較することが容易であり、文書の内容を正しく理解することが容易となる。また補足説明付文書画像では、文書を翻訳した訳文を生成するのではなく、単語または連語に対する訳語を付加しているので、原文書と訳語との対応関係は明らかであり、把握し易い。また原文書での単語の綴り間違い、文字認識の処理における誤認識、または自然言語処理の不備による誤訳などがあった場合でも、誤った訳語が付加されるだけであって、前後の文脈から訳語が誤っていることを推測することは容易であり、使用者が文書の内容を正しく理解することを大きく妨げることはない。また本実施形態では、原文書に対する加工を行わないので、文字認識の処理における誤認識などの原因により誤った内容の原文書を生成することがなく、使用者は正しく文書の内容を理解することができる。

また図２（ｂ）に示すように、補足説明付文書画像１２２ａでは、不連続連語に対する訳語を付加するとともに、不連続連語に下線を付してある。下線を付してあることにより、不連続連語の範囲が明確に示されており、使用者が不連続連語の範囲を把握し、文書の意味を理解することが容易となる。なお、不連続連語であることを示す印としては、下線に限るものではなく、本実施形態では、波線を付すか、または同一の不連続連語に含まれる単語には同一の数字を付すなど、その他の印を補足説明付文書画像中に配置する処理を行ってもよい。また本実施形態では、不連続連語に限らず、連続連語についても連語の範囲を明確に示す印を補足説明付文書画像中に配置する処理を行ってもよい。この場合は、連続連語を示す印と不連続連語を示す印としては互いに異なる印を用いることが望ましい。

（第２実施形態）
図１４は、本発明の第２実施形態に係る文書画像生成装置５の構成を示すブロック図である。本実施形態の文書画像生成装置５は、前述した文書画像生成装置１に類似し、対応する部分については同一の参照符号を付して説明を省略する。文書画像生成装置５は、前述したＣＰＵ１１に代えてＣＰＵ５１を備えること以外は、文書画像生成装置１と同様である。

本実施形態の文書画像生成装置５が備えるＣＰＵ５１は、記録媒体２からコンピュータプログラム２１をドライブ部１３に読み取らせ、読み取ったコンピュータプログラム２１を記憶部１４に記憶させる。コンピュータプログラム２１は、必要に応じて記憶部１４からＲＡＭ１２へロードされる。ＣＰＵ５１は、原文書画像取得手段１１１、文字認識手段１１２、文字修正手段１１３、補足説明情報取得手段１１４、付属情報決定手段１１５、および画像生成手段１２２を含んで構成され、ロードされたコンピュータプログラム２１に基づいて文書画像生成装置１に必要な処理を実行する。付属情報決定手段１１５は、長さ判定手段１１６、行頭行末判定手段１１７、終端位置設定手段１１８、開始位置設定手段１１９、後方修正処理手段１２０、および前方修正処理手段１２１、および補足説明情報置換手段５１１を含む。文書画像生成装置５のＣＰＵ５１は、文書画像生成装置１のＣＰＵ１１が備える各手段に加えて、新たに補足説明情報置換手段５１１を含んでいる。

本実施形態の文書画像生成装置５のＣＰＵ５１が実行する文書画像生成の処理は、前述した文書画像生成装置１のＣＰＵ１１が実行する、図３に示すステップｓ１１〜ｓ１８の処理のうち、ステップｓ１１〜ｓ１５、およびステップｓ１７，ｓ１８の処理については同じであるが、ステップｓ１６の付属情報決定処理の処理内容が異なる。本実施形態の文書画像生成装置５のＣＰＵ５１が実行する付属情報決定処理について、図１５を用いて説明する。図１５は、文書画像生成装置５が実行する付属情報決定処理の手順を示すフローチャートである。

本実施形態の文書画像生成装置５では、図５に示すステップｓ１５５において、ＣＰＵ５１は、選択した単語または連語のそれぞれについて、記憶部１４の辞書データベース２２から訳語などの補足説明情報を取得する処理を行う。ＣＰＵ５１の補足説明情報取得手段１１４は、訳語が複数存在する場合には、選択した単語および連語から取得可能な全ての訳語を取得する。ＣＰＵ５１は、単語または連語と、取得した訳語とを関連付けた訳語データを生成してＲＡＭ１２に記憶させる。

本実施形態の文書画像生成装置５においてＣＰＵ５１は、たとえば表５に示す訳語データを生成する。

表５に示す例では、訳語を取得すべき単語として「style」が選択され、この単語に対する訳語情報がカテゴリごとに分類されて複数個が取得され、このうち１個の訳語「スタイル」が選ばれている。ここでいうカテゴリとは、たとえば、文法的または意味的に同一または類似の性質を持つとされた訳語の分類である。

ＣＰＵ５１は、訳語データの生成が完了すると、図３に示すステップｓ１６に処理を進める。ステップｓ１６では、ＣＰＵ１１の付属情報決定手段１１５は、ステップｓ１５において取得した補足説明情報である訳語のそれぞれについて、補足説明付文書画像に訳語を配置する際の位置およびサイズなどの訳語の配置状態を示す付属情報を決定する付属情報決定処理を実行する。

文書画像生成装置５のＣＰＵ５１が実行する、図１５に示す付属情報決定処理におけるステップｓ１６０１〜ｓ１６０６の処理は、文書画像生成装置１のＣＰＵ１１が実行する処理と同じである。ステップｓ１６０６では、ＣＰＵ５１の終端位置設定手段１１８および開始位置設定手段１１９は、訳語を近接して配置させるべき単語、連語または連続単語列の最初の文字の左端のＸ座標を、開始位置に設定し、単語、連語または連続単語列の最後の文字の右端のＸ座標を、終端位置に設定する。

次にステップｓ１６１３では、ＣＰＵ５１の長さ判定手段１１６は、訳語の文字数にフォントサイズを乗じることによって訳語の長さを計算し、終端位置の値から開始位置の値を引くことによって訳語を配置可能な配置スペースの長さを計算し、訳語の長さが配置スペースの長さよりも長いか否かを判定する。ＣＰＵ５１は、訳語の長さが配置スペースの長さ以下であると判定した場合にはステップｓ１６０８に処理を進め、訳語の長さが配置スペースの長さを超えると判定した場合にはステップｓ１６１４の補足説明情報置換処理に処理を進める。

ステップｓ１６１４の補足説明情報置換処理が終了した後に行われるステップｓ１６０７では、ＣＰＵ５１の長さ判定手段１１６は、補足説明情報置換処理（訳語置換処理）を行った結果を用いて、訳語の長さが配置スペースの長さよりも長いか否かを判定する。文書画像生成装置５のＣＰＵ５１が実行する、図１５に示す付属情報決定処理におけるステップｓ１６０７〜ｓ１６１２の処理は、文書画像生成装置１のＣＰＵ１１が実行する処理と同じである。また、文書画像生成装置５のＣＰＵ５１が実行する、ステップｓ１６１２以降の処理は、文書画像生成装置１のＣＰＵ１１が実行するステップｓ１６５１〜ｓ１６６８の処理と同じである。

図１６は、文書画像生成装置５が実行する補足説明情報置換処理の手順を示すフローチャートである。

ステップｓ１６１４１では、ＣＰＵ５１の補足説明情報置換手段５１１は、訳語を近接して配置させるべき単語、連語または連続単語列の訳語データのうち、現在選択訳語と同一カテゴリ内に他の訳語が存在するか否かを判定する。ＣＰＵ５１は、他の訳語が存在すると判定した場合にはステップｓ１６１４２に処理を進め、他の訳語が存在しないと判定した場合には補足説明情報置換処理を終了してステップｓ１６０７に処理を進める。

ステップｓ１６１４２では、ＣＰＵ５１の補足説明情報置換手段５１１は、他の訳語のうち、長さが最短の訳語に着目する。なお、上記説明では、訳語の判定・選択をする範囲を、現在選択訳語と同一カテゴリ内としているが、実施形態はこれに限られるものではない。また、ここでいう訳語の長さとは、訳語の言語で使用される文字種において文字の横幅がほぼ一定ならば（たとえば、日本語に使われる文字）、訳語の長さはその文字数に比例するとみなして、文字数で比較してもよい。また、訳語の言語で使用される文字種において文字の横幅が文字ごとに異なる（たとえば、ローマ字アルファベットのプロポーショナルフォント）なら、文字ごとの幅を積算した値を訳語の長さとしてもよい。

次にステップｓ１６１４３では、ＣＰＵ５１の補足説明情報置換手段５１１は、着目した訳語の長さが現在選択訳語の長さよりも短いか否かを判定する。ＣＰＵ５１は、着目した訳語の長さが現在選択訳語の長さよりも短いと判定した場合にはステップｓ１６１４４に処理を進め、着目した訳語の長さが現在選択訳語の長さ以上と判定した場合には補足説明情報置換処理を終了してステップｓ１６０７に処理を進める。そして、ステップｓ１６１４４では、ＣＰＵ５１の補足説明情報置換手段５１１は、選択訳語を、着目した訳語に置き換える。

以上のような補足説明情報置換処理について、表５に示した例で説明する。当初の現在選択訳語はカテゴリ１の「スタイル」である。ここで、ステップｓ１６１４１で、カテゴリ１内で「スタイル」以外の訳語が存在するかが判定される。ここでは存在するので、ステップｓ１６１４２で、カテゴリ１内で長さが最短の訳語が着目される。ここでは訳語「型」が着目される。ステップｓ１６１４３で、現在選択訳語「スタイル」と、着目訳語「型」との長さが比較される。この結果、着目訳語「型」のほうが長さが短いので、ステップｓ１６１４４で、選択訳語が「型」に置き換えられる。

図１７は、置換された訳語が配置される場合の一例を示す図である。図１７（ａ）には、訳語の長さを縮小して訳語を配置した例を示し、図１７（ｂ）には、訳語を置き換えて訳語を配置した例を示す。図１７（ａ）では、「style」と表記される単語Ａ１０に対する、「スタイル」と表記される訳語Ｂ１０の長さが長いので、訳語Ｂ１０の長さが圧縮されているが、図１７（ｂ）では訳語Ｂ１０が、「型」と表記される着目訳語Ｂ１１に置き換えられた結果、訳語の長さが短くなり、訳語の長さが圧縮されていないので、図１７（ａ）に比べて読みやすくなっている。

（第３実施形態）
図１８は、本発明の第３実施形態に係る文書画像生成装置６の構成を示すブロック図である。本実施形態の文書画像生成装置６は、ＣＰＵとして、前述した文書画像生成装置１が備えるＣＰＵ１１、または文書画像生成装置５が備えるＣＰＵ５１のいずれかを備え、画像読取装置３１および画像形成装置３２が接続されたインタフェース部６１を備えている。

画像読取装置３１は、フラットベッドスキャナまたはフィルムスキャナなどのスキャナであり、画像形成装置３２は、インクジェットプリンタまたはレーザープリンタなどのプリンタである。なお画像読取装置３１および画像形成装置３２は一体に構成されていてもよい。画像読取装置３１は、文書原稿に記録された画像を光学的に読み取って画像データを生成し、生成した画像データを文書画像生成装置６へ送信し、インタフェース部６１は、画像読取装置３１から送信された画像データを受信する。またインタフェース部６１は、画像データを画像形成装置３２へ送信し、画像形成装置３２は、文書画像生成装置６から送信された画像データに基づいて画像を形成する。

文書画像生成装置６のその他の構成は、前述した文書画像生成装置１、文書画像生成装置５と同様であり、対応する部分については同一の参照符号を付して説明を省略する。本実施形態の文書画像生成装置６は、画像読取装置３１が文書原稿の画像を読み取って生成した画像データに基づいて画像形成装置３２により画像を形成する際に、文書原稿に含まれる単語または連語に対する訳語などの補足説明情報を生成する処理を行い、補足説明付文書画像を生成する。文書画像生成装置６における補足説明付文書画像の生成処理については、前述の文書画像生成装置１、文書画像生成装置５と同様である。

文書画像生成装置６では、ＣＰＵ１１，５１は、補足説明付文書画像を表す画像データを、インタフェース部６１から画像形成装置３２へ送信し、画像形成装置３２に画像データに基づいて補足説明付文書画像を形成させる処理を行う。

本実施形態においては、画像読取装置３１で生成した原文書画像に対して補足説明付文書画像を生成する処理を実行する形態を示したが、本実施形態の文書画像生成装置６は、その他の方法で得られた原文書画像に対して補足説明付文書画像を生成する処理を実行する形態であってもよい。たとえば、文書画像生成装置６は、ファクシミリ通信または電子メールなどにより外部から送信された画像データを受信し、受信した画像データに対して補足説明付文書画像を生成する処理を実行する形態であってもよい。またたとえば、文書画像生成装置６は、インタフェース部６１に撮影装置を接続してあり、撮影装置が文書を撮影することによって取得した原文書画像に対して補足説明付文書画像を生成する処理を実行する形態であってもよい。

なお、以上の第１実施形態、第２実施形態および第３実施形態では、補足説明情報として単語または連語に対する訳語を取得し、訳語を行間に配置した補足説明付文書画像を生成する形態を示したが、本発明に係る補足説明情報は訳語に限るものではない。たとえば、補足説明情報として、単語または連語の読みを読み仮名、発音記号またはピンイン記号などで説明した読み情報を、単語または連語に近接した行間に配置する形態であってもよい。この形態の場合は、文書を読む使用者は、文書中の単語または連語の読みを確認することができる。またたとえば、本発明は、補足説明情報として、単語または連語の意味、同義語または由来などを説明した注釈を、単語または連語に近接した行間に配置する形態であってもよい。この形態の場合は、文書を読む使用者は、たとえ母国語であっても難解な言葉または専門用語などを理解することができる。これらの形態では、文書画像生成装置は、単語または連語に関連づけた読み情報または注釈を辞書データベース２２に予め記録しておき、辞書データベース２２から読み情報または注釈を取得する処理を行う。

また以上の第１実施形態、第２実施形態および第３実施形態では、横書きの文書に対して本発明を適用する例を示したが、本発明は縦書きの文書に対しても適用可能である。たとえば、日本語による縦書きの文書に対して本発明の処理を実行する形態であってもよく、この形態の場合は、訳語は単語または連語に近接する右側の行間に配置すればよい。

また以上の第１実施形態、第２実施形態および第３実施形態では、文書画像生成装置は、辞書データベース２２を内部の記憶部１４に記録してある形態を示したが、これに限るものではなく、本発明の文書画像生成装置は、外部の辞書データベースを用いて本発明に係る処理を実行する形態であってもよい。たとえば、文書画像生成装置の外部のサーバ装置に辞書データベースを記憶しておき、文書画像生成装置は、必要に応じて外部の辞書データベースから必要なデータを読み出すことによって本発明に係る処理を実行してもよい。

１，５，６文書画像生成装置
１１，５１ＣＰＵ
１２ＲＡＭ
１４記憶部
１６表示部
１１１原文書画像取得手段
１１２文字認識手段
１１３文字修正手段
１１４補足説明情報取得手段
１１５付属情報決定手段
１１６長さ判定手段
１１７行頭行末判定手段
１１８終端位置設定手段
１１９開始位置設定手段
１２０後方修正処理手段
１２１前方修正処理手段
１２２画像生成手段
５１１補足説明情報置換手段

Claims

少なくとも単語、または複数の単語からなる連語を含んでなる文書を表す画像から、前記単語、または前記連語に対する補足説明を示す補足説明情報を文書に付加した補足説明付文書を表す画像を生成する文書画像生成装置であって、
文書を表す画像である原文書画像を取得する原文書画像取得手段と、
前記原文書画像取得手段が取得した原文書画像から文字領域を抽出し、抽出した文字領域に含まれる文字の認識と、原文書画像中における文字の位置の特定を行う文字認識手段と、
前記文字認識手段が認識した文字で構成される文書に対して自然言語処理を行うことによって、文書に含まれる単語または連語の意味を確定し、各単語または連語の意味に対応する補足説明情報を取得する補足説明情報取得手段と、
前記文字認識手段が認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める位置決定手段と、
前記位置決定手段が定めた原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する画像生成手段とを備え、
前記位置決定手段は、
補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定手段と、
補足説明情報を近接して配置させる文書中の単語または連語が、行頭または行末にあるか否かを判定する行頭行末判定手段と、
単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置すべき開始位置を、単語または連語の最初の文字の端に設定する開始位置設定手段であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行頭にあると判定された場合には、前記開始位置を、行頭から所定の長さだけ外方に延出した位置に修正する開始位置設定手段と、
単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置することが可能な終端位置を、単語または連語の最後の文字の端に設定する終端位置設定手段であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行末にあると判定された場合には、前記終端位置を、行末から所定の長さだけ外方に延出した位置に修正する終端位置設定手段と、を含むことを特徴とする文書画像生成装置。
前記補足説明情報取得手段は、文書に含まれる単語または連語に対応する補足説明情報が複数存在する場合には、存在する全ての補足説明情報を取得し、このうち１つの補足説明情報を選択して選択情報として設定し、
前記位置決定手段は、
前記補足説明情報取得手段が設定した前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定手段と、
前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いと判定された場合、前記補足説明情報取得手段が取得した前記選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に着目し、着目した補足説明情報の長さが前記選択情報の長さよりも短い場合に、前記選択情報を、着目した補足説明情報に置換える補足説明情報置換手段とをさらに含むことを特徴とする請求項１に記載の文書画像生成装置。
請求項１に記載の文書画像生成装置によって実行され、少なくとも単語、または複数の単語からなる連語を含んでなる文書を表す画像から、前記単語、または前記連語に対する補足説明を示す補足説明情報を文書に付加した補足説明付文書を表す画像を生成する文書画像生成方法であって、
前記文書画像生成装置の原文書画像取得手段が、文書を表す画像である原文書画像を取得する原文書画像取得工程と、
前記文書画像生成装置の文字認識手段が、前記原文書画像取得工程で取得した原文書画像から文字領域を抽出し、抽出した文字領域に含まれる文字の認識と、原文書画像中における文字の位置の特定を行う文字認識工程と、
前記文書画像生成装置の補足説明情報取得手段が、前記文字認識工程で認識した文字で構成される文書に対して自然言語処理を行うことによって、文書に含まれる単語または連語の意味を確定し、各単語または連語の意味に対応する補足説明情報を取得する補足説明情報取得工程と、
前記文書画像生成装置の位置決定手段が、前記文字認識工程で認識した文字の位置に基づき、各単語または連語に対応して取得した補足説明情報の配置位置を、原文書画像中で各単語または連語に近接した行間の位置に定める位置決定工程と、
前記文書画像生成装置の画像生成手段が、前記位置決定工程で定めた原文書画像中の位置に相当する位置に各補足説明情報が配置された補足説明付文書を表す画像を生成する画像生成工程とを含み、
前記位置決定工程は、
前記位置決定手段の長さ判定手段が、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定工程と、
前記位置決定手段の行頭行末判定手段が、補足説明情報を近接して配置させる文書中の単語または連語が、行頭または行末にあるか否かを判定する行頭行末判定工程と、
前記位置決定手段の開始位置設定手段が、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置すべき開始位置を、単語または連語の最初の文字の端に設定する開始位置設定工程であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行頭にあると判定された場合には、前記開始位置を、行頭から所定の長さだけ外方に延出した位置に修正する開始位置設定工程と、
前記位置決定手段の終端位置設定手段が、単語または連語に近接した行間の中で、行に沿った方向の補足説明情報を配置することが可能な終端位置を、単語または連語の最後の文字の端に設定する終端位置設定工程であって、補足説明情報の長さが、補足説明情報に対応する単語または連語の長さよりも長く、単語または連語が行末にあると判定された場合には、前記終端位置を、行末から所定の長さだけ外方に延出した位置に修正する終端位置設定工程と、を含むことを特徴とする文書画像生成方法。
請求項２に記載の文書画像生成装置によって実行され、少なくとも単語、または複数の単語からなる連語を含んでなる文書を表す画像から、前記単語、または前記連語に対する補足説明を示す補足説明情報を文書に付加した補足説明付文書を表す画像を生成する文書画像生成方法であって、
前記補足説明情報取得工程では、前記補足説明情報取得手段が、文書に含まれる単語または連語に対応する補足説明情報が複数存在する場合には、存在する全ての補足説明情報を取得し、このうち１つの補足説明情報を選択して選択情報として設定し、
前記位置決定工程は、
前記長さ判定手段が、前記補足説明情報取得工程で設定した前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いか否かを判定する長さ判定工程と、
前記補足説明情報置換手段が、前記選択情報の長さが、前記選択情報に対応する単語または連語の長さよりも長いと判定された場合、前記補足説明情報取得工程で取得した前記選択情報以外の他の補足説明情報のうち、長さが最短の補足説明情報に着目し、着目した補足説明情報の長さが前記選択情報の長さよりも短い場合に、前記選択情報を、着目した補足説明情報に置換える補足説明情報置換工程とをさらに含むことを特徴とする請求項３に記載の文書画像生成方法。