JP2014219909A - 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム - Google Patents

文書画像生成装置、文書画像生成方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2014219909A
JP2014219909A JP2013100215A JP2013100215A JP2014219909A JP 2014219909 A JP2014219909 A JP 2014219909A JP 2013100215 A JP2013100215 A JP 2013100215A JP 2013100215 A JP2013100215 A JP 2013100215A JP 2014219909 A JP2014219909 A JP 2014219909A
Authority
JP
Japan
Prior art keywords
ruby
character string
character
document image
original document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013100215A
Other languages
English (en)
Inventor
毅 九津見
Takeshi Kutsumi
毅 九津見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2013100215A priority Critical patent/JP2014219909A/ja
Publication of JP2014219909A publication Critical patent/JP2014219909A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • G06F17/21
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Abstract

【課題】ルビをより読みやすくした画像を生成すること。【解決手段】本発明は、文字列を表す原文書が表記された原文書画像を取得し(S11)、原文書画像中の文字列の位置を特定文字位置として特定し(S12、S13)、原文書画像中の文字列に対する補足説明であるルビを取得し(S14)、特定文字位置に基づいて、原文書画像中の文字列に近接する行間の位置をルビの配置スペースとして決定し、配置スペースとルビの文字列であるルビ文字列とを含む付属情報を生成し(S15)、付属情報に基づいて、原文書画像中の配置スペースにルビ文字列を付与した補足説明付文書画像を生成し(S16)、S15において、文字列の長さがルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に予め定められた特定文字が含まれている場合に、ルビ文字列に含まれる特定文字と特定文字に続く文字とを省略する。【選択図】図3

Description

本発明は、画像で表される文書に対して補足説明を付加する文書画像生成装置、文書画像生成方法、及びコンピュータプログラムに関する。
近年、文書をスキャナにて読み込み、その読み取った画像における文書中の原文の、単語や連語等の文字列に対応する訳語等の説明情報(以下「ルビ」と呼ぶ。)を行間に付与する技術が知られている。当該技術については、たとえば特許文献1〜3に開示されている。
特許文献1には、文書中の特定の文字列に対応するルビ情報をその文字列(原文文字列)の直下に示す方法が記載されている。また、他の方法として、ルビ付与対象の原文文字列の進行方向の長さに対してルビ文字列の進行方向の長さが長い場合は、辞書情報の文字列の進行方向のみの寸法を縮小して表示する方法が記載されている(特に、特許文献1の段落0057)。
また、特許文献1には、更に他の方法として、ルビ付与対象の原文文字列の進行方向の長さに対してルビ文字列の進行方向の長さが長い場合において、当該ルビ付与対象の原文文字列の前方または後方の原文文字列がルビ付与対象でない場合は、当該ルビ付与対象の原文文字列に対するルビ文字列を、当該ルビ付与対象の原文文字列の前方または後方の原文文字列に対応する位置まではみ出して、ルビ文字列を配置することで、ルビ文字列をなるべく縮小せずに表示する方法が記載されている(特に、特許文献1の段落0049〜段落0056)
特許文献2には、行中のある単語に対するルビの長さがその単語の長さより長い場合において、そのルビの内容が、複数通りの語義を併記しているようなものである場合は、複数の語義のうち、いくつかの語義の出力をやめることで、ルビ文字列をなるべく縮小せずに表示する方法が記載されている(特に、特許文献2の段落0105)。
特許文献3には、行頭や行末のマージン部分を利用することや、より文字数の短いルビに置き換えることで、ルビ文字列をなるべく縮小せずに表示する方法が記載されている。
特開2011−100356号 特開2009−294788号 特開2012−118890号
特許文献1に開示された方法では、行中のある単語に対するルビの長さがその単語の長さより長い場合には、ルビ文字を文字列の進行方向にサイズ圧縮して表示している。しかし、この方法だけでは、ルビが小さくなりすぎたり、縦横比が本来のものより変化しすぎたりして、読みにくくなる恐れがある。
また、同じく特許文献1に開示された方法では、行中のある単語や連語に対するルビの長さがその単語や連語の長さより長い場合に、前方や後方の単語・連語の行間(ルビ用スペース)が利用可能ならば利用して、ルビの圧縮や縮小をなるべく緩和している。しかし、この方法は、前方や後方の単語・連語にルビが存在する場合には実現し難い。また、前方や後方の単語・連語にルビが存在しない場合であっても、原文の言語が中国語などの単語間の空白が無い言語の場合は、この方法を採ると原文単語・連語とルビとの対応が判りにくくなるので、不適である。
特許文献2に開示された方法では、複数存在するルビのうち、出力をやめるルビを決定する必要がある。そのためには、それぞれのルビに出力優先度などの情報を予め付与しておく必要がある。あるいは、複数存在するルビのうち、原文に応じて最適なルビを選択するように実施する場合は、高度なルビ選択技術を導入する必要があることに加え、各ルビに対しては、例えば意味情報などの更に多量の情報を予め付与しておく必要がある。ルビ用の辞書データ全体にこのような情報を付与することは、開発上、膨大な手間とコストを要する。
また、同じく特許文献2に開示された方法では、原文のある単語・連語に対しルビが1種類しか出力されていない場合には、そのルビの文字数をそれ以上削減する手段が示されていない。この場合に、そのルビの長さが対応する原文単語・連語の長さより長いと、結局、ルビの文字サイズ縮小などの手段を採らざるを得ず、やはり読みやすさに問題が生じる。
特許文献3に開示された方法では、対象のルビが行頭や行末でなく行の途中にある場合や、代替可能なより短いルビを辞書に持たない場合は、効果が無い。
本発明は、上述したような従来の方法の問題点を解決するものであり、ルビをより読みやすくした画像を生成することができる文書画像生成装置、文書画像生成方法、及びコンピュータプログラムを提供するものである。
本発明の文書画像生成装置は、文字列を表す原文書が表記された原文書画像を取得する原文書画像取得手段と、前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識手段と、前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得手段と、前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定手段と、前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成手段と、を具備し、前記付属情報決定手段は、前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、ことを特徴とする。
本発明の文書画像生成装置において、前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に少なくとも2つの前記特定文字が含まれている場合、前記ルビ文字列に含まれる前記特定文字と前記特定文字間の文字とを省略する、ことを特徴とする。
本発明の文書画像生成装置において、前記特定文字は、開始を表す記号と終了を表す記号を含む、ことを特徴とする。
本発明の文書画像生成装置において、前記特定文字は、括弧記号である、ことを特徴とする。
本発明の文書画像生成方法は、文字列を表す原文書が表記された原文書画像を取得する原文書画像取得処理と、前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識処理と、前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得処理と、前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定処理と、前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成処理と、を具備し、前記付属情報決定処理は、前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、ことを特徴とする。
本発明のコンピュータプログラムは、上記文書画像生成方法の各ステップをコンピュータに実行させる。
文書の単語・連語へのルビふりにおいて、ルビ文字列が文字列進行方向に対し強く圧縮した場合、前述のように読みにくくなってしまう。そこで、本発明では、文字列の長さが、対象となるルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に予め定められた特定文字が含まれている場合に、ルビ文字列に含まれる特定文字と特定文字に続く文字とを省略する。これにより、圧縮の度合いを緩和することができる。
また、本発明では、文字列の長さが、対象となるルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に少なくとも2つの特定文字が含まれている場合、ルビ文字列に含まれる特定文字と特定文字間の文字とを省略する。すなわち、ルビ文字列のうち、特定文字で挟まれた箇所を省略する。その特定文字としては、開始及び終了を表す括弧記号が例示される。
このように、本発明によれば、ルビ(訳語)中に括弧で挟まれた注釈部分がある場合、そこをカットすることで、意味をあまり変えずにルビ文字数が削減できるので、ルビ文字列の圧縮度合いを緩和することができ、可読性を損なわずに済む。ルビ配置長さに余裕があるなら括弧部分も表示して、意味をより正確に伝えることができる。したがって、本発明によれば、ルビをより読みやすくした画像を生成することができる。
また、本発明によれば、ルビ(訳語)に事前に情報(出力優先度や意味情報など)を付与することなく、上記効果を得ることができるので、開発の手間やコストを削減することができる。
本発明の文書画像生成装置の内部構成を示すブロック図である。 原文書画像及び補足説明付文書画像の例を示す模式図である。 本実施形態に係る文書画像生成装置が実行する処理の手順を示すフローチャートである。 文字認識処理により得られた文字データの例を示す概念図である。 ステップS14のルビ取得処理の手順を示すフローチャートである。 行データの内容例を示す概念図である。 テキストデータ及び改行データの内容例を示す概念図である。 ルビデータの内容例を示す概念図である。 ステップS15の付属情報決定処理の手順を示すフローチャートである。 ステップS15の付属情報決定処理のうち、当初決定された付属情報の長さが所定の基準を超えて長い場合の手順を示すフローチャートである。 当初決定された付属情報(ルビ)の長さがその配置スペースを超えて長い場合の例を示す模式図である。 図11の場合に付属情報(ルビ)が配置スペースに収まるように圧縮して配置した例を示す模式図である。 本実施形態に係る付属情報データベース(ルビ辞書)の例を示す概念図である。 本実施形態に係る特定の記号類(括弧類)が定義された記憶内容の例を示す概念図である。 本発明の技術を利用して圧縮度合いが緩和されて付属情報(ルビ)が配置された例を示す模式図である。 ステップS16の補足説明付文書画像生成処理の手順を示すフローチャートである。 補足説明テキストレイヤ及び印画像レイヤの例を示す模式図である。
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
図1は、本発明の一実施形態の文書画像生成装置の内部構成を示すブロック図である。本実施の形態に係る文書画像生成装置1は、PC(Personal Computer)又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うCPU(Central Processing Unit)11と、演算に伴って発生する一時的な情報を記憶するRAM(Random Access Memory)12と、光ディスク又はメモリカード等の記録媒体2から情報を読み取るCD−ROM(Compact Disc Read Only Memory)ドライブ等のドライブ部13と、ハードディスク等の記憶部14と、を備えている。CPU11は、記録媒体2から本発明のコンピュータプログラム21をドライブ部13に読み取らせ、読み取ったコンピュータプログラム21を記憶部14に記憶させる。
コンピュータプログラム21は必要に応じて記憶部14からRAM12へロードされ、CPU11は、ロードされたコンピュータプログラム21に基づいて、文書画像生成装置1に必要な処理を実行する。ここで、コンピュータプログラム21は、文書認識処理、ルビ取得処理、付属情報決定処理、補足説明付文書画像生成処理などの各処理をCPU11に実行させる。文書認識処理、ルビ取得処理、付属情報決定処理、補足説明付文書画像生成処理については後述する。
なお、コンピュータプログラム21は、インターネット又はLAN(Local Area Network)等の通信ネットワークを介して図示しない外部のサーバ装置から文書画像生成装置1へダウンロードされて記憶部14に記憶される形態であってもよい。
また、記憶部14には、自然言語処理に必要なデータを記録した辞書データベース22を記憶している。辞書データベース22は、言語の文法、構文の出現頻度、及び単語の意味等を示す情報を記録している。辞書データベース22は、最初から記憶部14に記憶されている形態でもよく、また、記録媒体2に記録されてあってドライブ部13で記録媒体2から読み取られて記憶部14に記憶される形態でもよい。
文書画像生成装置1は、更に、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部15と、各種の情報を表示する液晶ディスプレイ等の表示部16とを備えている。
文書画像生成装置1は、更に、外部のウェブサーバ装置4が接続されている通信ネットワークNに接続された通信部18を備えている。ウェブサーバ装置4は、通信ネットワークNを介して、原文書画像を含むウェブページ用の画像データを送信する。通信部18は、ウェブサーバ装置4から通信ネットワークNを介して送信された画像データを受信する。CPU11は、受信した画像データに含まれる原文書画像を表示部16に表示する。
CPU11は、ウェブページである原文書画像を表示部16に表示する際に、RAM12にロードされた上述のコンピュータプログラム21に従って、受信したウェブページ用のデータに含まれる原文書画像に対して、本実施形態の文書画像生成方法の処理を実行する。
文書画像生成方法では、原文書画像から、原文書中の単語又は連語に対するルビ(訳語)を補足説明として付加した補足説明付文書画像を生成する。ここで、原文書画像は、原文書がテキストデータにより表記された文字領域を含み、原文書は、テキストの内容を表す文字列である単語又は連語を表す。連語とは、複数の単語から構成され、独自の意味を有する語句であり、名詞句、動詞句、熟語、又は慣用句等が連語に相当する。また、連語には、連語に含まれる複数の単語が原文書中に連続して配置されている連続連語と、複数の単語が不連続に配置されている不連続連語とがある。不連続連語は、例えば、「He takes difference into consideration.」という文書の「takes…into consideration」のように、連語に含まれる複数の単語の間に他の単語が配置されている連語である。また、本実施の形態では、連語の途中で改行が行われている連語についても、不連続連語として扱う。
図2は、原文書画像及び補足説明付文書画像の例を示す模式図であり、図2(a)は原文書画像の例を示し、図2(b)は補足説明付文書画像の例を示す。図2(a)に示す原文書画像には、「X-ray crystallographic analysis also confirmed the molecular structure.」という内容の文書が含まれている。
本実施形態の文書画像生成方法では、図2(b)に示すように、連語「X-ray crystallographic analysis 」、並びに単語「confirmed 」、「molecular 」及び「structure 」に対するルビを付した補足説明付文書画像を生成する。連語「X-ray crystallographic analysis 」は、本来は連続連語であるものの、図2(a)に示す例では途中で改行が行われているので、不連続連語として扱われる。本実施の形態においては、図2に示すように、横書きの原文書に対し、単語又は連語の下側の行間にルビを配置する例について説明する。
図3は、本実施形態に係る文書画像生成装置1が実行する処理の手順を示すフローチャートである。CPU11は、RAM12にロードしたコンピュータプログラム21に従って、以下の処理を実行する。
文書画像生成装置1は、まず、原文書を表す画像である原文書画像を取得する原文書画像取得処理を実行する(ステップS11)。ステップS11では、CPU11は、ウェブサーバ装置4から通信ネットワークNを介して送信された画像データを通信部18で受信し、RAM12に記憶させる。CPU11は、その画像データに含まれる原文書画像を取得する。なお、ステップS11では、予め記憶部14に記憶してある画像データをRAM12に読み出すことによって、原文書画像を取得する処理を実行してもよい。また、CPU11は、ステップS11の処理の際に、必要に応じて、解像度の調整、及び画像データのデータ形式の変換等の画像処理を行う。
CPU11は、次に、RAM12に記憶した画像データに含まれる原文書画像から、文字が表記されている文字領域を抽出する文字領域抽出処理を実行し(ステップS12)、抽出した文字領域に含まれる文字を認識する文字認識処理を実行する(ステップS13)。ステップS13の処理では、CPU11は、例えば従来のOCR(Optical Character Recognition)技術を利用して、文字領域に表記された文字により原文書を文字データとして認識し、原文書画像中において文字データに含まれる文字列の位置を特定文字位置として特定する。
図4は、文字認識処理により得られた文字データの例を示す概念図である。図4に示す例は、図2に例を示した原文書画像中から文字を認識した結果の一部を示している。文字認識処理により得られた文字データは、CPU11が文字を認識した認識結果と、その認識結果に係る付属情報とを含んでいる。文字認識処理では、行内にあるスペースも文字として認識するようになっており、文字データは、更に、CPU11がスペースを認識した認識結果と、その認識結果に係る付属情報とを含んでいる。
具体的には、上記付属情報は、文字の夫々に順に付した文字番号と、各文字における上記特定文字位置と、文字領域に付した領域番号と、各文字の行内での位置を示す行内位置情報と、文字のサイズとを含み、上記認識結果は、文字の内容を示している。各文字の特定文字位置は、原文書画像における文字の左端のX座標、上端のY座標、右端のX座標、及び下端のY座標で表されている。
図4には、原文書画像の下端左端を原点とし、座標をポイントの単位で表した例を示している。行内位置情報は、行頭を示す1、行末を示す2、行中を示す0、及び行頭かつ行末を示す3の何れかの数値で文字の行内での位置を示す。例えば、CPU11は、原文書画像中で文字の左側に他の文字が無い場合に行内位置情報の1を生成し、文字の右側に他の文字が無い場合に行内位置情報の2を生成し、右にも左にも他の文字がない場合に行内位置情報の3を生成する処理を行う。文字のサイズとしては、文字のフォントサイズをポイントの単位で示している。CPU11は、ステップS13の文字認識処理により取得した文字データを、RAM12に記憶させる。
CPU11は、次に、辞書データベース22を参照して、文字データに含まれる文字列(単語又は連語)に対するルビ(訳語)を取得するルビ取得処理を実行する(ステップS14)。ルビは、ルビ文字列により表され、ルビ文字列は、文字データに含まれる文字列に対する補足説明として用いられる。
図5は、ステップS14のルビ取得処理の手順を示すフローチャートである。CPU11は、ステップS13で取得した文字データに基づいて、原文書に含まれる各行におけるテキストの内容を表す行データを生成する(ステップS141)。
ステップS141では、CPU11は、文字番号の順に行頭の文字から行末の文字まで文字を並べることによって一行分の行データを生成し、各行毎に行データを生成する。図6は、行データの内容例を示す概念図である。
図6に示す例は、図2に例を示した原文書画像中から行データを生成した結果を示している。0を開始値として各行に順に付した行番号に関連付けて、各行におけるテキストの内容を表す行テキストが関連付けられている。行テキストの内容は、文字認識処理で認識された文字を示す文字コードからなる。
CPU11は、次に、生成した行データに基づき、原文書に含まれるテキストの内容を表すテキストデータ、及び原文書中での改行位置を記録した改行データを生成する(ステップS142)。
ステップS142では、CPU11は、各行の行テキストを行番号の順に連結することにより、テキストデータを生成する。このとき、原文書に記載されている言語が英語等のスペースで単語が区切られている言語である場合は、各行テキストの最後尾にスペースを挿入した上で行テキストを連結する。これは、スペースで単語が区切られている言語では、改行位置が単語の区切りになっていることが多いためである。
日本語等のスペースで単語が区切られていない言語の場合は、CPU11は、スペースを挿入せずに行テキストを連結する。更にステップS142では、CPU11は、行テキストを連結する都度、連結により生成されたテキストデータの中でどの位置が原文書中での改行位置に対応した位置であるかを記録することにより、改行データを生成する。
図7は、テキストデータ及び改行データの内容例を示す概念図である。図7(a)はテキストデータの例を示し、図6の例に示す各行データを順に連結した内容となっている。図7中ではテキストデータを2行に亘って表記しているが、データ上ではテキストデータは一行分のデータとなっている。
ステップS142では、ステップS12で抽出した文字領域からステップS13で認識した文字が含まれるテキストデータが生成される。即ち、ステップS142で生成されるテキストデータには、一般的に複数の文が含まれる。
図7(b)は改行データの内容例を示しており、各行番号が示す行における改行位置を、0を開始値としてテキスト中の各文字に順に付した番号で示している。スペースで単語が区切られている言語の場合は、図7(b)に示すように、改行位置は、行テキストを連結する際に挿入したスペースの位置とすればよい。
スペースで単語が区切られていない言語の場合は、各行末の文字の位置を改行位置とすればよい。改行位置で行データを連結したテキストデータを生成することにより、以降の処理で行う自然言語処理では、複数の行に亘って文単位で自然言語処理を実行することができ、効率的で高精度の自然言語処理を実行することが可能となる。
例えば、複数の行に亘る連語については、行単位の自然言語処理では連語に含まれる各単語に対するルビ(訳語)が得られるのみであるのに対し、複数の行に亘った自然言語処理では連語のルビ(訳語)が得られる。
CPU11は、次に、生成したテキストデータに対して、自然言語処理を行うことにより、テキストデータが表す文書に含まれる単語及び連語の意味を推定する処理を行う(ステップS143)。
ステップS143では、CPU11は、辞書データベース22に記録されたデータに基づいて、文書の形態素解析、局所構文解析、及び品詞推定等の自然言語処理を行うことにより、文書中に含まれる単語、及び複数の単語からなる連語を特定し、意味を推定する。CPU11は、次に、文書に含まれる単語及び連語のうち、補足説明付文書画像に付加するためにルビを取得すべき単語及び連語を選択する処理を行う(ステップS144)。
辞書データベース22に記録してあるデータでは、単語及び連語の夫々について難易度を予め定めてあり、また、記憶部14は、補足説明付文書画像中にルビを付加すべき単語及び連語の難易度を設定した設定情報を記憶している。
設定情報の内容は、使用者が入力部15を操作することにより、使用者によって予め設定しておくことが可能である。ステップS144では、CPU11は、設定情報で定められた難易度以上の難易度が定められている単語及び連語を、ルビを取得すべき単語及び連語として選択する。ステップS144により、ルビを配置することが必要な単語及び連語が選択される。
なお、ステップS144では、ルビを付加すべき単語及び連語の難易度を入力するための入力画面を表示部16に表示し、入力部15で難易度を入力される処理を行ってもよく、また、使用者が入力部15を操作することにより、ルビを取得すべき単語及び連語を逐一指定する処理を行ってもよい。
CPU11は、次に、選択した単語及び連語の夫々について、辞書データベース22からルビを取得する処理を行う(ステップS145)。ルビが複数存在する場合は、CPU11は、ステップS143の自然言語処理により推定した意味に対応するルビを取得する。
また、ステップS145において、CPU11は、文字データに含まれる文字列(単語又は連語)と、取得したルビ(訳語)とを関連付けたルビデータを生成してRAM12に記憶させ、処理をメインの処理へ戻す。図8は、ルビデータの内容例を示す概念図である。ルビを取得すべき連語として「X-ray crystallographic analysis 」が選択され、ルビを取得すべき単語として「confirmed 」、「molecular 」及び「structure 」が選択され、夫々に対してルビが関連付けられている。
次に、本発明の一実施形態の、スペースが不十分な箇所にルビを配置する方法について説明する。
CPU11は、図3のステップS14でルビ取得処理を実行した後、原文書画像に対してルビ(ルビデータに含まれる訳語)を配置(付加)して補足説明付文書画像とする際に、上述の特定文字位置に基づいて、原文書画像中における単語又は連語に近接する行間の位置であるルビの配置スペースを決定し、ルビの文字列であるルビ文字列と、ルビの配置スペースと、ルビのフォントサイズと、ルビの圧縮率とを含む付属情報を生成する付属情報決定処理を実行する(ステップS15)。
図9及び図10は、本実施形態に係る、図3のステップS15の付属情報決定処理の手順を示すフローチャートである。
図9は、付属情報決定処理手順の全般的な流れを示すフローチャートである。図10は、付属情報決定処理手順のうち、ルビの長さが当初の配置スペース長より長く、当初の配置スペース長にルビを収めようとしてルビの横幅を圧縮するとその圧縮率が閾値を下回る場合に、この問題を解決する処理手順を示すフローチャートである。この処理手順には、本発明の技術である、ルビの一部の文字を削除することでルビの本来の長さを短くすることと、前述の特許文献1や特許文献3で開示されている技術とが含まれる。
まず、付属情報決定処理手順の全般的な流れを説明する。
CPU11は、文字データに基づいて、原文書に含まれる各行の行間の大きさを計算する(ステップS1501)。
ステップS1501では、CPU11は、文字データから各行の先頭文字の上端及び下端のY座標を取得し、一の行の先頭文字の下端のY座標と次の行の先頭文字の上端のY座標との差を計算することにより、行間の大きさを計算する。CPU11は、計算した行間の大きさを各行に関連付けてRAM12に記憶させる。CPU11は、次に、取得したルビ(訳語)の中から、一のルビを選択する(ステップS1502)。
CPU11は、次に、ステップS1502で選択したルビが不連続連語のルビであるか否かを判定する(ステップS1503)。ルビが不連続連語のルビである場合は(ステップS1503:YES)、CPU11は、ルビに係る不連続連語に含まれる単語又は連続単語列のうち、行間にルビを配置することによりルビを近接させる単語又は連続単語列を決定する処理を行う(ステップS1504)。ステップS1504では、CPU11は、不連続連語に含まれる先頭単語、連続単語列、又は最長単語の長さを互いに比較し、長さが最大である単語又は連続単語列を、ルビを近接させる単語又は連続単語列として決定する処理を行う。長さの比較には、連続単語列に含まれるスペースをも一文字として数えた文字数を比較すればよい。不連続連語の場合、できるだけ長い単語又は連続単語列にルビを近接させた方がルビと連語との対応関係を把握し易い。また、使用者が文書を文頭から順に読んでいく際には、不連続連語のルビはできるだけ先頭の単語に近接していた方が意味を理解し易い。従って、ステップS1504の処理により、不連続連語の意味がより理解し易くなる位置が、ルビの配置スペースとして定められる。
ステップS1503でルビが不連続連語のルビではない場合(ステップS1503:NO)、又はステップS1504が終了した場合は、ルビのフォントサイズを決定する処理を行う(ステップS1505)。ステップS1505では、CPU11は、ルビを近接して配置させるべき単語、連語又は連続単語列が含まれる行と次の行との行間の大きさを取得し、取得した行間の大きさと、ルビを近接して配置させるべき単語、連語又は連続単語列のフォントサイズとを比較する。行間の大きさが、単語、連語又は連続単語列のフォントサイズの40%よりも小さい場合は、CPU11は、ルビのフォントサイズを、単語、連語又は連続単語列のフォントサイズの40%に決定する。行間の大きさが、単語、連語又は連続単語列のフォントサイズの80%よりも大きい場合は、CPU11は、ルビのフォントサイズを、単語、連語又は連続単語列のフォントサイズの80%に決定する。行間の大きさが、単語、連語又は連続単語列のフォントサイズの40%以上80%以下である場合は、CPU11は、ルビのフォントサイズを、行間と同じ大きさに決定する。なお、閾値として、40%又は80%とは異なる値を用いてもよい。
ステップS1505のように、各単語又は連語別にルビのフォントサイズを決定することにより、画像読取時に行が歪んで読み取られる等の原因により原文書中で行間の大きさに変動がある場合でも、各行の文字に重ならないようにルビを配置することができる。なお、本発明では、各単語又は連語別にルビのフォントサイズを決定するのではなく、行単位でルビのフォントサイズを決定する処理を行ってもよい。この場合は、一行内でルビのフォントサイズが変動することがないので、行間にルビを配置した文書の美観が向上する。また、本発明では、文字を認識した文字領域単位で統一したルビのフォントサイズを定める処理を行ってもよい。この場合は、ルビのフォントサイズが段落等の文字領域内で統一され、行間にルビを配置した文書の美観が向上する。
CPU11は、次に、単語又は連語に近接する行間の中で、行に沿った方向のルビを配置すべき開始位置、及びルビを配置することが可能な終端位置を設定する処理を行う(ステップS1506)。ここで、開始位置は、ルビが配置されたときのルビの先端の位置であり、終端位置は、ルビがこれ以降には配置されないように定めた限界の位置である。ステップS1506は、CPU11は、ルビを近接して配置させるべき単語、連語又は連続単語列の最初の文字の左端のX座標を、上記配置スペースの開始位置として設定し、単語、連語又は連続単語列の最後の文字の右端のX座標を、上記配置スペースの終端位置として設定する。連語の途中に改行が存在する場合は、CPU11は、行末を終端位置に設定する。なお、本発明では、開始位置を、単語、連語又は連続単語列の最初の文字の左端から所定量だけずらした位置としてもよく、終端位置を、最後の文字の右端から所定量だけずらした位置としてもよい。また、ステップS1506では、CPU11は、以前の処理により開始位置又は終端位置が既に定まっている場合は既に定まっている位置を採用する処理を行う。
CPU11は、次に、ルビの文字数にフォントサイズを乗じることによってルビの長さを計算し、終端位置の値から開始位置の値を引くことによってルビを配置可能な配置スペースの長さを計算し、ルビの長さが配置スペースの長さよりも長いか否かを判定する(ステップS1507)。ルビの長さが配置スペースの長さ以下である場合は(ステップS1507:NO)、CPU11は、ルビの長さの圧縮率を1に決定する(ステップS1508)。即ち、ルビを縮小せずに原文書中に配置することになる。CPU11は、次に、単語又は連語に近接する行間の中で、行に交差する方向のルビの配置スペースを決定する処理を行う(ステップS1509)。ステップS1509では、CPU11は、ルビを近接して配置させるべき単語、連語又は連続単語列に含まれる各文字の下端のY座標を全て取得し、取得したY座標の値を平均し、Y座標の平均値からルビのフォントサイズだけ下方へずらした位置を、行に交差する方向のルビの配置スペースとして決定する。ステップS1509の処理により、補足説明付文書中でルビを配置する位置が、原文書中の単語、連語又は連続単語列に近接する行間に定まる。また、ステップS1505以降、ステップS1509までの処理により、ステップS1502で選択したルビの文字列、フォントサイズ、配置スペース、及び圧縮率を含む付属情報が決定される。
ステップS1509が終了した後は、CPU11は、取得したルビののうち、まだ付属情報を決定していないルビがあるか否かを判定する(ステップS1510)。まだ付属情報を決定していないルビがある場合は(ステップS1510:YES)、CPU11は、処理をステップS1502へ戻して、まだ付属情報を決定していないルビの中から一のルビを選択する。まだ付属情報を決定していないルビが無い場合は(ステップS1510:NO)、CPU11は、付属情報決定処理を終了する。
ステップS1507でルビの長さが配置スペースの長さよりも長い場合は(ステップS1507:YES)、CPU11は、配置スペースの長さの値をルビの長さの値で除することにより、ルビの長さの圧縮率を計算する(ステップS1511)。CPU11は、次に、計算した圧縮率が予め定めてある閾値より小さいか否かを判定する(ステップS1512)。圧縮率の閾値は、1以下の所定の値に予め定められており、コンピュータプログラム21に含まれているか、又は設定により記憶部14に記憶されている。圧縮率が閾値以上である場合は(ステップS1512:NO)、CPU11は、処理をステップS1509へ進める。
たとえば、原文書に中国語単語で母方の祖父という意味の文字列(中国語表記の漢字)が含まれている場合を考える。図11は、原文書の中国語単語(中国語表記の漢字)に対する日本語訳語が「おじいさん(母方)」であり、ルビの文字サイズを所定のサイズにして、「おじいさん(母方)」をルビの文字列(ルビ文字列)とした場合に、その配置スペースが不足していることを示す模式図である。
図9のステップS1512で圧縮率が閾値より小さい場合は(ステップS1512:YES)、図10のフローチャートに移る(図10のS1551)。
図12は、たとえば、上述のような場合に、ルビ文字列「おじいさん(母方)」の長さをその配置スペースである原語文字列(中国語表記の漢字)の長さに圧縮して配置を試みたが、圧縮度合いがあまりにも強い(圧縮率が小さい)ために読みづらい例の模式図である。
図10のステップS1551において、CPU11は、ルビとして配置すべき訳語に、省略可能な箇所があるか否かを判定する。本実施例の場合は、たとえば、ルビ文字列を決定した辞書データベース22を参照し、訳語を構成する文字を照合していく。図13はそのような辞書データベース22の例を示した概念図で、文字列である中国語単語(中国語表記の漢字)に対して、ルビ文字列である日本語訳語が「おじいさん(母方)」であることを示しており、このルビ文字列「おじいさん(母方)」を構成する文字・記号を照合していくことになる。
ステップS1551における第1の方法として、ルビ文字列は、予め定められた特定文字を含み、CPU11は、ルビ文字列に含まれる特定文字と特定文字に続く文字とを省略する。たとえば、ルビ文字列「おじいさん(母方)」は、予め定められた特定文字として、記号「(」を含み、CPU11は、ルビ文字列「おじいさん(母方)」に含まれる特定文字「(」と特定文字「(」に続く文字「母方)」とを省略する。この場合、特定文字は「(」に限定されず、「◇」、「□」、「○」等でもよい。
ステップS1551における第2の方法として、ルビ文字列は、予め定められた少なくとも2つの特定文字を含み、CPU11は、ルビ文字列に含まれる特定文字と特定文字間の文字とを省略する。たとえば、ルビ文字列「おじいさん(母方)」は、予め定められた特定文字として、開始及び終了をそれぞれ表す括弧記号「(」及び「)」を含み、CPU11は、ルビ文字列「おじいさん(母方)」に含まれる特定文字「(」及び「)」と特定文字「(」及び「)」間の文字「母方」とを省略する。
ステップS1551における第2の方法について、具体例を挙げて説明する。
図14は、この照合の際に参照する、括弧記号を定義したデータ表の概念図である。この表で、同じ行(同じID番号)に属する2種の記号は、対をなしており、ある文字列において、あるID番号の「開き括弧」の欄の記号の後方に、同じID番号の「閉じ括弧」の欄の記号があれば、その文字列のうち、上記開き括弧の記号から閉じ括弧の記号までの部分が、省略可能とみなせる。
本実施例に挙げている、ルビ文字列が「おじいさん(母方)」の場合は、この文字列の6番目の文字が「(」であり、図14におけるID番号1の「開き括弧」の欄の記号である。そして、この文字列の9番目の文字が「)」であり、図14におけるID番号1の「閉じ括弧」の欄の記号である。よって、この文字列「おじいさん(母方)」のうち、6番目の文字から9番目の文字までの範囲である「(母方)」の部分を、省略可能と扱う。
このように、当該訳語(ルビ文字列)に省略可能な部分があると判定された場合は(ステップS1551:YES)、CPUは、その当該訳語(ルビ文字列)から、省略可能と判定された部分をカットした省略済ルビ文字列を生成する(ステップS1552)。この例では、文字列「おじいさん」が生成される。そして、省略済ルビ文字列を既定のルビ用文字サイズの文字で表した場合の長さを改めて求める(ステップS1553)。
そして、改めて求め直された訳語(省略済ルビ文字列)の長さが配置スペースの長さよりも長いか否かを判定する(ステップS1554)。訳語の長さが配置スペースの長さ以下である場合は(ステップS1554:NO)、CPUは、処理を図9のステップS1508へ進める。訳語の長さが配置スペースの長さよりも長い場合は(ステップS1554:YES)、CPUは、本発明以外のルビ文字列圧縮緩和手法を適用することが可能ならば適用する(ステップS1555)。本発明以外のルビ文字列圧縮緩和手法には、たとえば、特許文献2に示されているように、当該ルビ文字列が行頭あるいは行末にあれば、行頭や行末のマージン部分を利用して、配置スペースを伸ばすような手法が考えられる。
S1555で本発明以外の圧縮緩和手法を検討または実施したら、その時点での、訳語(ルビ文字列)の長さが配置スペースの長さよりも長いか否かを判定する(ステップS1556)。訳語の長さが配置スペースの長さ以下である場合は(ステップS1557:NO)、CPUは、処理を図9のステップS1508へ進める。訳語の長さが配置スペースの長さよりも長い場合は(ステップS1556:YES)、CPUは、配置スペースの長さの値を訳語の長さの値で除することにより、訳語の長さの圧縮率を計算し(ステップS1557)、処理を図9のステップS1509へ進める。
なお、上記の説明では、訳語(ルビ文字列)のうち、省略可能な部分は、その文字列に含まれる開き括弧の記号から、それに対応する閉じ括弧の記号までの部分としていたが、実施の形態はこれに限られる物ではない。たとえば、ルビ文字列中に、開き括弧と閉じ括弧のいずれか一方しか存在しない場合に、その括弧記号から見て括弧内とみなされる方向にある文字すべてを省略可能として扱ってもよい。
以上で、図10の説明を終わる。
ステップS1507以降の処理により、ルビを近接して配置させるべき単語、連語又は連続単語列の長さよりも長い文字列については、ルビの長さが配置スペースに収まるように、ルビの長さが縮小される。ルビの長さを縮小することにより、ルビを配置したときに他のルビに位置が重なることが無く、単語又は連語とルビとの対応関係が明確となる。また、上述のように、ルビの文字数を減らすことやその他の措置を講じたために、極端にルビの長さが圧縮されることが無く、読み易い大きさでルビを配置することができる。
図15は、ルビの長さが原文単語(配置スペース)よりも長い場合に、本発明の実施形態を適用した結果の例を示す模式図である。原文書の中国語単語(中国語表記の漢字)に対するルビ「おじいさん(母方)」の長さが長いので、図12に示す例ではルビの長さが強く圧縮されているが、図15)に示す例では、ルビが「おじいさん」とされて字数が短くなったため、圧縮の度合いをより弱めた形でルビが配置され、ルビの大きさが図12に比べて読み易い大きさとなっている。
また、これを実現するに際して、辞書データベース22においては、原文書の中国語単語(中国語表記の漢字)に対して既定のルビ「おじいさん(母方)」以外のルビを予め用意しておく必要はない。また、既定のルビに対して、配置スペースが足りない場合に省略可能な箇所を指定するような情報を予め付与しておく必要もない。このため、辞書作成の手間の増大を抑えられる。
以上の通り、実施の形態の説明で示したごとく、ステップS15の付属情報決定処理を終了した後は、ルビデータに含まれるルビに、決定した付属情報を関連付けた上で、ルビデータをRAM12に記憶させ、処理をメインの処理へ戻す。ステップS13〜S15の処理は、ステップS12で抽出した文字領域の夫々について実行される。
CPU11は、次に、付属情報決定処理により決定された付属情報(ルビの配置スペース、ルビ文字列、フォントサイズ、圧縮率)に基づいて、原文書画像中の配置スペースにルビ文字列を付与した補足説明付文書画像を生成する補足説明付文書画像生成処理を実行する(ステップS16)。
図16は、ステップS16の補足説明付文書画像生成処理の手順を示すフローチャートである。CPU11は、まず、原文書画像と同一の大きさのレイヤ中に、ルビデータに含まれる夫々のルビのテキストデータを、付属情報が示すサイズで、付属情報が示す配置スペースに配置した補足説明テキストレイヤを生成する(ステップS161)。
具体的には、付属情報が示すフォントサイズで生成したルビの長さを圧縮率で圧縮し、ルビの先頭文字の左端は開始位置となり、ルビの下端は行に交差する方向の配置スペースとなるように、各ルビのテキストを配置した画像を生成する。ステップS161では、生成する補足説明テキストレイヤ中のルビのテキストデータ以外の部分は透明にしておく。CPU11は、次に、原文書画像と同一の大きさの画像中に、ルビを取得した不連続連語に対する下線に相当する線を、不連続連語であることを示す印として配置した印画像レイヤを生成する(ステップS162)。ステップS162では、生成する印画像レイヤ中の線以外の部分は透明にしておく。
図17は、補足説明テキストレイヤ及び印画像レイヤの例を示す模式図である。図17に示す例は、図2に例を示した原文書画像中から生成した補足説明テキストレイヤ及び印画像レイヤである。図17(a)は、補足説明テキストレイヤを示し、原文書画像中の単語及び連語に対するルビが配置されている。図17(b)は、印画像レイヤを示し、原文書画像中の連語「X-ray crystallographic analysis 」に対する下線に相当する線が配置されている。この連語は、連語の途中で改行が行われることにより不連続連語となっており、連語に対する下線に相当する線が配置される。
CPU11は、次に、原文書画像と同一の大きさの透明なレイヤ中に、原文書画像中の各文字の位置に相当する位置に各文字を示すテキストデータを透明にした状態で配置した原文書テキストレイヤを生成し(ステップS163)、原文書画像を画像レイヤにした原文書画像レイヤを生成する(ステップS164)。CPU11は、次に、補足説明テキストレイヤ、印画像レイヤ、及び原文書テキストレイヤを、原文書画像レイヤに重ねることにより、補足説明付文書画像を生成し(ステップS165)、生成した補足説明付文書画像を表す画像データをRAM12に記憶させ、処理をメインの処理へ戻す。例えば、ステップS16では、PDF(Portable Document Format)形式の画像で補足説明付文書画像を生成することとし、CPU11は、PDF形式のレイヤとして各レイヤを生成し、生成した補足説明テキストレイヤ、印画像レイヤ、及び原文書テキストレイヤを、原文書画像レイヤに重ねることにより、PDF形式の補足説明付文書画像を生成する。図2(b)に示す補足説明付文書画像は、図2(a)に示す原文書画像に図17に示す補足説明テキストレイヤ及び印画像レイヤ並びに透明な原文書テキストレイヤを重ねることにより生成した補足説明付文書画像である。原文書画像レイヤに補足説明テキストレイヤ及び原文書テキストレイヤを重ねた補足説明付文書画像を生成することにより、原文書の内容及びルビの内容を補足説明付文書画像から検索することが可能となり、また、原文書の内容及びルビの内容をコピーすることも容易となる。なお、印画像レイヤ及び原文書テキストレイヤは、補足説明付文書画像を生成するために必須のものではなく、ステップS16では、原文書画像レイヤに少なくとも補足説明テキストレイヤを重ねることにより、印画像レイヤ及び/又は原文書テキストレイヤを含まない補足説明付文書画像を生成する処理を行ってもよい。
CPU11は、次に、補足説明付文書画像を表す画像データを形成する画像形成処理を実行し(ステップS17)、本発明の各処理を終了する。ステップS17では、CPU11は、補足説明付文書画像を表す画像データを表示部16に表示してもよいし、補足説明付文書画像を表す画像データを記憶部14に記憶させてもよい。
以上の説明により、本発明の文書画像生成装置は、以下の効果を実現する。
文書の単語・連語へのルビふりにおいて、ルビ文字列が文字列進行方向に対し強く圧縮した場合、前述のように読みにくくなってしまう。そこで、本発明では、文字列の長さが、対象となるルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に予め定められた特定文字が含まれている場合に、ルビ文字列に含まれる特定文字と特定文字に続く文字とを省略する。これにより、圧縮の度合いを緩和することができる。
また、本発明では、文字列の長さが、対象となるルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に少なくとも2つの特定文字が含まれている場合、ルビ文字列に含まれる特定文字と特定文字間の文字とを省略する。すなわち、ルビ文字列のうち、特定文字で挟まれた箇所を省略する。その特定文字としては、開始及び終了を表す括弧記号が例示される。
このように、本発明によれば、ルビ(訳語)中に括弧で挟まれた注釈部分がある場合、そこをカットすることで、意味をあまり変えずにルビ文字数が削減できるので、ルビ文字列の圧縮度合いを緩和することができ、可読性を損なわずに済む。ルビ配置長さに余裕があるなら括弧部分も表示して、意味をより正確に伝えることができる。したがって、本発明によれば、ルビをより読みやすくした画像を生成することができる。
また、本発明によれば、ルビ(訳語)に事前に情報(出力優先度や意味情報など)を付与することなく、上記効果を得ることができるので、開発の手間やコストを削減することができる。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も特許請求の範囲に含まれる。
本発明では、特定文字として開始と終了とを表す括弧記号とし、付属情報決定処理において、文字列の長さがルビ文字列の長さと比べて短い場合であり、かつ、ルビ文字列に開始と終了とを表す括弧記号が含まれている場合、ルビ文字列に含まれる開始と終了とを表す括弧記号と、その括弧記号間の文字とを省略しているが、これに限定されない。本発明では、2つの特定文字に挟まれた文字を省略可能であれば、2つの特定文字は、たとえば、括弧記号や「◇」、「□」、「○」等の組み合わせでもよい。
1 … 文書画像生成装置、
2 … 記録媒体、
4 … ウェブサーバ装置、
11 … CPU、
12 … RAM、
13 … ドライブ部、
14 … 記憶部、
15 … 入力部、
16 … 表示部、
18 … 通信部、
21 … コンピュータプログラム、
22 … 辞書データベース、
N … 通信ネットワーク

Claims (6)

  1. 文字列を表す原文書が表記された原文書画像を取得する原文書画像取得手段と、
    前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識手段と、
    前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得手段と、
    前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定手段と、
    前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成手段と、
    を具備し、
    前記付属情報決定手段は、
    前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、
    ことを特徴とする文書画像生成装置。
  2. 前記付属情報決定手段は、
    前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に少なくとも2つの前記特定文字が含まれている場合、前記ルビ文字列に含まれる前記特定文字と前記特定文字間の文字とを省略する、
    ことを特徴とする請求項1に記載の文書画像生成装置。
  3. 前記特定文字は、開始を表す記号と終了を表す記号を含む、
    ことを特徴とする請求項2に記載の文書画像生成装置。
  4. 前記特定文字は、括弧記号である、
    ことを特徴とする請求項1乃至3のいずれかに記載の文書画像生成装置。
  5. 文字列を表す原文書が表記された原文書画像を取得する原文書画像取得処理と、
    前記原文書画像中の前記文字列の位置を特定文字位置として特定する文字認識処理と、
    前記原文書画像中の前記文字列に対する補足説明であるルビを取得するルビ取得処理と、
    前記特定文字位置に基づいて、前記原文書画像中の前記文字列に近接する行間の位置を前記ルビの配置スペースとして決定し、前記配置スペースと前記ルビの文字列であるルビ文字列とを含む付属情報を生成する付属情報決定処理と、
    前記付属情報に基づいて、前記原文書画像中の前記配置スペースに前記ルビ文字列を付与した補足説明付文書画像を生成する画像生成処理と、
    を具備し、
    前記付属情報決定処理は、
    前記文字列の長さが前記ルビ文字列の長さと比べて短い場合であり、かつ、前記ルビ文字列に予め定められた特定文字が含まれている場合に、前記ルビ文字列に含まれる前記特定文字と前記特定文字に続く文字とを省略する、
    ことを特徴とする文書画像生成方法。
  6. 請求項5に記載の文書画像生成方法の各ステップをコンピュータに実行させるコンピュータプログラム。
JP2013100215A 2013-05-10 2013-05-10 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム Pending JP2014219909A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013100215A JP2014219909A (ja) 2013-05-10 2013-05-10 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013100215A JP2014219909A (ja) 2013-05-10 2013-05-10 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2014219909A true JP2014219909A (ja) 2014-11-20

Family

ID=51938275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013100215A Pending JP2014219909A (ja) 2013-05-10 2013-05-10 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2014219909A (ja)

Similar Documents

Publication Publication Date Title
JP4948586B2 (ja) 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体
Pasha et al. Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic.
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
JP4999938B2 (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
US20060218495A1 (en) Document processing device
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
CN112487334A (zh) 用于前端页面语言翻译的方法、装置、计算机设备和介质
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法
JP2014219909A (ja) 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム
JP2015076030A (ja) 文書画像生成装置、文書画像生成方法、及びコンピュータプログラム
JPH0883280A (ja) 文書処理装置
US11842141B2 (en) Device dependent rendering of PDF content
JP4350566B2 (ja) 機械翻訳システム
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP3206600B2 (ja) 文書生成装置
KR102053076B1 (ko) 감성 분석 기반의 스타일 적용이 가능한 문서 편집 장치 및 그 동작 방법
JPH1115826A (ja) 文書解析装置及び方法
JP2002132764A (ja) 機械翻訳前処理装置
JPH09185629A (ja) 機械翻訳方法
JP2000029882A (ja) 要約文作成装置
JP3353873B2 (ja) 機械翻訳装置
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP2007034424A (ja) 文書データ処理装置、文書データ処理方法及び文書データ処理プログラム