JP2006252167A - Document processing device - Google Patents
Document processing device Download PDFInfo
- Publication number
- JP2006252167A JP2006252167A JP2005067541A JP2005067541A JP2006252167A JP 2006252167 A JP2006252167 A JP 2006252167A JP 2005067541 A JP2005067541 A JP 2005067541A JP 2005067541 A JP2005067541 A JP 2005067541A JP 2006252167 A JP2006252167 A JP 2006252167A
- Authority
- JP
- Japan
- Prior art keywords
- annotation
- document
- commentary
- phrase
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、文書中に含まれる語句の解説を提示する技術に関する。 The present invention relates to a technique for presenting explanations of words included in a document.
日本語、或いは外国語で記された文書の効率的な読解を支援する種々の技術がこれまでに提案されている。例えば、特許文献1には、ユーザに対して複雑な操作を強いることなく、外国語文書の読解を迅速に支援しうる読解支援装置の開示がある。特許文献2には、紙の文書を所定のハイパーテキストが埋め込まれたデジタル文書へ変換することで、コンピュータ等のデジタルの世界と紙の文書との間に情報の連続性・関連性を構築する技術の開示がある。特許文献3には、ユーザが文章をコンピュータのモニタ上で読む際に、その文章に関してユーザが知らないであろう単語や熟語をそのユーザの読解レベルに応じ自動的に辞書引きして提示する技術の開示がある。
ところで、文書、特に、外国語で記された文書の読解は、文書中に現れる辞書引きの必要な語句に適宜マークを付しながら一通り読んだ後、マークを付しておいた語句の意味を辞書で調べてから改めて読み直すといった手順で行われるのが一般的である。そして、このような手順に従って読解を行う場合は、語句の発音が分からないところに直線でマークを追記する一方で意味の分からないところには波線でマークを追記するといったように、後から調べるべき内容の種類に応じてマークの追記態様を使い分けるとより効率的である。
しかしながら、かかる手順で文書を読解する場合、マークを付しておいた語句の辞書引きが煩わしくなるという問題があった。
本発明は、このような背景の下に案出されたものであり、煩わしい辞書引き作業を読者に強いることなく、文書の良好な読解を実現できる仕組みを提供することを目的とする。
By the way, in reading a document, especially a document written in a foreign language, the meaning of the word / phrase that has been marked after reading through the document with appropriate marks on the words / phrases that need dictionary lookup appearing in the document. Generally, this is done by a procedure such as searching for a dictionary and then rereading it. And when reading in accordance with such a procedure, you should check later, such as adding a mark with a straight line where you do not know the pronunciation of a word, but adding a mark with a wavy line if you do not understand the meaning. It is more efficient to use different mark appending modes depending on the type of content.
However, when the document is read and read in such a procedure, there is a problem that the dictionary lookup of the marked words becomes troublesome.
The present invention has been devised under such a background, and an object of the present invention is to provide a mechanism that can realize a good reading of a document without forcing the reader to perform a troublesome dictionary lookup operation.
本発明の好適な態様である文書処理装置は、1つの語句に関する数種の解説情報と文書へのアノテーションの追記態様のパターンの各対を纏めた語句別解説情報群を、文書中に出現し得る各語句毎に記憶した解説情報記憶手段と、アノテーションが追記された一又は複数の語句を含む文書を表すビットマップを入力する入力手段と、前記入力手段からビットマップが入力されると、そのビットマップが表す文書からアノテーションを抽出する抽出手段と、前記抽出したアノテーションが追記されている語句を前記ビットマップから特定する対象語句特定手段と、前記特定された語句と対応付けて前記解説情報記憶手段に記憶されている語句別解説情報群を特定する解説情報群特定手段と、前記抽出されたアノテーションを解析することによってそのアノテーションが該当する追記態様のパターンを識別し、識別したパターンと対を成す解説情報を前記特定された語句別解説情報群から取得する解説取得手段と、前記取得された解説情報を出力する解説出力手段とを備える。 A document processing apparatus according to a preferred aspect of the present invention, a word-by-word commentary information group in which a pair of several kinds of commentary information relating to one word and a pattern of an annotation addition to a document is collected appears in the document. Comment information storage means stored for each word to be obtained, input means for inputting a bitmap representing a document including one or more words with annotations added thereto, and when a bitmap is input from the input means, Extraction means for extracting an annotation from a document represented by a bitmap, target phrase specifying means for specifying a phrase to which the extracted annotation is added from the bitmap, and the explanation information storage in association with the specified phrase Comment information group specifying means for specifying the comment information group for each phrase stored in the means, and analyzing the extracted annotation. Commentary acquisition means for identifying the pattern of the additional writing mode to which the annotation corresponds, and acquiring commentary information paired with the identified pattern from the specified commentary group by phrase, and commentary for outputting the acquired commentary information Output means.
この態様において、前記対象語句特定手段は、前記抽出したアノテーションの周辺にある前記ビットマップ上の画像を切り出し、切り出した画像に文字認識を施すことにより、当該アノテーションが追記されている語句を文字又は文字列として特定するようにしてもよい。 In this aspect, the target word specifying unit cuts out an image on the bitmap around the extracted annotation, and performs character recognition on the cut-out image so that the word or phrase to which the annotation is additionally written It may be specified as a character string.
また、前記入力されたビットマップからアノテーションを消去するアノテーション消去手段を更に備えてもよい。 An annotation erasing unit for erasing the annotation from the input bitmap may be further provided.
前記解説情報記憶手段にて各種解説情報と対応付けられた追記態様のパターンと、それら各パターンと対応する解説の種別との関係を表す解説凡例画像を生成し、生成した解説凡例画像を前記アノテーションの画像を消去して得られた新たなビットマップにおける所定の描画位置に上書きする凡例生成手段を更に備えてもよい。 A commentary legend image representing the relationship between the pattern of the additional writing mode associated with various commentary information in the commentary information storage means and the type of commentary corresponding to each pattern is generated, and the generated commentary legend image is the annotation Legend generation means for overwriting a predetermined drawing position in a new bitmap obtained by erasing the image may be further provided.
本発明の別の好適な態様である文書処理装置は、1つの語句に関する数種の解説情報と文書へのアノテーションの追記態様のパターンの各対を纏めた語句別解説情報群を、文書中に出現し得る各語句毎に記憶した解説情報記憶手段と、文書の文字コード列を入力する入力手段と、前記入力された文字コード列を文書を表す文字列として表示する表示手段と、前記表示された文字列の一部にアノテーションを追記するアノテーション追記手段と、前記追記されたアノテーションを抽出する抽出手段と、前記抽出したアノテーションが追記されている文字又は文字の纏まりを語句として特定する対象語句特定手段と、前記特定された語句と対応付けて前記解説情報記憶手段に記憶されている語句別解説情報群を特定する解説情報群特定手段と、前記抽出されたアノテーションを解析することによってそのアノテーションが該当する追記態様のパターンを識別し、識別したパターンと対を成す解説情報を前記特定された語句別解説情報群から取得する解説取得手段と、前記取得された解説情報を出力する解説出力手段とを備える。 In another preferred aspect of the present invention, a document processing apparatus includes, in a document, a description information group by phrase that summarizes each pair of several types of description information related to one word and a pattern of an annotation addition form to the document. Explanation information storage means stored for each word that may appear, input means for inputting a character code string of a document, display means for displaying the input character code string as a character string representing a document, and the display Annotation adding means for adding an annotation to a part of the character string, extracting means for extracting the added annotation, and target phrase specification for specifying a character or a group of characters to which the extracted annotation is added as a phrase A comment information group specifying means for specifying a phrase-specific comment information group stored in the comment information storage means in association with the specified word; Analyzing the extracted annotation to identify the pattern of the additional writing mode to which the annotation corresponds, commentary acquisition means for acquiring commentary information paired with the identified pattern from the specified commentary group by phrase, and Comment output means for outputting the acquired comment information.
本発明によると、煩わしい辞書引き作業を読者に強いることなく、文書の良好な読解を実現できる。 According to the present invention, it is possible to realize good reading of a document without forcing the reader to perform a troublesome dictionary lookup operation.
(第1実施形態)
本願発明の第1実施形態について説明する。
本実施形態は、以下に示す2つの特徴を有している。1つ目の特徴は、読解対象となる中国語の文書に現れる語句にアノテーションを追記してその文書をスキャンすると、アノテーションが追記された語句の「読み」、「意味」、及び「文法・構文」のいずれかを表す解説が直ちに提示されるようにした点である。2つ目の特徴は、アノテーションの追記のされ方の各パターンを、「読み」、「意味」、「文法・構文」の各々と予め対応付けておき、文書を解析して得たアノテーションの追記のされ方に応じて提示すべき解説の種別を一意に特定するようにした点である。
以降の説明において、「解説情報」とは、ある語句に関する、「読み」、「意味」、又は「文法・構文」のいずれか1つの解説を表した情報の各々を意味する。
(First embodiment)
A first embodiment of the present invention will be described.
This embodiment has the following two features. The first feature is that when an annotation is added to a word or phrase appearing in a Chinese document to be read and the document is scanned, “reading”, “meaning”, and “grammar / syntax” The explanation that expresses any of the above is to be presented immediately. The second feature is that each pattern of how annotations are added is associated with “reading”, “meaning”, and “grammar / syntax” in advance, and annotations obtained by analyzing the document are added. The type of commentary to be presented according to how it is done is uniquely specified.
In the following description, “explanatory information” means each piece of information representing any one of “reading”, “meaning”, or “grammar / syntax” regarding a certain phrase.
図1は、本実施形態にかかる文書処理装置のハードウェア構成を示すブロック図である。図に示すように、本装置は、解説情報記憶部10、文書画像入力部11、アノテーション抽出部12、対象語句特定部13、文字認識部14、解説取得部15、及び解説出力部16を備える。
解説情報記憶部10は、解説データベース10aと追記パターンデータベース10bの2つのデータベースを有している。
図2は、解説データベース10aのデータ構造図である。このデータベースは、「語句」、「読み」、「意味」、及び「文法・構文」の4つのフィールドを夫々有する複数のレコードを集めてなる。「語句」のフィールドには、文書中に出現しうる各語句を表す文字コードが夫々記憶される。「読み」、「意味」、「文法・構文」の3つのフィールドには、各種の解説情報が記憶される。具体的には、語句の読みを表す解説情報が「読み」のフィールドへ、語句の意味を表す解説情報が「意味」のフィールドへ、文法と構文を表す解説情報が「文法・構文」のフィールドへ夫々記憶される。
FIG. 1 is a block diagram showing a hardware configuration of the document processing apparatus according to the present embodiment. As shown in the figure, the apparatus includes a comment
The comment
FIG. 2 is a data structure diagram of the
図3は、追記パターンデータベース10bのデータ構造図である。このデータベースは、「解説種類」と「アノテーション追記態様」の2つのフィールドを夫々有する3つのレコードを集めてなる。各レコードの「解説種類」のフィールドには、解説種別識別子が記憶される。解説種別識別子は、「読み」、「意味」、「文法・構文」の3種類の解説を夫々表す識別子である。「追記態様」のフィールドには、追記態様識別子が記憶される。追記態様識別子は、アノテーションの追記のされ方のパターンを夫々表す識別子である。追記のされ方のパターンは、対象となる語句を三角で囲む追記の仕方である「三角」、対象となる語句をまるで囲む追記の仕方である「丸」、対象となる語句の下に線を引く追記の仕方である「下線」の3つがある。図3を参照すると、このデータベースにおいては、「読み」の解説が「三角」のパターンと、「意味」の解説が「丸」のパターンと、「文法・構文」の解説が「下線」のパターンと夫々対応付けられていることが分かる。
FIG. 3 is a data structure diagram of the
次に、図1に示す各部の機能の概要について説明する。本装置の文書画像入力部11からは、文書画像データが入力される。この文書画像データは、アノテーションが追記された一又は複数の語句を含む文書を表すビットマップデータである。アノテーション抽出部12は、文書画像データからアノテーションを抽出する。対象語句特定部13は、アノテーション抽出部12が抽出したアノテーションが追記されている語句の画像を文書画像データから特定する。文字認識部14は、対象語句特定部13が特定した語句を文字コード化する。解説取得部15は、アノテーション抽出部12が抽出したアノテーションが該当する追記態様のパターンと文字認識部14によって文字コード化された語句に対応する解説情報を解説情報記憶部10から取得する。取得された解説情報は解説出力部16によって所定の用紙へ印字される。
Next, an overview of the function of each unit shown in FIG. 1 will be described. Document image data is input from the document
図4は、本装置の動作を示すフローチャートである。
図に示すステップ100では、文書画像入力部11から文書画像データが入力される。入力された文書画像データは図示しないビットマップ用メモリに記憶される。
ビットマップ用メモリに文書画像データが記憶されると、アノテーション抽出部12は、その文書データに記されているアノテーションの1つを抽出する(S110)。
FIG. 4 is a flowchart showing the operation of the present apparatus.
In step 100 shown in the figure, document image data is input from the document
When the document image data is stored in the bitmap memory, the
アノテーションが抽出されると、対象語句特定部13は、そのアノテーションが追記されている語句の画像をビットマップ用メモリの文書画像データから切り出す(S120)。続いて、文字認識部14は、ステップ110にて切り出された画像に対して文字認識を試み、その認識によって得られた語句を表す文字コードを図示しない認識結果用メモリに記憶する(S130)。
語句の文字コードが認識結果用メモリに記憶されると、解説取得部15は、ステップ110で抽出されたアノテーションを解析することによって、そのアノテーションの追記のされ方が、「三角」、「丸」、「下線」の何れのパターンに該当するか識別する(S140)。
When the annotation is extracted, the target
When the character code of the phrase is stored in the recognition result memory, the
続いて、解説取得部15は、ステップ140で識別したパターンと対応付けられた種別識別子を追記パターンデータベース10bから読み出す(S150)。
更に、解説取得部15は、認識結果用メモリに記憶されている文字コードが表す語句と対応するレコードを解説データベース10aから特定し、特定したレコードに記憶されている3種類の解説情報のうち、ステップ150で読み出した種別識別子と対応する解説情報を取得する(S160)。
Subsequently, the
Further, the
解説取得部15は、ステップ160で取得した解説情報を、図示しないページメモリに記憶する(S170)。
ステップ170を実行すると、未だ抽出されていないアノテーションがビットマップ用メモリの文書画像データに残っているか否か判断される。そして、抽出されていないアノテーションが残っているときは、ステップ110に戻って以降の処理を繰返す。一方、全てのアノテーションが抽出されたときは、ステップ180に進み、解説出力部16が、ページメモリに記憶されている各解説情報をビットマップ用メモリの文書画像データへ重ね合わせて得た解説付き文書を用紙に印字する。
The
When step 170 is executed, it is determined whether annotations that have not yet been extracted remain in the document image data in the bitmap memory. If annotations that have not been extracted remain, the process returns to step 110 and the subsequent processing is repeated. On the other hand, when all the annotations have been extracted, the process proceeds to step 180, and the
ここで、読解対象となる中国語の文書画像と解説つき文書の関係について、具体的な文書例を挙げて説明する。
図5(A)は、読解対象となる中国語の文書画像であり、図5(B)は、本装置による処理を経て得られる解説付き文書である。
図5(A)を参照すると、最上段の文の語句にはアノテーション21が、上から2行目の文の語句にはアノテーション22が、3行目の文の語句にはアノテーション23が夫々追記されている。一方、図5(B)を参照すると、アノテーション21が追記された語句には、「nan(第2声)」という読みを表す解説情報が、アノテーション22が追記された語句には、「〜だと思う」という意味を表す解説情報が対応付けられており、アノテーション23が追記された語句には、「「越[A]越[B]」という構文は「[A]すればするほど[B]」を表すのに使われます。」という構文を表す解説情報が対応付けられていることが分かる。これは、アノテーション21の追記のされ方が「三角」のパターンに、アノテーション22の追記のされ方が「丸」のパターンに、アノテーション23の追記のされ方が「下線」のパターンに夫々該当すると判断されたことを意味している。
Here, the relationship between a Chinese document image to be read and a document with explanation will be described with a specific document example.
FIG. 5A shows a Chinese document image to be read, and FIG. 5B shows a document with a comment obtained through processing by this apparatus.
Referring to FIG. 5A, the
以上説明した本実施形態では、読解対象となる中国語の文書に現れる語句にアノテーションを追記してその文書をスキャンすると、アノテーションの追記のされ方のパターンに応じて、「読み」、「意味」、及び「文法・構文」のいずれかを表す解説が直ちに提示される。従って、文書を読解するユーザは、所望の解説を適宜取得しながらその読解を進めて行くことができる。 In the present embodiment described above, when an annotation is added to a word or phrase appearing in a Chinese document to be read and the document is scanned, “reading” and “meaning” are determined according to the pattern of how the annotation is added. , And explanations representing either "grammar / syntax" are immediately presented. Therefore, a user who reads and understands a document can proceed with reading and understanding a desired explanation as appropriate.
(第2実施形態)
本願発明の第2実施形態について説明する。
上記実施形態において、読解対象となる中国語の文書はビットマップとして入力されることになっており、そのビットマップ上の文字を認識することによって語句が特定されるようになっていた。これに対し、本実施形態は、読解対象となる文書を文字コード列のデータ形式で入力することにより、文字認識を行わない構成とした。
(Second Embodiment)
A second embodiment of the present invention will be described.
In the above embodiment, a Chinese document to be read is input as a bitmap, and a phrase is specified by recognizing a character on the bitmap. On the other hand, this embodiment has a configuration in which character recognition is not performed by inputting a document to be read in a character code string data format.
図6は、本実施形態にかかる文書処理装置のハードウェア構成を示すブロック図である。図に示すように、本装置は、解説情報記憶部10、文書データ入力部17、表示部18、アノテーション追記部19、アノテーション抽出部12、対象語句特定部13、解説取得部15、及び解説出力部16を備える。第1実施形態と異なり、文字認識部14は備えていない。
解説情報記憶部10は、解説データベース10aと追記パターンデータベース10bを有しており、両データベースのデータ構造は第1実施形態と同様である。
FIG. 6 is a block diagram showing a hardware configuration of the document processing apparatus according to the present embodiment. As shown in the figure, the present apparatus includes an explanation
The comment
次に、図6に示す各部の機能の概要について説明する。本装置の文書データ入力部17からは、文書データが入力される。この文書データは、中国語の文書を文字コード列として表したものである。表示部18は、表示デバイスと入力デバイスを兼ねるタッチディスプレイであり、文書データ入力部17を介して入力される文書データを、文書を表す文字列として表示させる。アノテーション追記部19は、スタイラスペンであり、表示デバイス上の任意の文字又は文字の纏まりにアノテーションを追記する。アノテーション抽出部12は、表示部18上に追記されたアノテーションを抽出する。対象語句特定部13は、アノテーションが追記された文字又は文字の纏まりの文字コードを語句として特定する。解説取得部15は、アノテーション抽出部12が抽出したアノテーションが該当する追記態様のパターンと対象語句特定部13が特定した語句に対応する解説情報を解説情報記憶部10から取得する。解説出力部16は、解説取得部15が取得した解説情報をポップアップとして表示部18に表示させる。
Next, an overview of the function of each unit shown in FIG. 6 will be described. Document data is input from the document
図7は、本装置の動作を示すフローチャートである。
図に示すステップ200では、文書データ入力部17から文書データが入力される。入力された文書データは図示しない文書データ用メモリに記憶される。
文書データ用メモリに記憶された文書データは、文書を表す中国語の文字列として表示部18に表示される(S210)。
FIG. 7 is a flowchart showing the operation of the present apparatus.
In step 200 shown in the figure, document data is input from the document
The document data stored in the document data memory is displayed on the
本装置のユーザは、表示部18に表示された中国語の文字列を読み進め、読み、意味、又は文法の不明な語句が現れると、アノテーション追記部19を用いてその語句にアノテーションを追記する。
アノテーションが追記されると、アノテーション抽出部12は、その追記されたアノテーションを抽出する(S220)。
The user of this apparatus reads the Chinese character string displayed on the
When the annotation is added, the
対象語句特定部13は、アノテーションが追記された文字又は文字列を語句として特定する(S230)。
次に、解説取得部15が、ステップ220で抽出されたアノテーションを解析することによって、そのアノテーションの追記のされ方が、「三角」、「丸」、「下線」の何れのパターンに該当するか識別する(S240)。
The target word /
Next, when the
解説取得部15は、ステップ240で識別したパターンと対応付けられた種別識別子を追記パターンデータベース10bから読み出す(S250)。
更に、解説取得部15は、認識結果用メモリに記憶されている文字コードが表す語句と対応するレコードを解説データベース10aから特定し、特定したレコードに記憶されている3種類の解説情報のうち、ステップ250で読み出した種別識別子と対応する解説情報を取得する(S260)。
The
Further, the
解説取得部15は、ステップ260で取得された解説情報を、ポップアップとして表示部18に表示させる(S270)。後述するように、この解説情報のポップアップは、「解説を閉じる」と記されたボタンとともに表示部18に表示されることになっており、ユーザがこのボタンを選択すると、解説情報のポップアップが消去されたあと、ステップ210の状態に戻る。そして、ユーザによって再びアノテーションが追記されると、ステップ220以降の処理が繰返される。
The
ここで、読解対象となる中国語の文書データが表示部18に表示されてから解説情報がポップアップとして表示されるまでの状態の遷移について、具体的な文書例を挙げて説明する。
図8(A)は、ステップ210が実行された段階の表示部18の表示状態であり。図8(B)は、アノテーションが追記された段階の表示状態である。また、図8(C)は、ステップ270が実行された段階の表示部18の表示状態である。
図8(A)を参照すると、画面の上段には、「文書を閉じる」、「解説を閉じる」と夫々記されたボタンが表示されており、その下には、読解対象となる中国語の文書が数段に渡って表示されている。図8(B)では、上から2段目の文の語句にアノテーションが追記されている。図8(C)を参照すると、アノテーションが追記された語句には、「〜だと思う」という意味を表す解説情報が対応付けられていることが分かる。これは、アノテーションの追記のされ方が「丸」のパターンに該当すると判断されたことを意味している。
以上説明した本実施形態によると、表示された文書上の所定の語句にスタイラスペンを使ってアノテーションを追記するだけで、その語句に関する解説情報をポップアップとして参照することができる。
Here, the transition of the state from when the Chinese document data to be read is displayed on the
FIG. 8A shows the display state of the
Referring to FIG. 8 (A), in the upper part of the screen, buttons indicating “close document” and “close commentary” are displayed, and below that, the Chinese language to be read is displayed. The document is displayed in several columns. In FIG. 8B, annotations are added to the words in the second sentence from the top. Referring to FIG. 8C, it can be seen that the commentary added with the annotation is associated with commentary information indicating the meaning of “I think”. This means that it is determined that the annotation is added to the “circle” pattern.
According to the present embodiment described above, it is possible to refer to commentary information about a word as a popup simply by adding an annotation to a predetermined word on the displayed document using a stylus pen.
(第3実施形態)
本願発明の第3実施形態について説明する。
本実施形態では、「読み」、「意味」、又は「文法・構文」と無関係なアノテーションが追記された状態の中国語の文書画像データを入力してそのアノテーションを消去した後、「読み」、「意味」、及び「文法・構文」と追記態様のパターンとの対応関係を上書きしてから用紙に印字して出力する機能を搭載させた。
(Third embodiment)
A third embodiment of the present invention will be described.
In this embodiment, after inputting the Chinese document image data in a state in which an annotation unrelated to “reading”, “meaning”, or “grammar / syntax” is added and deleting the annotation, “reading”, A function for overwriting the correspondence between "meaning" and "grammar / syntax" and the pattern of additional writing mode, and then printing it on paper and outputting it.
図9は、本実施形態にかかる文書処理装置のハードウェア構成を示すブロック図である。図に示すように、本装置は、解説情報記憶部10、文書画像入力部11、アノテーション抽出部12、対象語句特定部13、文字認識部14、解説取得部15、解説出力部16のほか、アノテーション消去部20、解説凡例生成部21、凡例付き文書出力部22を備える。
FIG. 9 is a block diagram showing a hardware configuration of the document processing apparatus according to the present embodiment. As shown in the figure, this apparatus includes a comment
解説情報記憶部10が有する両データベースのデータ構造、解説情報記憶部10、文書画像入力部11、アノテーション抽出部12、対象語句特定部13、文字認識部14、解説取得部15、及び解説出力部16の機能は第1実施形態と同様である。
Data structure of both databases included in the comment
アノテーション消去部20は、文書画像入力部11から入力されたビットマップから、アノテーションのみを消去する。解説凡例生成部21は、アノテーション消去部20がアノテーションを消去することによって得られた新たなビットマップに、解説種別と追記態様の各態様関係を表す解説凡例画像を生成する。凡例付き文書出力部22は、アノテーションが消去されたビットマップに解説凡例画像を上書きしてから用紙に印字する。
The
図10は、本実施形態の動作を示すフローチャートである。
図に示すステップ10では、文書画像入力部11から文書画像データが入力される。この文書画像データは、「読み」、「意味」、又は「文法・構文」と無関係なアノテーションが追記された状態の文書をスキャンして得られたビットマップである。入力された文書画像データは図示しないビットマップ用メモリに記憶される。
ビットマップ用メモリに文書画像データが記憶されると、アノテーション抽出部12は、その文書データに記されているアノテーションの1つを抽出する(S20)。
次に、アノテーション消去部20が、ステップ20で抽出されたアノテーションをビットマップ用メモリの文書画像データから消去する(S30)。
FIG. 10 is a flowchart showing the operation of this embodiment.
In
When document image data is stored in the bitmap memory, the
Next, the
ステップ30を実行すると、未だ抽出されていないアノテーションがビットマップ用メモリの文書画像データに残っているか否か判断される。そして、抽出されていないアノテーションが残っているときは、ステップ20に戻って以降の処理を繰返す。一方、全てのアノテーションが抽出されたときは、ステップ40に進み、解説凡例生成部21が、追記パターンデータベース10bの各レコードにおける解説種別識別子と追記態様識別子の対応関係を表す解説凡例画像を生成する。
解説凡例画像が生成されると、凡例付き文書出力部22は、アノテーション消去部20によって全てのアノテーションが消去された文書画像データに解説凡例画像を上書きし、その上書きによって得られた凡例付き文書画像を用紙に印字して出力する(S50)。
When step 30 is executed, it is determined whether annotations that have not yet been extracted remain in the document image data in the bitmap memory. If annotations that have not been extracted remain, the process returns to step 20 and the subsequent processing is repeated. On the other hand, when all the annotations have been extracted, the process proceeds to step 40, where the commentary
When the explanatory legend image is generated, the legend-added
ユーザは、「読み」、「意味」、又は「文法・構文」が不明な語句に所定のアノテーションを追記しながら、ステップ50で出力された判例上書き文書を読み進める。そして、アノテーションの追記を終えた文書をスキャンして得た文書画像データを文書画像入力部11から再び入力させる。文書画像データが入力されると、図4に示したステップ100以降の動作が実行される。
The user advances the precedent overwritten document output in step 50 while adding a predetermined annotation to a word whose “reading”, “meaning”, or “grammar / syntax” is unknown. Then, the document image data obtained by scanning the document for which the annotation has been added is input from the document
ここで、「読み」、「意味」、又は「文法・構文」と無関係なアノテーションが追記された状態の文書と凡例付き文書との関係について、具体的な文書例を挙げて説明する。
図11(A)は、「読み」、「意味」、又は「文法・構文」と無関係なアノテーションが追記された状態の文書であり、図11(B)は、本装置による処理を経て得られる凡例付き文書である。図11(A)を参照すると、上から2段目及び3段目の各文には、「読み」、「意味」、又は「文法・構文」と無関係なアノテーションが追記されていることが分かる。一方、図11(B)を参照すると、図11(A)にて追記されていたアノテーションが消去され、その代りに、「凡例」、「△ 読み」、「○ 意味」、「下線 文法・構文」という注記を矩形により囲んだ解説凡例画像が上書きされていることが分かる。
Here, the relationship between a document in which an annotation irrelevant to “reading”, “meaning”, or “grammar / syntax” is added and a document with a legend will be described with a specific example of the document.
FIG. 11A is a document in which annotations unrelated to “reading”, “meaning”, or “grammar / syntax” are added, and FIG. 11B is obtained through processing by this apparatus. A document with a legend. Referring to FIG. 11A, it is understood that annotations unrelated to “reading”, “meaning”, or “grammar / syntax” are added to the sentences in the second and third rows from the top. . On the other hand, referring to FIG. 11 (B), the annotation added in FIG. 11 (A) is deleted, and instead of “Legend”, “△ Reading”, “○ Meaning”, “Underline Grammar / Syntax It can be seen that the explanatory legend image in which the note “” is surrounded by a rectangle is overwritten.
以上説明した本実施形態によると、「読み」、「意味」、又は「文法・構文」と無関係なアノテーションが記されている状態の文書からそのアノテーションを一旦消去し、「読み」、「意味」、又は「文法・構文」が不明なことを表すアノテーションを改めて追記していくことができる。 According to the present embodiment described above, the annotation is temporarily deleted from the document in which the annotations unrelated to “reading”, “meaning”, or “grammar / syntax” are written, and “reading”, “meaning” Or, an annotation indicating that “grammar / syntax” is unknown can be added again.
(他の実施形態)
本願にかかる発明は、種々の変形実施が可能である。
上記実施形態は、読解対象となる文書が中国語で記されていることを前提として説明を行ったが、他の言語で記されている文書に本願発明を適用してももちろんよい。
(Other embodiments)
The invention according to the present application can be variously modified.
The above embodiment has been described on the assumption that the document to be read is written in Chinese, but the present invention may of course be applied to a document written in another language.
また、上記実施形態の追記パターンデータベース10bにおいては、「読み」の解説が「三角」のパターンと、「意味」の解説が「丸」のパターンと、「文法・構文」の解説が「下線」のパターンと夫々対応付けられていた。これに対し、読解対象となる文書を記している言語の種類に応じ、同データベースにおける解説の種別と追記態様のパターンの対応関係を異なるものにしてもよい。例えば、図12(A)に示すように、アノテーションが追記されている文字が一文字だけであるときは「読み」と、二文字であるときは「意味」と、三文字以上であるときは「文法・構文」と夫々対応付けてもよい。このような対応関係は、特に、日本語や中国語の文書の読解に好適である。また、図12(B)に示すように、アノテーションが追記されている文字が二文字以下であるときは「意味」と、三文字以上であるときは「文法・構文」と夫々対応付けてもよい。このような対応関係は、特に、読みを調べる必要がない表音文字によって構築される韓国語の文書の読解に好適である。また、図12(C)に示すように、アノテーションが記されている文字が1つの単語であるときは「読み及び意味」と、2〜3つの単語であるときは「句の意味」と、4つ以上の単語であるときは「文法・構文」と夫々対応付けてもよい。このような対応関係は、英語など印欧語系言語の文書の読解に好適である。
Further, in the
11…文書画像入力部、12…アノテーション抽出部、13…対象語句特定部、14…文字認識部、15…解説取得部、16…解説出力部、17…文書データ入力部、18…表示部、19…アノテーション追記部、20…アノテーション消去部、20…S、21…アノテーション、21…解説凡例生成部、22…文書出力部
DESCRIPTION OF
Claims (5)
アノテーションが追記された一又は複数の語句を含む文書を表すビットマップを入力する入力手段と、
前記入力手段からビットマップが入力されると、そのビットマップが表す文書からアノテーションを抽出する抽出手段と、
前記抽出したアノテーションが追記されている語句を前記ビットマップから特定する対象語句特定手段と、
前記特定された語句と対応付けて前記解説情報記憶手段に記憶されている語句別解説情報群を特定する解説情報群特定手段と、
前記抽出されたアノテーションを解析することによってそのアノテーションが該当する追記態様のパターンを識別し、識別したパターンと対を成す解説情報を前記特定された語句別解説情報群から取得する解説取得手段と、
前記取得された解説情報を出力する解説出力手段と
を備えた文書処理装置。 Commentary information storage means for storing a commentary group by phrase that summarizes each pair of several kinds of commentary information related to one word and a pattern of an annotation addition to the document for each word that can appear in the document;
An input means for inputting a bitmap representing a document including one or more words to which annotations are added;
When a bitmap is input from the input unit, an extraction unit that extracts an annotation from a document represented by the bitmap;
A target phrase specifying means for specifying from the bitmap the phrase to which the extracted annotation is added;
Commentary information group specifying means for specifying a word-specific commentary information group stored in the commentary information storage means in association with the specified word;
Analyzing the extracted annotation to identify the pattern of the additional writing mode to which the annotation corresponds, commentary acquisition means for acquiring commentary information paired with the identified pattern from the specified commentary group by phrase,
A document processing apparatus comprising: comment output means for outputting the acquired comment information.
前記対象語句特定手段は、前記抽出したアノテーションの周辺にある前記ビットマップ上の画像を切り出し、切り出した画像に文字認識を施すことにより、当該アノテーションが追記されている語句を文字又は文字列として特定する
文書処理装置。 The document processing apparatus according to claim 1,
The target phrase specifying unit extracts an image on the bitmap around the extracted annotation, and performs character recognition on the extracted image, thereby specifying the phrase in which the annotation is added as a character or a character string. Yes Document processing device.
前記入力されたビットマップからアノテーションを消去するアノテーション消去手段
を更に備えた文書処理装置。 The document processing apparatus according to claim 1 or 2,
A document processing apparatus further comprising annotation erasing means for erasing an annotation from the input bitmap.
前記解説情報記憶手段にて各種解説情報と対応付けられた追記態様のパターンと、それら各パターンと対応する解説の種別との関係を表す解説凡例画像を生成し、生成した解説凡例画像を前記アノテーションを消去して得られた新たなビットマップにおける所定の描画位置に上書きする凡例生成手段
を更に備えた文書処理装置。 The document processing apparatus according to claim 3.
A commentary legend image representing the relationship between the pattern of the additional writing mode associated with various commentary information in the commentary information storage means and the type of commentary corresponding to each pattern is generated, and the generated commentary legend image is the annotation A document processing apparatus further comprising a legend generating means for overwriting a predetermined drawing position in a new bitmap obtained by erasing data.
文書の文字コード列を入力する入力手段と、
前記入力された文字コード列を文書を表す文字列として表示する表示手段と、
前記表示された文字列の一部にアノテーションを追記するアノテーション追記手段と、
前記追記されたアノテーションを抽出する抽出手段と、
前記抽出したアノテーションが追記されている文字又は文字の纏まりを語句として特定する対象語句特定手段と、
前記特定された語句と対応付けて前記解説情報記憶手段に記憶されている語句別解説情報群を特定する解説情報群特定手段と、
前記抽出されたアノテーションを解析することによってそのアノテーションが該当する追記態様のパターンを識別し、識別したパターンと対を成す解説情報を前記特定された語句別解説情報群から取得する解説取得手段と、
前記取得された解説情報を出力する解説出力手段と
を備えた文書処理装置。 Commentary information storage means for storing a commentary group by phrase that summarizes each pair of several kinds of commentary information related to one word and a pattern of an annotation addition to the document for each word that can appear in the document;
An input means for inputting a character code string of a document;
Display means for displaying the inputted character code string as a character string representing a document;
Annotation adding means for adding an annotation to a part of the displayed character string;
Extracting means for extracting the appended annotation;
A target phrase specifying means for specifying, as a phrase, a character or a group of characters to which the extracted annotation is added;
Commentary information group specifying means for specifying a word-specific commentary information group stored in the commentary information storage means in association with the specified word;
Analyzing the extracted annotation to identify the pattern of the additional writing mode to which the annotation corresponds, commentary acquisition means for acquiring commentary information paired with the identified pattern from the specified commentary group by phrase,
A document processing apparatus comprising: comment output means for outputting the acquired comment information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005067541A JP2006252167A (en) | 2005-03-10 | 2005-03-10 | Document processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005067541A JP2006252167A (en) | 2005-03-10 | 2005-03-10 | Document processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006252167A true JP2006252167A (en) | 2006-09-21 |
Family
ID=37092598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005067541A Pending JP2006252167A (en) | 2005-03-10 | 2005-03-10 | Document processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006252167A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017142823A (en) * | 2013-03-21 | 2017-08-17 | カシオ計算機株式会社 | Information processing device, information processing method and program |
-
2005
- 2005-03-10 JP JP2005067541A patent/JP2006252167A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017142823A (en) * | 2013-03-21 | 2017-08-17 | カシオ計算機株式会社 | Information processing device, information processing method and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2862626B2 (en) | Electronic dictionary and information retrieval method | |
US20040268243A1 (en) | Document processing apparatus and document processing method | |
JP2000352988A (en) | Selective reading-out method having automatic header extracting function, and recording medium recording program therefor | |
CN103093252B (en) | Information output apparatus and information output method | |
JP5661663B2 (en) | Information extraction device | |
JP2006065477A (en) | Character recognition device | |
JP3122417B2 (en) | Information display method and information processing device | |
JP2006252167A (en) | Document processing device | |
JPH103483A (en) | Information retrieval device | |
JP2006252164A (en) | Chinese document processing device | |
JP2006171851A (en) | Document file analysis system, document file analysis method, and program | |
JP5604276B2 (en) | Document image generation apparatus and document image generation method | |
JPH09244869A (en) | Document reading-aloud system | |
JP3952009B2 (en) | Translation memory system, translation method, and program for translation memory system | |
JP2009175941A (en) | Electronic dictionary device | |
JPH0883280A (en) | Document processor | |
JPH1115826A (en) | Document analyzer and its method | |
JP2006277091A (en) | Index data generation device, data retrieval device, and program | |
JP3969689B2 (en) | Document creation support apparatus, document creation support method, and storage medium storing document creation support program | |
JP2001155017A (en) | Tagged document preparing device and recording medium recorded with program therefor | |
JP3206600B2 (en) | Document generation device | |
JPH09258763A (en) | Voice synthesizing device | |
JPS61231661A (en) | Information processor | |
JP4517821B2 (en) | Image processing apparatus and program | |
JP2005208687A (en) | Multi-lingual document processor and program |