JP3501240B2 - Document creation support device - Google Patents

Document creation support device

Info

Publication number
JP3501240B2
JP3501240B2 JP19470294A JP19470294A JP3501240B2 JP 3501240 B2 JP3501240 B2 JP 3501240B2 JP 19470294 A JP19470294 A JP 19470294A JP 19470294 A JP19470294 A JP 19470294A JP 3501240 B2 JP3501240 B2 JP 3501240B2
Authority
JP
Japan
Prior art keywords
document
sentence
meaning
words
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19470294A
Other languages
Japanese (ja)
Other versions
JPH0844742A (en
Inventor
秀樹 山本
さより 下畑
篤司 池野
久明 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP19470294A priority Critical patent/JP3501240B2/en
Publication of JPH0844742A publication Critical patent/JPH0844742A/en
Application granted granted Critical
Publication of JP3501240B2 publication Critical patent/JP3501240B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、表を含む文書において
表の内容と文章の内容の矛盾を検出できるようにした文
書作成支援装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document creation support apparatus capable of detecting a contradiction between the contents of a table and the contents of a sentence in a document including a table.

【0002】[0002]

【従来の技術】従来、ワードプロセッサやデスクトップ
パブリッシングシステム等で作成した文書の校正を行な
う文書校正装置がある。このような従来の文書校正装置
は、作成した文書中の漢字の送り仮名の表記の誤りを検
出し、訂正するものであった(例えば、文書校正支援シ
ステムにおける校正知識の構築方法、情報処理学会研究
報告Vol.92,No.21,pp.79-86 (社団法人 情報処理学会
1992年 3月13日発行)参照)。
2. Description of the Related Art Conventionally, there is a document proofreading device for proofreading a document created by a word processor, a desktop publishing system or the like. Such a conventional document proofreading device detects and corrects an error in the kana kana kana notation in a created document (for example, a method of constructing proofreading knowledge in a document proofreading support system, IPSJ). Research Report Vol.92, No.21, pp.79-86 (Information Processing Society of Japan
Published March 13, 1992)).

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、次のような課題があった。即ち、表
で表わした内容を文章で説明したり、文章で説明した内
容を表にまとめて表わした場合に、文で説明した内容が
表の内容と矛盾することがよくある。例えば、ある小売
店の支店ごとの売上げの状況を表と文章で説明する場合
に、表では「大阪支店」の「売上」が「200億円」と
なっているのに、文章では「100億円」になっている
等の場合である。このような矛盾は、表と文章のいずれ
かが間違っているために生じるが、従来は、ユーザが表
と文章を両方とも校閲して誤りを発見しなければこのよ
うな矛盾を解消することができなかった。
However, the above-mentioned conventional techniques have the following problems. That is, when the contents shown in the table are explained in sentences or the contents explained in the sentence are collectively shown in the table, the contents explained in the sentences often conflict with the contents of the table. For example, when explaining the sales situation for each branch of a certain retail store in a table and a sentence, while “Sales” of “Osaka Branch” is “20 billion yen” in the table, it is “10 billion yen” in the sentence. This is the case when it is a "yen". Such a contradiction occurs because either the table or the sentence is wrong, but conventionally, such a contradiction cannot be resolved unless the user reviews both the table and the sentence and finds an error. could not.

【0004】[0004]

【課題を解決するための手段】本発明の文書作成支援装
置は、上述した課題を解決するため、以下の点を特徴と
するものである。本発明は、表及び文章を含む文書を文
書データとしてメモリに読み込み、該表及び文章を各々
表領域データ及び自然言語の文章だけから成る文章領域
データに変換して格納する文書入力手段と、前記メモリ
に格納された前記表領域データから、該表領域データ中
の表の枠により列及び行を検出し、各列及び行に記載さ
れた文字を認識し、各認識文字について見出しと属性を
登録した表単語辞書を生成し、該表単語辞書に登録され
た各認識文字の該表上の配列位置及び品詞に基づいて関
連する複数の文字の組合せを生成し所定の記憶領域に格
納する表意味変換手段と、前記メモリに格納された前記
文章領域データに対し、単語表記と品詞を各単語に対し
て規定した単語辞書を用いて文章毎の形態素解析を行っ
て品詞を付与した多数の単語に分解し、該多数の単語か
ら前記表単語辞書に登録された前記認識文字の品詞と一
致する複数の単語を選定する形態素解析手段と、該選定
した複数の単語を、前記表意味変換手段の前記所定の記
憶領域に格納された組合せに対応させて組合せる構文意
味解析手段と、前記表意味変換手段で生成された文字の
組合せと前記構文意味解析手段で生成された単語の組合
せとを照合し、不一致の文字及び単語を検出する意味照
合手段と、該検出した文字及び単語を、利用者が訂正可
能に表示する矛盾候補表示手段とを含むことを特徴とす
る。
The document creation support device of the present invention is characterized by the following points in order to solve the above-mentioned problems. The present invention translates documents including tables and sentences into sentences.
It is read into the memory as calligraphy data, and the table and sentences are
A text area consisting only of table area data and natural language text
Document input means for converting to data and storing the data, and the memory
In the tablespace data from the tablespace data stored in
The columns and rows are detected by the frame of the
Recognized characters and identify headings and attributes for each recognized character.
The registered table word dictionary is generated and registered in the table word dictionary.
Based on the position of each recognized character on the table and the part of speech,
Generates a combination of multiple consecutive characters and stores them in a predetermined storage area.
Table meaning conversion means to be stored and the above-mentioned stored in the memory
For sentence area data, word notation and part of speech for each word
Morphological analysis is performed for each sentence using the word dictionary defined by
To a large number of words with parts of speech
And the part of speech of the recognized character registered in the front word dictionary
Morphological analysis means for selecting a plurality of matching words and the selection
The plurality of selected words are written in the predetermined meaning of the table meaning conversion means.
Syntactic meaning to combine in correspondence with the combination stored in the memory area
Of the characters generated by the taste analysis means and the table meaning conversion means.
Combination of combinations and words generated by the syntactic and semantic analysis means
Semantic matching is used to match characters and detect unmatched characters and words.
The user can correct the matching means and the detected characters and words.
And a contradiction candidate display means for displaying in Noh .

【0005】 本発明において、前記矛盾候補表示手段
により表示された前記文字及び単語のいずれかを利用者
が訂正した場合に、前記メモリ中の前記文書データの該
当箇所を訂正した文書データを生成する文書変更手段を
更に備えたことを特徴とする
In the present invention, the contradiction candidate display means
The user can use any of the letters and words displayed by
Of the document data in the memory when
Document modification means for generating document data with this part corrected
It is further characterized by being provided .

【0006】[0006]

【作用】(1) 入力された文書データのうちの表領域データについて
は、表意味変換手段によりメモリから読み出され、表中
の認識文字とその見出しと属性を登録した表単語辞書
作成されるとともに、この表単語辞書の複数の認識文字
と配列位置及び品詞に基づき関連する認識文字の組合せ
を生成して所定の記憶領域に格納される。一方、入力さ
れた文書データのうちの文章領域データについては、形
態素解析手段により、メモリから読み出され、単語辞
参照して解析が行なわれ、表単語辞書の認識文字と品
詞が一致する複数の単語が選定される。そして、構文意
味解析手段により、例えば、構文意味解析ルールに従っ
て、構文の意味が解析され、所定の記憶領域の組合せ文
字に一致する単語の組合せが生成される。これらの組合
せは、同様の形式で作成される結果、意味照合手段によ
り両者を照合することが可能となる。照合手段では、両
組合せの文字、単語が完全に一致せず、一部のみが不一
致であるときは、いずれかが誤記の可能性があると判断
し、矛盾候補とする。これらの矛盾候補は、矛盾候補表
示手段によりディスプレイにより表示される。この結
果、利用者は、これらの矛盾候補として挙げられた部分
についてのみチェックするだけで校正作業を済ませるこ
とができる。
(1) The table area data of the input document data is read from the memory by the table meaning conversion means ,
A table word dictionary in which the recognition characters, their headings and attributes are registered is created , and multiple recognition characters in this table word dictionary are created.
And a combination of recognition characters related based on the position and part of speech
Is generated and stored in a predetermined storage area . On the other hand, the text area data of the input document data is the morphological analysis means, read from the memory, a word dictionary
Referring to the analysis is performed, the recognized character and elegance of the table word dictionary
A plurality of words having the same words are selected. Then, the syntactic and semantic analysis means analyzes the syntactic meaning according to, for example, a syntactic and semantic analysis rule, and a combination sentence in a predetermined storage area
Word combinations that match the letters are generated. These combinations are created in the same format, and as a result, it is possible to match the two by the meaning matching means. If the characters and words of both combinations do not completely match and only a part of them does not match, the matching means determines that one of them may be erroneous and considers it as a contradiction candidate. These contradiction candidates are displayed on the display by the contradiction candidate display means. As a result, the user can complete the proofreading work only by checking only the portions listed as these contradiction candidates.

【0007】(2) (1)において、矛盾候補表示手段により矛盾候補を表
示する際に、通番を付し、表示装置の所定のフィールド
にその通番を入力して変更後のデータを入力するように
することにより、校正作業を容易に行なえるようにする
ことができる。
(2) In (1), when the inconsistency candidates are displayed by the inconsistency candidate display means, a serial number is attached and a predetermined field of the display device is added.
By inputting the serial number to and inputting the changed data, it is possible to easily perform the calibration work.

【0008】[0008]

【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図1は、本発明の文書作成支援装置の一実
施例のブロック図である。図示の装置は、文書入力手段
1、表意味変換手段2、形態素解析手段3、構文意味解
析手段4、意味照合手段5、矛盾候補表示手段6、文書
変更手段7等から成る。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 1 is a block diagram of an embodiment of the document creation support device of the present invention. The illustrated apparatus comprises a document input means 1, a table meaning conversion means 2, a morpheme analysis means 3, a syntactic meaning analysis means 4, a meaning collation means 5, a contradiction candidate display means 6, a document change means 7 and the like.

【0009】文書入力手段1は、レンズ等の光学系、C
CD、走査系等から成り、紙面等に記載された文書を光
学的に読み取り、ディジタルデータに変換して図示しな
いメモリに読み込む。文書には、自然言語の文章だけか
ら成る文書領域、表領域、図領域、グラフ領域等の各種
の領域があるものとする。そして、文書入力手段1は、
これらの文書を構成する要素をメモリから別々に取り出
す機能を有する。即ち、文書入力手段1は、文章、表、
図、グラフの各データをそれぞれ別々に格納し、それぞ
れ別々に取り出すことができる。このような文書入力手
段1は、磁気ディスクや光磁気ディスク等の2次記憶装
置からメモリにロードする手段とあわせて構成してもよ
いし、紙に印刷された文書をコード情報に変換する文書
認識装置と合せて構成してもよい。
The document input means 1 is an optical system such as a lens, C
It is composed of a CD, a scanning system, etc., and optically reads a document written on a paper surface, converts it into digital data, and reads it into a memory (not shown). It is assumed that the document has various areas such as a document area consisting only of natural language sentences, a table area, a drawing area, and a graph area. Then, the document input means 1
It has a function of separately extracting the elements constituting these documents from the memory. That is, the document input means 1 uses a sentence, a table,
Each data of figure and graph can be stored separately and retrieved separately. Such a document input means 1 may be configured together with a means for loading a memory from a secondary storage device such as a magnetic disk or a magneto-optical disk, or a document for converting a document printed on paper into code information. It may be configured together with the recognition device.

【0010】表意味変換手段2は、プロセッサ等から成
り、メモリに格納された表領域の内容を表単語辞書9と
表意味表現10に変換する。即ち、表から枠により列及
び行を検出し、各列及び行に記載された文字を認識し、
表という形式から表単語辞書9という形式に変換する。
また、ある1つのまとまった意味内容を表わす表意味表
現10という形式に変換する。このようにして作成され
た表意味表現10は、ディスク装置等の所定の記憶領域
に格納される。形態素解析手段3は、プロセッサ等から
成り、メモリに格納された自然言語の文章だけから成る
文書領域の文章を、単語表記と品詞を各単語に対して規
定した単語辞書8を用いて単語に分割する。即ち、形態
素解析手段3は、メモリに格納された文章を単語に区切
り、各単語を単語辞書8で検索し、品詞を特定する。
The table meaning conversion means 2 is composed of a processor or the like, and converts the contents of the table area stored in the memory into a table word dictionary 9 and a table meaning expression 10. That is, the columns and rows are detected from the table by a frame, the characters written in each column and row are recognized,
The table format is converted into the table word dictionary 9.
Further, it is converted into a format of a table meaning expression 10 representing a certain set of meaning contents. The table meaning expression 10 created in this way is stored in a predetermined storage area such as a disk device. The morphological analysis unit 3 is composed of a processor or the like, and divides a sentence in a document area, which is stored only in a natural language and is stored in a memory, into words using a word dictionary 8 in which word notation and parts of speech are defined for each word. To do. That is, the morpheme analysis unit 3 divides the sentence stored in the memory into words, searches each word in the word dictionary 8, and specifies the part of speech.

【0011】構文意味解析手段4は、プロセッサ等から
成り、構文意味解析ルール11を用いて単語に分割され
た入力文を1まとまりの意味を持った文意味表現12に
変換する。即ち、入力文が複合的な意味を持ったいわゆ
る複文であっても、構文意味解析ルール11により、そ
れらの複文は単純な1まとまりの意味の単文に変換され
る。この単文が文意味表現12の形式で表現される。
The syntactic and semantic analysis means 4 is composed of a processor and the like, and uses the syntactic and semantic analysis rule 11 to convert an input sentence divided into words into a sentence and semantic representation 12 having a unit of meaning. That is, even if the input sentence is a so-called complex sentence having a complex meaning, the complex sentence analysis rule 11 converts the complex sentence into a simple sentence having one group of meanings. This simple sentence is expressed in the form of sentence meaning expression 12.

【0012】意味照合手段5は、プロセッサ等から成
り、表意味表現10と文意味表現12との相互の照合を
行なう。即ち、双方の構成要素を比較することによって
すべての構成要素が一致していれば、同一の意味内容と
みなし、すべてが不一致であれば、別個の意味内容とみ
なす。そして、一部分のみが一致し、不一致の部分が含
まれるときは、同一の意味内容とすべきものの誤記の可
能性があると判断し、それらを矛盾候補とする。矛盾候
補表示手段6は、ディスプレイ等の表示装置により、意
味照合手段5の照合結果を利用者に対して表示する。例
えば、矛盾候補として挙げられた部分に下線等を付して
利用者に対し、誤記の可能性のある部分を明示する。文
書変更手段7は、ディスプレイ等に所定の入力フィール
ドを表示し、矛盾候補表示手段6により指摘された部分
について利用者が修正箇所を指定して文書の内容を変更
するための処理を行なう。即ち、入力フィールドによる
利用者からの指定に従って文書中の修正箇所の位置を検
出し、表又は文の内容を変更する。
The meaning collating means 5 is composed of a processor or the like, and collates the table meaning expression 10 and the sentence meaning expression 12 with each other. That is, by comparing both constituent elements, if all constituent elements are in agreement, it is regarded as the same meaning content, and if all elements are not in agreement, they are regarded as separate meaning content. Then, when only a part of the data matches and a non-matching part is included, it is determined that there is a possibility of erroneous writing of the contents that have the same meaning content, and they are considered as contradiction candidates. The contradiction candidate display means 6 displays the matching result of the meaning matching means 5 to the user by a display device such as a display. For example, an underlined portion or the like is added to a portion which is cited as a contradiction candidate, and a portion which may be erroneous is clearly indicated to the user. The document changing unit 7 displays a predetermined input field on a display or the like, and the user performs a process for changing the content of the document by designating a correction portion for the portion pointed out by the contradiction candidate displaying unit 6. That is, the position of the corrected portion in the document is detected according to the designation from the user in the input field, and the content of the table or the sentence is changed.

【0013】次に、上述した装置の動作を説明する。ま
ず、図2を参照して図1の装置における処理の流れの概
要を説明する。ステップS21では、文書入力手段1が
文書をメモリ(図示省略)に読み込む。そして、ステッ
プS22では、読み込んだ文章中に表がない場合は処理
を終了する。ステップS23では、表意味変換手段2が
メモリ内の文書中の表領域を表意味表現10及び表単語
辞書9に変換する。ステップS24では、形態素解析手
段3が単語辞書8及び表単語辞書9を用いてメモリ内の
文書中の文書領域の文章を形態素解析する。この解析の
詳細については後述する。ステップS25では、形態素
解析した結果が構文意味解析手段4により構文意味解析
ルール11を用いて文意味表現12に変換される。ステ
ップS26では、意味照合手段5が表意味表現10と文
意味表現12との照合を行なう。ステップS27では、
照合の結果、表の意味内容と文章の意味内容に矛盾が生
じた時は、ステップS28で矛盾候補表示手段6が矛盾
候補を表示する。矛盾候補が存在しない場合は表示をせ
ずに処理を終了する。
Next, the operation of the above-mentioned device will be described. First, with reference to FIG. 2, an outline of a processing flow in the apparatus of FIG. 1 will be described. In step S21, the document input means 1 reads a document into a memory (not shown). Then, in step S22, if there is no table in the read sentence, the process ends. In step S23, the table meaning conversion means 2 converts the table area in the document in the memory into the table meaning expression 10 and the table word dictionary 9. In step S24, the morpheme analysis unit 3 uses the word dictionary 8 and the front word dictionary 9 to perform morpheme analysis on the sentence in the document area in the document in the memory. Details of this analysis will be described later. In step S25, the result of the morphological analysis is converted by the syntactic and semantic analysis means 4 into the sentence and semantic representation 12 using the syntactic and semantic analysis rule 11. In step S26, the meaning collation means 5 collates the table meaning expression 10 with the sentence meaning expression 12. In step S27,
As a result of the collation, when the meaning contents of the table and the meaning contents of the sentence are inconsistent, the inconsistency candidate display means 6 displays the inconsistency candidates in step S28. If no contradiction candidate exists, the process ends without displaying.

【0014】次に、図3〜図11に示す実際のデータを
用いて動作を説明する。入力文書の一例を図3に示す。
図2のステップS21では、図3の文書を画像メモリに
読み込む。図3に示す文書は文章と表とから構成されて
いる。文書中には、文章と表の各データ31、32がそ
れぞれ別々に格納されており、ステップS22で、画像
メモリに読み込まれたデータに表のデータが含まれてい
るか否かにより表の有無を検出することができる。文書
中に表が含まれている場合には、表を、表意味表現10
と、表単語辞書9とに変換する。図3の表を表単語辞書
9に変換した結果を図4に示す。
Next, the operation will be described using the actual data shown in FIGS. An example of the input document is shown in FIG.
In step S21 of FIG. 2, the document of FIG. 3 is read into the image memory. The document shown in FIG. 3 is composed of sentences and tables. The text and the table data 31 and 32 are separately stored in the document. In step S22, the presence or absence of the table is determined depending on whether the data read into the image memory includes the table data. Can be detected. If the document contains a table, the table is referred to as a table semantic representation 10
To the front word dictionary 9. The result of converting the table of FIG. 3 into the table word dictionary 9 is shown in FIG.

【0015】表は、一般に、表の各項目の名称、それら
の項目に対応するデータにより構成されている。図3の
表の中で各項目の名称を記述している部分33、34
は、第1列目(以下、「列1」という)が「支店」、列
2が「売上高」、列2の単位を指定する記述が「億円」
である。これらの記述を取り出して所定の形式に変換し
たものが図4の表単語辞書9である。即ち、表単語辞書
9は見出し401、属性402から成り、表の記載形式
により、列1の一番上に記載されている「支店」は、列
1の名称403であると判断される。同様に、列2の一
番上に記載されている「売上高」は、列2の名称404
であると判断される。一方、列2の一番上において括弧
で囲まれている「億円」は、列2のデータの単位405
であると判断される。
The table is generally composed of the names of the items in the table and the data corresponding to those items. Portions 33 and 34 describing the names of the items in the table of FIG.
Indicates that the first column (hereinafter referred to as "column 1") is "branch", column 2 is "sales", and the description specifying the unit of column 2 is "100 million yen".
Is. The table word dictionary 9 shown in FIG. 4 is obtained by extracting these descriptions and converting them into a predetermined format. That is, the table word dictionary 9 is composed of the headline 401 and the attribute 402, and it is determined that the “branch” described at the top of the column 1 is the name 403 of the column 1 according to the description format of the table. Similarly, the “sales” at the top of column 2 is the name of column 2 404.
Is determined. On the other hand, “100 million yen” enclosed in parentheses at the top of column 2 is the unit of data in column 2 405.
Is determined.

【0016】また、各列の2番目以下には、各列のデー
タ35、36、37、38が記述されている。例えば、
列1の「支店」については、「大阪」、「京都」、「滋
賀」、「三重」というデータが記述されている。そし
て、列2の「売上高」については、「200」、「20
0」、「100」、「100」が記述されている。この
場合、単位は、「億円」である。これらのデータは、図
4の表単語辞書9において、単位405の後に格納され
る。即ち、まず、列1のデータについて、「大阪」、
「京都」、「滋賀」、「三重」が順に格納され、それら
の属性は列1データ406、407、408、409と
される。次に、列2のデータについて、「200」、
「200」、「100」、「100」が順に格納され、
それらの属性は列2データ410、411、412、4
13とされる。
The data 35, 36, 37, 38 of each column are described below the second column of each column. For example,
For “branch” in column 1, data such as “Osaka”, “Kyoto”, “Shiga”, and “Mie” are described. Then, for “sales” in column 2, “200”, “20”
"0", "100", and "100" are described. In this case, the unit is "100 million yen". These data are stored after the unit 405 in the table word dictionary 9 of FIG. That is, first, for the data in column 1, "Osaka",
“Kyoto”, “Shiga”, and “Mie” are stored in that order, and their attributes are column 1 data 406, 407, 408, and 409. Next, for the data in column 2, "200",
“200”, “100”, and “100” are stored in order,
These attributes are column 2 data 410, 411, 412, 4
It is supposed to be 13.

【0017】図5は、図3の表から作成した表意味表現
10を示している。「=」の左側は列の名称51であ
り、右側は当該列のデータ52を示している。この
「=」と「|」、「|」により、1つの表意味表現10
が構成される。即ち、表意味表現53は、「大阪の支店
の売上高が200億円である」という意味を表現する。
表意味表現54は、「京都の支店の売上高が200億円
である」という意味を表現する。表意味表現55は、
「滋賀の支店の売上高が100億円である」という意味
を表現する。また、表意味表現56は、「三重の支店の
売上高が100億円である」という意味を表現する。
FIG. 5 shows a table semantic representation 10 created from the table of FIG. The left side of “=” is the column name 51, and the right side is the data 52 of the column. By this "=", "|", and "|", one table meaning expression 10
Is configured. That is, the table meaning expression 53 expresses the meaning that “the sales of the Osaka branch is 20 billion yen”.
The table meaning expression 54 expresses the meaning that “the sales amount of the branch in Kyoto is 20 billion yen”. The table meaning expression 55 is
It expresses the meaning that “the sales of the Shiga branch is 10 billion yen”. Further, the table meaning expression 56 expresses the meaning that “the sales of the Mie branch is 10 billion yen”.

【0018】次に、ステップS24では、図3の文章領
域について、単語辞書8及び表単語辞書9を用いて形態
素解析を行なう。単語辞書8の例を図6に示す。単語辞
書8は、単語見出し61及び品詞62から構成される。
まず、図3の文章中の「大阪支店は、売上が100億円
である。」という文を単語に区切る。そして、最初の行
63にある単語「大阪」をキーとして単語辞書8を検索
する。すると、「大阪」は品詞が名詞であると判断され
る。一方、「大阪」をキーとして表単語辞書9を検索す
る。すると、「大阪」は表における列1データであると
判断される。以下、「支店」、「は」、「、」等につい
ても、単語辞書8及び表単語辞書9を用いて形態素解析
を行なう。この結果を図7に示す。図7により、例え
ば、「大阪」71は名詞72であり、かつ列1データ7
3であることが表わされる。
Next, in step S24, morphological analysis is performed on the text area in FIG. 3 using the word dictionary 8 and the front word dictionary 9. An example of the word dictionary 8 is shown in FIG. The word dictionary 8 includes a word headline 61 and a part of speech 62.
First, the sentence “Osaka branch has sales of 10 billion yen” in the sentence of FIG. 3 is divided into words. Then, the word dictionary 8 is searched using the word "Osaka" in the first row 63 as a key. Then, "Osaka" is judged to be a noun part of speech. On the other hand, the front word dictionary 9 is searched using "Osaka" as a key. Then, "Osaka" is determined to be column 1 data in the table. Hereinafter, for “branch”, “ha”, “,” and the like, the morphological analysis is performed using the word dictionary 8 and the front word dictionary 9. The result is shown in FIG. 7. According to FIG. 7, for example, “Osaka” 71 is a noun 72, and column 1 data 7
It is represented as 3.

【0019】ステップS25では、図3の文章領域につ
いて、構文解析及び意味解析を行なう。構文解析及び意
味解析で用いるルールを図8に示す。各ルールは、ルー
ルのID81、ルールを適用するための条件82、及び
条件成立時の変換動作83等から構成される。図8にお
いて、N1、N2は名詞の単語を表わす。V1は品詞が
数値である単語を表わす。U1は品詞が単位である単語
を表わす。引用符「“」、「”」で囲まれているところ
は、文書中の文字列を表わす。また、「:」の後ろは品
詞名を表わす。構文意味解析手段4は、図8に示すよう
な構文意味解析ルール11を図7の形態素解析した結果
に適用する。即ち、各ルールの条件を形態素解析の結果
と照合し、一致するかどうかを調べる。一致する場合
は、その一致したルールの変換動作を実行する。これら
のルールの適用は適用できるルールがなくなるまで行な
う。
In step S25, the sentence area shown in FIG. 3 is subjected to syntax analysis and semantic analysis. The rules used in the syntactic analysis and the semantic analysis are shown in FIG. Each rule includes a rule ID 81, a condition 82 for applying the rule, and a conversion operation 83 when the condition is satisfied. In FIG. 8, N1 and N2 represent noun words. V1 represents a word whose part of speech is a numerical value. U1 represents a word whose unit of speech is a unit of speech. Places enclosed in quotation marks ““ ”and“ ”” represent character strings in the document. Also, the part of speech is shown after ":". The syntactic and semantic analysis means 4 applies the syntactic and semantic analysis rule 11 as shown in FIG. 8 to the result of the morphological analysis shown in FIG. That is, the condition of each rule is compared with the result of morphological analysis to check whether they match. If they match, the conversion operation of the matched rule is executed. Apply these rules until there are no more applicable rules.

【0020】例えば、図7の形態素解析の結果に図8の
ルールを適用すると、まず、「大阪支店」の部分にはル
ールR1が適用される。即ち、「大阪支店」の「大阪」
はN1に対応し、「支店」はN2に対応する。その結
果、変換動作により「支店」は列の名称であり、「大
阪」はそのデータであると判断される。これを図5の形
式で表わすと、次のようになる。 |支店=大阪| また、図7の形態素解析の結果の「売上高が100億円
である。」の部分には、ルールR3が適用される。即
ち、ルールR3を適用すると、「売上高」、「10
0」、「億円」はそれぞれ、N1、N2、U1に対応す
る。その結果、変換動作により「売上高」は列の名称で
あり、「100億円」は値であると判断される。
For example, when the rule of FIG. 8 is applied to the result of the morphological analysis of FIG. 7, first, the rule R1 is applied to the “Osaka branch” part. That is, "Osaka" of "Osaka branch"
Corresponds to N1, and “branch” corresponds to N2. As a result, the conversion operation determines that "branch" is the name of the column and "Osaka" is the data. This can be expressed in the form of FIG. 5 as follows. | Branch = Osaka | In addition, rule R3 is applied to the portion of “sales is 10 billion yen” in the result of the morphological analysis in FIG. That is, when the rule R3 is applied, "sales", "10"
"0" and "100 million yen" correspond to N1, N2, and U1, respectively. As a result, the conversion operation determines that “sales” is a column name and “10 billion yen” is a value.

【0021】これを図5の形式で表わすと、次のように
なる。 |売上高=200億円| また、図7の形態素解析の結果には、否定を表わす“な
い”が出てこないのでルールR5とも対応する。その結
果、変換動作により、次のような文意味表現が書かれ
る。 |真偽値=真| 以上の3つの文意味表現をまとめると図9のような文意
味表現になる。図9の文意味表現は「真偽値」を除く
と、その列の名称91は表意味表現の列の名称51を示
しており、当該列のデータ92の値は表意味表現のデー
タ52の値を示している。
This can be expressed in the form of FIG. 5 as follows. | Sales = 20 billion yen | In addition, the result of the morpheme analysis in FIG. As a result, by the conversion operation, the following sentence semantic expression is written. | True / False value = True | When the above three sentence meaning expressions are put together, a sentence meaning expression as shown in FIG. 9 is obtained. In the sentence semantic expression of FIG. 9, except for the “true / false value”, the column name 91 shows the column name 51 of the table semantic expression, and the value of the data 92 of the column is the data 52 of the table semantic expression. Indicates the value.

【0022】ステップS26では、文意味表現と表意味
表現との照合を行なう。本実施例では、真偽値が真であ
る文意味表現について、すべての列名に対して、対応す
る値が等しい場合には、文意味表現93と表意味表現5
3とは完全に一致するとみなす。それ以外の場合は一致
しないとみなす。そして、一致しない文意味表現と表意
味表現のうち、値が1つだけ異なるものを矛盾候補とし
て集める。即ち、図5のうち、3つの表意味表現53、
55、56を矛盾候補として集める。一方、値が2つ以
上異なるものは矛盾候補とはしない。即ち、図5の表意
味表現54は、「支店」も「売上高」も異なるので、矛
盾候補とはならず、集める対象にはならない。
In step S26, the sentence meaning expression and the table meaning expression are collated. In the present embodiment, with respect to the sentence meaning expression whose truth value is true, if the corresponding values are the same for all column names, the sentence meaning expression 93 and the table meaning expression 5
3 is considered to be an exact match. Otherwise, it is considered not to match. Then, of the sentence meaning expressions and the table meaning expressions that do not match, those having a different value by one are collected as contradiction candidates. That is, in FIG. 5, three table meaning expressions 53,
Collect 55 and 56 as contradiction candidates. On the other hand, those having two or more different values are not considered as contradiction candidates. That is, in the table meaning expression 54 of FIG. 5, since the “branch” and the “sales amount” are different, the table meaning expression 54 does not become a contradiction candidate and is not a collection target.

【0023】ステップS27では、ステップS26で矛
盾候補があったか否かを判別する。図示の例では、矛盾
したものがあるので、ステップS28で結果を表示す
る。図10に矛盾候補の表示例を示す。表示結果中の下
線(1)、(2) は図9の文意味表現93の値に対応する箇所
を示している。下線(3) は、図9の文意味表現93と、
図5の表意味表現53の矛盾する部分を示している。同
様に下線(4)、(5) は、図5の表意味表現55、56との
矛盾する部分を示している。本装置の利用者はこの表示
を見て修正すべき箇所の下線の番号をフィールド101
に入力し、正しい値をフィールド102に入力すること
ができる。その後、変更ボタン103を押すことで、文
書変更手段7によって変更が文書に反映される。そし
て、終了ボタン104を押すことで処理が終了する。
In step S27, it is determined whether or not there is a contradiction candidate in step S26. In the illustrated example, there are some inconsistencies, and the result is displayed in step S28. FIG. 10 shows a display example of contradiction candidates. Underlines (1) and (2) in the display result indicate the locations corresponding to the values of the sentence meaning expression 93 in FIG. The underline (3) is the sentence semantic representation 93 of FIG.
6 shows an inconsistent part of the table meaning expression 53 of FIG. Similarly, underlines (4) and (5) indicate parts that contradict the table meaning expressions 55 and 56 in FIG. The user of this device sees this display and indicates the number of the underlined portion to be corrected in the field 101.
, And the correct value can be entered in field 102. After that, by pressing the change button 103, the change is reflected in the document by the document changing means 7. Then, pressing the end button 104 ends the process.

【0024】図11に、図10で下線(3) を選択し、変
更後の値として「100」を入力した場合の修正完了後
の文書を示す。このようにして、文書中の文章で記述し
た内容と、表の内容に矛盾がある箇所を自動的に発見す
ることができ、正しい文書を作成することができる。
FIG. 11 shows the document after the correction is completed when the underline (3) is selected in FIG. 10 and "100" is input as the changed value. In this way, it is possible to automatically find a portion where there is a contradiction between the contents described in the text of the document and the contents of the table, and it is possible to create a correct document.

【0025】尚、本発明は上述した実施例に限定される
ものではなく、種々の変形が可能であることはもちろん
である。例えば、構文意味解析ルール11は、図示の例
に限らず、他のあらゆるルールを追加することができ
る。これにより、より複雑な文章を解析することが可能
となる。また、上述した実施例においては、意味照合手
段5で集める矛盾候補を値が1つだけ異なるものとした
が、これに限らず、2つ以上異なるものを含めるように
してもよい。これにより、より広範囲の矛盾候補を集め
ることができる。更に、単語辞書8の品詞の名称は適宜
変更することができる。また、単語辞書8には、単語の
見出し語と、品詞以外の情報が含まれていてもかまわな
い。更に、利用者が矛盾候補の表示の中から矛盾する箇
所の下線の番号を選択する手段としてマウス等のポイン
ティングデバイス、音声認識、タッチパネル等を使用す
るようにしてもよい。
The present invention is not limited to the above-mentioned embodiments, and it goes without saying that various modifications can be made. For example, the syntactic and semantic analysis rule 11 is not limited to the illustrated example, and any other rule can be added. This makes it possible to analyze more complicated sentences. Further, in the above-described embodiment, the contradiction candidates collected by the meaning matching means 5 are different in value by one, but the value is not limited to this, and two or more different ones may be included. This allows a wider range of contradiction candidates to be collected. Further, the name of the part of speech in the word dictionary 8 can be changed appropriately. Further, the word dictionary 8 may include information other than headwords of words and parts of speech. Further, the user may use a pointing device such as a mouse, voice recognition, a touch panel, or the like as means for selecting the underlined number of the inconsistent portion from the display of the inconsistency candidates.

【0026】尚、表の中の項目の名称が複数の単語から
成る場合には、そのような複数の単語に対し、上述した
実施例における文章に対する形態素解析と同様の形態素
解析を行ない、その後、表意味変換手段2により表の意
味表現を作成するようにすればよい。
When the names of the items in the table are composed of a plurality of words, a morphological analysis similar to the morphological analysis for the sentence in the above-mentioned embodiment is performed on such a plurality of words, and then, The table meaning conversion means 2 may create the meaning expression of the table.

【0027】[0027]

【発明の効果】以上説明したように、本発明の文書作成
支援装置によれば、表中の認識文字と文章データの単語
とを関連させて統一的に表わした認識文字の組合せと単
語の組合せを作成し、両組合せの文字と単語を照合する
ようにしたので、表の内容と、文章の内容の矛盾を検出
することができる。従って、表で表わした内容を文章で
説明したり、文章で説明した内容を表にまとめて表わし
た場合に生じることがある矛盾を自動的に検出すること
ができる。これにより、ユーザに対し、表と文章のいず
れかの間違いの修正を促すことができ、このような矛盾
を解消することができる。
As described above, according to the document creation support apparatus of the present invention, the recognized characters in the table and the words of the sentence data are listed.
Create a combination and combination of words recognized character representing unified manner in conjunction bets. Thus matching letters and words of both combinations, detecting the contents of a table, the inconsistency of the contents of the text You can Therefore, it is possible to automatically detect a contradiction that may occur when the contents shown in the table are explained in sentences or the contents explained in the sentence are collectively shown in the table. As a result, the user can be prompted to correct an error in either the table or the sentence, and such a contradiction can be resolved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文書作成支援装置の一実施例のブロッ
ク図である。
FIG. 1 is a block diagram of an embodiment of a document creation support device of the present invention.

【図2】図1の装置の処理手順を説明するフローチャー
トである。
FIG. 2 is a flowchart illustrating a processing procedure of the apparatus of FIG.

【図3】図1の装置による校正の対象とされる文書の一
例の説明図である。
FIG. 3 is an explanatory diagram of an example of a document to be proofread by the apparatus of FIG.

【図4】図3の表から作成される表単語辞書の一例の説
明図である。
FIG. 4 is an explanatory diagram of an example of a table word dictionary created from the table of FIG.

【図5】図3の表から作成される表意味表現の一例の説
明図である。
5 is an explanatory diagram of an example of a table meaning expression created from the table of FIG.

【図6】予め用意されている単語辞書の一例の説明図で
ある。
FIG. 6 is an explanatory diagram of an example of a word dictionary prepared in advance.

【図7】形態素解析結果の一例の説明図である。FIG. 7 is an explanatory diagram of an example of a morpheme analysis result.

【図8】予め用意されている構文意味解析ルールの一例
の説明図である。
FIG. 8 is an explanatory diagram of an example of a syntactic and semantic analysis rule prepared in advance.

【図9】構文意味解析の結果作成される文意味表現の一
例の説明図である。
FIG. 9 is an explanatory diagram of an example of a sentence semantic expression created as a result of syntactic and semantic analysis.

【図10】矛盾候補の表示例の一例の説明図である。FIG. 10 is an explanatory diagram of an example of a display example of contradiction candidates.

【図11】文書修正結果の一例の説明図である。FIG. 11 is an explanatory diagram of an example of a document correction result.

【符号の説明】[Explanation of symbols]

2 表意味変換手段 3 形態素解析手段 4 構文意味解析手段 5 意味照合手段 6 矛盾候補表示手段 7 文書変更手段 2 Table meaning conversion means 3 Morphological analysis means 4 syntactic and semantic analysis means 5 Meaning matching means 6 Contradiction candidate display means 7 Document change means

───────────────────────────────────────────────────── フロントページの続き (72)発明者 松下 久明 東京都港区虎ノ門1丁目7番12号 沖電 気工業株式会社内 (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 550 G06F 17/21 548 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Hisaaki Matsushita 1-7-12 Toranomon, Minato-ku, Tokyo Oki Electric Industry Co., Ltd. (58) Fields investigated (Int.Cl. 7 , DB name) G06F 17 / 21 550 G06F 17/21 548

Claims (2)

(57) 【特許請求の範囲】 (57) [Claims] 【請求項1】 表及び文章を含む文書を文書データとし
てメモリに読み込み、該表及び文章を各々表領域データ
及び自然言語の文章だけから成る文章領域データに変換
して格納する文書入力手段と、 前記メモリに格納された前記表領域データから、該表領
域データ中の表の枠により列及び行を検出し、各列及び
行に記載された文字を認識し、各認識文字について見出
しと属性を登録した表単語辞書を生成し、該表単語辞書
に登録された各認識文字の該表上の配列位置及び品詞に
基づいて関連する複数の文字の組合せを生成し所定の記
憶領域に格納する表意味変換手段と、 前記メモリに格納された前記文章領域データに対し、単
語表記と品詞を各単語に対して規定した単語辞書を用い
て文章毎の形態素解析を行って品詞を付与した多数の単
語に分解し、該多数の単語から前記表単語辞書に登録さ
れた前記認識文字の品詞と一致する複数の単語を選定す
る形態素解析手段と、 該選定した複数の単語を、前記表意味変換手段の前記所
定の記憶領域に格納された組合せに対応させて組合せる
構文意味解析手段と、 前記表意味変換手段で生成された文字の組合せと前記構
文意味解析手段で生成された単語の組合せとを照合し、
不一致の文字及び単語を検出する意味照合手段と、 該検出した文字及び単語を、利用者が訂正可能に表示す
る矛盾候補表示手段とを含むことを特徴とする文書作成
支援装置。
1. A document input means for reading a document including a table and a sentence into a memory as document data, converting the table and the sentence into sentence region data consisting of only the table region data and the sentence of natural language, and storing the document region data. From the table area data stored in the memory, the columns and rows are detected by the frame of the table in the table area data, the characters written in each column and row are recognized, and the heading and the attribute for each recognized character are identified. A table for generating a registered table word dictionary, generating a combination of a plurality of related characters based on the arrangement position on the table of each recognized character registered in the table word dictionary, and a part of speech, and storing the combination in a predetermined storage area. With respect to the sentence area data stored in the memory, the meaning conversion means performs a morphological analysis for each sentence using a word dictionary that defines word notation and part-of-speech for each word, and adds a large number of words To Morphological analysis means for selecting a plurality of words that match the part of speech of the recognized character registered in the table word dictionary from the plurality of words, and the selected plurality of words for the table meaning conversion means. The syntactic and semantic analysis means for combining in correspondence with the combination stored in a predetermined storage area, the combination of characters generated by the table meaning conversion means and the combination of words generated by the syntactic and meaning analysis means are collated. ,
A document creation support apparatus comprising: a meaning collating means for detecting unmatched characters and words; and a contradiction candidate display means for displaying the detected characters and words in a correctable manner by a user.
【請求項2】 前記矛盾候補表示手段により表示された
前記文字及び単語のいずれかを利用者が訂正した場合
に、前記メモリ中の前記文書データの該当箇所を訂正し
た文書データを生成する文書変更手段を更に備えたこと
を特徴とする請求項1記載の文書作成支援装置。
2. A document change for generating document data in which a corresponding portion of the document data in the memory is corrected when a user corrects any of the characters and words displayed by the inconsistency candidate display means. The document creation support apparatus according to claim 1, further comprising means.
JP19470294A 1994-07-27 1994-07-27 Document creation support device Expired - Fee Related JP3501240B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19470294A JP3501240B2 (en) 1994-07-27 1994-07-27 Document creation support device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19470294A JP3501240B2 (en) 1994-07-27 1994-07-27 Document creation support device

Publications (2)

Publication Number Publication Date
JPH0844742A JPH0844742A (en) 1996-02-16
JP3501240B2 true JP3501240B2 (en) 2004-03-02

Family

ID=16328848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19470294A Expired - Fee Related JP3501240B2 (en) 1994-07-27 1994-07-27 Document creation support device

Country Status (1)

Country Link
JP (1) JP3501240B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134766A (en) * 2008-12-05 2010-06-17 Toshiba Corp Document data processing apparatus and program thereof

Also Published As

Publication number Publication date
JPH0844742A (en) 1996-02-16

Similar Documents

Publication Publication Date Title
JP2783558B2 (en) Summary generation method and summary generation device
US5895446A (en) Pattern-based translation method and system
JP3695191B2 (en) Translation support apparatus and method and computer-readable recording medium
US7243305B2 (en) Spelling and grammar checking system
JP4544674B2 (en) A system that provides information related to the selected string
US5303150A (en) Wild-card word replacement system using a word dictionary
JP2004265423A (en) Document translation method
JPH07325828A (en) Grammar checking system
US20070011160A1 (en) Literacy automation software
Kazman Structuring the text of the Oxford English Dictionary through finite state transduction
Abolhassani et al. Information extraction and automatic markup for XML documents
Bia et al. The Miguel de Cervantes digital library: the Hispanic voice on the web
JPH04134575A (en) Information presenting device
JP3501240B2 (en) Document creation support device
JPH08115330A (en) Method for retrieving similar document and device therefor
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JP2885489B2 (en) Document content search device
JP3285149B2 (en) Foreign language electronic dictionary search method and apparatus
JPH0748217B2 (en) Document summarization device
JP3949874B2 (en) Translation translation learning method, translation translation learning device, storage medium, and translation system
JPH04211868A (en) Method for creating keyword for retrieval of cd-rom data
JP2958811B2 (en) Japanese sentence processor
JP3447955B2 (en) Machine translation system and machine translation method
JP2020184218A (en) Search program, search method, and search device
JP5032453B2 (en) Machine translation apparatus and machine translation program

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees