JPS6022227A - European text processor - Google Patents
European text processorInfo
- Publication number
- JPS6022227A JPS6022227A JP58131455A JP13145583A JPS6022227A JP S6022227 A JPS6022227 A JP S6022227A JP 58131455 A JP58131455 A JP 58131455A JP 13145583 A JP13145583 A JP 13145583A JP S6022227 A JPS6022227 A JP S6022227A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- words
- text
- word
- proper noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
【発明の詳細な説明】
〔技術分野〕
本発明は、大文字または小文字のみから成る英文テキス
トなどを、大文字小文字混りのテキストに自動的に変換
する欧文テキスト処理装置に関する。DETAILED DESCRIPTION OF THE INVENTION [Technical Field] The present invention relates to a Roman text processing device that automatically converts English text consisting only of uppercase or lowercase letters into text containing a mixture of uppercase and lowercase letters.
文字認識装置において、文字単位で文字認識を行う場合
、0、P、Sなどの文字は大文字と小文字の識別が極め
て困難であり、誤認識する確率が高い。そこで従来は、
文字単位の認識の後処理に 。In a character recognition device, when character recognition is performed character by character, it is extremely difficult to distinguish uppercase and lowercase characters such as 0, P, and S, and there is a high probability of erroneous recognition. Therefore, conventionally,
For post-processing of character-by-character recognition.
おいて、文脈などを利用し誤認識文字の修正を行ってい
る。しかし、文字認識装置が高価になる割には、大文字
と小文字の認識エラーを十分減らすことができないとい
う問題があった。In this process, misrecognized characters are corrected using context and other factors. However, although the character recognition device is expensive, there is a problem in that it cannot sufficiently reduce errors in recognizing uppercase and lowercase letters.
もし、大文字または小文字のみから成る英文テキストな
どを、大文字小文字混りのテキストに自動的に変換する
手段が得られれば、文字を大文字または小文字のみとし
て認識するように文字認識装置を構成することができ、
装置価格を下げ得ると共に大文字と小文字の認識エラー
を減らせる可能性がある。また、英文テキストなどを伝
送するシステムにおいても、大文字または小文字のみか
ら成るテキストを送信し、受信側で大文字小文字混りテ
キストに変換できるから、伝送効率を改善できる可能性
がある。If a means could be obtained to automatically convert English text consisting only of uppercase or lowercase letters into mixed case text, it would be possible to configure a character recognition device to recognize characters as only uppercase or lowercase letters. I can do it,
It has the potential to lower device costs and reduce case recognition errors. Furthermore, even in systems that transmit English text, it is possible to transmit text consisting only of uppercase or lowercase letters and convert it to mixed case text on the receiving side, potentially improving transmission efficiency.
本発明はこのような点に鑑みてなされたものであり、そ
の目的は、大文字または小文字のみがら成る英文テキス
トなどを大文字小文字混りテキストに自動的に変換する
欧文テキスト処理装置を提供することにある。The present invention has been made in view of these points, and its purpose is to provide a Roman text processing device that automatically converts English text consisting only of uppercase or lowercase letters into mixed case text. be.
本発明の一実施例を第1図によって説明する。 An embodiment of the present invention will be described with reference to FIG.
文字認識装置、テレックス、コンピュータなどから小文
字(または大文字)のみから成るテキストが入力端子1
に入力される。単語抽出部2は入力テキストから単語を
抽出し、抽出した単語を小文字のコード列として出力す
る。抽出された単語は文字出力部3の単語メモリ4に格
納されるとともに、固有名詞検出部5に入力される。Text consisting only of lowercase (or uppercase) letters from a character recognition device, telex, computer, etc. is input to input terminal 1.
is input. The word extractor 2 extracts words from the input text and outputs the extracted words as a lowercase code string. The extracted words are stored in the word memory 4 of the character output section 3 and are also input to the proper noun detection section 5.
6は固有名詞を格納した固有名詞テーブルである。固有
名詞検出部5は抽出された単語について固有名詞テーブ
ル6を検索することにより、入力テキスト中の固有名詞
の検出を行い、検出した場合に検出信号を出力する。7
は入力テキストからの文の始り(STX)を検出する文
始り検出部であり、文の始りを検出すると、検出信号を
出力する。8は入力テキストの終り(ピリオド、疑問符
、感嘆符など)を検出する交絡り検出部であり、検出す
ると検出信号を出力する。6 is a proper noun table storing proper nouns. The proper noun detection unit 5 detects proper nouns in the input text by searching the proper noun table 6 for the extracted words, and outputs a detection signal when a proper noun is detected. 7
is a sentence start detection unit that detects the start of a sentence (STX) from the input text, and outputs a detection signal when the start of a sentence is detected. Reference numeral 8 denotes a confounding detection unit that detects the end of input text (period, question mark, exclamation mark, etc.), and outputs a detection signal when detected.
上記固有名詞検出部5、文始り検出部7、交絡り検出部
8から出力される各検出信号はテキスト出力部3中の大
文字変換部9に入力される。この大文字変換部9は、単
語抽出部2によって抽出され単語メモリ4に格納された
単語のうち、固有名詞検出部5によって検出された固有
名詞、文始り検出部→によって文始りが検出された直後
に抽出された単語、あるいは交絡り検出部8によって交
絡りが検出された直後に抽出された単語の先頭文字のみ
を大文字に変換する。この変換後の単語が出力端10よ
りプリンタなどへ送出される。Each detection signal output from the proper noun detection section 5, sentence start detection section 7, and entanglement detection section 8 is input to the uppercase conversion section 9 in the text output section 3. The uppercase conversion unit 9 detects the proper noun detected by the proper noun detection unit 5 and the beginning of a sentence by the sentence start detection unit → from among the words extracted by the word extraction unit 2 and stored in the word memory 4. Only the first letter of the word extracted immediately after the word is extracted, or the word extracted immediately after the entanglement is detected by the entanglement detection unit 8, is converted into an uppercase letter. The converted words are sent from the output terminal 10 to a printer or the like.
変換例を第2図に示す。この図の(a)は入力テキスト
であり、これは(b)に示すような出力テキストに変換
される。すなわち文の先頭文字や、固有名詞の先頭文字
(第2図の円で囲んだ文字)は大文字に変換される。An example of conversion is shown in FIG. In this figure, (a) is an input text, which is converted into an output text as shown in (b). That is, the first letter of a sentence or the first letter of a proper noun (the circled letter in FIG. 2) is converted to an uppercase letter.
本発明の他の実施例を第3図によって説明する。Another embodiment of the present invention will be described with reference to FIG.
この図において、1〜11は前記実施例の対応部と同一
であるので、その説明は省略し、それ以外の部分のみに
ついて以下説明する。In this figure, since 1 to 11 are the same as the corresponding parts in the previous embodiment, their explanation will be omitted, and only the other parts will be explained below.
11はイタリック書体で印字すべき単語を登録したイタ
リック単語テーブルである。イタリック検出部12は、
出力端子10より送出される単語についてイタリック単
語テーブル11を検索し、イタリック書体で印刷すべき
単語の場合は検出信号をCGセレクタ13に与える。1
4はローマン体の文字パターンを発生するローマン体キ
ャラクタゼネレータ、15はイタリック体の文字パター
ンを発生するイタリック体キャラクタゼネレータである
。CGセレクタ13は、イタリック検出部12から検出
信号が与えられない時は、出力端子10より送出される
単語の各文字コードに対応するローマン体文字パターン
をローマン体キャラクタゼネレータ14によって発生さ
せ、それを印字バッファ16に出力するが、イタリック
検出部12より検出信号が与えられた時は、単語の各文
字コードに対応するイタリック体の文字パターンをイタ
リック体キャラクタゼネレータ15によって発生させ、
それを印字バッファ16に出力する。印字バッファ16
に得られた文字パターンデータは端子17よりプロッタ
などへ出力される。11 is an italic word table in which words to be printed in italic font are registered. The italic detection unit 12 is
An italic word table 11 is searched for the word sent from the output terminal 10, and if the word should be printed in an italic font, a detection signal is given to the CG selector 13. 1
4 is a roman character generator that generates a roman character pattern, and 15 is an italic character generator that generates an italic character pattern. When the CG selector 13 is not given a detection signal from the italic detector 12, the CG selector 13 causes the Roman character generator 14 to generate a Roman character pattern corresponding to each character code of the word sent from the output terminal 10. When a detection signal is given from the italic detector 12, the italic character generator 15 generates an italic character pattern corresponding to each character code of the word.
It outputs it to the print buffer 16. Print buffer 16
The character pattern data obtained is outputted from the terminal 17 to a plotter or the like.
このように本実施例によれば、特定の単語を異書体に変
換することができる。As described above, according to this embodiment, a specific word can be converted into an allograph.
前記各実施例に示したように、本発明によれば、大文字
または小文字のみから成る欧文テキストを大文字小文字
混りのテキストに自動的に変換することができる。従っ
て、本発明による欧文テキスト処理装置を、たとえば文
字認識装置の後処理装置として用いれば、大文字または
小文字のみ文字単位で認識するように文字認識装置を構
成することができ、安価でかつ大文字と小文字の認識エ
ラーを発生しない文字認識装置を実現できる。また、本
発明による欧文テキスト処理装置をデータ転送システム
の受信端末に設ければ、送信側端末では大文字または小
文字のみから成るテキストを転送すればよくなり、送信
端末を簡略化でき、また伝送効率を上げることができる
。As shown in the embodiments described above, according to the present invention, a Roman text consisting only of uppercase or lowercase letters can be automatically converted into a text containing mixed uppercase and lowercase letters. Therefore, if the Roman text processing device according to the present invention is used, for example, as a post-processing device for a character recognition device, the character recognition device can be configured to recognize only uppercase or lowercase letters on a character-by-character basis. It is possible to realize a character recognition device that does not generate recognition errors. Furthermore, if the Roman text processing device according to the present invention is installed at the receiving terminal of a data transfer system, the sending terminal only needs to transfer text consisting of uppercase or lowercase letters, which simplifies the sending terminal and improves transmission efficiency. can be raised.
第1図は本発明の一実施例を示す概略ブロック図、第2
図は入力テキストと出力テキストの例を示す図、第3図
は本発明の他の実施例を示す概略ブロック図である。FIG. 1 is a schematic block diagram showing one embodiment of the present invention, and FIG.
The figure shows an example of input text and output text, and FIG. 3 is a schematic block diagram showing another embodiment of the invention.
Claims (1)
ストを大文字小文字混りのテキストに変換する欧文テキ
スト処理装置であって、入力テキストより単語を抽出す
る単語抽出部と、入力テキストより文の始りを検出する
文始り検出部と、入力テキストから文の終りを検出する
文終り検出部と、固有名詞を格納した固有名詞テーブル
と、上記単語抽出部により抽出された単語について上記
固有名詞テーブルを検索することにより固有名詞を検出
する固有名詞検出部と、上記単語抽出部によって抽出さ
れた単語のうち、上記文始り検出部により文の始りが検
出された直後に抽出された単語または上記文終り検出部
で文の終りが検出さ九た直後に抽出された単語は、その
先頭文字のみ大文字とし残りの文字を小文字として出力
し、それ以外の単語は全文字を小文字として出力するテ
キスト出力部とを有する欧文テキスト処理装置。(1) A Roman text processing device that converts a Roman input text consisting only of uppercase or lowercase letters into a mixed case text, which includes a word extraction unit that extracts words from the input text, and a word extraction unit that extracts words from the input text, and a sentence start part that extracts words from the input text. a sentence start detection unit that detects the end of a sentence from an input text, a proper noun table that stores proper nouns, and a proper noun table that stores the words extracted by the word extraction unit. A proper noun detection unit that detects proper nouns by searching, and a word extracted immediately after the beginning of a sentence is detected by the sentence start detection unit among the words extracted by the word extraction unit or the word above. For words extracted immediately after the end of a sentence is detected by the end-of-sentence detector, only the first letter of the word is output as uppercase and the remaining letters are output as lowercase.For other words, all letters are output as lowercase.Text output A Roman text processing device having a section.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58131455A JPS6022227A (en) | 1983-07-19 | 1983-07-19 | European text processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58131455A JPS6022227A (en) | 1983-07-19 | 1983-07-19 | European text processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6022227A true JPS6022227A (en) | 1985-02-04 |
Family
ID=15058354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58131455A Pending JPS6022227A (en) | 1983-07-19 | 1983-07-19 | European text processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6022227A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0267769A2 (en) * | 1986-11-10 | 1988-05-18 | Brother Kogyo Kabushiki Kaisha | An electronic typewriter with a spelling check function |
JPH0256671A (en) * | 1988-08-23 | 1990-02-26 | Toshiba Corp | Editing device |
JPH07271786A (en) * | 1994-10-20 | 1995-10-20 | Casio Comput Co Ltd | Word processor |
-
1983
- 1983-07-19 JP JP58131455A patent/JPS6022227A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0267769A2 (en) * | 1986-11-10 | 1988-05-18 | Brother Kogyo Kabushiki Kaisha | An electronic typewriter with a spelling check function |
JPH0256671A (en) * | 1988-08-23 | 1990-02-26 | Toshiba Corp | Editing device |
JPH07271786A (en) * | 1994-10-20 | 1995-10-20 | Casio Comput Co Ltd | Word processor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Siromoney et al. | Computer recognition of printed Tamil characters | |
US4468756A (en) | Method and apparatus for processing languages | |
US4500955A (en) | Full word coding for information processing | |
US4980855A (en) | Information processing system with device for checking spelling of selected words extracted from mixed character data streams from electronic typewriter | |
JPS6022227A (en) | European text processor | |
JPS6371767A (en) | Document producing device | |
JPS592191A (en) | Recognizing and processing system of handwritten japanese sentence | |
JPS581821B2 (en) | Japanese data input device | |
JPH0244459A (en) | Japanese text correction candidate extracting device | |
Araki et al. | An evaluation of a method to detect and correct erroneous characters in Japanese input through an OCR using Markov models | |
JPS6336389A (en) | Character reader | |
JPH05257582A (en) | Input control system | |
JP2841555B2 (en) | Data input device | |
JPS6120180A (en) | Optical character recognizing device | |
JPS6315633B2 (en) | ||
JPS58101378A (en) | Manuscript document reading method | |
JPH02114366A (en) | Kanji input system | |
JPS59121425A (en) | Chinese phonetic alphabet of kanji converter | |
JPS6298456A (en) | Japanese language input device | |
JPS61121159A (en) | Character input device | |
JPH05225183A (en) | Automatic error detector for words in japanese sentence | |
JPH0317845U (en) | ||
JPS61193258A (en) | Method and apparatus for inputting chinese character into terminal | |
JPH061478B2 (en) | Sending kana determination method | |
JPS5985577A (en) | Preprocessing method of recognition of on-line character |