JPH07319893A - Easily generated data base and data retrieval/extraction method - Google Patents

Easily generated data base and data retrieval/extraction method

Info

Publication number
JPH07319893A
JPH07319893A JP6143761A JP14376194A JPH07319893A JP H07319893 A JPH07319893 A JP H07319893A JP 6143761 A JP6143761 A JP 6143761A JP 14376194 A JP14376194 A JP 14376194A JP H07319893 A JPH07319893 A JP H07319893A
Authority
JP
Japan
Prior art keywords
character
data
line
search
character data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6143761A
Other languages
Japanese (ja)
Inventor
Takuji Kono
拓治 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP6143761A priority Critical patent/JPH07319893A/en
Publication of JPH07319893A publication Critical patent/JPH07319893A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To prevent interference in the display of character data by setting the presence or absence of a space as the detection reference of the start/end positions of character data and constituting a character information unit. CONSTITUTION:When a retrieval character string is detected, the start point of the character information unit of the retrieval character string is searched by tracing back stored character data of a buffer. When stored initial character data of one line in the buffer is not the space (1), the position is set to be the start point of the character information unit. In the detection of an end point, it is started from the line where the retrieval character string is detected. When last character data of one line is the space (2), the position is set to be the end point of the character information unit. The space (3) in the middle of the line is treated as regular character data. When character data does not exist in one line (4), the line is set to be out of the object of detecting the start/end positions of character data. When the number of the lines of the character information unit increases, the position of the retrieval character string is hard to detect. In such a case, a * mark is added to the start point of the line including the retrieval character string (5).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、スペースの有無を文字
データの起点および終点検出に使う方式の文字データ記
憶媒体および装置とそのデータ検索・抽出方法で、異機
種間でも共通に使えるので、産業、学術、教育用の各種
用途に使える。ここでいう文字データ記憶媒体および装
置とは、データベース、電子式の本や説明書等の文字デ
ータを記憶したディスク、CD−ROM、テープ等の記
憶媒体と、それと組合わせる装置をいうが、以下、それ
らを総称してデータベースと呼ぶ。このデータベース
は、電気式、磁気式、光学式等のすべての方式のものに
適用できる。この方式で検索・抽出する文字データは、
データベース中のすべての文字データを対象にする。一
般の検索方式で採用されているような見出し語のみの検
索方式ではない。そのため、この検索・抽出方式は、本
方式のデータベースだけでなく、一般の電子式の本や説
明書とも組み合わせて使えるのである。この方式では、
文字データを基本に扱うが、画像データは、それぞれに
画像番号を付け、その番号を文字データとして扱い、出
力表示時に、その文字データを数値化した画像番号で外
部の画像データを読み込み、文字データと重ね合わせ
る。応用できる装置は、汎用の計算機(ワークステーシ
ョン、パーソナルコンピュータ等)のほかに、専用の小
型計算機やデータ読み取り/書き込み装置にも使える。
以下、それらを総称して計算機等と呼ぶ。この方式のデ
ータベースと検索・抽出方法を使えば、検索条件さえ設
定すれば、自動的に希望する文字データを抽出できる。
また抽出した文字データは、そのままデータベースとし
て使える利点がある。データ通信用のデータベースから
個人用のデータベースにまで幅広く使える。
BACKGROUND OF THE INVENTION The present invention is a character data storage medium and device that uses the presence or absence of spaces to detect the starting and ending points of character data, and its data retrieval / extraction method. It can be used for various purposes such as industrial, academic and educational purposes. The character data storage medium and device here mean a storage medium such as a database, a disk storing character data such as an electronic book or instruction manual, a CD-ROM, a tape and the like, and a device combined therewith. They are collectively called a database. This database can be applied to all types such as electric type, magnetic type and optical type. The character data searched and extracted by this method is
Targets all character data in the database. It is not a search method using only headwords that is used in general search methods. Therefore, this search / extraction method can be used not only in the database of this method but also in combination with general electronic books and manuals. With this method,
Character data is basically handled, but image data is given an image number for each, and that number is treated as character data, and when output is displayed, external image data is read using the image number that digitized the character data, and the character data And overlap. Applicable devices include general-purpose computers (workstations, personal computers, etc.) as well as dedicated small computers and data read / write devices.
Hereinafter, they are collectively referred to as a computer or the like. By using this type of database and search / extraction method, desired character data can be automatically extracted by setting search conditions.
Also, the extracted character data has an advantage that it can be directly used as a database. It can be widely used from data communication databases to personal databases.

【0002】[0002]

【従来の技術】計算機等で使われるデータベースの方式
は、計算機のソフトウェアやハードウェアでそれぞれ違
い、共通の方式のデータベースは存在しない。汎用デー
タベースのソフトウェアでは、カンマ(,)でデータを
区切る方法もあるが、それではワープロまたはエディタ
で読むには不便である。結局、共通的な方式はなく、変
換ソフトを組み合わせて使わざるを得ない状態である。
同じソフトウェアでも、バージョンが違うと新旧データ
の互換性がないこともある。データを相互利用するうえ
では非常に不便である。また、従来の検索方式は、検索
のみであるので、検索した文字データを自動抽出する機
能を持っていない。
2. Description of the Related Art Database systems used in computers and the like differ depending on the software and hardware of computers, and there is no database of common system. With general-purpose database software, there is also a method of separating data with commas (,), but this is inconvenient to read with a word processor or editor. After all, there is no common method and it is unavoidable to combine and use conversion software.
Even with the same software, if the versions are different, the old and new data may not be compatible. It is very inconvenient for mutual use of data. In addition, the conventional search method does not have a function of automatically extracting the searched character data because it only searches.

【0003】[0003]

【発明が解決しようとする課題】本発明は、文字データ
にデータの区切り機能をもたせ、1行から数十行程度ま
での範囲で文字データを構成できるようにした。この区
切り機能を持たせることにより、検索した文字データを
自動抽出できるようになった。この一区切りの文字デー
タを、以下、文字情報単位と呼ぶ。この方式で扱うデー
タは文字データなので、計算機等のオペレーティングシ
ステム(OS)さえ同じであれば、どの計算機等でも読
み書きできる。この方式は、文字データを計算機等の画
面で表示されているのと同じ状態でデータベースに記憶
させようとするものである。表形式のデータや罫線は、
それらのデータが文字データに置き換えられない場合、
表および罫線を取ってスペースにした状態でデータベー
スに記憶させ、出力表示時に、必要に応じて、そのスペ
ースの部分を表形式にしたり、罫線を引く。前述のよう
に、画像データの場合と同様に、図表番号を付けてお
き、出力表示時に、その番号で外部に記憶させた図表を
呼び出すこともできる。
According to the present invention, the character data is provided with a data delimiter function so that the character data can be constructed in a range from one line to several tens of lines. By providing this delimiter function, the searched character data can be automatically extracted. Hereinafter, the character data of one segment is referred to as a character information unit. Since the data handled by this method is character data, as long as the operating system (OS) of a computer or the like is the same, it can be read and written by any computer or the like. This method attempts to store character data in a database in the same state as it is displayed on the screen of a computer or the like. Tabular data and ruled lines are
If those data cannot be replaced with character data,
The table and ruled lines are taken out and stored as spaces in the database, and at the time of output display, the space portion is converted into a table format or a ruled line is drawn. As described above, similarly to the case of the image data, it is also possible to attach a figure number and call the figure stored externally with the number at the time of output display.

【0004】[0004]

【課題を解決するための手段】スペースの有無を文字デ
ータの起点と終点位置の検出基準にして、文字情報単位
を構成すると、文字データの表示への干渉がなく最上で
あることを発明した。この方法をまとめると次のとおり
である。()内の番号は、図1、図2、図3の番号であ
る。 (イ)文字データの読み込み、書き込みは、キャリッジ
リターンコード(以下、CRコードと呼ぶ)までを1行
のデータとして扱う。画面に表示される1行とは違うの
で、表示上は、数行の文字データでも、1行として扱わ
れることもある。検索文字列用の文字データは、通常、
1行以内であるが、被検索用の文字データは1行が画面
上の数行以上となることもありえる。計算機等のハード
ウェアまたはソフトウェアの制約上、1行が全部読めな
い場合は、キャリッジリターンまでの文字データを何回
かに分けて読み込み、書き込みする必要がある。計算機
等では、通常、この操作を自動的に行うが、文字データ
の途中分断、特に漢字等の2バイト文字が二つに分かれ
ないように処理する必要がある。 (ロ)行の先頭がスペースでない場合(1)、その位置
が、文字情報単位の起点となる。 (ハ)CRコードの直前の文字データがスペースである
場合(2)、その位置が、文字情報単位の終点である。
故に、1行の文字データがスペースのみの場合でも、終
点として扱う。 (ニ)行の途中にあるスペース(3)は、普通の文字デ
ータとして扱う。 (ホ)1行に文字データがない場合(CRコードのみの
状態)(4)は、文字データの起点、終点の検出対象外
とし、CRコードの本来の機能である改行とラインフィ
ードのみを行う。 データベースとその文字データ検索・抽出方法は次のと
おりである。データベースの文字データを1行ずつ読
み、その文字データをバッファ(詳細は後述する)に記
憶させながら検索文字列を探していく。検索文字列が見
つかると、記憶されたバッファの文字データを遡って検
索文字列の文字情報単位の起点を探す。記憶されたバッ
ファ内の1行の最初の文字データがスペースでない場合
(1)に、その位置を文字情報単位の起点とする。終点
検出は、検索文字列が見つかった行から開始し、1行の
最後の文字データがスペースである場合(2)に、その
位置を文字情報単位の終点とする。その行に終点用スペ
ースが見つからない場合は、データベースの文字データ
を新しく1行ずつ読み、その文字データをバッファに記
憶させながら、文字情報単位の終点を探す。終点検出用
のスペースは、終点の検出用に使っているが、それ自体
が文字データの一部である。データ通信に見られるとこ
ろの、終点位置検出用の記号としてのみ使っているもの
ではない。文字データの一部であるが故に、データベー
スから抽出したデータがまた同じフォーマットのデータ
ベースとして使えるのである。行の途中にあるスペース
(3)は、終点位置の文字データでないため、通常の文
字データとして扱われる。また、1行に文字データがな
い場合(CRコードのみの状態)(4)は、文字データ
の起点および終点位置検出の対象外とする。文字情報単
位の行数が多くなると検索文字列の位置が分かりづらく
なるので、そのときに検索文字列を含む行の起点に*記
号等を付加する(5)と、検索文字列の位置が分かりや
すくなる。ただし、*記号のついた文字データをまたデ
ータベースとして使う場合は、*記号が行の起点の扱い
を受けることになるので、データベースに登録するとき
に、*記号を取るか、*記号をスペースと同等として扱
うかすればよい。本発明でいうスペースとは、半角文字
用のスペースのことであるが、漢字等の全角文字を多く
使う場合は、半角スペースのかわりに全角スペースにす
るか、または両方とも有効とすることもできる。データ
の検索・抽出方式は、次の構成からなる。()内の番号
は、図4の番号である。 (イ)キーボード(音声入力、手書き入力、OCR入力
方式等も含むが、以下、キーボードで総称する)または
フロッピーディスク装置やCD−ROM装置等を経由し
て外部の記憶媒体または装置からの文字データ読み込み
入力部分(6) (ロ)数十行分の文字データを一時記憶させるバッファ
(7) (ハ)希望する文字列を検索する部分(8) (ニ)文字情報単位の起点・終点位置を検出、抽出する
部分(9) (ホ)抽出された文字情報単位を表示・記憶する部分
(10) (ヘ)本発明の方式で作成したデータベース(11) キーボードまたは外部記憶媒体または装置からの1行毎
の読み込み文字列(a)が、内部のデータベース(b)
に含まれるかどうかの検索をする。逆に、(b)からの
1行毎の読み込み文字列が、(a)に含まれるかどうか
の検索(外部検索と呼ぶ)も可能である。読み込みデー
タがない場合(CRコードのみの状態)は、検索の対象
外とする。読み込みデータがなくなった場合、終了す
る。ただし、検索文字列を検出済みであれば、そのデー
タは抽出して終了する。検索用の文字列は、一つまたは
二つ以上でも可能である。二つ以上の場合、文字列の検
索条件のANDがとれるので、検索条件を複数に変える
ことができる。図4の検索・抽出は次のようになる。一
行ずつデータベース(11)の文字データを読み、バッ
ファ(7)に記憶していく。その記憶した文字データ
に、入力部(6)からの検索文字列が含まれるかどうか
を検索部(8)で探す。検索文字列が二つ以上あるとき
は、次のように検索する。データベースの文字データを
1行ずつ読み込み、その都度複数の検索文字列を一つず
つ順番に、そのデータベースの文字データに対して検索
させる。このため、検索文字列を一時記憶するバッファ
を入力部にも持たせると検索速度が向上する。外部検索
の場合は次のようになる。一行ずつデータベース(1
1)の文字データを読み、バッファ(7)に記憶してい
く。その記憶した文字列が、入力部(6)からの文字デ
ータに、含まれるかどうか探す。入力部からの文字デー
タが2行以上あるときは、データベースの文字列を1行
ずつ読み込み、その都度複数の入力文字データを一つず
つ順番に、そのデータベースの文字列に対して検索させ
る。そのため、入力部にもバッファがあるほうが検索速
度が速くなる。この場合は、データベースの文字データ
が検索文字列となるため、データベースに終点用のスペ
ースがある場合は、検索のときのみ、一時的に削除す
る。検索文字列が見つかると、そのデータの文字情報単
位の起点および終点を(9)で探す。起点位置を検出す
るのはバッファ(7)内のデータを対象とし,行の最初
の文字データがスペースでないものを、新しいものから
古いものへと遡って一行分のデータ毎に検出していく。
前述したように、データがない場合(CRコードのみの
状態)は、改行とラインフィードをして次の行に進む。
終点位置の検出は、検索した文字行から開始し、1行の
最後の文字データがスペースかどうかを調べる。その行
にスペースがない場合、新しくデータベースから一行分
ずつ順次読み込み、バッファ(7)に記憶させながら、
1行の最後の文字データがスペースのものを検出してい
く。これで、起点を含む行から終点を含む行までが、検
索文字列の文字情報単位となり、これを抽出する。起点
位置、終点位置を検出する際に、バッファ(7)内の記
憶行数のそれぞれ半分を越えないようにし、合計でバッ
ファの記憶行数を越えないようにする。そうすれば、検
出された文字情報単位がバッファの中に記憶された状態
で、後述する表示・記憶部に進めることになる。最後
に、抽出された文字情報単位を表示・記憶部(10)で
画面上に表示し、記憶装置に記憶させる。画像データが
ある場合は、画像番号をもとに外部から画像データを読
み込み、文字データと重ね合わせる。なお、以下に述べ
るように、置換部(12)を持たせている。なお、この
検索・抽出方法は、補足機能として、次の機能も持たせ
てある。 (イ)起点・終点検出ができない場合の対応 バッファ内の任意の行数分探しても文字情報単位の起点
位置の検出ができない場合、その行数分データを抽出・
表示し、かつ、その先頭に、文字情報単位の起点が見つ
からなかったことが分かるような記号(例えば????
?)付加する。同様に、任意の行数以上データを読み込
んでも文字情報単位の終点位置が検出できない場合、そ
の読み込み全データを抽出・表示するとともに、文字情
報単位の終点位置が見つからなかったことが分かるよう
な記号(例えば*?????)を最後に付加する。任意
の行数を幾らにするかは、データベースの構成および検
索・抽出の利用方法により選択できるようにすると便利
である。これにより、本発明のデータベースの方式でな
い通常の電子式の本や説明書の文章に対しても、検索文
字列の前後の文字情報が抽出できることになる。 (ロ)検索文字列の行の先頭からの文字位置指定を可能
にする。例えば、3文字目から始まる文字列を探す。こ
れは、汎用データベースのカラム指定の機能と同じにな
る。 (ハ)置換機能の追加 検索文字列に対する置換文字列をあらかじめ定めておき
(例えばデータベース上の次の読み込みデータまたは、
一つ前のデータ)、検索文字列と置換文字列を置換す
る。この置換機能は、図3のデータベースを使えば、英
文和訳または和文英訳等に応用できる。最後に、一部ま
たは全部置換された文字列を表示・記憶部で画面上に表
示し、記憶装置に記憶させる。これで簡単な翻訳支援ツ
ールができる。単純な置換では、和文と英文の混じった
不完全な訳文となるので、予め置換ができやすいよう
に、置換の前処理を行う機能を備えておく。この前処理
機能を辞書機能と呼ぶ。この原理は、データベースを自
分自身で前もって部分的に用語置換しておくことであ
る。例えば、”アーム長さ”を英文に置換すると、”a
rm長さ”になる可能性がある。これは、”アーム長
さ”を置換する前に、”アーム”がデータベースに存在
すると、アームの部分が置換され、”arm長さ”とな
り、”アーム 長さ”の置換ができなくなるためであ
る。このため、辞書機能では、”アーム長さ”を事前
に、”arm長さ”にしておくのである。 (ニ)簡単なワープロ機能を装備 検索文字列を二つ以上入力する場合や、データベースの
作成、変更用として、簡単なワープロ機能を装備する。 (ホ)出力ファイルの保存、消去機能 抽出した文字情報単位は、表示させるとともに、出力用
ファイル上に蓄積記憶させる。必要になれば、データベ
ースとして登録もできる。しかし、ファイルのデータが
必要以上に大きくなると、消去もできるようにする。 (ヘ)データベースの登録、削除、統合機能 抽出した文字情報単位は、そのままデータベースとして
使えるが、全ての文字情報単位をデータベース化する必
要はないので、必要な場合のみ、出力ファイルから登録
する方式にする。また、登録したデータベースを削除す
る機能を持たせる。また、二つ以上のデータベースのフ
ァイルを統合させる機能を持たせる。 (ト)出力ファイルを外部へ出力 出力ファイル上に蓄積記憶した文字情報単位は、外部の
プリンタに出力できる機能を持たせる。また、ファイル
出力として他のワープロやエディタに読み出せるように
すれば、そこからプリンタに出力することも可能とな
る。 (チ)検索の一時停止機能を持たせる。電子式の本や説
明書の場合、検索状況を確認しながら操作できるので便
利である。 (リ)本発明は、検索データの自動抽出ができるので、
外部からの大量の文字データでも、条件をセットしてお
けば、自動的にデータを抽出できる。そのため操作時間
の予想時間を表示できるようにしておく。計算機等の処
理単位時間を事前に計算しておき、それにデータベース
と検索(被検索)文字データ行数の両方を掛け合わせて
操作時間を算出する。
It has been invented that when a character information unit is constructed with the presence or absence of a space as a reference for detecting the starting point and the ending point of the character data, there is no interference with the display of the character data. This method is summarized as follows. The numbers in parentheses are the numbers in FIGS. 1, 2, and 3. (B) When reading or writing character data, the carriage return code (hereinafter referred to as CR code) is treated as one line of data. Since it is different from one line displayed on the screen, even a few lines of character data may be treated as one line on the display. Character data for search string is usually
Although it is within one line, it is possible that one line of the character data to be searched is more than several lines on the screen. If the entire line cannot be read due to hardware or software restrictions such as a computer, it is necessary to read and write the character data up to the carriage return in several steps. In a computer or the like, normally, this operation is automatically performed, but it is necessary to perform processing so as not to divide the character data in the middle, particularly to divide a 2-byte character such as a Chinese character into two. (B) If the beginning of the line is not a space (1), that position becomes the starting point of the character information unit. (C) When the character data immediately before the CR code is a space (2), the position is the end point of the character information unit.
Therefore, even if one line of character data is only a space, it is treated as the end point. (D) The space (3) in the middle of the line is treated as ordinary character data. (E) If there is no character data in one line (CR code only) (4), the start and end points of the character data are not detected and only the line feed and line feed, which are the original functions of the CR code, are performed. . The database and its character data search / extraction method is as follows. The character data in the database is read line by line, and the character data is stored in a buffer (details will be described later) while searching for a search character string. When the search character string is found, the character data in the stored buffer is traced back and the starting point of the character information unit of the search character string is searched. When the first character data of one line in the stored buffer is not a space (1), the position is set as the starting point of the character information unit. The end point detection starts from the line where the search character string is found, and when the last character data of one line is a space (2), the position is set as the end point of the character information unit. If the end space is not found in that line, the character data in the database is newly read line by line, and the end of each character information unit is searched while storing the character data in the buffer. The space for detecting the end point is used for detecting the end point, but is itself a part of the character data. It is not used only as a symbol for detecting the end point position, which is seen in data communication. Since it is a part of character data, the data extracted from the database can also be used as a database of the same format. Since the space (3) in the middle of the line is not character data at the end point, it is treated as normal character data. If there is no character data in one line (CR code only state) (4), the start and end position detection of character data is excluded. If the number of lines in the character information unit becomes large, the position of the search character string becomes difficult to understand. At that time, add a * symbol or the like to the starting point of the line containing the search character string (5) to find the position of the search character string. It will be easier. However, when using the character data with the * symbol again as a database, the * symbol will be treated as the starting point of the line, so when registering in the database, either take the * symbol or use the * symbol as a space. It should be treated as equivalent. The space referred to in the present invention is a space for half-width characters, but if many full-width characters such as kanji are used, it is possible to use full-width spaces instead of half-width spaces, or to enable both. . The data retrieval / extraction method has the following configuration. The numbers in parentheses are the numbers in FIG. (B) Character data from an external storage medium or device via a keyboard (including voice input, handwriting input, OCR input method, etc., but generically referred to as a keyboard hereinafter) or a floppy disk device or a CD-ROM device. Reading input part (6) (b) Buffer for temporarily storing tens of lines of character data (7) (c) Part to search for desired character string (8) (d) Start and end position of character information unit Detecting and extracting part (9) (e) Displaying and storing the extracted character information unit (10) (f) Database created by the method of the present invention (11) 1 from keyboard or external storage medium or device The read character string (a) for each line is the internal database (b)
Search whether or not it is included in. Conversely, it is also possible to search whether the read character string for each line from (b) is included in (a) (referred to as external search). If there is no read data (CR code only), it is excluded from the search target. When there is no read data, the process ends. However, if the search character string has been detected, the data is extracted and the process ends. The search character string can be one or two or more. In the case of two or more, since the search conditions of the character string can be ANDed, the search conditions can be changed to a plurality. The search / extraction of FIG. 4 is as follows. The character data of the database (11) is read line by line and stored in the buffer (7). The search unit (8) searches for whether the stored character data includes the search character string from the input unit (6). If there are two or more search strings, search as follows. The character data in the database is read line by line, and each time a plurality of search character strings are searched one by one for the character data in the database. Therefore, if the input unit also has a buffer for temporarily storing the search character string, the search speed is improved. For external search: Database line by line (1
The character data of 1) is read and stored in the buffer (7). It is searched whether the stored character string is included in the character data from the input unit (6). When there are two or more lines of character data from the input unit, the character strings in the database are read line by line, and each time a plurality of input character data are searched one by one for the character strings in the database. Therefore, the search speed becomes faster when the input section also has a buffer. In this case, the character data in the database becomes the search character string, so if there is a space for the end point in the database, it is temporarily deleted only during the search. When the search character string is found, the starting point and the ending point of the character information unit of the data are searched in (9). The starting point position is detected for the data in the buffer (7), and if the first character data of a line is not a space, it is detected from the newest to the oldest for each line of data.
As described above, if there is no data (CR code only), line feed and line feed are performed and the process proceeds to the next line.
The detection of the end point position starts from the searched character line and checks whether the last character data of one line is a space. If there is no space on that line, read one line at a time from the new database and store it in buffer (7).
Detects that the last character data of one line is a space. Thus, the line including the start point to the line including the end point becomes the character information unit of the search character string, and this is extracted. When detecting the starting point position and the ending point position, the number of storage lines in the buffer (7) should not exceed half each, and the total number of storage lines in the buffer should not exceed. Then, the detected character information unit is stored in the buffer, and the unit proceeds to the display / storage unit described later. Finally, the extracted character information unit is displayed on the screen by the display / storage unit (10) and stored in the storage device. If there is image data, the image data is read from the outside based on the image number and is superimposed on the character data. As will be described below, the replacement section (12) is provided. Note that this search / extraction method also has the following functions as supplementary functions. (A) Correspondence when starting point / ending point cannot be detected If the starting point position in character information unit cannot be detected even if searching for an arbitrary number of lines in the buffer, data is extracted for that number of lines.
A symbol that is displayed and indicates that the starting point of the character information unit was not found at the beginning (for example, ???
? ) Add. Similarly, if the end position of the character information unit cannot be detected even if the data is read over an arbitrary number of lines, all the read data will be extracted and displayed, and a symbol that indicates that the end position of the character information unit could not be found. (Eg * ????????) is added at the end. It is convenient to be able to select the arbitrary number of rows depending on the database configuration and the method of using search / extract. As a result, the character information before and after the search character string can be extracted even in the case of a normal electronic book or manual text that is not the database method of the present invention. (B) It is possible to specify the character position from the beginning of the line of the search character string. For example, a character string starting with the third character is searched. This is the same as the column specification function of a general-purpose database. (C) Addition of replacement function A replacement character string for the search character string is defined in advance (for example, the next read data in the database or
Replace the search character string with the replacement character string. This replacement function can be applied to English-Japanese translation, Japanese-English translation, etc., by using the database of FIG. Finally, the partially or completely replaced character string is displayed on the screen by the display / storage unit and stored in the storage device. Now you have a simple translation tool. Since a simple replacement results in an incomplete translated text in which Japanese and English are mixed, a function for preprocessing the replacement is provided so that the replacement can be performed in advance. This preprocessing function is called a dictionary function. The principle is to partially partially replace the terms in the database beforehand. For example, if you replace "arm length" with English, "a
rm length ". This means that if" arm "exists in the database before" arm length "is replaced, part of the arm will be replaced, resulting in" arm length "and" arm length ". This is because the "length" cannot be replaced. Therefore, in the dictionary function, "arm length" is set to "arm length" in advance. (D) Equipped with a simple word processing function Equipped with a simple word processing function to enter two or more columns or to create or change a database (e) Output file save / delete function Extracted character information unit is displayed and output file It can be stored and stored above. If necessary, it can be registered as a database, but if the data in the file becomes larger than necessary, it can be deleted. Recording, deletion, integration function The extracted character information unit can be used as it is as a database, but it is not necessary to create a database for all character information units, so only when necessary, register from the output file. The function to delete the database that has been created and the function to combine the files of two or more databases are provided. (G) Output the output file to the outside The character information unit accumulated and stored in the output file is It has a function to output to a printer, and if it can be read to another word processor or editor as a file output, it can also output to a printer from there. Electronic books and manuals are convenient because you can operate them while checking the search status. Since the search data can be automatically extracted,
Even with a large amount of character data from the outside, if you set the conditions, you can automatically extract the data. Therefore, the estimated operation time should be displayed. The processing unit time of a computer or the like is calculated in advance, and this is multiplied by both the database and the number of retrieved (searched) character data lines to calculate the operation time.

【0005】[0005]

【作用】この方式のデータベースは、どの汎用計算機で
も読める文字データでデータベースを作成し、かつ、文
字データとして無表示のスペースをデータ検出の判定基
準としたため、すべての汎用計算機に共通に使えるデー
タベースとなる。小型の専用計算機にも応用できる。ま
た、この方式は、データの通信方法にも応用できる。検
索文字列でデータ検索をすれば、必要なデータのみ、自
動抽出することができる。抽出したデータがまた新しい
データとして、派生的に利用できる。
[Function] The database of this method is created with character data that can be read by any general-purpose computer, and the non-display space as the character data is used as the criterion for data detection. Become. It can also be applied to small dedicated computers. Further, this method can be applied to a data communication method. By performing a data search using the search character string, only the necessary data can be automatically extracted. The extracted data can be used as a new data derivatively.

【0006】[0006]

【実施例】次の応用例が挙げられる。 (イ)検索文字列を含むデータの抽出 検索文字列を、キーボードまたは外部記憶媒体または装
置から入力し、その文字列がデータベース内に含まれる
かどうかを検索し、あれば、その文字情報単位を自動的
に抽出する。図3のようなデータベースを作れば、英
語、日本語の切り替えなしで、どちらからでも文字デー
タの検索・抽出ができる。 (ロ)外部文書の検索・抽出 データベースの文字列が、キーボードまたは外部記憶媒
体または装置から入力する文字データ内に含まれるかど
うかを検索する。データベースに辞書をおいて文字情報
単位を抽出することにより、自動的に関連の用語集を作
成できる。また電子式の本や説明書の文字列検索・自動
抽出ができる。 (ハ)AND検索 文字情報単位内に、二つ以上の検索文字列が同時に含ま
れる場合のみ検索することも可能である。これを使えば
必要な情報を限定して選択できる。本発明の方式のデー
タベースを使えば、データを自動的に抽出できるので条
件さえ設定しておけば、自動的に希望するデータを抽出
することができる。検索文字列をコードや数字で代用し
データベースに記憶しておき、さらに前述のカラム指定
機能を使えば、検索文字列でなくても、コードや数字で
も検索できるので、メニュー方式に応用できる。 (ニ)英文/和文の相互変換 検索文字列の和文を英文に、英文を和文に置換すること
により、データベースに登録してある用語を使い、英文
和訳および和文英訳ができる。この機能の応用として、
置換されないものを調べることで、文章のチェックもで
きる。目視チェックでもれやすいカタカナ用語のチェッ
クや、用語の統一に役立つ。
EXAMPLES The following application examples can be given. (B) Extraction of data including search character string Input the search character string from the keyboard or external storage medium or device, and search whether the character string is included in the database. Extract automatically. If you create a database as shown in Fig. 3, you can search and extract character data from either of them without switching between English and Japanese. (B) Search / extraction of external document It is searched whether the character string in the database is included in the character data input from the keyboard, external storage medium or device. By storing a dictionary in the database and extracting character information units, a related glossary can be created automatically. You can also search and automatically extract character strings from electronic books and manuals. (C) AND search It is also possible to perform a search only when two or more search character strings are simultaneously included in the character information unit. With this, you can select only the necessary information. Data can be automatically extracted using the database of the method of the present invention, so desired data can be automatically extracted if conditions are set. If you use a code or number instead of the search string to store it in the database and use the column specification function described above, you can search by code or number even if it is not a search string, so it can be applied to the menu system. (D) Mutual conversion of English / Japanese sentence By replacing the Japanese sentence of the search character string with the English sentence and the English sentence with the Japanese sentence, it is possible to use the terms registered in the database to carry out the English-Japanese translation and the Japanese-English translation. As an application of this function,
You can also check the text by checking what is not replaced. This is useful for checking katakana terms that can be easily visually checked and for unifying terms.

【0007】[0007]

【発明の効果】【The invention's effect】

(イ)内蔵または市販のワープロやエディタを使えば、
誰にでもデータベースが簡単にできるので、データベー
スの形式を標準化し、データの共有化が図れる。画像デ
ータも文字データに置き換えて記憶できる。 (ロ)検索した文字列の文字情報単位を自動的に抽出で
きる、AND機能を使うと複数の条件設定ができる。検
索文字列をコードや数字に置き換えるとメニュー方式で
選べる。抽出したデータがまたデータベースになるの
で、新しいデータベースが派生的にできる。 (ハ)この検索・抽出方法を使えば、電子式の本や説明
書の文章の中の文字情報も自動的に抽出できる。 (ニ)この方式をデータの通信方法に応用できる。これ
により必要なデータを自動的に受信できる。 (ホ)置換機能を使えば、簡単な英文和訳または和文英
訳ができる。
(B) If you use a built-in or commercially available word processor or editor,
Since anyone can easily create a database, the format of the database can be standardized and data can be shared. Image data can also be stored by replacing it with character data. (B) A plurality of conditions can be set by using the AND function, which can automatically extract the character information unit of the searched character string. If you replace the search character string with a code or number, you can select it by the menu method. Since the extracted data becomes a database again, a new database can be derived. (C) By using this search / extraction method, the character information in the text of electronic books and manuals can also be automatically extracted. (D) This method can be applied to a data communication method. This allows the necessary data to be received automatically. (E) A simple English-Japanese translation or Japanese-English translation can be performed using the replacement function.

【図面の簡単な説明】[Brief description of drawings]

【図1】文字情報単位の基本構成[Figure 1] Basic configuration of character information unit

【図2】文字情報単位の応用例1FIG. 2 is an application example 1 of character information unit.

【図3】文字情報単位の応用例2FIG. 3 is an application example 2 of character information unit.

【図4】検索・抽出方法の構成図[Figure 4] Configuration diagram of search / extraction method

【符号の説明】[Explanation of symbols]

1 文字情報単位の先頭(スペースでない文字) 2 文字情報単位の終点(スペース) 3 行の途中にあるスペース 4 文字データのない行(キャリッジリターンのみ) 5 検索文字列を含む行を表す *印 6 入力部 7 バッファ 8 文字列検索部 9 文字情報単位の起点・終点検出および抽出部 10 文字情報単位の表示・記憶部 11 本方式のデータベース 12 置換部 1 Start of character information unit (character that is not a space) 2 End point of character information unit (space) 3 Space in the middle of line 4 Line without character data (carriage return only) 5 Line that includes search character string * mark 6 Input unit 7 Buffer 8 Character string search unit 9 Start / end point detection and extraction unit of character information unit 10 Display / storage unit of character information unit 11 Database 12 replacement unit of this method

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】スペースの有無を文字データの起点および
終点検出に使う方式のデータベース等の文字データ記憶
媒体および装置
1. A character data storage medium and device such as a database in which the presence or absence of a space is used to detect the start and end points of character data.
【請求項2】請求項1と組み合わせるデータ検索・抽出
方法
2. A data search / extraction method combined with claim 1.
JP6143761A 1994-05-23 1994-05-23 Easily generated data base and data retrieval/extraction method Pending JPH07319893A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6143761A JPH07319893A (en) 1994-05-23 1994-05-23 Easily generated data base and data retrieval/extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6143761A JPH07319893A (en) 1994-05-23 1994-05-23 Easily generated data base and data retrieval/extraction method

Publications (1)

Publication Number Publication Date
JPH07319893A true JPH07319893A (en) 1995-12-08

Family

ID=15346413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6143761A Pending JPH07319893A (en) 1994-05-23 1994-05-23 Easily generated data base and data retrieval/extraction method

Country Status (1)

Country Link
JP (1) JPH07319893A (en)

Similar Documents

Publication Publication Date Title
JPH1153384A (en) Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
JP2002197104A (en) Device and method for data retrieval processing, and recording medium recording data retrieval processing program
JP3689954B2 (en) Heterogeneous code character string transcription device and electronic dictionary
US5890182A (en) Sentence processing method and apparatus
JP2005182460A (en) Information processor, annotation processing method, information processing program, and recording medium having information processing program stored therein
JP3352799B2 (en) Machine translation method and machine translation device
JPH07319893A (en) Easily generated data base and data retrieval/extraction method
JPS61248160A (en) Document information registering system
JP2002132789A (en) Document retrieving method
JPH0612548B2 (en) Document processor
JP3470930B2 (en) Natural language analysis method and device
JP3693734B2 (en) Information retrieval apparatus and information retrieval method thereof
JP3187671B2 (en) Electronic dictionary display
JPH07334526A (en) Dictionary retrieval and display device
JPH06266765A (en) Sentence retrieving device
JP2000076254A (en) Keyword extraction device, similar document retrieval device using the same, keyword extraction method and record medium
JP3045886B2 (en) Character processing device with handwriting input function
JP2000029882A (en) Summary preparing device
JPH08221443A (en) Method and device for retrieving text including kanji
JPH11203281A (en) Electronic dictionary retrieving device and medium stored with control program for the device
JPH04139579A (en) Word retrieving device
JPH08297659A (en) Character string conversion processing system
JPH06266753A (en) Word processor
JPH0232455A (en) Item extracting system
JPH01194063A (en) Document file contents forming system