JPH0251764A - Index production system - Google Patents

Index production system

Info

Publication number
JPH0251764A
JPH0251764A JP63202869A JP20286988A JPH0251764A JP H0251764 A JPH0251764 A JP H0251764A JP 63202869 A JP63202869 A JP 63202869A JP 20286988 A JP20286988 A JP 20286988A JP H0251764 A JPH0251764 A JP H0251764A
Authority
JP
Japan
Prior art keywords
index
production
index generation
language
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63202869A
Other languages
Japanese (ja)
Inventor
Motohiro Akaishizawa
元博 赤石沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63202869A priority Critical patent/JPH0251764A/en
Publication of JPH0251764A publication Critical patent/JPH0251764A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To realize the production of an index with high efficiency by replacing again the production item of a produced index with the original language and obtaining a desired index. CONSTITUTION:The original sentences, i.e., the index production subjects and the index production items are translated into a processing language for an index production means 4. At the same time, the special symbols are put into the positions corresponding to the breaks of pages. The means 4 checks whether a prescribed index production item is included in a document or not via a translation means 3. If so, the number of emerging pages is acquired by the special symbol and based on the original sentence for production of an index. The index production items of the produced index are replaced again with the original language for production of an index where the correspondence is secured between the index production items expressed in the original language and the number of pages.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は文書中の所定の項目(索引生成項目)に対して
その索引生成項目の所在するページ数(ページ番号)を
示す索引を生成する索引生成方式に関するものである。
[Detailed Description of the Invention] (Industrial Application Field) The present invention generates an index indicating the number of pages (page number) on which the index generation item is located for a predetermined item (index generation item) in a document. This relates to an index generation method.

〔従来の技術〕[Conventional technology]

従来、この種の索引生成方式は、対象となる文書を計算
機中に文字列として取り込み、その上で所定の索引生成
項目についての検索等の処理を行い、その索引生成項目
の出現するページ数を得て索引を生成していた。すなわ
ち、文書が日本語であれば日本語のまま処理を行い、英
語であれば英語のまま処理を行っていた。
Conventionally, this type of index generation method imports the target document into a computer as a character string, performs processing such as searching for a predetermined index generation item, and calculates the number of pages in which the index generation item appears. was generating an index. That is, if the document is in Japanese, it is processed in Japanese, and if it is in English, it is processed in English.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

ところで、上記の索引を生成するための検索においては
、対象となる文書の言語によりて処理に差異があり、言
語によっては非常に効率の悪い処理を行わなければなら
ないという欠点があった。
By the way, in the above-mentioned search for generating an index, processing differs depending on the language of the target document, and there is a drawback that depending on the language, very inefficient processing must be performed.

すなわち、例えば英語では、ある単語を検索する場合に
、単語と単語とが空白で区切られているため、単語の頭
からマツチングして行き、違う文字が出たら次の単語の
頭まで読み飛ばすといった簡易な処理を行うことができ
、単語の内部に疑わしいパターンがあってもそれに惑わ
されることなく高速に処理を実行することができるが、
日本語では語と語との切れ目がないため、このような処
理が行えず、より’tinな処理を行わなければならな
いものであった。
For example, in English, when searching for a word, the words are separated by spaces, so matching starts from the beginning of the word, and if a different letter is found, skipping to the beginning of the next word. It can perform simple processing, and even if there is a suspicious pattern inside a word, it can perform processing at high speed without being confused by it.
In Japanese, there are no breaks between words, so this type of processing cannot be performed, and a more complex process must be performed.

このように各言語の文字的な諸性質によって処理速度が
まちまちであり、安定した効率の良い索引生成が行えな
いという欠点があった。
As described above, the processing speed varies depending on the character characteristics of each language, and there is a drawback that stable and efficient index generation cannot be performed.

本発明は上記の点に鑑み提案されたものであり、その目
的とするところは、文書の言語によらず効率の良い索引
生成の行える索引生成方式を提供することにある。
The present invention has been proposed in view of the above points, and its purpose is to provide an index generation method that can efficiently generate an index regardless of the language of the document.

〔課題を解決するための手段〕[Means to solve the problem]

本発明は上記の目的を達成するため、索引作成の対象と
なる文書の原文および索引生成項目を処理の容易な処理
用言語に翻訳すると共に、原文のページの切れ目に対応
する位置に特殊記号を挿入する翻訳手段と、 訳文中に索引生成項目が含まれているか否かを検索する
と共に、含まれている場合に索引生成項目の出現するペ
ージ数を、特殊記号により原文を基準に獲得して索引を
生成し、生成した索引の索引生成項目を再び原文の言語
に置換する索引生成手段とを備えるようにしている。
In order to achieve the above object, the present invention translates the original text of a document to be indexed and index generation items into a processing language that is easy to process, and also adds special symbols at positions corresponding to page breaks in the original text. Search for the translation means to insert and whether or not the translated text contains index generating items, and if it is included, obtain the number of pages where the index generating items appear based on the original text using special symbols. The apparatus also includes an index generation means for generating an index and replacing the index generation items of the generated index with the language of the original text again.

〔作用〕[Effect]

本発明の索引生成方式にあっては、翻訳手段が、索引作
成の対象となる文書の原文および索引生成項目を処理の
容易な処理用言語に翻訳すると共に、原文のページの切
れ目に対応する位置に特殊記号を挿入し、索引生成手段
が、訳文中に索引生成項目が含まれているか否かを検索
すると共に、含まれている場合に索引生成項目の出現す
るページ数を、特殊記号により原文を基準に獲得して索
引を生成し、生成した索引の索引生成項目を再び原文の
言語に置換して、所望の索引を得る。
In the index generation method of the present invention, the translation means translates the original text of the document to be indexed and the index generation items into a processing language that is easy to process, and also translates the original text of the document to be indexed and the index generation items into a processing language that is easy to process, and at the same time The index generation means searches whether or not the index generation item is included in the translated text, and if it is included, the number of pages in which the index generation item appears is displayed in the original text using the special symbol. An index is generated based on the index, and the index generation items of the generated index are replaced again with the language of the original text to obtain a desired index.

〔実施例〕〔Example〕

以下、本発明の実施例につき図面を参照して説明する。 Embodiments of the present invention will be described below with reference to the drawings.

第1図は本発明の索引生成方式の一実施例である索引生
成装置の全体的な構成図である。第1図において、1は
キーボードの如き原文人力手段であり、索引生成の対象
となる文書がここから人力されるものである#2は対訳
蓄積手段であり、原文人力手段1から入力された文書の
原文、および後述する翻訳手段3により翻訳された訳文
等が蓄積されるものである。翻訳手段3は周知の翻訳機
構により所定の言語間で翻訳を実行するものであり、本
発明では特に索引生成の対象となる文書の原文および索
引生成項目を後述の索引生成手段4における処理が容易
となる言語(処理用言語)に翻訳すると共に、原文のペ
ージの切れ目に対応する位置に訳文中の他の箇所で用い
られることのないような特殊記号を挿入するものである
。なお、原文のページの切れ目に対応する位置に特殊記
号を挿入するのは、原文と訳文とでは文書量が異なり、
ページ数が異なってしまうため、訳文から原文のページ
数を認識することができるようにするためである。また
、本発明の効果を高めるため、翻訳手段3はできるだけ
多くの言語間で翻訳が行えることが好ましい。
FIG. 1 is an overall configuration diagram of an index generation device which is an embodiment of the index generation method of the present invention. In FIG. 1, numeral 1 is an original human input means such as a keyboard, from which the documents to be indexed are input manually. #2 is a bilingual translation storage means, from which documents input from the original human input means 1 are input. The original text and the translated text translated by the translation means 3, which will be described later, are stored. The translation means 3 executes translation between predetermined languages using a well-known translation mechanism, and in the present invention, in particular, the original text of the document to be indexed and the index generation items can be easily processed by the index generation means 4, which will be described later. In addition to translating the translated text into a language (processing language), it also inserts special symbols that are not used elsewhere in the translated text at positions corresponding to page breaks in the original text. Note that inserting special symbols at positions corresponding to page breaks in the original text is difficult because the amount of documents in the original text and the translated text are different.
This is to make it possible to recognize the page number of the original text from the translated text, since the number of pages will be different. Further, in order to enhance the effects of the present invention, it is preferable that the translation means 3 can translate between as many languages as possible.

一方、索引生成手段4は翻訳手段3により処理用言語に
翻訳された索引生成の対象となる文書中に所定の索引生
成項目(文書と同じ言語に翻訳されている。)が含まれ
ているか否かを検索すると共に、含まれている場合に索
引生成項目の出現するページ数を、特殊記号により原文
を基準に獲得して索引を生成し、生成した索引の索引生
成項目を再び原文の言語に置換し、原文の言語による索
引生成項目とページ数とを対応させた索引を生成するも
のである。また、5は処理結果の表示および編集の指示
を行うための表示・編集手段、6は生成された索引およ
び訳文等のプリントアウト等を行う出力手段である。
On the other hand, the index generation means 4 determines whether or not a predetermined index generation item (translated into the same language as the document) is included in the document to be indexed which has been translated into the processing language by the translation means 3. At the same time, if it is included, the number of pages in which the index generation item appears is obtained based on the original text using special symbols, an index is generated, and the index generation item of the generated index is converted back into the original language. This is to generate an index in which the index generation items in the language of the original text correspond to the number of pages. Further, 5 is a display/editing means for displaying processing results and instructing editing, and 6 is an outputting means for printing out the generated index, translated text, etc.

以下、第2図に示す索引生成の手順のフローチャートに
従って上記の実施例の動作を説明する。
The operation of the above embodiment will be described below in accordance with the flowchart of the index generation procedure shown in FIG.

なお、索引生成の対象となる文書が原文人力手段lから
既に入力され、対訳蓄積手段2に蓄積されているものと
する。
It is assumed that the document to be indexed has already been input from the original human resource means 1 and stored in the bilingual translation storage means 2.

今、入力された文書の原文(例えば日本語)に対して索
引を作成する場合を考える。なお、原文と異なる言語に
翻訳した訳文に対して索引を生成する場合には、その訳
文を以下に説明する[原文)とすればよい。
Now, consider the case where an index is created for the original text (for example, Japanese) of an input document. Note that when an index is generated for a translated text translated into a language different from the original text, the translated text may be used as the [original text] described below.

さて、処理が開始されると、先ず、翻訳手段3は原文を
後の索引生成手段4において処理が容易な処理用言語(
例えば英語)に翻訳すると共に、訳文上の原文のページ
の切れ目に対応する位置に特殊記号(例えば”*))を
挿入する(ステップ11)。なお、第3図の上段にその
具体例を示しである。
Now, when the processing starts, the translation means 3 first sends the original text to the later index generation means 4 in a processing language (
At the same time, a special symbol (for example, "*") is inserted in the translated text at the position corresponding to the page break in the original text (step 11).A specific example is shown in the upper part of Figure 3. It is.

次いで、翻訳手段3は所定の索引生成項目を同じ処理用
言語に翻訳する(ステップ12)、なお、文書の原文と
同じ翻訳手段3により翻訳が行われるため、文B中に用
いられているのと同じ用語は同じ単語に翻訳されるもの
である。この状態を第3図の中段に示しである。
Next, the translation means 3 translates the predetermined index generation items into the same processing language (step 12). Note that since the translation is performed by the same translation means 3 as the original text of the document, the The same terms are translated into the same words. This state is shown in the middle part of FIG.

その後、索引生成手段4は翻訳によって得られた訳文に
対し翻訳された索引生成項目を用いて検索を実行し、索
引生成項目の出現するページ数を、特殊記号により原文
を基準に獲得する(ステップ13)、第3図においては
、索引生成項目rexLended  memory 
 uniJは訳文上では第2ページ(P2)に存在する
が、特殊記号「*」によって原文の第1ページ(PI)
に存在することがわかるため、ページ数はr 1 。
Thereafter, the index generation means 4 searches the translated text using the translated index generation items, and obtains the number of pages in which the index generation items appear based on the original text using special symbols (step 13), in FIG. 3, the index generation item rexLended memory
uniJ exists on the second page (P2) in the translation, but the special symbol "*" makes it appear on the first page (PI) of the original text.
The number of pages is r 1 .

とされる。なお、特殊記号は索引生成手段4で使用され
るページ数のカウントのプログラムで認識可能な改行記
号等に変換されて用いられる。しかして、これらの処理
により、訳文上での索引が生成される。
It is said that Note that the special symbol is converted into a line feed symbol or the like that can be recognized by the page counting program used by the index generating means 4. Through these processes, an index on the translated text is generated.

次いで、索引生成手段4は生成した索引の索引生成項目
を再び原文の3語に置換し、原文における索引を生成す
る(ステップ14)。この状態を第3図の下段に示しで
ある。
Next, the index generation means 4 replaces the index generation items of the generated index with the three words of the original text again, and generates an index for the original text (step 14). This state is shown in the lower part of FIG.

そして、生成された索引を出力手段6等によりプリント
アウトしくステップ15)、処理を終了する。なお、訳
文についても表示・編集手段5゜出ツノ手段6等により
表示・出力することが可能であるが、その場合には特殊
記号については表示あるいは出力されないように変換す
る必要がある。
Then, the generated index is printed out using the output means 6 or the like (step 15), and the process ends. Note that the translated text can also be displayed and output by the display/editing means 5, the output horn means 6, etc., but in that case, it is necessary to convert the special symbols so that they are not displayed or output.

〔発明の効果] 以上説明したように、本発明の索引生成方式にあっては
、索引生成の処理を最も容易に行える言語で実行するた
め、各言語に存在する処理上の特性にとられれることな
く、最も都合のよい言語の性質を利用でき、より高速な
処理をすることができる効果がある。特に、多言語間翻
訳システム等において原文を複数の言語に翻訳する際に
同時に索引を生成する場合には、訳文の中から最適な言
語を選択して索引生成を実行することにより、索引生成
に要する処理時間をいっそう短縮することができる。
[Effects of the Invention] As explained above, in the index generation method of the present invention, in order to execute index generation processing in the language that can be performed most easily, processing characteristics existing in each language are taken into consideration. This has the effect of making it possible to utilize the most convenient properties of the language without having to do so, resulting in faster processing. In particular, when generating indexes at the same time when translating a source text into multiple languages in a multilingual translation system, etc., it is possible to select the most suitable language from the translated text and execute index generation. The required processing time can be further reduced.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の索引生成方式の一実施例である索引生
成装置の構成図、 第2図は索引生成の手順を示すフローチャートおよび、 第3図は索引生成の具体例を示す図である。 図において、1・・・原文人力手段、2・・・対訳蓄積
手段、3・・・翻訳手段、4・・・索引生成手段、5・
・・表示・&H集千手段6・・・出力手段、11〜15
・・・ステップ。 実施例の構成図 第1図
FIG. 1 is a block diagram of an index generation device which is an embodiment of the index generation method of the present invention, FIG. 2 is a flowchart showing the procedure of index generation, and FIG. 3 is a diagram showing a specific example of index generation. . In the figure, 1... Original human resource means, 2... Bilingual translation storage means, 3... Translation means, 4... Index generation means, 5.
・・Display・&H collection means 6 ・・Output means, 11 to 15
...step. Configuration diagram of the example Fig. 1

Claims (1)

【特許請求の範囲】 索引作成の対象となる文書の原文および索引生成項目を
処理の容易な処理用言語に翻訳すると共に、原文のペー
ジの切れ目に対応する位置に特殊記号を挿入する翻訳手
段と、 訳文中に索引生成項目が含まれているか否かを検索する
と共に、含まれている場合に索引生成項目の出現するペ
ージ数を、特殊記号により原文を基準に獲得して索引を
生成し、生成した索引の索引生成項目を再び原文の言語
に置換する索引生成手段とを備えたことを特徴とする索
引生成方式。
[Claims] Translation means that translates the original text of a document to be indexed and index generation items into a processing language that is easy to process, and inserts special symbols at positions corresponding to page breaks in the original text. , searches to see if the translated text contains an index generating item, and if it does, generates an index by obtaining the number of pages in which the index generating item appears using special symbols based on the original text; An index generation method comprising an index generation means for replacing the index generation items of the generated index with the language of the original text again.
JP63202869A 1988-08-15 1988-08-15 Index production system Pending JPH0251764A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63202869A JPH0251764A (en) 1988-08-15 1988-08-15 Index production system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63202869A JPH0251764A (en) 1988-08-15 1988-08-15 Index production system

Publications (1)

Publication Number Publication Date
JPH0251764A true JPH0251764A (en) 1990-02-21

Family

ID=16464543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63202869A Pending JPH0251764A (en) 1988-08-15 1988-08-15 Index production system

Country Status (1)

Country Link
JP (1) JPH0251764A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010527051A (en) * 2007-03-30 2010-08-05 グーグル・インコーポレーテッド Document processing for mobile devices

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010527051A (en) * 2007-03-30 2010-08-05 グーグル・インコーポレーテッド Document processing for mobile devices

Similar Documents

Publication Publication Date Title
US5303150A (en) Wild-card word replacement system using a word dictionary
JPH0689304A (en) Method and apparatus for preparing text used by text processing system
US5075851A (en) System for translating a source language word with a prefix into a target language word with multiple forms
JP2000194721A (en) Device and method for classifying document group
JPH0251764A (en) Index production system
Obrebski et al. UAM Text Tools-a flexible NLP architecture.
JP2838984B2 (en) General-purpose reference device
JPH0225215B2 (en)
JP2715419B2 (en) Translation equipment
KR100204068B1 (en) Language translation modified method
JP2894064B2 (en) Machine translation equipment
JP3244286B2 (en) Translation processing device
JPH08241319A (en) Machine translation system
JPH0778166A (en) Translating method and machine translation system
JP2786211B2 (en) Post-editing device in machine translation equipment
JPH05165889A (en) Document retrieval device
JPH03156664A (en) Kanji conversion system
JP2006134051A (en) Translation device, translation method and program
JPH03164865A (en) Machine translation device
JPH08297671A (en) Quick read supporting device for document
JPS63156275A (en) Automatic kana and katakana name dictionary adding system
JPH07182344A (en) Machine translation system
JPS6366665A (en) Document analyzing/shaping device
JPH11238060A (en) Natural language processor
JPH06119379A (en) System and method for machine translation provided with reading kana @(3754/24)japanese syllabary) attaching function