JPH04191959A - Paragraph segmenting device - Google Patents

Paragraph segmenting device

Info

Publication number
JPH04191959A
JPH04191959A JP2324937A JP32493790A JPH04191959A JP H04191959 A JPH04191959 A JP H04191959A JP 2324937 A JP2324937 A JP 2324937A JP 32493790 A JP32493790 A JP 32493790A JP H04191959 A JPH04191959 A JP H04191959A
Authority
JP
Japan
Prior art keywords
sentence
character
character type
code
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2324937A
Other languages
Japanese (ja)
Inventor
Shigeki Kuga
空閑 茂起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2324937A priority Critical patent/JPH04191959A/en
Publication of JPH04191959A publication Critical patent/JPH04191959A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To simplify a device and to speed up a processing by successively storing character type decision result and storing a sentence while inserting the paragraph segmentation position information in a read sentence based on the changed point of stored character type and punctuations. CONSTITUTION:When a unit of segmentation processing, for example, a sentence is segmented from a sentence stored in a sentence storage means 1, the type of character for each character constituting the sentence is decided by a character type decision means 4, and the decision result is successively stored in a decision result storage means 5. Then a paragraph segmentation position insertion means 6 inserts information indicating the paragraph segmentation position at the changing point, for example, from KANA(Japanese syllabary) to KANJI (Chinese character) against the decided character type string, and the paragraph segmentation position information stores the inserted sentence in a storage means 7 to output the result to an output means 8. Thus, the constitution of the device is simplified since a dictionary is not used, and the paragraph segmentation processing and keyword retrieval processing are speeded up.

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は文節切り出し装置に関し、詳しくはワードプ
ロセッサ、翻訳装置、校正装置、データベースを利用す
る装置等のように言語処理を行う装置に好適な文節切り
出し装置に関する。
DETAILED DESCRIPTION OF THE INVENTION (a) Industrial Application Field The present invention relates to a phrase segmentation device, and more specifically, it is suitable for language processing devices such as word processors, translation devices, proofreading devices, devices using databases, etc. This invention relates to a phrase extraction device.

(ロ)従来の技術 文節区切りの情報が挿入されていない変換済みの日本語
文書から、例えば翻訳や校正のために文節を切り出すた
めには、従来、自立語辞書、付属語辞書、接辞辞書等の
辞書類と、それらの要素の接続関係を表すテーブル、文
法テーブル等のテーブル類をそれぞれ参照しながら文節
の切り出しを行っていた。
(b) Conventional technology In order to extract phrases from a converted Japanese document in which phrase separation information has not been inserted, for example, for translation or proofreading, it is necessary to use independent word dictionaries, attached word dictionaries, affix dictionaries, etc. The phrases were extracted by referring to dictionaries, tables showing the connections between these elements, grammar tables, and other tables.

(ハ)発明が解決しようとする課題 このような、辞書類、テーブル類を利用する従来の文節
切り出し装置においては、(1)それらの辞書、テーブ
ルを蓄積するために大量の記憶装置が必要になる。(2
)辞書検索またはテーブル検索を行うために文節切り出
し処理の時間が長くなる。
(c) Problems to be solved by the invention In the conventional phrase extraction device that uses dictionaries and tables, (1) a large amount of storage device is required to store the dictionaries and tables; Become. (2
) The phrase extraction process takes a long time to perform a dictionary search or table search.

(3)文節切り出しのための制御プログラムが複雑にな
る等の問題があった。
(3) There were problems such as a complicated control program for segmentation.

この発明は以上の事情を考慮してなされたもので、上記
問題を解消しうる文節切り出し装置を掛供する。
The present invention has been made in consideration of the above-mentioned circumstances, and provides a phrase cutting device that can solve the above-mentioned problems.

(ニ)課題を解決するための手段 第1図はこの発明の基本構成を明示するブロック図であ
る。同図において、この発明は、文章を蓄積する文章蓄
積手段1と、文章蓄積手段lから所望の文を読み出すた
めの指示を行う指示手段2と、指示された文を文意蓄積
手段1から読み出す読出手段3と、読み出した文につい
て1文字ずつ漢字、ひらがな、カタカナなどの字種を判
別するとともに句点を判別する字種判別手段4と、字種
判別手段4による判別結果を順次蓄積する判別結果蓄積
手段5と、判別結果蓄積手段5に蓄積された字種の変移
点、句点に基づいて、読み出しに文中に文節の切り出し
位置情報を挿入する切り出し位置挿入手段6と、切り出
し位置情報が挿入された文を記憶する記憶手段7と、切
り出し位置情報が挿入されε文を出力する出力手段8と
からなる文節切り出し装置である。
(d) Means for Solving the Problems FIG. 1 is a block diagram showing the basic configuration of the present invention. In the figure, the present invention includes a sentence storage means 1 for storing sentences, an instruction means 2 for instructing to read a desired sentence from the sentence storage means 1, and a command means 2 for reading the instructed sentence from the sentence meaning storage means 1. A reading means 3, a character type discriminating means 4 that discriminates the character type of each read sentence, such as kanji, hiragana, katakana, etc., as well as a period, and a discrimination result that sequentially accumulates the discrimination results by the character type discriminating means 4. an accumulating means 5; a cutting-out position inserting means 6 for inserting segment cut-out position information into a sentence in reading based on the transition points and punctuation points of character types accumulated in the discrimination result accumulating means 5; This phrase extraction device is composed of a storage means 7 for storing the extracted sentence, and an output means 8 for outputting the ε sentence into which the extraction position information is inserted.

この発明における文節切り出し装置は、ワードプロセッ
サ、翻訳装置、校正装置、データベースを利用する装置
等に適用することができ、また、文章を音声出力する装
置においてら文節切り出し処理が必要なため、この発明
を適用することができる。
The phrase extraction device of the present invention can be applied to word processors, translation devices, proofreading devices, devices that use databases, etc. Furthermore, since phrase extraction processing is required in devices that output sentences as audio, the phrase extraction device of the present invention is applicable to word processors, translation devices, proofreading devices, devices that use databases, etc. Can be applied.

(ホ)作用 この発明に従えば、文章蓄積手段lに蓄積されている文
章から、切り出し処理の単位、例えば1文を切り出すと
、その文を構成する各文字の字種が字種判別手段4によ
って判別され、その判別結果が判別結果蓄積手段5に順
次蓄積される。次いで切り出し位置挿入手段6は、その
判別された字種列に対して、例えば仮名から漢字の変わ
り目に文節の切り出し位置を表す情報を挿入し、切り出
し位置情報が挿入された文を記憶手段7に記憶させ、そ
の結果を出力手段8に出力するよう作用する。
(e) Operation According to the present invention, when a unit of extraction processing, for example, one sentence, is extracted from the sentences stored in the sentence storage means l, the character type of each character constituting the sentence is determined by the character type determination means 4. The determination results are sequentially stored in the determination result storage means 5. Next, the cut-out position insertion means 6 inserts information representing the cut-out position of the phrase at the transition from kana to kanji, for example, to the determined character type string, and stores the sentence into which the cut-out position information has been inserted into the storage means 7. It acts to store the results and output them to the output means 8.

(へ)実施例 以下図に示す実施例に基づいてこの発明を詳述する。な
お、これによってこの発明は限定されるものではない。
(F) EXAMPLES The present invention will be described in detail below based on examples shown in the figures. Note that this invention is not limited by this.

第2図はこの発明をワードプロセッサに適用した第1の
実施例を示す構成図である。同図において9はワードプ
ロセッサ本体である。lOは文章蓄積手段としての文章
蓄積装置であり、外1記壇装置としての例えばフローt
ピーディスク、ハードディスク、あるいは内部記憶装置
としての例えばRAM、あるいはその他の蓄積装置とし
ての例えばデータベース等から構成することができ、か
な漢字交じり文からなる日本語文書が蓄積されている。
FIG. 2 is a block diagram showing a first embodiment in which the present invention is applied to a word processor. In the figure, 9 is the main body of the word processor. lO is a text storage device as a text storage means, and an external platform device such as flow t
It can be configured from a PC disk, a hard disk, an internal storage device such as a RAM, or another storage device such as a database, in which Japanese documents consisting of sentences mixed with kana and kanji are stored.

11は指示手段としてのキーボードであり、文章編集、
文章校正等を行うための文字入カキ−1各種の指示キー
等を備えており、文章を入力するとともに、文章蓄積装
置10から所望の文を読み出すための指示を入力する。
11 is a keyboard as an instruction means, text editing,
Character input key 1 for proofreading etc. It is equipped with various instruction keys, etc., and is used to input sentences and input instructions for reading a desired sentence from the sentence storage device 10.

12はCPU13と共働する読出装置であり、キーボー
ド11にて指示された文を文章蓄積装置10から読み出
す。14はCPUl3と協働する字種判別装置であり、
文章蓄積装置10から読み出した文について、1文字ず
つ漢字、ひらがな、カタカナ等の字種を判別するととも
に、句点を判別する。15は判別結果蓄積手段および記
憶手段としての結果蓄積装置であり、RAMから構成さ
れ、字種判別装置I4による判別結果を順次蓄積すると
ともに、後述する切り出し位置挿入装置によって切り出
し位置情報が挿入された文を記憶する。切り出し位置挿
入装置16は、CPU13と協働し、結果蓄積装置15
に蓄積された字種の変移点、句点に基づいて、読み出し
73文中に文節の切り出し位置情報を挿入する。17は
出力制御部18を介してCPUl3と接続される出力手
段としての表示装置であり、CRTやLCD等のドブト
マトリクスタイブの表示装置から構成され、切り出し位
置情報が挿入された文を表示する。
Reference numeral 12 denotes a reading device which works together with the CPU 13, and reads out a sentence instructed by the keyboard 11 from the text storage device 10. 14 is a character type discrimination device that cooperates with CPU13,
Regarding the sentences read out from the sentence storage device 10, character types such as kanji, hiragana, katakana, etc. are determined for each character, and punctuation marks are determined. Reference numeral 15 denotes a result storage device as a discrimination result storage means and storage means, which is composed of a RAM, and sequentially stores the discrimination results by the character type discriminator I4, and inserts cutout position information by a cutout position insertion device to be described later. Memorize sentences. The cutout position insertion device 16 cooperates with the CPU 13, and the result storage device 15
Based on the transition points and punctuation points of the character types stored in , the segment cutout position information is inserted into the reading 73 sentence. Reference numeral 17 denotes a display device as an output means connected to the CPU 13 via the output control unit 18, and is composed of a dot matrix type display device such as a CRT or LCD, and displays sentences in which cutout position information has been inserted. .

このような構成において、例文「特許庁に出す特許をワ
ープロで作成し電子出願する。」を用い、第8図に示す
フローチャートにしたがって第1の実施例による文節切
り出し処理を説明する。
In such a configuration, the clause extraction process according to the first embodiment will be explained using the example sentence "Create a patent to be submitted to the Japan Patent Office using a word processor and file it electronically" according to the flowchart shown in FIG.

第3図は文章ファイル、その他のデータベース等か蓄積
された文章蓄積装置10から処理の単位に合わせて例え
ば1文を切り出し、結果蓄積装置15に蓄積し1こ状態
を示している。このように、例えば1文、1段落、1章
などのように、処理単位に合わせ、文章蓄積装置10か
ら所望の文が読み出されると(ステップ30)、その文
を構成している字種のコードが判別される(ステップ3
1)。
FIG. 3 shows a state in which, for example, one sentence is cut out from the text storage device 10 in which text files, other databases, etc. are stored, in accordance with the unit of processing, and stored in the result storage device 15. In this way, when a desired sentence is read out from the sentence storage device 10 in accordance with the processing unit, such as one sentence, one paragraph, one chapter, etc. (step 30), the character types that make up the sentence are read out. The code is determined (step 3
1).

詳しくは、読み出された文の各文字にはJESコードな
どの固有の文字コードが割り当てられているため、その
文字コードを、第4図に示すコード判別テーブルの各条
件とを照合することにより、字種を判別する。条件にお
いてCCは字種判別対象の文字であり、&lとblは漢
字コードの先頭および終端を表し、a2とb2はひらが
なコードの先頭および終端を表し、a3とb3はカタカ
ナコードの先頭および終端を表し、a4は句点を表して
いる。
Specifically, each character in the read sentence is assigned a unique character code such as the JES code, so by comparing that character code with each condition in the code discrimination table shown in Figure 4, , determine the character type. In the conditions, CC is the character to be distinguished, &l and bl represent the beginning and end of the kanji code, a2 and b2 represent the beginning and end of the hiragana code, and a3 and b3 represent the beginning and end of the katakana code. A4 represents a period.

例文の字種を判別した結果を第5図に示す。ここに、「
漠」、「ひ」、「力」、「句」はそれぞれ漢字コード、
ひらがなコード、カタカナコード、句点コードであるこ
とを示す記号である。この判別結果は結果蓄積装置15
に蓄積される(ステップ32)。
FIG. 5 shows the results of determining the character type of the example sentences. Here,"
``boku'', ``hi'', ``chiri'', and ``ku'' are respectively kanji codes,
This symbol indicates a Hiragana code, Katakana code, or period code. This determination result is stored in the result storage device 15.
(step 32).

次に蓄積された字種コードの内容を、第6図に示す切り
出し判別テーブルの判別点を参照することにより、文節
の切り出し位置を判別する(ステップ33)。すなわち
、(1)ひらがなから漢字への変移点でキーワードの切
れ目(文節の切れ目)を入れる。(2)ひらがなからカ
タカナへの変移点でキーワードの切れ目を入れる。(3
)句点の次ぎにキーワードの切れ目を入れる。
Next, by referring to the contents of the accumulated character type codes and the determination points in the extraction determination table shown in FIG. 6, the extraction position of the clause is determined (step 33). That is, (1) a keyword break (a clause break) is inserted at the transition point from hiragana to kanji. (2) Add a keyword break at the transition point from hiragana to katakana. (3
) Insert a keyword break after the period.

次いで、切り出し判別テーブルの処理にしたがって文節
の切れ目に切り出し記号、例えば「/」を挿入し、その
結果を結果蓄積装置15に蓄積する(ステップ34)。
Next, a cutting symbol, for example "/", is inserted at the break of the clause according to the processing of the cutting discrimination table, and the result is stored in the result storage device 15 (step 34).

そして切り出し記号が挿入された文を表示装置t7の画
面上に表示する。上記した文節切り出し処理によって得
られた結果を第7図に示す。
The sentence into which the cutout symbol has been inserted is then displayed on the screen of the display device t7. FIG. 7 shows the results obtained by the phrase extraction process described above.

次いで終了条件がn、 oであれば、すなわち次ぎに文
節切り出しを行うべき文があれば、次の文を文章蓄積装
置10から読み出す処理を行い、また、蓄積する位置が
重複しないように制御を行う(ステップ35)。
Next, if the end condition is n or o, that is, if there is a sentence to be segmented next, the next sentence is read out from the sentence storage device 10, and control is performed so that the storage positions do not overlap. (Step 35).

ステップ35においてyes、すなわち、切り出し処理
を行う対象がなくなれば、必要とする情報を結果蓄積装
置15に蓄積し、処理を終了する(ステップ36)。
If YES in step 35, that is, there are no more targets to be cut out, the necessary information is stored in the result storage device 15, and the process ends (step 36).

次に第2の実施例として、字種をデジタル値に変換した
結果を利用して文節を切り出す構成を第9図に基づいて
説明する。なお、第1図と同じ構成部分については同一
符号を付して説明を省略する。同図において、40はC
PU13と協働する字種デジタル化装置であり、字種判
別装置14による字種の判別結果としての漢字およびカ
タカナに対しては第1のコード、具体的には“H“を付
し、ひらがなおよび句点に対しては第2のコード、具体
的には“L”を付し、それにより字種判別結果を2種類
のコード“H”または“L”のいずれかに変換する。
Next, as a second embodiment, a configuration for cutting out phrases using the result of converting character types into digital values will be described with reference to FIG. Note that the same components as in FIG. 1 are designated by the same reference numerals, and the description thereof will be omitted. In the same figure, 40 is C
This is a character type digitization device that works together with the PU 13, and assigns a first code, specifically "H", to kanji and katakana as a result of character type discrimination by the character type discrimination device 14, and hiragana and katakana. A second code, specifically "L", is attached to the period and the period, thereby converting the character type discrimination result into one of two types of codes: "H" or "L".

結果蓄積装置41は、字種判別結果であるコード“H゛
、“L”の記号列を記憶する。切り出し位置挿入装置4
2は、コード“H”、“L”の変移点に基づいて、読み
出した文中に文節の切り出し位置情報を挿入する。
The result storage device 41 stores symbol strings of codes “H” and “L” which are the character type discrimination results.The cutout position insertion device 4
2 inserts segment segmentation position information into the read sentence based on the transition points of codes "H" and "L".

このような構成において、第2の実施例による文節切り
出し処理を、第1の実施例と同じ例文を用い%第13図
のフローチャートにしr二がって説明する。
In such a configuration, the phrase extraction process according to the second embodiment will be explained using the same example sentences as in the first embodiment and with reference to the flowchart of FIG. 13.

例えば1文、1段落、1章などのように、処理単位に合
わせ、文章蓄積装置10から所望の文か読み出されると
(ステップ50)、字種コードが判別される(ステップ
51)。読み出された文の各文字にはJISコードなど
の固有の文字コードが割り当てられている1こめ、その
文字コードと第4図に示すコード判別表の各条件とを照
合することにより、字種が判別される。判別されfこ字
種コードは結果蓄積装置41に蓄積され(ステップ52
)、デジタル化が行われる(ステップ53)。
When a desired sentence is read out from the text storage device 10 according to the processing unit, such as one sentence, one paragraph, or one chapter (step 50), the character type code is determined (step 51). Each character in the read sentence is assigned a unique character code such as a JIS code, and the character type is determined by comparing that character code with each condition in the code discrimination table shown in Figure 4. is determined. The determined f-character type code is stored in the result storage device 41 (step 52).
), digitization is performed (step 53).

第10図に、判別された出力コードをデジタル化するた
めに参照されるコードデジタル化テーブルを示す。すな
わち、字種が漢字と判別されると“H”に変換され、ひ
らがなと判別されると“L”に変換され、同じくカタカ
ナは“Hoに、句は′″L°にそれぞれ変換される。コ
ードデジタル化テーブルとの照合により文をデジタル化
し1こ結果は、第11図に示す記号列にて結果蓄積装置
4Iに記憶される。なお、第11図においては説明上、
字種コードの判別結果も併せて示している。
FIG. 10 shows a code digitization table that is referenced to digitize the determined output code. That is, if the character type is determined to be a kanji, it is converted to "H", if it is determined to be hiragana, it is converted to "L", and similarly, katakana is converted to "Ho" and phrase is converted to ``''L°. The sentence is digitized by comparison with the code digitization table, and the result is stored in the result storage device 4I as a symbol string shown in FIG. In addition, in FIG. 11, for explanation purposes,
The results of character type code discrimination are also shown.

次にデジタル化しrこ結果を、第12[Kに示す切り出
し判別テーブルと照合し、文節切り出し位置を判別する
(ステップ54)。切り出し位置の判別は、(1)デジ
タル出力における“L“と“H”の変移点でキーワード
(文節)の切れ目を入れる。(2)句点の次にキーワー
ドの切れ目を入れることにより判別される。
Next, the digitized result is compared with the cutout determination table shown in the 12th [K, and the phrase cutout position is determined (step 54). To determine the cutting position, (1) insert a break in the keyword (phrase) at the transition point between "L" and "H" in the digital output. (2) Identification is made by inserting a keyword break next to a period.

次に、切り出し判別テーブルとの照合による切り出し位
置の判別に基づいて切り出し記号、例えば「/」を挿入
し、切り出し記号が挿入された文を結果蓄積装置41に
蓄積する(ステップ55)。
Next, a cutting symbol, for example "/", is inserted based on the cutting position determined by comparison with the cutting discrimination table, and the sentence into which the cutting symbol has been inserted is stored in the result storage device 41 (step 55).

上記処理により得られる結果は、第7図に示す表示内容
と同じである。
The results obtained by the above processing are the same as the display contents shown in FIG.

次いで終了条件がnoであれば、すなわち次ぎに文節切
り出しを行うべき文かあれば、次の文を文章蓄積装置1
0から読み出す処理、また、蓄積する位置が重複しない
ように制御を行う(ステップ56)。
Next, if the end condition is no, that is, if there is a sentence that should be segmented next, the next sentence is stored in the sentence storage device 1.
The process of reading from 0 is performed, and control is performed so that the storage positions do not overlap (step 56).

ステップ56においてyes、すなわち、切り出し処理
を行う対象がなくなれば、必要とする情報を結果蓄積装
置41に蓄積し、処理を終了する(ステップ57)。
If the answer is yes in step 56, that is, there are no more targets to be cut out, the necessary information is stored in the result storage device 41, and the process ends (step 57).

(ト)発明の効果 この発明によれば、(1)文節の切り出しを行う際に、
辞書を利用しないため装置のlII成を簡略化できる。
(g) Effects of the invention According to this invention, (1) when cutting out a phrase,
Since no dictionary is used, the configuration of the device can be simplified.

それにより、ワードプロセッサやオフィスコンピュータ
はもちろん、それ以外の小型機器、具体的には電子手帳
やプログラム機能付き電卓においてもこの発明を適用す
ることかできる。(2)文節切り出し処理、キーワード
検索処理を高速で行うことができる。(3)文節切り出
しのための制御プログラムを簡単にすることができる。
As a result, the present invention can be applied not only to word processors and office computers, but also to other small devices, specifically electronic notebooks and calculators with program functions. (2) Phrase extraction processing and keyword search processing can be performed at high speed. (3) The control program for segmenting phrases can be simplified.

(4)文節を切り出す場合、日本語ではベタ書きのため
、文節の位置がわからないという欠点があり、そのため
、文節をどこから始め、どこで終了するかを決定するの
に多大な処理と時間を必要としている。
(4) When cutting out bunsetsu, the disadvantage is that the position of the bunsetsu cannot be determined because Japanese is written solidly, and as a result, it requires a great deal of processing and time to determine where the bunsetsu begins and ends. There is.

二の発明によれば、文節位置を決定した後から言語処理
を行うことができるため、処理時間を大幅に短縮するこ
とができる。(5)字種判別結果をディジタル回路で2
値に置き換え1こ場合、処理が高速になり、回路が簡略
化され、かつ文節切り出し装置を安価で実現することが
できる。
According to the second invention, language processing can be performed after determining the bunsetsu position, so processing time can be significantly shortened. (5) Character type discrimination results are converted into 2 parts using a digital circuit.
In this case, the processing becomes faster, the circuit is simplified, and the phrase extraction device can be realized at low cost.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の基本構成を明示するブロック図、第
2図はこの発明の第1の実施例であるワードプロセッサ
の構成を示すブロック図、第3図は文章蓄積装置に蓄積
され几文の一例を示す説明図、第4図は字種判別テーブ
ルの内容を示す説明図、第5図は字種判別結果を示す説
明図、第6図は切り出し判別テーブルの内容を示す説明
図、第7図は切り出し結果を示す説明図、第8図は第1
の実施例による文節切り出し処理を示すフローチャート
、第9図は第2の実施例であるワードプロセッサの構成
を示すブロック図、第10図は同じくコードデジタル化
テーブルの内容を示す説明図、第1工図は字種判別され
た結果を示す説明図、第12図は切り出し判別テーブル
の内容を示す説明図、第13図は同しく文節切り出し処
理を示すフローチャートである。 ■・・・・・文章蓄積手段、2・・・・・・指示手段、
3  ・読出手段、   4・・ 字種判別手段、5・
・・・・判別結果蓄積手段、 6・ ・・・切り出し位置挿入手段、 7・・・・・記憶手段、   8・・・・・・出力手段
。 第3図 第4図 第5図 第8図 第10図 第11図 第12図 第13図
FIG. 1 is a block diagram showing the basic configuration of this invention, FIG. 2 is a block diagram showing the configuration of a word processor that is the first embodiment of this invention, and FIG. FIG. 4 is an explanatory diagram showing the contents of the character type discrimination table; FIG. 5 is an explanatory diagram showing the character type discrimination results; FIG. 6 is an explanatory diagram showing the contents of the cutout discrimination table; The figure is an explanatory diagram showing the cutout results, and Figure 8 is the first
FIG. 9 is a block diagram showing the configuration of a word processor according to the second embodiment, FIG. 10 is an explanatory diagram showing the contents of the code digitization table, and the first engineering drawing 12 is an explanatory diagram showing the result of character type discrimination, FIG. 12 is an explanatory diagram showing the contents of the extraction discrimination table, and FIG. 13 is a flow chart showing the phrase extraction process. ■... text storage means, 2... instruction means,
3. Reading means, 4. Character type discrimination means, 5.
. . . Discrimination result accumulating means, 6. . . Cutting position insertion means, 7 . . . Storage means, 8 . . . Output means. Figure 3 Figure 4 Figure 5 Figure 8 Figure 10 Figure 11 Figure 12 Figure 13

Claims (1)

【特許請求の範囲】 1、文章を蓄積する文章蓄積手段と、 文章蓄積手段から所望の文を読み出すための指示を行う
指示手段と、 指示された文を文章蓄積手段から読み出す読出手段と、 読み出した文について1文字ずつ漢字、ひらがな、カタ
カナなどの字種を判別するとともに句点を判別する字種
判別手段と、 字種判別手段による判別結果を順次蓄積する判別結果蓄
積手段と、 判別結果蓄積手段に蓄積された字種の変移点、句点に基
づいて、読み出した文中に文節の切り出し位置情報を挿
入する切り出し位置挿入手段と、切り出し位置情報が挿
入された文を記憶する記憶手段と、 切り出し位置情報が挿入された文を出力する出力手段と
からなる文節切り出し装置。 2、前記字種の変移点が、ひらがなから漢字へ変移する
位置と、ひらがなからカタカナへ変移する位置である請
求項1記載の文節切り出し装置。 3、請求項1記載の文節切り出し装置が、字種判別結果
の漢字およびカタカナを第1のコードに変換し、ひらが
なおよび句点を第2のコードに変換し、それにより字種
判別結果を2値化するデジタル化手段をさらに備え、前
記判別結果蓄積手段が、2値化されたコードを記憶する
手段を備え、前記切り出し位置挿入手段が、2値化され
たコードの変移点および句点位置に基づいて、読み出し
た文中に文節の切り出し位置情報を挿入する手段を備え
てなる文節切り出し装置。
[Scope of Claims] 1. A text storage means for storing sentences; an instruction means for instructing to read a desired sentence from the text storage means; a reading means for reading the instructed sentence from the text storage means; character type discriminating means for discriminating character types such as kanji, hiragana, katakana, etc. character by character for a given sentence, as well as determining a period; a discriminating result accumulating means for sequentially accumulating the discriminating results of the character discriminating means; and discriminating result accumulating means. a cutout position insertion means for inserting clause cutout position information into a read sentence based on the transition points and period points of character types stored in the character type, a storage means for storing the sentence in which the cutout position information has been inserted; A phrase extraction device comprising an output means for outputting a sentence into which information has been inserted. 2. The phrase cutting device according to claim 1, wherein the transition points of the character type are a position where the character type changes from hiragana to kanji and a position where hiragana changes to katakana. 3. The phrase segmentation device according to claim 1 converts kanji and katakana resulting from the character type discrimination into a first code, converts hiragana and full periods into a second code, and thereby converts the character type discrimination result into a binary code. The discrimination result storage means further comprises a means for storing the binarized code, and the cutout position insertion means performs the digitization based on the transition point and period position of the binarized code. A phrase extraction device comprising means for inserting phrase extraction position information into a read sentence.
JP2324937A 1990-11-26 1990-11-26 Paragraph segmenting device Pending JPH04191959A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2324937A JPH04191959A (en) 1990-11-26 1990-11-26 Paragraph segmenting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2324937A JPH04191959A (en) 1990-11-26 1990-11-26 Paragraph segmenting device

Publications (1)

Publication Number Publication Date
JPH04191959A true JPH04191959A (en) 1992-07-10

Family

ID=18171287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2324937A Pending JPH04191959A (en) 1990-11-26 1990-11-26 Paragraph segmenting device

Country Status (1)

Country Link
JP (1) JPH04191959A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62257570A (en) * 1986-05-01 1987-11-10 Hitachi Ltd Kana/kanji converter
JPH01266670A (en) * 1988-04-18 1989-10-24 Nippon Telegr & Teleph Corp <Ntt> Extracting processing system for characteristic vocabulary in japanese object sentence
JPH01295369A (en) * 1988-05-24 1989-11-29 Hitachi Ltd Dividing and processing system for kanji/kana paragraph

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62257570A (en) * 1986-05-01 1987-11-10 Hitachi Ltd Kana/kanji converter
JPH01266670A (en) * 1988-04-18 1989-10-24 Nippon Telegr & Teleph Corp <Ntt> Extracting processing system for characteristic vocabulary in japanese object sentence
JPH01295369A (en) * 1988-05-24 1989-11-29 Hitachi Ltd Dividing and processing system for kanji/kana paragraph

Similar Documents

Publication Publication Date Title
EP0686286B1 (en) Text input transliteration system
US7802184B1 (en) Method and apparatus for processing text and character data
EP2312460A1 (en) Information processing device and information processing method
US20030083862A1 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JPH08314910A (en) Different kind of code character string transcribing device and electronic dictionary
JP2943791B2 (en) Language identification device, language identification method, and recording medium recording language identification program
US20040139056A1 (en) Information display control apparatus and recording medium having recorded information display control program
JP3483585B2 (en) Document search device and document search method
JPS61248160A (en) Document information registering system
JPH04191959A (en) Paragraph segmenting device
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
JP3285149B2 (en) Foreign language electronic dictionary search method and apparatus
JP2621999B2 (en) Document processing device
JP3377942B2 (en) Electronic dictionary search device and computer-readable storage medium storing electronic dictionary search device control program
JP2592995B2 (en) Phrase extraction device
JP2592993B2 (en) Phrase extraction device
JP3814000B2 (en) Character string conversion apparatus and character string conversion method
JP2575947B2 (en) Phrase extraction device
JPH1021262A (en) Information retrieval device
JP3241854B2 (en) Automatic word spelling correction device
JP2570784B2 (en) Document reader post-processing device
JPH0612453A (en) Unknown word extracting and registering device
JP3233283B2 (en) Japanese sentence analyzer
JP2729342B2 (en) Kana-kanji conversion method and device