JP2592995B2 - Phrase extraction device - Google Patents

Phrase extraction device

Info

Publication number
JP2592995B2
JP2592995B2 JP2331063A JP33106390A JP2592995B2 JP 2592995 B2 JP2592995 B2 JP 2592995B2 JP 2331063 A JP2331063 A JP 2331063A JP 33106390 A JP33106390 A JP 33106390A JP 2592995 B2 JP2592995 B2 JP 2592995B2
Authority
JP
Japan
Prior art keywords
phrase
character
sentence
hiragana
break
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2331063A
Other languages
Japanese (ja)
Other versions
JPH04195672A (en
Inventor
茂起 空閑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2331063A priority Critical patent/JP2592995B2/en
Publication of JPH04195672A publication Critical patent/JPH04195672A/en
Application granted granted Critical
Publication of JP2592995B2 publication Critical patent/JP2592995B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は文節切出し装置に関し、詳しくはワードプ
ロセッサ、翻訳装置、校正装置、データベースを利用す
る装置等のように言語処理を行う装置に好適な文節切出
し装置に関する。
The present invention relates to a phrase extracting apparatus, and more particularly, to a phrase extracting apparatus suitable for a language processing device such as a word processor, a translation device, a proofreading device, and a device using a database. The present invention relates to a phrase extracting device.

(ロ)従来の技術 文節区切りの情報が挿入されていない変換済みの日本
語文書から、例えば翻訳や校正のために文節を切り出す
ためには、従来、自立語辞書、付属語辞書、接辞辞書等
の辞書類と、それらの要素の接続関係を表すテーブル、
文法テーブル等のテーブル類をそれぞれ参照しながら文
節の切り出しを行っている。
(B) Conventional technology Conventionally, in order to extract a phrase for translation or proofreading from a converted Japanese document into which the information of the phrase delimiter is not inserted, an independent word dictionary, an auxiliary word dictionary, an affix dictionary, etc. Dictionaries and a table showing the connection relationship of those elements,
Segments are extracted by referring to tables such as a grammar table.

また、字種情報を利用し、例えば字種の変わり目を文
節の切れ目とする方法も考えられている。
In addition, a method has been considered in which character type information is used and, for example, a change in character type is used as a break between phrases.

(ハ)発明が解決しようとする課題 このような、辞書類、テーブル類を利用する従来の文
節切出し装置においては、(1)それらの辞書、テーブ
ルを蓄積するために大量の記憶装置が必要になる。
(2)辞書検索またはテーブル検索を行うために文節切
出し処理の時間が長くなる。(3)文節切出しのための
制御プログラムが複雑になる。また、(4)字種情報を
利用して文節を切る場合、機械的に字種によって文節を
切り出すため、送りがなのゆらぎで文節の切断を間違う
場合がある。(5)かな表記の単語の部分で文節の切り
出し間違いを発生する場合があるなどの諸問題があっ
た。
(C) Problems to be Solved by the Invention In such a conventional phrase extraction apparatus using dictionaries and tables, (1) a large amount of storage devices are required to store the dictionaries and tables. Become.
(2) The time required for the phrase extraction processing for performing a dictionary search or a table search becomes longer. (3) A control program for segment extraction becomes complicated. (4) When a phrase is cut using character type information, the phrase is cut out according to the character type mechanically. (5) There are various problems such as the possibility of mistakes in segmentation at words in kana notation.

この発明は以上の事情を考慮してなされたもので、上
記問題を解消しうる文節切出し装置を提供する。
The present invention has been made in view of the above circumstances, and provides a phrase extracting apparatus that can solve the above problem.

(ニ)課題を解決するための手段 第1図はこの発明の基本構成を明示するブロック図で
ある。同図において、この発明は、文章を蓄積する文章
蓄積手段1と、文章蓄積手段1から所望の文章を読み出
すための指示を行う指示手段2と、指示された文章を文
章蓄積手段1から文章単位で読み出す読出手段3と、読
み出した文について文章の1文字ごとに固有の文字コー
ドに基づいて漢字、ひらがな、カタカナなどの字種と句
点とを判別し判別記号を生成する字種判別手段4と、前
記判別記号を2種類の符号のいずれかに置き換えて出力
する変換手段5と、変換手段5から出力された符号を読
み出した文章単位で順次蓄積する判別結果蓄積手段6
と、判別結果蓄積手段6に蓄積された符号列について、
所定の符号変移点を検出し、この変移点に基づいて読み
出した文章中に文節の切れ目を挿入する文節切出し手段
7と、連体詞、代名詞、副詞、接続詞などからなり、文
節を伴う特定のひらがな文字列を多数記憶している特定
文字辞書手段8と、文節切出し手段によって文節の切れ
目を挿入した後に、文節の切れ目が挿入された文章中に
前記特定のひらがな文字列が存在するかどうかをひらが
な文字列の先頭に向かって検索し、特定のひらがな文字
列が存在する場合に、そのひらがな文字列を1つの文節
として前記文章中に文節の切れ目を挿入し、文節切れ目
挿入位置を修正する文節切出し修正手段9と、文節切出
し修正手段9から出力される文を記憶する記憶手段10
と、記憶手段10に記憶された文を可視出力する出力手段
11とからなる文節切出し装置である。
(D) Means for Solving the Problems FIG. 1 is a block diagram showing the basic configuration of the present invention. Referring to FIG. 1, the present invention provides a sentence storing means 1 for storing a sentence, an instructing means 2 for giving an instruction to read out a desired sentence from the sentence storing means 1, and a sentence storing unit instructed from the sentence storing means 1 in sentence units. Reading means 3 for reading the sentence and character type discriminating means 4 for discriminating the character type such as kanji, hiragana, katakana or the like and the punctuation point based on the unique character code for each character of the sentence and generating a discrimination symbol. A converting means 5 for replacing the discrimination symbol with one of two kinds of codes and outputting the discriminated symbol, and a discrimination result accumulating means 6 for sequentially accumulating the codes output from the converting means 5 in read text units.
And the code string stored in the determination result storage means 6,
A phrase extracting means 7 for detecting a predetermined code transition point and inserting a break in the phrase read based on the transition point, and a specific hiragana character including a noun, a pronoun, an adverb, a conjunction, etc. A specific character dictionary means 8 storing a large number of strings, and a phrase break is inserted by a phrase cutout means, and then a hiragana character is used to determine whether or not the specific hiragana character string exists in the sentence into which the phrase break has been inserted. Searching toward the beginning of the column, if there is a specific hiragana character string, insert a break in the sentence as the one hiragana character string in the sentence, and correct the segment cutout correction position of the segment break insertion Means 9 and storage means 10 for storing a sentence outputted from the phrase segmentation correcting means 9
Output means for visually outputting the sentence stored in the storage means 10
11 is a phrase segmentation device.

この発明において、前記特定文字辞書手段8に記憶さ
れている各ひらがな文字列は、前記検索におけるひらが
な文字抽出順序と同順序にて格納されていることが好ま
しい。
In the present invention, it is preferable that each of the hiragana character strings stored in the specific character dictionary means 8 is stored in the same order as the hiragana character extraction order in the search.

この発明における文節切出し装置は、ワードプロセッ
サ、翻訳装置、校正装置、データベースを利用する装置
等に適用することができ、また、文章を音声出力する装
置においても文節切出し処理が必要なため、この発明を
適用することができる。
The phrase extraction device according to the present invention can be applied to a word processor, a translation device, a proofreading device, a device using a database, and the like. Further, a phrase extraction process is also required in a device that outputs a sentence by voice. Can be applied.

(ホ)作用 この発明に従えば、文章蓄積手段1に蓄積されている
文章から、切出し処理の単位、例えば1文を切り出す
と、その文を構成する各文字の字種が字種判別手段4に
よって判別され、その判別結果は変換手段5によって2
種類の符号のいずれか、例えばLまたはHに置き換えら
れ、判別結果蓄積手段6に順次蓄積される。次いで文節
切出し手段7は、あらかじめ決められている符号変移
点、例えばLからHへの変わり目を検出した際に、読み
出した文中に文節の切れ目を入れる。次いで文節切出し
修正手段9は、文節の切れ目からさかのぼって特定文字
辞書手段8に規定されるひらがな文字と入力文字列とを
比較することにより、一致したひらがな文字を1つの文
節として認識し、文節切出し位置を修正し、修正した結
果を確認できるよう、得られた結果を出力手段11に出力
するよう作用する。
(E) Operation According to the present invention, when a unit of the extraction process, for example, one sentence is cut out from the sentences stored in the sentence storage unit 1, the character type of each character constituting the sentence is determined by the character type determination unit 4 And the result of the determination is
Any of the types of codes, for example, L or H, is replaced by the determination result storage means 6 sequentially. Next, when detecting a predetermined code transition point, for example, a transition from L to H, the phrase cutout means 7 inserts a break in the read sentence. Next, the phrase extraction correcting means 9 recognizes a matching Hiragana character as one phrase by comparing the hiragana character specified in the specific character dictionary means 8 with the input character string, going back from the break of the phrase. It acts to output the obtained result to the output means 11 so that the position can be corrected and the corrected result can be confirmed.

(ヘ)実施例 以下図に示す実施例に基づいてこの発明を詳述する。
なお、これによってこの発明は限定されるものではな
い。
(F) Embodiment The present invention will be described in detail below based on an embodiment shown in the drawings.
The present invention is not limited by this.

第2図はこの発明をワードプロセッサに適用した一実
施例を示す構成図である。同図において20はワードプロ
セッサ本体である。21は文章蓄積装置であり、外部記憶
装置としての例えばフロッピーディスク,ハードディス
ク、あるいは内部記憶装置としての例えばRAM、あるい
はその他の蓄積装置としての例えばデータベース等から
構成することができ、かな漢字交じりからなる日本語文
書が蓄積されている。22は指示手段としてのキーボード
であり、文章編集、文章校正等を行うための文字入力キ
ー、各種の指示キー等を備えており、、文章を入力する
とともに、文章蓄積装置21から所望の文を読み出すため
の指示を入力する。23はCPU24と協働する読出装置であ
り、キーボード22にて指示された文を文章蓄積装置21か
ら読み出す。25はCPU24と協働する字種判別装置であ
り、文章蓄積装置21から読み出した文について、1文字
ずつ漢字、ひらがな、カタカナ等の字種を判別するとと
もに、句点を判別する。26は判別結果蓄積手段および記
憶手段としての結果蓄積装置であり、RAMから構成さ
れ、字種判別結果を順次蓄積するとともに、後述する文
節切出し装置によって切れ目が入れられた文を記憶す
る。
FIG. 2 is a block diagram showing an embodiment in which the present invention is applied to a word processor. In the figure, reference numeral 20 denotes a word processor. Reference numeral 21 denotes a text storage device, which can be composed of, for example, a floppy disk or hard disk as an external storage device, for example, a RAM as an internal storage device, or a database, for example, as another storage device. Word documents are accumulated. Reference numeral 22 denotes a keyboard as instruction means, which is provided with character input keys for performing text editing, text proofreading, etc., various instruction keys, etc., for inputting text and for inputting a desired text from the text storage device 21. Input an instruction to read. Reference numeral 23 denotes a reading device that cooperates with the CPU 24, and reads a sentence specified by the keyboard 22 from the text storage device 21. Numeral 25 is a character type discriminating device which cooperates with the CPU 24. The character type such as kanji, hiragana, katakana, etc. is discriminated one character at a time in the sentence read out from the sentence storage device 21, and the punctuation mark is discriminated. Numeral 26 denotes a result accumulating device as a judgment result accumulating means and a memory means. The result accumulating device is constituted by a RAM, and sequentially accumulates the character type judgment results, and stores a sentence cut by a later-described phrase cutout device.

27はCPU24と協働する変換手段としての字種デジタル
化装置であり、字種判別装置25による字種の判別結果と
しての漢字およびカタカナに対しては第1のコード、具
体的には“H"を付し、ひらがなおよび句点に対しては第
2のコード、具体的には“L"を付し、それにより字種判
別結果を2種類のコード“H"または“L"のいずれかに置
き換える。そして字種判別結果であるコード“H",“L"
の記号列はCPU24を介して結果蓄積装置26に蓄積され
る。
Numeral 27 is a character type digitizing device as a conversion means cooperating with the CPU 24. The first code, specifically "H", is used for the kanji and katakana as the character type discrimination result by the character type discriminating device 25. ", And a second code, specifically" L ", for the hiragana and the punctuation mark, thereby converting the character type discrimination result to one of the two codes" H "or" L ". replace. And the codes “H” and “L” which are the result of character type determination
Are stored in the result storage device 26 via the CPU 24.

文節切出し装置28は、CPU24と協働し、結果蓄積装置2
6に蓄積されたコード列“H",“L"について所定のコード
変移点を検出したときに、読み出した文中に文節の切れ
目を入れる。
The phrase extraction device 28 cooperates with the CPU 24 to
When a predetermined code transition point is detected for the code strings “H” and “L” stored in 6, a break in the sentence is inserted in the read sentence.

29はROMから構成される特定文字辞書テーブルであ
り、連体詞、代名詞、副詞、接続詞などからなり、文節
を伴う特定のひらがな文字列を多数記憶している。この
特定文字辞書テーブル29に記憶されている各ひらがな文
字列は、前記検索におけるひらがな文字抽出順序と同順
序にて格納されている。
Reference numeral 29 denotes a specific character dictionary table composed of a ROM, which is composed of adnominals, pronouns, adverbs, conjunctions, etc., and stores a large number of specific hiragana character strings accompanied by phrases. Each hiragana character string stored in the specific character dictionary table 29 is stored in the same order as the hiragana character extraction order in the search.

30はCPU24と協働する文節切出し修正装置であり、文
節の切れ目が挿入された文中に前記特定のひらがな文字
列が存在するかどうかを検索し、特定のひらがな文字列
が存在する場合に、そのひらがな文字列を1つの文節と
して前記文中に文節の切れ目を挿入し、文節切れ目挿入
位置を修正する。
Reference numeral 30 is a phrase extraction correction device that cooperates with the CPU 24, searches for whether the specific hiragana character string is present in the sentence in which the break in the phrase is inserted, and if a specific hiragana character string is present, Using a hiragana character string as one phrase, a break in the phrase is inserted into the sentence, and the position of the phrase break insertion is corrected.

31は出力制御部32を介してCPU24と接続される出力手
段としての表示装置であり、CRTやLCD等のドットマトリ
クスタイプの表示装置から構成され、文節の切れ目を確
認することができるように、切れ目が挿入された文を表
示する。
Reference numeral 31 denotes a display device as an output unit connected to the CPU 24 via the output control unit 32, which is configured by a dot matrix type display device such as a CRT or an LCD, so that a break in a phrase can be confirmed. Displays the sentence where the break was inserted.

このような構成において、例文「特許庁に出す資料を
このワープロで作成し電子出願した。」を用い、第12図
に示すフローチャートにしたがって文節切出し処理を説
明する。
In such a configuration, the phrase extraction processing will be described according to the flowchart shown in FIG. 12 using the example sentence "Materials to be submitted to the Patent Office were created and electronically filed by this word processor."

第3図は文章ファイル、その他のデータベース等が蓄
積された文章蓄積装置21から処理の単位に合わせて例え
ば1文を切り出し、結果蓄積装置26に蓄積した状態を示
している。このように、例えば1文、1段落、1章など
のように、処理単位に合わせ、文章蓄積装置21から所望
の文が切り出されると(ステップ40)、その文を構成し
ている字種のコードが判別される(ステップ41)。詳し
くは、読み出された文の各文字にはJISコードなどの固
有の文字コードが割り当てられているため、その文字コ
ードを、第4図に示すコード判別テーブルの各条件とを
照合することにより、字種を判別する。条件においてcc
は字種判別対象の文字であり、a1とb1は漢字コードの先
頭および終端を表し、a2とb2はひらがなコードの先頭お
よび終端を表し、a3とb3はカタカナコードの先頭および
終端を表し、a4は句点を表している。
FIG. 3 shows a state in which, for example, one sentence is cut out from the sentence storage device 21 in which a sentence file and other databases are stored in accordance with the processing unit, and the sentence is stored in the result storage device 26. As described above, when a desired sentence is cut out from the sentence storage device 21 in accordance with the processing unit, for example, one sentence, one paragraph, one chapter, and the like (step 40), the character type of the sentence is determined. The code is determined (step 41). Specifically, since each character of the read sentence is assigned a unique character code such as a JIS code, by comparing the character code with each condition of the code determination table shown in FIG. , To determine the character type. Cc in condition
Are the characters to be used for character type determination, a1 and b1 represent the beginning and end of the Kanji code, a2 and b2 represent the beginning and end of the Hiragana code, a3 and b3 represent the beginning and end of the Katakana code, and a4 Represents a period.

判別された字種コードは、結果蓄積装置26に蓄積され
(ステップ42)、字種デジタル化装置27によってデジタ
ル化が行われる(ステップ43)。第5図に、判別された
出力コードをデジタル化するために参照されるコードデ
ジタル化テーブルを示す。すなわち、字種が漢字と判別
されるとコード“H"に変換され、ひらがなと判別される
とコード“L"に変換され、同じくカタカナはコード“H"
に、句はコード“L"にそれぞれ置き換えられる。コード
デジタル化テーブルとの照合により文をデジタル化した
結果は、第6図に示すコード列にて結果蓄積装置26に蓄
積される。
The determined character type code is stored in the result storage device 26 (step 42) and digitized by the character type digitizing device 27 (step 43). FIG. 5 shows a code digitization table referred to for digitizing the determined output code. That is, if the character type is determined to be kanji, it is converted to the code "H", and if it is determined to be hiragana, it is converted to the code "L".
, The phrase is replaced by the code "L" respectively. The result of digitizing the sentence by collation with the code digitization table is stored in the result storage device 26 as a code string shown in FIG.

次にデジタル化した結果を、第7図に示す切り出し判
別テーブルと照合し、文節切れ目を判別する(ステップ
44)。文節切れ目の判別は、(1)デジタル出力におけ
る“L"と“H"の変移点でキーワード(文節)の切れ目を
入れる。(2)句点の次にキーワードの切れ目を入れる
ことにより判別される。
Next, the digitized result is compared with a cut-out determination table shown in FIG. 7 to determine a segment break (step
44). The determination of a segment break is as follows: (1) A break of a keyword (phrase) is made at a transition point between “L” and “H” in the digital output. (2) Discrimination is made by inserting a break between keywords after a period.

次に、切り出し判別テーブルとの照合による切れ目の
判別に基づいて切れ目に切り出し記号、例えば「/」を
挿入し、その切り出し記号が挿入された文を結果蓄積装
置26に蓄積する。上記処理により得られる文節切出し結
果を第8図に示す。
Next, a cutout symbol, for example, “/” is inserted at the break based on the determination of the break by collation with the cutout determination table, and the sentence into which the cutout symbol is inserted is stored in the result storage device 26. FIG. 8 shows the phrase segmentation result obtained by the above processing.

字種の変わり目の情報のみを利用して文節の切り出し
を行うと、第8図に示すように、単語が、ひらがな表記
されている場合に、その単語を含む文節が切り出せない
という欠点が残る。今の例文では、代名詞「この」が前
の文節に吸収され「資料をこの」が一つの文節となって
いる。このような、ひらがな表記に起因する文節切り間
違いを修正するのがこの発明の特徴である。
When a segment is cut out using only the information of the character type change, as shown in FIG. 8, when a word is written in hiragana, there is a defect that a segment containing the word cannot be cut out. In the present example sentence, the pronoun "Kono" is absorbed in the previous phrase, and "Material is this" is one phrase. It is a feature of the present invention to correct such segmentation mistakes caused by Hiragana notation.

それを実現するために、代表的なひらがな表記の単語
列を蓄積した特定文字辞書テーブル29を用いる。ひらが
な表記の単語列の集合は、通常の言語生活の中から周知
の事実として作成することができる。例えば、品詞分類
で説明すると、連体詞、代名詞、副詞、接続詞などの中
にそのようなひらがな表記単語が多い。
In order to realize this, a specific character dictionary table 29 in which word strings of representative hiragana are accumulated is used. A set of word strings in Hiragana notation can be created as a well-known fact from ordinary language life. For example, in terms of part-of-speech classification, there are many such hiragana words in adnominals, pronouns, adverbs, conjunctions, and the like.

第9図は特定文字辞書テーブル29を説明するためのひ
らがな表記テーブル例を示したものである。同図は説明
上のための代表的な単語を示しており、通常の単語の文
字列の順序にソートしたものである。第10図は上記ひら
がな表記テーブルを逆引きできるようにソートしたもの
であり特定文字辞書テーブル29の内容を示している。
FIG. 9 shows an example of a hiragana notation table for explaining the specific character dictionary table 29. The figure shows typical words for explanation, which are sorted in the order of character strings of ordinary words. FIG. 10 shows the contents of the specific character dictionary table 29 in which the above hiragana notation table is sorted so that it can be looked up in reverse.

ステップ44に引き続き、特定文字辞書テーブル29を参
照することにより、第8図のように文節切断された文字
列から、ひらがな文字列の部分を、文字列先頭に向かっ
て検索する(ステップ45)。特定文字辞書テーブル29に
蓄積されている単語の並びに順序は、上記したように、
文字列の検索の順序と同じであり、1文字の照合失敗で
その単語との照合を解放することができるため、一致照
合までの時間を短縮させることができる。また、途中で
照合失敗であることが確認できるので、バッファの容量
の少なくて済む。この処理は字種がひらがなから他の字
種へ変わるひらがな文字列の間で実行される。
Subsequent to step 44, by referring to the specific character dictionary table 29, a character string portion is searched for a hiragana character string portion from the character string whose phrase has been cut as shown in FIG. 8 (step 45). The order of words stored in the specific character dictionary table 29 is, as described above,
This is the same as the search order of the character strings, and the matching with the word can be released when the matching of one character fails, so that the time until the matching can be reduced. Further, since it is possible to confirm that the collation has failed halfway, the capacity of the buffer can be reduced. This process is performed between hiragana character strings in which the character type changes from hiragana to another character type.

この実施例の場合、「をこの」の部分の「この」が照
合に成功する(ステップ46)。照合に成功すれば、ひら
がな表記単語の先頭で文節が始めるように文節の切れ目
を追加挿入し、文節の切出し位置を修正する(ステップ
47)。その結果、第8図の文章を第11図に示すように文
節切出し位置が修正される。次いで修正結果は結果蓄積
装置26に格納される(ステップ48)。
In the case of this embodiment, "this" in the part of "this" succeeds in the collation (step 46). If the collation is successful, insert a break in the phrase so that the phrase starts at the beginning of the hiragana notation word, and correct the position of the phrase (step
47). As a result, the segment cutout position of the sentence in FIG. 8 is corrected as shown in FIG. Next, the correction result is stored in the result storage device 26 (step 48).

次いで終了条件がnoであれば、すなわち次ぎに文節切
出しを行うべき文があれば、次の文を文章蓄積装置21か
ら読み出す処理、また、蓄積する位置が重複しないよう
に制御を行う(ステップ49)。
Next, if the end condition is no, that is, if there is a next sentence to be segmented, control is performed to read the next sentence from the sentence storage device 21 and to control the storage positions so as not to overlap (step 49). ).

ステップ49においてyes、すなわち、切出し処理を行
う対象がなくなれば、必要とする情報を結果蓄積装置26
に蓄積し、処理を終了する(ステップ50)。
If yes in step 49, that is, if there is no longer any object to be cut out, the necessary information is stored in the result storage device 26.
And the process ends (step 50).

(ト)発明の効果 この発明によれば、(1)文節の切り出しを行う際
に、辞書を利用しないため装置の構成を簡略化できる。
それにより、ワードプロセッサやオフィスコンピュータ
はもちろん、それ以外の小型機器、具体的には電子手帳
やプログラム機能付き電卓においてもこの発明を適用す
ることができる。(2)文節切り出し処理、キーワード
検索処理を高速で行うことができる。(3)文節切り出
しのための制御プログラムを簡単にすることができる。
(4)文節を切り出す場合、日本語ではベタ書きのた
め、文節の位置がわからないという欠点があり、そのた
め、文節をどこから始め、どこで終了するかを決定する
のに多大な処理と時間を必要としている。この発明によ
れば、文節位置を決定した後から言語処理を行うことが
できるため、処理時間を大幅に短縮することができる。
(5)字種判別結果をディジタル回路で2値に置き換え
て処理するため、処理が高速になり、回路が簡略化さ
れ、かつ文節切り出し装置を安価で実現することができ
る。(6)ひらがな表記単語による文節切出し位置の間
違いを減少させることができる。(7)特定文字辞書の
ひらがな表記文字列と入力文字列の比較照合を速く行
え、照合に際しては辞書に要するバッファメモリの容量
を少ない容量で実現することができる。
(G) Effects of the Invention According to the present invention, (1) when extracting a phrase, a dictionary is not used, so that the configuration of the apparatus can be simplified.
Thus, the present invention can be applied not only to word processors and office computers, but also to other small devices, specifically, electronic notebooks and calculators with program functions. (2) The phrase extraction processing and the keyword search processing can be performed at high speed. (3) A control program for segment extraction can be simplified.
(4) When extracting a phrase, there is a drawback that the position of the phrase cannot be known because Japanese is written in solid, so it takes a lot of processing and time to determine where to start and end the phrase. I have. According to the present invention, the language processing can be performed after the phrase position is determined, so that the processing time can be significantly reduced.
(5) Since the result of character type discrimination is converted into a binary value by a digital circuit and processed, the processing speed is increased, the circuit is simplified, and a phrase segmentation device can be realized at low cost. (6) It is possible to reduce mistakes in segment extraction positions due to Hiragana written words. (7) The comparison and collation between the hiragana character string of the specific character dictionary and the input character string can be performed quickly, and the collation can be realized with a small capacity of the buffer memory required for the dictionary.

【図面の簡単な説明】[Brief description of the drawings]

第1図はこの発明の基本構成を明示するブロック図、第
2図はこの発明の一実施例であるワードプロセッサの構
成を示すブロック図、第3図は文章蓄積装置に蓄積され
た文の一例を示す説明図、第4図は字種判別テーブルの
内容を示す説明図、第5図はコードデジタル化テーブル
の内容を示す説明図、第6図は字種判別結果を示す説明
図、第7図は文節切出し判別テーブルの内容を示す説明
図、第8図は切出し結果を示す説明図、第9図および第
10図は特定文字辞書テーブルの内容を示す説明図、第11
図は切出し位置修正結果を示す説明図、第12図は実施例
の処理動作を示すフローチャートである。 1……文章蓄積手段、2……指示手段、3……読出手
段、4……字種判別手段、5……変換手段、6……判別
結果蓄積手段、7……文節切出し手段、8……特定文字
辞書手段、9……文節切出し修正手段、10……記憶手
段、11……出力手段。
FIG. 1 is a block diagram showing a basic configuration of the present invention, FIG. 2 is a block diagram showing a configuration of a word processor according to an embodiment of the present invention, and FIG. 3 is an example of a sentence stored in a text storage device. FIG. 4 is an explanatory diagram showing the contents of a character type discrimination table, FIG. 5 is an explanatory diagram showing the contents of a code digitization table, FIG. 6 is an explanatory diagram showing the character type discrimination results, and FIG. Is an explanatory diagram showing the contents of the phrase extraction discrimination table, FIG. 8 is an explanatory diagram showing the extraction result, FIG. 9 and FIG.
FIG. 10 is an explanatory diagram showing the contents of the specific character dictionary table, and FIG.
FIG. 12 is an explanatory diagram showing the cutout position correction result, and FIG. 12 is a flowchart showing the processing operation of the embodiment. 1 ... sentence storage means, 2 ... instruction means, 3 ... readout means, 4 ... character type determination means, 5 ... conversion means, 6 ... determination result storage means, 7 ... phrase extraction means, 8 ... ... Specific character dictionary means, 9 ... Phrase cutout correction means, 10 ... Storage means, 11 ... Output means.

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文章を蓄積する文章蓄積手段と、 文章蓄積手段から所望の文章を読み出すための指示を行
う指示手段と、 指示された文章を文章蓄積手段から文章単位で読み出す
読出手段と、 読み出した文章の1文字ごとに固有の文字コードに基づ
いて漢字、ひらがな、カタカナなどの字種と句点とを判
別し判別記号を生成する字種判別手段と、 前記判別記号を2種類の符号のいずれかに置き換えて出
力する変換手段と、 変換手段から出力された符号を読み出した文章単位で順
次蓄積する判別結果蓄積手段と、 判別結果蓄積手段に蓄積された符号列について、所定の
符号変移点を検出し、この変移点に基づいて読み出した
文章中に文節の切れ目を挿入する文節切出し手段と、 連体詞、代名詞、副詞、接続詞などからなり、文節を伴
う特定のひらがな文字列を多数記憶している特定文字辞
書手段と、 文節切出し手段によって文節の切れ目を挿入した後に、
文節の切れ目が挿入された文章中に前記特定のひらがな
文字列が存在するかどうかをひらがな文字列の先頭に向
かって検索し、特定のひらがな文字列が存在する場合
に、そのひらがな文字列を1つの文節として前記文章中
に文節の切れ目を挿入し、文節切れ目挿入位置を修正す
る文節切出し修正手段と、 文節切出し修正手段から出力される文を記憶する記憶手
段と、 記憶手段に記憶された文を可視出力する出力手段とから
なる文節切出し装置。
1. A text storage means for storing text, an instruction means for instructing reading of a desired text from the text storage means, a reading means for reading the specified text from the text storage means in text units, Character type determining means for determining a character type and a punctuation mark, such as kanji, hiragana, and katakana, based on a unique character code for each character of the sentence, and generating a determination symbol; Conversion means for replacing and outputting the code, determination result storage means for sequentially storing the codes output from the conversion means in units of read sentences, and a predetermined code transition point for a code string stored in the determination result storage means. A phrase segmentation means that detects and inserts a segment break in the sentence read out based on this transition point, and a specific phrase with a phrase, consisting of adnominal, pronoun, adverb, conjunction, etc. After inserting a break of a phrase by a specific character dictionary means storing a large number of character strings and a phrase extracting means,
A search is performed toward the beginning of the Hiragana character string to determine whether the specific Hiragana character string is present in the sentence into which the segment break has been inserted, and if the specific Hiragana character string is present, the Hiragana character string is set to 1 A phrase cut-out correcting means for inserting a break of the phrase into the sentence as one phrase and correcting the insertion position of the phrase break, a storage means for storing a sentence outputted from the phrase cut-out correcting means, and a sentence stored in the storage means And an output unit for visually outputting a phrase.
【請求項2】前記特定文字辞書手段に記憶されている各
ひらがな文字列が、前記検索におけるひらがな文字抽出
順序と同順序にて格納されていることを特徴とする請求
項1記載の文節切出し装置。
2. The phrase extracting apparatus according to claim 1, wherein each of the hiragana character strings stored in the specific character dictionary means is stored in the same order as the hiragana character extraction order in the search. .
JP2331063A 1990-11-28 1990-11-28 Phrase extraction device Expired - Fee Related JP2592995B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2331063A JP2592995B2 (en) 1990-11-28 1990-11-28 Phrase extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2331063A JP2592995B2 (en) 1990-11-28 1990-11-28 Phrase extraction device

Publications (2)

Publication Number Publication Date
JPH04195672A JPH04195672A (en) 1992-07-15
JP2592995B2 true JP2592995B2 (en) 1997-03-19

Family

ID=18239445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2331063A Expired - Fee Related JP2592995B2 (en) 1990-11-28 1990-11-28 Phrase extraction device

Country Status (1)

Country Link
JP (1) JP2592995B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810452B2 (en) * 1988-04-18 1996-01-31 日本電信電話株式会社 Japanese target sentence proper term extraction processing device
JPH01295369A (en) * 1988-05-24 1989-11-29 Hitachi Ltd Dividing and processing system for kanji/kana paragraph

Also Published As

Publication number Publication date
JPH04195672A (en) 1992-07-15

Similar Documents

Publication Publication Date Title
US5384703A (en) Method and apparatus for summarizing documents according to theme
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
EP0370774A2 (en) Machine translation system
JPH07325828A (en) Grammar checking system
JPH0877173A (en) System and method for correcting character string
JPH1153384A (en) Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
JP2000200291A (en) Method for automatically detecting selected character string in text
Kumar et al. A study of spell checking techniques for indian languages
US5560037A (en) Compact hyphenation point data
Gezmu et al. Portable spelling corrector for a less-resourced language: Amharic
JP3689954B2 (en) Heterogeneous code character string transcription device and electronic dictionary
US5079701A (en) System for registering new words by using linguistically comparable reference words
JP2592995B2 (en) Phrase extraction device
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JP2681663B2 (en) Japanese sentence correction candidate character extraction method
JP2592993B2 (en) Phrase extraction device
JPS61248160A (en) Document information registering system
JP3285149B2 (en) Foreign language electronic dictionary search method and apparatus
JP2575947B2 (en) Phrase extraction device
JP2570784B2 (en) Document reader post-processing device
JPH0130173B2 (en)
JP2599973B2 (en) Japanese sentence correction candidate character extraction device
JPH04191959A (en) Paragraph segmenting device
JP3109187B2 (en) Morphological analysis method
JPH04195257A (en) Clause segmenting device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees