JP2592993B2 - Phrase extraction device - Google Patents

Phrase extraction device

Info

Publication number
JP2592993B2
JP2592993B2 JP2324938A JP32493890A JP2592993B2 JP 2592993 B2 JP2592993 B2 JP 2592993B2 JP 2324938 A JP2324938 A JP 2324938A JP 32493890 A JP32493890 A JP 32493890A JP 2592993 B2 JP2592993 B2 JP 2592993B2
Authority
JP
Japan
Prior art keywords
phrase
sentence
character
break
hiragana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2324938A
Other languages
Japanese (ja)
Other versions
JPH04191960A (en
Inventor
茂起 空閑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2324938A priority Critical patent/JP2592993B2/en
Publication of JPH04191960A publication Critical patent/JPH04191960A/en
Application granted granted Critical
Publication of JP2592993B2 publication Critical patent/JP2592993B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は文節切出し装置に関し、詳しくはワードプ
ロセッサ、翻訳装置、校正装置、データベースを利用す
る装置等のように言語処理を行う装置に好適な文節切出
し装置に関する。
The present invention relates to a phrase extracting apparatus, and more particularly, to a phrase extracting apparatus suitable for a language processing device such as a word processor, a translation device, a proofreading device, and a device using a database. The present invention relates to a phrase extracting device.

(ロ)従来の技術 文節区切りの情報が挿入されていない変換済みの日本
語文書から、例えば翻訳や校正のために文節を切り出す
ためには、従来、自立語辞書、付属語辞書、接辞辞書等
の辞書類と、それらの要素の接続関係を表すテーブル、
文法テーブル等のテーブル類をそれぞれ参照しながら文
節の切り出しを行っていた。
(B) Conventional technology Conventionally, in order to extract a phrase for translation or proofreading from a converted Japanese document into which the information of the phrase delimiter is not inserted, an independent word dictionary, an auxiliary word dictionary, an affix dictionary, etc. Dictionaries and a table showing the connection relationship of those elements,
The segmentation was performed while referring to tables such as a grammar table.

(ハ)発明が解決しようとする課題 このような、辞書類、テーブル類を利用する従来の文
節切出し装置においては、(1)それらの辞書、テーブ
ルを蓄積するための大量の記憶装置が必要になる。
(2)辞書検索またはテーブル検索を行うために文節切
出し処理の時間が長くなる。(3)文節切出しのための
制御プログラムが複雑になる等の問題があった。また、
文節切出し処理において、文字列の各文字の字種を判別
することにより文節切出しを行う装置も考えられてい
る。しかしながらその装置では、機械的に字種によって
文節を切り出すため、かな表記接頭語を含む文字がある
場合に、接頭語と文字とを分離させてしまう間違った文
節切出しをする場合があった。
(C) Problems to be Solved by the Invention In such a conventional phrase extracting apparatus using dictionaries and tables, (1) a large amount of storage devices for storing the dictionaries and tables are required. Become.
(2) The time required for the phrase extraction processing for performing a dictionary search or a table search becomes longer. (3) There is a problem that a control program for segment extraction becomes complicated. Also,
In phrase extraction processing, a device that extracts a phrase by determining the character type of each character in a character string has also been considered. However, in such a device, since a phrase is mechanically cut out according to the character type, when there is a character including a kana notation prefix, there is a case where a wrong phrase is cut out to separate the prefix from the character.

この発明は以上の事情を考慮してなされたもので、上
記問題を解消しうる文節切出し装置を提供する。
The present invention has been made in view of the above circumstances, and provides a phrase extracting apparatus that can solve the above problem.

(ニ)課題を解決するための手段 第1図はこの発明の基本構成を明示するブロック図で
ある。同図において、この発明は、文章を蓄積する文章
蓄積手段1と、文章蓄積手段1から所望の文章を文章単
位で読み出して文節切り出しの指示を行う指示手段2
と、指示された文章を文章蓄積手段1から句点を含む文
章単位で読み出す読出手段3と、読み出した文章の文字
コードに基づき1文字ずつひらがな文字の字種と漢字、
カタカナなどの非ひらがな文字の字種及び句点とを字種
判別手段4と、字種判別手段4により判別されたひらが
な文字と非ひらがな文字及び句点とを2種類の符号にそ
れぞれ対応させて変換する変換手段5と、変換された文
章の2種類の符号列を順次蓄積する判別結果蓄積手段6
と、判別結果蓄積手段6に蓄積された2種類の符号列に
ついてひらがな文字から非ひらがな文字へ変化する際の
符号列の変位点を検出しその検出した変位点に該当する
文章中に文節の切れ目を挿入する文節切出し手段7と、
かな表記接頭語を含む文字列に対して文節切れ目の誤り
パターンとその修正パターンを記憶している接頭語修正
辞書手段8と、文節の切れ目が挿入された文章中に文節
切れ目の誤りパターンが存在するかどうかを調べその誤
りパターンが存在する場合に、修正パターンに基づいて
判別結果蓄積手段6内の該当する符号列の変位点の符号
の配列を変更し、それにより文節の切れ目を変更して再
度文節の切り出しを行う文節切出し修正手段9と、文節
切出し修正手段9により変更された文節の切れ目を含む
文章を記憶する記憶手段10と、記憶手段10に記憶された
文章とその文節の切れ目を可視出力する出力手段11とを
備えてなる文節切り出し装置である。
(D) Means for Solving the Problems FIG. 1 is a block diagram showing the basic configuration of the present invention. Referring to FIG. 1, the present invention provides a sentence storing means 1 for storing a sentence, and an instructing means 2 for reading out a desired sentence from the sentence storing means 1 in sentence units and instructing to extract a sentence.
Reading means 3 for reading a designated sentence from the sentence storage means 1 in sentence units including a period, a character type and a kanji character of a hiragana character one by one based on the character code of the read sentence,
The character type and punctuation of non-Hiragana characters such as katakana are converted by the character type determining means 4 and the Hiragana character and the non-Hiragana character and punctuation determined by the character type determining means 4 are respectively associated with two types of codes. Conversion means 5 and determination result storage means 6 for sequentially storing two types of code strings of the converted text
And a displacement point of the code string when changing from a Hiragana character to a non-Hiragana character is detected for the two types of code strings stored in the determination result storage means 6, and a break in a sentence corresponding to the detected displacement point. A phrase extracting means 7 for inserting
Prefix correction dictionary means 8 for storing a phrase break error pattern and its correction pattern for a character string including a kana notation prefix, and a phrase break error pattern in a sentence in which a phrase break is inserted It is checked whether or not the error pattern exists, and if the error pattern exists, the arrangement of the codes of the displacement points of the corresponding code string in the determination result accumulation means 6 is changed based on the correction pattern, thereby changing the break of the phrase. A phrase extraction and correction means 9 for extracting a phrase again, a storage means 10 for storing a sentence including a break of the phrase changed by the phrase extraction and correction means 9, a sentence stored in the storage means 10 and a break of the phrase This is a phrase segmentation device including output means 11 for visually outputting.

前記2種類の符号は2値のデジタル信号で構成される
ことが好ましい。
Preferably, the two kinds of codes are constituted by binary digital signals.

なお、この発明において、指示手段2は、キーボー
ド、マウス等からなる入力装置で構成されることが好ま
しい。
In the present invention, it is preferable that the instruction means 2 is constituted by an input device including a keyboard, a mouse, and the like.

文章蓄積手段1、読出手段3、字種判別手段4、変換
手段5、判別結果蓄積手段6、文節切出し手段7、接頭
語修正辞書手段8、文節切出し修正手段9、記憶手段10
は、CPU、ROM、RAM、I/Oポートからなるマイクロコンピ
ュータ、ASICで構成されることが好ましい。特に、文章
蓄積手段1、記憶手段10は、この中のRAMで構成され、
接頭語修正辞書手段8はROMで構成されることが好まし
い。
Sentence storing means 1, reading means 3, character type determining means 4, converting means 5, determining result storing means 6, phrase extracting means 7, prefix correction dictionary means 8, phrase extracting correcting means 9, storage means 10
Is preferably configured by a microcomputer comprising a CPU, a ROM, a RAM, and an I / O port, and an ASIC. In particular, the text storage means 1 and the storage means 10 are constituted by the RAM therein,
Preferably, the prefix correction dictionary means 8 is constituted by a ROM.

出力手段11は、LCD(液晶)ディスプレイ、CRTディス
プレイ等からなる表示装置で構成されることが好まし
い。
The output unit 11 is preferably configured by a display device including an LCD (liquid crystal) display, a CRT display, and the like.

この発明における文節切り出し装置は、ワードプロセ
ッサ、翻訳装置、校正装置、データベースを利用する装
置等に適用することができ、また、文章を音声出力する
装置においても文節切り出し処理が必要なため、この発
明を適用することができる。
The phrase segmentation device according to the present invention can be applied to a word processor, a translation device, a proofreading device, a device that uses a database, and the like. In addition, a phrase segmentation process is required even in a device that outputs sentences as speech. Can be applied.

(ホ)作用 この発明に従えば、文章蓄積手段1に蓄積されている
文章から、所望の文章を文章単位で読み出すと、読み出
した文章の文字コードに基づき1文字ずつひらがな文字
の字種と漢字、カタカナなどの非ひらがな文字の字種及
び句点とが字種判別手段4によって判別され、判別され
たひらがな文字と非ひらがな文字及び句点とが変換手段
5により2種類の符号にそれぞれ対応させて変換され、
変換された文章の2種類の符号列が判別結果蓄積手段6
に順次蓄積される。次いで文節切出し手段7は、判別結
果蓄積手段6に蓄積された2種類の符号列についてひら
がな文字から非ひらがな文字へ変化する際の符号列の変
位点を検出しその検出した変位点に該当する文章中に文
節の切れ目を挿入する。文節切出し修正手段9は、かな
表記接頭語を含む文字列に対して文節切れ目の誤りパタ
ーンとその修正パターンを記憶している接頭語修正辞書
手段8を参照して、文節の切れ目が挿入された文章中に
文節切れ目の誤りパターンが存在するかどうかを調べ、
その誤りパターンが存在する場合に、修正パターンに基
づいて判別結果蓄積手段6の該当する符号列の変位点の
符号の配列を変更し、それにより文節の切れ目を変更し
て再度文節の切り出しを行う。変更された文節の切れ目
を含む文章を記憶手段10に記憶させ、さらに記憶手段10
に記憶された文章とその文節の切れ目を出力手段11によ
り可視出力するように作用する。
(E) Function According to the present invention, when a desired sentence is read out from the sentences stored in the sentence storage means 1 in units of sentences, the character type and the kanji of the hiragana character are determined one by one based on the character code of the read sentence. The character type and punctuation of non-Hiragana characters, such as katakana, are distinguished by the character type discriminating means 4, and the determined Hiragana character and the non-Hiragana character and punctuation are converted by the converting means 5 to correspond to the two kinds of codes, respectively. And
The two types of code strings of the converted text are stored in the determination result storage unit 6.
Are sequentially accumulated. Next, the phrase extracting means 7 detects a displacement point of the code string when the hiragana character changes from the hiragana character to the non-hiragana character in the two kinds of code strings stored in the discrimination result storage means 6, and a sentence corresponding to the detected displacement point. Insert a break between phrases. The phrase cut-out correcting means 9 refers to the prefix correction dictionary means 8 storing the error pattern of the phrase break and the correction pattern for the character string including the kana notation prefix, and inserts the phrase break. Check if there is an error pattern of segment breaks in the sentence,
When the error pattern exists, the arrangement of the codes of the displacement points of the corresponding code string of the discrimination result accumulating means 6 is changed based on the correction pattern, thereby changing the break of the phrase and again extracting the phrase. . The sentence including the changed segment break is stored in the storage means 10 and further stored in the storage means 10
The output means 11 serves to visually output the sentence stored in the file and the break of the sentence.

従って、文節の切り出しを操作する際、句点を含む文
章単位で読み出して文節の切り出し処理を行うので、複
雑な文節の切り出し操作が不要になる。
Therefore, when the segment extraction is performed, the segment extraction process is performed by reading out the sentence unit including the period, thereby eliminating the complicated segment extraction operation.

さらに、文節の切り出し処理において、文章単位で読
み出した文章の文字コードに基づき1文字ずつひらがな
文字と、漢字、カタカナなどの非ひらがな文字及び句点
とを判別して、2種類の符号列に変換し、ひらがな文字
から非ひらがな文字へ変換する際の符号列の変位点で文
節の切り出しを機械的に行うので文節切り出しのための
辞書類が不要となり、文節切り出しを1文章単位毎に高
速で行うことができる。これにより、制御プログラムや
装置の構成を簡略化することができ、IC化が可能にな
る。
Furthermore, in the segment extraction processing, based on the character code of the sentence read in the sentence unit, a hiragana character, a non-hiragana character such as a kanji character, a katakana character, and a punctuation mark are discriminated one by one and converted into two kinds of code strings. Since the phrase extraction is mechanically performed at the displacement point of the code string when converting from Hiragana characters to non-Hiragana characters, dictionaries for phrase extraction are unnecessary, and phrase extraction is performed at high speed for each sentence unit. Can be. Thereby, the configuration of the control program and the device can be simplified, and the IC can be implemented.

また、文章中にかな表記接頭語が存在しても、それに
よる文節切り出しの誤りを自動修正するめの接頭語修正
辞書手段を備えた構成にしているので誤った文節の切り
出し処理を防止することができる。
In addition, even if there is a kana notation prefix in the sentence, the configuration is provided with a prefix correction dictionary means for automatically correcting an error in segmentation due to the kana notation prefix. it can.

(ヘ)実施例 以下図に示す実施例に基づいてこの発明を詳述する。
なお、これによってこの発明は限定されるものではな
い。
(F) Embodiment The present invention will be described in detail below based on an embodiment shown in the drawings.
The present invention is not limited by this.

第2図はこの発明をワードプロセッサに適用した一実
施例を示す構成図である。同図において20はワードプロ
セッサ本体である。21は文章蓄積装置であり、外部記憶
装置としての例えばフロッピーディスク,ハードディス
ク、あるいは内部記憶装置としての例えばRAM、あるい
はその他の蓄積装置としての例えばデータベース等から
構成することができ、かな漢字交じり文からなる日本語
文書が蓄積されている。22は指示手段としてのキーボー
ドであり、文章編集、文章校正等を行うための文字入力
キー、各種の指示キー等を備えており、文章を入力する
とともに、文章蓄積装置21から所望の文を読み出すため
の指示を入力する。23はCPU24と協働する読出装置であ
り、キーボード22にて指示された文を文章蓄積装置21か
ら読み出す。25はCPU24と協働する字種判別装置であ
り、文章蓄積装置21から読み出した文について、1文字
ずつ漢字、ひらがな、カタカナ等の字種を判別するとと
もに、句点を判別する。26は判別結果蓄積手段および記
憶手段としての結果蓄積装置であり、RAMから構成さ
れ、字種判別結果を順次蓄積するとともに、後述する文
節切出し装置によって切れ目が入れられた文を記憶す
る。
FIG. 2 is a block diagram showing an embodiment in which the present invention is applied to a word processor. In the figure, reference numeral 20 denotes a word processor. Reference numeral 21 denotes a text storage device which can be composed of, for example, a floppy disk or hard disk as an external storage device, for example, a RAM as an internal storage device, or a database as another storage device, and is composed of kana-kanji mixed sentences. Japanese documents are accumulated. Reference numeral 22 denotes a keyboard as instruction means, which is provided with character input keys for performing text editing, text correction, etc., various instruction keys, etc., for inputting text and reading a desired text from the text storage device 21. Enter instructions for Reference numeral 23 denotes a reading device that cooperates with the CPU 24, and reads a sentence specified by the keyboard 22 from the text storage device 21. Numeral 25 is a character type discriminating device which cooperates with the CPU 24. The character type such as kanji, hiragana, katakana, etc. is discriminated one character at a time in the sentence read out from the sentence storage device 21, and the punctuation mark is discriminated. Numeral 26 denotes a result accumulating device as a judgment result accumulating means and a memory means. The result accumulating device is constituted by a RAM, and sequentially accumulates the character type judgment results, and stores a sentence cut by a later-described phrase cutout device.

27はCPU24と協働する変換手段としての字種デジタル
化装置であり、字種判別装置25による字種の判別結果と
しての漢字およびカタカナに対しては第1のコード、具
体的には“H"を付し、ひらがなおよび句点に対しては第
2のコード、具体的には“L"を付し、それにより字種判
別結果を2種類のコード“H"または“L"のいずれかに置
き換える。そして字種判別結果であるコード“H",“L"
の記号列はCPU24を介して結果蓄積装置26に蓄積され
る。
Numeral 27 is a character type digitizing device as a conversion means cooperating with the CPU 24. The first code, specifically "H", is used for the kanji and katakana as the character type discrimination result by the character type discriminating device 25. ", And a second code, specifically" L ", for the hiragana and the punctuation mark, thereby converting the character type discrimination result to one of the two codes" H "or" L ". replace. And the codes “H” and “L” which are the result of character type determination
Are stored in the result storage device 26 via the CPU 24.

文節切出し装置28は、CPU24と協働し、結果蓄積装置2
6に蓄積されたコード列“H",“L"について所定のコード
変移点を検出したときに、読み出した文中に文節の切れ
目を入れる。
The phrase extraction device 28 cooperates with the CPU 24 to
When a predetermined code transition point is detected for the code strings “H” and “L” stored in 6, a break in the sentence is inserted in the read sentence.

29はかな接頭語修正テーブルであり、かな接頭語を含
む文字につき,文節切れ目の誤りパターンとその修正パ
ターンを記憶している。
Reference numeral 29 denotes a kana prefix correction table which stores an error pattern of a segment break and its correction pattern for a character including the kana prefix.

30は文節切出し修正手段としてのかな表記接頭語処理
装置であり、先の文節切れ目が挿入された文中に、かな
表記接頭語に関する文節切れ目の誤りが存在するかどう
かを調べ、その文節切れ目の誤りが存在する場合に、結
果蓄積装置26内のコード列の配列を変更し、それにより
文節の切れ目を変更して再度文節の切出しを行う。
Numeral 30 is a kana notation prefix processing device as a kana notation prefix correction means, which checks whether there is an error in the kana notation prefix in the sentence into which the previous knot is inserted, and checks the kana notation error. If there exists, the arrangement of the code strings in the result storage device 26 is changed, thereby changing the break of the phrase, and extracting the phrase again.

31は出力制御部32を介してCPU24と接続される出力手
段としての表示装置であり、CRTやLCD等のドットマトリ
クスタイプの表示装置から構成され、文節の切れ目を確
認することができるように、切れ目が挿入された文を表
示する。
Reference numeral 31 denotes a display device as an output unit connected to the CPU 24 via the output control unit 32, which is configured by a dot matrix type display device such as a CRT or an LCD, so that a break in a phrase can be confirmed. Displays the sentence where the break was inserted.

このような構成において、例文「特許庁に出す資料を
作成したのでご連絡します。」を用い、第12図に示すフ
ローチャートにしたがって文節切出し処理を説明する。
In such a configuration, the phrase segmentation process will be described according to the example sentence "We have prepared a material to be sent to the JPO and will contact you." In accordance with the flowchart shown in FIG.

第3図は文章ファイル、その他のデータベース等が蓄
積された文章蓄積装置21から処理の単位に合わせて例え
ば1文を切り出し、結果蓄積装置26に蓄積した状態を示
している。このように、例えば1文、1段落、1章など
のように、処理単位に合わせ、文章蓄積装置21から所望
の文が読み出されると(ステップ40)、その文を構成し
ている字種のコードが判別される(ステップ41)。詳し
くは、読み出された文の各文字にはJISコードなどの固
有の文字コードが割り当てられているため、その文字コ
ードを、第4図に示すコード判別テーブルの各条件とを
照合することにより、字種を判別する。条件においてcc
は字種判別対象の文字であり、a1とb1は漢字コードの先
頭および終端を表し、a2とb2はひらがなコードの先頭お
よび終端を表し、a3とb3はカタカナコードの先頭および
終端を表し、a4は句点を表している。
FIG. 3 shows a state in which, for example, one sentence is cut out from the sentence storage device 21 in which a sentence file and other databases are stored in accordance with the processing unit, and the sentence is stored in the result storage device 26. As described above, when a desired sentence is read from the sentence storage device 21 in accordance with the processing unit, for example, one sentence, one paragraph, one chapter, and the like (step 40), the character type constituting the sentence is read. The code is determined (step 41). Specifically, since each character of the read sentence is assigned a unique character code such as a JIS code, by comparing the character code with each condition of the code determination table shown in FIG. , To determine the character type. Cc in condition
Are the characters to be used for character type determination, a1 and b1 represent the beginning and end of the Kanji code, a2 and b2 represent the beginning and end of the Hiragana code, a3 and b3 represent the beginning and end of the Katakana code, and a4 Represents a period.

判別された字種コードは、結果蓄積装置26に蓄積され
(ステップ42)、字種デジタル化装置27によってデジタ
ル化が行われる(ステップ43)。第5図に、判別された
出力コードをデジタル化するために参照されるコードデ
ジタル化テーブルを示す。すなわち、字種が漢字と判別
されるとコード“H"に変換され、ひらがなと判別される
とコード“L"に変換され、同じくカタカナはコード“H"
に、句はコード“L"にそれぞれ置き換えられる。コード
デジタル化テーブルとの照合により文をデジタル化した
結果は、第6図に示すコード列にて結果蓄積装置26に蓄
積される。なお、第6図においては説明上、例文も併せ
て示している。
The determined character type code is stored in the result storage device 26 (step 42) and digitized by the character type digitizing device 27 (step 43). FIG. 5 shows a code digitization table referred to for digitizing the determined output code. That is, if the character type is determined to be kanji, it is converted to the code "H", and if it is determined to be hiragana, it is converted to the code "L".
, The phrase is replaced by the code "L" respectively. The result of digitizing the sentence by collation with the code digitization table is stored in the result storage device 26 as a code string shown in FIG. In FIG. 6, example sentences are also shown for explanation.

次にデジタル化した結果を、第7図に示す切り出し判
別テーブルと照合し、文節切れ目を判別する(ステップ
44)。文節切れ目の判別は、(1)デジタル出力におけ
る“L"と“H"の変移点でキーワード(文節)の切れ目を
入れる。(2)句点の次にキーワードの切れ目を入れる
ことにより判別される。
Next, the digitized result is compared with a cut-out determination table shown in FIG. 7 to determine a segment break (step
44). The determination of a segment break is as follows: (1) A break of a keyword (phrase) is made at a transition point between “L” and “H” in the digital output. (2) Discrimination is made by inserting a break between keywords after a period.

次に、切り出した判別テーブルとの照合による切れ目
の判別に基づいて切れ目に切り出した記号、例えば
「/」を挿入し、その切り出し記号が挿入された文を結
果蓄積装置26に蓄積する(ステップ45)。上記処理によ
り得られる文節切出し結果を第8図に示す。同図におい
て、かな表記接頭語を含まない文字に対して文節切り出
し判別テーブルにしたがって正しく文節が切り出されて
いるが、かな表記接頭語「ご」を含む文節では文節の切
出しが間違っていることが分かる。
Next, a symbol, for example, "/" cut out at the break based on the determination of the break by collation with the cut-out determination table is inserted, and the sentence into which the cut-out symbol is inserted is stored in the result storage device 26 (step 45). ). FIG. 8 shows the phrase segmentation result obtained by the above processing. In the figure, the phrase is correctly extracted according to the phrase extraction determination table for characters that do not include the kana notation prefix, but the phrase extraction is incorrect for the phrase that includes the kana notation prefix "go". I understand.

かな表記接頭語には「お」、「ご」があり、これらは
文章中に比較的多く用いられている。また、「お」、
「ご」はそれぞれ、和語、漢語と結び付きやすいという
性質がある。
Kana notation prefixes include "o" and "go", which are used relatively frequently in the text. Also, "O",
"Go" has the property of being easily associated with Japanese and Chinese.

この実施例のかな表記接頭語修正テーブル29は、かな
表記接頭語が存在していても、文節の切出しを正しく行
うために設けられており、かな表記接頭語の誤りパター
ン“お/漢",“ご/漢”と、それらのデジタル化コード
列“L/H"と、それらの修正デジタル化コード列“/HH"と
をそれぞれ記憶している。
The kana spelling prefix correction table 29 of this embodiment is provided to correctly extract a phrase even if a kana spelling prefix exists, and the kana spelling prefix error pattern “O / Kan”, “Go / Kan”, their digitized code strings “L / H”, and their modified digitized code strings “/ HH” are stored.

かな表記接頭語の切出し誤りをなくすため、まず、第
8図に示す切出し結果を用いて文節の切れ目を探す。次
に、第9図に示す文節切れ目誤りパターンと第6図に示
す字種判別結果における文節の前後とを照合し(ステッ
プ46)、文節の切れ目が誤りパターンと一致しているか
どうかを調べる(ステップ47)。
In order to eliminate a kana notation prefix extraction error, a segment break is first searched for using the extraction result shown in FIG. Next, the phrase break error pattern shown in FIG. 9 is compared with the phrase before and after the phrase in the character type discrimination result shown in FIG. 6 (step 46), and it is checked whether the phrase break matches the error pattern (step 46). Step 47).

字種判別結果において誤りパターンと一致している部
分があれば、かな表記接頭語修正テーブル29にしたがっ
て、デジタル化コードおよび文節切出し記号からなる配
列パターンを修正する(ステップ48→49)。修正された
結果を第10図および第11図に示す。
If there is a part that matches the error pattern in the character type discrimination result, the arrangement pattern composed of the digitized code and the phrase cutout symbol is corrected according to the kana notation prefix correction table 29 (steps 48 to 49). The corrected results are shown in FIG. 10 and FIG.

次いで終了条件がnoであれば、すなわち次ぎに文節切
出しを行うべき文があれば、次の文を文章蓄積装置21か
ら読み出す処理、また、蓄積する位置が重複しないよう
に制御を行う(ステップ50)。
Next, if the end condition is no, that is, if there is a next sentence to be segmented, control is performed to read the next sentence from the sentence storage device 21 and to control that the storage positions do not overlap (step 50). ).

ステップ50においてyes、すなわち、切出し処理を行
う対象がなくなれば、必要とする情報を結果蓄積装置26
に蓄積し、処理を終了する(ステップ51)。
If yes in step 50, that is, if there is no longer any object to be cut out, the necessary information is stored in the result storage device 26.
And the process ends (step 51).

(ト)発明の効果 この発明によれば、文節の切り出しを操作する際、句
点を含む文章単位で読み出して文節の切り出し処理を行
うので、複雑な文節の切り出し操作が不要になる。
(G) Effects of the Invention According to the present invention, when a segment is extracted, a segment extraction process is performed by reading out a sentence unit including a period, thereby eliminating a complicated segment extraction operation.

さらに、文節の切り出し処理において、文章単位で読
み出した文章の文字コードに基づき1文字ずつひらがな
文字と、漢字、カタカナなどの非ひらがな文字及び句点
とを判別して、2種類の符号列に変換し、ひらがな文字
から非ひらがな文字へ変化する際の符号列の変位点で文
節の切り出しを機械的に行うので文節切り出しのための
辞書類が不要となり、文節切り出しを1文章単位毎に高
速で行うことができる。これにより、制御プログラムや
装置の構成を簡略化することができ、IC化が可能にな
る。
Furthermore, in the segment extraction processing, based on the character code of the sentence read in the sentence unit, a hiragana character, a non-hiragana character such as a kanji character, a katakana character, and a punctuation mark are discriminated one by one and converted into two kinds of code strings. Since the phrase extraction is mechanically performed at the displacement point of the code string when changing from a Hiragana character to a non-Hiragana character, dictionaries for phrase extraction are unnecessary, and phrase extraction is performed at high speed for each sentence unit. Can be. Thereby, the configuration of the control program and the device can be simplified, and the IC can be implemented.

また、文章中にかな表記接頭語が存在しても、それに
よる文節切り出しの誤りを自動修正するための接頭語修
正辞書手段を備えた構成にしているので誤った文節の切
り出し処理を防止することができる。
Also, even if there is a kana notation prefix in the sentence, the configuration is provided with a prefix correction dictionary means for automatically correcting the error of segmentation due to it, so that the erroneous segment extraction process is prevented. Can be.

従って、ワードプロセッサやオフィスコンピュータは
もちろん、それ以外の小型情報機器、具体的には電子手
帳やプログラム機能付き電卓においてもこの発明を適用
することができる。
Therefore, the present invention can be applied not only to word processors and office computers, but also to other small information devices, specifically, electronic notebooks and calculators with program functions.

【図面の簡単な説明】[Brief description of the drawings]

第1図はこの発明の基本構成を明示するブロック図、第
2図はこの発明の一実施例であるワードプロセッサの構
成を示すブロック図、第3図は文章蓄積装置に蓄積され
た文の一例を示す説明図、第4図は字種判別テーブルの
内容を示す説明図、第5図はコードデジタル化テーブル
の内容を示す説明図、第6図は字種判別結果を示す説明
図、第7図は文節切出し判別テーブルの内容を示す説明
図、第8図は切出し結果を示す説明図、第9図はかな表
記接頭語修正テーブルの内容を示す説明図、第10図は修
正結果を示す説明図、第11図は修正結果の出力状態を示
す説明図、第12図は文節切出し処理を示すフローチャー
トである。 1……文章蓄積手段、2……指示手段、 3……読出手段、4……字種判別手段、 5……変換手段、 6……判別結果蓄積手段、 7……文節切出し手段、 8……接頭語修正辞書手段、 9……文節切出し修正手段、 10……記憶手段、 11……出力手段。
FIG. 1 is a block diagram showing a basic configuration of the present invention, FIG. 2 is a block diagram showing a configuration of a word processor according to an embodiment of the present invention, and FIG. 3 is an example of a sentence stored in a text storage device. FIG. 4 is an explanatory diagram showing the contents of a character type discrimination table, FIG. 5 is an explanatory diagram showing the contents of a code digitization table, FIG. 6 is an explanatory diagram showing the character type discrimination results, and FIG. Is an explanatory diagram showing the contents of the phrase extraction determination table, FIG. 8 is an explanatory diagram showing the extraction result, FIG. 9 is an explanatory diagram showing the contents of the kana notation prefix correction table, and FIG. 10 is an explanatory diagram showing the correction result FIG. 11 is an explanatory diagram showing an output state of a correction result, and FIG. 12 is a flowchart showing a phrase extracting process. 1 ... sentence storage means, 2 ... instruction means, 3 ... readout means, 4 ... character type determination means, 5 ... conversion means, 6 ... determination result storage means, 7 ... phrase extraction means, 8 ... ... Prefix correction dictionary means, 9 ... Phrase segmentation correction means, 10 ... Storage means, 11 ... Output means.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文章を蓄積する文章蓄積手段と、 文章蓄積手段から所望の文章を文章単位で読み出して文
節切り出しの指示を行う指示手段と、 指示された文章を文章蓄積手段から句点を含む文章単位
で読み出す読出手段と、 読み出し文章の文字コードに基づき1文字ずつひらがな
文字の字種と漢字、カタカナなどの非ひらがな文字の字
種及び句点とを判別する字種判別手段と、 字種判別手段により判別されたひらがな文字と非ひらが
な文字及び句点とを2種類の符号にそれぞれ対応させて
変換する変換手段と、 変換された文章の2種類の符号列を順次蓄積する判別結
果蓄積手段と、 判別結果蓄積手段に蓄積された2種類の符号列について
ひらがな文字から非ひらがな文字へ変化する際の符号列
の変位点を検出しその検出した変位点に該当する文章中
に文節の切れ目を文節切出し手段と、 かな表記接頭語を含む文字列に対して文節切れ目の誤り
パターンとその修正パターンを記憶している接頭語修正
辞書手段と、 文節の切れ目が挿入された文章中に文節切れ目の誤りパ
ターンが存在するかどうかを調べその誤りパターンが存
在する場合に、修正パターンに基づいて判別結果蓄積手
段内の該当する符号列の変位点の符号の配列を変更し、
それにより文節の切れ目を変更して再度文節の切り出し
を行う文節切出し修正手段と、 文節切出し修正手段により変更された文節の切れ目を含
む文章を記憶する記憶手段と、 記憶手段に記憶された文章とその文節の切れ目を可視出
力する出力手段とを備えてなる文節切り出し装置。
A sentence storing means for storing a sentence; an instructing means for reading out a desired sentence from the sentence accumulating means in units of sentences and instructing a segment cutout; and a sentence including a period from the sentence storing means. Reading means for reading in units; character type discriminating means for discriminating the character type of hiragana characters and the character type and punctuation of non-hiragana characters such as kanji and katakana character by character based on the character code of the read text; Conversion means for converting the hiragana character, the non-hiragana character, and the punctuation mark determined in accordance with the two types of codes, respectively, and a determination result storage means for sequentially storing two types of code strings of the converted text. A displacement point of the code string when changing from a Hiragana character to a non-Hiragana character is detected for the two types of code strings accumulated in the result accumulating means, and corresponds to the detected displacement point. In the sentence, a phrase break is inserted into the phrase, a prefix correction dictionary storing the error pattern of the phrase break and its correction pattern for the character string including the kana notation prefix, and a phrase break is inserted. It is checked whether there is an error pattern of a segment break in the sentence, and if the error pattern exists, the arrangement of the codes of the displacement points of the corresponding code string in the determination result storage means is changed based on the correction pattern. ,
Thus, a phrase cut-out correcting unit that changes the break of the phrase and cuts out the phrase again, a storage unit that stores a sentence including the break of the phrase changed by the phrase cut-out correcting unit, and a sentence stored in the storage unit. A phrase segmentation device comprising output means for visually outputting the segment break.
JP2324938A 1990-11-26 1990-11-26 Phrase extraction device Expired - Fee Related JP2592993B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2324938A JP2592993B2 (en) 1990-11-26 1990-11-26 Phrase extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2324938A JP2592993B2 (en) 1990-11-26 1990-11-26 Phrase extraction device

Publications (2)

Publication Number Publication Date
JPH04191960A JPH04191960A (en) 1992-07-10
JP2592993B2 true JP2592993B2 (en) 1997-03-19

Family

ID=18171299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2324938A Expired - Fee Related JP2592993B2 (en) 1990-11-26 1990-11-26 Phrase extraction device

Country Status (1)

Country Link
JP (1) JP2592993B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2659700B2 (en) * 1985-03-12 1997-09-30 株式会社東芝 Kana-Kanji conversion method
JPH01295369A (en) * 1988-05-24 1989-11-29 Hitachi Ltd Dividing and processing system for kanji/kana paragraph

Also Published As

Publication number Publication date
JPH04191960A (en) 1992-07-10

Similar Documents

Publication Publication Date Title
US7447627B2 (en) Compound word breaker and spell checker
Palmer Tokenisation and sentence segmentation
US7610193B2 (en) Document based character ambiguity resolution
JPH07325828A (en) Grammar checking system
Gezmu et al. Portable spelling corrector for a less-resourced language: Amharic
Tufiş et al. DIAC+: A professional diacritics recovering system
JP4886244B2 (en) Machine translation apparatus and machine translation program
JP2592993B2 (en) Phrase extraction device
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
JP2592995B2 (en) Phrase extraction device
JP4047895B2 (en) Document proofing apparatus and program storage medium
JP2621999B2 (en) Document processing device
JP2575947B2 (en) Phrase extraction device
JP3285149B2 (en) Foreign language electronic dictionary search method and apparatus
JP4318223B2 (en) Document proofing apparatus and program storage medium
Richy et al. Multilingual String-to-String Correction in Grif, a structured editor
JPS62249269A (en) Document processor
JP2599973B2 (en) Japanese sentence correction candidate character extraction device
JPH0724054B2 (en) Data processing device
JP2570784B2 (en) Document reader post-processing device
JPH0362260A (en) Detecting/correcting device for katakana word error
JPH11203281A (en) Electronic dictionary retrieving device and medium stored with control program for the device
JPH10293811A (en) Document recognition device and method, and program storage medium
JP3132058B2 (en) Document inspection device
JP2776069B2 (en) Document inspection device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees