JPH02103662A - Sentence dividing system - Google Patents

Sentence dividing system

Info

Publication number
JPH02103662A
JPH02103662A JP63256635A JP25663588A JPH02103662A JP H02103662 A JPH02103662 A JP H02103662A JP 63256635 A JP63256635 A JP 63256635A JP 25663588 A JP25663588 A JP 25663588A JP H02103662 A JPH02103662 A JP H02103662A
Authority
JP
Japan
Prior art keywords
sentence
text
section
delimiter
pronoun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63256635A
Other languages
Japanese (ja)
Inventor
Norikazu Ito
則和 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63256635A priority Critical patent/JPH02103662A/en
Publication of JPH02103662A publication Critical patent/JPH02103662A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To improve a sentence structure analyzing speed, efficiency, and accuracy of the title system without spoiling the information held by an original text by mechanically dividing the original text to be processed. CONSTITUTION:A translating device having a dictionary consulting system is provided with a CRT 1, keyboard 2, OCR 3, input document 4, spell checking section 5, preediting section 6, translating main body section 7, post-editing section 8, dictionary 9, grammatical rule 10, output document 11, and printer 12. When three marks and words respectively held in a punctuation mark table, coordinate conjunction table, and personal pronoun table continuously appear in an input text, it is estimated that punctuation exists between the punctuation mark and personal pronoun and the first letter of the coordinate conjunction is capitalized by considering that the pronoun is the leading word of the punctuated sentence after rewriting the punctuation mark to a sentence ending mark. Since a given text is divided in accordance with the morphological feature of the sentence in such way, accurate, quick, and efficient analyses can be performed.

Description

【発明の詳細な説明】 皮権分黙 本発明は、文分割方式、より詳細には、言語理解装置、
機械翻訳装置における形態素解析部及び構文解析部に関
するものである。
[Detailed Description of the Invention] The present invention provides a sentence segmentation method, more specifically, a language understanding device,
The present invention relates to a morphological analysis unit and a syntactic analysis unit in a machine translation device.

従】」1区 近年、機械翻訳システム等において利用される自然言語
解析の発達は目覚ましい。とはいえ、まだ精度、速度等
の点において、十分とはいえない状況である。その1つ
の理由として解析対象文が長すぎることが挙げられる。
1. In recent years, natural language analysis, which is used in machine translation systems, has made remarkable progress. However, the situation is still not satisfactory in terms of accuracy, speed, etc. One reason for this is that the sentence to be analyzed is too long.

一般に構文解析の解析単位は1文である。解析を行う時
にその解析範囲は短いのが望ましい。つまり、より短い
範囲を解析するのならば、解析規則の適用回数及び組み
合わせ数が少なくて済むので、解析がより容易であり、
解析過程で生まれるあいまい性をより少なく押さえるこ
とができる。
Generally, the unit of syntax analysis is one sentence. When performing analysis, it is desirable that the analysis range be short. In other words, if a shorter range is to be analyzed, the number of applications and combinations of analysis rules can be reduced, making the analysis easier.
Ambiguity generated during the analysis process can be minimized.

しかし、実際のテキストは短い文ばかりから成り立って
いるわけではなく、その逆に、多くは長い文からなって
いる。そこで1文を適当に分割して複数の文とすれば、
各文は短い文となり、解析範囲が限定されて、解析規則
の適用回数及び組み合わせ数が著しく減少するので、む
だな規則適用や組み合わせも減少し、解析効率が向上し
て速度が上がり、あいまい性も解消されて解析精度も向
上する。
However, actual texts do not only consist of short sentences; on the contrary, many of them consist of long sentences. So, if you divide one sentence into multiple sentences,
Each sentence becomes a short sentence, the parsing range is limited, and the number of application and combinations of parsing rules is significantly reduced, which reduces unnecessary rule applications and combinations, improves parsing efficiency and speed, and reduces ambiguity. This also improves analysis accuracy.

このような文分割方式として、特開昭62−16317
6号公報には、原文中からrandJrorJ  rh
oweverJ等、予め定められた文字列パターンを抽
出し、用法の提示をオペレータが与えることによって原
文を区分する文編集装置が提案されている。また、特開
昭63−10267号公報には、原文をオペレータの指
示によって指定した個所で分割したり、また、複数の文
章を単一の文章に連結する機械翻訳装置が開示されてい
る。。
As such a sentence division method, Japanese Patent Application Laid-Open No. 62-16317
In Publication No. 6, randJrorJrh
Sentence editing devices, such as overheaderJ, have been proposed that extract predetermined character string patterns and classify original sentences by having an operator provide usage suggestions. Further, Japanese Patent Application Laid-Open No. 10267/1983 discloses a machine translation device that divides an original text at locations specified by an operator's instructions, and that concatenates multiple sentences into a single sentence. .

しかし、これらの従来の装置は、いずれもオペレータの
指示によるものであり、自動的な処理がなされるもので
ないため、指示の適格さや速度の点で難点がある。長文
の解析にあたって、これを分割することについては上述
したとおりオペレータの指示を必要とするもので、人手
を介さない機械だけによる解析はまだまだ精度が落ちる
のが現状である。
However, these conventional devices all rely on instructions from an operator and do not perform automatic processing, so they have drawbacks in terms of appropriateness and speed of instructions. As mentioned above, when analyzing a long text, instructions from the operator are required to divide the text into segments, and the current situation is that the accuracy of analysis by machines alone without human intervention is still low.

月−一二眞 本発明は、上述のごとき実情に鑑みてなされたもので、
与えられたテキストを形態的特徴から分割することによ
り、自動的な分割を可能とし、より正確で速く効率の良
い解析が行えるようにすることを目的としてなされたも
のである。
The present invention was made in view of the above-mentioned circumstances.
The purpose of this method is to enable automatic segmentation by dividing a given text based on its morphological features, and to enable more accurate, faster, and more efficient analysis.

構   成。composition.

本発明は、上記目的を達成するために、機械翻訳等の自
然言語解析システムにおける形態素解析部において、入
力された言語テキストを分かつためにコンマ、ダッシュ
などの区切り記号を持つ区切り記号テーブルと等位接続
詞を持つ等位接続詞テーブルと人称代名詞の主格を持つ
人称代名詞テーブルとを備え、入力されたテキストにそ
れぞれのテーブルが持つ語が1つずつ連続で現われたと
きに、区切り記号と等位接続詞の語の間に内容の切れ目
があると推定し、区切り記号を文末記号に書き替え1等
位接続詞を区切られた文の先頭であるとして1文字目を
大文字化することを特徴としたものである。以下、本発
明の実施例に基づいて説明する。
In order to achieve the above object, the present invention provides a delimiter table and a delimiter table having delimiters such as commas and dashes to separate input linguistic text in a morphological analysis unit in a natural language analysis system such as machine translation. It has a coordinating conjunction table with conjunctions and a personal pronoun table with nominative personal pronouns, and when the words of each table appear one after another in the input text, the delimiters and coordinating conjunctions are displayed. It is characterized by estimating that there is a break in the content between words, replacing the delimiter with a sentence-final symbol, and capitalizing the first letter, assuming that the first-coordinate conjunction is the beginning of a separated sentence. . Hereinafter, the present invention will be explained based on examples.

第1図は、本発明による辞書引き方式を備えた翻訳装置
の一実施例を示す構成図で、図中、1はCRT、2はキ
ーボード、3は0CR14は入力文書、5はスペルチェ
ック部、6は前編集部、7は翻訳本体部、8は後編集部
、9は辞書、10は文法規則、11は出力文書、12は
プリンタで、ファイル入力、キーボード入力、OCR入
力のいずれかによって得た入力文はスペルチェック、前
編集を用いて前処理され、翻訳部によって得られた出力
文は後編集によって翻訳情報を利用して編集され、入力
文と出力文はプリンタを用いて印刷される。
FIG. 1 is a block diagram showing an embodiment of a translation device equipped with a dictionary lookup method according to the present invention. In the figure, 1 is a CRT, 2 is a keyboard, 3 is an input document 0CR14, 5 is a spell check unit, 6 is a pre-editing section, 7 is a translation main section, 8 is a post-editing section, 9 is a dictionary, 10 is a grammar rule, 11 is an output document, 12 is a printer, and the information obtained by file input, keyboard input, or OCR input is The input sentences are preprocessed using spell checking and pre-editing, the output sentences obtained by the translation section are edited using the translation information in post-editing, and the input and output sentences are printed using a printer. .

第2図は、翻訳本体部の流れを示す図で、この翻訳本体
部(翻訳部)7は大きく分けて形態素解析、構文解析、
変換、生成の4つの処理からなり、まず、形態素解析部
では入力テキストの辞書引きを行なう6個々の語の情報
を得て構文解析部では文法規則に従ってパージングを行
う。解析結果から木構造を作成する。変換部では入力言
語の木構造から出カフ1語の本構造に変形する。生成部
では得られた木構造をノードごとに訳出する。
FIG. 2 is a diagram showing the flow of the translation main body section. This translation main body section (translation section) 7 is roughly divided into morphological analysis, syntactic analysis,
It consists of four processes: conversion and generation. First, the morphological analysis section performs a dictionary lookup of the input text to obtain information on six individual words, and the syntactic analysis section performs parsing according to grammatical rules. Create a tree structure from the analysis results. The conversion unit transforms the tree structure of the input language into the book structure of one output word. The generation section translates the obtained tree structure node by node.

本発明は、上記形態素解析部に属するもので。The present invention belongs to the above-mentioned morphological analysis section.

ここでは入力テキストは英文とする。入力されたテキス
トを対象として、形態素解析部では第3図に示す分割処
理を行う。
Here, the input text is English. The morphological analysis section performs the division process shown in FIG. 3 on the input text.

第4図乃至第6図は、第3図の分割処理に用いられるテ
ーブルの一例であり、第4図は区切り記号テーブル、第
5図は、等位接続詞テーブル、第6図は、主格人称代名
詞テーブルである。
Figures 4 to 6 are examples of tables used in the division process in Figure 3. Figure 4 is a delimiter table, Figure 5 is a coordinate conjunction table, and Figure 6 is a nominative personal pronoun. It's a table.

第3図は、分割処理の流れを示す図で、入力されたテキ
ストを初めから最後までl iiずつ調べていく0区切
り記号でない場合、等位接続詞でない場合、主格人称代
名詞でない場合は、いずれもポインタを1語進めて調べ
ていく。区切り記号であれば、ポインタを1語進め、次
の語が等位接続詞であれば、更に1語進め、次が主格人
称代名詞である場合、すなわち、区切り記号と等位接続
詞と主格人称代名詞の3つが連続して呪われた時にテキ
ストの切れ目が存在すると判定する。このとき区切り記
号と等位接続詞の間でテキストを分割する。同時に区切
り記号を文末記号とする。テキストが英文であればピリ
オドにする。等位接続詞は次の文の先頭となるので最初
の文字を大文字とする。
Figure 3 is a diagram showing the flow of the division process, in which the input text is examined from beginning to end in increments of l ii.If it is not a 0 delimiter, if it is not a coordinating conjunction, or if it is not a nominative personal pronoun, Move the pointer forward one word to find out. If it is a delimiter, advance the pointer one word, if the next word is a coordinating conjunction, advance it one more word, and if the next word is a nominative personal pronoun, that is, a delimiter, a coordinating conjunction, and a nominative personal pronoun. It is determined that there is a break in the text when three curses occur in succession. At this time, the text is divided between the delimiter and the coordinating conjunction. At the same time, the delimiter is the end of sentence symbol. If the text is in English, use a period. Coordinating conjunctions begin the next sentence, so capitalize the first letter.

以下、実例を示して説明する。This will be explained below using an example.

今、次のテキスト(A)が与えられているとする。Assume that the following text (A) is now given.

(A)、 The arrival of expor
ts from the MiddleEast wi
ll be a 5hock、 and I don’
t see anyorganized way to
 absorb it。
(A), The arrival of export
ts from the Middle East
I'll be a 5hock, and I don't
t see any organized way to
absorb it.

調べる手順は次の(1)〜(8)によって行なわれる。The checking procedure is performed according to the following (1) to (8).

(1)、テキストの先頭から1語ずつそれが区切り記号
であるかどうか調べる。
(1) Check each word from the beginning of the text to see if it is a delimiter.

rTheJ から始まり、 rshockJまでは区切
り記号はないから1語づつ、この処理が繰り返される。
Starting from rTheJ and ending with rshockJ, there is no delimiter, so this process is repeated word by word.

区切り記号であれば次の語を見る。If it is a delimiter, look at the next word.

rshockJの次の「、」は区切り記号であるから、
(3)に移る。
The “,” next to rshockJ is a delimiter, so
Move on to (3).

(2)。(2).

次の語が等位接続詞であるかどうかを調べる。Find out whether the following words are coordinating conjunctions.

randJ を調べる。Check randJ.

等位接続詞であれば次の語を見る6 randJは等位接続詞であるから、 (5)に移る。If it is a coordinating conjunction, look at the next word6 Since randJ is a coordinating conjunction, Move on to (5).

次の語が主格人称代名詞であるかどうかを調べる。Check whether the following word is a nominative personal pronoun.

次の語「I」を調べる。Look up the next word "I".

(6)、主格人称代名詞であれば分割処理を行う。(6) If it is a nominative personal pronoun, a division process is performed.

「工」は主格人称代名詞であるから、 (7)に移る。Because “tech” is a nominative personal pronoun, Move on to (7).

区切り記号を文末記号に変える。この場合はピリオドと
する。
Change the delimiter to the end of sentence symbol. In this case, use a period.

「、」を「、」に変える。つまり、「、」と次の語ra
ndJとの間で文を分割する。
Change "," to ",". In other words, "," and the next word ra
Divide the sentence between ndJ and ndJ.

等位接続詞の先頭文字を大文字とする。Capitalize the first letter of a coordinating conjunction.

randJは上記分割の結果、文頭となるので、先頭文
字「a」を大文字に変えrAndJ とする。
As a result of the above division, randJ becomes the beginning of a sentence, so the first character "a" is changed to a capital letter and becomes rAndJ.

(3)。(3).

(4)。(4).

(5)。(5).

(7)。(7).

(8)。(8).

以上の分割処理の結果5文(A)は以下のように文(B
)と文(C)に分かれる。
As a result of the above division processing, 5 sentences (A) are converted into sentences (B) as follows.
) and sentence (C).

(B)、 The arrival of expor
ts from the MIddleEast wi
ll be a 5hock。
(B), The arrival of export
ts from the MIddleEast wi
ll be a 5hock.

(C)、 And I don’t see any 
organized way t。
(C), And I don't see any
organized way.

absorb it。absorb it.

なお、本方式は形態的特徴のみを利用しているために、
主格人称代名詞テーブルは主格のみに用いられる言葉だ
けを持つ。したがって、英文の場合、例えば2人称を示
すyouは見た目(形態)では主格か目的格かわからな
いためこのテーブルには入れていない。
Note that since this method uses only morphological features,
The nominative personal pronoun table has only words that are used only in the nominative. Therefore, in the case of English sentences, for example, you, which indicates the second person, is not included in this table because it is difficult to tell whether it is the nominative case or the objective case based on its appearance (form).

劾−一一果 以上の説明から明らかなように、本発明によれば、処理
対象テキストを機械的に分割することによって原テキス
トの持つ情報を損なうことなく、構文解析を行うときの
速度、効率及び精度を向上させることができる。
As is clear from the above explanation, according to the present invention, by mechanically dividing the text to be processed, the speed and efficiency of parsing can be improved without losing the information of the original text. and accuracy can be improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は、本発明による辞書引き方式を備えた翻訳装置
の一実施例を示す構成図、第2図は、翻訳本体部の流れ
を示す図、第3図は1分割処理の流れを示す図、第4図
乃至第6図は、テーブルの例を示す図である。 1・・・CRT、2・・・キーボード、3・・・OCR
,4・・・入力文書、5・・・スペルチェック部、6・
・・前編集部。 7・・・翻訳本体部、8・・・後編集部、9・・・辞書
、10・・・文法規則、11・・・出力文書、12・・
・プリンタ。 第 図 第 図 第 図
FIG. 1 is a block diagram showing an embodiment of a translation device equipped with a dictionary lookup method according to the present invention, FIG. 2 is a diagram showing the flow of the translation main body, and FIG. 3 is a flow diagram of the 1-division processing. 4 to 6 are diagrams showing examples of tables. 1...CRT, 2...Keyboard, 3...OCR
, 4... Input document, 5... Spell check section, 6.
...Previous editorial department. 7... Translation body part, 8... Post-editing part, 9... Dictionary, 10... Grammar rules, 11... Output document, 12...
・Printer. Figure Figure Figure Figure

Claims (1)

【特許請求の範囲】[Claims] 1、機械翻訳等の自然言語解析システムにおける形態素
解析部において、入力された言語テキストを分かつため
にコンマ、ダッシュなどの区切り記号を持つ区切り記号
テーブルと等位接続詞を持つ等位接続詞テーブルと人称
代名詞の主格を持つ人称代名詞テーブルとを備え、入力
されたテキストにそれぞれのテーブルが持つ語が1つず
つ連続で現われたときに、区切り記号と等位接続詞の語
の間に内容の切れ目があると推定し、区切り記号を文末
記号に書き替え、等位接続詞を区切られた文の先頭であ
るとして1文字目を大文字化することを特徴とする文分
割方式。
1. In the morphological analysis section of a natural language analysis system such as machine translation, in order to separate input language text, a delimiter table with delimiters such as commas and dashes, a coordinate conjunction table with coordinating conjunctions, and personal pronouns are used. personal pronoun tables with the nominative case of A sentence division method that is characterized by estimating the delimiter, rewriting the delimiter with a sentence-final symbol, and capitalizing the first character of the coordinating conjunction, assuming that it is the beginning of the delimited sentence.
JP63256635A 1988-10-12 1988-10-12 Sentence dividing system Pending JPH02103662A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63256635A JPH02103662A (en) 1988-10-12 1988-10-12 Sentence dividing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63256635A JPH02103662A (en) 1988-10-12 1988-10-12 Sentence dividing system

Publications (1)

Publication Number Publication Date
JPH02103662A true JPH02103662A (en) 1990-04-16

Family

ID=17295347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63256635A Pending JPH02103662A (en) 1988-10-12 1988-10-12 Sentence dividing system

Country Status (1)

Country Link
JP (1) JPH02103662A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04235672A (en) * 1991-01-10 1992-08-24 Sharp Corp Translation machine
WO1999062000A2 (en) * 1998-05-26 1999-12-02 Teragram Corporation Spelling and grammar checking system
CN112861513A (en) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 Text segmentation method and device, electronic equipment and storage medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04235672A (en) * 1991-01-10 1992-08-24 Sharp Corp Translation machine
WO1999062000A2 (en) * 1998-05-26 1999-12-02 Teragram Corporation Spelling and grammar checking system
WO1999062000A3 (en) * 1998-05-26 2001-06-07 Teragram Corp Spelling and grammar checking system
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
CN112861513A (en) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 Text segmentation method and device, electronic equipment and storage medium
CN112861513B (en) * 2021-02-05 2024-02-06 北京百度网讯科技有限公司 Text segmentation method, device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
Klein et al. A computational approach to grammatical coding of English words
JP2765665B2 (en) Translation device for documents with typographical information
JPH02103662A (en) Sentence dividing system
JPS62165267A (en) Voice word processor device
KR100434526B1 (en) Sentence extracting method from document by using context information and local document form
JP2688020B2 (en) Derivative word processing method
JP3136973B2 (en) Language analysis system and method
JP2902343B2 (en) Language analysis system and method
JPH04281557A (en) Sentence segmentation system
JP2915225B2 (en) Document creation device
JPS62143178A (en) Natural language translation system
JPH03259376A (en) Japanese language long text division supporting device
JP3884001B2 (en) Language analysis system and method
JPS61281367A (en) Noun phrase determining system for english analysis
JPH04112364A (en) Dictionary consulting system
JPH04105171A (en) Machine translation system
JPS63255773A (en) Mechanical translation processing system
JPS6389975A (en) Language analyzer
JPH03157766A (en) Machine translation device
JPS63109573A (en) Processing system for adjunct interrogative
JPH02103663A (en) Dictionary consulting system
JPS62263568A (en) Word processor
JPH01118961A (en) Translating device
JPS61118869A (en) Kana/kanji converting sentence editing device
KR20000043739A (en) Method for translating multi-word translation units in korean-japanese machinery translating system