JPH02103662A - Sentence dividing system - Google Patents
Sentence dividing systemInfo
- Publication number
- JPH02103662A JPH02103662A JP63256635A JP25663588A JPH02103662A JP H02103662 A JPH02103662 A JP H02103662A JP 63256635 A JP63256635 A JP 63256635A JP 25663588 A JP25663588 A JP 25663588A JP H02103662 A JPH02103662 A JP H02103662A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- text
- section
- delimiter
- pronoun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000000877 morphologic effect Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 15
- 101150097247 CRT1 gene Proteins 0.000 abstract 1
- -1 keyboard 2 Proteins 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 235000014277 Clidemia hirta Nutrition 0.000 description 1
- 241000069219 Henriettea Species 0.000 description 1
Abstract
Description
【発明の詳細な説明】
皮権分黙
本発明は、文分割方式、より詳細には、言語理解装置、
機械翻訳装置における形態素解析部及び構文解析部に関
するものである。[Detailed Description of the Invention] The present invention provides a sentence segmentation method, more specifically, a language understanding device,
The present invention relates to a morphological analysis unit and a syntactic analysis unit in a machine translation device.
従】」1区
近年、機械翻訳システム等において利用される自然言語
解析の発達は目覚ましい。とはいえ、まだ精度、速度等
の点において、十分とはいえない状況である。その1つ
の理由として解析対象文が長すぎることが挙げられる。1. In recent years, natural language analysis, which is used in machine translation systems, has made remarkable progress. However, the situation is still not satisfactory in terms of accuracy, speed, etc. One reason for this is that the sentence to be analyzed is too long.
一般に構文解析の解析単位は1文である。解析を行う時
にその解析範囲は短いのが望ましい。つまり、より短い
範囲を解析するのならば、解析規則の適用回数及び組み
合わせ数が少なくて済むので、解析がより容易であり、
解析過程で生まれるあいまい性をより少なく押さえるこ
とができる。Generally, the unit of syntax analysis is one sentence. When performing analysis, it is desirable that the analysis range be short. In other words, if a shorter range is to be analyzed, the number of applications and combinations of analysis rules can be reduced, making the analysis easier.
Ambiguity generated during the analysis process can be minimized.
しかし、実際のテキストは短い文ばかりから成り立って
いるわけではなく、その逆に、多くは長い文からなって
いる。そこで1文を適当に分割して複数の文とすれば、
各文は短い文となり、解析範囲が限定されて、解析規則
の適用回数及び組み合わせ数が著しく減少するので、む
だな規則適用や組み合わせも減少し、解析効率が向上し
て速度が上がり、あいまい性も解消されて解析精度も向
上する。However, actual texts do not only consist of short sentences; on the contrary, many of them consist of long sentences. So, if you divide one sentence into multiple sentences,
Each sentence becomes a short sentence, the parsing range is limited, and the number of application and combinations of parsing rules is significantly reduced, which reduces unnecessary rule applications and combinations, improves parsing efficiency and speed, and reduces ambiguity. This also improves analysis accuracy.
このような文分割方式として、特開昭62−16317
6号公報には、原文中からrandJrorJ rh
oweverJ等、予め定められた文字列パターンを抽
出し、用法の提示をオペレータが与えることによって原
文を区分する文編集装置が提案されている。また、特開
昭63−10267号公報には、原文をオペレータの指
示によって指定した個所で分割したり、また、複数の文
章を単一の文章に連結する機械翻訳装置が開示されてい
る。。As such a sentence division method, Japanese Patent Application Laid-Open No. 62-16317
In Publication No. 6, randJrorJrh
Sentence editing devices, such as overheaderJ, have been proposed that extract predetermined character string patterns and classify original sentences by having an operator provide usage suggestions. Further, Japanese Patent Application Laid-Open No. 10267/1983 discloses a machine translation device that divides an original text at locations specified by an operator's instructions, and that concatenates multiple sentences into a single sentence. .
しかし、これらの従来の装置は、いずれもオペレータの
指示によるものであり、自動的な処理がなされるもので
ないため、指示の適格さや速度の点で難点がある。長文
の解析にあたって、これを分割することについては上述
したとおりオペレータの指示を必要とするもので、人手
を介さない機械だけによる解析はまだまだ精度が落ちる
のが現状である。However, these conventional devices all rely on instructions from an operator and do not perform automatic processing, so they have drawbacks in terms of appropriateness and speed of instructions. As mentioned above, when analyzing a long text, instructions from the operator are required to divide the text into segments, and the current situation is that the accuracy of analysis by machines alone without human intervention is still low.
月−一二眞
本発明は、上述のごとき実情に鑑みてなされたもので、
与えられたテキストを形態的特徴から分割することによ
り、自動的な分割を可能とし、より正確で速く効率の良
い解析が行えるようにすることを目的としてなされたも
のである。The present invention was made in view of the above-mentioned circumstances.
The purpose of this method is to enable automatic segmentation by dividing a given text based on its morphological features, and to enable more accurate, faster, and more efficient analysis.
構 成。composition.
本発明は、上記目的を達成するために、機械翻訳等の自
然言語解析システムにおける形態素解析部において、入
力された言語テキストを分かつためにコンマ、ダッシュ
などの区切り記号を持つ区切り記号テーブルと等位接続
詞を持つ等位接続詞テーブルと人称代名詞の主格を持つ
人称代名詞テーブルとを備え、入力されたテキストにそ
れぞれのテーブルが持つ語が1つずつ連続で現われたと
きに、区切り記号と等位接続詞の語の間に内容の切れ目
があると推定し、区切り記号を文末記号に書き替え1等
位接続詞を区切られた文の先頭であるとして1文字目を
大文字化することを特徴としたものである。以下、本発
明の実施例に基づいて説明する。In order to achieve the above object, the present invention provides a delimiter table and a delimiter table having delimiters such as commas and dashes to separate input linguistic text in a morphological analysis unit in a natural language analysis system such as machine translation. It has a coordinating conjunction table with conjunctions and a personal pronoun table with nominative personal pronouns, and when the words of each table appear one after another in the input text, the delimiters and coordinating conjunctions are displayed. It is characterized by estimating that there is a break in the content between words, replacing the delimiter with a sentence-final symbol, and capitalizing the first letter, assuming that the first-coordinate conjunction is the beginning of a separated sentence. . Hereinafter, the present invention will be explained based on examples.
第1図は、本発明による辞書引き方式を備えた翻訳装置
の一実施例を示す構成図で、図中、1はCRT、2はキ
ーボード、3は0CR14は入力文書、5はスペルチェ
ック部、6は前編集部、7は翻訳本体部、8は後編集部
、9は辞書、10は文法規則、11は出力文書、12は
プリンタで、ファイル入力、キーボード入力、OCR入
力のいずれかによって得た入力文はスペルチェック、前
編集を用いて前処理され、翻訳部によって得られた出力
文は後編集によって翻訳情報を利用して編集され、入力
文と出力文はプリンタを用いて印刷される。FIG. 1 is a block diagram showing an embodiment of a translation device equipped with a dictionary lookup method according to the present invention. In the figure, 1 is a CRT, 2 is a keyboard, 3 is an input document 0CR14, 5 is a spell check unit, 6 is a pre-editing section, 7 is a translation main section, 8 is a post-editing section, 9 is a dictionary, 10 is a grammar rule, 11 is an output document, 12 is a printer, and the information obtained by file input, keyboard input, or OCR input is The input sentences are preprocessed using spell checking and pre-editing, the output sentences obtained by the translation section are edited using the translation information in post-editing, and the input and output sentences are printed using a printer. .
第2図は、翻訳本体部の流れを示す図で、この翻訳本体
部(翻訳部)7は大きく分けて形態素解析、構文解析、
変換、生成の4つの処理からなり、まず、形態素解析部
では入力テキストの辞書引きを行なう6個々の語の情報
を得て構文解析部では文法規則に従ってパージングを行
う。解析結果から木構造を作成する。変換部では入力言
語の木構造から出カフ1語の本構造に変形する。生成部
では得られた木構造をノードごとに訳出する。FIG. 2 is a diagram showing the flow of the translation main body section. This translation main body section (translation section) 7 is roughly divided into morphological analysis, syntactic analysis,
It consists of four processes: conversion and generation. First, the morphological analysis section performs a dictionary lookup of the input text to obtain information on six individual words, and the syntactic analysis section performs parsing according to grammatical rules. Create a tree structure from the analysis results. The conversion unit transforms the tree structure of the input language into the book structure of one output word. The generation section translates the obtained tree structure node by node.
本発明は、上記形態素解析部に属するもので。The present invention belongs to the above-mentioned morphological analysis section.
ここでは入力テキストは英文とする。入力されたテキス
トを対象として、形態素解析部では第3図に示す分割処
理を行う。Here, the input text is English. The morphological analysis section performs the division process shown in FIG. 3 on the input text.
第4図乃至第6図は、第3図の分割処理に用いられるテ
ーブルの一例であり、第4図は区切り記号テーブル、第
5図は、等位接続詞テーブル、第6図は、主格人称代名
詞テーブルである。Figures 4 to 6 are examples of tables used in the division process in Figure 3. Figure 4 is a delimiter table, Figure 5 is a coordinate conjunction table, and Figure 6 is a nominative personal pronoun. It's a table.
第3図は、分割処理の流れを示す図で、入力されたテキ
ストを初めから最後までl iiずつ調べていく0区切
り記号でない場合、等位接続詞でない場合、主格人称代
名詞でない場合は、いずれもポインタを1語進めて調べ
ていく。区切り記号であれば、ポインタを1語進め、次
の語が等位接続詞であれば、更に1語進め、次が主格人
称代名詞である場合、すなわち、区切り記号と等位接続
詞と主格人称代名詞の3つが連続して呪われた時にテキ
ストの切れ目が存在すると判定する。このとき区切り記
号と等位接続詞の間でテキストを分割する。同時に区切
り記号を文末記号とする。テキストが英文であればピリ
オドにする。等位接続詞は次の文の先頭となるので最初
の文字を大文字とする。Figure 3 is a diagram showing the flow of the division process, in which the input text is examined from beginning to end in increments of l ii.If it is not a 0 delimiter, if it is not a coordinating conjunction, or if it is not a nominative personal pronoun, Move the pointer forward one word to find out. If it is a delimiter, advance the pointer one word, if the next word is a coordinating conjunction, advance it one more word, and if the next word is a nominative personal pronoun, that is, a delimiter, a coordinating conjunction, and a nominative personal pronoun. It is determined that there is a break in the text when three curses occur in succession. At this time, the text is divided between the delimiter and the coordinating conjunction. At the same time, the delimiter is the end of sentence symbol. If the text is in English, use a period. Coordinating conjunctions begin the next sentence, so capitalize the first letter.
以下、実例を示して説明する。This will be explained below using an example.
今、次のテキスト(A)が与えられているとする。Assume that the following text (A) is now given.
(A)、 The arrival of expor
ts from the MiddleEast wi
ll be a 5hock、 and I don’
t see anyorganized way to
absorb it。(A), The arrival of export
ts from the Middle East
I'll be a 5hock, and I don't
t see any organized way to
absorb it.
調べる手順は次の(1)〜(8)によって行なわれる。The checking procedure is performed according to the following (1) to (8).
(1)、テキストの先頭から1語ずつそれが区切り記号
であるかどうか調べる。(1) Check each word from the beginning of the text to see if it is a delimiter.
rTheJ から始まり、 rshockJまでは区切
り記号はないから1語づつ、この処理が繰り返される。Starting from rTheJ and ending with rshockJ, there is no delimiter, so this process is repeated word by word.
区切り記号であれば次の語を見る。If it is a delimiter, look at the next word.
rshockJの次の「、」は区切り記号であるから、
(3)に移る。The “,” next to rshockJ is a delimiter, so
Move on to (3).
(2)。(2).
次の語が等位接続詞であるかどうかを調べる。Find out whether the following words are coordinating conjunctions.
randJ を調べる。Check randJ.
等位接続詞であれば次の語を見る6 randJは等位接続詞であるから、 (5)に移る。If it is a coordinating conjunction, look at the next word6 Since randJ is a coordinating conjunction, Move on to (5).
次の語が主格人称代名詞であるかどうかを調べる。Check whether the following word is a nominative personal pronoun.
次の語「I」を調べる。Look up the next word "I".
(6)、主格人称代名詞であれば分割処理を行う。(6) If it is a nominative personal pronoun, a division process is performed.
「工」は主格人称代名詞であるから、 (7)に移る。Because “tech” is a nominative personal pronoun, Move on to (7).
区切り記号を文末記号に変える。この場合はピリオドと
する。Change the delimiter to the end of sentence symbol. In this case, use a period.
「、」を「、」に変える。つまり、「、」と次の語ra
ndJとの間で文を分割する。Change "," to ",". In other words, "," and the next word ra
Divide the sentence between ndJ and ndJ.
等位接続詞の先頭文字を大文字とする。Capitalize the first letter of a coordinating conjunction.
randJは上記分割の結果、文頭となるので、先頭文
字「a」を大文字に変えrAndJ とする。As a result of the above division, randJ becomes the beginning of a sentence, so the first character "a" is changed to a capital letter and becomes rAndJ.
(3)。(3).
(4)。(4).
(5)。(5).
(7)。(7).
(8)。(8).
以上の分割処理の結果5文(A)は以下のように文(B
)と文(C)に分かれる。As a result of the above division processing, 5 sentences (A) are converted into sentences (B) as follows.
) and sentence (C).
(B)、 The arrival of expor
ts from the MIddleEast wi
ll be a 5hock。(B), The arrival of export
ts from the MIddleEast wi
ll be a 5hock.
(C)、 And I don’t see any
organized way t。(C), And I don't see any
organized way.
absorb it。absorb it.
なお、本方式は形態的特徴のみを利用しているために、
主格人称代名詞テーブルは主格のみに用いられる言葉だ
けを持つ。したがって、英文の場合、例えば2人称を示
すyouは見た目(形態)では主格か目的格かわからな
いためこのテーブルには入れていない。Note that since this method uses only morphological features,
The nominative personal pronoun table has only words that are used only in the nominative. Therefore, in the case of English sentences, for example, you, which indicates the second person, is not included in this table because it is difficult to tell whether it is the nominative case or the objective case based on its appearance (form).
劾−一一果
以上の説明から明らかなように、本発明によれば、処理
対象テキストを機械的に分割することによって原テキス
トの持つ情報を損なうことなく、構文解析を行うときの
速度、効率及び精度を向上させることができる。As is clear from the above explanation, according to the present invention, by mechanically dividing the text to be processed, the speed and efficiency of parsing can be improved without losing the information of the original text. and accuracy can be improved.
第1図は、本発明による辞書引き方式を備えた翻訳装置
の一実施例を示す構成図、第2図は、翻訳本体部の流れ
を示す図、第3図は1分割処理の流れを示す図、第4図
乃至第6図は、テーブルの例を示す図である。
1・・・CRT、2・・・キーボード、3・・・OCR
,4・・・入力文書、5・・・スペルチェック部、6・
・・前編集部。
7・・・翻訳本体部、8・・・後編集部、9・・・辞書
、10・・・文法規則、11・・・出力文書、12・・
・プリンタ。
第
図
第
図
第
図FIG. 1 is a block diagram showing an embodiment of a translation device equipped with a dictionary lookup method according to the present invention, FIG. 2 is a diagram showing the flow of the translation main body, and FIG. 3 is a flow diagram of the 1-division processing. 4 to 6 are diagrams showing examples of tables. 1...CRT, 2...Keyboard, 3...OCR
, 4... Input document, 5... Spell check section, 6.
...Previous editorial department. 7... Translation body part, 8... Post-editing part, 9... Dictionary, 10... Grammar rules, 11... Output document, 12...
・Printer. Figure Figure Figure Figure
Claims (1)
解析部において、入力された言語テキストを分かつため
にコンマ、ダッシュなどの区切り記号を持つ区切り記号
テーブルと等位接続詞を持つ等位接続詞テーブルと人称
代名詞の主格を持つ人称代名詞テーブルとを備え、入力
されたテキストにそれぞれのテーブルが持つ語が1つず
つ連続で現われたときに、区切り記号と等位接続詞の語
の間に内容の切れ目があると推定し、区切り記号を文末
記号に書き替え、等位接続詞を区切られた文の先頭であ
るとして1文字目を大文字化することを特徴とする文分
割方式。1. In the morphological analysis section of a natural language analysis system such as machine translation, in order to separate input language text, a delimiter table with delimiters such as commas and dashes, a coordinate conjunction table with coordinating conjunctions, and personal pronouns are used. personal pronoun tables with the nominative case of A sentence division method that is characterized by estimating the delimiter, rewriting the delimiter with a sentence-final symbol, and capitalizing the first character of the coordinating conjunction, assuming that it is the beginning of the delimited sentence.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63256635A JPH02103662A (en) | 1988-10-12 | 1988-10-12 | Sentence dividing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63256635A JPH02103662A (en) | 1988-10-12 | 1988-10-12 | Sentence dividing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02103662A true JPH02103662A (en) | 1990-04-16 |
Family
ID=17295347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63256635A Pending JPH02103662A (en) | 1988-10-12 | 1988-10-12 | Sentence dividing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02103662A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04235672A (en) * | 1991-01-10 | 1992-08-24 | Sharp Corp | Translation machine |
WO1999062000A2 (en) * | 1998-05-26 | 1999-12-02 | Teragram Corporation | Spelling and grammar checking system |
CN112861513A (en) * | 2021-02-05 | 2021-05-28 | 北京百度网讯科技有限公司 | Text segmentation method and device, electronic equipment and storage medium |
-
1988
- 1988-10-12 JP JP63256635A patent/JPH02103662A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04235672A (en) * | 1991-01-10 | 1992-08-24 | Sharp Corp | Translation machine |
WO1999062000A2 (en) * | 1998-05-26 | 1999-12-02 | Teragram Corporation | Spelling and grammar checking system |
WO1999062000A3 (en) * | 1998-05-26 | 2001-06-07 | Teragram Corp | Spelling and grammar checking system |
US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
CN112861513A (en) * | 2021-02-05 | 2021-05-28 | 北京百度网讯科技有限公司 | Text segmentation method and device, electronic equipment and storage medium |
CN112861513B (en) * | 2021-02-05 | 2024-02-06 | 北京百度网讯科技有限公司 | Text segmentation method, device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Klein et al. | A computational approach to grammatical coding of English words | |
JP2765665B2 (en) | Translation device for documents with typographical information | |
JPH02103662A (en) | Sentence dividing system | |
JPS62165267A (en) | Voice word processor device | |
KR100434526B1 (en) | Sentence extracting method from document by using context information and local document form | |
JP2688020B2 (en) | Derivative word processing method | |
JP3136973B2 (en) | Language analysis system and method | |
JP2902343B2 (en) | Language analysis system and method | |
JPH04281557A (en) | Sentence segmentation system | |
JP2915225B2 (en) | Document creation device | |
JPS62143178A (en) | Natural language translation system | |
JPH03259376A (en) | Japanese language long text division supporting device | |
JP3884001B2 (en) | Language analysis system and method | |
JPS61281367A (en) | Noun phrase determining system for english analysis | |
JPH04112364A (en) | Dictionary consulting system | |
JPH04105171A (en) | Machine translation system | |
JPS63255773A (en) | Mechanical translation processing system | |
JPS6389975A (en) | Language analyzer | |
JPH03157766A (en) | Machine translation device | |
JPS63109573A (en) | Processing system for adjunct interrogative | |
JPH02103663A (en) | Dictionary consulting system | |
JPS62263568A (en) | Word processor | |
JPH01118961A (en) | Translating device | |
JPS61118869A (en) | Kana/kanji converting sentence editing device | |
KR20000043739A (en) | Method for translating multi-word translation units in korean-japanese machinery translating system |