JPH0821034B2 - Language analyzer - Google Patents

Language analyzer

Info

Publication number
JPH0821034B2
JPH0821034B2 JP61248431A JP24843186A JPH0821034B2 JP H0821034 B2 JPH0821034 B2 JP H0821034B2 JP 61248431 A JP61248431 A JP 61248431A JP 24843186 A JP24843186 A JP 24843186A JP H0821034 B2 JPH0821034 B2 JP H0821034B2
Authority
JP
Japan
Prior art keywords
dictionary
proper noun
character string
processing unit
property information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61248431A
Other languages
Japanese (ja)
Other versions
JPS63103378A (en
Inventor
壽彦 横川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61248431A priority Critical patent/JPH0821034B2/en
Priority to NL8702359A priority patent/NL8702359A/en
Priority to FR8713742A priority patent/FR2604814B1/en
Priority to DE19873733674 priority patent/DE3733674A1/en
Publication of JPS63103378A publication Critical patent/JPS63103378A/en
Priority to US07/714,990 priority patent/US5225981A/en
Publication of JPH0821034B2 publication Critical patent/JPH0821034B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は言語解析装置、特に自動翻訳装置に有用な言
語解析装置に関する。
TECHNICAL FIELD The present invention relates to a language analysis device, and more particularly to a language analysis device useful for an automatic translation device.

従来技術 例えば英語等の外国語の文からそれに対応する日本語
の文を作成する場合、入力された英文の形態素を解析
し、その構文を解析し、その文構造を変換し、その後に
日本語の訳文を生成する。
Conventional technology For example, when creating a Japanese sentence corresponding to a foreign language sentence such as English, the morpheme of the input English sentence is analyzed, its syntax is analyzed, the sentence structure is converted, and then the Japanese sentence is converted. Generate a translation of.

すなわち、辞書を検索することによって入力文を構成
する各単語等の形態素を解析し、これらの形態素につい
ての品詞等の情報を得る。その後、得られた品詞等の情
報に基づいて、各々の単語またはこれらの単語により形
成されるブロック相互の修飾関係を文法ルールにより解
析することにより、入力文の構造の解析、すなわち構文
解析を行う。さらに、解析された構文に基づいて入力文
の文構造を日本語の構文配列の順序に変換し、変換され
た配列に従って日本語の形態素を生成し、日本語文を生
成する。
That is, morphemes such as words constituting an input sentence are analyzed by searching a dictionary, and information such as a part of speech about these morphemes is obtained. After that, based on the obtained information such as the part of speech, the structure of the input sentence is analyzed, that is, the syntactic analysis is performed, by analyzing each word or the modification relation between blocks formed by these words by the grammar rule. . Furthermore, the sentence structure of the input sentence is converted into the order of the Japanese syntax array based on the analyzed syntax, and the Japanese morphemes are generated according to the converted array to generate the Japanese sentence.

このような訳文生成の際に行われる形態素解析におい
ては、スペース、コンマ、コロン等のデリミッタにより
入力文を辞書引き単位に区分し、この辞書引き単位につ
いて辞書を検索することにより、単語等の形態素の品詞
その他の情報を得ている。その場合に、通常の名詞、動
詞等についてはその多くを辞書に格納しておくことがで
きるから、容易に検索され、情報を得ることができる。
In such a morphological analysis performed when generating a translated sentence, the input sentence is divided into dictionary lookup units by delimiters such as spaces, commas, and colons, and a dictionary is searched for this dictionary lookup unit to search for morphemes such as words. We have obtained the part of speech and other information. In this case, many ordinary nouns, verbs, etc. can be stored in the dictionary, so that they can be easily searched and information can be obtained.

しかし、固有名詞についてこのような辞書の検索を行
う場合には、固有名詞は非常に多くの種類が存在するた
め、これらをすべて辞書に格納しておくことは不可能で
ある。したがって辞書に未登録の固有名詞は固有名詞と
して処理することができなかった。
However, when such a dictionary is searched for proper nouns, there are so many kinds of proper nouns that it is impossible to store all of them in the dictionary. Therefore, proper nouns not registered in the dictionary could not be processed as proper nouns.

また、固有名詞は、例えばMr.Brown、Lake Biwaのよ
うに、他の普通名詞等と一緒になって固有名詞を表すこ
とがあるが、このような場合に辞書の検索によって固有
名詞と普通名詞をそれぞれ別々に解析したのでは、まと
まった固有名詞として認識することができない。
In addition, proper nouns, such as Mr.Brown and Lake Biwa, may sometimes represent proper nouns together with other common nouns. In such a case, proper nouns and common nouns are searched by searching the dictionary. If each is analyzed separately, it cannot be recognized as a proper proper noun.

従来はこのように、固有名詞を適切に認識し、解析す
ることができない欠点があった。
Conventionally, as described above, there has been a drawback that proper nouns cannot be properly recognized and analyzed.

目 的 本発明はこのような従来技術の欠点を解消し、未登録
の固有名詞を処理でき、また、固有名詞を前後の語句と
の関係を考慮して適切に解析することのできる言語解析
装置を提供することを目的とする。
Aim The present invention solves the above-mentioned drawbacks of the prior art, can process unregistered proper nouns, and can appropriately analyze proper nouns in consideration of the relationship with the preceding and following phrases. The purpose is to provide.

構 成 本発明は上記の目的を達成させるため、所定の言語の
文字列を入力する入力手段と、入力手段から入力された
文字列の検索に用いられる辞書手段と、入力された文字
列について辞書手段を検索した後、文字列の性質情報を
解析する性質情報解析手段とを有し、性質情報解析手段
は、文字列の前後の文字列の性質情報を考慮して文字列
の性質情報を解析することを特徴としたものである。以
下、本発明の一実施例に基づいて具体的に説明する。
Structure In order to achieve the above object, the present invention has an input means for inputting a character string in a predetermined language, a dictionary means used for searching a character string input from the input means, and a dictionary for the input character string. After searching the means, it has a property information analysis means for analyzing the property information of the character string, and the property information analysis means analyzes the property information of the character string in consideration of the property information of the character strings before and after the character string. It is characterized by doing. Hereinafter, a specific description will be given based on an embodiment of the present invention.

第1図には、本発明による言語解析装置を英日自動翻
訳装置に適用した一実施例が示されている。なお、本発
明は、英語の入力文の形態素解析以外にも用いることが
でき、英語を日本語に翻訳する英日翻訳装置のみなら
ず、ある1つの言語を他の言語に翻訳する自動翻訳装置
にも効果的に適用されることは、言うまでもない。
FIG. 1 shows an embodiment in which the language analysis device according to the present invention is applied to an English-Japanese automatic translation device. The present invention can be used for other than morphological analysis of an English input sentence, and is not limited to an English-Japanese translation device that translates English into Japanese, but an automatic translation device that translates one language into another language. It goes without saying that it can be effectively applied to.

本実施例は入力処理部14を有し、入力処理部14には入
力装置12からデータが入力される。入力装置12は例え
ば、英数字キー等の文字キーや機能キー等を有するキー
ボード、紙に記録された英字テキストを読み取る光学的
文字読み取り装置、磁気ディスクの読み取り装置等を含
む。
This embodiment has an input processing unit 14, and data is input to the input processing unit 14 from the input device 12. The input device 12 includes, for example, a keyboard having character keys such as alphanumeric keys and function keys, an optical character reading device for reading an alphabetic text recorded on paper, a magnetic disk reading device, and the like.

入力処理部14は入力文字列バッファ14aを有し、入力
装置12から入力された英語の入力文を入力文字列バッフ
ァ14aに記憶する。入力処理部14は入力文字列バッファ1
4aに記憶された入力文を読み出して単位切出し部16に出
力する。単位切出し部16は、デリミッタテーブル18の検
索によって、入力処理部14から送られた入力文の辞書引
き単位切出しを行う機能部である。デリミッタテーブル
18にはスペース、コンマ等のデリミッタが格納されてい
る。
The input processing unit 14 has an input character string buffer 14a, and stores an English input sentence input from the input device 12 in the input character string buffer 14a. The input processing unit 14 is the input character string buffer 1
The input sentence stored in 4a is read and output to the unit cutout unit 16. The unit cutout unit 16 is a functional unit that searches the delimiter table 18 and performs dictionary lookup unit cutout of the input sentence sent from the input processing unit 14. Delimiter table
18 stores delimiters such as spaces and commas.

単位切出し部16はデリミッタテーブル18からデリミッ
タを読み出し、入力処理部14から送られる入力文をデリ
ミッタの存在する部分で区切ることにより、参照辞書20
を検索する場合の単位となる文字列に分割する。分割さ
れた文字列は辞書検索部22に入力される。
The unit cutout unit 16 reads the delimiter from the delimiter table 18 and divides the input sentence sent from the input processing unit 14 by the portion in which the delimiter exists, so that the reference dictionary 20
Is divided into character strings that are the unit for searching. The divided character strings are input to the dictionary search unit 22.

辞書検索部22は、単位切出し部16から送られる辞書引
き単位に分割された入力文について参照辞書20を検索す
る。参照辞書20には、例えば第2図に示すように、英文
の文字列のエントリ、その品詞、性質情報等が記録され
ている。参照辞書20には同図に示す固有名詞の他、その
他の品詞、例えば動詞、形容詞等の文字列も記録されて
いる。なお、同図において品詞としての固有名詞という
記録は、後述する登録固有名詞処理を行うものを意味
し、通常の文法上の固有名詞を表すものではない。ま
た、性質情報とは、その固有名詞が表すものを示し、1
つとは限らない。
The dictionary search unit 22 searches the reference dictionary 20 for the input sentence divided by the dictionary lookup unit sent from the unit cutout unit 16. In the reference dictionary 20, for example, as shown in FIG. 2, an entry of an English character string, its part of speech, property information, etc. are recorded. In addition to the proper nouns shown in the figure, the reference dictionary 20 also stores character strings of other parts of speech, such as verbs and adjectives. In the figure, the record of proper noun as a part of speech means that a registered proper noun process described later is performed, and does not represent a proper proper noun in grammar. Further, the property information indicates what the proper noun represents, and 1
Not necessarily one.

辞書検索部22は辞書引き単位に分割された文字列につ
いて参照辞書20を検索し、文字列が固有名詞である場合
には固有名詞処理部24に出力し、後述する固有名詞の処
理を行う。また、固有名詞でない場合には処理部36に出
力し、処理部36の辞書情報保存テーブル36aに保存す
る。
The dictionary search unit 22 searches the reference dictionary 20 for a character string divided in dictionary lookup units, outputs the character string to the proper noun processing unit 24 when the character string is a proper noun, and performs proper noun processing described later. If it is not a proper noun, it is output to the processing unit 36 and stored in the dictionary information storage table 36a of the processing unit 36.

固有名詞処理部24は、直前文末処理部26、直前固有名
詞処理部28、固有名詞自身処理部30、からなる。
The proper noun processing unit 24 includes an immediately preceding sentence end processing unit 26, an immediately preceding proper noun processing unit 28, and a proper noun own processing unit 30.

直前文末処理部26は、辞書検索部22により検索され入
力された文字列の直前の文字列が文末であるか否かを判
断し、直前の文字列が文末である場合には処理すべき文
字列の先頭の大文字を小文字に変換して辞書検索部22に
送り、辞書検索部22に再度参照辞書20の検索を行わせ
る。この再度の検索によっても検索されなかった文字列
は未登録の固有名詞と判断され、処理部36に送られ、辞
書情報保存テーブル36aに保存される。また直前の文字
列が文末でない場合に、後述するように性質情報未知の
固有名詞として処理部36に送り、辞書情報保存テーブル
36aに登録する。
The preceding sentence end processing unit 26 determines whether the character string immediately before the character string searched and input by the dictionary search unit 22 is the sentence end, and if the immediately preceding character string is the sentence end, the character to be processed. The uppercase letters at the beginning of the sequence are converted to lowercase letters and sent to the dictionary search unit 22 to cause the dictionary search unit 22 to search the reference dictionary 20 again. The character string that is not searched by this search again is determined as an unregistered proper noun, is sent to the processing unit 36, and is stored in the dictionary information storage table 36a. When the immediately preceding character string is not the end of the sentence, it is sent to the processing unit 36 as a proper noun with unknown property information as described later, and the dictionary information storage table
Register for 36a.

直前固有名詞処理部28は、直前文末処理部26から送ら
れた直前の文字列の性質情報を解析し、固有名詞自身処
理部30に出力する。固有名詞自身処理部30は、解析すべ
き固有名詞の性質情報を調べ、後述するように、固有名
詞と直前の固有名詞のいずれかに性質情報が未登録の場
合に、他方の登録された性質情報により固有名詞と直前
の固有名詞をまとめて解析し、処理部36の辞書情報保存
テーブル36aに保存する。
The immediately preceding proper noun processing unit 28 analyzes the property information of the immediately preceding character string sent from the immediately preceding sentence end processing unit 26, and outputs it to the proper noun own processing unit 30. The proper noun processing unit 30 examines the property information of the proper noun to be analyzed, and as described later, when the property information is not registered in either the proper noun or the previous proper noun, the other registered property is registered. The proper noun and the immediately preceding proper noun are collectively analyzed by the information and stored in the dictionary information storage table 36a of the processing unit 36.

処理部36は、辞書情報保存テーブル36aを有し、直前
固有名詞処理部28または辞書検索部22から送られたデー
タを辞書情報保存テーブル36aに保存した後、保存され
たデータを読み出して構文解析部38に出力する。構文解
析部38は辞書情報保存テーブル36aから読み出された形
態素解析の行われた入力文の構文解析を行う。
The processing unit 36 has a dictionary information storage table 36a, stores the data sent from the immediately preceding proper noun processing unit 28 or the dictionary search unit 22 in the dictionary information storage table 36a, and then reads the stored data and parses it. Output to the unit 38. The syntactic analysis unit 38 performs syntactic analysis of the input sentence that has been morphologically analyzed and read from the dictionary information storage table 36a.

第3図に示すフローチャートにより、本装置の動作を
説明する。
The operation of this apparatus will be described with reference to the flowchart shown in FIG.

まず、入力装置12から英語の入力文を入力処理部14に
読み込む(100)。入力処理部14に読み込まれた入力文
は入力文字列バッファ14aに格納される。入力文字列バ
ッファ14aに記憶された入力文は単位切り出し部16に読
み出される。
First, an English input sentence is read from the input device 12 into the input processing unit 14 (100). The input sentence read by the input processing unit 14 is stored in the input character string buffer 14a. The input sentence stored in the input character string buffer 14a is read by the unit cutout unit 16.

単位切り出し部16では、入力文が入力されるとデリミ
ットテーブル18からデリミッタを読み出し、辞書引き単
位の切り出しが行われる(102)。すなわち、入力され
た入力文を構成する文字列は、スペース、コロン等のデ
リミッタのある部分で区切ることにより、参照辞書20を
検索する場合の単位である検索キー文字列に、文字列の
先頭から順に分割される。分割された辞書引き単位、す
なわち検索キー文字列が終りか否かを判断し(104)、
検索キー文字列がまだある場合(終りでない場合)には
検索キー文字列を辞書検索部22に送る。
When the input sentence is input, the unit cutout unit 16 reads the delimiter from the delimiter table 18 and cuts it out in dictionary lookup units (102). That is, the character string that constitutes the input sentence that has been input is delimited by parts with delimiters such as spaces and colons, so that the search key character string, which is the unit for searching the reference dictionary 20, is specified from the beginning of the character string. It is divided in order. It is judged whether the divided dictionary lookup unit, that is, the search key character string is the end (104),
If the search key character string still exists (if it is not the end), the search key character string is sent to the dictionary search unit 22.

辞書検索部22に検索キー文字列が送られると、辞書検
索部22はこの検索キー文字列について参照辞書20を検索
する(106)。第2図に示すような参照辞書20のエント
リに検索キー文字列があるか否かを判断し(108)、エ
ントリがある場合には参照辞書20に記憶されている品詞
情報を読み出し、検索キー文字列が固有名詞か否かを判
断する(110)。
When the search key character string is sent to the dictionary search unit 22, the dictionary search unit 22 searches the reference dictionary 20 for this search key character string (106). It is judged whether or not there is a search key character string in the entry of the reference dictionary 20 as shown in FIG. 2 (108), and if there is an entry, the part-of-speech information stored in the reference dictionary 20 is read out and the search key is read. It is determined whether the character string is a proper noun (110).

検索キー文字列が固有名詞でない場合には、辞書検索
部22は参照辞書20から読み出したデータを処理部36に送
り、辞書情報保存テーブル36aに記録する(112)。辞書
情報保存テーブル36aにデータが保存されると、処理部3
6から単位切り出し部16にデータが保存された旨の入力
および直前に保存された検索キー文字列のデータが入力
される。これによりステップ102に戻り、際び単位切り
出し部16において辞書引き単位の切り出しを行う。
If the search key character string is not a proper noun, the dictionary search unit 22 sends the data read from the reference dictionary 20 to the processing unit 36 and records it in the dictionary information storage table 36a (112). When the data is stored in the dictionary information storage table 36a, the processing unit 3
From 6, the unit cutout unit 16 is input that the data has been saved and the data of the search key character string that was saved immediately before is input. As a result, the process returns to step 102, and the unit extraction unit 16 cuts out the dictionary unit.

ステップ110において検索キー文字列が固有名詞の場
合には、辞書検索部22は参照辞書20から読み出したその
固有名詞(以下単に固有名詞という)のデータを、処理
部36の辞書情報保存テーブル36aから単位切り出し部16
を通して辞書検索部22に入力されている直前の検索キー
文字列のデータとともに、固有名詞処理部24に送り、固
有名詞処理部24において辞書登録固有名詞の処理が行わ
れる(114)。
When the search key character string is the proper noun in step 110, the dictionary retrieval unit 22 retrieves the data of the proper noun (hereinafter, simply referred to as proper noun) read from the reference dictionary 20 from the dictionary information storage table 36a of the processing unit 36. Unit cutout unit 16
It is sent to the proper noun processing unit 24 together with the immediately preceding search key character string data input to the dictionary search unit 22 via the proper noun processing unit 24 for processing the dictionary registered proper noun (114).

ここで辞書登録固有名詞の処理を第4図に示すフロー
チャートにより説明する。
The processing of dictionary registered proper nouns will now be described with reference to the flowchart shown in FIG.

辞書検索部22から固有名詞処理部24に送られたデータ
は、直前文末処理部26を通して直前固有名詞処理部28に
入力される。辞書登録固有名詞の処理においては、直前
文末処理部26は機能しない。
The data sent from the dictionary retrieval unit 22 to the proper noun processing unit 24 is input to the immediately preceding proper noun processing unit 28 through the immediately preceding sentence end processing unit 26. The immediately preceding sentence end processing unit 26 does not function in processing the dictionary registered proper noun.

直前固有名詞処理部28において、固有名詞の直前にあ
る検索キー文字列が、参照辞書20に未登録の固有名詞、
すなわち後述する辞書未登録固有名詞処理を行われたも
のであるか否かを判断し(200)、未登録の固有名詞で
ある場合には、固有名詞および直前の未登録の固有名詞
の全体を固有名詞の性質情報をもつ固有名詞と判断し
(202)、これらのデータを処理部36に送り、辞書情報
保存テーブル36aに記録する(214)。
In the immediately preceding proper noun processing unit 28, the search key character string immediately before the proper noun is a proper noun not registered in the reference dictionary 20,
That is, it is judged whether or not the dictionary unregistered proper noun processing described later has been performed (200), and if it is an unregistered proper noun, the proper noun and the immediately previous unregistered proper noun are all It is determined that the proper noun has property information of the proper noun (202), these data are sent to the processing unit 36, and recorded in the dictionary information storage table 36a (214).

直前固有名詞処理部28において、ステップ200で、固
有名詞の直前にある検索キー文字列が未登録の固有名詞
でないと判断された場合には、固有名詞の直前にある検
索キー文字列が参照辞書20に登録された固有名詞か否か
を判断する(204)。固有名詞の直前にある検索キー文
字列が登録された固有名詞である場合には、この直前の
固有名詞の性質情報が未知(Unknwn)、すなわち参照辞
書20に登録されていないものであるか否かを判断する
(206)。
In the immediately preceding proper noun processing unit 28, when it is determined in step 200 that the search key character string immediately preceding the proper noun is not an unregistered proper noun, the search key character string immediately preceding the proper noun is the reference dictionary. It is determined whether the proper noun registered in 20 (204). When the search key character string immediately before the proper noun is the registered proper noun, whether or not the property information of the proper noun immediately before this is unknown (Unknwn), that is, whether it is not registered in the reference dictionary 20 or not. It is judged (206).

直前の固有名詞の性質情報が未知の場合には、ステッ
プ202に進み、固有名詞および直前の固有名詞の全体を
固有名詞の性質情報をもつ固有名詞と判断し(202)、
直前固有名詞処理部28はこれらのデータを処理部36に送
る。処理部36に送られたデータは、辞書情報保存テーブ
ル36aに記録される(214)。
If the property information of the immediately preceding proper noun is unknown, the process proceeds to step 202, and the proper noun and the immediately preceding proper noun are all judged to be proper nouns having the property information of the proper noun (202),
The immediately preceding proper noun processing unit 28 sends these data to the processing unit 36. The data sent to the processing unit 36 is recorded in the dictionary information storage table 36a (214).

直前固有名詞処理部28においてステップ206で、直前
の固有名詞の性質情報が未知(Unknown)でない、すな
わち参照辞書20に登録されていると判断された場合に
は、これらのデータは直前固有名詞処理部28から固有名
詞自身処理部30に送られる。固有名詞自身処理部30にお
いて、固有名詞の性質情報が未知(Unknown)であるか
否かを判断する(208)。固有名詞の性質情報が未知で
ある場合には、固有名詞自身処理部30は固有名詞および
直前の固有名詞の全体を直前の固有名詞の性質情報をも
つ固有名詞と判断し(210)、これらのデータを処理部3
6に送る。処理部36に送られたデータは、辞書情報保存
テーブル36aに記録される(214)。
In step 206 in the immediately preceding proper noun processing unit 28, when it is determined that the property information of the immediately preceding proper noun is not unknown (that is, registered in the reference dictionary 20), these data are processed in the immediately preceding proper noun processing. The part 28 is sent to the proper noun processing unit 30. The proper noun processing unit 30 determines whether the property information of the proper noun is unknown (208). When the property information of the proper noun is unknown, the proper noun processing unit 30 determines that the proper noun and the immediately preceding proper noun are all proper nouns having the property information of the immediately preceding proper noun (210). Data processing part 3
Send to 6. The data sent to the processing unit 36 is recorded in the dictionary information storage table 36a (214).

固有名詞自身処理部30において、固有名詞自身の性質
情報が未知でない、すなわち参照辞書20に登録されてい
ると判断された場合には、固有名詞自身処理部30は、固
有名詞を直前の固有名詞とは別に、参照辞書20から検索
された性質情報をもった固有名詞と判断し(212)、そ
のデータを処理部36に送る。処理部36に送られたデータ
は、辞書情報保存テーブル36aに記録される(214)。
When the proper noun processing unit 30 determines that the property information of the proper noun itself is not unknown, that is, the proper noun is registered in the reference dictionary 20, the proper noun processing unit 30 determines the proper noun immediately before the proper noun. Separately, it is determined that the proper noun has the property information retrieved from the reference dictionary 20 (212), and the data is sent to the processing unit 36. The data sent to the processing unit 36 is recorded in the dictionary information storage table 36a (214).

第3図に戻って、ステップ108において参照辞書20の
エントリに検索キー文字列がない場合には、検索キー文
字列の1文字目が大文字か否かを判断し(116)、大文
字でない場合には辞書検索部22はこの検索キー文字列を
未登録語と判断して処理部36に送り、辞書情報保存テー
ブル36aに記録する(118)。
Returning to FIG. 3, if there is no search key character string in the entry of the reference dictionary 20 in step 108, it is judged whether the first character of the search key character string is uppercase (116). The dictionary search unit 22 determines that this search key character string is an unregistered word, sends it to the processing unit 36, and records it in the dictionary information storage table 36a (118).

1文字目が大文字の場合には、辞書検索部22からこの
検索キー文字列のデータが辞書情報保存テーブルに記録
された直前のエントリのデータとともに、固有名詞処理
部24に送られ、辞書未登録固有名詞の処理が行われる
(120)。
When the first character is a capital letter, the data of this search key character string is sent from the dictionary search unit 22 to the proper noun processing unit 24 together with the data of the previous entry recorded in the dictionary information storage table, and the dictionary is not registered. Proper noun processing is performed (120).

第5図により辞書未登録固有名詞の処理について説明
する。
Processing of dictionary unregistered proper nouns will be described with reference to FIG.

検索キー文字列のデータは辞書情報保存テーブルに記
録された直前のエントリのデータとともに、直前文末処
理部26に送られ、直前文末処理部26において辞書情報保
存テーブルに記録された直前のエントリの末尾が文末候
補か否かを判断する(300)。この文末候補か否かの判
断は、辞書情報保存テーブルに記録された直前のエント
リの末尾が単独のピリオド(.)等の文末候補であるか
否かを判断することにより行う。
The data of the search key character string is sent to the previous sentence end processing unit 26 together with the data of the previous entry recorded in the dictionary information storage table, and the end of the previous entry recorded in the dictionary information storage table in the previous sentence end processing unit 26. It is determined whether is a sentence end candidate (300). Whether or not the sentence end candidate is determined is determined by determining whether or not the end of the previous entry recorded in the dictionary information storage table is a sentence end candidate such as a single period (.).

辞書情報保存テーブルに記録された直前のエントリの
末尾が文末候補である場合には、直前文末処理部26から
の直前固有名詞処理部28にデータが送られ、直前固有名
詞処理部28は辞書情報保存テーブルに記録された直前の
エントリを文末と判断し(302)、検索キー文字列の1
文字目の大文字を小文字に直して辞書検索部22に送る。
If the end of the immediately preceding entry recorded in the dictionary information storage table is a sentence end candidate, data is sent from the immediately preceding sentence end processing unit 26 to the immediately preceding proper noun processing unit 28, and the immediately preceding proper noun processing unit 28 causes the dictionary information. The last entry recorded in the storage table is judged to be the end of sentence (302), and the search key character string is set to 1
The uppercase letters are converted to lowercase letters and sent to the dictionary search unit 22.

辞書検索部22は小文字に直された検索キー文字列につ
いて参照辞書20を検索し(304)、参照辞書20にエント
リがあるか否かを判断する(306)。エントリがある場
合には、辞書検索部22は参照辞書20から検索したデータ
を処理部36に送り、辞書情報保存テーブル36aに記録す
る(308)。エントリがない場合には辞書検索部22は、
この検索キー文字列の1文字目を大文字に戻して未登録
の固有名詞として処理部36に送り、辞書情報保存テーブ
ル36aに記録する(310)。
The dictionary search unit 22 searches the reference dictionary 20 for the search key character string converted to lowercase (304), and determines whether or not there is an entry in the reference dictionary 20 (306). If there is an entry, the dictionary retrieval unit 22 sends the data retrieved from the reference dictionary 20 to the processing unit 36 and records it in the dictionary information storage table 36a (308). If there is no entry, the dictionary search unit 22
The first character of this search key character string is returned to upper case, sent to the processing unit 36 as an unregistered proper noun, and recorded in the dictionary information storage table 36a (310).

ステップ300において、直前文末処理部26が辞書情報
保存テーブルに記録された直前のエントリの末尾を文末
候補でないと判断した場合には、直前文末処理部26から
直前固有名詞処理部28にそのデータが送られ、直前固有
名詞処理部28は辞書情報保存テーブルに記録された直前
のエントリを文末でないと判断する(312)。直前固有
名詞処理部28から固有名詞自身処理部30にデータが送ら
れ、固有名詞自身処理部30は検索キー文字列を性質情報
が未知の固有名詞と判断する(314)。
In step 300, when the immediately preceding sentence end processing unit 26 determines that the end of the immediately previous entry recorded in the dictionary information storage table is not a sentence end candidate, the data is transferred from the immediately preceding sentence end processing unit 26 to the immediately preceding proper noun processing unit 28. The immediately preceding proper noun processing unit 28 judges that the immediately preceding entry recorded in the dictionary information storage table is not the end of sentence (312). Data is sent from the immediately preceding proper noun processing unit 28 to the proper noun processing unit 30, and the proper noun processing unit 30 determines that the search key character string is a proper noun whose property information is unknown (314).

固有名詞自身処理部30はデータを直前固有名詞処理部
28に戻し、直前固有名詞処理部28において辞書登録固有
名詞の処理が行われる(316)。この辞書登録固有名詞
の処理は第4図に示すものと同じである。
The proper noun processing unit 30 processes the data immediately before the proper noun processing unit.
Returning to 28, the immediately preceding proper noun processing unit 28 processes the dictionary registered proper noun (316). The processing of the dictionary registered proper noun is the same as that shown in FIG.

第3図に戻って、ステップ104において切り出された
辞書引き単位が終りの場合には、処理部36から辞書情報
保存テーブル36aに記録されたデータを構文解析部38に
出力し(122)、本実施例の形態素解析が終了する。以
上説明した本装置の動作を入力文の例をあげて説明す
る。
Returning to FIG. 3, when the dictionary lookup unit cut out in step 104 is the end, the processing unit 36 outputs the data recorded in the dictionary information storage table 36a to the syntax analysis unit 38 (122), The morphological analysis of the embodiment is completed. The operation of the present apparatus described above will be described with an example of an input sentence.

例えば入力文「In Tokyo Station Mr.Walter…」が入
力された場合について、第6図により説明する。まず、
この入力文を入力処理部14に読み込む入力処理(100)
を行う。次に辞書引き単位の切り出し(102)を行い、
スペースにより上記の入力文を各単語に分割する。まず
「In」について参照辞書20の検索を行う(106)。「I
n」は、そのままではエントリが参照辞書20になく、辞
書登録固有名詞の処理へ進むが、直前が文頭(ファイル
の先頭)であるので、文末と認識する。そこで「In」を
「in」に直して辞書検索すると、エントリが存在し(10
8)、固有名詞ではないので(110)、参照辞書20から検
索されたデータを辞書情報保存テーブル36aに記録する
(112)。
For example, a case where the input sentence “In Tokyo Station Mr. Walter ...” is input will be described with reference to FIG. First,
Input processing to read this input sentence into the input processing unit 14 (100)
I do. Next, cut out the dictionary lookup unit (102),
The above input sentence is divided into each word by a space. First, the reference dictionary 20 is searched for "In" (106). "I
As for “n”, the entry is not in the reference dictionary 20 as it is, and the processing proceeds to the dictionary registration proper noun. Then, when "In" is changed to "in" and the dictionary is searched, there is an entry (10
8) Since it is not a proper noun (110), the data retrieved from the reference dictionary 20 is recorded in the dictionary information storage table 36a (112).

次に「Tokyo」について参照辞書20の検索を行う(10
6)。「Tokyo」は、参照辞書20にエントリがなく(10
8)、1文字目が大文字なので(116)、辞書末登録固有
名詞の処理を行う(120)。第5図に進み、直前は「I
n」であり文末候補がないから(300)、「In」を文末で
ないと認定し(312)、「Tokyo」を性質情報未知(Unkn
own)の固有名詞とし(314)、辞書登録固有名詞の処理
を行う(316)。
Next, search the reference dictionary 20 for "Tokyo" (10
6). "Tokyo" has no entry in the reference dictionary 20 (10
8) Since the first character is a capital letter (116), the dictionary end registered proper noun is processed (120). Proceed to FIG.
Since it is “n” and there is no sentence end candidate (300), “In” is recognized as not the end of the sentence (312), and “Tokyo” is unknown (Unkn).
The proper noun (own) is assigned (314), and the dictionary-registered proper noun is processed (316).

第4図に進み、直前の「In」が未登録の固有名詞では
なく(200)、登録固有名詞でもないから(204)、単独
で自分自身の性質情報をもった固有名詞、すなわち性質
情報未知(Unknown)の固有名詞としとして記録する(2
16)。
Proceeding to FIG. 4, since the immediately preceding “In” is not an unregistered proper noun (200) and is not a registered proper noun (204), the proper noun having its own property information alone, that is, property information unknown Record as the proper noun of (Unknown) (2
16).

第3図に戻り、次に「Station」について参照辞書20
の検索を行う(106)。「Station」は参照辞書20にエン
トリがあり(108)、固有名詞であるから(110)、辞書
登録固有名詞の処理を行う(114)。第4図に進み、直
前の「Tokyo」が未登録の固有名詞であるから(200)、
「Tokyo Station」全体を「Station」の性質情報「場
所」を有する固有名詞として記録する(202)。
Returning to FIG. 3, the reference dictionary for "Station" 20
Is searched (106). Since "Station" has an entry in the reference dictionary 20 (108) and is a proper noun (110), the dictionary registered proper noun is processed (114). Proceeding to Fig. 4, since "Tokyo" just before is an unregistered proper noun (200),
The entire "Tokyo Station" is recorded as a proper noun having the property information "place" of "Station" (202).

次に「Wr.」について第3図の参照辞書20の検索を行
う(106)。「Mr.」は、参照辞書20にエントリがあり、
固有名詞であるから(110)、辞書登録固有名詞の処理
を行う(114)。第4図に進み、直前の「Station」は未
登録の固有名詞ではなく(200)、登録固有名詞であり
(204)、性質情報「場所」が未知ではない(206)。
「Mr.」は、性質情報が「人」であり、未知ではないか
ら(208)、「Mr.」は単独で、性質情報「人」の固有名
詞として登録する(212)。
Next, the reference dictionary 20 of FIG. 3 is searched for "Wr." (106). "Mr." has an entry in the reference dictionary 20,
Since it is a proper noun (110), the dictionary registered proper noun is processed (114). Proceeding to FIG. 4, the immediately preceding "Station" is not an unregistered proper noun (200), is a registered proper noun (204), and the property information "place" is not unknown (206).
Since "Mr." has property information of "person" and is not unknown (208), "Mr." is registered alone as a proper noun of property information "person" (212).

次に再び第3図に戻り、「Walter」について参照辞書
20を検索する(106)。「Walter」は参照辞書20にエン
トリがあり(108)、固有名詞であるから(110)、辞書
登録固有名詞の処理を行う(114)。第4図に進み、直
前の「Mr.」は未登録の固有名詞ではなく(200)、登録
固有名詞であり(204)、性質情報が「人」で未知では
なく(206)、「Walter」の性質情報は未知でので(20
8)、「Mr.Walter」をまとめて性質情報「人」をもつ固
有名詞として記録する(210)。
Next, returning to FIG. 3 again, reference dictionary for "Walter"
Search for 20 (106). Since "Walter" has an entry in the reference dictionary 20 (108) and is a proper noun (110), the dictionary registered proper noun is processed (114). Proceeding to FIG. 4, the immediately preceding "Mr." is not an unregistered proper noun (200), is a registered proper noun (204), and the property information is "person" and not unknown (206), "Walter". Since the property information of is unknown, (20
8), "Mr. Walter" is recorded together as a proper noun with property information "person" (210).

以上のように本実施例によれば、英語の入力文を検索
キー文字列に分割して、まず参照辞書20により検索し、
参照辞書20に固有名詞としてエントリがあった場合に登
録固有名詞の処理を行う。登録固有名詞の処理は、辞書
情報保存テーブルに記録された直前のエントリを考慮
し、辞書情報保存テーブルに記録された直前のエントリ
が固有名詞である場合には辞書情報保存テーブルに記録
された直前のエントリおよび対象の固有名詞の性質情報
を調べ、いずれかの性質情報がない場合には他方の性質
情報を付与し、いずれも性質情報がある場合にはそれぞ
れ単独で独自の性質情報をもった固有名詞とされる。
As described above, according to the present embodiment, the English input sentence is divided into the search key character strings, and first searched by the reference dictionary 20,
When the reference dictionary 20 has an entry as a proper noun, the registered proper noun is processed. The processing of the registered proper noun considers the entry just before recorded in the dictionary information saving table, and when the entry immediately before recorded in the dictionary information saving table is a proper noun, immediately before being recorded in the dictionary information saving table. Entry and the property information of the proper proper noun are examined, and if either property information does not exist, the other property information is added, and if both have property information, each has its own property information. Proper noun.

したがって、性質情報のない固有名詞に性質情報を適
切に付与するとともに、付与されている性質情報をより
適切な性質情報にしぼることができる。これにより後の
構文解析において、解析を有効に行うことができ、適切
な翻訳を行うことができる。
Therefore, it is possible to appropriately add property information to proper nouns without property information, and to narrow down the added property information to more appropriate property information. As a result, in the later parsing, the parsing can be effectively performed and appropriate translation can be performed.

また、参照辞書20に未登録の文字列について、1文字
目が大文字でかつ直前の文字列が文末と判断された場合
には、大文字を小文字に変換して再度参照辞書20を検索
しているから、文頭の文字列についても参照辞書20によ
る検索を行うことができる。さらに、文頭でない箇所に
大文字で始まる文字列が現れた場合には固有名詞と判断
し、この固有名詞の性質情報はその前後に性質情報の登
録された固有名詞がある場合にはこれによって付与され
る。したがって、参照辞書20に未登録の固有名詞をある
程度解析することができる。
In addition, regarding a character string not registered in the reference dictionary 20, when it is determined that the first character is uppercase and the previous character string is the end of sentence, the uppercase is converted to lowercase and the reference dictionary 20 is searched again. Therefore, the reference dictionary 20 can be searched for the character string at the beginning of the sentence. Furthermore, if a character string starting with a capital letter appears at a position that is not the beginning of a sentence, it is determined as a proper noun, and the property information of this proper noun is given by this when there is a proper noun with property information registered before and after that. It Therefore, proper nouns not registered in the reference dictionary 20 can be analyzed to some extent.

効 果 本発明によれば、辞書に性質情報が未登録の固有名詞
について、その前後に性質情報の登録された固有名詞が
ある場合に、この登録された固有名詞の性質情報を用い
て性質情報が未登録の固有名詞に性質情報を付与すると
ともに、前後の固有名詞の性質情報により固有名詞の性
質情報を解析しているから、固有名詞に適切な性質情報
を与え、入力文の解釈を有効に行うことができる。
According to the present invention, for a proper noun whose property information is not registered in the dictionary, if there is a proper noun with the property information registered before and after the proper noun, the property information of the registered proper noun is used. Adds property information to unregistered proper nouns, and analyzes property information of proper nouns by the property information of preceding and following proper nouns, so gives proper property information to proper nouns and interprets the input sentence effectively. Can be done.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明による言語解析装置の一実施例を示すブ
ロック図、 第2図は第1図の参照辞書に記憶されるデータの一例を
示す図、 第3図は第1図の装置の全体の動作を示フローチャー
ト、 第4図は第3図に示す動作のうち、辞書登録固有名詞の
処理を示すフローチャート、 第5図は第3図に示す動作のうち、辞書未登録固有名詞
の処理を示すフローチャート、 第6図は第1図の装置において入力文が処理され、辞書
情報保存テーブルに格納されるデータが変化す例を示す
図である。 主要部分の符号の説明 14……入力処理部 16……単位切出し部 18……デリミッタテーブル 20……参照辞書 22……辞書検索部 24……固有名詞処理部 26……直前文末処理部 28……直前固有名詞処理部 30……固有名詞自身処理部 36……処理部 36a……辞書情報保存テーブル
1 is a block diagram showing an embodiment of a language analysis device according to the present invention, FIG. 2 is a diagram showing an example of data stored in the reference dictionary shown in FIG. 1, and FIG. 3 is a diagram showing the device shown in FIG. FIG. 4 is a flowchart showing processing of a dictionary-registered proper noun in the operation shown in FIG. 3, and FIG. 5 is processing of a dictionary-unregistered proper noun in the operation shown in FIG. FIG. 6 is a diagram showing an example in which an input sentence is processed in the apparatus of FIG. 1 and the data stored in the dictionary information storage table changes. Description of main part code 14 …… Input processing unit 16 …… Unit cutout unit 18 …… Delimiter table 20 …… Reference dictionary 22 …… Dictionary search unit 24 …… Proper noun processing unit 26 …… Previous sentence end processing unit 28 ...... Previous proper noun processing unit 30 …… Proper noun processing unit 36 …… Processing unit 36a …… Dictionary information storage table

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】所定の言語の文字列を入力する入力手段
と、 該入力手段から入力された前記文字列の検索に用いられ
る辞書手段と、 前記入力された文字列について該辞書手段を検索する検
索手段と、 該検索手段による検索の結果、前記入力された文字列の
うち、文脈に応じて変化する性質を表わす性質情報が辞
書手段に未登録の文字列について、性質情報を付与し、
文字列の解析を行なう解析手段とを有し、 前記解析手段は、性質情報が辞書手段に未登録の文字列
に性質情報を付与する際、前記文字列の前および/また
は後の文字列について性質情報が登録されている場合に
は、前および/または後の文字列の性質情報を用いて、
当該未登録の文字列に性質情報を付与することを特徴と
する言語解析装置。
1. An input unit for inputting a character string of a predetermined language, a dictionary unit used for searching the character string input from the input unit, and a search for the dictionary unit for the input character string. A search unit, and, as a result of the search by the search unit, adds property information to a character string that has not been registered in the dictionary unit as property information indicating a property that changes according to the context,
A character string before and / or after the character string when the property information is added to the character string whose property information is not registered in the dictionary means. When the property information is registered, the property information of the character string before and / or after is used,
A language analysis device characterized by adding property information to the unregistered character string.
【請求項2】特許請求の範囲第1項に記載の装置におい
て、前記解析手段により性質情報の付与される前記文字
列と、該文字列に性質情報を付与するのに用いる前およ
び/または後の文字列とは、固有名詞であることを特徴
とする言語解析装置。
2. The apparatus according to claim 1, wherein the character string to which the property information is added by the analyzing means, and before and / or after the character string used to add the property information to the character string. The character string is a proper noun, which is a language analysis device.
JP61248431A 1986-10-03 1986-10-21 Language analyzer Expired - Lifetime JPH0821034B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP61248431A JPH0821034B2 (en) 1986-10-21 1986-10-21 Language analyzer
NL8702359A NL8702359A (en) 1986-10-03 1987-10-02 LANGUAGE ANALYSIS DEVICE.
FR8713742A FR2604814B1 (en) 1986-10-03 1987-10-05 LANGUAGE ANALYZER
DE19873733674 DE3733674A1 (en) 1986-10-03 1987-10-05 Speech analyser
US07/714,990 US5225981A (en) 1986-10-03 1991-06-14 Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61248431A JPH0821034B2 (en) 1986-10-21 1986-10-21 Language analyzer

Publications (2)

Publication Number Publication Date
JPS63103378A JPS63103378A (en) 1988-05-09
JPH0821034B2 true JPH0821034B2 (en) 1996-03-04

Family

ID=17178019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61248431A Expired - Lifetime JPH0821034B2 (en) 1986-10-03 1986-10-21 Language analyzer

Country Status (1)

Country Link
JP (1) JPH0821034B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02166283A (en) * 1988-12-19 1990-06-26 Fujitsu Ltd Method of forming an insulating film
JPH087776B2 (en) * 1989-10-30 1996-01-29 三菱電機株式会社 Document reader

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62280966A (en) * 1986-05-29 1987-12-05 Fujitsu Ltd Word analysis processing method

Also Published As

Publication number Publication date
JPS63103378A (en) 1988-05-09

Similar Documents

Publication Publication Date Title
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
US5890103A (en) Method and apparatus for improved tokenization of natural language text
KR100453227B1 (en) Similar sentence retrieval method for translation aid
JPH0644296A (en) Machine translation device
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
US6385569B1 (en) Translator, translating method and recording medium having translating program recorded thereon
JPH0821034B2 (en) Language analyzer
JP2632806B2 (en) Language analyzer
KR100420474B1 (en) Apparatus and method of long sentence translation using partial sentence frame
JPH0821031B2 (en) Language analyzer
JP2688020B2 (en) Derivative word processing method
JPH0827803B2 (en) Text-based search method
JPH0821033B2 (en) Language analyzer
JP2521435B2 (en) Japanese generator
JP2966473B2 (en) Document creation device
JP4262529B2 (en) Full-text search device, method, program, and recording medium
JP3244286B2 (en) Translation processing device
JP3135221B2 (en) Example-driven language structure analyzer
JP3139624B2 (en) Morphological analyzer
JP3267168B2 (en) Natural language conversion system
JP3233283B2 (en) Japanese sentence analyzer
JPH0816910B2 (en) Language analyzer
JP2006134051A (en) Translation device, translation method and program
JP2002197086A (en) Natural language conversion system
JPH02110771A (en) Telegraph machine

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term