JPH06187329A - Natural language processor - Google Patents

Natural language processor

Info

Publication number
JPH06187329A
JPH06187329A JP4355484A JP35548492A JPH06187329A JP H06187329 A JPH06187329 A JP H06187329A JP 4355484 A JP4355484 A JP 4355484A JP 35548492 A JP35548492 A JP 35548492A JP H06187329 A JPH06187329 A JP H06187329A
Authority
JP
Japan
Prior art keywords
dictionary
information
search
processing
necessary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4355484A
Other languages
Japanese (ja)
Inventor
Masaki Ando
正樹 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP4355484A priority Critical patent/JPH06187329A/en
Publication of JPH06187329A publication Critical patent/JPH06187329A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To simplify generating and maintaining operation for a dictionary while preventing the dictionary from increasing in size and to automatically extract information necessary for machine processing from meaning sentences described for people. CONSTITUTION:The processor is equipped with a dictionary 10 having a common information storage part 11 for storing common terms between information for the people and the information for machine processing, a retrieving device 22 which retrieves the dictionary 10 on the basis of retrieval information, and an analytic device 23 which analyzes the meaning, etc., of meaning sentences obtained by the dictionary retrieval by analyzing information on the reading and parts of speech, morpheme, and syntax, and the information necessary for the machine processing is extracted from a text described for the people on the basis of the common items of the dictionary 10.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、ワードプロセッサ等に
用いられる自然言語処理装置に係り、詳細には、日本語
ワードプロセッサ等の文書処理装置に用いられる辞書に
より検索等を行なう自然言語処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a natural language processing device used in a word processor or the like, and more particularly to a natural language processing device for performing a search or the like using a dictionary used in a document processing device such as a Japanese word processor.

【0002】[0002]

【従来の技術】日本文は文字種が多いことから、欧文の
入力方式に比べて、多数の入力方式が実用化されてい
る。日本語ワードプロセッサに採用されている代表的な
入力方式のなかでは、ローマ字かな漢字変換入力を含む
かな漢字変換入力が最も多く使用されており、変換処理
についても日本語の文法解析を取り入れた文節変換、及
びその拡張である連文節変換が主流となっている。
2. Description of the Related Art Since Japanese has many character types, a large number of input methods have been put into practical use as compared with the input methods of European languages. Among the typical input methods used in Japanese word processors, Kana-Kanji conversion input including Romaji-Kana-Kanji conversion input is most often used, and the conversion process also includes bunsetsu conversion that incorporates Japanese grammar analysis, and The continuous phrase conversion, which is an extension of this, is the mainstream.

【0003】現在、日本語ワードプロセッサ等の文書処
理装置で用いられている辞書について大別すると、以下
に示す2種類のものが存在する。
At present, there are roughly two types of dictionaries used in document processing devices such as Japanese word processors.

【0004】人間用辞書 ・・・・・ 日常生活で通常使用
する冊子体の辞書等を電子化したものであり、内容的に
は、絵や図を含めて冊子体の辞書と概略同じものであ
る。
Human dictionary: An electronic version of a booklet dictionary that is normally used in daily life. The content is roughly the same as the booklet dictionary, including pictures and drawings. is there.

【0005】機械用辞書 ・・・・・ 機械翻訳やかな漢字
変換などの日本語(自然言語)処理のための辞書であ
り、通常、人間には容易に理解できないような形式で情
報を格納している。
Machine dictionary: A dictionary for Japanese (natural language) processing such as machine translation and kana-kanji conversion. Usually, information is stored in a format that is not easily understood by humans. There is.

【0006】以下、これまで自然言語処理において、機
械用辞書を人間辞書として用いることが行なわれていな
い(換言すると、人間用辞書とは別に機械用辞書が開発
された)理由について述べる。
Hereinafter, the reason why the machine dictionary has not been used as a human dictionary in natural language processing (in other words, a machine dictionary has been developed separately from the human dictionary) will be described.

【0007】人間用辞書の内容に関する問題点 これまでの辞書は、一人ないし数人の辞書編集者(Lexi
cographer)によって長い年月をかけて作成されたもの
が殆どである。その結果、項目の記載漏れ・項目の偏り
・誤植・曖昧性・矛盾等の問題を免れることができな
い。また、言語を機械処理するために必要な情報の中に
は、一般の人間用辞書からは直接得られない情報もあ
る。
Problems Concerning Contents of Human Dictionaries Up to now, dictionaries of one or several dictionary editors (Lexi
Most of them were created by cographer over a long period of time. As a result, problems such as omission of item description, item bias, typographical errors, ambiguity, and contradiction cannot be avoided. Further, some information necessary for machine processing of a language cannot be directly obtained from a general human dictionary.

【0008】人間用辞書の検索に関する問題点 人間用辞書は、その言語に関する文法情報その他の基本
的な知識を持った人が、「辞書を引く」という訓練を重
ねることによって使いものになる程度のものである。事
実、はじめてその言語を学ぶ外国人が満足に使える辞書
は存在しないと言われている。従って、情報検索の観点
から人間用辞書の構造は、当該言語の予備知識を持たな
い機械で処理するには全く不向きだとされている。
Problems with Retrieval of Human Dictionaries Human dictionaries are so useful that a person who has grammatical information and other basic knowledge about the language can use them by repeating the training of "drawing a dictionary". Is. In fact, it is said that there is no dictionary that foreigners who learn the language for the first time can use it satisfactorily. Therefore, from the viewpoint of information retrieval, the structure of the human dictionary is completely unsuitable for processing by a machine without prior knowledge of the language.

【0009】機械用辞書の内容に関する問題点 機械用辞書の観点からすると、初期の頃の自然言語処理
技術は技術的にさほど高度な処理を行なってはおらず、
人間用辞書に記載されている言葉の定義や用例を必要と
することはなかった。あるいは、必要であると認識され
たとしても記憶容量や検索スピード等のハードウェアの
制約で、そこまでの情報を利用することができなかっ
た。
Problems Concerning Contents of Machine Dictionary From the viewpoint of the machine dictionary, the natural language processing technology in the early days did not perform technically high-level processing,
I didn't need the definitions or examples of words in the human dictionary. Alternatively, even if it is recognized that it is necessary, it is not possible to use the information up to that point due to hardware limitations such as storage capacity and search speed.

【0010】それ故、現段階では、人間用辞書は、自然
言語において積極的に利用されてはおらず、せいぜい機
械翻訳における翻訳結果の編集作業やかな漢字変換にお
ける同音語(同音同義語・同音異義語)の選択過程等に
おいて、人間に対して言葉の意味や訳語・類義語・反対
語等を提示するなど、極めて消極的に利用されているに
すぎない。
Therefore, at the present stage, the human dictionary is not actively used in natural language, and at most, editing work of translation results in machine translation and homophones (homophone synonyms / homophones) in kana-kanji conversion are performed. In the selection process, etc.), the meaning of words, translations, synonyms, antonyms, etc. are presented to human beings and they are only used in a very passive manner.

【0011】[0011]

【発明が解決しようとする課題】従って、このような従
来の日本語ワードプロセッサ等に用いられる自然言語処
理装置にあっては、人間用辞書と機械用辞書とをそれぞ
れ別個に作成・使用する構成となっていたため、項目に
よっては両辞書に共通する項目があるにも拘らずそれぞ
れ別個に作成等を行なわなければならず、辞書の肥大
化、作成・維持作業の非効率化、辞書の再構築作業の困
難性等の問題点があった。
Therefore, in the natural language processing apparatus used for such a conventional Japanese word processor, a human dictionary and a machine dictionary are constructed and used separately. Therefore, some items must be created separately, even though there are items common to both dictionaries, which makes the dictionary bloat, inefficient creation / maintenance work, and dictionary reconstruction work. There were problems such as the difficulty of.

【0012】以下、具体的に問題点を説明する。The problem will be specifically described below.

【0013】辞書の容量の肥大化の問題 人間用辞書も機械用辞書もますますサイズ的に膨大なも
のになっている。例えば、ワープロ専用機のAI辞書の
用例は、少ないものでも10万例、多いもので30万例
〜50万例と言われているが、それでも同音語を正しく
選択できないケースが多く、実用的なレベルに達してい
ない。従って、変換の精度を向上するには、更に大量の
用例が必要であることは明白である。
Problems of Enlargement of Dictionary Capacity Both human and machine dictionaries are becoming enormous in size. For example, it is said that there are 100,000 examples of the AI dictionary for a word processor-dedicated machine, and 300,000 to 500,000 cases of the large one. However, there are many cases in which the same phoneme cannot be selected correctly, which makes it practical. Not reached the level. Therefore, it is clear that a larger amount of examples is needed to improve the accuracy of the conversion.

【0014】辞書の管理の問題 これまでも大規模なデータベースがいくつか実用化され
てきたが、データの更新にお金と時間が予想以上にかか
るために、メンテナンスがされなくなり、やがては使わ
れなくなってしまったものが少なくない。従って、大規
模辞書を人間用と機械用の2つ管理するのは、時間的及
び金銭的にあまりにも負担が大きすぎる。
Problem of dictionary management Some large-scale databases have been put into practical use until now, but since updating the data takes more money and time than expected, maintenance is stopped and eventually it will not be used. There are many things that have been lost. Therefore, managing two large-scale dictionaries, one for humans and one for machines, is too time and financially burdensome.

【0015】共通項目の多重登録の問題 本来、表記・読み・文法・意味・用例・アクセント等、
人間用辞書と機械用辞書に共通する項目は少なくない。
しかしながら、現状では、たとえ全く同じ内容であって
も全ての辞書に登録しなければならない。そのため、よ
り高度な自然言語処理や、外国人でも簡単に利用できる
程度のより洗練された辞書を実現した場合、共通項目は
もっと増えることが考えられる。
Problem of multiple registration of common items Originally, notation, reading, grammar, meaning, example, accent, etc.
There are many common items in the human dictionary and machine dictionary.
However, under the present circumstances, even if the contents are exactly the same, they must be registered in all dictionaries. Therefore, if more advanced natural language processing and a more sophisticated dictionary that can be easily used by foreigners are realized, it is possible that the number of common items will increase.

【0016】情報のロスの問題 例えば、AI変換用の用例辞書を例にあげると、AI変
換用の用例辞書は用例の中からある内部処理に必要な情
報を抽出・分類したものであって、視点が多少でも異な
ると別の処理には、殆ど役に立たない。このように、用
例そのものには含まれているが機械用辞書作成の段階で
失われている情報も少なくなく、その結果、より高度な
言語処理用の辞書として現在の機械用辞書をそのまま用
いることは不可能であり、辞書の再構築という膨大な作
業を迫られることになる。
Problem of Loss of Information For example, taking the example dictionary for AI conversion as an example, the example dictionary for AI conversion is information in which necessary information for internal processing is extracted and classified from examples. If the viewpoint is slightly different, it is almost useless for another processing. In this way, there is not a little information included in the examples themselves but lost at the stage of creating the machine dictionary, and as a result, use the current machine dictionary as it is as a dictionary for more advanced language processing. Is impossible, and a huge amount of work of rebuilding the dictionary is required.

【0017】上記不具合に加えて、更に、自然言語処理
用の辞書というものは、「処理に必要な情報を予め全て
用意しておく」という考え方に基づくものであるが、こ
の方法が理論的及び現実的に不可能であることは、周知
の事実である。人間用辞書の場合も同様で、例えば、英
語の原書を併用することは珍しくないし、それでも単語
の意味が判明しないこともある。
In addition to the above-mentioned problems, a dictionary for natural language processing is based on the idea of "preparing all the information necessary for processing in advance". It is a well-known fact that it is practically impossible. The same is true for human dictionaries, for example, it is not uncommon to use English original books together, and the meaning of words may still be unknown.

【0018】この場合については、一般的に、ユーザー
定義辞書の利用や初歩的な学習機能によって必要な情報
を補う方法が用いられているが、何れも対応できる範囲
や程度に限界があり、本質的な問題解決には至っていな
い。
In this case, generally, a method of supplementing necessary information by using a user-defined dictionary or a rudimentary learning function is used, but there is a limit in a range and a degree which can be dealt with, and it is essential. Problem has not been solved yet.

【0019】従って、次世代の自然言語処理技術では、
電子化されているが辞書化されていないもの、例えば、
文書ファイル、電子化された新聞・雑誌、BBS等のオ
ンラインデータベース等も情報源(source)とし、現在
の辞書と同じようにこれらの情報源にアクセスすること
により、必要な情報を利用できるものでなければならな
い。
Therefore, in the next-generation natural language processing technology,
Something that has been digitized but not a dictionary, such as
Document files, computerized newspapers / magazines, online databases such as BBS, etc. are used as sources of information, and the necessary information can be used by accessing these sources in the same way as the current dictionaries. There must be.

【0020】本発明の課題は、現在存在する人間用辞書
と機械用辞書の2種類の辞書について辞書の語義文を含
めて共通部分を統一することにより、辞書の肥大化を防
止するとともに、辞書の作成・維持作業及び辞書の再構
築作業の効率化を図ることができるようにすることであ
る。
An object of the present invention is to prevent the dictionary from becoming too large by unifying the common parts of the two types of dictionaries that currently exist, a human dictionary and a machine dictionary, including word meaning sentences. It is to be able to improve the efficiency of the work of creating and maintaining and the work of rebuilding the dictionary.

【0021】[0021]

【課題を解決するための手段】本発明の手段は次の通り
である。
The means of the present invention are as follows.

【0022】辞書は、人間が検索するための情報と機械
処理のための情報とに共通する情報を共通項目として格
納するもので、辞書の構造は、本来は人間のために記述
された語義文(テキスト)から、機械処理に必要な情報
を自動的に抽出可能にする。検索手段は、検索情報に基
づいて辞書に格納されている情報を検索するもので、例
えばキーワードを基に辞書を検索し、必要な情報を検索
するとともに、検索に失敗した場合は、該当項目無しと
いう情報を戻す検索装置である。
The dictionary stores information common to human search information and machine processing information as common items. The structure of the dictionary is essentially the meaning of sentences written for humans. The information necessary for machine processing can be automatically extracted from (text). The search means searches the information stored in the dictionary based on the search information. For example, the dictionary is searched based on keywords to search for necessary information, and if the search fails, there is no corresponding item. Is a search device that returns the information.

【0023】解析手段は、前記検索手段により前記辞書
から必要な情報を抽出するとともに、前記辞書の共通項
目に基づいて人間のために記述されたテキストから機械
処理に必要な情報を抽出するもので、例えば読み・品詞
等の情報、及び形態・構文解析処理等により語義文から
各内部処理に必要な情報を抽出する解析装置である。ま
た、この解析手段の出力によって必要な情報が得られた
かどうかを判定する判定手段を設けてもよい。
The analyzing means extracts the necessary information from the dictionary by the searching means, and also extracts the information necessary for the machine processing from the text written for humans based on the common items of the dictionary. For example, it is an analysis device that extracts information such as reading and part-of-speech information and information necessary for each internal processing from a word meaning sentence by a form / syntactic analysis processing. Further, a judgment means for judging whether or not the necessary information is obtained by the output of the analysis means may be provided.

【0024】[0024]

【作用】本発明の手段の作用は次の通りである。The operation of the means of the present invention is as follows.

【0025】先ず、辞書には、人間が検索するための情
報と機械処理のための情報の共通項目が検索可能に格納
されているものとする。
First, it is assumed that the dictionary stores retrievably common items of information for human search and information for machine processing.

【0026】この状態で、使用者が検索情報を入力する
と、入力された検索情報に基づいて検索手段により辞書
に格納されている情報が検索され、辞書から必要な情報
が抽出され、さらに辞書の共通項目に基づいて人間のた
めに記述されたテキストから機械処理に必要な情報が抽
出される。
When the user inputs the search information in this state, the information stored in the dictionary is searched by the search means based on the input search information, the necessary information is extracted from the dictionary, and the dictionary is further searched. Information necessary for machine processing is extracted from texts written for humans based on common items.

【0027】従って、共通項目を統一した辞書を実現す
ることにより、辞書のサイズの肥大化を防止するととも
に、辞書の作成・維持作業の簡略化の実現を可能にする
ことができ、人間のために記述された語義文から、機械
処理に必要な情報を自動的に抽出することができる。
Therefore, by realizing a dictionary in which common items are unified, it is possible to prevent the size of the dictionary from being enlarged and to simplify the work of creating and maintaining the dictionary. Information necessary for machine processing can be automatically extracted from the word meaning sentence described in.

【0028】[0028]

【実施例】以下、図1〜図5を参照して実施例を説明す
る。
EXAMPLES Examples will be described below with reference to FIGS.

【0029】原理説明 先ず、本発明の基本的な考え方を説明する。Description of Principle First, the basic concept of the present invention will be described.

【0030】図1は辞書の実際の記述例を示す図であ
る。図1において、これらの記述例は、言葉の定義、す
なわち、意味や概念を記述したものではなく、単に同じ
ことを別の表現で言い替えたものにすぎない。人間用の
辞書にはこのような記述が多く、機械処理に必要な意味
や概念の定義や言葉の用法等の情報が必ずしも得られる
わけではない。従って、人間用辞書は機械処理には不向
きであると言われている。
FIG. 1 is a diagram showing an actual description example of a dictionary. In FIG. 1, these description examples do not describe the definitions of words, that is, meanings and concepts, but merely rephrasing the same with different expressions. There are many such descriptions in human dictionaries, and it is not always possible to obtain information such as definitions of meanings and concepts necessary for machine processing and usage of words. Therefore, human dictionaries are said to be unsuitable for machine processing.

【0031】ところが、例えば、「王の位」という表現
だけでは情報として役に立たない場合は、「王の位」を
形態分析・構文解析等の自然言語処理技術を用いて解析
し、その結果、この表現が「王」(名詞)・「の」(格
助詞)・「位」(名詞)から構成されていると正しく認
識することができれば、更に、「王」及び「位」を検索
のキーワードとして、検索を続行することにより、より
多くの有用な情報を得ることができる。同様に、「酒を
飲む」の場合も、「酒」で検索を継続すれば、「酒を飲
む」という表現は、「日本酒(洋酒・ビール)を飲む」
と言う表現や意味を内包していることが判明する。
However, for example, when the expression "king's place" is not useful as information, "king's place" is analyzed using a natural language processing technique such as morphological analysis / syntactic analysis. If it can be correctly recognized that the expression is composed of "king" (noun), "no" (case particle), and "rank" (noun), then "king" and "rank" are used as search keywords. By continuing the search, you can get more useful information. Similarly, in the case of "drinking sake", the expression "drinking sake" is "drinking sake (Western sake / beer)" if you continue searching for "drinking sake".
It turns out that it contains the expression and meaning.

【0032】このプロセスは、特に英語や仏語等の外国
語を学ぶときの「辞書引き」方法と基本的に同じもので
ある。ところで、ある単語や表現の意味を調べるために
辞書を引いても、その意味がはっきりしない場合は、そ
の定義を構成する単語をキーワードとして、再度辞書引
きを行なうことはよくあることであり、このような方法
で意味を明確化している。
This process is basically the same as the "dictionary lookup" method, especially when learning foreign languages such as English and French. By the way, if you look up a dictionary to look up the meaning of a word or expression and the meaning is not clear, it is common to look up the dictionary again using the words that make up the definition as keywords. The meaning is clarified in such a way.

【0033】辞書の語義文を情報源とする場合には、図
2に示すような辞書特有の表現パターン(例えば、〜の
一種、〜の雅語、漢語的表現、〜など)を収集してルー
ル化しておけば、構文解析に基づく高度な自然言語処理
の負担を軽減することが可能である。
When the word meanings of the dictionary are used as the information source, an expression pattern peculiar to the dictionary as shown in FIG. 2 (for example, a kind of ~, a Japanese word of ~, a Chinese expression, ~, etc.) is collected. By creating rules, it is possible to reduce the burden of advanced natural language processing based on parsing.

【0034】そこで本発明は、辞書検索において、人間
のための情報と機械処理のための情報の共通項目を統一
した兼用の辞書を作成することにより、辞書のサイズの
肥大化を防止するとともに、辞書の作成・維持作業の簡
略化を実現する。
Therefore, in the present invention, in the dictionary search, by creating a combined dictionary in which common items of information for human beings and information for machine processing are unified, the enlargement of the size of the dictionary is prevented, and Realizes simplification of dictionary creation / maintenance work.

【0035】また、共通の辞書の特徴としては、その辞
書の構造だけではなく、本来は人間のために記述された
定義・用例等の語義文から、機械処理に必要な情報を自
動的に抽出するようにする。また、上述した語義文を解
析する技術を応用し、従来の自然言語処理が予め必要な
情報を記述した専用の辞書のみを用いていたのに対し、
端末上、または、ネットワーク上に存在するテキスト
(このテキストは、あらゆる種類の電子化された情報を
いう)を検索し、そこから、人間または機械処理に必要
な情報を抽出する。すなわち、「必要な情報は予め全て
定義しておく」という従来の辞書の制約から離れ、ま
た、使用者は、端末上に必要最小限度の辞書を用意して
おき、必要ならネットワーク上の超大規模データベース
にアクセスして情報を得るというオンライン辞書を実現
する。
As a characteristic of the common dictionary, not only the structure of the dictionary, but also the information necessary for machine processing is automatically extracted from the meaning sentences such as definitions and examples originally described for humans. To do so. In addition, while applying the technology for analyzing the word meaning sentence described above and using only the dedicated dictionary in which the conventional natural language processing describes the necessary information in advance,
A text existing on a terminal or a network (this text refers to any kind of electronic information) is extracted, and information necessary for human or machine processing is extracted from the text. That is, away from the restriction of the conventional dictionary of "defining all necessary information in advance", the user prepares the minimum necessary dictionary on the terminal, and if necessary, the super-large scale on the network. Realize an online dictionary that accesses a database to obtain information.

【0036】実施例 図3〜図5は自然言語処理装置の一実施例を示す図であ
る。
Embodiment FIG. 3 to FIG. 5 are views showing an embodiment of the natural language processing apparatus.

【0037】先ず、構成を説明する。図3は上記基本原
理に基づいて作成された自然言語処理装置の辞書10の
構成を示す図である。
First, the structure will be described. FIG. 3 is a diagram showing the configuration of the dictionary 10 of the natural language processing apparatus created based on the above basic principle.

【0038】図3において、辞書10は、人間のための
情報と機械処理のための情報の共通の項目を格納する共
通情報格納部11と、機械翻訳・かな漢字変換等の機械
処理では必要であるが、人間には必要ない機械専用の情
報を格納する機械専用情報格納部12と、人間の理解を
助けるための情報を格納する人間専用情報格納部13と
から構成されている。
In FIG. 3, the dictionary 10 is necessary for a common information storage unit 11 that stores common items of information for humans and information for machine processing, and for machine processing such as machine translation and kana-kanji conversion. However, it is composed of a machine-dedicated information storage unit 12 that stores machine-dedicated information that is not necessary for humans, and a human-dedicated information storage unit 13 that stores information for helping human understanding.

【0039】共通の情報格納部11には、読み・表記・
品詞などの情報が含まれる他、定義及び用例などの辞書
の語義文等も含む。語義文に関しては、特に機械処理の
ために加工する必要はなく、人間にとって理解されやす
い形式のまま情報を格納しておけばよい。これは、原理
説明で述べたように機械処理で利用する場合は、自然言
語処理技術を利用して必要な情報を抽出するためであ
る。この場合、検索スピードの向上、辞書の容量の圧縮
等の便宜を図るために、情報の持ち方を適切なものにす
る必要がある。機械専用情報格納部12には、機械翻訳
・かな漢字変換等の機械処理では必要であるが、人間に
は必要ないという情報を記述しておく。また、処理スピ
ードの向上を図るために、機械処理装置で頻繁に用いら
れる基本的な情報は、この部分に記憶しておいてもよ
い。人間専用情報格納部13には、図や絵など機械処理
では利用できないが人間の理解を助けるための情報を記
憶しておく。
In the common information storage unit 11, reading / notation /
In addition to including information such as part-of-speech, it also includes word meaning sentences in a dictionary such as definitions and examples. It is not necessary to process the word meaning sentence for machine processing, and the information may be stored in a format that is easily understood by humans. This is because when used in machine processing as described in the principle description, necessary information is extracted using a natural language processing technique. In this case, in order to improve the search speed and reduce the capacity of the dictionary, it is necessary to appropriately hold the information. The machine-dedicated information storage unit 12 describes information that is necessary for machine processing, such as machine translation and kana-kanji conversion, but not for humans. Further, in order to improve the processing speed, basic information frequently used in the mechanical processing device may be stored in this portion. The human-dedicated information storage unit 13 stores information such as drawings and pictures that cannot be used by machine processing but help human understanding.

【0040】なお、図3の辞書10は、あくまでも辞書
の構成の概念図であり、実際に辞書を実装する場合には
各情報を物理的に連続した記憶エリアに格納しても、別
個に格納するようにしてもよい。
Note that the dictionary 10 in FIG. 3 is merely a conceptual diagram of the structure of the dictionary, and when actually implementing the dictionary, even if each information is stored in a physically continuous storage area, it is stored separately. You may do it.

【0041】図4は、上記辞書10を検索する辞書検索
装置20のブロック図である。この図において、21は
辞書検索全体を制御、並びに後述するテキスト検索処理
を含む各種のデータ処理を行なうCPU等からなる辞書
検索制御装置21であり、辞書検索制御装置21は図示
しないROMに格納されているマイクロプログラムに従
って自然言語処理装置の各種の動作を制御する。辞書検
索制御装置21には、辞書検索制御装置21からの検索
情報(キーワード等)を受け取り、受取った検索情報に
基づいて辞書10を検索する検索装置22と、辞書検索
により得られた語義文に対して読み(表記)・品詞等の
情報及び形態素・構文解析処理により意味等の解析を行
なう解析装置23と、解析した情報を記憶領域に記憶す
る記憶装置23と、記憶装置23の記憶領域に記憶され
た情報を参照して必要な情報が得られたか否かを評価す
る評価装置24とにより構成されている。また、辞書検
索制御装置21には、検索全体を制御する検索制御装置
30が接続され、検索制御装置30は例えばパーソナル
コンピュータ等の端末から構成され、辞書検索装置20
に対し辞書検索を要求し全体を制御するとともに、辞書
検索装置20からの辞書検索情報を受取る。また、検索
制御装置30には、検索された情報をディスプレイ等に
表示する表示制御装置31が接続されている。
FIG. 4 is a block diagram of the dictionary search device 20 for searching the dictionary 10. In the figure, reference numeral 21 denotes a dictionary search control device 21 including a CPU for controlling the entire dictionary search and performing various data processing including a text search process described later. The dictionary search control device 21 is stored in a ROM (not shown). Various operations of the natural language processor are controlled according to the micro program. The dictionary search control device 21 receives search information (keywords, etc.) from the dictionary search control device 21, and searches the dictionary 10 based on the received search information, and the word meaning sentence obtained by the dictionary search. On the other hand, information such as reading (notation) / part of speech and an analysis device 23 that analyzes meanings by morpheme / syntactic analysis processing, a storage device 23 that stores the analyzed information in a storage area, and a storage area of the storage device 23. The evaluation device 24 is configured to evaluate whether or not necessary information is obtained by referring to the stored information. A search control device 30 that controls the entire search is connected to the dictionary search control device 21, and the search control device 30 is composed of, for example, a terminal such as a personal computer.
To request the dictionary search to control the whole and receive the dictionary search information from the dictionary search device 20. A display control device 31 that displays the retrieved information on a display or the like is connected to the search control device 30.

【0042】上記検索装置22は、辞書検索制御装置か
らの検索情報(キーワード等)を受け取り、その情報を
基に辞書10を検索し、情報が検出できれば以後の解析
に必要な情報等(辞書アドレス等)を辞書検索制御装置
21に戻す。上記解析装置23は、読み(表記)・品詞
等の情報、及び形態・構文解析処理等により語義文から
各内部処理に必要な情報を抽出する。この場合、語義文
から抽出する情報は、例えば、機械翻訳の場合には、意
味(概念)、訳語、あるいは表現(文体)を変更するた
めの同義語(類義語)・反対語等がある。上記評価装置
24は、記憶装置23の記憶領域を参照して、必要な情
報が得られたかどうかを判定し、不十分であると判断し
た場合は、記憶領域に格納されている情報の中から、再
度検索する場合の検索情報(キーワード等)を抽出し、
その情報を基に再度検索するように、辞書検索制御装置
21に制御を戻す。
The search device 22 receives the search information (keyword, etc.) from the dictionary search control device, searches the dictionary 10 based on the information, and if the information can be detected, the information etc. (dictionary address) necessary for subsequent analysis. Etc.) to the dictionary search control device 21. The analysis device 23 extracts information necessary for each internal processing from the word meaning sentence by information such as reading (notation) / part of speech and form / syntactic analysis processing. In this case, the information extracted from the word meaning sentence includes, for example, in the case of machine translation, synonyms (synonyms) and antonyms for changing meaning (concept), translation, or expression (style). The evaluation device 24 refers to the storage area of the storage device 23 to determine whether or not necessary information is obtained, and when it is determined that the necessary information is insufficient, the evaluation device 24 selects from the information stored in the storage area. , Extract search information (keywords etc.) when searching again,
The control is returned to the dictionary search control device 21 so as to search again based on the information.

【0043】次に、本実施例の動作を説明する。Next, the operation of this embodiment will be described.

【0044】辞書検索装置20の動作 検索を開始すると、検索装置22が辞書検索制御装置2
1からキーワード等を受け取り、その情報を基に辞書1
0を検索する。もし、情報が検索できれば以後の解析に
必要な辞書アドレス等の情報を辞書検索制御装置21に
戻し、検索に失敗した場合は、該当項目無しという情報
を戻す。検索に失敗した場合は、辞書検索制御装置21
が、検索全体を制御する検索装置30に該当項目無しと
いう情報を戻し、処理を終了する。
Operation of dictionary search device 20 When the search is started, the search device 22 causes the dictionary search control device 2 to operate.
Receives keywords etc. from 1, and dictionary 1 based on that information
Search for 0. If the information can be retrieved, the information such as the dictionary address necessary for the subsequent analysis is returned to the dictionary retrieval control device 21, and if the retrieval fails, the information that there is no corresponding item is returned. If the search fails, the dictionary search control device 21
Returns the information that there is no corresponding item to the search device 30 that controls the entire search, and ends the process.

【0045】人間のために必要な情報を得る場合は、情
報検索に成功したときに辞書検索を終了し、表示制御装
置31により、検出した情報をディスプレイ等に表示す
る。この場合、使用者から、より詳細な情報や関連する
情報の検索を指示された場合等は、後述する機械処理の
ための検索と同様の処理を続行するようにする。
When obtaining information necessary for humans, the dictionary search is terminated when the information search is successful, and the display control device 31 displays the detected information on a display or the like. In this case, when the user gives an instruction to search for more detailed information or related information, the same processing as the search for machine processing described below is continued.

【0046】機械処理のために必要な情報を得る場合
は、辞書検索に成功したときに解析装置23において、
読み(表記)・品詞等の情報、及び形態素・構文解析処
理等により語義文から各内部処理に必要な情報を抽出す
る。この場合、語義文から抽出する情報は、例えば、機
械翻訳の場合には、意味(概念)、訳語、あるいは表現
(文体)を変更するための同義語(類義語)・反対語等
がある。
In order to obtain information necessary for machine processing, when the dictionary search is successful, the analysis device 23
Information necessary for each internal processing is extracted from the word meaning sentence by reading (notation), part-of-speech information, and morpheme / syntactic analysis processing. In this case, the information extracted from the word meaning sentence includes, for example, in the case of machine translation, synonyms (synonyms) and antonyms for changing meaning (concept), translation, or expression (style).

【0047】抽出した情報は記憶装置25の出力情報記
憶領域に格納し、制御を辞書検索制御装置21に戻す。
The extracted information is stored in the output information storage area of the storage device 25, and control is returned to the dictionary search control device 21.

【0048】また、評価装置24は、記憶装置25の記
憶領域を参照して、必要な情報が得られたかどうかを判
定する。もし、不十分であると判定した場合は、記憶領
域に格納されている情報の中から、再度検索する場合の
キーワード等の検索情報を抽出し、その情報を基に再度
検索するように辞書検索制御装置21に制御を戻す。但
し、それ以上検索を継続しても有効な情報が得られない
と判断できる場合は、検索処理を中断し、制御を辞書検
索制御装置21に戻す。また、処理に必要な情報が十分
に得られたと判断できる場合は、検索終了情報を辞書検
索制御装置21に返し、処理を終了する。
The evaluation device 24 also refers to the storage area of the storage device 25 to determine whether the necessary information has been obtained. If it is determined that it is insufficient, search information such as keywords for re-searching is extracted from the information stored in the storage area, and the dictionary search is performed again based on that information. The control is returned to the control device 21. However, if it is determined that valid information cannot be obtained even if the search is continued for a further time, the search process is interrupted and the control is returned to the dictionary search control device 21. If it can be determined that the information necessary for the processing has been sufficiently obtained, the search end information is returned to the dictionary search control device 21, and the processing ends.

【0049】例えば、図4に示す辞書検索装置20にお
いて、「酒を飲む」という情報を検索する場合、「酒」
(名詞)、「を」(格助詞)、「飲む」(動詞)だけで
は「飲酒」の言い換えにすぎず、更に詳細な情報を得た
いときには、検索された「酒を飲む」と言う情報を解析
する必要がある。そのため、解析装置23により、「酒
を飲む」と言う情報の形態素を解析して、先ず名詞の
「酒」と、格助詞の「を」で動詞の「飲む」の文節につ
ながるということを辞書10を用いて解析し、さらに名
詞の「酒」、動詞の「飲む」を辞書10を用いて調べて
情報を増やしていく。ここで、辞書10は、図3に示す
ように読み・表記・品詞等について共通の情報を持つ共
通情報格納部11と、文法情報等のように機械翻訳・か
な漢字変換等の機械処理時に必要な機械専用の情報を格
納する機械専用情報格納部12と、図・絵等の人間に理
解を助けるための情報を格納する人間専用情報格納部1
3とを備えており、検索装置22及び解析装置23によ
りアクセスされる。すなわち、検索する際には、先ず共
通情報格納部11の共通の項目を検索し、検索の結果、
共通の情報だけではいま必要とする十分な情報が得られ
なかったときは以下のような辞書10のアクセスに移
る。共通の情報だけでは必要とする情報が得られなかっ
た場合は、例えば人間がある言葉の情報を知りたいとき
には人間専用情報部13のその言葉の用語が格納されて
いるところをアクセスして情報を得、また、機械翻訳等
において情報がないときには機械専用情報部12の機械
翻訳に関連した情報があるところをアクセスしてその情
報を取り出す。また、この辞書10によって検索が完結
しないときは、例えば、辞書10を用いる辞書検索装置
20に接続されたネットワークによってネットワーク上
のデータベースにアクセスするようにしてもよい。
For example, in the dictionary search device 20 shown in FIG. 4, when searching for the information "drink", "drink"
(Noun), "wo" (case particle), and "drink" (verb) are just paraphrases of "drinking", and when you want to get more detailed information, you can use the searched information "drink" Need to analyze. Therefore, the analysis device 23 analyzes the morpheme of the information “drinking sake” and first connects the noun “sake” and the case particle “o” to the verb “drinking” clause. 10 is used for analysis, and the noun “sake” and the verb “drink” are searched using the dictionary 10 to increase information. Here, the dictionary 10 is necessary for machine processing such as common information storage 11 having common information about reading, notation, part of speech, etc. as shown in FIG. 3 and machine translation such as grammatical information and kana-kanji conversion. A machine-dedicated information storage unit 12 that stores machine-dedicated information and a human-dedicated information storage unit 1 that stores information such as diagrams and pictures to help humans understand
3 and are accessed by the search device 22 and the analysis device 23. That is, when searching, first, a common item in the common information storage unit 11 is searched, and as a result of the search,
When the common information alone does not provide the necessary and sufficient information, access to the dictionary 10 described below is performed. If the necessary information cannot be obtained from the common information alone, for example, when a person wants to know information about a certain word, he / she can access the place where the word of that word is stored in the human-only information section 13 to obtain the information. If there is no information in the machine translation or the like, the machine-dedicated information section 12 is accessed to retrieve the information related to the machine translation. When the search is not completed by the dictionary 10, for example, the database on the network may be accessed by the network connected to the dictionary search device 20 that uses the dictionary 10.

【0050】図4に戻って、上述のように辞書10を検
索して情報を増やしていき、その結果を評価装置24に
より評価して検索の用途に合わないときはもう一度解析
装置23により解析をし直して更に詳細な情報を蓄えて
いくようにする。この結果を評価装置24によりもう一
度評価して用途に適合する検索が行われたときは、検索
結果を使用者側に出力して検索動作を終了する。
Returning to FIG. 4, the dictionary 10 is searched to increase the information as described above, and the result is evaluated by the evaluation device 24. When the result is not suitable for the purpose of the search, the analysis device 23 analyzes again. Try again to accumulate more detailed information. When this result is evaluated again by the evaluation device 24 and a search suitable for the purpose is performed, the search result is output to the user side and the search operation is terminated.

【0051】検索制御装置30の動作 図5は検索制御装置30におけるテキスト検索処理のフ
ローチャートであり、本フローは上記辞書検索装置20
により十分な情報が得られなかったときにネットワーク
上のテキストを検索する処理である。ここで、テキスト
とは既に電子化されている全ての情報ソースのことを意
味する。
Operation of Search Control Device 30 FIG. 5 is a flowchart of a text search process in the search control device 30, and this flow is the dictionary search device 20.
Is a process for searching the text on the network when sufficient information is not obtained. Here, the text means all information sources that have already been digitized.

【0052】先ず、ステップS1で辞書検索制御装置2
1からの辞書検索情報を受け取り、ステップS2で検索
に成功した情報であるか否かを判別する。辞書検索に成
功したときは、端末及びネットワーク上のテキスト検索
を行う必要がないと判断して本フローの処理を終え、辞
書検索に成功しなかったときは、端末及びネットワーク
上のテキスト検索を行うためにステップS3で端末にテ
キストがあるか否かを判別する。端末にテキストがある
ときはステップS4でそのテキストを情報源として検索
を実行し、端末にテキストがないときにはネットワーク
上のテキスト検索を行うためにステップS6に進む。次
いで、ステップS5で端末のテキストを情報源としたテ
キスト検索が成功したか否かを判別し、検索に成功した
ときはネットワーク上のテキスト検索を行う必要がない
と判別して本フローの処理を終える。また、ステップS
5でテキスト検索に成功しなかったときはネットワーク
上のテキスト検索を行うためにステップS6でネットワ
ーク上にテキストがあるか否かを判別し、ネットワーク
上にテキストがあるときはステップS7でネットワーク
上のテキストを情報源として検索を実行して本フローの
処理を終える。また、ステップS6でネットワーク上に
もテキストがないときには全てのテキスト検索が終了し
たと判断して本フローの処理を終える。
First, in step S1, the dictionary search control device 2
The dictionary search information from 1 is received, and it is determined in step S2 whether or not the search is successful. When the dictionary search is successful, it is judged that it is not necessary to perform the text search on the terminal and the network, and the processing of this flow is ended. When the dictionary search is not successful, the text search on the terminal and the network is performed. Therefore, in step S3, it is determined whether or not there is text in the terminal. If there is text in the terminal, a search is executed using the text as an information source in step S4, and if there is no text in the terminal, the process proceeds to step S6 to perform a text search on the network. Next, in step S5, it is determined whether or not the text search using the text of the terminal as an information source is successful, and when the search is successful, it is determined that it is not necessary to perform the text search on the network, and the process of this flow is performed. Finish. Also, step S
If the text search is not successful in step 5, it is determined in step S6 whether or not there is text on the network in order to perform text search on the network. The search is executed using the text as the information source, and the processing of this flow ends. If there is no text on the network in step S6, it is determined that all text searches have been completed, and the processing of this flow ends.

【0053】上記フローを実行することにより検索制御
装置30では、具体的には以下のような動作を行う。
By executing the above flow, the search control device 30 specifically performs the following operation.

【0054】いま、辞書検索制御装置21から検索制御
装置30に、検索に失敗したあるいは抽出した情報が不
十分であるという情報が戻ったとする。この場合、検索
制御装置30は、先ず、端末上にテキストがあるかどう
かを調べ、もしあれば、そのテキストを情報源として検
索を実行する。検索の処理方法は、前述した辞書検索の
場合と同様である。
It is assumed that the dictionary search control device 21 returns to the search control device 30 information that the search has failed or that the extracted information is insufficient. In this case, the search control device 30 first checks whether or not there is text on the terminal, and if there is, executes the search using the text as an information source. The processing method of the search is the same as that of the dictionary search described above.

【0055】検索に成功すれば、処理を終了し、失敗し
た場合は、ネットワーク上のテキストを対象とした検索
処理を実行する。但し、端末上に複数のテキストが存在
する場合は、それらを順番に検索するように処理を変更
してもよく、このことは、ネットワーク上のテキスト検
索にも当てはまる。
If the search is successful, the process is terminated, and if the search is unsuccessful, the search process for the text on the network is executed. However, when there are a plurality of texts on the terminal, the processing may be changed so as to search them in order, and this also applies to the text search on the network.

【0056】ところで、実際には、テキストの種類によ
って検索処理が異なる。例えば、端末上のテキストの場
合、対象がascii形式のファイルなのか、それともワー
プロ専用機等の独自のファイル形式かによって検索方法
が異なる。同様に、ネットワーク上のテキスト検索にお
いては、現状では検索情報をSQL言語や汎用のデータ
ベース問い合わせ(Query)言語等に変換する必要があ
るが、この場合も検索の対象に応じた検索処理機能を装
備すればよい。
By the way, in reality, the retrieval process differs depending on the type of text. For example, in the case of text on a terminal, the search method differs depending on whether the target is an ascii format file or an original file format such as a dedicated word processor. Similarly, in the text search on the network, it is necessary to convert the search information into an SQL language or a general-purpose database query (Query) language at present, but in this case as well, a search processing function according to the search target is equipped. do it.

【0057】以上説明したように、本実施例の自然言語
処理装置は、人間のための情報と機械処理のための情報
の共通項目を統一した辞書10と、辞書検索全体を制
御、並びに後述するテキスト検索処理を含む各種のデー
タ処理を行う制御装置21と、検索情報に基づいて辞書
10を検索する検索装置22と、辞書検索により得られ
た語義文に対して読み・品詞等の情報及び形態素・構造
解析処理により意味等の解析を行う解析装置23とを備
え、辞書の共通項目に基づいて人間のために記述したテ
キストから機械処理に必要な情報を抽出するようにして
いるので、辞書のサイズの肥大化を防止するとともに、
辞書の作成・維持作業の簡略化を実現することができ、
また、人間のために記述された語義文(定義・用例)か
ら、機械処理に必要な情報を自動的に抽出することがで
きる。さらに、従来の自然言語処理が予め必要な情報を
記述した専用の辞書のみを用いていたのに対し、端末
上、または、ネットワーク上に存在するテキスト(あら
ゆる種類の電子化された情報)を検索し、そこから(人
間または機械処理に)必要な情報を抽出することができ
る。
As described above, the natural language processing apparatus of this embodiment controls the entire dictionary search and the dictionary 10 that unifies common items of information for humans and information for machine processing, and will be described later. A control device 21 that performs various data processes including a text search process, a search device 22 that searches the dictionary 10 based on the search information, and information and morphemes such as reading and part-of-speech for a word meaning sentence obtained by the dictionary search. The dictionary is provided with the analysis device 23 that analyzes the meaning and the like by the structure analysis process, and the information necessary for machine processing is extracted from the text described for humans based on the common items of the dictionary. While preventing the size from bloating,
It is possible to simplify the creation and maintenance of dictionaries,
In addition, information necessary for machine processing can be automatically extracted from a word meaning sentence (definition / example) written for human beings. Furthermore, while conventional natural language processing uses only a dedicated dictionary that describes necessary information in advance, it searches for text (all kinds of digitized information) existing on a terminal or network. However, it can extract the necessary information (for human or machine processing) from it.

【0058】特に、本実施例の自然言語処理装置では、
存在する人間用辞書と機械用辞書の2種類の辞書を辞書
の語義文を含めて共通部分を統一することにより、辞書
の作成・保守の観点から述べると、以下のような効果が
ある。
Particularly, in the natural language processing apparatus of this embodiment,
From the viewpoint of creating and maintaining the dictionary, the following effects can be obtained by unifying the common parts of the existing two types of dictionaries, the human dictionary and the machine dictionary, including the word meanings of the dictionaries.

【0059】辞書の肥大化の防止 ・・・・・ 共通項目を
一本化できるので、今後、辞書が超大規模化するとして
も、少なくとも現行の方式よりも容量的に遥かに小さく
することができる。
Prevention of enlargement of dictionary: Since common items can be unified, even if the dictionary becomes extremely large in future, at least the capacity can be made much smaller than that of the current method. .

【0060】辞書の作成・維持作業の効率化 ・・・・・
辞書を統一することにより、辞書の作成・維持作業は、
大幅に縮小する。
Efficiency of dictionary creation / maintenance work ...
By unifying the dictionaries, the work of creating and maintaining dictionaries
Significantly reduce.

【0061】辞書の再構築作業の排除 ・・・・・ 本自然
言語処理装置を用いれば、現在よりも高度な自然言語処
理が必要となっても、その処理の実現のための辞書を再
度一から構築するという膨大な作業に煩わされることは
ない。従って、より高度な処理技術の導入を容易なもの
とすることができる。
Elimination of restructuring work of the dictionary ........ If this natural language processing device is used, even if a higher level natural language processing than the current one is required, the dictionary for realizing the processing is re-created. Don't be bothered by the huge amount of work to build from. Therefore, it is possible to easily introduce a more advanced processing technique.

【0062】さらに、自然言語処理技術の観点から述べ
ると、人間用と機械用の兼用辞書を実現しているので、
以下のような利点がある。
Further, from the viewpoint of the natural language processing technique, since a dictionary for both human and machine is realized,
There are the following advantages.

【0063】多種多様な情報源の利用 ・・・・・ 本自然
言語処理装置を用いれば、自然言語処理に必要な情報を
予め専用に機械辞書化しておく必要がなく、多種多様な
情報源を活用することができる。
Utilization of a variety of information sources ...... By using this natural language processing apparatus, it is not necessary to prepare a machine dictionary for information necessary for natural language processing in advance, Can be utilized.

【0064】辞書のカスタマイズ化 ・・・・・ 上記に
より、個々の使用者が用いる辞書には、処理効率を維持
するための必要最小限度の情報があればよい。このこと
は、辞書の容量が無尽蔵に増大していく現状の方式の欠
点を克服するものである。
Customization of dictionary: As described above, the dictionary used by each user needs only the minimum necessary information for maintaining the processing efficiency. This overcomes the shortcomings of the current schemes, in which the dictionary capacity grows inexhaustibly.

【0065】オンライン辞書の実現 ・・・・・ 上記、
の特徴は、例えば個々の使用者が、最小限度の辞書を
端末上に持ち、より詳細なあるいは専門的な情報が必要
な場合は、ネットワークでつながったホストコンピュー
タ上の大規模データーベースにアクセスするというオン
ライン辞書の実現を容易にするための基本技術となる。
上記特徴を有する自然言語処理装置を、例えば、ワープ
ロ等の文書処理装置の文章校正支援機能に応用すること
ができる。ここで、現在の文章校正支援機能としては、
以下に示すような機能が実用化されている。すなわち、 スペルチェック機能 ・・・・・ 綴り字が正しいかどうか
のチェック(かな漢字変換の同音語選択のチェック等も
含む)。
Realization of online dictionary ・ ・ ・ ・ ・ Above,
Is characterized by, for example, an individual user having a minimal dictionary on the terminal and accessing a large database on a networked host computer if more detailed or specialized information is needed. This is a basic technology to facilitate the realization of an online dictionary.
The natural language processing device having the above characteristics can be applied to, for example, the grammar correction support function of a document processing device such as a word processor. Here, as the current grammar correction support function,
The following functions have been put to practical use. In other words, spell check function: Checks whether the spelling is correct (including the check of homophone selection for kana-kanji conversion).

【0066】文法チェック機能 ・・・・・ 主語・述語の
一致、助詞「てにをは」の使い方のチェック等。
Grammar check function: Matches the subject and predicate, checks how to use the particle "teniha", etc.

【0067】文体チェック機能 ・・・・・ 文末の「です
・ます」の統一、または、敬語表現のチェック機能等。
Stylistic check function ・ ・ ・ ・ ・ Unified "do ・ masu" at the end of the sentence, or a function to check honorific expressions.

【0068】推論による意味チェック機能 ・・・・・ 例
えば、「ペンギンが空を飛んだ」という文があった場
合、「ペンギンは鳥ではあるが空を飛ぶことができな
い」という知識ベース(常識)を用いることにより、こ
の文が矛盾していて現実には起こり得ないことを検出す
る。
Semantic check function by inference ・ ・ ・ ・ ・ For example, if there is a sentence "Penguin flew in the sky," a knowledge base (common sense) "Penguin is a bird but cannot fly" By using, we detect that this sentence is inconsistent and cannot actually occur.

【0069】上記の他には、文章の内容が正しいかど
うかをチェックする文章校正支援機能がほとんど実現さ
れていないが、本自然言語処理装置を適用すれば、文章
で示されている内容の事実関係が正しいかどうかをチェ
ックする機能をネットワーク上の大規模データーベース
を用いることにより実現することができる。例えば、い
ま、「○○○社は、ニューヨークで、新しいタイプの個
人用情報機器技術Pascalを発表した」という文章が正し
いかどうかをチェックするとする。この場合、ネットワ
ーク上に○○○社の製品発表に関する情報データベース
(例えば、BBSの日経Mixのapple.japanフォーラムの
news分科会etc.)が存在すれば、そのデータベースを検
索し、かつ検索結果を本発明で提案する解析装置により
解析すれば、○○○社が発表した場所はシカゴであり、
その製品名は「Newton」であると訂正することが理論的
に可能になる。
In addition to the above, almost no grammar proofreading support function for checking whether or not the content of a sentence is correct is realized, but if this natural language processing apparatus is applied, the fact of the content shown in the sentence The function of checking whether the relationship is correct can be realized by using a large-scale database on the network. For example, suppose now that the sentence "XX company has announced a new type of personal information device technology Pascal in New York" is correct. In this case, an information database regarding product announcements of XX company is available on the network (for example, BBS's Nikkei Mix apple.japan forum).
If the news subcommittee etc.) exists, if the database is searched and the search results are analyzed by the analysis device proposed by the present invention, the place where the XX company announced is Chicago.
It would theoretically be possible to correct the product name as "Newton".

【0070】なお、本実施例では、図3に示すような構
造の辞書を作成する例を示したが、人間が検索するため
の情報と機械処理のための情報の共通項目を検索可能に
格納する辞書であればどのような構造の辞書でもよい。
例えば、情報源を国語辞書等の語義文に限定するもので
はなく、医学辞典・六法全書・百科辞典などの辞書類は
言うに及ばず、電子化された新聞・雑誌、及び例えば、
「Inside Macintosh」のような特定分野の専門書を特殊
なデーターベース化することなくそのまま情報源として
用いることが可能である。但し、文書を検索の対象とす
る場合は、辞書の語義文の場合のような表現パターンを
規則化しておく方法(すなわち、第一世代の機械翻訳で
用いられたパターンマッチング手法)では処理に限界が
あるのは明白であり、より高度な自然言語処理技術(主
に構文解析)が必要となることは言うまでもない。ここ
では特にこのような構文解析技術に関しては特定するも
のではないが、近年実用化されているLFG(Lexical
Functional Grammar)やGPSG(Generalized Phrase
Structure Grammar)の応用技術、あるいは拡張分脈自
由文法(Extended Context Free Grammar)等の応用技
術などで対応できる。 また、本実施例では、自然言語
処理装置をワードプロッセッサ等の文書処理装置に適用
することができるが、辞書を検索する機能を持つ装置で
あれば他の全ての装置、例えばパーソナルコンピュータ
やワークステーションにも適用できることは言うまでも
ない。
In this embodiment, an example of creating a dictionary having a structure as shown in FIG. 3 is shown, but common items of information for human search and information for machine processing are stored in a searchable manner. Any dictionary can be used as long as it is a dictionary that does.
For example, the information source is not limited to the meaning of sentences such as a national language dictionary, not to mention dictionaries such as medical dictionaries, six law encyclopedias, encyclopedias, electronic newspapers and magazines, and, for example,
It is possible to use a specialized book in a specific field such as "Inside Macintosh" as it is as an information source without forming a special database. However, when documents are to be searched, the method is limited in the method of regularizing the expression pattern as in the case of word meaning sentences in the dictionary (that is, the pattern matching method used in the first-generation machine translation). Obviously, there is a need for more advanced natural language processing techniques (mainly parsing). Although no particular parsing technique is specified here, LFG (Lexical), which has been put into practical use in recent years, is not specified.
Functional Grammar) and GPSG (Generalized Phrase)
Applied technology such as Structure Grammar) or applied technology such as Extended Context Free Grammar. Further, in the present embodiment, the natural language processing device can be applied to a document processing device such as a word processor, but as long as it is a device having a function of searching a dictionary, all other devices such as a personal computer and a work device. It goes without saying that it can also be applied to stations.

【0071】[0071]

【発明の効果】本発明によれば、人間が検索するための
情報と機械処理のための情報とに共通する情報を共通項
目として検索可能に格納する辞書を備え、該辞書の共通
項目に基づいて人間のために記述されたテキストから機
械処理に必要な情報を抽出するようにしているので、辞
書のサイズの肥大化を防止するとともに、辞書の作成・
維持作業の簡略化の実現を可能にすることができ、人間
のために記述された語義文から、機械処理に必要な情報
を自動的に抽出することができる。
According to the present invention, a dictionary is provided which stores information common to human information and machine processing information as a common item in a searchable manner, and is based on the common item of the dictionary. By extracting the information necessary for machine processing from the text written for human beings, it is possible to prevent the size of the dictionary from expanding and create / create a dictionary.
It is possible to realize simplification of maintenance work, and it is possible to automatically extract information necessary for machine processing from a word meaning sentence written for human beings.

【図面の簡単な説明】[Brief description of drawings]

【図1】自然言語処理装置の辞書の記述例を示す図であ
る。
FIG. 1 is a diagram showing a description example of a dictionary of a natural language processing device.

【図2】自然言語処理装置の辞書の語義文の表現例を示
す図である。
FIG. 2 is a diagram showing a representation example of word meaning sentences in a dictionary of a natural language processing device.

【図3】自然言語処理装置の辞書の構成例を示す図であ
る。
FIG. 3 is a diagram showing a configuration example of a dictionary of a natural language processing device.

【図4】自然言語処理装置の辞書検索装置のブロック構
成図である。
FIG. 4 is a block configuration diagram of a dictionary search device of a natural language processing device.

【図5】自然言語処理装置のテキスト検索処理のフロー
チャートである。
FIG. 5 is a flowchart of a text search process of the natural language processing device.

【符号の説明】[Explanation of symbols]

10 辞書 11 共通情報格納部 12 機械専用情報格納部 13 人間専用情報格納部 21 辞書検索制御装置 22 検索装置 23 解析装置 24 評価装置 10 dictionary 11 common information storage unit 12 machine dedicated information storage unit 13 human dedicated information storage unit 21 dictionary search control device 22 search device 23 analysis device 24 evaluation device

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 人間が検索するための情報と機械処理の
ための情報とに共通する情報を共通項目として格納する
辞書と、 検索情報に基づいて前記辞書に格納されている情報を検
索する検索手段と、 前記検索手段により前記辞書から必要な情報を抽出する
とともに、前記辞書の共通項目に基づいて人間のために
記述されたテキストから機械処理に必要な情報を抽出す
る解析手段と、 を具備したことを特徴とする自然言語処理装置。
1. A dictionary that stores information common to human information and machine processing information as a common item, and a search that searches information stored in the dictionary based on the search information. Means for extracting necessary information from the dictionary by the searching means, and analyzing information necessary for machine processing from text described for humans based on common items of the dictionary. A natural language processing device characterized in that
JP4355484A 1992-12-18 1992-12-18 Natural language processor Pending JPH06187329A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4355484A JPH06187329A (en) 1992-12-18 1992-12-18 Natural language processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4355484A JPH06187329A (en) 1992-12-18 1992-12-18 Natural language processor

Publications (1)

Publication Number Publication Date
JPH06187329A true JPH06187329A (en) 1994-07-08

Family

ID=18444216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4355484A Pending JPH06187329A (en) 1992-12-18 1992-12-18 Natural language processor

Country Status (1)

Country Link
JP (1) JPH06187329A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003146A (en) * 2009-06-22 2011-01-06 Casio Computer Co Ltd Dictionary data storage structure and dictionary searching method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003146A (en) * 2009-06-22 2011-01-06 Casio Computer Co Ltd Dictionary data storage structure and dictionary searching method

Similar Documents

Publication Publication Date Title
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
Alwaneen et al. Arabic question answering system: a survey
Hatzigeorgiu et al. Design and Implementation of the Online ILSP Greek Corpus.
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US20060031207A1 (en) Content search in complex language, such as Japanese
US20070011160A1 (en) Literacy automation software
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
Lewis ODIN: A model for adapting and enriching legacy infrastructure
JPH08129554A (en) Relation expression extracting device and retrieval device for relation expression
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
US8478732B1 (en) Database aliasing in information access system
Safeena et al. Quranic computation: A review of research and application
JPH06187329A (en) Natural language processor
Hlava et al. Cross-language retrieval-English/Russian/French
JPH07114565A (en) Electronic dictionary
Vasuki et al. English to Tamil machine translation system using parallel corpus
Ibragimovna Establishment of a national corpus the uzbek language is a requirement of a new ERA
Ito et al. A model of rhetorical structure analysis of Japanese instructional texts and its application to a smart help system
JPH0561902A (en) Mechanical translation system
Тоирова Establishment of a national corpus the uzbek language is a requirement of a new era
Zaghal et al. Arabic morphological analyzer with text to voice
Bird et al. Web‐based Dictionaries for Languages of the South‐west USA