JPH10275154A - System and method for supporting language dictionary production - Google Patents
System and method for supporting language dictionary productionInfo
- Publication number
- JPH10275154A JPH10275154A JP9078595A JP7859597A JPH10275154A JP H10275154 A JPH10275154 A JP H10275154A JP 9078595 A JP9078595 A JP 9078595A JP 7859597 A JP7859597 A JP 7859597A JP H10275154 A JPH10275154 A JP H10275154A
- Authority
- JP
- Japan
- Prior art keywords
- document
- morpheme
- language dictionary
- word
- morphemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、国語辞典,用字辞
典,類語辞典等の言語辞典の制作を支援するシステム及
び方法に関し、特に、言語辞典における見出し語の選
定,意味内容確定及び用例選定の処理を支援する言語辞
典制作支援システム及び方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system and a method for supporting the production of a language dictionary such as a Japanese language dictionary, a character dictionary, a thesaurus, etc., and more particularly, to the selection of a headword in a language dictionary, the definition of semantic content, and the selection of examples. The present invention relates to a language dictionary production support system and method for supporting the processing of (1).
【0002】[0002]
【従来の技術】各種の言語辞典を制作する場合、従来で
は、その言語の専門家が自身の知識と経験とに基づいて
手作業で編集している。例えば、言語辞典における見出
し語を選定する場合、選定した見出し語の意味を説明す
る場合、設定した見出し語の用例を選択する場合等にお
いて、専門知識を有する人が自身の知識と経験とに基づ
く個人的判断に頼ってそれぞれの作業を行っている。2. Description of the Related Art Conventionally, when producing various language dictionaries, a language expert manually edits the dictionary based on his / her own knowledge and experience. For example, when selecting a headword in a language dictionary, explaining the meaning of the selected headword, selecting an example of a set headword, and the like, a person having specialized knowledge is based on his / her own knowledge and experience. They do their job depending on their personal judgment.
【0003】[0003]
【発明が解決しようとする課題】このような従来の手法
では、以下に述べるような問題点がある。見出し語選定
作業においては、辞典制作者自身の経験による思い入れ
が入り、使用頻度が高い語を正確に選定することが困難
である。選定した見出し語の意味の説明作業において
は、その見出し語の使用方法に偏りがないように参考と
する文書を数多く揃えることは困難であり、参考例不足
による意味内容の記述不備が生じる可能性が高い。設定
した見出し語の用例選択作業においては、参考にする文
書が特定の分野に偏ることが考えられ、適切な用例を選
べない虞がある。また、このような各処理を適切に行う
ためには、多くの人材及び時間を要することになる。However, such a conventional method has the following problems. In the entry word selection work, thoughts by the dictionary creator's own experience are included, and it is difficult to accurately select frequently used words. In the work of explaining the meaning of the selected headword, it is difficult to prepare a large number of documents to be referenced so that there is no bias in the usage of the headword. Is high. In the example entry work of the set headword, the reference document may be biased to a specific field, and there is a possibility that an appropriate example cannot be selected. Further, in order to appropriately perform each of such processes, a lot of human resources and time are required.
【0004】本発明は斯かる事情に鑑みてなされたもの
であり、文書における各単語の使用頻度及び各単語の用
例についての情報を提示することにより、言語辞典を制
作する際の見出し語の選定,見出し語の意味内容確定及
び見出し語の用例選定等を含む様々な作業の手助けとな
る言語辞典制作支援システム及び方法を提供することを
目的とする。The present invention has been made in view of the above circumstances, and presents information on the frequency of use of each word in a document and an example of each word, thereby selecting a headword when creating a language dictionary. It is an object of the present invention to provide a language dictionary production support system and method that assist in various tasks including determination of the meaning and content of a headword and selection of an example of a headword.
【0005】[0005]
【課題を解決するための手段】請求項1に係る言語辞典
制作支援システムは、言語辞典の制作を支援するシステ
ムであって、文書をその出典元を含む種々のパラメータ
に従って分類して登録する文書登録手段と、登録された
文書を単語単位に分割し分割された単語の品詞を確定す
ることにより、登録された文書を単語表記と品詞とで構
成する形態素の列に変換する形態素解析手段と、各形態
素の出現頻度を、前記文書登録手段における分類時のパ
ラーメータ毎に集計する頻度集計手段と、登録された文
書におけるその用例を各形態素別に表示する用例表示手
段とを備えることを特徴とする。A language dictionary production support system according to claim 1 is a system for supporting the production of a language dictionary, wherein a document is classified and registered according to various parameters including its source. Registration means, a morphological analysis means for converting the registered document into a sequence of morphemes composed of word notation and part of speech by dividing the registered document into words and determining the part of speech of the divided words, It is characterized by comprising a frequency counting means for counting the appearance frequency of each morpheme for each parameter at the time of classification in the document registration means, and an example display means for displaying the examples in the registered document for each morpheme.
【0006】請求項2に係る言語辞典制作支援システム
は、請求項1において、登録する文書の中に含まれる同
一内容異表記の複数の文字を同一内容として集約する文
字集約手段と、同一内容異表記の複数の形態素を1つの
同義語として集約する同義語集約手段とを更に備えるこ
とを特徴とする。According to a second aspect of the present invention, there is provided a language dictionary production support system according to the first aspect, wherein a character aggregating means for aggregating a plurality of characters having the same content but different notations contained in a document to be registered as the same content; A synonym aggregating means for aggregating a plurality of morphemes in the notation as one synonym.
【0007】請求項3に係る言語辞典制作支援システム
は、請求項1または2において、前記形態素解析手段
は、活用語の単語についてはその活用形も加えて形態素
とし、前記頻度集計手段は、活用語の単語については表
記が異なっていても語幹が同一の単語は同一の形態素と
して集計すべくなしたことを特徴とする。According to a third aspect of the present invention, in the linguistic dictionary production support system according to the first or second aspect, the morphological analysis means converts the words of the inflected words into morphemes in addition to their inflected forms, and the frequency counting means includes A feature of the present invention is that words having the same stem are summed up as the same morpheme even if the notation of the word is different.
【0008】請求項4に係る言語辞典制作支援システム
は、請求項1〜3の何れかにおいて、前記用例表示手段
は、表示する用例の数を指定する手段を有することを特
徴とする。According to a fourth aspect of the present invention, in the language dictionary production support system according to any one of the first to third aspects, the example display means includes means for designating the number of examples to be displayed.
【0009】請求項5に係る言語辞典制作支援システム
は、請求項3または4において、前記頻度集計手段は、
形態素の品詞別、活用語の形態素の活用形別、及び、前
記文字集約手段または前記同義語集約手段で集約された
文字または形態素別に、出現頻度を集計すべくなしたこ
とを特徴とする。According to a fifth aspect of the present invention, in the language dictionary production support system according to the third or fourth aspect, the frequency totalizing means is
The present invention is characterized in that the appearance frequency is totaled for each part of speech of a morpheme, for each inflected form of a morpheme of a conjugation word, and for each character or morpheme aggregated by the character aggregation means or the synonym aggregation means.
【0010】請求項6に係る言語辞典制作支援方法は、
言語辞典の制作を支援する方法において、文書をその出
典元を含む種々のパラメータに従って分類して登録する
ステップと、登録された文書を単語単位に分割し分割さ
れた単語の品詞を確定することにより、登録された文書
を単語表記と品詞とで構成する形態素の列に変換するス
テップと、各形態素の出現頻度を、前記文書登録手段に
おける分類時のパラーメータ毎に集計するステップと、
登録された文書におけるその用例を各形態素別に表示す
るステップとを有することを特徴とする。[0010] According to a sixth aspect of the present invention, there is provided a language dictionary production support method.
In a method for supporting the production of a language dictionary, a step of classifying and registering a document according to various parameters including its source, and a step of dividing the registered document into words and determining the parts of speech of the divided words. Converting the registered document into a sequence of morphemes composed of word notation and part-of-speech; and aggregating the appearance frequency of each morpheme for each parameter at the time of classification in the document registration means,
Displaying the example in the registered document for each morpheme.
【0011】請求項7に係る言語辞典制作支援方法は、
請求項6において、登録する文書の中に含まれる同一内
容異表記の複数の文字を同一内容として集約するステッ
プと、同一内容異表記の複数の形態素を1つの同義語と
して集約するステップとを更に有することを特徴とす
る。[0011] According to a seventh aspect of the present invention, there is provided a language dictionary production support method.
7. The method according to claim 6, further comprising the steps of: aggregating a plurality of characters having the same content but different notations contained in the document to be registered as the same content; and aggregating a plurality of morphemes having the same content but different notation as one synonym. It is characterized by having.
【0012】請求項8に係る言語辞典制作支援方法は、
請求項6または7において、前記形態素の列に変換する
ステップでは、活用語の単語についてはその活用形も加
えて形態素とし、前記出現頻度を集計するステップで
は、活用語の単語については表記が異なっていても語幹
が同一の単語は同一の形態素として集計することを特徴
とする。[0012] The language dictionary production support method according to claim 8 comprises:
8. The method according to claim 6, wherein, in the step of converting to the morpheme string, the inflected words are used as morphemes in addition to their inflected forms, and in the step of counting the appearance frequency, the inflected words are differently expressed. Even though the words have the same stem, they are counted as the same morpheme.
【0013】請求項9に係る言語辞典制作支援方法は、
請求項6〜8の何れかにおいて、前記用例を表示するス
テップでは、表示する用例の数を指定することを特徴と
する。According to a ninth aspect of the present invention, there is provided a language dictionary production support method.
In any one of claims 6 to 8, in the step of displaying the example, the number of examples to be displayed is specified.
【0014】請求項10に係る言語辞典制作支援方法は、
請求項8または9において、前記出現頻度を集計するス
テップでは、形態素の品詞別、活用語の形態素の活用形
別、及び、集約された文字または形態素別に、出現頻度
を集計することを特徴とする。A language dictionary production support method according to claim 10 is
10. The method according to claim 8, wherein, in the step of summing up the appearance frequency, the appearance frequency is summed up by each part of speech of a morpheme, by each inflected form of a morpheme of a conjugation word, and by each of the aggregated characters or morphemes. .
【0015】図1は、本発明の言語辞典制作支援システ
ムの構成を示す図であり、本発明のシステムは、図1に
示すように、文書登録手段1と、形態素解析手段2と、
頻度集計手段3と、用例表示手段4とを有する。FIG. 1 is a diagram showing a configuration of a language dictionary production support system according to the present invention. As shown in FIG. 1, the system according to the present invention comprises a document registration unit 1, a morphological analysis unit 2,
It has frequency counting means 3 and example display means 4.
【0016】文書登録手段1は、新聞,小説,随筆,解
説文,論文等で既に出版されている文書を、例えば新聞
ではその発行年月,発行社,掲載欄等、小説ではそのジ
ャンル,作者,年代別等、その出典元に応じた適当なパ
ラメータにより階層的に分類して登録する。このように
しておけば、後述する形態素の集計結果の獲得及び用例
の表示を、分類したパラメータ毎に行える。The document registering means 1 stores a document which has already been published in a newspaper, a novel, an essay, a commentary, a paper, etc., for example, in a newspaper, its publication date, publisher, publication column, etc., in a novel, its genre, author, etc. , By age, etc., and classified hierarchically by appropriate parameters according to the source of the source. By doing so, it is possible to obtain the morpheme tallying result and display the example, which will be described later, for each classified parameter.
【0017】形態素解析手段2は、登録された文書を単
語に分解し、その単語表記と品詞とで構成される複数の
形態素の列に文書を変換する。この際、活用がある単
語、つまり活用語(具体的には用言及び助動詞)につい
ては、文書中における活用形も確定しておけば、後述す
る形態素の集計結果及び用例表示において、品詞だけで
なく活用形も考慮することができる。The morphological analysis means 2 decomposes the registered document into words, and converts the document into a sequence of a plurality of morphemes composed of the word notation and the part of speech. At this time, if the inflected words in the document are also determined for the words that have inflections, that is, inflection words (specifically, verbs and auxiliary verbs), only the part of speech is displayed in the morpheme tallying results and example display described later. It can also be used without consideration.
【0018】頻度集計手段3は、形態素解析手段2での
解析結果に基づいて、文書登録手段1における分類基準
であるパラメータを単位として、登録された文書におけ
る形態素の出現頻度を集計する。このようにして、各パ
ラメータ毎の形態素の出現頻度のデータが簡単に得られ
る。この際、活用語の形態素については、表記が異なっ
ていても、つまり活用形が異なっていても、語幹が同じ
である単語を含む形態素は同一の形態素として集計する
ようにすれば、より現実的な形態素の集計結果が得られ
る。また、形態素の品詞別及び活用語の形態素の活用形
別に、出現頻度を集計することも可能である。The frequency counting means 3 counts the frequency of appearance of morphemes in the registered document based on the analysis result of the morphological analysis means 2 by using a parameter which is a classification criterion in the document registration means 1 as a unit. In this way, data on the appearance frequency of morphemes for each parameter can be easily obtained. At this time, regarding the morphemes of the inflected words, even if the notations are different, that is, even if the inflected forms are different, if the morphemes including words having the same stem are counted as the same morpheme, it is more realistic. The result of summation of various morphemes is obtained. In addition, it is also possible to total the frequency of appearance for each part of speech of a morpheme and for each inflected form of a morpheme of a conjugate word.
【0019】用例表示手段4は、指定された形態素別
に、その形態素が実際の文書でどのように使われている
かが分かるように、その形態素の前後文を表示する。こ
の際、文書登録手段1における分類基準であるパラメー
タを単位として、1つの形態素毎に全ての用例を表示す
ることも可能であると共に、表示する用例の数を指定す
ることも可能である。このようにすることにより、辞典
制作者に対して、その人が所望するだけの適切な用例を
提示することができる。The example display means 4 displays, for each specified morpheme, a sentence before and after the morpheme so that the user can understand how the morpheme is used in an actual document. At this time, it is possible to display all the examples for each morpheme in units of a parameter which is a classification criterion in the document registration means 1 and to specify the number of examples to be displayed. In this manner, the dictionary creator can be presented with appropriate examples as desired by the person.
【0020】なお、以上のような構成に加えて、新旧の
文字,当て字等、表記は異なるが意味は同一である文字
を全く同一の文字として取り扱えるように、これらの文
字を登録する文字集約手段を形態素解析手段2の前段に
備えておけば、より現実的な形態素への変換結果及び形
態素の集計結果が得られる。In addition to the above-described structure, a character aggregating means for registering new and old characters, guessing characters, and the like, so that characters having different notations but the same meaning, such as new and old characters, can be treated as identical characters. Is provided before the morphological analysis means 2, a more realistic conversion result into morphemes and a total result of morphemes can be obtained.
【0021】また、表記は異なるが同一の意味内容を持
つ単語については、同一の単語として集約する同義語集
約手段を備えておけば、このような異表記同義語の単語
を同一の単語とした場合の形態素の集計結果,異表記同
義語の単語は同一の単語としない場合の形態素の集計結
果など、様々な条件での形態素の集計結果を得ることが
できる。If words having different notations but having the same meaning are provided with synonym aggregating means for aggregating them as the same words, the words having such different notations are regarded as the same words. It is possible to obtain the morpheme tally results under various conditions, such as the morpheme tally result in the case and the morpheme tally result in the case where the words of the synonyms are not the same word.
【0022】本発明の言語辞典制作支援システムでは、
以上のように、既存の文書における各単語の使用頻度,
各単語の使用例等、言語辞典制作に必要な情報を、過不
足なく適切に制作者に提供することができる。よって、
言語辞典を制作する際の見出し語の選定,意味内容確定
及び用例選定等の作業の手助けとなる正確かつ適切な情
報を提供できるので、言語辞典の制作作業の支援に大い
に役立つことになる。In the language dictionary production support system of the present invention,
As described above, the frequency of use of each word in existing documents,
Information necessary for creating a language dictionary, such as examples of use of each word, can be provided to the creator appropriately without excess or shortage. Therefore,
Since it is possible to provide accurate and appropriate information to assist in tasks such as selection of headwords, determination of semantic contents, and selection of examples when producing a language dictionary, it will be greatly useful in supporting the production of a language dictionary.
【0023】[0023]
【発明の実施の形態】本発明を、その実施の形態を示す
図面を参照して具体的に説明する。なお、以下の説明で
は、日本語辞典の制作を支援するシステムを例として詳
述する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be specifically described with reference to the drawings showing the embodiments. In the following description, a system that supports the production of a Japanese dictionary will be described in detail as an example.
【0024】図2は、本発明の日本語辞典制作支援シス
テムを実現するハードウェアの構成を示す図であり、コ
ンピュータ11と、形態素の出現頻度の集計結果,形態素
の用例などを表示するディスプレイ12と、コンピュータ
11に接続されたキー入力を行うキーボード13及び指示入
力を行うマウス14と、磁気ディスク,光ディスク等の記
録媒体15と、登録した日本語文書,形態素の分析結果な
どを記憶するデータベースとしての外部記憶手段16とを
備える。本発明は、後述する各処理を含むコンピュータ
プログラムを記録してある記録媒体15をコンピュータ11
のディスクドライブ11a に装着し、記録媒体15に記録さ
れたコンピュータプログラムをロードすることにより後
述する各処理を実行する。FIG. 2 is a diagram showing the configuration of hardware for realizing the Japanese dictionary production support system of the present invention. A computer 11 and a display 12 for displaying the results of counting the frequency of appearance of morphemes, examples of morpheme use, and the like. And the computer
A keyboard 13 for key input and a mouse 14 for instruction input, a recording medium 15 such as a magnetic disk or an optical disk, and an external storage as a database for storing registered Japanese documents, analysis results of morphemes, etc. Means 16. The present invention relates to a computer-readable storage medium 15 storing a computer program including each process described below.
By loading the computer program recorded on the recording medium 15 into the disk drive 11a, each processing described later is executed.
【0025】図3は、本発明の日本語辞典制作支援シス
テムの構成を示す図であり、本発明の日本語辞典制作支
援システムは、前述した図1と同様の、既存の日本語文
書を種々のパラメータに従って分類して登録する文書登
録手段1、登録された文書を複数の形態素の列に変換す
る形態素解析手段2、登録された文書における形態素の
出現頻度を集計する頻度集計手段3、及び、形態素毎に
その形態素の用例を表示する用例表示手段4に加えて、
表記は異なるが意味は同一である文字を同一の文字とし
て集約する文字集約手段5と、表記は異なるが意味内容
は同一である単語を同一の単語として集約する同義語集
約手段6とを備える。FIG. 3 is a diagram showing the configuration of a Japanese dictionary production support system of the present invention. The Japanese dictionary production support system of the present invention converts various existing Japanese documents similar to FIG. Document registration means 1 for classifying and registering according to the parameters described above, morphological analysis means 2 for converting a registered document into a plurality of morpheme columns, frequency counting means 3 for counting the appearance frequency of morphemes in the registered document, In addition to the example display means 4 for displaying an example of the morpheme for each morpheme,
It comprises a character consolidation means 5 for consolidating characters having different notations but the same meaning as the same character, and a synonym consolidation means 6 for consolidating words having different notations but the same meaning as the same word.
【0026】次に、動作について説明する。図4はその
手順を示すフローチャートである。まず、文書登録手段
1により、新聞,小説,随筆,解説文,論文等既に出版
されている処理対象の既存の日本語文書を分類して登録
する(S1)。この際、例えば新聞ではその発行年月,
発行社,掲載欄等のパラメータによって紙面の文書を分
類し、小説ではそのジャンル,筆者,年代別等のパラメ
ータにより文書を分類する。図5は、このように文書を
階層的に整理・分類して登録する文書登録手段1の登録
画面の一例を示す。Next, the operation will be described. FIG. 4 is a flowchart showing the procedure. First, an existing Japanese document to be processed, such as a newspaper, a novel, an essay, a commentary, or an article, is classified and registered by the document registration means 1 (S1). At this time, for example, in a newspaper,
Paper documents are classified according to parameters such as publishers and publication columns, and in novels, documents are classified according to parameters such as genre, writer, and age. FIG. 5 shows an example of a registration screen of the document registration means 1 for hierarchically arranging, classifying and registering documents.
【0027】次に、文字集約手段5により、新旧の文
字,当て字等、表記は異なるが意味は同じである文字を
以降の処理で全く同一の文字として取り扱えるように、
これらの文字を集約して登録する(S2)。例えば、
「沢」と「澤」とは同一文字として集約する。得られた
文字集約結果は、形態素解析手段2及び頻度集計手段3
へ送られる。このような文字集約機能を、形態素解析手
段2の前段階で果たすことにより、例えばJISコード
等、コンピュータコードに登録されていない文字もコン
ピュータコードに登録されている文字と同一の文字とし
て取り扱うことができ、より現実に即した対応が可能で
ある。Next, the character aggregating means 5 allows characters having different notations but the same meaning, such as new and old characters and guess letters, to be treated as identical characters in the subsequent processing.
These characters are collected and registered (S2). For example,
"Sawa" and "Sawa" are collected as the same character. The obtained character aggregation result is stored in the morphological analysis unit 2 and the frequency aggregation unit 3
Sent to By performing such a character aggregation function before the morphological analysis unit 2, it is possible to treat a character not registered in the computer code such as a JIS code as the same character as a character registered in the computer code. It is possible to respond more realistically.
【0028】そして、形態素解析手段2により、登録さ
れた文書が単語に分解されて、形態素(単語表記+品詞
+活用形(活用語のみ))の列が形成される(S3)。
例えば「赤い花が咲く」という文書を例にした場合、
「赤い」「花」「が」「咲く」という各単語に分解され
て、図6に示すような形態素の列になる。このような処
理は、登録されているすべての文書に対して実行する。Then, the registered document is decomposed into words by the morphological analysis means 2 to form a sequence of morphemes (word notation + part of speech + inflected form (only inflected words)) (S3).
For example, in the case of a document "Red flowers bloom",
The words are decomposed into the words “red”, “flower”, “ga”, and “blooming” to form a row of morphemes as shown in FIG. Such a process is executed for all the registered documents.
【0029】次に、頻度集計手段3により、形態素解析
手段2での解析結果に基づいて、文書登録手段1におけ
る分類基準であるパラメータを単位として、形態素の出
現頻度を集計する(S4)。ここで、活用語、具体的に
は用言(動詞,形容詞,形容動詞)または助動詞である
形態素については、文書中に出ているのが如何なる活用
形であっても1つの形態素として取り扱って、その出現
頻度を集計する。例えば、「咲く」というカ行5段活用
の動詞を考えた場合、その活用形は「咲か」または「咲
こ」(未然形),「咲き」または「咲い」(連用形),
「咲く」(終止形),「咲く」(連体形),「咲け」
(仮定形),「咲け」(命令形)となるが、これらは何
れも「咲」という語幹が同じであって活用形が異なるだ
けであるので、同一の形態素と見做して出現頻度を集計
する。なお、その集計結果の内訳として各活用形におけ
る出現頻度の集計結果も求めておく。Next, based on the analysis result by the morphological analysis means 2, the frequency totalization means 3 totalizes the appearance frequency of morphemes in units of a parameter which is a classification criterion in the document registration means 1 (S4). Here, morphemes that are inflected words, more specifically, verbs (adjectives, adjectives, adjective verbs) or auxiliary verbs, are treated as one morpheme regardless of any inflected form in the document. The appearance frequency is totaled. For example, if we consider the verb that uses “Saki” and uses 5 lines, the conjugation form is “Sakaka” or “Sakiko” (inadvertent form), “Saki” or “Saki” (consecutive form),
"Blooming" (end form), "blooming" (continuous form), "blooming"
(Assumed form) and "bloom" (instructive form), all of which have the same stem as "bloom" and differ only in inflected form. Tally. In addition, as a breakdown of the tally result, the tally result of the appearance frequency in each inflected form is also obtained.
【0030】なお、頻度集計手段3では品詞別に集計結
果を得る。例えば、「愛」という表記で集計する場合、
「愛は永遠だ」の「愛」は普通名詞であり、「愛するこ
と」の「愛」はサ変動詞語幹となる。このように「愛」
で集計すると2種類の品詞を持つ「愛」が集計されるの
で、その出現頻度を求める際には、普通名詞の「愛」の
頻度、サ変動詞の「愛」の頻度というように個別に集計
する。The frequency counting means 3 obtains a counting result for each part of speech. For example, if you tally with the notation "love",
The word "love" in "love is eternal" is a common noun, and the word "love" in "love" is the stem of the varieties. In this way, "love"
In the case of "Ai" which has two kinds of parts of speech, when calculating the appearance frequency, it is separately calculated such as the frequency of the common noun "Ai" and the frequency of the "Ai" I do.
【0031】図7は、頻度集計手段3による集計結果の
表示例を示す図であり、この例では、文書登録手段1で
登録されているパラメータの単位で形態素解析手段2に
て得られた形態素の出現頻度を集計している。出現頻度
が多い順に表示されており、活用語については各活用形
における出現頻度の内訳も示されている。文書登録手段
1での登録基準の種々のパラメータに対して、このよう
な形態素の出現頻度の集計結果を見ることにより、辞典
の制作者はどの単語が文書中に多く利用されているかを
一目で判断できる。FIG. 7 is a diagram showing a display example of the counting result by the frequency counting means 3. In this example, the morpheme obtained by the morphological analysis means 2 in units of the parameters registered by the document registration means 1. Is counted. The words are displayed in descending order of appearance frequency, and for the inflected words, the breakdown of the appearance frequency in each inflected form is also shown. By looking at the results of counting the appearance frequencies of such morphemes for various parameters of the registration criteria in the document registration unit 1, the dictionary creator can see at a glance which words are frequently used in the document. I can judge.
【0032】同義語集約手段6では、表記は異なるが同
一の意味内容を持つ単語、即ち異表記同義語について
は、同一の単語として集約する(S5)。例えば「行
う」と「行なう」とでは送りがなの違いだけであり、
「コンピュータ」と「コンピューター」とでは語尾を伸
ばすか伸ばさないかの違いだけであり、「集積回路」と
「IC」とでは日本語表記か英語表記かの違いだけであ
るので、このようなものは1つの単語として集約する。
得られた単語集約結果は、頻度集計手段3へ送られる。The synonym aggregating means 6 aggregates words having different notations but the same meaning, ie, synonyms with different notations, as the same word (S5). For example, the only difference between "do" and "do" is the sending.
The difference between "computer" and "computer" is only the extension or non-extension, and the difference between "integrated circuit" and "IC" is either Japanese or English notation. Are aggregated as one word.
The obtained word aggregation result is sent to the frequency counting means 3.
【0033】頻度集計手段3には、文字集約手段5から
文字集約結果が、同義語集約手段6から単語集約結果が
送られる。そして、これらの集約結果を形態素の出現頻
度に反映させたい場合には(S6:YES)、それらの
集約結果を参考にして、様々な種類の出現頻度の集計結
果を得ることができる(S7)。即ち、文字集約手段5
で異表記同一文字とした文字単位での集積結果が得られ
る。例えば、「沢」と「澤」とを同一文字として集約し
た場合には、「沢田」を指定すると「沢田」と「澤田」
との出現頻度を合計した集計結果が得られる。なお、
「沢田」と「澤田」との個別の集計結果も併せて得られ
る。また、同義語集約手段6で異表記同義語とした単語
単位での集積結果、つまり異表記同義語を集約した後の
集積結果が得られる。例えば、「集積回路」と「IC」
とを異表記同義語として集約した場合には、「集積回
路」を指定すると「集積回路」と「IC」との出現頻度
を合計した集計結果が得られる。なお、「集積回路」と
「IC」との個別の集計結果も併せて得られる。The frequency aggregation means 3 receives the character aggregation result from the character aggregation means 5 and the word aggregation result from the synonym aggregation means 6. Then, when it is desired to reflect these aggregation results in the appearance frequency of the morpheme (S6: YES), the aggregation results of various types of appearance frequencies can be obtained with reference to the aggregation results (S7). . That is, the character aggregation means 5
Thus, an accumulation result can be obtained in units of characters in which different characters are the same. For example, if "Sawa" and "Sawa" are combined as the same character, and "Sawada" is specified, "Sawada" and "Sawada"
Is obtained by summing the appearance frequencies of In addition,
Individual results for "Sawada" and "Sawada" are also obtained. In addition, an accumulation result in a word unit, which is converted into a synonym of the synonym by the synonym aggregation means 6, that is, an accumulation result after synthesizing the synonym of the alias is obtained. For example, "integrated circuit" and "IC"
When "integrated circuit" is designated and "integrated circuit" is designated, a totaling result obtained by summing up the appearance frequencies of "integrated circuit" and "IC" is obtained. It should be noted that the results of individual summation of “integrated circuit” and “IC” are also obtained.
【0034】このように頻度集計手段3では様々な集計
結果が得られ、それらの集計結果を辞典制作者に提供す
ることができるので、辞典制作者が有する作業時の情報
が豊富になり、誤認識を最小限に抑えることが可能とな
る。As described above, the frequency counting means 3 can obtain various counting results, and can provide the counting results to the dictionary creator. Recognition can be minimized.
【0035】用例表示手段4により、指定された1つの
形態素及びその形態素の前後の文を表示する(S8)。
図8は、用例表示手段4による表示例を示す図であり、
この例では動詞「する」が指定され、その「する」(活
用形も含めて)を使った用例が一覧表示されている。こ
のような単語の用例を見ることにより、辞典制作者はそ
の単語が文書中でどのように使われているかを一目で判
断でき、その単語の意味を判断する上での豊富な参考情
報が提供されることになる。The specified example morpheme and the sentences before and after the morpheme are displayed by the example display means 4 (S8).
FIG. 8 is a diagram showing a display example by the example display means 4,
In this example, the verb “to” is specified, and examples of using the “to” (including inflected forms) are displayed in a list. By looking at examples of such words, the dictionary creator can determine at a glance how the word is used in the document and provide a wealth of reference information in determining the meaning of the word Will be done.
【0036】用例表示手段4では、登録されたすべての
文書における用例を表示することも可能であり、また、
文書登録手段1での分類時のパラメータを単位としてす
べての文書における用例を表示することも可能であり、
更に、文字集約手段5または同義語集約手段6で集約さ
れた文字または同義語の形態素における用例を表示する
ことも可能である。The example display means 4 can also display examples in all registered documents.
It is also possible to display examples in all documents in units of parameters at the time of classification by the document registration means 1,
Further, it is also possible to display examples of characters or synonyms morphemes collected by the character collecting means 5 or the synonym collecting means 6.
【0037】出現頻度が高い形態素についてはそのすべ
ての用例を見ることは困難であるので、その表示数を絞
り込む機能を用例表示手段4は有している。この場合に
は、文書登録手段1で分類したパラメータ別の形態素の
出現頻度を考慮した形で絞り込みを行うこととし、絞り
込みによって偏った用例ばかりが表示されることが無い
ようにする。また、文字集約手段5または同義語集約手
段6で集約された同義文字または文字または同義語に対
する用例を表示する場合には、上記のパラメータ別の形
態素の出現頻度だけではなくこれらの同義文字または同
義語の形態素の出現頻度も考慮した形で絞り込むことが
できる。例えば、「沢田」と「澤田」とにおける出現頻
度が図9(a)で示されているような場合、合計200 個
が出現しているのですべての用例を一目で見ることは困
難である。よって、表示する用例の数を40個(全体の1
/5)と指定することにより、表示するそれぞれの用例
の数もこれに合わせて、図9(b)に示すように1/5
ずつに絞り込む。このようにすることにより、出現頻度
が多い形態素についてのすべての用例を見なくても、パ
ラメータ別または同義文字または同義語での出現頻度を
考慮した用例を見ることができる。Since it is difficult to see all the examples of morphemes having a high frequency of appearance, the example display means 4 has a function of narrowing down the number of displayed morphemes. In this case, narrowing down is performed in consideration of the frequency of appearance of morphemes for each parameter classified by the document registration unit 1, so that only examples biased by the narrowing down are not displayed. When displaying examples of synonymous characters or characters or synonyms aggregated by the character aggregating unit 5 or the synonymous aggregating unit 6, not only the appearance frequency of the morpheme for each parameter but also these synonymous characters or synonyms are displayed. It is possible to narrow down in a form that also considers the frequency of appearance of word morphemes. For example, when the appearance frequencies of “Sawada” and “Sawada” are as shown in FIG. 9A, it is difficult to see all the examples at a glance because a total of 200 appear. Therefore, the number of examples to be displayed is 40 (1
/ 5), the number of examples to be displayed is also adjusted to 1/5 as shown in FIG. 9B.
Narrow down each. By doing so, it is possible to see an example that takes into account the appearance frequency of each parameter or synonymous character or synonym, without looking at all the examples of morphemes with a high appearance frequency.
【0038】なお、前後文だけではその単語の意味を判
断し難い場合には、その単語を使った用例の原典である
文書を選択することにより、その文書全体を表示するこ
とが可能である。図10は、このような原文の表示例を示
す図であり、この例では「組み込む」を用いた用例の原
文を示している。このように、辞典制作者が的確な判断
を行う上で必要かつ十分な情報を簡単に表示できる。If it is difficult to judge the meaning of the word using only the preceding and following sentences, the entire document can be displayed by selecting a document that is the source of an example using the word. FIG. 10 is a diagram showing a display example of such an original sentence. In this example, the original sentence of an example using "incorporate" is shown. In this way, it is possible to easily display necessary and sufficient information for the dictionary creator to make an accurate decision.
【0039】上述した例では、日本語辞典の制作を支援
するシステムの場合について説明したが、日本語以外の
他の言語の辞典の制作を支援する場合にも、本発明を同
様に適用できることは勿論である。In the above-described example, a system for supporting the production of a Japanese dictionary has been described. However, the present invention can be similarly applied to the case of supporting the production of a dictionary in a language other than Japanese. Of course.
【0040】[0040]
【発明の効果】以上のように、本発明では、文書におけ
る単語の出現頻度と指定した単語における用例との正確
な情報を簡単に言語辞典の制作者に提供することがで
き、言語辞典の制作作業に対して過大の支援を与える。
本発明を利用すれば、文書における単語の統計データに
基づいて言語辞典の見出し語を選定することができるの
で、その見出し語の選定作業期間を大幅に短縮できると
共に、出現頻度が高い単語を見出し語として選定できる
ので、現状の言語状況を勘案した実際の社会生活により
即した言語辞典を制作できる。また、実際に使用されて
いる用例に基づいて選定された見出し語の意味内容を確
定することができるので、短期間で正確な意味内容の確
定が可能である。更に、各単語毎に多数の用例が表示さ
れるので、適切な用例を選ぶことができる。このよう
に、本発明は、言語辞典の制作支援に大いに寄与でき
る。As described above, according to the present invention, accurate information on the frequency of occurrence of a word in a document and an example of a specified word can be easily provided to a language dictionary creator. Provide excessive support for work.
According to the present invention, it is possible to select the headword of the language dictionary based on the statistical data of the words in the document, so that the work of selecting the headword can be significantly reduced, and the words having a high appearance frequency can be searched. Since it can be selected as a word, it is possible to create a language dictionary that is more suitable for actual social life taking into account the current language situation. In addition, since the meaning of the headword selected based on the example actually used can be determined, it is possible to determine the correct meaning in a short period of time. Further, since many examples are displayed for each word, an appropriate example can be selected. As described above, the present invention can greatly contribute to support for producing a language dictionary.
【図1】本発明の言語辞典制作支援システムの構成図で
ある。FIG. 1 is a configuration diagram of a language dictionary production support system of the present invention.
【図2】本発明の日本語辞典制作支援システムを実現す
るハードウェアの構成図である。FIG. 2 is a configuration diagram of hardware for realizing the Japanese dictionary production support system of the present invention.
【図3】本発明の日本語辞典制作支援システムの実施の
形態の構成図である。FIG. 3 is a configuration diagram of an embodiment of a Japanese dictionary production support system of the present invention.
【図4】本発明の日本語辞典制作支援方法の動作手順を
示すフローチャートである。FIG. 4 is a flowchart showing an operation procedure of the Japanese dictionary production support method of the present invention.
【図5】本発明における文書登録手段の登録画面の一例
を示す図である。FIG. 5 is a diagram illustrating an example of a registration screen of a document registration unit according to the present invention.
【図6】本発明における形態素の列の一例を示す図であ
る。FIG. 6 is a diagram showing an example of a morpheme column according to the present invention.
【図7】本発明における頻度集計手段による集計結果の
表示例を示す図である。FIG. 7 is a diagram showing a display example of a tally result by the frequency tally means in the present invention.
【図8】本発明における用例表示手段による表示例を示
す図である。FIG. 8 is a diagram showing a display example by an example display means in the present invention.
【図9】本発明における用例表示の絞り込みの例を示す
図である。FIG. 9 is a diagram showing an example of narrowing down an example display in the present invention.
【図10】本発明における原文の表示例を示す図であ
る。FIG. 10 is a diagram showing a display example of an original sentence according to the present invention.
1 文書登録手段 2 形態素解析手段 3 頻度集計手段 4 用例表示手段 5 文字集約手段 6 同義語集約手段 DESCRIPTION OF SYMBOLS 1 Document registration means 2 Morphological analysis means 3 Frequency totaling means 4 Example display means 5 Character collecting means 6 Synonym collecting means
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/403 320D 340B 15/413 310B (72)発明者 津田 和彦 大阪府大阪市中央区北浜4丁目5番33号 住友金属工業株式会社内 (72)発明者 中村 雅巳 大阪府大阪市中央区北浜4丁目5番33号 住友金属工業株式会社内──────────────────────────────────────────────────の Continued on the front page (51) Int.Cl. 6 Identification code FIG06F 15/403 320D 340B 15/413 310B (72) Inventor Kazuhiko Tsuda 4-5-33 Kitahama, Chuo-ku, Osaka-shi, Osaka Sumitomo Metal (72) Inventor Masami Nakamura 4-5-33 Kitahama, Chuo-ku, Osaka-shi, Osaka Sumitomo Metal Industries, Ltd.
Claims (10)
って、文書をその出典元を含む種々のパラメータに従っ
て分類して登録する文書登録手段と、登録された文書を
単語単位に分割し分割された単語の品詞を確定すること
により、登録された文書を単語表記と品詞とで構成する
形態素の列に変換する形態素解析手段と、各形態素の出
現頻度を、前記文書登録手段における分類時のパラーメ
ータ毎に集計する頻度集計手段と、登録された文書にお
けるその用例を各形態素別に表示する用例表示手段とを
備えることを特徴とする言語辞典制作支援システム。1. A system for supporting the production of a language dictionary, comprising: a document registration unit for classifying and registering a document according to various parameters including a source of the document; and a document unit for dividing a registered document into words. Morphological analysis means for converting the registered document into a sequence of morphemes composed of word notation and part of speech by determining the part of speech of the word, and the parameter at the time of classification in the document registration means. A language dictionary production support system, comprising: frequency counting means for counting each time; and example display means for displaying an example of the registered document for each morpheme.
表記の複数の文字を同一内容として集約する文字集約手
段と、同一内容異表記の複数の形態素を1つの同義語と
して集約する同義語集約手段とを更に備える請求項1記
載の言語辞典制作支援システム。2. A character aggregating means for aggregating a plurality of characters having the same content and different notations contained in a document to be registered as the same content, and a synonym for aggregating a plurality of morphemes having the same content and different notation as one synonym. 2. The language dictionary production support system according to claim 1, further comprising an aggregation unit.
ついてはその活用形も加えて形態素とし、前記頻度集計
手段は、活用語の単語については表記が異なっていても
語幹が同一の単語は同一の形態素として集計すべくなし
た請求項1または2記載の言語辞典制作支援システム。3. The morphological analysis means sets a morpheme in addition to the inflected form of the inflected word, and the frequency counting means determines whether the inflected word has a different stem but has the same stem. 3. The language dictionary production support system according to claim 1 or 2, wherein the language dictionary is counted as the same morpheme.
を指定する手段を有する請求項1〜3の何れかに記載の
言語辞典制作支援システム。4. The language dictionary production support system according to claim 1, wherein said example display means has means for designating the number of examples to be displayed.
活用語の形態素の活用形別、及び、前記文字集約手段ま
たは前記同義語集約手段で集約された文字または形態素
別に、出現頻度を集計すべくなした請求項3または4記
載の言語辞典制作支援システム。5. The method according to claim 1, wherein the frequency counting means determines a part of speech of a morpheme.
5. The language dictionary production support system according to claim 3, wherein the frequency of occurrence is totaled for each inflected form of the morpheme of the inflected word and for each character or morpheme aggregated by the character aggregation means or the synonym aggregation means. .
て、文書をその出典元を含む種々のパラメータに従って
分類して登録するステップと、登録された文書を単語単
位に分割し分割された単語の品詞を確定することによ
り、登録された文書を単語表記と品詞とで構成する形態
素の列に変換するステップと、各形態素の出現頻度を、
前記文書登録手段における分類時のパラーメータ毎に集
計するステップと、登録された文書におけるその用例を
各形態素別に表示するステップとを有することを特徴と
する言語辞典制作支援方法。6. A method for supporting the production of a language dictionary, wherein a step of classifying and registering a document according to various parameters including a source of the document, a step of dividing the registered document into word units and the part of speech of the divided words By converting the registered document into a sequence of morphemes composed of word notation and part-of-speech,
A language dictionary production support method, comprising: a step of totalizing each parameter at the time of classification in the document registration means; and a step of displaying an example of the registered document for each morpheme.
表記の複数の文字を同一内容として集約するステップ
と、同一内容異表記の複数の形態素を1つの同義語とし
て集約するステップとを更に有する請求項6記載の言語
辞典制作支援方法。7. The method according to claim 1, further comprising the steps of: aggregating a plurality of characters having the same content but different notations contained in the document to be registered as the same content; and aggregating a plurality of morphemes having the same content different notation as one synonym. 7. The language dictionary production support method according to claim 6, comprising:
は、活用語の単語についてはその活用形も加えて形態素
とし、前記出現頻度を集計するステップでは、活用語の
単語については表記が異なっていても語幹が同一の単語
は同一の形態素として集計する請求項6または7記載の
言語辞典制作支援方法。8. In the step of converting into a morpheme string, the words of the conjugation word are used as morphemes in addition to their conjugation forms, and in the step of totalizing the appearance frequency, the notation of the conjugation word is different. 8. The method according to claim 6, wherein words having the same stem are counted as the same morpheme.
する用例の数を指定する請求項6〜8の何れかに記載の
言語辞典制作支援方法。9. The language dictionary production support method according to claim 6, wherein in the step of displaying the examples, the number of examples to be displayed is specified.
は、形態素の品詞別、活用語の形態素の活用形別、及
び、集約された文字または形態素別に、出現頻度を集計
する請求項8または9記載の言語辞典制作支援方法。10. The method according to claim 8, wherein, in the step of totalizing the appearance frequency, the frequency of appearance is totaled for each part of speech of a morpheme, each usage form of a morpheme of a conjugation word, and each character or morpheme that is collected. Language dictionary production support method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9078595A JPH10275154A (en) | 1997-03-28 | 1997-03-28 | System and method for supporting language dictionary production |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9078595A JPH10275154A (en) | 1997-03-28 | 1997-03-28 | System and method for supporting language dictionary production |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10275154A true JPH10275154A (en) | 1998-10-13 |
Family
ID=13666268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9078595A Pending JPH10275154A (en) | 1997-03-28 | 1997-03-28 | System and method for supporting language dictionary production |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10275154A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019135403A1 (en) * | 2018-01-05 | 2019-07-11 | 国立大学法人九州工業大学 | Labeling device, labeling method, and program |
-
1997
- 1997-03-28 JP JP9078595A patent/JPH10275154A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019135403A1 (en) * | 2018-01-05 | 2019-07-11 | 国立大学法人九州工業大学 | Labeling device, labeling method, and program |
JPWO2019135403A1 (en) * | 2018-01-05 | 2020-12-17 | 国立大学法人九州工業大学 | Labeling device, labeling method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malheiro et al. | Emotionally-relevant features for classification and regression of music lyrics | |
JP3067966B2 (en) | Apparatus and method for retrieving image parts | |
JP3759242B2 (en) | Feature probability automatic generation method and system | |
Wan et al. | Person resolution in person search results: Webhawk | |
Fisher et al. | The role of text analytics and information retrieval in the accounting domain | |
JP4347226B2 (en) | Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method | |
US7162413B1 (en) | Rule induction for summarizing documents in a classified document collection | |
WO2007108529A1 (en) | Information extraction system, information extraction method, information extraction program, and information service system | |
US20060129383A1 (en) | Text processing method and system | |
Estival et al. | Tat: an author profiling tool with application to arabic emails | |
JP2019200784A (en) | Analysis method, analysis device and analysis program | |
JPH06215049A (en) | Document summarizing device | |
Berdyugina et al. | Setting up context-sensitive real-time contradiction matrix of a given field using unstructured texts of patent contents and natural language processing | |
EP4116898A1 (en) | Document evaluation program, document evaluation method, and document evaluation device | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
Gupta et al. | LemmaQuest Lemmatizer: A Morphological Analyzer Handling Nominalization | |
JP2019117484A (en) | Text mining device and text mining method | |
JPH10275154A (en) | System and method for supporting language dictionary production | |
JP2007122525A (en) | Paraphrase processing method and device | |
JP2004164079A (en) | Device, method and program for analyzing data | |
JP7293693B2 (en) | Information processing device and program | |
Mizrahi et al. | Coming to Terms: Automatic Formation of Neologisms in Hebrew | |
JP2004054732A (en) | Human resource utilization support system and human resource utilization support program | |
JP2008282328A (en) | Text sorting device, text sorting method, text sort program, and recording medium with its program recorded thereon | |
JP2007241900A (en) | Naming system and naming automation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080404 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090404 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100404 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120404 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120404 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130404 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140404 Year of fee payment: 11 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |