JPH11134334A - 単語登録装置及び記録媒体 - Google Patents

単語登録装置及び記録媒体

Info

Publication number
JPH11134334A
JPH11134334A JP9296768A JP29676897A JPH11134334A JP H11134334 A JPH11134334 A JP H11134334A JP 9296768 A JP9296768 A JP 9296768A JP 29676897 A JP29676897 A JP 29676897A JP H11134334 A JPH11134334 A JP H11134334A
Authority
JP
Japan
Prior art keywords
word
registered
morphological analysis
words
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9296768A
Other languages
English (en)
Other versions
JP3748322B2 (ja
Inventor
Yukari Satsusano
由香梨 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP29676897A priority Critical patent/JP3748322B2/ja
Publication of JPH11134334A publication Critical patent/JPH11134334A/ja
Application granted granted Critical
Publication of JP3748322B2 publication Critical patent/JP3748322B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】未登録複合語を含めた登録すべき単語を抽出
し、登録作業時の労力を軽減すること。 【解決手段】自然言語を処理するための形態素解析用辞
書7と、自然言語文を形態素解析し、前記形態素解析用
辞書7に登録されていない単語及び該辞書7に登録され
ていない名詞類の連続した複合語を抽出して、頻度の高
いものを登録すべき登録候補単語と判定する登録候補単
語抽出部2とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語を処理す
るための単語辞書に単語を追加登録する単語登録装置及
び記録媒体に関する。
【0002】
【従来の技術】日本語を形態素に分割する形態素解析
は、自然言語処理の最も基本となる処理である。従来、
形態素解析は、自然言語処理の様々なアプリケーション
に用いられており、例えば、情報検索や文書中の誤りを
発見する文書校正支援に用いられている。
【0003】形態素解析にあたって、それに用いられる
形態素解析用辞書は、形態素解析の性能を左右する重要
な基本データである。この辞書中に単語が登録されてい
ないと、解析が失敗したり、他の語として誤って解析さ
れてしまう。例えば、事故や事件が起こった場合、関連
記事を検索するための新しい単語を入力して検索すると
いうニーズが増大しているが、関連の単語が辞書に入っ
ていない場合、目的とする記事が検索できないという事
態が生じる可能性がある。そのため、日々増加している
新しい事象を表す単語を収集して、形態素解析用辞書に
追加することが重要である。しかし、新しい事象を表す
単語は日々増加しているため、登録すべき単語を収集し
たり、テストする作業には多くの労力がかかっていた。
【0004】従来、形態素解析用辞書に未登録語を登録
する場合、形態素解析手段により入力文の解析を行い、
その情報を基に入力文中の未登録語を知らせてユーザに
登録を促すことが、特開平3−246673号公報に記
載されていた。また、未登録語の出現回数を計算して、
使用頻度の多いものから優先的に登録することが、特開
昭63−208167号公報に記載されていた。また、
既知語の意味カテゴリを用いて未知語の意味カテゴリを
推定して登録することが、特開平8−16597号公報
に記載されていた。また、関連情報辞書登録手段によ
り、格の違いによる二重登録を排除し辞書量を少なくす
ることが、特開平6−119374号公報に記載されて
いた。
【0005】
【発明が解決しようとする課題】前記のような従来のも
のは、次のような課題があった。 :二つ以上の名詞類が連続している未登録複合語を抽
出できるものではなかった。
【0006】:登録候補単語の関連である入力文中に
含まれる頻度の低い未登録語を登録できるものではなか
った。 :登録すべき単語のテストを事前に行えるものではな
かった。
【0007】本発明は、このような従来の課題を解決
し、未登録複合語を含めた登録すべき単語の抽出をし、
登録作業時の労力を軽減し、更に登録すべき単語のテス
トを事前に行い、質のよい単語を半自動的に収集するこ
と、また、登録すべき単語候補として選ばれた単語と関
連のある語も同時に収集できるようにすることを目的と
する。
【0008】
【課題を解決するための手段】図1は本発明の原理説明
図である。図1中、1は原文、2は登録候補単語抽出
部、3は関連語抽出部、4は候補単語検査部、7は形態
素解析用辞書である。
【0009】本発明は前記従来の課題を解決するため次
のように構成した。 (1):自然言語を処理するための形態素解析用辞書7
と、自然言語文を形態素解析し、前記形態素解析用辞書
7に登録されていない単語及び該辞書7に登録されてい
ない名詞類の連続した複合語を抽出して、頻度の高いも
のを登録すべき登録候補単語と判定する登録候補単語抽
出部2とを備える。
【0010】(2):前記(1)の単語登録装置におい
て、前記判定した登録候補単語を含む原文1を検索し、
前記形態素解析用辞書7に登録されていない単語及び該
辞書7に登録されていない名詞類の連続した複合語を抽
出する関連語抽出部3を備える。
【0011】(3):前記(1)の単語登録装置におい
て、前記判定した登録候補単語を含む原文1に対して、
前記登録候補単語を取り入れる前の形態素解析結果と前
記登録候補単語を取り入れた場合の形態素解析結果を比
較して、解析誤りが起こっているかどうかを判定する候
補単語検査部4を備える。
【0012】(4):コンピュータに、自然言語文を形
態素解析する解析手順と、前記形態素解析結果から形態
素解析用辞書7に登録されていない単語を抽出する抽出
手順と、前記形態素解析結果から形態素解析用辞書7に
登録されていない名詞類の連続した複合語を抽出する抽
出手順と、前記抽出手順で抽出した単語及び複合語より
頻度の高い語を登録候補単語と判定する判定手順と、を
実行するためのプログラムを格納したコンピュータ読取
可能な記録媒体とする。
【0013】(作用)前記構成に基づく作用を説明す
る。登録候補単語抽出部2で、自然言語文を形態素解析
し、形態素解析用辞書7に登録されていない単語及び該
辞書7に登録されていない名詞類の連続した複合語を抽
出して、頻度の高いものを登録すべき登録候補単語と判
定する。このため、頻度の高い未登録語だけでなく頻度
の高い未登録複合語も登録候補単語として判定すること
ができ、登録すべき語の抽出及び選択作業を軽減するこ
とができる。
【0014】また、関連語抽出部3で、前記判定した登
録候補単語を含む原文1を検索し、形態素解析用辞書7
に登録されていない単語及び該辞書7に登録されていな
い名詞類の連続した複合語を抽出する。このため、頻度
が低い語も関連語として原文から抽出し、その語も登録
候補単語として取り入れることができる。
【0015】さらに、候補単語検査部4で、前記判定し
た登録候補単語を含む原文1に対して、前記登録候補単
語を取り入れる前の形態素解析結果と前記登録候補単語
を取り入れた場合の形態素解析結果を比較して、解析誤
りが起こっているかどうかを判定する。このため、登録
する前にテストが行え、質のよい単語を収集することが
できる。
【0016】また、自然言語文を形態素解析する解析手
順と、前記形態素解析結果から形態素解析用辞書7に登
録されていない単語を抽出する抽出手順と、前記形態素
解析結果から形態素解析用辞書7に登録されていない名
詞類の連続した複合語を抽出する抽出手順と、前記抽出
手順で抽出した単語及び複合語より頻度の高い語を登録
候補単語と判定する判定手順と、を実行するためのプロ
グラムを格納したコンピュータ読取可能な記録媒体とす
る。このため、この記録媒体のプログラムをコンピュー
タにインストールすることで、頻度の高い未登録語だけ
でなく頻度の高い未登録複合語も登録候補単語として判
定することができる単語登録装置を容易に提供すること
ができる。
【0017】
【発明の実施の形態】本発明の単語登録装置では、日々
更新されるニュース記事やWebページ(インターネッ
トのホームページ)等の記事を形態素解析し、登録すべ
き単語候補を抽出し、その語が登録した場合の解析のテ
ストを行う機構を設けることで、登録すべき単語の抽出
や登録作業時の労力を軽減するものである。また、登録
すべき単語候補として選ばれた単語と同時に登録すべき
関連語も原文から抽出し、その語も登録単語候補として
取り入れる機能を備えるものである。
【0018】図2〜図16は本発明の実施の形態を示し
た図である。以下、図2〜図16に基づいて本発明の実
施の形態を説明する。 (1):装置構成の説明 図2は装置構成図である。図2において、原文データ1
が入力される単語登録装置には、登録候補単語抽出部
2、関連語抽出部3、候補単語検査部4、単語登録部
5、形態素解析エンジン6、形態素解析用辞書7が設け
てある。
【0019】原文データ1は、入力手段(図示せず)に
より入力される日々更新されるニュース記事やWebペ
ージ等の記事である。登録候補単語抽出部2は、形態素
解析結果から登録候補単語を抽出するものである。関連
語抽出部3は、登録候補単語を元に関連語を抽出するも
のである。候補単語検査部4は、元の解析結果と登録候
補単語を取り入れた場合の解析結果を比較して、解析誤
りが起こっているかどうかを判定するものである。単語
登録部5は、ユーザに登録候補単語や関連語の検査結果
を表示し、形態素解析用辞書7に格納するものである。
形態素解析エンジン6は、形態素解析を行う処理部であ
る。形態素解析用辞書7は、形態素解析に使用するため
の単語を登録しておくものである。
【0020】(2):全体の処理手順の説明 図3は全体の処理手順の説明図である。以下、図3の処
理S1〜処理S4に従って説明する。
【0021】S1:決められた時間にダウンロード等で
自動で入力された新聞記事等の原文データ1を登録候補
単語抽出部2で、形態素解析し、その結果から登録候補
単語を抽出し、処理S2に移る。
【0022】S2:関連語抽出部3で、登録候補単語と
して選ばれた単語を含む元記事中に含む単語(関連語)
を登録候補単語として選択し、処理S3に移る。 S3:候補単語検査部4で、登録候補単語及び関連語を
登録した場合の形態素解析結果をテストし、その結果を
ユーザに提示し、処理S4に移る。
【0023】S4:ユーザが登録すべき単語として指示
した場合、単語登録部5で形態素解析用辞書7に登録し
て、この処理を終了する。 (3):登録候補単語抽出部の処理の説明 図4は登録候補単語抽出部の処理の説明図である。以
下、図4の処理S11〜処理S14に従って説明する。
【0024】S11:登録候補単語抽出部2は、原文デ
ータ1に対して、形態素解析エンジン6と形態素解析用
辞書7を用いて形態素解析を行い、処理S12に移る。 S12:登録候補単語抽出部2は、形態素解析結果から
未登録語を抽出して、未登録語頻度表を作成し、処理S
13に移る。
【0025】S13:登録候補単語抽出部2は、形態素
解析結果から名詞類の連続を抽出して、未登録複合語頻
度表を作成し、処理S14に移る。 S14:登録候補単語抽出部2は、それぞれ作成した頻
度表の頻度の上位のものを登録候補単語リストに登録し
て、この処理を終了する。
【0026】(4):関連語抽出部の処理の説明 図5は関連語抽出部の処理の説明図である。以下、図5
の処理S21〜処理S23に従って説明する。
【0027】S21:関連語抽出部3は、登録候補単語
を含む元の文の記事を検索し、処理S22に移る。 S22:関連語抽出部3は、その記事中に未登録語頻度
表、未登録複合語頻度表に含まれる語が存在するかを判
定し、処理S23に移る。
【0028】S23:関連語抽出部3は、各頻度表に含
まれる語があれば、それを関連語として抽出し、登録候
補単語リストに追加して、この処理を終了する。 (5):候補単語検査部の処理の説明 図6は候補単語検査部の処理の説明図である。以下、図
6の処理S31〜処理S34に従って説明する。
【0029】S31:候補単語検査部4は、登録候補単
語リストから候補単語辞書を作成すし、処理S32に移
る。 S32:候補単語検査部4は、登録候補単語を含む原文
に対して、元の形態素解析用辞書と候補単語辞書を用い
て、形態素解析をし、処理S33に移る。
【0030】S33:候補単語検査部4は、元の形態素
解析結果と登録候補単語を取り入れた場合の形態素解析
結果を比較して、解析誤りが起こっているかどうかを判
定し、処理S34に移る。
【0031】S34:候補単語検査部4は、解析誤りが
起こっている単語を登録候補単語リストから除外し、こ
の処理を終了する。なお、解析誤りの例として、登録候
補単語を取り入れた場合に他の部分(特に取り入れた登
録候補単語の前後部分)が未登録語となる場合や逆に未
登録語が増加する場合がある。
【0032】(6):単語登録部の処理の説明 図7は単語登録部の処理の説明図である。以下、図7の
処理S41〜処理S44に従って説明する。
【0033】S41:単語登録部5は、登録候補単語リ
ストと元の形態素解析結果とそれに新たに登録した場合
の形態素解析結果をユーザに提示し、処理S42に移
る。 S42:ユーザが登録候補単語から登録すべき単語を選
択し、処理S43に移る。
【0034】S43:単語登録部5は、ユーザに単語の
辞書上の登録情報を候補単語辞書から提示し、処理S4
4に移る。 S44:ユーザが候補単語辞書の内容をそのまま、ある
いは修正して、単語登録部5で形態素解析用辞書7に登
録し、この処理を終了する。
【0035】(7):具体例による説明 a:登録候補単語を登録する場合の説明 図8は登録候補単語を登録する場合の説明図(1)であ
り、図8(a)は一文の形態素解析例の説明、図8
(b)は未登録単語頻度表の説明である。図9は登録候
補単語を登録する場合の説明図(2)であり、図9
(a)は候補単語辞書の説明、図9(b)は登録前の形
態素解析結果の説明である。図10は登録候補単語を登
録する場合の説明図(3)であり、図10(a)は「ヤ
ンゴン」を登録した場合の形態素解析結果の説明、図1
0(b)はユーザが修正した候補単語辞書の説明であ
る。
【0036】以下は、いくつかの内容を含む新聞記事か
ら登録単語を抽出する例を図8〜図10により説明す
る。まず、登録候補単語抽出部2において、原文を形態
素解析する。形態素解析の結果は、例えば、図8(a)
のように、文が形態素単位に分割され、それぞれの品
詞、詳細品詞、表記が出力される。
【0037】登録候補単語抽出部2では、形態素解析の
解析結果から、詳細品詞が「未登録語」となっている単
語を収集し、図8(b)のように頻度が記入された未登
録単語頻度表を作成する。
【0038】登録候補単語抽出部2は、原文の数に応じ
て頻度が上位であるものを登録すべき候補の単語として
抽出する。例えば、ここで頻度が「10」で頻度の高い
「ヤンゴン」を登録候補単語として抽出する。候補単語
検査部4では、登録候補単語である「ヤンゴン」に仮の
品詞として、普通名詞を付与し、候補単語辞書を作成す
る。この候補単語辞書は、図9(a)のように表記、品
詞、詳細品詞が設けられている候補単語検査部4では、
登録候補単語が出現している文を元の形態素解析用辞書
7と登録候補単語を取り入れた辞書を使って解析し直し
て、その結果を出力する。例えば、登録候補単語「ヤン
ゴン」を含む文が次のものであったとする。
【0039】「ミャンマーの首都ヤンゴンで学生のデモ
が始まった。」この文に対して、「ヤンゴン」を登録す
る前の形態素解析結果は、図9(b)であり、「ヤンゴ
ン」を登録した場合の形態素解析結果は、図10(a)
である。図9(b)において、未登録語であった「ヤン
ゴン」は、図10(a)においては普通名詞となり他の
単語にも未登録語が含まれていない。このため「ヤンゴ
ン」を登録した場合の結果に解析誤りは含まれていな
い。
【0040】候補単語検査部4は、この結果を単語登録
部5に渡し、ユーザに提示する。ユーザは、この結果を
確認し、「ヤンゴン」を辞書に登録することを指示す
る。ここで「ヤンゴン」は、地名であるので、ユーザ
は、詳細品詞を「地名」に修正する。即ち、図10
(b)のように候補単語辞書の情報を修正して形態素解
析用辞書7に登録する。
【0041】b:未登録複合語頻度表を作成する場合の
説明 図11は未登録複合語頻度表を作成する場合の説明図
(1)であり、図11(a)は未登録複合語頻度表の説
明、図11(b)は候補単語辞書の説明、図11(c)
は登録前の形態素解析結果の説明である。図12は未登
録複合語頻度表を作成する場合の説明図(2)であり、
図12(a)は登録した後の形態素解析結果の説明、図
12(b)はユーザが修正した候補単語辞書の説明であ
る。
【0042】登録候補単語抽出部2で、形態素解析結果
から未登録単語頻度表以外に、未登録複合語頻度表を作
成するものである。これは、二つ以上の名詞類(名詞、
接頭語、接尾語、「・」、「//」、「=」、動詞の連用
形等)が連続しているものを取り出し、その頻度を調査
したものである。
【0043】ここで、未登録複合語頻度表が、図11
(a)のように得られたとする。なお、図11(a)に
おいて、形態素の区切りは「/」で表している。ここで
は、頻度が「12」と高い「オーム/真理/教」を登録
候補単語として抽出したとする。候補単語検査部4で
は、図11(b)のように「オーム真理教」に仮の品詞
として、普通名詞を付与し、この「オーム真理教」が出
現した文において形態素解析のテストを行う。
【0044】候補単語検査部4では、登録候補単語が出
現している文を元の形態素解析用辞書7と登録候補単語
を取り入れた辞書を使って解析し直して、その結果を出
力する。ここで、「オーム真理教」を含む原文が次のも
のであったとする。
【0045】「オーム真理教の信者の林春男容疑者がき
ょう逮捕されました。」これを「オーム真理教」を一語
として登録する前の形態素解析結果は、図11(c)に
示してあり、登録した後の形態素解析結果は、図12
(a)に示してある。図11(c)と図12(a)のよ
うに、「オーム真理教」を登録した場合の結果に解析誤
りは含まれていないので、候補単語検査部4は、この結
果を単語登録部5に渡し、ユーザに提示する。
【0046】ユーザは、この結果を確認し、「オーム真
理教」を辞書に登録することを指示する。ここで「オー
ム真理教」は、固有名詞であるので、ユーザは、詳細品
詞を「固有名詞」に修正する。即ち、図12(b)のよ
うに候補単語辞書の情報を修正して形態素解析用辞書7
に登録する。
【0047】c:関連語を登録する場合の説明 図13は関連語を登録する場合の説明図(1)であり、
図13(a)は候補単語辞書(関連語)の説明、図13
(b)は登録前の形態素解析結果の説明である。図14
は関連語を登録する場合の説明図(2)であり、図14
(a)は「國林長」を登録した場合の形態素解析結果の
説明、図14(b)は「國林長官狙撃事件」を登録した
場合の形態素解析結果の説明である。図15は関連語を
登録する場合の説明図(3)であり、図15(a)はユ
ーザが修正した候補単語辞書の説明、図15(b)は登
録前の形態素解析結果の説明である。図16は関連語を
登録する場合の説明図(4)であり、図16(a)は
「アウン・タン・スー・チー」を登録した場合の形態素
解析結果の説明、図16(b)はユーザが修正した候補
単語辞書の説明である。
【0048】前記具体例a、bのように「ヤンゴン」と
「オーム真理教」を登録候補単語として抽出した場合、
関連語抽出部3では、以下のように処理を行う。関連語
抽出部3では、登録候補単語を含む記事中に含まれる頻
度の低い未登録語や未登録複合語を選択する。これによ
り、以下の選択結果が得られたとする。
【0049】「國林長」 「國林長/官/狙撃/事件」 「アウン/・/タン/・/スー/・/チー」 以上の関連語を登録候補単語リストに追加し、候補単語
検査部4でテストを行う。候補単語検査部4では、以上
の登録候補単語と関連語に仮の品詞として、普通名詞を
付与し、それぞれの語が出現した文において形態素解析
のテストを行う。例えば、関連語から図13(a)のよ
うな候補単語辞書(関連語)を作る。
【0050】候補単語検査部4では、登録候補単語が出
現している文を元の形態素解析用辞書7と登録候補単語
を取り入れた辞書を使って解析し、その結果を出力す
る。これは例えば、関連語を含む文が次のようであった
とする。
【0051】「警察庁の國林長官狙撃事件の捜査をめぐ
る対応が適切でない。」 「アウン・タン・スー・チーさんの勢力とは一線を画し
ている。」 ・「國林長官狙撃事件」を含む文の形態素解析結果は、
登録前は図13(b)となり、「國林長」を登録した場
合は図14(a)となり、「國林長官狙撃事件」を登録
した場合は図14(b)となる。
【0052】ここで、「國林長」と「國林長官狙撃事
件」を登録した場合は、いずれも解析誤りが起こってい
ないので、候補単語検査部4は、その結果を単語登録部
5に渡し、ユーザに提示する。ユーザは、図14(a)
と図14(b)の形態素解析結果から、「國林長官狙撃
事件」を登録する方が正しいと判断し、「國林長官狙撃
事件」を登録するとユーザが指示する。
【0053】この場合、品詞は固有名詞なので、ユーザ
は、図15(a)のように候補単語辞書の詳細品詞を
「普通名詞」から「固有名詞」に修正し、単語登録部5
で形態素解析用辞書7に取り込むようにする。
【0054】・次に「アウン・タン・スー・チー」を登
録する前と登録した後の形態素解析結果は、図15
(b)と図16(a)のようになる。ここで、「アウン
・タン・スー・チー」を登録した場合は、解析誤りが起
こっていないので、その結果を単語登録部5に渡し、ユ
ーザに提示する。ユーザは、この結果を確認し、「アウ
ン・タン・スー・チー」を形態素解析用辞書7に登録す
ることを指示する。ここで、「アウン・タン・スー・チ
ー」は人名であるので、ユーザは、候補単語辞書の詳細
品詞を「普通名詞」から「人名」に修正し、単語登録部
5で形態素解析用辞書7に取り込むようにする。
【0055】以上実施の形態で説明したように、登録す
べき単語の抽出および選択が軽減され、更に登録すべき
単語のテストを事前に行えるので、質の良い単語を半自
動的に収集できる。また、関連のある語も同時に収集す
ることが可能となる。
【0056】(8):プログラムのインストールの説明 登録候補単語抽出部2、関連語抽出部3、候補単語検査
部4、単語登録部5、形態素解析エンジン6は実際には
プログラムで構成でき、主制御部(CPU)が実行する
ものであり、主記憶に格納されているものである。これ
らのプログラムは、一般的な、パーソナルコンピュー
タ、ワークステーション等のデータ処理装置(コンピュ
ータ)で処理されるものである。これらのコンピュータ
は、主制御部、主記憶、ハードディスク等のファイル装
置、表示装置、キーボード等の入力手段である入力装置
などのハードウェアで構成されている。
【0057】このコンピュータに、本発明のプログラム
をインストールする。このインストールは、フロッピ
ー、光磁気ディスク等の可搬型の記録媒体に、これらの
プログラムを記憶させておき、コンピュータが備えてい
る記憶媒体に対して、アクセスするためのドライブ装置
を介して、或いは、LAN等のネットワークを介して、
コンピュータに設けられたファイル装置にインストール
される。そして、このファイル装置から処理に必要なプ
ログラムステップを主記憶に読み出し、主制御部が実行
するものである。
【0058】
【発明の効果】以上説明したように、本発明によれば次
のような効果がある。 (1)登録候補単語抽出部で、自然言語文を形態素解析
し、形態素解析用辞書に登録されていない単語及び該辞
書に登録されていない名詞類の連続した複合語を抽出し
て、頻度の高いものを登録すべき登録候補単語と判定す
るため、頻度の高い未登録語だけでなく頻度の高い未登
録複合語も登録候補単語として判定することができ、登
録すべき語の抽出及び選択作業を軽減することができ
る。
【0059】(2):関連語抽出部で、登録候補単語を
含む原文を検索し、形態素解析用辞書に登録されていな
い単語及び該辞書に登録されていない名詞類の連続した
複合語を抽出するため、頻度が低い単語及び複合語も関
連語として原文から抽出し、その語も登録候補単語とし
て取り入れることができる。
【0060】(3):候補単語検査部で、登録候補単語
を含む原文に対して、前記登録候補単語を取り入れる前
の形態素解析結果と前記登録候補単語を取り入れた場合
の形態素解析結果を比較して、解析誤りが起こっている
かどうかを判定するため、登録する前にテストが行え、
質のよい単語を収集することができる。
【0061】(4):自然言語文を形態素解析する解析
手順と、前記形態素解析結果から形態素解析用辞書に登
録されていない単語を抽出する抽出手順と、前記形態素
解析結果から形態素解析用辞書に登録されていない名詞
類の連続した複合語を抽出する抽出手順と、前記抽出手
順で抽出した単語及び複合語より頻度の高い語を登録候
補単語と判定する判定手順と、を実行するためのプログ
ラムを格納したコンピュータ読取可能な記録媒体とする
ため、この記録媒体のプログラムをコンピュータにイン
ストールすることで、頻度の高い未登録語だけでなく頻
度の高い未登録複合語も登録候補単語として判定するこ
とができる単語登録装置を容易に提供することができ
る。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】実施の形態における装置構成図である。
【図3】実施の形態における全体の処理手順の説明図で
ある。
【図4】実施の形態における登録候補単語抽出部の処理
の説明図である。
【図5】実施の形態における関連語抽出部の処理の説明
図である。
【図6】実施の形態における候補単語検査部の処理の説
明図である。
【図7】実施の形態における単語登録部の処理の説明図
である。
【図8】実施の形態における登録候補単語を登録する場
合の説明図(1)である。
【図9】実施の形態における登録候補単語を登録する場
合の説明図(2)である。
【図10】実施の形態における登録候補単語を登録する
場合の説明図(3)である。
【図11】実施の形態における未登録複合語頻度表を作
成する場合の説明図(1)である。
【図12】実施の形態における未登録複合語頻度表を作
成する場合の説明図(2)である。
【図13】実施の形態における関連語を登録する場合の
説明図(1)である。
【図14】実施の形態における関連語を登録する場合の
説明図(2)である。
【図15】実施の形態における関連語を登録する場合の
説明図(3)である。
【図16】実施の形態における関連語を登録する場合の
説明図(4)である。
【符号の説明】
1 原文 2 登録候補単語抽出部 3 関連語抽出部 4 候補単語検査部 7 形態素解析用辞書

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】自然言語を処理するための形態素解析用辞
    書と、 自然言語文を形態素解析し、前記形態素解析用辞書に登
    録されていない単語及び該辞書に登録されていない名詞
    類の連続した複合語を抽出して、頻度の高いものを登録
    すべき登録候補単語と判定する登録候補単語抽出部とを
    備えることを特徴とした単語登録装置。
  2. 【請求項2】前記判定した登録候補単語を含む原文を検
    索し、前記形態素解析用辞書に登録されていない単語及
    び該辞書に登録されていない名詞類の連続した複合語を
    抽出する関連語抽出部を備えることを特徴とした請求項
    1記載の単語登録装置。
  3. 【請求項3】前記判定した登録候補単語を含む原文に対
    して、前記登録候補単語を取り入れる前の形態素解析結
    果と前記登録候補単語を取り入れた場合の形態素解析結
    果を比較して、解析誤りが起こっているかどうかを判定
    する候補単語検査部を備えることを特徴とした請求項1
    記載の単語登録装置。
  4. 【請求項4】コンピュータに、 自然言語文を形態素解析する解析手順と、 前記形態素解析結果から形態素解析用辞書に登録されて
    いない単語を抽出する抽出手順と、 前記形態素解析結果から形態素解析用辞書に登録されて
    いない名詞類の連続した複合語を抽出する抽出手順と、 前記抽出手順で抽出した単語及び複合語より頻度の高い
    語を登録候補単語と判定する判定手順と、 を実行するためのプログラムを格納したコンピュータ読
    取可能な記録媒体。
JP29676897A 1997-10-29 1997-10-29 単語登録装置及び記録媒体 Expired - Fee Related JP3748322B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29676897A JP3748322B2 (ja) 1997-10-29 1997-10-29 単語登録装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29676897A JP3748322B2 (ja) 1997-10-29 1997-10-29 単語登録装置及び記録媒体

Publications (2)

Publication Number Publication Date
JPH11134334A true JPH11134334A (ja) 1999-05-21
JP3748322B2 JP3748322B2 (ja) 2006-02-22

Family

ID=17837883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29676897A Expired - Fee Related JP3748322B2 (ja) 1997-10-29 1997-10-29 単語登録装置及び記録媒体

Country Status (1)

Country Link
JP (1) JP3748322B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007029348A1 (ja) * 2005-09-06 2007-03-15 Community Engine Inc. データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
JP2007094055A (ja) * 2005-09-29 2007-04-12 Fujitsu Ltd 穴埋めテスト問題作成プログラム、方法及び装置
KR100757340B1 (ko) 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
JP2010157178A (ja) * 2009-01-05 2010-07-15 Internatl Business Mach Corp <Ibm> テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2016164724A (ja) * 2015-03-06 2016-09-08 株式会社東芝 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
JP2018536920A (ja) * 2016-02-18 2018-12-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト情報処理方法およびデバイス
JP2021051613A (ja) * 2019-09-25 2021-04-01 株式会社日立製作所 自然言語処理において使用される辞書を作成する方法およびシステム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007029348A1 (ja) * 2005-09-06 2007-03-15 Community Engine Inc. データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
US8321198B2 (en) 2005-09-06 2012-11-27 Kabushiki Kaisha Square Enix Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis
US8700702B2 (en) 2005-09-06 2014-04-15 Kabushiki Kaisha Square Enix Data extraction system, terminal apparatus, program of the terminal apparatus, server apparatus, and program of the server apparatus for extracting prescribed data from web pages
JP2007094055A (ja) * 2005-09-29 2007-04-12 Fujitsu Ltd 穴埋めテスト問題作成プログラム、方法及び装置
KR100757340B1 (ko) 2006-03-30 2007-09-11 엔에이치엔(주) 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템
JP2010157178A (ja) * 2009-01-05 2010-07-15 Internatl Business Mach Corp <Ibm> テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US8538745B2 (en) 2009-01-05 2013-09-17 International Business Machines Corporation Creating a terms dictionary with named entities or terminologies included in text data
JP2016164724A (ja) * 2015-03-06 2016-09-08 株式会社東芝 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
JP2018536920A (ja) * 2016-02-18 2018-12-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト情報処理方法およびデバイス
US10496747B2 (en) 2016-02-18 2019-12-03 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
JP2021051613A (ja) * 2019-09-25 2021-04-01 株式会社日立製作所 自然言語処理において使用される辞書を作成する方法およびシステム

Also Published As

Publication number Publication date
JP3748322B2 (ja) 2006-02-22

Similar Documents

Publication Publication Date Title
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20100185600A1 (en) Apparatus and method for integration search of web site
US20080065621A1 (en) Ambiguous entity disambiguation method
JPH11203311A (ja) 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
Ohba et al. Toward mining" concept keywords" from identifiers in large software projects
JP5629976B2 (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
US11868378B2 (en) Creation of indexes for information retrieval
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP3748322B2 (ja) 単語登録装置及び記録媒体
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
KR20040065468A (ko) 특허문서의 다국어 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
JPH09198395A (ja) 文書検索装置
Paul et al. An affix removal stemmer for natural language text in nepali
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2010067021A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
Yu et al. Disambiguating the senses of non-text symbols for Mandarin TTS systems with a three-layer classifier
JPH10340271A (ja) 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
KR20020059555A (ko) 자연어 질의 응답 검색 엔진 및 검색 방법

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051125

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111209

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees