JPH11134334A - 単語登録装置及び記録媒体 - Google Patents
単語登録装置及び記録媒体Info
- Publication number
- JPH11134334A JPH11134334A JP9296768A JP29676897A JPH11134334A JP H11134334 A JPH11134334 A JP H11134334A JP 9296768 A JP9296768 A JP 9296768A JP 29676897 A JP29676897 A JP 29676897A JP H11134334 A JPH11134334 A JP H11134334A
- Authority
- JP
- Japan
- Prior art keywords
- word
- registered
- morphological analysis
- words
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
し、登録作業時の労力を軽減すること。 【解決手段】自然言語を処理するための形態素解析用辞
書7と、自然言語文を形態素解析し、前記形態素解析用
辞書7に登録されていない単語及び該辞書7に登録され
ていない名詞類の連続した複合語を抽出して、頻度の高
いものを登録すべき登録候補単語と判定する登録候補単
語抽出部2とを備える。
Description
るための単語辞書に単語を追加登録する単語登録装置及
び記録媒体に関する。
は、自然言語処理の最も基本となる処理である。従来、
形態素解析は、自然言語処理の様々なアプリケーション
に用いられており、例えば、情報検索や文書中の誤りを
発見する文書校正支援に用いられている。
形態素解析用辞書は、形態素解析の性能を左右する重要
な基本データである。この辞書中に単語が登録されてい
ないと、解析が失敗したり、他の語として誤って解析さ
れてしまう。例えば、事故や事件が起こった場合、関連
記事を検索するための新しい単語を入力して検索すると
いうニーズが増大しているが、関連の単語が辞書に入っ
ていない場合、目的とする記事が検索できないという事
態が生じる可能性がある。そのため、日々増加している
新しい事象を表す単語を収集して、形態素解析用辞書に
追加することが重要である。しかし、新しい事象を表す
単語は日々増加しているため、登録すべき単語を収集し
たり、テストする作業には多くの労力がかかっていた。
する場合、形態素解析手段により入力文の解析を行い、
その情報を基に入力文中の未登録語を知らせてユーザに
登録を促すことが、特開平3−246673号公報に記
載されていた。また、未登録語の出現回数を計算して、
使用頻度の多いものから優先的に登録することが、特開
昭63−208167号公報に記載されていた。また、
既知語の意味カテゴリを用いて未知語の意味カテゴリを
推定して登録することが、特開平8−16597号公報
に記載されていた。また、関連情報辞書登録手段によ
り、格の違いによる二重登録を排除し辞書量を少なくす
ることが、特開平6−119374号公報に記載されて
いた。
のは、次のような課題があった。 :二つ以上の名詞類が連続している未登録複合語を抽
出できるものではなかった。
含まれる頻度の低い未登録語を登録できるものではなか
った。 :登録すべき単語のテストを事前に行えるものではな
かった。
し、未登録複合語を含めた登録すべき単語の抽出をし、
登録作業時の労力を軽減し、更に登録すべき単語のテス
トを事前に行い、質のよい単語を半自動的に収集するこ
と、また、登録すべき単語候補として選ばれた単語と関
連のある語も同時に収集できるようにすることを目的と
する。
図である。図1中、1は原文、2は登録候補単語抽出
部、3は関連語抽出部、4は候補単語検査部、7は形態
素解析用辞書である。
のように構成した。 (1):自然言語を処理するための形態素解析用辞書7
と、自然言語文を形態素解析し、前記形態素解析用辞書
7に登録されていない単語及び該辞書7に登録されてい
ない名詞類の連続した複合語を抽出して、頻度の高いも
のを登録すべき登録候補単語と判定する登録候補単語抽
出部2とを備える。
て、前記判定した登録候補単語を含む原文1を検索し、
前記形態素解析用辞書7に登録されていない単語及び該
辞書7に登録されていない名詞類の連続した複合語を抽
出する関連語抽出部3を備える。
て、前記判定した登録候補単語を含む原文1に対して、
前記登録候補単語を取り入れる前の形態素解析結果と前
記登録候補単語を取り入れた場合の形態素解析結果を比
較して、解析誤りが起こっているかどうかを判定する候
補単語検査部4を備える。
態素解析する解析手順と、前記形態素解析結果から形態
素解析用辞書7に登録されていない単語を抽出する抽出
手順と、前記形態素解析結果から形態素解析用辞書7に
登録されていない名詞類の連続した複合語を抽出する抽
出手順と、前記抽出手順で抽出した単語及び複合語より
頻度の高い語を登録候補単語と判定する判定手順と、を
実行するためのプログラムを格納したコンピュータ読取
可能な記録媒体とする。
る。登録候補単語抽出部2で、自然言語文を形態素解析
し、形態素解析用辞書7に登録されていない単語及び該
辞書7に登録されていない名詞類の連続した複合語を抽
出して、頻度の高いものを登録すべき登録候補単語と判
定する。このため、頻度の高い未登録語だけでなく頻度
の高い未登録複合語も登録候補単語として判定すること
ができ、登録すべき語の抽出及び選択作業を軽減するこ
とができる。
録候補単語を含む原文1を検索し、形態素解析用辞書7
に登録されていない単語及び該辞書7に登録されていな
い名詞類の連続した複合語を抽出する。このため、頻度
が低い語も関連語として原文から抽出し、その語も登録
候補単語として取り入れることができる。
た登録候補単語を含む原文1に対して、前記登録候補単
語を取り入れる前の形態素解析結果と前記登録候補単語
を取り入れた場合の形態素解析結果を比較して、解析誤
りが起こっているかどうかを判定する。このため、登録
する前にテストが行え、質のよい単語を収集することが
できる。
順と、前記形態素解析結果から形態素解析用辞書7に登
録されていない単語を抽出する抽出手順と、前記形態素
解析結果から形態素解析用辞書7に登録されていない名
詞類の連続した複合語を抽出する抽出手順と、前記抽出
手順で抽出した単語及び複合語より頻度の高い語を登録
候補単語と判定する判定手順と、を実行するためのプロ
グラムを格納したコンピュータ読取可能な記録媒体とす
る。このため、この記録媒体のプログラムをコンピュー
タにインストールすることで、頻度の高い未登録語だけ
でなく頻度の高い未登録複合語も登録候補単語として判
定することができる単語登録装置を容易に提供すること
ができる。
更新されるニュース記事やWebページ(インターネッ
トのホームページ)等の記事を形態素解析し、登録すべ
き単語候補を抽出し、その語が登録した場合の解析のテ
ストを行う機構を設けることで、登録すべき単語の抽出
や登録作業時の労力を軽減するものである。また、登録
すべき単語候補として選ばれた単語と同時に登録すべき
関連語も原文から抽出し、その語も登録単語候補として
取り入れる機能を備えるものである。
た図である。以下、図2〜図16に基づいて本発明の実
施の形態を説明する。 (1):装置構成の説明 図2は装置構成図である。図2において、原文データ1
が入力される単語登録装置には、登録候補単語抽出部
2、関連語抽出部3、候補単語検査部4、単語登録部
5、形態素解析エンジン6、形態素解析用辞書7が設け
てある。
より入力される日々更新されるニュース記事やWebペ
ージ等の記事である。登録候補単語抽出部2は、形態素
解析結果から登録候補単語を抽出するものである。関連
語抽出部3は、登録候補単語を元に関連語を抽出するも
のである。候補単語検査部4は、元の解析結果と登録候
補単語を取り入れた場合の解析結果を比較して、解析誤
りが起こっているかどうかを判定するものである。単語
登録部5は、ユーザに登録候補単語や関連語の検査結果
を表示し、形態素解析用辞書7に格納するものである。
形態素解析エンジン6は、形態素解析を行う処理部であ
る。形態素解析用辞書7は、形態素解析に使用するため
の単語を登録しておくものである。
理S1〜処理S4に従って説明する。
自動で入力された新聞記事等の原文データ1を登録候補
単語抽出部2で、形態素解析し、その結果から登録候補
単語を抽出し、処理S2に移る。
して選ばれた単語を含む元記事中に含む単語(関連語)
を登録候補単語として選択し、処理S3に移る。 S3:候補単語検査部4で、登録候補単語及び関連語を
登録した場合の形態素解析結果をテストし、その結果を
ユーザに提示し、処理S4に移る。
した場合、単語登録部5で形態素解析用辞書7に登録し
て、この処理を終了する。 (3):登録候補単語抽出部の処理の説明 図4は登録候補単語抽出部の処理の説明図である。以
下、図4の処理S11〜処理S14に従って説明する。
ータ1に対して、形態素解析エンジン6と形態素解析用
辞書7を用いて形態素解析を行い、処理S12に移る。 S12:登録候補単語抽出部2は、形態素解析結果から
未登録語を抽出して、未登録語頻度表を作成し、処理S
13に移る。
解析結果から名詞類の連続を抽出して、未登録複合語頻
度表を作成し、処理S14に移る。 S14:登録候補単語抽出部2は、それぞれ作成した頻
度表の頻度の上位のものを登録候補単語リストに登録し
て、この処理を終了する。
の処理S21〜処理S23に従って説明する。
を含む元の文の記事を検索し、処理S22に移る。 S22:関連語抽出部3は、その記事中に未登録語頻度
表、未登録複合語頻度表に含まれる語が存在するかを判
定し、処理S23に移る。
まれる語があれば、それを関連語として抽出し、登録候
補単語リストに追加して、この処理を終了する。 (5):候補単語検査部の処理の説明 図6は候補単語検査部の処理の説明図である。以下、図
6の処理S31〜処理S34に従って説明する。
語リストから候補単語辞書を作成すし、処理S32に移
る。 S32:候補単語検査部4は、登録候補単語を含む原文
に対して、元の形態素解析用辞書と候補単語辞書を用い
て、形態素解析をし、処理S33に移る。
解析結果と登録候補単語を取り入れた場合の形態素解析
結果を比較して、解析誤りが起こっているかどうかを判
定し、処理S34に移る。
起こっている単語を登録候補単語リストから除外し、こ
の処理を終了する。なお、解析誤りの例として、登録候
補単語を取り入れた場合に他の部分(特に取り入れた登
録候補単語の前後部分)が未登録語となる場合や逆に未
登録語が増加する場合がある。
処理S41〜処理S44に従って説明する。
ストと元の形態素解析結果とそれに新たに登録した場合
の形態素解析結果をユーザに提示し、処理S42に移
る。 S42:ユーザが登録候補単語から登録すべき単語を選
択し、処理S43に移る。
辞書上の登録情報を候補単語辞書から提示し、処理S4
4に移る。 S44:ユーザが候補単語辞書の内容をそのまま、ある
いは修正して、単語登録部5で形態素解析用辞書7に登
録し、この処理を終了する。
り、図8(a)は一文の形態素解析例の説明、図8
(b)は未登録単語頻度表の説明である。図9は登録候
補単語を登録する場合の説明図(2)であり、図9
(a)は候補単語辞書の説明、図9(b)は登録前の形
態素解析結果の説明である。図10は登録候補単語を登
録する場合の説明図(3)であり、図10(a)は「ヤ
ンゴン」を登録した場合の形態素解析結果の説明、図1
0(b)はユーザが修正した候補単語辞書の説明であ
る。
ら登録単語を抽出する例を図8〜図10により説明す
る。まず、登録候補単語抽出部2において、原文を形態
素解析する。形態素解析の結果は、例えば、図8(a)
のように、文が形態素単位に分割され、それぞれの品
詞、詳細品詞、表記が出力される。
解析結果から、詳細品詞が「未登録語」となっている単
語を収集し、図8(b)のように頻度が記入された未登
録単語頻度表を作成する。
て頻度が上位であるものを登録すべき候補の単語として
抽出する。例えば、ここで頻度が「10」で頻度の高い
「ヤンゴン」を登録候補単語として抽出する。候補単語
検査部4では、登録候補単語である「ヤンゴン」に仮の
品詞として、普通名詞を付与し、候補単語辞書を作成す
る。この候補単語辞書は、図9(a)のように表記、品
詞、詳細品詞が設けられている候補単語検査部4では、
登録候補単語が出現している文を元の形態素解析用辞書
7と登録候補単語を取り入れた辞書を使って解析し直し
て、その結果を出力する。例えば、登録候補単語「ヤン
ゴン」を含む文が次のものであったとする。
が始まった。」この文に対して、「ヤンゴン」を登録す
る前の形態素解析結果は、図9(b)であり、「ヤンゴ
ン」を登録した場合の形態素解析結果は、図10(a)
である。図9(b)において、未登録語であった「ヤン
ゴン」は、図10(a)においては普通名詞となり他の
単語にも未登録語が含まれていない。このため「ヤンゴ
ン」を登録した場合の結果に解析誤りは含まれていな
い。
部5に渡し、ユーザに提示する。ユーザは、この結果を
確認し、「ヤンゴン」を辞書に登録することを指示す
る。ここで「ヤンゴン」は、地名であるので、ユーザ
は、詳細品詞を「地名」に修正する。即ち、図10
(b)のように候補単語辞書の情報を修正して形態素解
析用辞書7に登録する。
説明 図11は未登録複合語頻度表を作成する場合の説明図
(1)であり、図11(a)は未登録複合語頻度表の説
明、図11(b)は候補単語辞書の説明、図11(c)
は登録前の形態素解析結果の説明である。図12は未登
録複合語頻度表を作成する場合の説明図(2)であり、
図12(a)は登録した後の形態素解析結果の説明、図
12(b)はユーザが修正した候補単語辞書の説明であ
る。
から未登録単語頻度表以外に、未登録複合語頻度表を作
成するものである。これは、二つ以上の名詞類(名詞、
接頭語、接尾語、「・」、「//」、「=」、動詞の連用
形等)が連続しているものを取り出し、その頻度を調査
したものである。
(a)のように得られたとする。なお、図11(a)に
おいて、形態素の区切りは「/」で表している。ここで
は、頻度が「12」と高い「オーム/真理/教」を登録
候補単語として抽出したとする。候補単語検査部4で
は、図11(b)のように「オーム真理教」に仮の品詞
として、普通名詞を付与し、この「オーム真理教」が出
現した文において形態素解析のテストを行う。
現している文を元の形態素解析用辞書7と登録候補単語
を取り入れた辞書を使って解析し直して、その結果を出
力する。ここで、「オーム真理教」を含む原文が次のも
のであったとする。
ょう逮捕されました。」これを「オーム真理教」を一語
として登録する前の形態素解析結果は、図11(c)に
示してあり、登録した後の形態素解析結果は、図12
(a)に示してある。図11(c)と図12(a)のよ
うに、「オーム真理教」を登録した場合の結果に解析誤
りは含まれていないので、候補単語検査部4は、この結
果を単語登録部5に渡し、ユーザに提示する。
理教」を辞書に登録することを指示する。ここで「オー
ム真理教」は、固有名詞であるので、ユーザは、詳細品
詞を「固有名詞」に修正する。即ち、図12(b)のよ
うに候補単語辞書の情報を修正して形態素解析用辞書7
に登録する。
図13(a)は候補単語辞書(関連語)の説明、図13
(b)は登録前の形態素解析結果の説明である。図14
は関連語を登録する場合の説明図(2)であり、図14
(a)は「國林長」を登録した場合の形態素解析結果の
説明、図14(b)は「國林長官狙撃事件」を登録した
場合の形態素解析結果の説明である。図15は関連語を
登録する場合の説明図(3)であり、図15(a)はユ
ーザが修正した候補単語辞書の説明、図15(b)は登
録前の形態素解析結果の説明である。図16は関連語を
登録する場合の説明図(4)であり、図16(a)は
「アウン・タン・スー・チー」を登録した場合の形態素
解析結果の説明、図16(b)はユーザが修正した候補
単語辞書の説明である。
「オーム真理教」を登録候補単語として抽出した場合、
関連語抽出部3では、以下のように処理を行う。関連語
抽出部3では、登録候補単語を含む記事中に含まれる頻
度の低い未登録語や未登録複合語を選択する。これによ
り、以下の選択結果が得られたとする。
検査部4でテストを行う。候補単語検査部4では、以上
の登録候補単語と関連語に仮の品詞として、普通名詞を
付与し、それぞれの語が出現した文において形態素解析
のテストを行う。例えば、関連語から図13(a)のよ
うな候補単語辞書(関連語)を作る。
現している文を元の形態素解析用辞書7と登録候補単語
を取り入れた辞書を使って解析し、その結果を出力す
る。これは例えば、関連語を含む文が次のようであった
とする。
る対応が適切でない。」 「アウン・タン・スー・チーさんの勢力とは一線を画し
ている。」 ・「國林長官狙撃事件」を含む文の形態素解析結果は、
登録前は図13(b)となり、「國林長」を登録した場
合は図14(a)となり、「國林長官狙撃事件」を登録
した場合は図14(b)となる。
件」を登録した場合は、いずれも解析誤りが起こってい
ないので、候補単語検査部4は、その結果を単語登録部
5に渡し、ユーザに提示する。ユーザは、図14(a)
と図14(b)の形態素解析結果から、「國林長官狙撃
事件」を登録する方が正しいと判断し、「國林長官狙撃
事件」を登録するとユーザが指示する。
は、図15(a)のように候補単語辞書の詳細品詞を
「普通名詞」から「固有名詞」に修正し、単語登録部5
で形態素解析用辞書7に取り込むようにする。
録する前と登録した後の形態素解析結果は、図15
(b)と図16(a)のようになる。ここで、「アウン
・タン・スー・チー」を登録した場合は、解析誤りが起
こっていないので、その結果を単語登録部5に渡し、ユ
ーザに提示する。ユーザは、この結果を確認し、「アウ
ン・タン・スー・チー」を形態素解析用辞書7に登録す
ることを指示する。ここで、「アウン・タン・スー・チ
ー」は人名であるので、ユーザは、候補単語辞書の詳細
品詞を「普通名詞」から「人名」に修正し、単語登録部
5で形態素解析用辞書7に取り込むようにする。
べき単語の抽出および選択が軽減され、更に登録すべき
単語のテストを事前に行えるので、質の良い単語を半自
動的に収集できる。また、関連のある語も同時に収集す
ることが可能となる。
部4、単語登録部5、形態素解析エンジン6は実際には
プログラムで構成でき、主制御部(CPU)が実行する
ものであり、主記憶に格納されているものである。これ
らのプログラムは、一般的な、パーソナルコンピュー
タ、ワークステーション等のデータ処理装置(コンピュ
ータ)で処理されるものである。これらのコンピュータ
は、主制御部、主記憶、ハードディスク等のファイル装
置、表示装置、キーボード等の入力手段である入力装置
などのハードウェアで構成されている。
をインストールする。このインストールは、フロッピ
ー、光磁気ディスク等の可搬型の記録媒体に、これらの
プログラムを記憶させておき、コンピュータが備えてい
る記憶媒体に対して、アクセスするためのドライブ装置
を介して、或いは、LAN等のネットワークを介して、
コンピュータに設けられたファイル装置にインストール
される。そして、このファイル装置から処理に必要なプ
ログラムステップを主記憶に読み出し、主制御部が実行
するものである。
のような効果がある。 (1)登録候補単語抽出部で、自然言語文を形態素解析
し、形態素解析用辞書に登録されていない単語及び該辞
書に登録されていない名詞類の連続した複合語を抽出し
て、頻度の高いものを登録すべき登録候補単語と判定す
るため、頻度の高い未登録語だけでなく頻度の高い未登
録複合語も登録候補単語として判定することができ、登
録すべき語の抽出及び選択作業を軽減することができ
る。
含む原文を検索し、形態素解析用辞書に登録されていな
い単語及び該辞書に登録されていない名詞類の連続した
複合語を抽出するため、頻度が低い単語及び複合語も関
連語として原文から抽出し、その語も登録候補単語とし
て取り入れることができる。
を含む原文に対して、前記登録候補単語を取り入れる前
の形態素解析結果と前記登録候補単語を取り入れた場合
の形態素解析結果を比較して、解析誤りが起こっている
かどうかを判定するため、登録する前にテストが行え、
質のよい単語を収集することができる。
手順と、前記形態素解析結果から形態素解析用辞書に登
録されていない単語を抽出する抽出手順と、前記形態素
解析結果から形態素解析用辞書に登録されていない名詞
類の連続した複合語を抽出する抽出手順と、前記抽出手
順で抽出した単語及び複合語より頻度の高い語を登録候
補単語と判定する判定手順と、を実行するためのプログ
ラムを格納したコンピュータ読取可能な記録媒体とする
ため、この記録媒体のプログラムをコンピュータにイン
ストールすることで、頻度の高い未登録語だけでなく頻
度の高い未登録複合語も登録候補単語として判定するこ
とができる単語登録装置を容易に提供することができ
る。
ある。
の説明図である。
図である。
明図である。
である。
合の説明図(1)である。
合の説明図(2)である。
場合の説明図(3)である。
成する場合の説明図(1)である。
成する場合の説明図(2)である。
説明図(1)である。
説明図(2)である。
説明図(3)である。
説明図(4)である。
Claims (4)
- 【請求項1】自然言語を処理するための形態素解析用辞
書と、 自然言語文を形態素解析し、前記形態素解析用辞書に登
録されていない単語及び該辞書に登録されていない名詞
類の連続した複合語を抽出して、頻度の高いものを登録
すべき登録候補単語と判定する登録候補単語抽出部とを
備えることを特徴とした単語登録装置。 - 【請求項2】前記判定した登録候補単語を含む原文を検
索し、前記形態素解析用辞書に登録されていない単語及
び該辞書に登録されていない名詞類の連続した複合語を
抽出する関連語抽出部を備えることを特徴とした請求項
1記載の単語登録装置。 - 【請求項3】前記判定した登録候補単語を含む原文に対
して、前記登録候補単語を取り入れる前の形態素解析結
果と前記登録候補単語を取り入れた場合の形態素解析結
果を比較して、解析誤りが起こっているかどうかを判定
する候補単語検査部を備えることを特徴とした請求項1
記載の単語登録装置。 - 【請求項4】コンピュータに、 自然言語文を形態素解析する解析手順と、 前記形態素解析結果から形態素解析用辞書に登録されて
いない単語を抽出する抽出手順と、 前記形態素解析結果から形態素解析用辞書に登録されて
いない名詞類の連続した複合語を抽出する抽出手順と、 前記抽出手順で抽出した単語及び複合語より頻度の高い
語を登録候補単語と判定する判定手順と、 を実行するためのプログラムを格納したコンピュータ読
取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29676897A JP3748322B2 (ja) | 1997-10-29 | 1997-10-29 | 単語登録装置及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29676897A JP3748322B2 (ja) | 1997-10-29 | 1997-10-29 | 単語登録装置及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11134334A true JPH11134334A (ja) | 1999-05-21 |
JP3748322B2 JP3748322B2 (ja) | 2006-02-22 |
Family
ID=17837883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29676897A Expired - Fee Related JP3748322B2 (ja) | 1997-10-29 | 1997-10-29 | 単語登録装置及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3748322B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007029348A1 (ja) * | 2005-09-06 | 2007-03-15 | Community Engine Inc. | データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム |
JP2007094055A (ja) * | 2005-09-29 | 2007-04-12 | Fujitsu Ltd | 穴埋めテスト問題作成プログラム、方法及び装置 |
KR100757340B1 (ko) | 2006-03-30 | 2007-09-11 | 엔에이치엔(주) | 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템 |
JP2010157178A (ja) * | 2009-01-05 | 2010-07-15 | Internatl Business Mach Corp <Ibm> | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2016164724A (ja) * | 2015-03-06 | 2016-09-08 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
JP2018536920A (ja) * | 2016-02-18 | 2018-12-13 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | テキスト情報処理方法およびデバイス |
JP2021051613A (ja) * | 2019-09-25 | 2021-04-01 | 株式会社日立製作所 | 自然言語処理において使用される辞書を作成する方法およびシステム |
-
1997
- 1997-10-29 JP JP29676897A patent/JP3748322B2/ja not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007029348A1 (ja) * | 2005-09-06 | 2007-03-15 | Community Engine Inc. | データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム |
US8321198B2 (en) | 2005-09-06 | 2012-11-27 | Kabushiki Kaisha Square Enix | Data extraction system, terminal, server, programs, and media for extracting data via a morphological analysis |
US8700702B2 (en) | 2005-09-06 | 2014-04-15 | Kabushiki Kaisha Square Enix | Data extraction system, terminal apparatus, program of the terminal apparatus, server apparatus, and program of the server apparatus for extracting prescribed data from web pages |
JP2007094055A (ja) * | 2005-09-29 | 2007-04-12 | Fujitsu Ltd | 穴埋めテスト問題作成プログラム、方法及び装置 |
KR100757340B1 (ko) | 2006-03-30 | 2007-09-11 | 엔에이치엔(주) | 자동 추출을 이용한 형태소 분석기 성능 향상 방법 및 상기방법을 수행하는 시스템 |
JP2010157178A (ja) * | 2009-01-05 | 2010-07-15 | Internatl Business Mach Corp <Ibm> | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
US8538745B2 (en) | 2009-01-05 | 2013-09-17 | International Business Machines Corporation | Creating a terms dictionary with named entities or terminologies included in text data |
JP2016164724A (ja) * | 2015-03-06 | 2016-09-08 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
JP2018536920A (ja) * | 2016-02-18 | 2018-12-13 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | テキスト情報処理方法およびデバイス |
US10496747B2 (en) | 2016-02-18 | 2019-12-03 | Tencent Technology (Shenzhen) Company Limited | Text information processing method and apparatus |
JP2021051613A (ja) * | 2019-09-25 | 2021-04-01 | 株式会社日立製作所 | 自然言語処理において使用される辞書を作成する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JP3748322B2 (ja) | 2006-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
US20100185600A1 (en) | Apparatus and method for integration search of web site | |
US20080065621A1 (en) | Ambiguous entity disambiguation method | |
JPH11203311A (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
Ohba et al. | Toward mining" concept keywords" from identifiers in large software projects | |
JP5629976B2 (ja) | 特許明細書評価・作成作業支援装置、方法及びプログラム | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
US11868378B2 (en) | Creation of indexes for information retrieval | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP3748322B2 (ja) | 単語登録装置及び記録媒体 | |
JP4935243B2 (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
KR20040065468A (ko) | 특허문서의 다국어 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체 | |
JPH09198395A (ja) | 文書検索装置 | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP2010067021A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP3851712B2 (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4980604B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 | |
Yu et al. | Disambiguating the senses of non-text symbols for Mandarin TTS systems with a three-layer classifier | |
JPH10340271A (ja) | 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体 | |
KR20020059555A (ko) | 자연어 질의 응답 검색 엔진 및 검색 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051125 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101209 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111209 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |