JP2003256415A - 辞書構築支援方法、装置及びプログラム - Google Patents
辞書構築支援方法、装置及びプログラムInfo
- Publication number
- JP2003256415A JP2003256415A JP2002054442A JP2002054442A JP2003256415A JP 2003256415 A JP2003256415 A JP 2003256415A JP 2002054442 A JP2002054442 A JP 2002054442A JP 2002054442 A JP2002054442 A JP 2002054442A JP 2003256415 A JP2003256415 A JP 2003256415A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unknown word
- unknown
- dictionary
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
5及び参照単語辞書106を用いて形態素解析を行う。
未知語検出部109は形態素解析結果のうち基本単語辞
書105に登録されていない単語を未知語と判定する。
未知語検出部109は、未知語について、参照単語辞書
106に登録されていたか否か、辞書に登録されている
頻度情報、文章中の出現回数、単語長、品詞、見出し文
字種等を用いてその信頼度を算出する。未知語検出部1
09は、未知語毎にその信頼度を付して出力装置112
の画面上に表示させる。この表示を参照することで、ユ
ーザ辞書への登録作業を容易にさせる。
Description
品質な電子辞書を構築可能とするための辞書構築支援方
法、装置及びプログラムに関する。
械翻訳装置等の性能が向上し、高性能の製品が多数開発
されている。これらの装置においては、用途に応じて、
種々の電子辞書が利用される。
不変的な規則が存在していることから、一般に、あらか
じめ製品メーカ側で作成されて供給される。ユーザが日
常的に使用する言語については、ユーザが電子辞書への
登録を行うようになっており、これにより、各種自然言
語処理の精度を一層向上させることができる。
化する辞書構築支援装置が研究されている。従来の辞書
構築支援装置においては、入力された文章を形態素解析
することで未知語を抽出する。そして、形態素解析結果
が単語辞書に存在しない場合には、この形態素解析部分
を未知語と判断する。また、文法的接続が禁止された部
分についても未知語と判断する。これらの抽出した未知
語についてユーザ辞書への登録を行うのである。
象文の質によっては、形態素解析が正しく行われないこ
とがある。例えば、ひらがなを多用した文、話し言葉を
用いた文等の文体が特殊なものついては、形態素解析が
失敗することがあり、誤った区間を未知語として抽出し
てしまうことがある。例えば、無意味なひらがな1文字
等の無効な文字列(以下、無効言語単位という)であっ
ても未知語として判断されることが考えられる。このた
め、形態素解析結果によって抽出した未知語をそのまま
ユーザ辞書に登録すると、言語として有効な言語単位だ
けでなく無効言語単位についても未知語として登録され
ることがあり、ユーザー辞書の質が低下してしまうこと
がある。
知語を表示させ、オペレータが表示を見ながら抽出され
た未知語を登録すべきか否かを判断した後に、ユーザ辞
書への登録処理を行う方法が考えられる。しかし、この
場合には、ユーザ辞書登録のために、オペレータは膨大
な作業を行う必要があるという問題点があった。
文書における出現回数、単語長及び文字種等に基づい
て、形態素解析結果によって抽出された未知語の信頼性
を求め、その結果に応じてユーザ辞書への登録を行うこ
とにより、オペレータの作業を著しく簡単化し、短時間
で高い品質のユーザー辞書を構築することができる辞書
構築支援方法、装置及びプログラムを提供することを目
的とする。
辞書構築支援方法は、入力された文書に対して形態素解
析を行って未知語を抽出する未知語抽出ステップと、前
記未知語抽出ステップにおいて抽出した未知語が有効言
語単位であるか否かの度合いである信頼度を算出する信
頼度算出ステップと、前記未知語抽出ステップにおいて
抽出した未知語毎に前記信頼度算出ステップの算出結果
を提示する提示ステップとを具備したものであり、本発
明の請求項5に係る辞書構築支援方法は、入力された文
書に対して形態素解析を行って未知語を抽出する未知語
抽出ステップと、前記未知語抽出ステップにおいて抽出
した未知語が有効言語単位であるか否かの度合いである
信頼度を算出する信頼度算出ステップと、前記未知語抽
出ステップにおいて抽出した未知語のうち前記信頼度算
出ステップの算出結果によって所定の閾値以上の信頼度
を有するものと示された未知語をユーザ辞書に登録する
登録ステップとを具備したものである。
語抽出ステップにおいて、入力された文書に対する形態
素解析によって未知語が抽出される。抽出された未知語
は、信頼度算出ステップにおいて有効言語単位であるか
否かの度合いである信頼度が算出される。提示ステップ
において、未知語毎に信頼度が提示される。提示された
信頼度を参照することで、オペレータによる辞書登録が
容易になる。
ステップにおいて入力された文書に対する形態素解析に
よって未知語が抽出される。信頼度算出ステップにおい
て、抽出された未知語の信頼度が算出される。所定の閾
値以上の信頼度を有する未知語については、登録ステッ
プにおいてユーザ辞書に登録される。これにより、信頼
度が高い未知語がユーザ辞書に自動登録され、高品質の
ユーザ辞書が簡単に構築される。
としても成立する。
に当該発明に相当する処理を実行させるためのプログラ
ムとしても成立する。
施の形態について詳細に説明する。図1は本発明の一実
施の形態に係る辞書登録支援装置を示すブロック図であ
る。
ド、マウスポインタ或いはファイル装置等によって構成
され、文書データを出力することができるようになって
いる。入力制御部102は、入力装置101からの文書
データを取り込み、文書バッファ104に格納する。
03は、文書バッファ104に格納されている文書デー
タを1文ずつ読出し、基本単語辞書105、参照単語辞
書106、接続辞書107及び評価ルール108を参照
しながら形態素解析を行う。
単語辞書105及び参照単語辞書106を有している。
基本単語辞書105は電子辞書を利用する装置(以下、
電子辞書利用装置という)において通常使用されるシス
テム単語が格納されている。一方、参照単語辞書106
は、未知語登録のために用いられるもので、大語彙セッ
トの単語辞書であり、電子辞書利用装置において通常備
えられているものではない。
単語辞書106にのみ存在する単語は、電子辞書利用装
置にとって未知語となる。これらの基本単語辞書105
及び参照単語辞書106は、各単語毎に見出し及び品詞
等の形態素解析に必要な情報を有していると共に、各単
語が一般にどの程度使用されるかを示す頻度情報も有し
ている。なお、これらの2つの辞書105,106は、
一体化されてフラグ等で単語が識別できる状態であって
もよい。
的な接続の可否のルールが格納されている。また、評価
ルール108には複数の単語系列から最も日本語として
正しくなる系列を選び出すためのルールが格納されてい
る。形態素解析部103は、形態素解析結果となる単語
系列を単語列バッファ110に格納する。
103によって、2つの辞書105,106に登録され
ている単語については、各単語の辞書格納情報が格納さ
れ、2つの辞書105,106に未登録の単語について
は、形態素解析によって得られた見出し及び品詞等が格
納される。
を構成する未知語検出部109は、単語列バッファ11
0に格納された単語のうち、参照単語辞書106から検
索された単語と辞書105,106のいずれにも登録さ
れていない単語とを未知語と判断する。未知語検出部1
09は単語列バッファ110に格納された単語のうち未
知語を順次読み出して未知語バッファ111に格納す
る。未知語バッファ111は単語情報の他に各単語毎に
出現カウンタを保持している。未知語検出部109は、
読み出した未知語が未知語バッファ111に既に格納済
みか否かを調査し、既に格納済みの場合には出現カウン
タをインクリメントし、未格納である場合には新規に未
知語バッファ111に格納する。なお、出現カウンタは
単語の出現毎に1つずつインクリメントする。
知語について、単語列バッファ110から読み出した情
報及び出現回数の情報が記憶される。本実施の形態にお
いては、未知語検出部109は、未知語バッファ111
に格納された情報に基づいて、各未知語毎に信頼度を算
出する。そして、未知語検出部109は、算出した信頼
度を例えば予め定めた複数段階の信頼度レベルに分類し
て各未知語に付与し、未知語バッファ111に記憶させ
るようになっている。なお、未知語検出部109は、信
頼度レベルとして数値を用いてもよく、また、“高”、
“中”、“低”等の語句を用いてもよい。
として、単語長、活用の有無、文字種、参照単語辞書1
06からの抽出語であるか否か、辞書106の登録語の
場合には辞書内の頻度情報等を用い、これらの項目に対
する重み付けによって決定するようになっている。
する信頼度レベル付けが終了すると、未知語バッファ1
11に格納されてい各単語のデータ及び信頼度レベルを
出力装置112に出力する。出力装置112は図示しな
い表示画面を有しており、未知語検出部109からの検
出結果を表示画面上に表示するようになっている。出力
装置112は、信頼度レベルの表示方法として、信頼度
レベルを示す数値を表示してもよく、また、その数値を
適宜丸めた例えば「信頼度−高」、「信頼度−中」、
「信頼度−低」、「要確認」等の表示を行ってもよい。
動作について図2乃至図4を参照して説明する。図2は
未知語を抽出する際の処理の流れを示すフローチャート
である。図3は未知語に対する信頼度の算出方法を示す
フローチャートである。図4は図1中の未知語バッファ
111の未知語の格納例を示す説明図である。
101から入力された文書データは、入力制御部102
によって順次文書バッファ104に格納される。なお、
文書データの入力は、ファイルからの読み込み、キーボ
ード等からの直接入力、クリップボードからの貼り付け
等の何れの方法でもよい。
抽出の指示を入力装置101に対して行うと、入力制御
部102は形態素解析部103に対して入力文の解析開
始を指示する(ステップ202)。形態素解析部103
は、文書バッファ104から1文を抽出し(ステップ2
03)、基本単語辞書105、参照単語辞書106、接
続辞書107及び評価ルール108を参照して形態素解
析を行い(ステップ204)、形態素解析結果である各
単語を単語列バッファ110に格納する(ステップ20
5)。
は文書バッファ104に格納されている入力文が終了す
るまで繰り返される(ステップ206)。全ての入力文
に対しての形態素解析が終了すると、未知語検出部10
8は、カウンタnに0をセットし(ステップ207)、
単語列バッファ110に格納されているn番目の単語
(以下、単語nという)を読み出す(ステップ20
8)。
て抽出された単語である場合には、未知語検出部109
はこのn番目の単語は未知語ではないものと判断して、
処理をステップ209からステップ216に移行して、
カウンタnをインクリメントする。次に、全ての単語に
ついての未知語判定が終了していなければ次の単語の取
得を行う(ステップ208)。
しない場合には、ステップ209からステップ210に
処理を移行して、単語nが未知語バッファ111に格納
済みであるか否かを調査する(ステップ210)。単語
nが未知語バッファ111に未格納で、且つ参照単語辞
書106から検索された単語であった場合には(ステッ
プ211)、単語nの情報として参照単語辞書106の
見出し、品詞、出現頻度等の情報を未知語バッファ11
1に新規に格納する(ステップ212)。
在しない単語であった場合には、ステップ211からス
テップ213に移行して、未知語バッファ111に形態
素解析で得た見出し及び品詞を新規に格納する(ステッ
プ213)。
知語抽出対象とした文書中に何回単語nが出現したかを
記憶する出現カウンタを保持しており、新規格納の場合
には、出現カウンタに1をセットする(ステップ21
4)。ステップ210において、単語nが未知語バッフ
ァ111に格納済みであった場合には、未知語バッファ
111の単語nの出現カウンタを1インクリメントする
(ステップ215)。
をインクリメントし(ステップ216)、単語列バッフ
ァ110に格納されている全ての単語についての未知語
判定が終了するまで、ステップ208からステップ21
7の処理を繰り返し行う。
て未知語抽出処理が終了すると、未知語検出部109
は、未知語バッファ111に格納した未知語を順に調査
し、参照単語辞書の有無、出現頻度、出現カウンタ、単
語長、品詞、見出し文字種等の全て又は一部から信頼度
を算出して信頼度レベルを付与する(ステップ21
8)。
11に格納された各語について信頼度を算出する。信頼
度は値が大きいほど抽出された未知語が有効な言語単位
であって登録すべき未知語であることを示し、信頼度が
小さいほど抽出された未知語が無効言語単位であって登
録すべきでない未知語であることを示す。
1において、信頼度(L)を初期値0にする。次に、算
出対象の未知語が参照単語辞書106から検索された単
語である場合には、信頼度Lに1000を加算する(ス
テップ302、303)。次に、算出対象の単語の参照
単語辞書106内の頻度情報に100を乗じた値をLに
加算する(ステップ304)。未知語が参照単語辞書1
06に存在した単語であることによって、ステップ30
3,304では、比較的高い得点が信頼度Lに加算さ
れ、有効言語単位である確率が高いことが示される。
の未知語が参照単語辞書106に格納されていた単語で
あるか否かに拘わらず、未知語抽出対象文内に算出対象
未知語が何度出現したかを示す出現カウンタの値に10
乗じた値を、信頼度Lに加算する(ステップ305)。
即ち、文章中の出現回数が多い場合には、算出対象の未
知語が有効言語単位である可能性が高いことを示してい
る。
であるかを判定し(ステップ306)、用言の場合には
更に活用語尾があるか否かを調べる(ステップ30
7)。語尾がある場合には算出対象の未知語が有効言語
単位である可能性が高いので、Lに5を加算する(ステ
ップ308)。
おいて用言でないと判定された場合であっても、固有名
詞であって且つ固有接辞への接続がある場合(ステップ
309、310)、例えば未知語の品詞が地名で次に続
く単語の品詞が地名接尾であるような場合には、未知語
が有効言語単位である可能性が高いのでLに2を加算す
る(ステップ311)。
文字数を調べ文字数の2乗をLに加算する。文字が長い
ほど有効言語単位である可能性が高い。しかも、文字の
長さと有効の度合いは指数関数的に変化すると考えられ
るので、ステップ312において文字数の2乗を得点と
して信頼度に加算する。
が英字、記号、カタカナの何れかのみで構成されている
か否かを判定する。通常、同一文字種が連続する場合に
は、有効言語単位である可能性が高い。そこで、同一文
字種が連続して構成された単語の場合には、Lに2を加
算する(ステップ314)。
11の算出対象の未知語の信頼度Lを例えば4段階にク
ラス分けする。そして、最も信頼度が高い信頼度レベル
を“1”とし、最も信頼度が低い信頼度レベルを4とし
て、信頼度Lを1〜4の4つの信頼度レベルに分類し、
各未知語毎に信頼度レベルを付与する。
している。
ている未知語「安め」は、参照単語辞書106に単語I
Dがf3d1として登録されており、辞書内の頻度情報
が8で、対象となった文章中に2回出現しており、形容
動詞で活用が無いことが示されている。この未知語「安
め」の信頼度レベルは1で、有効言語単位である可能性
が極めて高いことが示される。
いる未知語「ヴァレー」は、対象文章中に1回出現し、
形態素解析の結果、サ変名詞で活用がないことは検出さ
れたが、参照単語辞書106に登録されておらず、信頼
度レベルは3で無効言語単位である可能性が比較的高い
ことが示されている。
プ219において、未知語検出部109によって未知語
バッファ111から読み出され、見出し及び品詞に加え
て信頼度レベルが出力装置112に供給される。出力装
置112は未知語に関する入力された情報を表示画面上
に表示する。例えば、出力装置112は、図4と同様の
表示を画面上に表示してもよい。
の表示を参考にすることで、未知語のユーザ辞書への登
録を、極めて簡単に行うことができる。
出した未知語について、大語彙セットの参照単語辞書に
登録されているか否か、辞書に登録されている頻度情
報、文章中の出現回数、単語長、品詞、見出し文字種等
を用いてその信頼度を算出して表示することで、未知語
が有効言語単位であるか無効言語単位であるかを判断し
やすくしており、高品質のユーザ辞書を容易に構築する
ことを可能にしている。そして、信頼度の算出に際し
て、電子辞書利用装置に備えられる基本単語辞書だけで
なく、未知語登録のための大語彙セットである参照単語
辞書を用いており、参照単語辞書に登録されているか否
かによって有効言語単位であるか無効言語単位であるか
の判定の正確性を向上させている。
ロック図である。図5において図1と同一の構成要素に
は同一符号を付して説明を省略する。
頼度を表示画面上に表示させることで、オペレータのユ
ーザ辞書の構築を容易にした。本実施の形態は所定レベ
ル以上の信頼度の未知語のみを表示させると共に、表示
させる信頼度の範囲を設定可能にし、更に、設定未知語
の信頼度に応じて、有効言語単位と考えられる未知語を
自動的にユーザ辞書に登録するようにしたものである。
えて未知語検出部509を採用すると共に、検出レベル
調整部512、未知語登録部513、未知語編集部51
4及びユーザ辞書515を付加した点が第1の実施の形
態と異なる。
509に制御されて、有効言語単位であるか否かの決定
又は表示させるか否かの決定に用いる信頼度レベルの閾
値(以下、検出レベルという)を設定するようになって
いる。なお、検出レベルは入力装置101によってオペ
レータが適宜設定可能である。
部109と同様の手法によって、未知語の信頼度を算出
すると共に、入力装置101によって未知語を表示させ
るための指示が与えられると、検出レベル調整部512
によって設定された検出レベル以上の値を有する未知語
のみを未知語バッファ111から読み出して、出力装置
112に出力するようになっている。
01によって検出レベルの設定変更の指示が発生した場
合には、未知語検出部509は、変更された検出レベル
に従って未知語バッファ111からの未知語の抽出をや
り直し、変更後の検出レベル以上の値を有する未知語を
出力装置112に出力する。
13は、検出レベル以上の信頼度レベルを有する未知語
をユーザ辞書515に自動的に登録することができるよ
うになっている。例えば、未知語登録部513は、未知
語検出終了後或いは未知語表示後に、入力装置101か
ら未知語の登録指示があった場合には、検出レベル調整
部512によって設定された検出レベル以上の値を有す
る未知語を未知語バッファ111から順次読み出し、ユ
ーザ辞書515に登録する。
書に登録する未知語を適宜編集することも可能である。
例えば、未知語編集部514は、未知語表示中に入力装
置101から任意の未知語を指定した上で修正指示があ
った場合には、修正指示に応じて対象の未知語の情報を
表示と共に修正し、修正した内容を未知語バッファ11
1に書き込む。これにより、オペレータは、表示された
未知語の見出し及び品詞等を適宜修正して、未知語バッ
ファ111に記憶させることができる。
動作について図6及び図7を参照して説明する。図6は
未知語の抽出・登録処理をする際の処理の流れを示すフ
ローチャートである。また、図7は図4の未知語に対し
て検出レベルの指定を行った上で一覧表示を指示した場
合の画面表示例を示す説明図である。
タが入力装置101から未知語検出レベルの調整を指示
すると、検出レベル調整部512は出力装置112の表
示画面上にスライドバー等のGUI表示を行う。オペレ
ータはこのGUI表示を利用して、任意の検出レベルを
選択する。検出レベル調整部512は、新たに設定され
た検出レベルを保持する(ステップ602)。
済み未知語の一覧が出力装置112の表示画面上に表示
中であるものとする。この場合には、ステップ603か
らステップ604に処理を移行して、一旦一覧表示を消
去する(ステップ604)。次に、未知語検出部509
は、再度、未知語バッファ111から検出レベル調整部
512に設定された検出レベル以上の値を有する未知語
を抽出し(ステップ605)、出力装置112の表示画
面上に表示させる(ステップ606)。なお、ステップ
603において未知語が表示中でないものと判断された
場合には、オペレータの指示待ちとなる。
の指定を行った上で一覧表示を指示した場合の画面表示
例を示している。図7(a)は図4の未知語のうち信頼
度レベルが2又は1の未知語を表示した例を示してい
る。また、図7(b)は図4の未知語のうち信頼度レベ
ルが1〜3の未知語を表示した例を示している。なお、
図7(a)の表示が表示されている状態において、未知
語の検出レベルを信頼度レベル3に設定変更すると、画
面表示も図7(b)に示す表示に切換る。
なく、未知語の抽出であった場合には、ステップ607
から処理をステップ608に移行し、ステップ608〜
ステップ612において、図2と同様の未知語処理を行
う。即ち、形態素解析部103は、基本単語辞書10
5、参照単語辞書106、接続辞書107、評価ルール
108を用いて、文書バッファ104に格納された文書
を順次読み出して形態素解析し(ステップ608)、そ
の結果となる単語列を単語列バッファ110に格納する
(ステップ609)。
出部509は単語列バッファ110から未知語を選択し
て、その単語の出現回数をカウントし(ステップ61
0)、辞書格納の有無、出現回数及び単語長等から求め
た信頼度レベルを付与する(ステップ611)。信頼度
レベルが付与された未知語情報は他の単語情報と共に未
知語バッファ111に格納される(ステップ612)。
合には、ステップ613からステップ605に処理を移
行して、未知語検出部509は、未知語バッファ111
から検出レベル調整部512に設定された検出レベル以
上の値の未知語を抽出して(ステップ605)、出力装
置112の表示画面上に表示させる(ステップ60
6)。
指示であった場合には、処理をステップ614からステ
ップ615に移行する。この場合には、未知語編集部5
14は、指定された未知語の情報を未知語バッファ11
1から読み出して画面上に表示させる(ステップ61
5)。オペレータは、表示された未知語の単語情報の必
要な部分を修正する(ステップ616)。修正が終了す
ると、未知語編集部514は修正された未知語の情報を
未知語バッファ111内の当該未知語のレコードに上書
きする(ステップ617)。
場合には、ステップ618からステップ619に処理を
移行する。この場合には、未知語登録部513は、未知
語バッファ111から検出レベル調整部512に設定さ
れた検出レベル以上の値の未知語を抽出し(ステップ6
19)、ユーザ辞書515に順次登録する(ステップ6
20)。
されている必要はなく、未知語抽出と未知語登録とを一
括で行ってもよい。未知語登録部513は、ユーザ辞書
に登録した未知語を未知語バッファ111から削除する
(ステップ621)。
定の信頼度以上の未知語を抽出するための設定を可能に
して、抽出した未知語のみを画面上に表示させること
で、ユーザの登録作業を容易にしている。更に、所定の
信頼度以上の未知語については、自動的にユーザ辞書に
登録することも可能である。これにより、ユーザの煩雑
な操作を必要とすることなく、高い品質のユーザ辞書が
構築可能である。また、登録すべきか否かを信頼度レベ
ルによって自由に設定可能で、また、登録する未知語の
情報も自由に変更可能であり、辞書構築の自由度が高
い。
るものではなく、種々の応用,変形が可能である。例え
ば、形態素解析を対象としているが、文解析に形態素解
析を用いる音声あるいは文字認識、音声読み上げ、翻
訳、カナ漢字変換等に応用可能である。また、音声認識
に適用する場合には、基本単語辞書は音声認識用のシス
テム辞書と同語彙の形態素解析用辞書、参照単語辞書は
形態素解析辞書以外の大語彙辞書とし、未知語情報とし
ての見出し・品詞の他に発音あるいは読み等の情報を参
照辞書上に格納しておくか、あるいは単漢字辞書等を用
意し、適当な読みを付与すればよい。
語辞書の格納情報、解析対象文書における出現回数、単
語長及び文字種等に基づいて、形態素解析結果によって
抽出された未知語の信頼性を求め、その結果に応じてユ
ーザ辞書への登録を行うことにより、オペレータの作業
を著しく簡単化し、短時間で高い品質のユーザー辞書を
構築することができるという効果を有する。
を示すブロック図。
チャート。
チャート。
例を示す説明図。
を示すフローチャート。
た上で一覧表示を指示した場合の画面表示例を示す説明
図。
本単語辞書、106…参照単語辞書、109…未知語検
出部、111…未知語バッファ、112…出力装置。
Claims (12)
- 【請求項1】 入力された文書に対して形態素解析を行
って未知語を抽出する未知語抽出ステップと、 前記未知語抽出ステップにおいて抽出した未知語が有効
言語単位であるか否かの度合いである信頼度を算出する
信頼度算出ステップと、 前記未知語抽出ステップにおいて抽出した未知語毎に前
記信頼度算出ステップの算出結果を提示する提示ステッ
プとを具備したことを特徴とする辞書構築支援方法。 - 【請求項2】 前記未知語抽出ステップは、基本単語辞
書と前記基本単語辞書よりも格納する語彙数が多い参照
単語辞書とを用いた形態素解析を行い、前記基本単語辞
書に未登録で前記参照単語辞書にのみ登録されている単
語及び前記基本単語辞書及び参照単語辞書のいずれにも
登録されていない単語を未知語と判定することを特徴と
する請求項1に記載の辞書構築支援方法。 - 【請求項3】 前記信頼度算出ステップは、前記未知語
が前記参照単語辞書に登録されているか否かに基づいて
前記信頼度を算出することを特徴とする請求項2に記載
の辞書構築支援方法。 - 【請求項4】 前記信頼度算出ステップは、前記未知語
抽出ステップにおいて抽出した未知語について、前記入
力された文書内の出現回数、固有接辞の有無、用言の語
尾の有無、文字数及び文字種のうちの少なくとも1つの
情報に基づいて信頼度を算出することを特徴とする請求
項1に記載の辞書構築支援方法。 - 【請求項5】 入力された文書に対して形態素解析を行
って未知語を抽出する未知語抽出ステップと、 前記未知語抽出ステップにおいて抽出した未知語が有効
言語単位であるか否かの度合いである信頼度を算出する
信頼度算出ステップと、 前記未知語抽出ステップにおいて抽出した未知語のうち
前記信頼度算出ステップの算出結果によって所定の閾値
以上の信頼度を有するものと示された未知語をユーザ辞
書に登録する登録ステップとを具備したことを特徴とす
る辞書構築支援方法。 - 【請求項6】 前記提示ステップは、前記信頼度算出ス
テップの算出結果によって所定の閾値以上の信頼度を有
するものと示された未知語のみを提示することを特徴と
する請求項1に記載の辞書構築支援方法。 - 【請求項7】 前記提示ステップは、前記所定の閾値を
ユーザ操作によって設定するステップを含むことを特徴
とする請求項5又は6のいずれか一方に記載の辞書構築
支援方法。 - 【請求項8】 前記提示ステップは、提示された前記未
知語に関する情報を修正するステップを含むことを特徴
とする請求項6に記載の辞書構築支援方法。 - 【請求項9】 入力された文書に対して形態素解析を行
って未知語を抽出する未知語抽出手段と、 前記未知語抽出手段が抽出した未知語が有効言語単位で
あるか否かの度合いである信頼度を算出する信頼度算出
手段と、 前記未知語抽出手段が抽出した未知語毎に前記信頼度算
出手段の算出結果を提示する提示手段とを具備したこと
を特徴とする辞書構築支援装置。 - 【請求項10】 入力された文書に対して形態素解析を
行って未知語を抽出する未知語抽出手段と、 前記未知語抽出手段が抽出した未知語が有効言語単位で
あるか否かの度合いである信頼度を算出する信頼度算出
手段と、 前記未知語抽出手段が抽出した未知語のうち前記信頼度
算出手段の算出結果によって所定の閾値以上の信頼度を
有するものと示された未知語をユーザ辞書に登録する登
録手段とを具備したことを特徴とする辞書構築支援装
置。 - 【請求項11】 コンピュータに、 入力された文書に対して形態素解析を行って未知語を抽
出する未知語抽出処理と、 前記未知語抽出処理において抽出した未知語が有効言語
単位であるか否かの度合いである信頼度を算出する信頼
度算出処理と、 前記未知語抽出処理において抽出した未知語毎に前記信
頼度算出処理の算出結果を提示する提示処理とを実行さ
せる辞書構築支援プログラム。 - 【請求項12】 コンピュータに、 入力された文書に対して形態素解析を行って未知語を抽
出する未知語抽出処理と、 前記未知語抽出処理において抽出した未知語が有効言語
単位であるか否かの度合いである信頼度を算出する信頼
度算出処理と、 前記未知語抽出処理において抽出した未知語のうち前記
信頼度算出処理の算出結果によって所定の閾値以上の信
頼度を有するものと示された未知語をユーザ辞書に登録
する登録処理とを実行させる辞書構築支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002054442A JP3935374B2 (ja) | 2002-02-28 | 2002-02-28 | 辞書構築支援方法、装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002054442A JP3935374B2 (ja) | 2002-02-28 | 2002-02-28 | 辞書構築支援方法、装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003256415A true JP2003256415A (ja) | 2003-09-12 |
JP3935374B2 JP3935374B2 (ja) | 2007-06-20 |
Family
ID=28665600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002054442A Expired - Fee Related JP3935374B2 (ja) | 2002-02-28 | 2002-02-28 | 辞書構築支援方法、装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3935374B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118822A (ja) * | 2010-12-01 | 2012-06-21 | Internatl Business Mach Corp <Ibm> | ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム |
JP2012256354A (ja) * | 2005-10-22 | 2012-12-27 | Internatl Business Mach Corp <Ibm> | ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良) |
-
2002
- 2002-02-28 JP JP2002054442A patent/JP3935374B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012256354A (ja) * | 2005-10-22 | 2012-12-27 | Internatl Business Mach Corp <Ibm> | ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良) |
JP2012118822A (ja) * | 2010-12-01 | 2012-06-21 | Internatl Business Mach Corp <Ibm> | ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3935374B2 (ja) | 2007-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7774193B2 (en) | Proofing of word collocation errors based on a comparison with collocations in a corpus | |
JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
US20060149557A1 (en) | Sentence displaying method, information processing system, and program product | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
JP2005128873A (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
US20070179779A1 (en) | Language information translating device and method | |
US7136803B2 (en) | Japanese virtual dictionary | |
JP2007072594A (ja) | 翻訳装置、翻訳方法および翻訳プログラム、媒体 | |
JPH11238051A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 | |
JP2003256415A (ja) | 辞書構築支援方法、装置及びプログラム | |
JP3762300B2 (ja) | テキスト入力処理装置及び方法並びにプログラム | |
KR102523767B1 (ko) | Bleu 스코어를 기초로 유사 문장에 대한 검색을 수행하는 전자 장치 및 그 동작 방법 | |
JP2010211004A (ja) | 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム | |
JP2007171275A (ja) | 言語処理装置及び現後処理方法 | |
JP3132058B2 (ja) | 文章検査装置 | |
JP2776069B2 (ja) | 文章検査装置 | |
JPH10198664A (ja) | 日本語入力システム及び日本語入力プログラムを記録した媒体 | |
JPH1139347A (ja) | テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体 | |
JP2002297585A (ja) | 英文名詞句の区分方法,英文構文情報生成方法および装置 | |
JP2004185641A (ja) | 対訳例文検索装置 | |
JPH11282844A (ja) | 文書作成方法および情報処理装置および記録媒体 | |
JP5032453B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP2009098328A (ja) | 音声合成装置及び方法 | |
JP3118880B2 (ja) | 日本語文章処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050201 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060627 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060828 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070319 |
|
LAPS | Cancellation because of no payment of annual fees |