JP2003256415A - 辞書構築支援方法、装置及びプログラム - Google Patents

辞書構築支援方法、装置及びプログラム

Info

Publication number
JP2003256415A
JP2003256415A JP2002054442A JP2002054442A JP2003256415A JP 2003256415 A JP2003256415 A JP 2003256415A JP 2002054442 A JP2002054442 A JP 2002054442A JP 2002054442 A JP2002054442 A JP 2002054442A JP 2003256415 A JP2003256415 A JP 2003256415A
Authority
JP
Japan
Prior art keywords
word
unknown word
unknown
dictionary
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002054442A
Other languages
English (en)
Other versions
JP3935374B2 (ja
Inventor
Masato Yajima
真人 矢島
Yukihiro Fukunaga
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002054442A priority Critical patent/JP3935374B2/ja
Publication of JP2003256415A publication Critical patent/JP2003256415A/ja
Application granted granted Critical
Publication of JP3935374B2 publication Critical patent/JP3935374B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】高品質なユーザ辞書を簡単な作業で得る。 【解決手段】形態素解析部103は、基本単語辞書10
5及び参照単語辞書106を用いて形態素解析を行う。
未知語検出部109は形態素解析結果のうち基本単語辞
書105に登録されていない単語を未知語と判定する。
未知語検出部109は、未知語について、参照単語辞書
106に登録されていたか否か、辞書に登録されている
頻度情報、文章中の出現回数、単語長、品詞、見出し文
字種等を用いてその信頼度を算出する。未知語検出部1
09は、未知語毎にその信頼度を付して出力装置112
の画面上に表示させる。この表示を参照することで、ユ
ーザ辞書への登録作業を容易にさせる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザによって高
品質な電子辞書を構築可能とするための辞書構築支援方
法、装置及びプログラムに関する。
【0002】
【従来の技術】近年、音声認識装置、音声合成装置、機
械翻訳装置等の性能が向上し、高性能の製品が多数開発
されている。これらの装置においては、用途に応じて、
種々の電子辞書が利用される。
【0003】電子辞書は、基本的には明確に定義された
不変的な規則が存在していることから、一般に、あらか
じめ製品メーカ側で作成されて供給される。ユーザが日
常的に使用する言語については、ユーザが電子辞書への
登録を行うようになっており、これにより、各種自然言
語処理の精度を一層向上させることができる。
【0004】最近、未知語のユーザ辞書への登録を自動
化する辞書構築支援装置が研究されている。従来の辞書
構築支援装置においては、入力された文章を形態素解析
することで未知語を抽出する。そして、形態素解析結果
が単語辞書に存在しない場合には、この形態素解析部分
を未知語と判断する。また、文法的接続が禁止された部
分についても未知語と判断する。これらの抽出した未知
語についてユーザ辞書への登録を行うのである。
【0005】
【発明が解決しようとする課題】しかしながら、解析対
象文の質によっては、形態素解析が正しく行われないこ
とがある。例えば、ひらがなを多用した文、話し言葉を
用いた文等の文体が特殊なものついては、形態素解析が
失敗することがあり、誤った区間を未知語として抽出し
てしまうことがある。例えば、無意味なひらがな1文字
等の無効な文字列(以下、無効言語単位という)であっ
ても未知語として判断されることが考えられる。このた
め、形態素解析結果によって抽出した未知語をそのまま
ユーザ辞書に登録すると、言語として有効な言語単位だ
けでなく無効言語単位についても未知語として登録され
ることがあり、ユーザー辞書の質が低下してしまうこと
がある。
【0006】そこで、形態素解析によって抽出された未
知語を表示させ、オペレータが表示を見ながら抽出され
た未知語を登録すべきか否かを判断した後に、ユーザ辞
書への登録処理を行う方法が考えられる。しかし、この
場合には、ユーザ辞書登録のために、オペレータは膨大
な作業を行う必要があるという問題点があった。
【0007】本発明は、単語辞書の格納情報、解析対象
文書における出現回数、単語長及び文字種等に基づい
て、形態素解析結果によって抽出された未知語の信頼性
を求め、その結果に応じてユーザ辞書への登録を行うこ
とにより、オペレータの作業を著しく簡単化し、短時間
で高い品質のユーザー辞書を構築することができる辞書
構築支援方法、装置及びプログラムを提供することを目
的とする。
【0008】
【課題を解決するための手段】本発明の請求項1に係る
辞書構築支援方法は、入力された文書に対して形態素解
析を行って未知語を抽出する未知語抽出ステップと、前
記未知語抽出ステップにおいて抽出した未知語が有効言
語単位であるか否かの度合いである信頼度を算出する信
頼度算出ステップと、前記未知語抽出ステップにおいて
抽出した未知語毎に前記信頼度算出ステップの算出結果
を提示する提示ステップとを具備したものであり、本発
明の請求項5に係る辞書構築支援方法は、入力された文
書に対して形態素解析を行って未知語を抽出する未知語
抽出ステップと、前記未知語抽出ステップにおいて抽出
した未知語が有効言語単位であるか否かの度合いである
信頼度を算出する信頼度算出ステップと、前記未知語抽
出ステップにおいて抽出した未知語のうち前記信頼度算
出ステップの算出結果によって所定の閾値以上の信頼度
を有するものと示された未知語をユーザ辞書に登録する
登録ステップとを具備したものである。
【0009】本発明の請求項1においては、先ず、未知
語抽出ステップにおいて、入力された文書に対する形態
素解析によって未知語が抽出される。抽出された未知語
は、信頼度算出ステップにおいて有効言語単位であるか
否かの度合いである信頼度が算出される。提示ステップ
において、未知語毎に信頼度が提示される。提示された
信頼度を参照することで、オペレータによる辞書登録が
容易になる。
【0010】本発明の請求項5においては、未知語抽出
ステップにおいて入力された文書に対する形態素解析に
よって未知語が抽出される。信頼度算出ステップにおい
て、抽出された未知語の信頼度が算出される。所定の閾
値以上の信頼度を有する未知語については、登録ステッ
プにおいてユーザ辞書に登録される。これにより、信頼
度が高い未知語がユーザ辞書に自動登録され、高品質の
ユーザ辞書が簡単に構築される。
【0011】なお、方法に係る本発明は装置に係る発明
としても成立する。
【0012】また、方法に係る本発明は、コンピュータ
に当該発明に相当する処理を実行させるためのプログラ
ムとしても成立する。
【0013】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について詳細に説明する。図1は本発明の一実
施の形態に係る辞書登録支援装置を示すブロック図であ
る。
【0014】図1において、入力装置101はキーボー
ド、マウスポインタ或いはファイル装置等によって構成
され、文書データを出力することができるようになって
いる。入力制御部102は、入力装置101からの文書
データを取り込み、文書バッファ104に格納する。
【0015】未知語抽出手段を構成する形態素解析部1
03は、文書バッファ104に格納されている文書デー
タを1文ずつ読出し、基本単語辞書105、参照単語辞
書106、接続辞書107及び評価ルール108を参照
しながら形態素解析を行う。
【0016】本実施の形態の辞書構築支援装置は、基本
単語辞書105及び参照単語辞書106を有している。
基本単語辞書105は電子辞書を利用する装置(以下、
電子辞書利用装置という)において通常使用されるシス
テム単語が格納されている。一方、参照単語辞書106
は、未知語登録のために用いられるもので、大語彙セッ
トの単語辞書であり、電子辞書利用装置において通常備
えられているものではない。
【0017】従って、基本単語辞書105にはなく参照
単語辞書106にのみ存在する単語は、電子辞書利用装
置にとって未知語となる。これらの基本単語辞書105
及び参照単語辞書106は、各単語毎に見出し及び品詞
等の形態素解析に必要な情報を有していると共に、各単
語が一般にどの程度使用されるかを示す頻度情報も有し
ている。なお、これらの2つの辞書105,106は、
一体化されてフラグ等で単語が識別できる状態であって
もよい。
【0018】接続辞書107には隣接する品詞間の文法
的な接続の可否のルールが格納されている。また、評価
ルール108には複数の単語系列から最も日本語として
正しくなる系列を選び出すためのルールが格納されてい
る。形態素解析部103は、形態素解析結果となる単語
系列を単語列バッファ110に格納する。
【0019】単語列バッファ110には、形態素解析部
103によって、2つの辞書105,106に登録され
ている単語については、各単語の辞書格納情報が格納さ
れ、2つの辞書105,106に未登録の単語について
は、形態素解析によって得られた見出し及び品詞等が格
納される。
【0020】形態素解析部103と共に未知語抽出手段
を構成する未知語検出部109は、単語列バッファ11
0に格納された単語のうち、参照単語辞書106から検
索された単語と辞書105,106のいずれにも登録さ
れていない単語とを未知語と判断する。未知語検出部1
09は単語列バッファ110に格納された単語のうち未
知語を順次読み出して未知語バッファ111に格納す
る。未知語バッファ111は単語情報の他に各単語毎に
出現カウンタを保持している。未知語検出部109は、
読み出した未知語が未知語バッファ111に既に格納済
みか否かを調査し、既に格納済みの場合には出現カウン
タをインクリメントし、未格納である場合には新規に未
知語バッファ111に格納する。なお、出現カウンタは
単語の出現毎に1つずつインクリメントする。
【0021】こうして、未知語バッファ111には、未
知語について、単語列バッファ110から読み出した情
報及び出現回数の情報が記憶される。本実施の形態にお
いては、未知語検出部109は、未知語バッファ111
に格納された情報に基づいて、各未知語毎に信頼度を算
出する。そして、未知語検出部109は、算出した信頼
度を例えば予め定めた複数段階の信頼度レベルに分類し
て各未知語に付与し、未知語バッファ111に記憶させ
るようになっている。なお、未知語検出部109は、信
頼度レベルとして数値を用いてもよく、また、“高”、
“中”、“低”等の語句を用いてもよい。
【0022】未知語検出部109は、信頼度の算出方法
として、単語長、活用の有無、文字種、参照単語辞書1
06からの抽出語であるか否か、辞書106の登録語の
場合には辞書内の頻度情報等を用い、これらの項目に対
する重み付けによって決定するようになっている。
【0023】未知語検出部109は、全ての未知語に対
する信頼度レベル付けが終了すると、未知語バッファ1
11に格納されてい各単語のデータ及び信頼度レベルを
出力装置112に出力する。出力装置112は図示しな
い表示画面を有しており、未知語検出部109からの検
出結果を表示画面上に表示するようになっている。出力
装置112は、信頼度レベルの表示方法として、信頼度
レベルを示す数値を表示してもよく、また、その数値を
適宜丸めた例えば「信頼度−高」、「信頼度−中」、
「信頼度−低」、「要確認」等の表示を行ってもよい。
【0024】次に、このように構成された実施の形態の
動作について図2乃至図4を参照して説明する。図2は
未知語を抽出する際の処理の流れを示すフローチャート
である。図3は未知語に対する信頼度の算出方法を示す
フローチャートである。図4は図1中の未知語バッファ
111の未知語の格納例を示す説明図である。
【0025】図2のステップ201において、入力装置
101から入力された文書データは、入力制御部102
によって順次文書バッファ104に格納される。なお、
文書データの入力は、ファイルからの読み込み、キーボ
ード等からの直接入力、クリップボードからの貼り付け
等の何れの方法でもよい。
【0026】文書入力が終了して、オペレータが未知語
抽出の指示を入力装置101に対して行うと、入力制御
部102は形態素解析部103に対して入力文の解析開
始を指示する(ステップ202)。形態素解析部103
は、文書バッファ104から1文を抽出し(ステップ2
03)、基本単語辞書105、参照単語辞書106、接
続辞書107及び評価ルール108を参照して形態素解
析を行い(ステップ204)、形態素解析結果である各
単語を単語列バッファ110に格納する(ステップ20
5)。
【0027】ステップ203からステップ205の処理
は文書バッファ104に格納されている入力文が終了す
るまで繰り返される(ステップ206)。全ての入力文
に対しての形態素解析が終了すると、未知語検出部10
8は、カウンタnに0をセットし(ステップ207)、
単語列バッファ110に格納されているn番目の単語
(以下、単語nという)を読み出す(ステップ20
8)。
【0028】単語nが基本単語辞書105の検索によっ
て抽出された単語である場合には、未知語検出部109
はこのn番目の単語は未知語ではないものと判断して、
処理をステップ209からステップ216に移行して、
カウンタnをインクリメントする。次に、全ての単語に
ついての未知語判定が終了していなければ次の単語の取
得を行う(ステップ208)。
【0029】一方、単語nが基本単語辞書105に存在
しない場合には、ステップ209からステップ210に
処理を移行して、単語nが未知語バッファ111に格納
済みであるか否かを調査する(ステップ210)。単語
nが未知語バッファ111に未格納で、且つ参照単語辞
書106から検索された単語であった場合には(ステッ
プ211)、単語nの情報として参照単語辞書106の
見出し、品詞、出現頻度等の情報を未知語バッファ11
1に新規に格納する(ステップ212)。
【0030】また、単語nが参照単語辞書106にも存
在しない単語であった場合には、ステップ211からス
テップ213に移行して、未知語バッファ111に形態
素解析で得た見出し及び品詞を新規に格納する(ステッ
プ213)。
【0031】未知語バッファ111は単語情報の他に未
知語抽出対象とした文書中に何回単語nが出現したかを
記憶する出現カウンタを保持しており、新規格納の場合
には、出現カウンタに1をセットする(ステップ21
4)。ステップ210において、単語nが未知語バッフ
ァ111に格納済みであった場合には、未知語バッファ
111の単語nの出現カウンタを1インクリメントする
(ステップ215)。
【0032】次に、未知語検出部109は、カウンタn
をインクリメントし(ステップ216)、単語列バッフ
ァ110に格納されている全ての単語についての未知語
判定が終了するまで、ステップ208からステップ21
7の処理を繰り返し行う。
【0033】単語列バッファ110の全ての単語に対し
て未知語抽出処理が終了すると、未知語検出部109
は、未知語バッファ111に格納した未知語を順に調査
し、参照単語辞書の有無、出現頻度、出現カウンタ、単
語長、品詞、見出し文字種等の全て又は一部から信頼度
を算出して信頼度レベルを付与する(ステップ21
8)。
【0034】図3は信頼度の算出方法を示している。
【0035】未知語検出部109は、未知語バッファ1
11に格納された各語について信頼度を算出する。信頼
度は値が大きいほど抽出された未知語が有効な言語単位
であって登録すべき未知語であることを示し、信頼度が
小さいほど抽出された未知語が無効言語単位であって登
録すべきでない未知語であることを示す。
【0036】未知語検出部109は、先ずステップ30
1において、信頼度(L)を初期値0にする。次に、算
出対象の未知語が参照単語辞書106から検索された単
語である場合には、信頼度Lに1000を加算する(ス
テップ302、303)。次に、算出対象の単語の参照
単語辞書106内の頻度情報に100を乗じた値をLに
加算する(ステップ304)。未知語が参照単語辞書1
06に存在した単語であることによって、ステップ30
3,304では、比較的高い得点が信頼度Lに加算さ
れ、有効言語単位である確率が高いことが示される。
【0037】次のステップ305においては、算出対象
の未知語が参照単語辞書106に格納されていた単語で
あるか否かに拘わらず、未知語抽出対象文内に算出対象
未知語が何度出現したかを示す出現カウンタの値に10
乗じた値を、信頼度Lに加算する(ステップ305)。
即ち、文章中の出現回数が多い場合には、算出対象の未
知語が有効言語単位である可能性が高いことを示してい
る。
【0038】次に、算出対象未知語が用言であるか体言
であるかを判定し(ステップ306)、用言の場合には
更に活用語尾があるか否かを調べる(ステップ30
7)。語尾がある場合には算出対象の未知語が有効言語
単位である可能性が高いので、Lに5を加算する(ステ
ップ308)。
【0039】一方、算出対象の単語がステップ306に
おいて用言でないと判定された場合であっても、固有名
詞であって且つ固有接辞への接続がある場合(ステップ
309、310)、例えば未知語の品詞が地名で次に続
く単語の品詞が地名接尾であるような場合には、未知語
が有効言語単位である可能性が高いのでLに2を加算す
る(ステップ311)。
【0040】次に、ステップ312において、未知語の
文字数を調べ文字数の2乗をLに加算する。文字が長い
ほど有効言語単位である可能性が高い。しかも、文字の
長さと有効の度合いは指数関数的に変化すると考えられ
るので、ステップ312において文字数の2乗を得点と
して信頼度に加算する。
【0041】最後に、ステップ313において、文字種
が英字、記号、カタカナの何れかのみで構成されている
か否かを判定する。通常、同一文字種が連続する場合に
は、有効言語単位である可能性が高い。そこで、同一文
字種が連続して構成された単語の場合には、Lに2を加
算する(ステップ314)。
【0042】未知語検出部109は、未知語バッファ1
11の算出対象の未知語の信頼度Lを例えば4段階にク
ラス分けする。そして、最も信頼度が高い信頼度レベル
を“1”とし、最も信頼度が低い信頼度レベルを4とし
て、信頼度Lを1〜4の4つの信頼度レベルに分類し、
各未知語毎に信頼度レベルを付与する。
【0043】図4は未知語バッファ111の格納例を示
している。
【0044】例えば、未知語バッファ111に格納され
ている未知語「安め」は、参照単語辞書106に単語I
Dがf3d1として登録されており、辞書内の頻度情報
が8で、対象となった文章中に2回出現しており、形容
動詞で活用が無いことが示されている。この未知語「安
め」の信頼度レベルは1で、有効言語単位である可能性
が極めて高いことが示される。
【0045】逆に、未知語バッファ111に格納されて
いる未知語「ヴァレー」は、対象文章中に1回出現し、
形態素解析の結果、サ変名詞で活用がないことは検出さ
れたが、参照単語辞書106に登録されておらず、信頼
度レベルは3で無効言語単位である可能性が比較的高い
ことが示されている。
【0046】抽出された全ての未知語は、図2のステッ
プ219において、未知語検出部109によって未知語
バッファ111から読み出され、見出し及び品詞に加え
て信頼度レベルが出力装置112に供給される。出力装
置112は未知語に関する入力された情報を表示画面上
に表示する。例えば、出力装置112は、図4と同様の
表示を画面上に表示してもよい。
【0047】オペレータは出力装置112の表示画面上
の表示を参考にすることで、未知語のユーザ辞書への登
録を、極めて簡単に行うことができる。
【0048】このように、本実施の形態においては、抽
出した未知語について、大語彙セットの参照単語辞書に
登録されているか否か、辞書に登録されている頻度情
報、文章中の出現回数、単語長、品詞、見出し文字種等
を用いてその信頼度を算出して表示することで、未知語
が有効言語単位であるか無効言語単位であるかを判断し
やすくしており、高品質のユーザ辞書を容易に構築する
ことを可能にしている。そして、信頼度の算出に際し
て、電子辞書利用装置に備えられる基本単語辞書だけで
なく、未知語登録のための大語彙セットである参照単語
辞書を用いており、参照単語辞書に登録されているか否
かによって有効言語単位であるか無効言語単位であるか
の判定の正確性を向上させている。
【0049】図5は本発明の第2の実施の形態を示すブ
ロック図である。図5において図1と同一の構成要素に
は同一符号を付して説明を省略する。
【0050】第1の実施の形態においては、未知語の信
頼度を表示画面上に表示させることで、オペレータのユ
ーザ辞書の構築を容易にした。本実施の形態は所定レベ
ル以上の信頼度の未知語のみを表示させると共に、表示
させる信頼度の範囲を設定可能にし、更に、設定未知語
の信頼度に応じて、有効言語単位と考えられる未知語を
自動的にユーザ辞書に登録するようにしたものである。
【0051】本実施の形態は、未知語検出部109に代
えて未知語検出部509を採用すると共に、検出レベル
調整部512、未知語登録部513、未知語編集部51
4及びユーザ辞書515を付加した点が第1の実施の形
態と異なる。
【0052】検出レベル調整部512は、未知語検出部
509に制御されて、有効言語単位であるか否かの決定
又は表示させるか否かの決定に用いる信頼度レベルの閾
値(以下、検出レベルという)を設定するようになって
いる。なお、検出レベルは入力装置101によってオペ
レータが適宜設定可能である。
【0053】未知語検出部509は、図1の未知語検出
部109と同様の手法によって、未知語の信頼度を算出
すると共に、入力装置101によって未知語を表示させ
るための指示が与えられると、検出レベル調整部512
によって設定された検出レベル以上の値を有する未知語
のみを未知語バッファ111から読み出して、出力装置
112に出力するようになっている。
【0054】また、未知語の画面表示中に、入力装置1
01によって検出レベルの設定変更の指示が発生した場
合には、未知語検出部509は、変更された検出レベル
に従って未知語バッファ111からの未知語の抽出をや
り直し、変更後の検出レベル以上の値を有する未知語を
出力装置112に出力する。
【0055】本実施の形態においては、未知語登録部5
13は、検出レベル以上の信頼度レベルを有する未知語
をユーザ辞書515に自動的に登録することができるよ
うになっている。例えば、未知語登録部513は、未知
語検出終了後或いは未知語表示後に、入力装置101か
ら未知語の登録指示があった場合には、検出レベル調整
部512によって設定された検出レベル以上の値を有す
る未知語を未知語バッファ111から順次読み出し、ユ
ーザ辞書515に登録する。
【0056】また、本実施の形態においては、ユーザ辞
書に登録する未知語を適宜編集することも可能である。
例えば、未知語編集部514は、未知語表示中に入力装
置101から任意の未知語を指定した上で修正指示があ
った場合には、修正指示に応じて対象の未知語の情報を
表示と共に修正し、修正した内容を未知語バッファ11
1に書き込む。これにより、オペレータは、表示された
未知語の見出し及び品詞等を適宜修正して、未知語バッ
ファ111に記憶させることができる。
【0057】次に、このように構成された実施の形態の
動作について図6及び図7を参照して説明する。図6は
未知語の抽出・登録処理をする際の処理の流れを示すフ
ローチャートである。また、図7は図4の未知語に対し
て検出レベルの指定を行った上で一覧表示を指示した場
合の画面表示例を示す説明図である。
【0058】図6のステップ601において、オペレー
タが入力装置101から未知語検出レベルの調整を指示
すると、検出レベル調整部512は出力装置112の表
示画面上にスライドバー等のGUI表示を行う。オペレ
ータはこのGUI表示を利用して、任意の検出レベルを
選択する。検出レベル調整部512は、新たに設定され
た検出レベルを保持する(ステップ602)。
【0059】いま、未知語検出部509によって、検出
済み未知語の一覧が出力装置112の表示画面上に表示
中であるものとする。この場合には、ステップ603か
らステップ604に処理を移行して、一旦一覧表示を消
去する(ステップ604)。次に、未知語検出部509
は、再度、未知語バッファ111から検出レベル調整部
512に設定された検出レベル以上の値を有する未知語
を抽出し(ステップ605)、出力装置112の表示画
面上に表示させる(ステップ606)。なお、ステップ
603において未知語が表示中でないものと判断された
場合には、オペレータの指示待ちとなる。
【0060】図7は図4の未知語に対して、検出レベル
の指定を行った上で一覧表示を指示した場合の画面表示
例を示している。図7(a)は図4の未知語のうち信頼
度レベルが2又は1の未知語を表示した例を示してい
る。また、図7(b)は図4の未知語のうち信頼度レベ
ルが1〜3の未知語を表示した例を示している。なお、
図7(a)の表示が表示されている状態において、未知
語の検出レベルを信頼度レベル3に設定変更すると、画
面表示も図7(b)に示す表示に切換る。
【0061】オペレータの指示が検出レベルの調整では
なく、未知語の抽出であった場合には、ステップ607
から処理をステップ608に移行し、ステップ608〜
ステップ612において、図2と同様の未知語処理を行
う。即ち、形態素解析部103は、基本単語辞書10
5、参照単語辞書106、接続辞書107、評価ルール
108を用いて、文書バッファ104に格納された文書
を順次読み出して形態素解析し(ステップ608)、そ
の結果となる単語列を単語列バッファ110に格納する
(ステップ609)。
【0062】全ての文書の解析が終了すると、未知語検
出部509は単語列バッファ110から未知語を選択し
て、その単語の出現回数をカウントし(ステップ61
0)、辞書格納の有無、出現回数及び単語長等から求め
た信頼度レベルを付与する(ステップ611)。信頼度
レベルが付与された未知語情報は他の単語情報と共に未
知語バッファ111に格納される(ステップ612)。
【0063】オペレータの指示が未知語表示であった場
合には、ステップ613からステップ605に処理を移
行して、未知語検出部509は、未知語バッファ111
から検出レベル調整部512に設定された検出レベル以
上の値の未知語を抽出して(ステップ605)、出力装
置112の表示画面上に表示させる(ステップ60
6)。
【0064】オペレータの指示が表示中の未知語の修正
指示であった場合には、処理をステップ614からステ
ップ615に移行する。この場合には、未知語編集部5
14は、指定された未知語の情報を未知語バッファ11
1から読み出して画面上に表示させる(ステップ61
5)。オペレータは、表示された未知語の単語情報の必
要な部分を修正する(ステップ616)。修正が終了す
ると、未知語編集部514は修正された未知語の情報を
未知語バッファ111内の当該未知語のレコードに上書
きする(ステップ617)。
【0065】オペレータの指示が未知語の登録であった
場合には、ステップ618からステップ619に処理を
移行する。この場合には、未知語登録部513は、未知
語バッファ111から検出レベル調整部512に設定さ
れた検出レベル以上の値の未知語を抽出し(ステップ6
19)、ユーザ辞書515に順次登録する(ステップ6
20)。
【0066】なお、登録する未知語は特に画面上に表示
されている必要はなく、未知語抽出と未知語登録とを一
括で行ってもよい。未知語登録部513は、ユーザ辞書
に登録した未知語を未知語バッファ111から削除する
(ステップ621)。
【0067】このように、本実施の形態においては、所
定の信頼度以上の未知語を抽出するための設定を可能に
して、抽出した未知語のみを画面上に表示させること
で、ユーザの登録作業を容易にしている。更に、所定の
信頼度以上の未知語については、自動的にユーザ辞書に
登録することも可能である。これにより、ユーザの煩雑
な操作を必要とすることなく、高い品質のユーザ辞書が
構築可能である。また、登録すべきか否かを信頼度レベ
ルによって自由に設定可能で、また、登録する未知語の
情報も自由に変更可能であり、辞書構築の自由度が高
い。
【0068】なお、本発明は上記実施の形態に限定され
るものではなく、種々の応用,変形が可能である。例え
ば、形態素解析を対象としているが、文解析に形態素解
析を用いる音声あるいは文字認識、音声読み上げ、翻
訳、カナ漢字変換等に応用可能である。また、音声認識
に適用する場合には、基本単語辞書は音声認識用のシス
テム辞書と同語彙の形態素解析用辞書、参照単語辞書は
形態素解析辞書以外の大語彙辞書とし、未知語情報とし
ての見出し・品詞の他に発音あるいは読み等の情報を参
照辞書上に格納しておくか、あるいは単漢字辞書等を用
意し、適当な読みを付与すればよい。
【0069】
【発明の効果】以上説明したように本発明によれば、単
語辞書の格納情報、解析対象文書における出現回数、単
語長及び文字種等に基づいて、形態素解析結果によって
抽出された未知語の信頼性を求め、その結果に応じてユ
ーザ辞書への登録を行うことにより、オペレータの作業
を著しく簡単化し、短時間で高い品質のユーザー辞書を
構築することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る辞書登録支援装置
を示すブロック図。
【図2】未知語を抽出する際の処理の流れを示すフロー
チャート。
【図3】未知語に対する信頼度の算出方法を示すフロー
チャート。
【図4】図1中の未知語バッファ111の未知語の格納
例を示す説明図。
【図5】本発明の第2の実施の形態を示すブロック図。
【図6】未知語の抽出・登録処理をする際の処理の流れ
を示すフローチャート。
【図7】図4の未知語に対して検出レベルの指定を行っ
た上で一覧表示を指示した場合の画面表示例を示す説明
図。
【符号の説明】
101…入力装置、103…形態素解析部、105…基
本単語辞書、106…参照単語辞書、109…未知語検
出部、111…未知語バッファ、112…出力装置。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書に対して形態素解析を行
    って未知語を抽出する未知語抽出ステップと、 前記未知語抽出ステップにおいて抽出した未知語が有効
    言語単位であるか否かの度合いである信頼度を算出する
    信頼度算出ステップと、 前記未知語抽出ステップにおいて抽出した未知語毎に前
    記信頼度算出ステップの算出結果を提示する提示ステッ
    プとを具備したことを特徴とする辞書構築支援方法。
  2. 【請求項2】 前記未知語抽出ステップは、基本単語辞
    書と前記基本単語辞書よりも格納する語彙数が多い参照
    単語辞書とを用いた形態素解析を行い、前記基本単語辞
    書に未登録で前記参照単語辞書にのみ登録されている単
    語及び前記基本単語辞書及び参照単語辞書のいずれにも
    登録されていない単語を未知語と判定することを特徴と
    する請求項1に記載の辞書構築支援方法。
  3. 【請求項3】 前記信頼度算出ステップは、前記未知語
    が前記参照単語辞書に登録されているか否かに基づいて
    前記信頼度を算出することを特徴とする請求項2に記載
    の辞書構築支援方法。
  4. 【請求項4】 前記信頼度算出ステップは、前記未知語
    抽出ステップにおいて抽出した未知語について、前記入
    力された文書内の出現回数、固有接辞の有無、用言の語
    尾の有無、文字数及び文字種のうちの少なくとも1つの
    情報に基づいて信頼度を算出することを特徴とする請求
    項1に記載の辞書構築支援方法。
  5. 【請求項5】 入力された文書に対して形態素解析を行
    って未知語を抽出する未知語抽出ステップと、 前記未知語抽出ステップにおいて抽出した未知語が有効
    言語単位であるか否かの度合いである信頼度を算出する
    信頼度算出ステップと、 前記未知語抽出ステップにおいて抽出した未知語のうち
    前記信頼度算出ステップの算出結果によって所定の閾値
    以上の信頼度を有するものと示された未知語をユーザ辞
    書に登録する登録ステップとを具備したことを特徴とす
    る辞書構築支援方法。
  6. 【請求項6】 前記提示ステップは、前記信頼度算出ス
    テップの算出結果によって所定の閾値以上の信頼度を有
    するものと示された未知語のみを提示することを特徴と
    する請求項1に記載の辞書構築支援方法。
  7. 【請求項7】 前記提示ステップは、前記所定の閾値を
    ユーザ操作によって設定するステップを含むことを特徴
    とする請求項5又は6のいずれか一方に記載の辞書構築
    支援方法。
  8. 【請求項8】 前記提示ステップは、提示された前記未
    知語に関する情報を修正するステップを含むことを特徴
    とする請求項6に記載の辞書構築支援方法。
  9. 【請求項9】 入力された文書に対して形態素解析を行
    って未知語を抽出する未知語抽出手段と、 前記未知語抽出手段が抽出した未知語が有効言語単位で
    あるか否かの度合いである信頼度を算出する信頼度算出
    手段と、 前記未知語抽出手段が抽出した未知語毎に前記信頼度算
    出手段の算出結果を提示する提示手段とを具備したこと
    を特徴とする辞書構築支援装置。
  10. 【請求項10】 入力された文書に対して形態素解析を
    行って未知語を抽出する未知語抽出手段と、 前記未知語抽出手段が抽出した未知語が有効言語単位で
    あるか否かの度合いである信頼度を算出する信頼度算出
    手段と、 前記未知語抽出手段が抽出した未知語のうち前記信頼度
    算出手段の算出結果によって所定の閾値以上の信頼度を
    有するものと示された未知語をユーザ辞書に登録する登
    録手段とを具備したことを特徴とする辞書構築支援装
    置。
  11. 【請求項11】 コンピュータに、 入力された文書に対して形態素解析を行って未知語を抽
    出する未知語抽出処理と、 前記未知語抽出処理において抽出した未知語が有効言語
    単位であるか否かの度合いである信頼度を算出する信頼
    度算出処理と、 前記未知語抽出処理において抽出した未知語毎に前記信
    頼度算出処理の算出結果を提示する提示処理とを実行さ
    せる辞書構築支援プログラム。
  12. 【請求項12】 コンピュータに、 入力された文書に対して形態素解析を行って未知語を抽
    出する未知語抽出処理と、 前記未知語抽出処理において抽出した未知語が有効言語
    単位であるか否かの度合いである信頼度を算出する信頼
    度算出処理と、 前記未知語抽出処理において抽出した未知語のうち前記
    信頼度算出処理の算出結果によって所定の閾値以上の信
    頼度を有するものと示された未知語をユーザ辞書に登録
    する登録処理とを実行させる辞書構築支援プログラム。
JP2002054442A 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム Expired - Fee Related JP3935374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002054442A JP3935374B2 (ja) 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002054442A JP3935374B2 (ja) 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2003256415A true JP2003256415A (ja) 2003-09-12
JP3935374B2 JP3935374B2 (ja) 2007-06-20

Family

ID=28665600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002054442A Expired - Fee Related JP3935374B2 (ja) 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP3935374B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118822A (ja) * 2010-12-01 2012-06-21 Internatl Business Mach Corp <Ibm> ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム
JP2012256354A (ja) * 2005-10-22 2012-12-27 Internatl Business Mach Corp <Ibm> ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256354A (ja) * 2005-10-22 2012-12-27 Internatl Business Mach Corp <Ibm> ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良)
JP2012118822A (ja) * 2010-12-01 2012-06-21 Internatl Business Mach Corp <Ibm> ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム

Also Published As

Publication number Publication date
JP3935374B2 (ja) 2007-06-20

Similar Documents

Publication Publication Date Title
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US20070179779A1 (en) Language information translating device and method
US7136803B2 (en) Japanese virtual dictionary
JP2007072594A (ja) 翻訳装置、翻訳方法および翻訳プログラム、媒体
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP2003256415A (ja) 辞書構築支援方法、装置及びプログラム
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
KR102523767B1 (ko) Bleu 스코어를 기초로 유사 문장에 대한 검색을 수행하는 전자 장치 및 그 동작 방법
JP2010211004A (ja) 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP3132058B2 (ja) 文章検査装置
JP2776069B2 (ja) 文章検査装置
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JPH1139347A (ja) テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体
JP2002297585A (ja) 英文名詞句の区分方法,英文構文情報生成方法および装置
JP2004185641A (ja) 対訳例文検索装置
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2009098328A (ja) 音声合成装置及び方法
JP3118880B2 (ja) 日本語文章処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070319

LAPS Cancellation because of no payment of annual fees