JP2003256415A

JP2003256415A - 辞書構築支援方法、装置及びプログラム

Info

Publication number: JP2003256415A
Application number: JP2002054442A
Authority: JP
Inventors: Masato Yajima; 真人矢島; Yukihiro Fukunaga; 幸弘福永
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-02-28
Filing date: 2002-02-28
Publication date: 2003-09-12
Anticipated expiration: 2022-02-28
Also published as: JP3935374B2

Abstract

(57)【要約】【課題】高品質なユーザ辞書を簡単な作業で得る。【解決手段】形態素解析部１０３は、基本単語辞書１０
５及び参照単語辞書１０６を用いて形態素解析を行う。
未知語検出部１０９は形態素解析結果のうち基本単語辞
書１０５に登録されていない単語を未知語と判定する。
未知語検出部１０９は、未知語について、参照単語辞書
１０６に登録されていたか否か、辞書に登録されている
頻度情報、文章中の出現回数、単語長、品詞、見出し文
字種等を用いてその信頼度を算出する。未知語検出部１
０９は、未知語毎にその信頼度を付して出力装置１１２
の画面上に表示させる。この表示を参照することで、ユ
ーザ辞書への登録作業を容易にさせる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザによって高
品質な電子辞書を構築可能とするための辞書構築支援方
法、装置及びプログラムに関する。

【０００２】

【従来の技術】近年、音声認識装置、音声合成装置、機
械翻訳装置等の性能が向上し、高性能の製品が多数開発
されている。これらの装置においては、用途に応じて、
種々の電子辞書が利用される。

【０００３】電子辞書は、基本的には明確に定義された
不変的な規則が存在していることから、一般に、あらか
じめ製品メーカ側で作成されて供給される。ユーザが日
常的に使用する言語については、ユーザが電子辞書への
登録を行うようになっており、これにより、各種自然言
語処理の精度を一層向上させることができる。

【０００４】最近、未知語のユーザ辞書への登録を自動
化する辞書構築支援装置が研究されている。従来の辞書
構築支援装置においては、入力された文章を形態素解析
することで未知語を抽出する。そして、形態素解析結果
が単語辞書に存在しない場合には、この形態素解析部分
を未知語と判断する。また、文法的接続が禁止された部
分についても未知語と判断する。これらの抽出した未知
語についてユーザ辞書への登録を行うのである。

【０００５】

【発明が解決しようとする課題】しかしながら、解析対
象文の質によっては、形態素解析が正しく行われないこ
とがある。例えば、ひらがなを多用した文、話し言葉を
用いた文等の文体が特殊なものついては、形態素解析が
失敗することがあり、誤った区間を未知語として抽出し
てしまうことがある。例えば、無意味なひらがな１文字
等の無効な文字列（以下、無効言語単位という）であっ
ても未知語として判断されることが考えられる。このた
め、形態素解析結果によって抽出した未知語をそのまま
ユーザ辞書に登録すると、言語として有効な言語単位だ
けでなく無効言語単位についても未知語として登録され
ることがあり、ユーザー辞書の質が低下してしまうこと
がある。

【０００６】そこで、形態素解析によって抽出された未
知語を表示させ、オペレータが表示を見ながら抽出され
た未知語を登録すべきか否かを判断した後に、ユーザ辞
書への登録処理を行う方法が考えられる。しかし、この
場合には、ユーザ辞書登録のために、オペレータは膨大
な作業を行う必要があるという問題点があった。

【０００７】本発明は、単語辞書の格納情報、解析対象
文書における出現回数、単語長及び文字種等に基づい
て、形態素解析結果によって抽出された未知語の信頼性
を求め、その結果に応じてユーザ辞書への登録を行うこ
とにより、オペレータの作業を著しく簡単化し、短時間
で高い品質のユーザー辞書を構築することができる辞書
構築支援方法、装置及びプログラムを提供することを目
的とする。

【０００８】

【課題を解決するための手段】本発明の請求項１に係る
辞書構築支援方法は、入力された文書に対して形態素解
析を行って未知語を抽出する未知語抽出ステップと、前
記未知語抽出ステップにおいて抽出した未知語が有効言
語単位であるか否かの度合いである信頼度を算出する信
頼度算出ステップと、前記未知語抽出ステップにおいて
抽出した未知語毎に前記信頼度算出ステップの算出結果
を提示する提示ステップとを具備したものであり、本発
明の請求項５に係る辞書構築支援方法は、入力された文
書に対して形態素解析を行って未知語を抽出する未知語
抽出ステップと、前記未知語抽出ステップにおいて抽出
した未知語が有効言語単位であるか否かの度合いである
信頼度を算出する信頼度算出ステップと、前記未知語抽
出ステップにおいて抽出した未知語のうち前記信頼度算
出ステップの算出結果によって所定の閾値以上の信頼度
を有するものと示された未知語をユーザ辞書に登録する
登録ステップとを具備したものである。

【０００９】本発明の請求項１においては、先ず、未知
語抽出ステップにおいて、入力された文書に対する形態
素解析によって未知語が抽出される。抽出された未知語
は、信頼度算出ステップにおいて有効言語単位であるか
否かの度合いである信頼度が算出される。提示ステップ
において、未知語毎に信頼度が提示される。提示された
信頼度を参照することで、オペレータによる辞書登録が
容易になる。

【００１０】本発明の請求項５においては、未知語抽出
ステップにおいて入力された文書に対する形態素解析に
よって未知語が抽出される。信頼度算出ステップにおい
て、抽出された未知語の信頼度が算出される。所定の閾
値以上の信頼度を有する未知語については、登録ステッ
プにおいてユーザ辞書に登録される。これにより、信頼
度が高い未知語がユーザ辞書に自動登録され、高品質の
ユーザ辞書が簡単に構築される。

【００１１】なお、方法に係る本発明は装置に係る発明
としても成立する。

【００１２】また、方法に係る本発明は、コンピュータ
に当該発明に相当する処理を実行させるためのプログラ
ムとしても成立する。

【００１３】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について詳細に説明する。図１は本発明の一実
施の形態に係る辞書登録支援装置を示すブロック図であ
る。

【００１４】図１において、入力装置１０１はキーボー
ド、マウスポインタ或いはファイル装置等によって構成
され、文書データを出力することができるようになって
いる。入力制御部１０２は、入力装置１０１からの文書
データを取り込み、文書バッファ１０４に格納する。

【００１５】未知語抽出手段を構成する形態素解析部１
０３は、文書バッファ１０４に格納されている文書デー
タを１文ずつ読出し、基本単語辞書１０５、参照単語辞
書１０６、接続辞書１０７及び評価ルール１０８を参照
しながら形態素解析を行う。

【００１６】本実施の形態の辞書構築支援装置は、基本
単語辞書１０５及び参照単語辞書１０６を有している。
基本単語辞書１０５は電子辞書を利用する装置（以下、
電子辞書利用装置という）において通常使用されるシス
テム単語が格納されている。一方、参照単語辞書１０６
は、未知語登録のために用いられるもので、大語彙セッ
トの単語辞書であり、電子辞書利用装置において通常備
えられているものではない。

【００１７】従って、基本単語辞書１０５にはなく参照
単語辞書１０６にのみ存在する単語は、電子辞書利用装
置にとって未知語となる。これらの基本単語辞書１０５
及び参照単語辞書１０６は、各単語毎に見出し及び品詞
等の形態素解析に必要な情報を有していると共に、各単
語が一般にどの程度使用されるかを示す頻度情報も有し
ている。なお、これらの２つの辞書１０５，１０６は、
一体化されてフラグ等で単語が識別できる状態であって
もよい。

【００１８】接続辞書１０７には隣接する品詞間の文法
的な接続の可否のルールが格納されている。また、評価
ルール１０８には複数の単語系列から最も日本語として
正しくなる系列を選び出すためのルールが格納されてい
る。形態素解析部１０３は、形態素解析結果となる単語
系列を単語列バッファ１１０に格納する。

【００１９】単語列バッファ１１０には、形態素解析部
１０３によって、２つの辞書１０５，１０６に登録され
ている単語については、各単語の辞書格納情報が格納さ
れ、２つの辞書１０５，１０６に未登録の単語について
は、形態素解析によって得られた見出し及び品詞等が格
納される。

【００２０】形態素解析部１０３と共に未知語抽出手段
を構成する未知語検出部１０９は、単語列バッファ１１
０に格納された単語のうち、参照単語辞書１０６から検
索された単語と辞書１０５，１０６のいずれにも登録さ
れていない単語とを未知語と判断する。未知語検出部１
０９は単語列バッファ１１０に格納された単語のうち未
知語を順次読み出して未知語バッファ１１１に格納す
る。未知語バッファ１１１は単語情報の他に各単語毎に
出現カウンタを保持している。未知語検出部１０９は、
読み出した未知語が未知語バッファ１１１に既に格納済
みか否かを調査し、既に格納済みの場合には出現カウン
タをインクリメントし、未格納である場合には新規に未
知語バッファ１１１に格納する。なお、出現カウンタは
単語の出現毎に１つずつインクリメントする。

【００２１】こうして、未知語バッファ１１１には、未
知語について、単語列バッファ１１０から読み出した情
報及び出現回数の情報が記憶される。本実施の形態にお
いては、未知語検出部１０９は、未知語バッファ１１１
に格納された情報に基づいて、各未知語毎に信頼度を算
出する。そして、未知語検出部１０９は、算出した信頼
度を例えば予め定めた複数段階の信頼度レベルに分類し
て各未知語に付与し、未知語バッファ１１１に記憶させ
るようになっている。なお、未知語検出部１０９は、信
頼度レベルとして数値を用いてもよく、また、“高”、
“中”、“低”等の語句を用いてもよい。

【００２２】未知語検出部１０９は、信頼度の算出方法
として、単語長、活用の有無、文字種、参照単語辞書１
０６からの抽出語であるか否か、辞書１０６の登録語の
場合には辞書内の頻度情報等を用い、これらの項目に対
する重み付けによって決定するようになっている。

【００２３】未知語検出部１０９は、全ての未知語に対
する信頼度レベル付けが終了すると、未知語バッファ１
１１に格納されてい各単語のデータ及び信頼度レベルを
出力装置１１２に出力する。出力装置１１２は図示しな
い表示画面を有しており、未知語検出部１０９からの検
出結果を表示画面上に表示するようになっている。出力
装置１１２は、信頼度レベルの表示方法として、信頼度
レベルを示す数値を表示してもよく、また、その数値を
適宜丸めた例えば「信頼度−高」、「信頼度−中」、
「信頼度−低」、「要確認」等の表示を行ってもよい。

【００２４】次に、このように構成された実施の形態の
動作について図２乃至図４を参照して説明する。図２は
未知語を抽出する際の処理の流れを示すフローチャート
である。図３は未知語に対する信頼度の算出方法を示す
フローチャートである。図４は図１中の未知語バッファ
１１１の未知語の格納例を示す説明図である。

【００２５】図２のステップ２０１において、入力装置
１０１から入力された文書データは、入力制御部１０２
によって順次文書バッファ１０４に格納される。なお、
文書データの入力は、ファイルからの読み込み、キーボ
ード等からの直接入力、クリップボードからの貼り付け
等の何れの方法でもよい。

【００２６】文書入力が終了して、オペレータが未知語
抽出の指示を入力装置１０１に対して行うと、入力制御
部１０２は形態素解析部１０３に対して入力文の解析開
始を指示する（ステップ２０２）。形態素解析部１０３
は、文書バッファ１０４から１文を抽出し（ステップ２
０３）、基本単語辞書１０５、参照単語辞書１０６、接
続辞書１０７及び評価ルール１０８を参照して形態素解
析を行い（ステップ２０４）、形態素解析結果である各
単語を単語列バッファ１１０に格納する（ステップ２０
５）。

【００２７】ステップ２０３からステップ２０５の処理
は文書バッファ１０４に格納されている入力文が終了す
るまで繰り返される（ステップ２０６）。全ての入力文
に対しての形態素解析が終了すると、未知語検出部１０
８は、カウンタｎに０をセットし（ステップ２０７）、
単語列バッファ１１０に格納されているｎ番目の単語
（以下、単語ｎという）を読み出す（ステップ２０
８）。

【００２８】単語ｎが基本単語辞書１０５の検索によっ
て抽出された単語である場合には、未知語検出部１０９
はこのｎ番目の単語は未知語ではないものと判断して、
処理をステップ２０９からステップ２１６に移行して、
カウンタｎをインクリメントする。次に、全ての単語に
ついての未知語判定が終了していなければ次の単語の取
得を行う（ステップ２０８）。

【００２９】一方、単語ｎが基本単語辞書１０５に存在
しない場合には、ステップ２０９からステップ２１０に
処理を移行して、単語ｎが未知語バッファ１１１に格納
済みであるか否かを調査する（ステップ２１０）。単語
ｎが未知語バッファ１１１に未格納で、且つ参照単語辞
書１０６から検索された単語であった場合には（ステッ
プ２１１）、単語ｎの情報として参照単語辞書１０６の
見出し、品詞、出現頻度等の情報を未知語バッファ１１
１に新規に格納する（ステップ２１２）。

【００３０】また、単語ｎが参照単語辞書１０６にも存
在しない単語であった場合には、ステップ２１１からス
テップ２１３に移行して、未知語バッファ１１１に形態
素解析で得た見出し及び品詞を新規に格納する（ステッ
プ２１３）。

【００３１】未知語バッファ１１１は単語情報の他に未
知語抽出対象とした文書中に何回単語ｎが出現したかを
記憶する出現カウンタを保持しており、新規格納の場合
には、出現カウンタに１をセットする（ステップ２１
４）。ステップ２１０において、単語ｎが未知語バッフ
ァ１１１に格納済みであった場合には、未知語バッファ
１１１の単語ｎの出現カウンタを１インクリメントする
（ステップ２１５）。

【００３２】次に、未知語検出部１０９は、カウンタｎ
をインクリメントし（ステップ２１６）、単語列バッフ
ァ１１０に格納されている全ての単語についての未知語
判定が終了するまで、ステップ２０８からステップ２１
７の処理を繰り返し行う。

【００３３】単語列バッファ１１０の全ての単語に対し
て未知語抽出処理が終了すると、未知語検出部１０９
は、未知語バッファ１１１に格納した未知語を順に調査
し、参照単語辞書の有無、出現頻度、出現カウンタ、単
語長、品詞、見出し文字種等の全て又は一部から信頼度
を算出して信頼度レベルを付与する（ステップ２１
８）。

【００３４】図３は信頼度の算出方法を示している。

【００３５】未知語検出部１０９は、未知語バッファ１
１１に格納された各語について信頼度を算出する。信頼
度は値が大きいほど抽出された未知語が有効な言語単位
であって登録すべき未知語であることを示し、信頼度が
小さいほど抽出された未知語が無効言語単位であって登
録すべきでない未知語であることを示す。

【００３６】未知語検出部１０９は、先ずステップ３０
１において、信頼度（Ｌ）を初期値０にする。次に、算
出対象の未知語が参照単語辞書１０６から検索された単
語である場合には、信頼度Ｌに１０００を加算する（ス
テップ３０２、３０３）。次に、算出対象の単語の参照
単語辞書１０６内の頻度情報に１００を乗じた値をＬに
加算する（ステップ３０４）。未知語が参照単語辞書１
０６に存在した単語であることによって、ステップ３０
３，３０４では、比較的高い得点が信頼度Ｌに加算さ
れ、有効言語単位である確率が高いことが示される。

【００３７】次のステップ３０５においては、算出対象
の未知語が参照単語辞書１０６に格納されていた単語で
あるか否かに拘わらず、未知語抽出対象文内に算出対象
未知語が何度出現したかを示す出現カウンタの値に１０
乗じた値を、信頼度Ｌに加算する（ステップ３０５）。
即ち、文章中の出現回数が多い場合には、算出対象の未
知語が有効言語単位である可能性が高いことを示してい
る。

【００３８】次に、算出対象未知語が用言であるか体言
であるかを判定し（ステップ３０６）、用言の場合には
更に活用語尾があるか否かを調べる（ステップ３０
７）。語尾がある場合には算出対象の未知語が有効言語
単位である可能性が高いので、Ｌに５を加算する（ステ
ップ３０８）。

【００３９】一方、算出対象の単語がステップ３０６に
おいて用言でないと判定された場合であっても、固有名
詞であって且つ固有接辞への接続がある場合（ステップ
３０９、３１０）、例えば未知語の品詞が地名で次に続
く単語の品詞が地名接尾であるような場合には、未知語
が有効言語単位である可能性が高いのでＬに２を加算す
る（ステップ３１１）。

【００４０】次に、ステップ３１２において、未知語の
文字数を調べ文字数の２乗をＬに加算する。文字が長い
ほど有効言語単位である可能性が高い。しかも、文字の
長さと有効の度合いは指数関数的に変化すると考えられ
るので、ステップ３１２において文字数の２乗を得点と
して信頼度に加算する。

【００４１】最後に、ステップ３１３において、文字種
が英字、記号、カタカナの何れかのみで構成されている
か否かを判定する。通常、同一文字種が連続する場合に
は、有効言語単位である可能性が高い。そこで、同一文
字種が連続して構成された単語の場合には、Ｌに２を加
算する（ステップ３１４）。

【００４２】未知語検出部１０９は、未知語バッファ１
１１の算出対象の未知語の信頼度Ｌを例えば４段階にク
ラス分けする。そして、最も信頼度が高い信頼度レベル
を“１”とし、最も信頼度が低い信頼度レベルを４とし
て、信頼度Ｌを１〜４の４つの信頼度レベルに分類し、
各未知語毎に信頼度レベルを付与する。

【００４３】図４は未知語バッファ１１１の格納例を示
している。

【００４４】例えば、未知語バッファ１１１に格納され
ている未知語「安め」は、参照単語辞書１０６に単語Ｉ
Ｄがｆ３ｄ１として登録されており、辞書内の頻度情報
が８で、対象となった文章中に２回出現しており、形容
動詞で活用が無いことが示されている。この未知語「安
め」の信頼度レベルは１で、有効言語単位である可能性
が極めて高いことが示される。

【００４５】逆に、未知語バッファ１１１に格納されて
いる未知語「ヴァレー」は、対象文章中に１回出現し、
形態素解析の結果、サ変名詞で活用がないことは検出さ
れたが、参照単語辞書１０６に登録されておらず、信頼
度レベルは３で無効言語単位である可能性が比較的高い
ことが示されている。

【００４６】抽出された全ての未知語は、図２のステッ
プ２１９において、未知語検出部１０９によって未知語
バッファ１１１から読み出され、見出し及び品詞に加え
て信頼度レベルが出力装置１１２に供給される。出力装
置１１２は未知語に関する入力された情報を表示画面上
に表示する。例えば、出力装置１１２は、図４と同様の
表示を画面上に表示してもよい。

【００４７】オペレータは出力装置１１２の表示画面上
の表示を参考にすることで、未知語のユーザ辞書への登
録を、極めて簡単に行うことができる。

【００４８】このように、本実施の形態においては、抽
出した未知語について、大語彙セットの参照単語辞書に
登録されているか否か、辞書に登録されている頻度情
報、文章中の出現回数、単語長、品詞、見出し文字種等
を用いてその信頼度を算出して表示することで、未知語
が有効言語単位であるか無効言語単位であるかを判断し
やすくしており、高品質のユーザ辞書を容易に構築する
ことを可能にしている。そして、信頼度の算出に際し
て、電子辞書利用装置に備えられる基本単語辞書だけで
なく、未知語登録のための大語彙セットである参照単語
辞書を用いており、参照単語辞書に登録されているか否
かによって有効言語単位であるか無効言語単位であるか
の判定の正確性を向上させている。

【００４９】図５は本発明の第２の実施の形態を示すブ
ロック図である。図５において図１と同一の構成要素に
は同一符号を付して説明を省略する。

【００５０】第１の実施の形態においては、未知語の信
頼度を表示画面上に表示させることで、オペレータのユ
ーザ辞書の構築を容易にした。本実施の形態は所定レベ
ル以上の信頼度の未知語のみを表示させると共に、表示
させる信頼度の範囲を設定可能にし、更に、設定未知語
の信頼度に応じて、有効言語単位と考えられる未知語を
自動的にユーザ辞書に登録するようにしたものである。

【００５１】本実施の形態は、未知語検出部１０９に代
えて未知語検出部５０９を採用すると共に、検出レベル
調整部５１２、未知語登録部５１３、未知語編集部５１
４及びユーザ辞書５１５を付加した点が第１の実施の形
態と異なる。

【００５２】検出レベル調整部５１２は、未知語検出部
５０９に制御されて、有効言語単位であるか否かの決定
又は表示させるか否かの決定に用いる信頼度レベルの閾
値（以下、検出レベルという）を設定するようになって
いる。なお、検出レベルは入力装置１０１によってオペ
レータが適宜設定可能である。

【００５３】未知語検出部５０９は、図１の未知語検出
部１０９と同様の手法によって、未知語の信頼度を算出
すると共に、入力装置１０１によって未知語を表示させ
るための指示が与えられると、検出レベル調整部５１２
によって設定された検出レベル以上の値を有する未知語
のみを未知語バッファ１１１から読み出して、出力装置
１１２に出力するようになっている。

【００５４】また、未知語の画面表示中に、入力装置１
０１によって検出レベルの設定変更の指示が発生した場
合には、未知語検出部５０９は、変更された検出レベル
に従って未知語バッファ１１１からの未知語の抽出をや
り直し、変更後の検出レベル以上の値を有する未知語を
出力装置１１２に出力する。

【００５５】本実施の形態においては、未知語登録部５
１３は、検出レベル以上の信頼度レベルを有する未知語
をユーザ辞書５１５に自動的に登録することができるよ
うになっている。例えば、未知語登録部５１３は、未知
語検出終了後或いは未知語表示後に、入力装置１０１か
ら未知語の登録指示があった場合には、検出レベル調整
部５１２によって設定された検出レベル以上の値を有す
る未知語を未知語バッファ１１１から順次読み出し、ユ
ーザ辞書５１５に登録する。

【００５６】また、本実施の形態においては、ユーザ辞
書に登録する未知語を適宜編集することも可能である。
例えば、未知語編集部５１４は、未知語表示中に入力装
置１０１から任意の未知語を指定した上で修正指示があ
った場合には、修正指示に応じて対象の未知語の情報を
表示と共に修正し、修正した内容を未知語バッファ１１
１に書き込む。これにより、オペレータは、表示された
未知語の見出し及び品詞等を適宜修正して、未知語バッ
ファ１１１に記憶させることができる。

【００５７】次に、このように構成された実施の形態の
動作について図６及び図７を参照して説明する。図６は
未知語の抽出・登録処理をする際の処理の流れを示すフ
ローチャートである。また、図７は図４の未知語に対し
て検出レベルの指定を行った上で一覧表示を指示した場
合の画面表示例を示す説明図である。

【００５８】図６のステップ６０１において、オペレー
タが入力装置１０１から未知語検出レベルの調整を指示
すると、検出レベル調整部５１２は出力装置１１２の表
示画面上にスライドバー等のＧＵＩ表示を行う。オペレ
ータはこのＧＵＩ表示を利用して、任意の検出レベルを
選択する。検出レベル調整部５１２は、新たに設定され
た検出レベルを保持する（ステップ６０２）。

【００５９】いま、未知語検出部５０９によって、検出
済み未知語の一覧が出力装置１１２の表示画面上に表示
中であるものとする。この場合には、ステップ６０３か
らステップ６０４に処理を移行して、一旦一覧表示を消
去する（ステップ６０４）。次に、未知語検出部５０９
は、再度、未知語バッファ１１１から検出レベル調整部
５１２に設定された検出レベル以上の値を有する未知語
を抽出し（ステップ６０５）、出力装置１１２の表示画
面上に表示させる（ステップ６０６）。なお、ステップ
６０３において未知語が表示中でないものと判断された
場合には、オペレータの指示待ちとなる。

【００６０】図７は図４の未知語に対して、検出レベル
の指定を行った上で一覧表示を指示した場合の画面表示
例を示している。図７（ａ）は図４の未知語のうち信頼
度レベルが２又は１の未知語を表示した例を示してい
る。また、図７（ｂ）は図４の未知語のうち信頼度レベ
ルが１〜３の未知語を表示した例を示している。なお、
図７（ａ）の表示が表示されている状態において、未知
語の検出レベルを信頼度レベル３に設定変更すると、画
面表示も図７（ｂ）に示す表示に切換る。

【００６１】オペレータの指示が検出レベルの調整では
なく、未知語の抽出であった場合には、ステップ６０７
から処理をステップ６０８に移行し、ステップ６０８〜
ステップ６１２において、図２と同様の未知語処理を行
う。即ち、形態素解析部１０３は、基本単語辞書１０
５、参照単語辞書１０６、接続辞書１０７、評価ルール
１０８を用いて、文書バッファ１０４に格納された文書
を順次読み出して形態素解析し（ステップ６０８）、そ
の結果となる単語列を単語列バッファ１１０に格納する
（ステップ６０９）。

【００６２】全ての文書の解析が終了すると、未知語検
出部５０９は単語列バッファ１１０から未知語を選択し
て、その単語の出現回数をカウントし（ステップ６１
０）、辞書格納の有無、出現回数及び単語長等から求め
た信頼度レベルを付与する（ステップ６１１）。信頼度
レベルが付与された未知語情報は他の単語情報と共に未
知語バッファ１１１に格納される（ステップ６１２）。

【００６３】オペレータの指示が未知語表示であった場
合には、ステップ６１３からステップ６０５に処理を移
行して、未知語検出部５０９は、未知語バッファ１１１
から検出レベル調整部５１２に設定された検出レベル以
上の値の未知語を抽出して（ステップ６０５）、出力装
置１１２の表示画面上に表示させる（ステップ６０
６）。

【００６４】オペレータの指示が表示中の未知語の修正
指示であった場合には、処理をステップ６１４からステ
ップ６１５に移行する。この場合には、未知語編集部５
１４は、指定された未知語の情報を未知語バッファ１１
１から読み出して画面上に表示させる（ステップ６１
５）。オペレータは、表示された未知語の単語情報の必
要な部分を修正する（ステップ６１６）。修正が終了す
ると、未知語編集部５１４は修正された未知語の情報を
未知語バッファ１１１内の当該未知語のレコードに上書
きする（ステップ６１７）。

【００６５】オペレータの指示が未知語の登録であった
場合には、ステップ６１８からステップ６１９に処理を
移行する。この場合には、未知語登録部５１３は、未知
語バッファ１１１から検出レベル調整部５１２に設定さ
れた検出レベル以上の値の未知語を抽出し（ステップ６
１９）、ユーザ辞書５１５に順次登録する（ステップ６
２０）。

【００６６】なお、登録する未知語は特に画面上に表示
されている必要はなく、未知語抽出と未知語登録とを一
括で行ってもよい。未知語登録部５１３は、ユーザ辞書
に登録した未知語を未知語バッファ１１１から削除する
（ステップ６２１）。

【００６７】このように、本実施の形態においては、所
定の信頼度以上の未知語を抽出するための設定を可能に
して、抽出した未知語のみを画面上に表示させること
で、ユーザの登録作業を容易にしている。更に、所定の
信頼度以上の未知語については、自動的にユーザ辞書に
登録することも可能である。これにより、ユーザの煩雑
な操作を必要とすることなく、高い品質のユーザ辞書が
構築可能である。また、登録すべきか否かを信頼度レベ
ルによって自由に設定可能で、また、登録する未知語の
情報も自由に変更可能であり、辞書構築の自由度が高
い。

【００６８】なお、本発明は上記実施の形態に限定され
るものではなく、種々の応用，変形が可能である。例え
ば、形態素解析を対象としているが、文解析に形態素解
析を用いる音声あるいは文字認識、音声読み上げ、翻
訳、カナ漢字変換等に応用可能である。また、音声認識
に適用する場合には、基本単語辞書は音声認識用のシス
テム辞書と同語彙の形態素解析用辞書、参照単語辞書は
形態素解析辞書以外の大語彙辞書とし、未知語情報とし
ての見出し・品詞の他に発音あるいは読み等の情報を参
照辞書上に格納しておくか、あるいは単漢字辞書等を用
意し、適当な読みを付与すればよい。

【００６９】

【発明の効果】以上説明したように本発明によれば、単
語辞書の格納情報、解析対象文書における出現回数、単
語長及び文字種等に基づいて、形態素解析結果によって
抽出された未知語の信頼性を求め、その結果に応じてユ
ーザ辞書への登録を行うことにより、オペレータの作業
を著しく簡単化し、短時間で高い品質のユーザー辞書を
構築することができるという効果を有する。

【図面の簡単な説明】

【図１】本発明の一実施の形態に係る辞書登録支援装置
を示すブロック図。

【図２】未知語を抽出する際の処理の流れを示すフロー
チャート。

【図３】未知語に対する信頼度の算出方法を示すフロー
チャート。

【図４】図１中の未知語バッファ１１１の未知語の格納
例を示す説明図。

【図５】本発明の第２の実施の形態を示すブロック図。

【図６】未知語の抽出・登録処理をする際の処理の流れ
を示すフローチャート。

【図７】図４の未知語に対して検出レベルの指定を行っ
た上で一覧表示を指示した場合の画面表示例を示す説明
図。

【符号の説明】

１０１…入力装置、１０３…形態素解析部、１０５…基
本単語辞書、１０６…参照単語辞書、１０９…未知語検
出部、１１１…未知語バッファ、１１２…出力装置。

Claims

【特許請求の範囲】

【請求項１】入力された文書に対して形態素解析を行
って未知語を抽出する未知語抽出ステップと、前記未知語抽出ステップにおいて抽出した未知語が有効
言語単位であるか否かの度合いである信頼度を算出する
信頼度算出ステップと、前記未知語抽出ステップにおいて抽出した未知語毎に前
記信頼度算出ステップの算出結果を提示する提示ステッ
プとを具備したことを特徴とする辞書構築支援方法。
【請求項２】前記未知語抽出ステップは、基本単語辞
書と前記基本単語辞書よりも格納する語彙数が多い参照
単語辞書とを用いた形態素解析を行い、前記基本単語辞
書に未登録で前記参照単語辞書にのみ登録されている単
語及び前記基本単語辞書及び参照単語辞書のいずれにも
登録されていない単語を未知語と判定することを特徴と
する請求項１に記載の辞書構築支援方法。
【請求項３】前記信頼度算出ステップは、前記未知語
が前記参照単語辞書に登録されているか否かに基づいて
前記信頼度を算出することを特徴とする請求項２に記載
の辞書構築支援方法。
【請求項４】前記信頼度算出ステップは、前記未知語
抽出ステップにおいて抽出した未知語について、前記入
力された文書内の出現回数、固有接辞の有無、用言の語
尾の有無、文字数及び文字種のうちの少なくとも１つの
情報に基づいて信頼度を算出することを特徴とする請求
項１に記載の辞書構築支援方法。
【請求項５】入力された文書に対して形態素解析を行
って未知語を抽出する未知語抽出ステップと、前記未知語抽出ステップにおいて抽出した未知語が有効
言語単位であるか否かの度合いである信頼度を算出する
信頼度算出ステップと、前記未知語抽出ステップにおいて抽出した未知語のうち
前記信頼度算出ステップの算出結果によって所定の閾値
以上の信頼度を有するものと示された未知語をユーザ辞
書に登録する登録ステップとを具備したことを特徴とす
る辞書構築支援方法。
【請求項６】前記提示ステップは、前記信頼度算出ス
テップの算出結果によって所定の閾値以上の信頼度を有
するものと示された未知語のみを提示することを特徴と
する請求項１に記載の辞書構築支援方法。
【請求項７】前記提示ステップは、前記所定の閾値を
ユーザ操作によって設定するステップを含むことを特徴
とする請求項５又は６のいずれか一方に記載の辞書構築
支援方法。
【請求項８】前記提示ステップは、提示された前記未
知語に関する情報を修正するステップを含むことを特徴
とする請求項６に記載の辞書構築支援方法。
【請求項９】入力された文書に対して形態素解析を行
って未知語を抽出する未知語抽出手段と、前記未知語抽出手段が抽出した未知語が有効言語単位で
あるか否かの度合いである信頼度を算出する信頼度算出
手段と、前記未知語抽出手段が抽出した未知語毎に前記信頼度算
出手段の算出結果を提示する提示手段とを具備したこと
を特徴とする辞書構築支援装置。
【請求項１０】入力された文書に対して形態素解析を
行って未知語を抽出する未知語抽出手段と、前記未知語抽出手段が抽出した未知語が有効言語単位で
あるか否かの度合いである信頼度を算出する信頼度算出
手段と、前記未知語抽出手段が抽出した未知語のうち前記信頼度
算出手段の算出結果によって所定の閾値以上の信頼度を
有するものと示された未知語をユーザ辞書に登録する登
録手段とを具備したことを特徴とする辞書構築支援装
置。
【請求項１１】コンピュータに、入力された文書に対して形態素解析を行って未知語を抽
出する未知語抽出処理と、前記未知語抽出処理において抽出した未知語が有効言語
単位であるか否かの度合いである信頼度を算出する信頼
度算出処理と、前記未知語抽出処理において抽出した未知語毎に前記信
頼度算出処理の算出結果を提示する提示処理とを実行さ
せる辞書構築支援プログラム。
【請求項１２】コンピュータに、入力された文書に対して形態素解析を行って未知語を抽
出する未知語抽出処理と、前記未知語抽出処理において抽出した未知語が有効言語
単位であるか否かの度合いである信頼度を算出する信頼
度算出処理と、前記未知語抽出処理において抽出した未知語のうち前記
信頼度算出処理の算出結果によって所定の閾値以上の信
頼度を有するものと示された未知語をユーザ辞書に登録
する登録処理とを実行させる辞書構築支援プログラム。