JP3935374B2

JP3935374B2 - 辞書構築支援方法、装置及びプログラム

Info

Publication number: JP3935374B2
Application number: JP2002054442A
Authority: JP
Inventors: 真人矢島; 幸弘福永
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-02-28
Filing date: 2002-02-28
Publication date: 2007-06-20
Anticipated expiration: 2022-02-28
Also published as: JP2003256415A

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザによって高品質な電子辞書を構築可能とするための辞書構築支援方法、装置及びプログラムに関する。
【０００２】
【従来の技術】
近年、音声認識装置、音声合成装置、機械翻訳装置等の性能が向上し、高性能の製品が多数開発されている。これらの装置においては、用途に応じて、種々の電子辞書が利用される。
【０００３】
電子辞書は、基本的には明確に定義された不変的な規則が存在していることから、一般に、あらかじめ製品メーカ側で作成されて供給される。ユーザが日常的に使用する言語については、ユーザが電子辞書への登録を行うようになっており、これにより、各種自然言語処理の精度を一層向上させることができる。
【０００４】
最近、未知語のユーザ辞書への登録を自動化する辞書構築支援装置が研究されている。従来の辞書構築支援装置においては、入力された文章を形態素解析することで未知語を抽出する。そして、形態素解析結果が単語辞書に存在しない場合には、この形態素解析部分を未知語と判断する。また、文法的接続が禁止された部分についても未知語と判断する。これらの抽出した未知語についてユーザ辞書への登録を行うのである。
【０００５】
【発明が解決しようとする課題】
しかしながら、解析対象文の質によっては、形態素解析が正しく行われないことがある。例えば、ひらがなを多用した文、話し言葉を用いた文等の文体が特殊なものついては、形態素解析が失敗することがあり、誤った区間を未知語として抽出してしまうことがある。例えば、無意味なひらがな１文字等の無効な文字列（以下、無効言語単位という）であっても未知語として判断されることが考えられる。このため、形態素解析結果によって抽出した未知語をそのままユーザ辞書に登録すると、言語として有効な言語単位だけでなく無効言語単位についても未知語として登録されることがあり、ユーザー辞書の質が低下してしまうことがある。
【０００６】
そこで、形態素解析によって抽出された未知語を表示させ、オペレータが表示を見ながら抽出された未知語を登録すべきか否かを判断した後に、ユーザ辞書への登録処理を行う方法が考えられる。しかし、この場合には、ユーザ辞書登録のために、オペレータは膨大な作業を行う必要があるという問題点があった。
【０００７】
本発明は、単語辞書の格納情報、解析対象文書における出現回数、単語長及び文字種等に基づいて、形態素解析結果によって抽出された未知語の信頼性を求め、その結果に応じてユーザ辞書への登録を行うことにより、オペレータの作業を著しく簡単化し、短時間で高い品質のユーザー辞書を構築することができる辞書構築支援方法、装置及びプログラムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
本発明の請求項１に係る辞書構築支援方法は、形態素解析部を有する未知語抽出部、未知語検出部及び出力部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、前記出力部が、前記未知語抽出ステップにおいて抽出した未知語毎に前記信頼度算出ステップの算出結果を提示する提示ステップとを具備し、前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とするものであり、
本発明の請求項４に係る辞書構築支援方法は、形態素解析部を有する未知語抽出部、未知語検出部及び未知語登録部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、前記未知語登録部が、前記未知語抽出ステップにおいて抽出した未知語のうち前記信頼度算出ステップの算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録ステップとを具備し、前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とするものである。
【０００９】
本発明の請求項１においては、先ず、未知語抽出ステップにおいて、入力された文書に対する形態素解析によって未知語が抽出される。抽出された未知語は、信頼度算出ステップにおいて有効言語単位であるか否かの度合いである信頼度が算出される。提示ステップにおいて、未知語毎に信頼度が提示される。提示された信頼度を参照することで、オペレータによる辞書登録が容易になる。
【００１０】
本発明の請求項５においては、未知語抽出ステップにおいて入力された文書に対する形態素解析によって未知語が抽出される。信頼度算出ステップにおいて、抽出された未知語の信頼度が算出される。所定の閾値以上の信頼度を有する未知語については、登録ステップにおいてユーザ辞書に登録される。これにより、信頼度が高い未知語がユーザ辞書に自動登録され、高品質のユーザ辞書が簡単に構築される。
【００１１】
なお、方法に係る本発明は装置に係る発明としても成立する。
【００１２】
また、方法に係る本発明は、コンピュータに当該発明に相当する処理を実行させるためのプログラムとしても成立する。
【００１３】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の一実施の形態に係る辞書登録支援装置を示すブロック図である。
【００１４】
図１において、入力装置１０１はキーボード、マウスポインタ或いはファイル装置等によって構成され、文書データを出力することができるようになっている。入力制御部１０２は、入力装置１０１からの文書データを取り込み、文書バッファ１０４に格納する。
【００１５】
未知語抽出手段を構成する形態素解析部１０３は、文書バッファ１０４に格納されている文書データを１文ずつ読出し、基本単語辞書１０５、参照単語辞書１０６、接続辞書１０７及び評価ルール１０８を参照しながら形態素解析を行う。
【００１６】
本実施の形態の辞書構築支援装置は、基本単語辞書１０５及び参照単語辞書１０６を有している。基本単語辞書１０５は電子辞書を利用する装置（以下、電子辞書利用装置という）において通常使用されるシステム単語が格納されている。一方、参照単語辞書１０６は、未知語登録のために用いられるもので、大語彙セットの単語辞書であり、電子辞書利用装置において通常備えられているものではない。
【００１７】
従って、基本単語辞書１０５にはなく参照単語辞書１０６にのみ存在する単語は、電子辞書利用装置にとって未知語となる。これらの基本単語辞書１０５及び参照単語辞書１０６は、各単語毎に見出し及び品詞等の形態素解析に必要な情報を有していると共に、各単語が一般にどの程度使用されるかを示す頻度情報も有している。なお、これらの２つの辞書１０５，１０６は、一体化されてフラグ等で単語が識別できる状態であってもよい。
【００１８】
接続辞書１０７には隣接する品詞間の文法的な接続の可否のルールが格納されている。また、評価ルール１０８には複数の単語系列から最も日本語として正しくなる系列を選び出すためのルールが格納されている。形態素解析部１０３は、形態素解析結果となる単語系列を単語列バッファ１１０に格納する。
【００１９】
単語列バッファ１１０には、形態素解析部１０３によって、２つの辞書１０５，１０６に登録されている単語については、各単語の辞書格納情報が格納され、２つの辞書１０５，１０６に未登録の単語については、形態素解析によって得られた見出し及び品詞等が格納される。
【００２０】
形態素解析部１０３と共に未知語抽出手段を構成する未知語検出部１０９は、単語列バッファ１１０に格納された単語のうち、参照単語辞書１０６から検索された単語と辞書１０５，１０６のいずれにも登録されていない単語とを未知語と判断する。未知語検出部１０９は単語列バッファ１１０に格納された単語のうち未知語を順次読み出して未知語バッファ１１１に格納する。未知語バッファ１１１は単語情報の他に各単語毎に出現カウンタを保持している。未知語検出部１０９は、読み出した未知語が未知語バッファ１１１に既に格納済みか否かを調査し、既に格納済みの場合には出現カウンタをインクリメントし、未格納である場合には新規に未知語バッファ１１１に格納する。なお、出現カウンタは単語の出現毎に１つずつインクリメントする。
【００２１】
こうして、未知語バッファ１１１には、未知語について、単語列バッファ１１０から読み出した情報及び出現回数の情報が記憶される。本実施の形態においては、未知語検出部１０９は、未知語バッファ１１１に格納された情報に基づいて、各未知語毎に信頼度を算出する。そして、未知語検出部１０９は、算出した信頼度を例えば予め定めた複数段階の信頼度レベルに分類して各未知語に付与し、未知語バッファ１１１に記憶させるようになっている。なお、未知語検出部１０９は、信頼度レベルとして数値を用いてもよく、また、“高”、“中”、“低”等の語句を用いてもよい。
【００２２】
未知語検出部１０９は、信頼度の算出方法として、単語長、活用の有無、文字種、参照単語辞書１０６からの抽出語であるか否か、辞書１０６の登録語の場合には辞書内の頻度情報等を用い、これらの項目に対する重み付けによって決定するようになっている。
【００２３】
未知語検出部１０９は、全ての未知語に対する信頼度レベル付けが終了すると、未知語バッファ１１１に格納されてい各単語のデータ及び信頼度レベルを出力装置１１２に出力する。出力装置１１２は図示しない表示画面を有しており、未知語検出部１０９からの検出結果を表示画面上に表示するようになっている。出力装置１１２は、信頼度レベルの表示方法として、信頼度レベルを示す数値を表示してもよく、また、その数値を適宜丸めた例えば「信頼度−高」、「信頼度−中」、「信頼度−低」、「要確認」等の表示を行ってもよい。
【００２４】
次に、このように構成された実施の形態の動作について図２乃至図４を参照して説明する。図２は未知語を抽出する際の処理の流れを示すフローチャートである。図３は未知語に対する信頼度の算出方法を示すフローチャートである。図４は図１中の未知語バッファ１１１の未知語の格納例を示す説明図である。
【００２５】
図２のステップ２０１において、入力装置１０１から入力された文書データは、入力制御部１０２によって順次文書バッファ１０４に格納される。なお、文書データの入力は、ファイルからの読み込み、キーボード等からの直接入力、クリップボードからの貼り付け等の何れの方法でもよい。
【００２６】
文書入力が終了して、オペレータが未知語抽出の指示を入力装置１０１に対して行うと、入力制御部１０２は形態素解析部１０３に対して入力文の解析開始を指示する（ステップ２０２）。形態素解析部１０３は、文書バッファ１０４から１文を抽出し（ステップ２０３）、基本単語辞書１０５、参照単語辞書１０６、接続辞書１０７及び評価ルール１０８を参照して形態素解析を行い（ステップ２０４）、形態素解析結果である各単語を単語列バッファ１１０に格納する（ステップ２０５）。
【００２７】
ステップ２０３からステップ２０５の処理は文書バッファ１０４に格納されている入力文が終了するまで繰り返される（ステップ２０６）。全ての入力文に対しての形態素解析が終了すると、未知語検出部１０８は、カウンタｎに０をセットし（ステップ２０７）、単語列バッファ１１０に格納されているｎ番目の単語（以下、単語ｎという）を読み出す（ステップ２０８）。
【００２８】
単語ｎが基本単語辞書１０５の検索によって抽出された単語である場合には、未知語検出部１０９はこのｎ番目の単語は未知語ではないものと判断して、処理をステップ２０９からステップ２１６に移行して、カウンタｎをインクリメントする。次に、全ての単語についての未知語判定が終了していなければ次の単語の取得を行う（ステップ２０８）。
【００２９】
一方、単語ｎが基本単語辞書１０５に存在しない場合には、ステップ２０９からステップ２１０に処理を移行して、単語ｎが未知語バッファ１１１に格納済みであるか否かを調査する（ステップ２１０）。単語ｎが未知語バッファ１１１に未格納で、且つ参照単語辞書１０６から検索された単語であった場合には（ステップ２１１）、単語ｎの情報として参照単語辞書１０６の見出し、品詞、出現頻度等の情報を未知語バッファ１１１に新規に格納する（ステップ２１２）。
【００３０】
また、単語ｎが参照単語辞書１０６にも存在しない単語であった場合には、ステップ２１１からステップ２１３に移行して、未知語バッファ１１１に形態素解析で得た見出し及び品詞を新規に格納する（ステップ２１３）。
【００３１】
未知語バッファ１１１は単語情報の他に未知語抽出対象とした文書中に何回単語ｎが出現したかを記憶する出現カウンタを保持しており、新規格納の場合には、出現カウンタに１をセットする（ステップ２１４）。ステップ２１０において、単語ｎが未知語バッファ１１１に格納済みであった場合には、未知語バッファ１１１の単語ｎの出現カウンタを１インクリメントする（ステップ２１５）。
【００３２】
次に、未知語検出部１０９は、カウンタｎをインクリメントし（ステップ２１６）、単語列バッファ１１０に格納されている全ての単語についての未知語判定が終了するまで、ステップ２０８からステップ２１７の処理を繰り返し行う。
【００３３】
単語列バッファ１１０の全ての単語に対して未知語抽出処理が終了すると、未知語検出部１０９は、未知語バッファ１１１に格納した未知語を順に調査し、参照単語辞書の有無、出現頻度、出現カウンタ、単語長、品詞、見出し文字種等の全て又は一部から信頼度を算出して信頼度レベルを付与する（ステップ２１８）。
【００３４】
図３は信頼度の算出方法を示している。
【００３５】
未知語検出部１０９は、未知語バッファ１１１に格納された各語について信頼度を算出する。信頼度は値が大きいほど抽出された未知語が有効な言語単位であって登録すべき未知語であることを示し、信頼度が小さいほど抽出された未知語が無効言語単位であって登録すべきでない未知語であることを示す。
【００３６】
未知語検出部１０９は、先ずステップ３０１において、信頼度（Ｌ）を初期値０にする。次に、算出対象の未知語が参照単語辞書１０６から検索された単語である場合には、信頼度Ｌに１０００を加算する（ステップ３０２、３０３）。次に、算出対象の単語の参照単語辞書１０６内の頻度情報に１００を乗じた値をＬに加算する（ステップ３０４）。未知語が参照単語辞書１０６に存在した単語であることによって、ステップ３０３，３０４では、比較的高い得点が信頼度Ｌに加算され、有効言語単位である確率が高いことが示される。
【００３７】
次のステップ３０５においては、算出対象の未知語が参照単語辞書１０６に格納されていた単語であるか否かに拘わらず、未知語抽出対象文内に算出対象未知語が何度出現したかを示す出現カウンタの値に１０乗じた値を、信頼度Ｌに加算する（ステップ３０５）。即ち、文章中の出現回数が多い場合には、算出対象の未知語が有効言語単位である可能性が高いことを示している。
【００３８】
次に、算出対象未知語が用言であるか体言であるかを判定し（ステップ３０６）、用言の場合には更に活用語尾があるか否かを調べる（ステップ３０７）。語尾がある場合には算出対象の未知語が有効言語単位である可能性が高いので、Ｌに５を加算する（ステップ３０８）。
【００３９】
一方、算出対象の単語がステップ３０６において用言でないと判定された場合であっても、固有名詞であって且つ固有接辞への接続がある場合（ステップ３０９、３１０）、例えば未知語の品詞が地名で次に続く単語の品詞が地名接尾であるような場合には、未知語が有効言語単位である可能性が高いのでＬに２を加算する（ステップ３１１）。
【００４０】
次に、ステップ３１２において、未知語の文字数を調べ文字数の２乗をＬに加算する。文字が長いほど有効言語単位である可能性が高い。しかも、文字の長さと有効の度合いは指数関数的に変化すると考えられるので、ステップ３１２において文字数の２乗を得点として信頼度に加算する。
【００４１】
最後に、ステップ３１３において、文字種が英字、記号、カタカナの何れかのみで構成されているか否かを判定する。通常、同一文字種が連続する場合には、有効言語単位である可能性が高い。そこで、同一文字種が連続して構成された単語の場合には、Ｌに２を加算する（ステップ３１４）。
【００４２】
未知語検出部１０９は、未知語バッファ１１１の算出対象の未知語の信頼度Ｌを例えば４段階にクラス分けする。そして、最も信頼度が高い信頼度レベルを“１”とし、最も信頼度が低い信頼度レベルを４として、信頼度Ｌを１〜４の４つの信頼度レベルに分類し、各未知語毎に信頼度レベルを付与する。
【００４３】
図４は未知語バッファ１１１の格納例を示している。
【００４４】
例えば、未知語バッファ１１１に格納されている未知語「安め」は、参照単語辞書１０６に単語ＩＤがｆ３ｄ１として登録されており、辞書内の頻度情報が８で、対象となった文章中に２回出現しており、形容動詞で活用が無いことが示されている。この未知語「安め」の信頼度レベルは１で、有効言語単位である可能性が極めて高いことが示される。
【００４５】
逆に、未知語バッファ１１１に格納されている未知語「ヴァレー」は、対象文章中に１回出現し、形態素解析の結果、サ変名詞で活用がないことは検出されたが、参照単語辞書１０６に登録されておらず、信頼度レベルは３で無効言語単位である可能性が比較的高いことが示されている。
【００４６】
抽出された全ての未知語は、図２のステップ２１９において、未知語検出部１０９によって未知語バッファ１１１から読み出され、見出し及び品詞に加えて信頼度レベルが出力装置１１２に供給される。出力装置１１２は未知語に関する入力された情報を表示画面上に表示する。例えば、出力装置１１２は、図４と同様の表示を画面上に表示してもよい。
【００４７】
オペレータは出力装置１１２の表示画面上の表示を参考にすることで、未知語のユーザ辞書への登録を、極めて簡単に行うことができる。
【００４８】
このように、本実施の形態においては、抽出した未知語について、大語彙セットの参照単語辞書に登録されているか否か、辞書に登録されている頻度情報、文章中の出現回数、単語長、品詞、見出し文字種等を用いてその信頼度を算出して表示することで、未知語が有効言語単位であるか無効言語単位であるかを判断しやすくしており、高品質のユーザ辞書を容易に構築することを可能にしている。そして、信頼度の算出に際して、電子辞書利用装置に備えられる基本単語辞書だけでなく、未知語登録のための大語彙セットである参照単語辞書を用いており、参照単語辞書に登録されているか否かによって有効言語単位であるか無効言語単位であるかの判定の正確性を向上させている。
【００４９】
図５は本発明の第２の実施の形態を示すブロック図である。図５において図１と同一の構成要素には同一符号を付して説明を省略する。
【００５０】
第１の実施の形態においては、未知語の信頼度を表示画面上に表示させることで、オペレータのユーザ辞書の構築を容易にした。本実施の形態は所定レベル以上の信頼度の未知語のみを表示させると共に、表示させる信頼度の範囲を設定可能にし、更に、設定未知語の信頼度に応じて、有効言語単位と考えられる未知語を自動的にユーザ辞書に登録するようにしたものである。
【００５１】
本実施の形態は、未知語検出部１０９に代えて未知語検出部５０９を採用すると共に、検出レベル調整部５１２、未知語登録部５１３、未知語編集部５１４及びユーザ辞書５１５を付加した点が第１の実施の形態と異なる。
【００５２】
検出レベル調整部５１２は、未知語検出部５０９に制御されて、有効言語単位であるか否かの決定又は表示させるか否かの決定に用いる信頼度レベルの閾値（以下、検出レベルという）を設定するようになっている。なお、検出レベルは入力装置１０１によってオペレータが適宜設定可能である。
【００５３】
未知語検出部５０９は、図１の未知語検出部１０９と同様の手法によって、未知語の信頼度を算出すると共に、入力装置１０１によって未知語を表示させるための指示が与えられると、検出レベル調整部５１２によって設定された検出レベル以上の値を有する未知語のみを未知語バッファ１１１から読み出して、出力装置１１２に出力するようになっている。
【００５４】
また、未知語の画面表示中に、入力装置１０１によって検出レベルの設定変更の指示が発生した場合には、未知語検出部５０９は、変更された検出レベルに従って未知語バッファ１１１からの未知語の抽出をやり直し、変更後の検出レベル以上の値を有する未知語を出力装置１１２に出力する。
【００５５】
本実施の形態においては、未知語登録部５１３は、検出レベル以上の信頼度レベルを有する未知語をユーザ辞書５１５に自動的に登録することができるようになっている。例えば、未知語登録部５１３は、未知語検出終了後或いは未知語表示後に、入力装置１０１から未知語の登録指示があった場合には、検出レベル調整部５１２によって設定された検出レベル以上の値を有する未知語を未知語バッファ１１１から順次読み出し、ユーザ辞書５１５に登録する。
【００５６】
また、本実施の形態においては、ユーザ辞書に登録する未知語を適宜編集することも可能である。例えば、未知語編集部５１４は、未知語表示中に入力装置１０１から任意の未知語を指定した上で修正指示があった場合には、修正指示に応じて対象の未知語の情報を表示と共に修正し、修正した内容を未知語バッファ１１１に書き込む。これにより、オペレータは、表示された未知語の見出し及び品詞等を適宜修正して、未知語バッファ１１１に記憶させることができる。
【００５７】
次に、このように構成された実施の形態の動作について図６及び図７を参照して説明する。図６は未知語の抽出・登録処理をする際の処理の流れを示すフローチャートである。また、図７は図４の未知語に対して検出レベルの指定を行った上で一覧表示を指示した場合の画面表示例を示す説明図である。
【００５８】
図６のステップ６０１において、オペレータが入力装置１０１から未知語検出レベルの調整を指示すると、検出レベル調整部５１２は出力装置１１２の表示画面上にスライドバー等のＧＵＩ表示を行う。オペレータはこのＧＵＩ表示を利用して、任意の検出レベルを選択する。検出レベル調整部５１２は、新たに設定された検出レベルを保持する（ステップ６０２）。
【００５９】
いま、未知語検出部５０９によって、検出済み未知語の一覧が出力装置１１２の表示画面上に表示中であるものとする。この場合には、ステップ６０３からステップ６０４に処理を移行して、一旦一覧表示を消去する（ステップ６０４）。次に、未知語検出部５０９は、再度、未知語バッファ１１１から検出レベル調整部５１２に設定された検出レベル以上の値を有する未知語を抽出し（ステップ６０５）、出力装置１１２の表示画面上に表示させる（ステップ６０６）。なお、ステップ６０３において未知語が表示中でないものと判断された場合には、オペレータの指示待ちとなる。
【００６０】
図７は図４の未知語に対して、検出レベルの指定を行った上で一覧表示を指示した場合の画面表示例を示している。図７（ａ）は図４の未知語のうち信頼度レベルが２又は１の未知語を表示した例を示している。また、図７（ｂ）は図４の未知語のうち信頼度レベルが１〜３の未知語を表示した例を示している。なお、図７（ａ）の表示が表示されている状態において、未知語の検出レベルを信頼度レベル３に設定変更すると、画面表示も図７（ｂ）に示す表示に切換る。
【００６１】
オペレータの指示が検出レベルの調整ではなく、未知語の抽出であった場合には、ステップ６０７から処理をステップ６０８に移行し、ステップ６０８〜ステップ６１２において、図２と同様の未知語処理を行う。即ち、形態素解析部１０３は、基本単語辞書１０５、参照単語辞書１０６、接続辞書１０７、評価ルール１０８を用いて、文書バッファ１０４に格納された文書を順次読み出して形態素解析し（ステップ６０８）、その結果となる単語列を単語列バッファ１１０に格納する（ステップ６０９）。
【００６２】
全ての文書の解析が終了すると、未知語検出部５０９は単語列バッファ１１０から未知語を選択して、その単語の出現回数をカウントし（ステップ６１０）、辞書格納の有無、出現回数及び単語長等から求めた信頼度レベルを付与する（ステップ６１１）。信頼度レベルが付与された未知語情報は他の単語情報と共に未知語バッファ１１１に格納される（ステップ６１２）。
【００６３】
オペレータの指示が未知語表示であった場合には、ステップ６１３からステップ６０５に処理を移行して、未知語検出部５０９は、未知語バッファ１１１から検出レベル調整部５１２に設定された検出レベル以上の値の未知語を抽出して（ステップ６０５）、出力装置１１２の表示画面上に表示させる（ステップ６０６）。
【００６４】
オペレータの指示が表示中の未知語の修正指示であった場合には、処理をステップ６１４からステップ６１５に移行する。この場合には、未知語編集部５１４は、指定された未知語の情報を未知語バッファ１１１から読み出して画面上に表示させる（ステップ６１５）。オペレータは、表示された未知語の単語情報の必要な部分を修正する（ステップ６１６）。修正が終了すると、未知語編集部５１４は修正された未知語の情報を未知語バッファ１１１内の当該未知語のレコードに上書きする（ステップ６１７）。
【００６５】
オペレータの指示が未知語の登録であった場合には、ステップ６１８からステップ６１９に処理を移行する。この場合には、未知語登録部５１３は、未知語バッファ１１１から検出レベル調整部５１２に設定された検出レベル以上の値の未知語を抽出し（ステップ６１９）、ユーザ辞書５１５に順次登録する（ステップ６２０）。
【００６６】
なお、登録する未知語は特に画面上に表示されている必要はなく、未知語抽出と未知語登録とを一括で行ってもよい。未知語登録部５１３は、ユーザ辞書に登録した未知語を未知語バッファ１１１から削除する（ステップ６２１）。
【００６７】
このように、本実施の形態においては、所定の信頼度以上の未知語を抽出するための設定を可能にして、抽出した未知語のみを画面上に表示させることで、ユーザの登録作業を容易にしている。更に、所定の信頼度以上の未知語については、自動的にユーザ辞書に登録することも可能である。これにより、ユーザの煩雑な操作を必要とすることなく、高い品質のユーザ辞書が構築可能である。また、登録すべきか否かを信頼度レベルによって自由に設定可能で、また、登録する未知語の情報も自由に変更可能であり、辞書構築の自由度が高い。
【００６８】
なお、本発明は上記実施の形態に限定されるものではなく、種々の応用，変形が可能である。例えば、形態素解析を対象としているが、文解析に形態素解析を用いる音声あるいは文字認識、音声読み上げ、翻訳、カナ漢字変換等に応用可能である。また、音声認識に適用する場合には、基本単語辞書は音声認識用のシステム辞書と同語彙の形態素解析用辞書、参照単語辞書は形態素解析辞書以外の大語彙辞書とし、未知語情報としての見出し・品詞の他に発音あるいは読み等の情報を参照辞書上に格納しておくか、あるいは単漢字辞書等を用意し、適当な読みを付与すればよい。
【００６９】
【発明の効果】
以上説明したように本発明によれば、単語辞書の格納情報、解析対象文書における出現回数、単語長及び文字種等に基づいて、形態素解析結果によって抽出された未知語の信頼性を求め、その結果に応じてユーザ辞書への登録を行うことにより、オペレータの作業を著しく簡単化し、短時間で高い品質のユーザー辞書を構築することができるという効果を有する。
【図面の簡単な説明】
【図１】本発明の一実施の形態に係る辞書登録支援装置を示すブロック図。
【図２】未知語を抽出する際の処理の流れを示すフローチャート。
【図３】未知語に対する信頼度の算出方法を示すフローチャート。
【図４】図１中の未知語バッファ１１１の未知語の格納例を示す説明図。
【図５】本発明の第２の実施の形態を示すブロック図。
【図６】未知語の抽出・登録処理をする際の処理の流れを示すフローチャート。
【図７】図４の未知語に対して検出レベルの指定を行った上で一覧表示を指示した場合の画面表示例を示す説明図。
【符号の説明】
１０１…入力装置、１０３…形態素解析部、１０５…基本単語辞書、１０６…参照単語辞書、１０９…未知語検出部、１１１…未知語バッファ、１１２…出力装置。

Claims

形態素解析部を有する未知語抽出部、未知語検出部及び出力部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、
前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、
前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、
前記出力部が、前記未知語抽出ステップにおいて抽出した未知語毎に前記信頼度算出ステップの算出結果を提示する提示ステップとを具備し、
前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援方法。
前記未知語抽出ステップは、前記未知語抽出部が、基本単語辞書と参照単語辞書とを用いた形態素解析を行い、前記基本単語辞書に未登録で前記参照単語辞書にのみ登録されている単語及び前記基本単語辞書及び参照単語辞書のいずれにも登録されていない単語を未知語と判定することを特徴とする請求項１に記載の辞書構築支援方法。
前記信頼度算出ステップは、前記未知語検出部が、前記未知語が前記参照単語辞書に登録されているか否かに基づいて前記信頼度を算出することを特徴とする請求項２に記載の辞書構築支援方法。
形態素解析部を有する未知語抽出部、未知語検出部及び未知語登録部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、
前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、
前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、
前記未知語登録部が、前記未知語抽出ステップにおいて抽出した未知語のうち前記信頼度算出ステップの算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録ステップとを具備し、
前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援方法。
前記提示ステップは、前記出力部が、前記信頼度算出ステップの算出結果によって所定の閾値以上の信頼度を有するものと示された未知語のみを提示することを特徴とする請求項１に記載の辞書構築支援方法。
前記提示ステップは、前記出力部が、前記所定の閾値をユーザ操作によって設定させるための提示を行うステップを含むことを特徴とする請求項５に記載の辞書構築支援方法。
前記提示ステップは、前記出力部が、提示された前記未知語に関する情報を修正させるための提示を行うステップを含むことを特徴とする請求項５に記載の辞書構築支援方法。
入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出手段と、
前記未知語抽出手段が抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出手段と、
前記未知語抽出手段が抽出した未知語毎に前記信頼度算出手段の算出結果を提示する提示手段とを具備し、
前記信頼度算出手段は、前記未知語抽出手段が抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援装置。
入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出手段と、
前記未知語抽出手段が抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出手段と、
前記未知語抽出手段が抽出した未知語のうち前記信頼度算出手段の算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録手段とを具備し、
前記信頼度算出手段は、前記未知語抽出手段が抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援装置。
形態素解析部を有する未知語抽出部、未知語検出部及び出力部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援プログラムであって、
前記コンピュータに、
前記未知語抽出部によって、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出処理手順と、
前記未知語検出部によって、前記未知語抽出処理手順において抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて、有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出処理手順と、
前記出力部によって、前記未知語抽出処理手順において抽出した未知語毎に前記信頼度算出処理手順の算出結果を提示する提示処理手順とを実行させる辞書構築支援プログラム。
形態素解析部を有する未知語抽出部、未知語検出部及び未知語登録部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、
前記コンピュータに、
前記未知語抽出部によって、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出処理手順と、
前記未知語検出部によって、前記未知語抽出処理手順において抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも２つ以上の値を用いた演算結果に基づいて、有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出処理手順と、
前記未知語登録部によって、前記未知語抽出処理手順において抽出した未知語のうち前記信頼度算出処理手順の算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録処理手順とを実行させる辞書構築支援プログラム。