JP3935374B2 - 辞書構築支援方法、装置及びプログラム - Google Patents

辞書構築支援方法、装置及びプログラム Download PDF

Info

Publication number
JP3935374B2
JP3935374B2 JP2002054442A JP2002054442A JP3935374B2 JP 3935374 B2 JP3935374 B2 JP 3935374B2 JP 2002054442 A JP2002054442 A JP 2002054442A JP 2002054442 A JP2002054442 A JP 2002054442A JP 3935374 B2 JP3935374 B2 JP 3935374B2
Authority
JP
Japan
Prior art keywords
unknown word
unknown
reliability
word
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002054442A
Other languages
English (en)
Other versions
JP2003256415A (ja
Inventor
真人 矢島
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002054442A priority Critical patent/JP3935374B2/ja
Publication of JP2003256415A publication Critical patent/JP2003256415A/ja
Application granted granted Critical
Publication of JP3935374B2 publication Critical patent/JP3935374B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザによって高品質な電子辞書を構築可能とするための辞書構築支援方法、装置及びプログラムに関する。
【0002】
【従来の技術】
近年、音声認識装置、音声合成装置、機械翻訳装置等の性能が向上し、高性能の製品が多数開発されている。これらの装置においては、用途に応じて、種々の電子辞書が利用される。
【0003】
電子辞書は、基本的には明確に定義された不変的な規則が存在していることから、一般に、あらかじめ製品メーカ側で作成されて供給される。ユーザが日常的に使用する言語については、ユーザが電子辞書への登録を行うようになっており、これにより、各種自然言語処理の精度を一層向上させることができる。
【0004】
最近、未知語のユーザ辞書への登録を自動化する辞書構築支援装置が研究されている。従来の辞書構築支援装置においては、入力された文章を形態素解析することで未知語を抽出する。そして、形態素解析結果が単語辞書に存在しない場合には、この形態素解析部分を未知語と判断する。また、文法的接続が禁止された部分についても未知語と判断する。これらの抽出した未知語についてユーザ辞書への登録を行うのである。
【0005】
【発明が解決しようとする課題】
しかしながら、解析対象文の質によっては、形態素解析が正しく行われないことがある。例えば、ひらがなを多用した文、話し言葉を用いた文等の文体が特殊なものついては、形態素解析が失敗することがあり、誤った区間を未知語として抽出してしまうことがある。例えば、無意味なひらがな1文字等の無効な文字列(以下、無効言語単位という)であっても未知語として判断されることが考えられる。このため、形態素解析結果によって抽出した未知語をそのままユーザ辞書に登録すると、言語として有効な言語単位だけでなく無効言語単位についても未知語として登録されることがあり、ユーザー辞書の質が低下してしまうことがある。
【0006】
そこで、形態素解析によって抽出された未知語を表示させ、オペレータが表示を見ながら抽出された未知語を登録すべきか否かを判断した後に、ユーザ辞書への登録処理を行う方法が考えられる。しかし、この場合には、ユーザ辞書登録のために、オペレータは膨大な作業を行う必要があるという問題点があった。
【0007】
本発明は、単語辞書の格納情報、解析対象文書における出現回数、単語長及び文字種等に基づいて、形態素解析結果によって抽出された未知語の信頼性を求め、その結果に応じてユーザ辞書への登録を行うことにより、オペレータの作業を著しく簡単化し、短時間で高い品質のユーザー辞書を構築することができる辞書構築支援方法、装置及びプログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明の請求項1に係る辞書構築支援方法は、形態素解析部を有する未知語抽出部、未知語検出部及び出力部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、前記出力部が、前記未知語抽出ステップにおいて抽出した未知語毎に前記信頼度算出ステップの算出結果を提示する提示ステップとを具備し、前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とするものであり、
本発明の請求項4に係る辞書構築支援方法は、形態素解析部を有する未知語抽出部、未知語検出部及び未知語登録部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、前記未知語登録部が、前記未知語抽出ステップにおいて抽出した未知語のうち前記信頼度算出ステップの算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録ステップとを具備し、前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とするものである。
【0009】
本発明の請求項1においては、先ず、未知語抽出ステップにおいて、入力された文書に対する形態素解析によって未知語が抽出される。抽出された未知語は、信頼度算出ステップにおいて有効言語単位であるか否かの度合いである信頼度が算出される。提示ステップにおいて、未知語毎に信頼度が提示される。提示された信頼度を参照することで、オペレータによる辞書登録が容易になる。
【0010】
本発明の請求項5においては、未知語抽出ステップにおいて入力された文書に対する形態素解析によって未知語が抽出される。信頼度算出ステップにおいて、抽出された未知語の信頼度が算出される。所定の閾値以上の信頼度を有する未知語については、登録ステップにおいてユーザ辞書に登録される。これにより、信頼度が高い未知語がユーザ辞書に自動登録され、高品質のユーザ辞書が簡単に構築される。
【0011】
なお、方法に係る本発明は装置に係る発明としても成立する。
【0012】
また、方法に係る本発明は、コンピュータに当該発明に相当する処理を実行させるためのプログラムとしても成立する。
【0013】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の一実施の形態に係る辞書登録支援装置を示すブロック図である。
【0014】
図1において、入力装置101はキーボード、マウスポインタ或いはファイル装置等によって構成され、文書データを出力することができるようになっている。入力制御部102は、入力装置101からの文書データを取り込み、文書バッファ104に格納する。
【0015】
未知語抽出手段を構成する形態素解析部103は、文書バッファ104に格納されている文書データを1文ずつ読出し、基本単語辞書105、参照単語辞書106、接続辞書107及び評価ルール108を参照しながら形態素解析を行う。
【0016】
本実施の形態の辞書構築支援装置は、基本単語辞書105及び参照単語辞書106を有している。基本単語辞書105は電子辞書を利用する装置(以下、電子辞書利用装置という)において通常使用されるシステム単語が格納されている。一方、参照単語辞書106は、未知語登録のために用いられるもので、大語彙セットの単語辞書であり、電子辞書利用装置において通常備えられているものではない。
【0017】
従って、基本単語辞書105にはなく参照単語辞書106にのみ存在する単語は、電子辞書利用装置にとって未知語となる。これらの基本単語辞書105及び参照単語辞書106は、各単語毎に見出し及び品詞等の形態素解析に必要な情報を有していると共に、各単語が一般にどの程度使用されるかを示す頻度情報も有している。なお、これらの2つの辞書105,106は、一体化されてフラグ等で単語が識別できる状態であってもよい。
【0018】
接続辞書107には隣接する品詞間の文法的な接続の可否のルールが格納されている。また、評価ルール108には複数の単語系列から最も日本語として正しくなる系列を選び出すためのルールが格納されている。形態素解析部103は、形態素解析結果となる単語系列を単語列バッファ110に格納する。
【0019】
単語列バッファ110には、形態素解析部103によって、2つの辞書105,106に登録されている単語については、各単語の辞書格納情報が格納され、2つの辞書105,106に未登録の単語については、形態素解析によって得られた見出し及び品詞等が格納される。
【0020】
形態素解析部103と共に未知語抽出手段を構成する未知語検出部109は、単語列バッファ110に格納された単語のうち、参照単語辞書106から検索された単語と辞書105,106のいずれにも登録されていない単語とを未知語と判断する。未知語検出部109は単語列バッファ110に格納された単語のうち未知語を順次読み出して未知語バッファ111に格納する。未知語バッファ111は単語情報の他に各単語毎に出現カウンタを保持している。未知語検出部109は、読み出した未知語が未知語バッファ111に既に格納済みか否かを調査し、既に格納済みの場合には出現カウンタをインクリメントし、未格納である場合には新規に未知語バッファ111に格納する。なお、出現カウンタは単語の出現毎に1つずつインクリメントする。
【0021】
こうして、未知語バッファ111には、未知語について、単語列バッファ110から読み出した情報及び出現回数の情報が記憶される。本実施の形態においては、未知語検出部109は、未知語バッファ111に格納された情報に基づいて、各未知語毎に信頼度を算出する。そして、未知語検出部109は、算出した信頼度を例えば予め定めた複数段階の信頼度レベルに分類して各未知語に付与し、未知語バッファ111に記憶させるようになっている。なお、未知語検出部109は、信頼度レベルとして数値を用いてもよく、また、“高”、“中”、“低”等の語句を用いてもよい。
【0022】
未知語検出部109は、信頼度の算出方法として、単語長、活用の有無、文字種、参照単語辞書106からの抽出語であるか否か、辞書106の登録語の場合には辞書内の頻度情報等を用い、これらの項目に対する重み付けによって決定するようになっている。
【0023】
未知語検出部109は、全ての未知語に対する信頼度レベル付けが終了すると、未知語バッファ111に格納されてい各単語のデータ及び信頼度レベルを出力装置112に出力する。出力装置112は図示しない表示画面を有しており、未知語検出部109からの検出結果を表示画面上に表示するようになっている。出力装置112は、信頼度レベルの表示方法として、信頼度レベルを示す数値を表示してもよく、また、その数値を適宜丸めた例えば「信頼度−高」、「信頼度−中」、「信頼度−低」、「要確認」等の表示を行ってもよい。
【0024】
次に、このように構成された実施の形態の動作について図2乃至図4を参照して説明する。図2は未知語を抽出する際の処理の流れを示すフローチャートである。図3は未知語に対する信頼度の算出方法を示すフローチャートである。図4は図1中の未知語バッファ111の未知語の格納例を示す説明図である。
【0025】
図2のステップ201において、入力装置101から入力された文書データは、入力制御部102によって順次文書バッファ104に格納される。なお、文書データの入力は、ファイルからの読み込み、キーボード等からの直接入力、クリップボードからの貼り付け等の何れの方法でもよい。
【0026】
文書入力が終了して、オペレータが未知語抽出の指示を入力装置101に対して行うと、入力制御部102は形態素解析部103に対して入力文の解析開始を指示する(ステップ202)。形態素解析部103は、文書バッファ104から1文を抽出し(ステップ203)、基本単語辞書105、参照単語辞書106、接続辞書107及び評価ルール108を参照して形態素解析を行い(ステップ204)、形態素解析結果である各単語を単語列バッファ110に格納する(ステップ205)。
【0027】
ステップ203からステップ205の処理は文書バッファ104に格納されている入力文が終了するまで繰り返される(ステップ206)。全ての入力文に対しての形態素解析が終了すると、未知語検出部108は、カウンタnに0をセットし(ステップ207)、単語列バッファ110に格納されているn番目の単語(以下、単語nという)を読み出す(ステップ208)。
【0028】
単語nが基本単語辞書105の検索によって抽出された単語である場合には、未知語検出部109はこのn番目の単語は未知語ではないものと判断して、処理をステップ209からステップ216に移行して、カウンタnをインクリメントする。次に、全ての単語についての未知語判定が終了していなければ次の単語の取得を行う(ステップ208)。
【0029】
一方、単語nが基本単語辞書105に存在しない場合には、ステップ209からステップ210に処理を移行して、単語nが未知語バッファ111に格納済みであるか否かを調査する(ステップ210)。単語nが未知語バッファ111に未格納で、且つ参照単語辞書106から検索された単語であった場合には(ステップ211)、単語nの情報として参照単語辞書106の見出し、品詞、出現頻度等の情報を未知語バッファ111に新規に格納する(ステップ212)。
【0030】
また、単語nが参照単語辞書106にも存在しない単語であった場合には、ステップ211からステップ213に移行して、未知語バッファ111に形態素解析で得た見出し及び品詞を新規に格納する(ステップ213)。
【0031】
未知語バッファ111は単語情報の他に未知語抽出対象とした文書中に何回単語nが出現したかを記憶する出現カウンタを保持しており、新規格納の場合には、出現カウンタに1をセットする(ステップ214)。ステップ210において、単語nが未知語バッファ111に格納済みであった場合には、未知語バッファ111の単語nの出現カウンタを1インクリメントする(ステップ215)。
【0032】
次に、未知語検出部109は、カウンタnをインクリメントし(ステップ216)、単語列バッファ110に格納されている全ての単語についての未知語判定が終了するまで、ステップ208からステップ217の処理を繰り返し行う。
【0033】
単語列バッファ110の全ての単語に対して未知語抽出処理が終了すると、未知語検出部109は、未知語バッファ111に格納した未知語を順に調査し、参照単語辞書の有無、出現頻度、出現カウンタ、単語長、品詞、見出し文字種等の全て又は一部から信頼度を算出して信頼度レベルを付与する(ステップ218)。
【0034】
図3は信頼度の算出方法を示している。
【0035】
未知語検出部109は、未知語バッファ111に格納された各語について信頼度を算出する。信頼度は値が大きいほど抽出された未知語が有効な言語単位であって登録すべき未知語であることを示し、信頼度が小さいほど抽出された未知語が無効言語単位であって登録すべきでない未知語であることを示す。
【0036】
未知語検出部109は、先ずステップ301において、信頼度(L)を初期値0にする。次に、算出対象の未知語が参照単語辞書106から検索された単語である場合には、信頼度Lに1000を加算する(ステップ302、303)。次に、算出対象の単語の参照単語辞書106内の頻度情報に100を乗じた値をLに加算する(ステップ304)。未知語が参照単語辞書106に存在した単語であることによって、ステップ303,304では、比較的高い得点が信頼度Lに加算され、有効言語単位である確率が高いことが示される。
【0037】
次のステップ305においては、算出対象の未知語が参照単語辞書106に格納されていた単語であるか否かに拘わらず、未知語抽出対象文内に算出対象未知語が何度出現したかを示す出現カウンタの値に10乗じた値を、信頼度Lに加算する(ステップ305)。即ち、文章中の出現回数が多い場合には、算出対象の未知語が有効言語単位である可能性が高いことを示している。
【0038】
次に、算出対象未知語が用言であるか体言であるかを判定し(ステップ306)、用言の場合には更に活用語尾があるか否かを調べる(ステップ307)。語尾がある場合には算出対象の未知語が有効言語単位である可能性が高いので、Lに5を加算する(ステップ308)。
【0039】
一方、算出対象の単語がステップ306において用言でないと判定された場合であっても、固有名詞であって且つ固有接辞への接続がある場合(ステップ309、310)、例えば未知語の品詞が地名で次に続く単語の品詞が地名接尾であるような場合には、未知語が有効言語単位である可能性が高いのでLに2を加算する(ステップ311)。
【0040】
次に、ステップ312において、未知語の文字数を調べ文字数の2乗をLに加算する。文字が長いほど有効言語単位である可能性が高い。しかも、文字の長さと有効の度合いは指数関数的に変化すると考えられるので、ステップ312において文字数の2乗を得点として信頼度に加算する。
【0041】
最後に、ステップ313において、文字種が英字、記号、カタカナの何れかのみで構成されているか否かを判定する。通常、同一文字種が連続する場合には、有効言語単位である可能性が高い。そこで、同一文字種が連続して構成された単語の場合には、Lに2を加算する(ステップ314)。
【0042】
未知語検出部109は、未知語バッファ111の算出対象の未知語の信頼度Lを例えば4段階にクラス分けする。そして、最も信頼度が高い信頼度レベルを“1”とし、最も信頼度が低い信頼度レベルを4として、信頼度Lを1〜4の4つの信頼度レベルに分類し、各未知語毎に信頼度レベルを付与する。
【0043】
図4は未知語バッファ111の格納例を示している。
【0044】
例えば、未知語バッファ111に格納されている未知語「安め」は、参照単語辞書106に単語IDがf3d1として登録されており、辞書内の頻度情報が8で、対象となった文章中に2回出現しており、形容動詞で活用が無いことが示されている。この未知語「安め」の信頼度レベルは1で、有効言語単位である可能性が極めて高いことが示される。
【0045】
逆に、未知語バッファ111に格納されている未知語「ヴァレー」は、対象文章中に1回出現し、形態素解析の結果、サ変名詞で活用がないことは検出されたが、参照単語辞書106に登録されておらず、信頼度レベルは3で無効言語単位である可能性が比較的高いことが示されている。
【0046】
抽出された全ての未知語は、図2のステップ219において、未知語検出部109によって未知語バッファ111から読み出され、見出し及び品詞に加えて信頼度レベルが出力装置112に供給される。出力装置112は未知語に関する入力された情報を表示画面上に表示する。例えば、出力装置112は、図4と同様の表示を画面上に表示してもよい。
【0047】
オペレータは出力装置112の表示画面上の表示を参考にすることで、未知語のユーザ辞書への登録を、極めて簡単に行うことができる。
【0048】
このように、本実施の形態においては、抽出した未知語について、大語彙セットの参照単語辞書に登録されているか否か、辞書に登録されている頻度情報、文章中の出現回数、単語長、品詞、見出し文字種等を用いてその信頼度を算出して表示することで、未知語が有効言語単位であるか無効言語単位であるかを判断しやすくしており、高品質のユーザ辞書を容易に構築することを可能にしている。そして、信頼度の算出に際して、電子辞書利用装置に備えられる基本単語辞書だけでなく、未知語登録のための大語彙セットである参照単語辞書を用いており、参照単語辞書に登録されているか否かによって有効言語単位であるか無効言語単位であるかの判定の正確性を向上させている。
【0049】
図5は本発明の第2の実施の形態を示すブロック図である。図5において図1と同一の構成要素には同一符号を付して説明を省略する。
【0050】
第1の実施の形態においては、未知語の信頼度を表示画面上に表示させることで、オペレータのユーザ辞書の構築を容易にした。本実施の形態は所定レベル以上の信頼度の未知語のみを表示させると共に、表示させる信頼度の範囲を設定可能にし、更に、設定未知語の信頼度に応じて、有効言語単位と考えられる未知語を自動的にユーザ辞書に登録するようにしたものである。
【0051】
本実施の形態は、未知語検出部109に代えて未知語検出部509を採用すると共に、検出レベル調整部512、未知語登録部513、未知語編集部514及びユーザ辞書515を付加した点が第1の実施の形態と異なる。
【0052】
検出レベル調整部512は、未知語検出部509に制御されて、有効言語単位であるか否かの決定又は表示させるか否かの決定に用いる信頼度レベルの閾値(以下、検出レベルという)を設定するようになっている。なお、検出レベルは入力装置101によってオペレータが適宜設定可能である。
【0053】
未知語検出部509は、図1の未知語検出部109と同様の手法によって、未知語の信頼度を算出すると共に、入力装置101によって未知語を表示させるための指示が与えられると、検出レベル調整部512によって設定された検出レベル以上の値を有する未知語のみを未知語バッファ111から読み出して、出力装置112に出力するようになっている。
【0054】
また、未知語の画面表示中に、入力装置101によって検出レベルの設定変更の指示が発生した場合には、未知語検出部509は、変更された検出レベルに従って未知語バッファ111からの未知語の抽出をやり直し、変更後の検出レベル以上の値を有する未知語を出力装置112に出力する。
【0055】
本実施の形態においては、未知語登録部513は、検出レベル以上の信頼度レベルを有する未知語をユーザ辞書515に自動的に登録することができるようになっている。例えば、未知語登録部513は、未知語検出終了後或いは未知語表示後に、入力装置101から未知語の登録指示があった場合には、検出レベル調整部512によって設定された検出レベル以上の値を有する未知語を未知語バッファ111から順次読み出し、ユーザ辞書515に登録する。
【0056】
また、本実施の形態においては、ユーザ辞書に登録する未知語を適宜編集することも可能である。例えば、未知語編集部514は、未知語表示中に入力装置101から任意の未知語を指定した上で修正指示があった場合には、修正指示に応じて対象の未知語の情報を表示と共に修正し、修正した内容を未知語バッファ111に書き込む。これにより、オペレータは、表示された未知語の見出し及び品詞等を適宜修正して、未知語バッファ111に記憶させることができる。
【0057】
次に、このように構成された実施の形態の動作について図6及び図7を参照して説明する。図6は未知語の抽出・登録処理をする際の処理の流れを示すフローチャートである。また、図7は図4の未知語に対して検出レベルの指定を行った上で一覧表示を指示した場合の画面表示例を示す説明図である。
【0058】
図6のステップ601において、オペレータが入力装置101から未知語検出レベルの調整を指示すると、検出レベル調整部512は出力装置112の表示画面上にスライドバー等のGUI表示を行う。オペレータはこのGUI表示を利用して、任意の検出レベルを選択する。検出レベル調整部512は、新たに設定された検出レベルを保持する(ステップ602)。
【0059】
いま、未知語検出部509によって、検出済み未知語の一覧が出力装置112の表示画面上に表示中であるものとする。この場合には、ステップ603からステップ604に処理を移行して、一旦一覧表示を消去する(ステップ604)。次に、未知語検出部509は、再度、未知語バッファ111から検出レベル調整部512に設定された検出レベル以上の値を有する未知語を抽出し(ステップ605)、出力装置112の表示画面上に表示させる(ステップ606)。なお、ステップ603において未知語が表示中でないものと判断された場合には、オペレータの指示待ちとなる。
【0060】
図7は図4の未知語に対して、検出レベルの指定を行った上で一覧表示を指示した場合の画面表示例を示している。図7(a)は図4の未知語のうち信頼度レベルが2又は1の未知語を表示した例を示している。また、図7(b)は図4の未知語のうち信頼度レベルが1〜3の未知語を表示した例を示している。なお、図7(a)の表示が表示されている状態において、未知語の検出レベルを信頼度レベル3に設定変更すると、画面表示も図7(b)に示す表示に切換る。
【0061】
オペレータの指示が検出レベルの調整ではなく、未知語の抽出であった場合には、ステップ607から処理をステップ608に移行し、ステップ608〜ステップ612において、図2と同様の未知語処理を行う。即ち、形態素解析部103は、基本単語辞書105、参照単語辞書106、接続辞書107、評価ルール108を用いて、文書バッファ104に格納された文書を順次読み出して形態素解析し(ステップ608)、その結果となる単語列を単語列バッファ110に格納する(ステップ609)。
【0062】
全ての文書の解析が終了すると、未知語検出部509は単語列バッファ110から未知語を選択して、その単語の出現回数をカウントし(ステップ610)、辞書格納の有無、出現回数及び単語長等から求めた信頼度レベルを付与する(ステップ611)。信頼度レベルが付与された未知語情報は他の単語情報と共に未知語バッファ111に格納される(ステップ612)。
【0063】
オペレータの指示が未知語表示であった場合には、ステップ613からステップ605に処理を移行して、未知語検出部509は、未知語バッファ111から検出レベル調整部512に設定された検出レベル以上の値の未知語を抽出して(ステップ605)、出力装置112の表示画面上に表示させる(ステップ606)。
【0064】
オペレータの指示が表示中の未知語の修正指示であった場合には、処理をステップ614からステップ615に移行する。この場合には、未知語編集部514は、指定された未知語の情報を未知語バッファ111から読み出して画面上に表示させる(ステップ615)。オペレータは、表示された未知語の単語情報の必要な部分を修正する(ステップ616)。修正が終了すると、未知語編集部514は修正された未知語の情報を未知語バッファ111内の当該未知語のレコードに上書きする(ステップ617)。
【0065】
オペレータの指示が未知語の登録であった場合には、ステップ618からステップ619に処理を移行する。この場合には、未知語登録部513は、未知語バッファ111から検出レベル調整部512に設定された検出レベル以上の値の未知語を抽出し(ステップ619)、ユーザ辞書515に順次登録する(ステップ620)。
【0066】
なお、登録する未知語は特に画面上に表示されている必要はなく、未知語抽出と未知語登録とを一括で行ってもよい。未知語登録部513は、ユーザ辞書に登録した未知語を未知語バッファ111から削除する(ステップ621)。
【0067】
このように、本実施の形態においては、所定の信頼度以上の未知語を抽出するための設定を可能にして、抽出した未知語のみを画面上に表示させることで、ユーザの登録作業を容易にしている。更に、所定の信頼度以上の未知語については、自動的にユーザ辞書に登録することも可能である。これにより、ユーザの煩雑な操作を必要とすることなく、高い品質のユーザ辞書が構築可能である。また、登録すべきか否かを信頼度レベルによって自由に設定可能で、また、登録する未知語の情報も自由に変更可能であり、辞書構築の自由度が高い。
【0068】
なお、本発明は上記実施の形態に限定されるものではなく、種々の応用,変形が可能である。例えば、形態素解析を対象としているが、文解析に形態素解析を用いる音声あるいは文字認識、音声読み上げ、翻訳、カナ漢字変換等に応用可能である。また、音声認識に適用する場合には、基本単語辞書は音声認識用のシステム辞書と同語彙の形態素解析用辞書、参照単語辞書は形態素解析辞書以外の大語彙辞書とし、未知語情報としての見出し・品詞の他に発音あるいは読み等の情報を参照辞書上に格納しておくか、あるいは単漢字辞書等を用意し、適当な読みを付与すればよい。
【0069】
【発明の効果】
以上説明したように本発明によれば、単語辞書の格納情報、解析対象文書における出現回数、単語長及び文字種等に基づいて、形態素解析結果によって抽出された未知語の信頼性を求め、その結果に応じてユーザ辞書への登録を行うことにより、オペレータの作業を著しく簡単化し、短時間で高い品質のユーザー辞書を構築することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る辞書登録支援装置を示すブロック図。
【図2】未知語を抽出する際の処理の流れを示すフローチャート。
【図3】未知語に対する信頼度の算出方法を示すフローチャート。
【図4】図1中の未知語バッファ111の未知語の格納例を示す説明図。
【図5】本発明の第2の実施の形態を示すブロック図。
【図6】未知語の抽出・登録処理をする際の処理の流れを示すフローチャート。
【図7】図4の未知語に対して検出レベルの指定を行った上で一覧表示を指示した場合の画面表示例を示す説明図。
【符号の説明】
101…入力装置、103…形態素解析部、105…基本単語辞書、106…参照単語辞書、109…未知語検出部、111…未知語バッファ、112…出力装置。

Claims (11)

  1. 形態素解析部を有する未知語抽出部、未知語検出部及び出力部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、
    前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、
    前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、
    前記出力部が、前記未知語抽出ステップにおいて抽出した未知語毎に前記信頼度算出ステップの算出結果を提示する提示ステップとを具備し、
    前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援方法。
  2. 前記未知語抽出ステップは、前記未知語抽出部が、基本単語辞書と参照単語辞書とを用いた形態素解析を行い、前記基本単語辞書に未登録で前記参照単語辞書にのみ登録されている単語及び前記基本単語辞書及び参照単語辞書のいずれにも登録されていない単語を未知語と判定することを特徴とする請求項1に記載の辞書構築支援方法。
  3. 前記信頼度算出ステップは、前記未知語検出部が、前記未知語が前記参照単語辞書に登録されているか否かに基づいて前記信頼度を算出することを特徴とする請求項2に記載の辞書構築支援方法。
  4. 形態素解析部を有する未知語抽出部、未知語検出部及び未知語登録部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、
    前記未知語抽出部が、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出ステップと、
    前記未知語検出部が、前記未知語抽出ステップにおいて抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出ステップと、
    前記未知語登録部が、前記未知語抽出ステップにおいて抽出した未知語のうち前記信頼度算出ステップの算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録ステップとを具備し、
    前記信頼度算出ステップは、前記未知語抽出ステップにおいて抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援方法。
  5. 前記提示ステップは、前記出力部が、前記信頼度算出ステップの算出結果によって所定の閾値以上の信頼度を有するものと示された未知語のみを提示することを特徴とする請求項1に記載の辞書構築支援方法。
  6. 前記提示ステップは、前記出力部が、前記所定の閾値をユーザ操作によって設定させるための提示を行うステップを含むことを特徴とする請求項5に記載の辞書構築支援方法。
  7. 前記提示ステップは、前記出力部が、提示された前記未知語に関する情報を修正させるための提示を行うステップを含むことを特徴とする請求項5に記載の辞書構築支援方法。
  8. 入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出手段と、
    前記未知語抽出手段が抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出手段と、
    前記未知語抽出手段が抽出した未知語毎に前記信頼度算出手段の算出結果を提示する提示手段とを具備し、
    前記信頼度算出手段は、前記未知語抽出手段が抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援装置。
  9. 入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出手段と、
    前記未知語抽出手段が抽出した未知語が有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出手段と、
    前記未知語抽出手段が抽出した未知語のうち前記信頼度算出手段の算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録手段とを具備し、
    前記信頼度算出手段は、前記未知語抽出手段が抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて信頼度を算出することを特徴とする辞書構築支援装置。
  10. 形態素解析部を有する未知語抽出部、未知語検出部及び出力部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援プログラムであって、
    前記コンピュータに、
    前記未知語抽出部によって、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出処理手順と、
    前記未知語検出部によって、前記未知語抽出処理手順において抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて、有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出処理手順と、
    前記出力部によって、前記未知語抽出処理手順において抽出した未知語毎に前記信頼度算出処理手順の算出結果を提示する提示処理手順とを実行させる辞書構築支援プログラム。
  11. 形態素解析部を有する未知語抽出部、未知語検出部及び未知語登録部を備えたコンピュータによって、辞書構築の支援を行う辞書構築支援方法であって、
    前記コンピュータに、
    前記未知語抽出部によって、入力された文書に対して形態素解析を行って未知語を抽出する未知語抽出処理手順と、
    前記未知語検出部によって、前記未知語抽出処理手順において抽出した未知語について、少なくとも前記入力された文書内の出現回数の情報に基づく値を含み、固有接辞の有無に基づく値、用言の語尾の有無に基づく値、文字数及び文字種に基づく値のうちの少なくとも2つ以上の値を用いた演算結果に基づいて、有効言語単位であるか否かの度合いである信頼度を算出する信頼度算出処理手順と、
    前記未知語登録部によって、前記未知語抽出処理手順において抽出した未知語のうち前記信頼度算出処理手順の算出結果によって所定の閾値以上の信頼度を有するものと示された未知語をユーザ辞書に登録する登録処理手順とを実行させる辞書構築支援プログラム。
JP2002054442A 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム Expired - Fee Related JP3935374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002054442A JP3935374B2 (ja) 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002054442A JP3935374B2 (ja) 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2003256415A JP2003256415A (ja) 2003-09-12
JP3935374B2 true JP3935374B2 (ja) 2007-06-20

Family

ID=28665600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002054442A Expired - Fee Related JP3935374B2 (ja) 2002-02-28 2002-02-28 辞書構築支援方法、装置及びプログラム

Country Status (1)

Country Link
JP (1) JP3935374B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094024A1 (en) * 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
JP5748118B2 (ja) * 2010-12-01 2015-07-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム

Also Published As

Publication number Publication date
JP2003256415A (ja) 2003-09-12

Similar Documents

Publication Publication Date Title
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JPH07325824A (ja) 文法チェックシステム
US20080077397A1 (en) Dictionary creation support system, method and program
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
JP2000298667A (ja) 構文情報による漢字変換装置
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP4039635B2 (ja) 言語情報処理装置
KR102523767B1 (ko) Bleu 스코어를 기초로 유사 문장에 대한 검색을 수행하는 전자 장치 및 그 동작 방법
JP2621999B2 (ja) 文書処理装置
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP3362036B2 (ja) 機械翻訳方法および装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JPS63163956A (ja) 文書作成・校正支援装置
JPH0612453A (ja) 未知語抽出登録装置
JP2776069B2 (ja) 文章検査装置
JP2023146547A (ja) 抽出プログラム、装置、及び方法
JPH05282293A (ja) 文書作成装置
JP3118880B2 (ja) 日本語文章処理装置
JPH06266765A (ja) 文章検索装置
JPH11282837A (ja) 日本語形態素解析装置、日本語形態素解析方法および記録媒体
JP2002351868A (ja) 電子辞書
JPH0682367B2 (ja) 文書作成・校正支援装置
JPH03242755A (ja) カタカナ単語誤り検出訂正装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070319

LAPS Cancellation because of no payment of annual fees