JP2006155528A - 辞書登録装置、辞書登録方法および辞書登録プログラム - Google Patents

辞書登録装置、辞書登録方法および辞書登録プログラム Download PDF

Info

Publication number
JP2006155528A
JP2006155528A JP2004349049A JP2004349049A JP2006155528A JP 2006155528 A JP2006155528 A JP 2006155528A JP 2004349049 A JP2004349049 A JP 2004349049A JP 2004349049 A JP2004349049 A JP 2004349049A JP 2006155528 A JP2006155528 A JP 2006155528A
Authority
JP
Japan
Prior art keywords
word
notation
unknown word
unknown
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004349049A
Other languages
English (en)
Other versions
JP4304146B2 (ja
Inventor
Hisayoshi Nagae
尚義 永江
Yukihiro Fukunaga
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004349049A priority Critical patent/JP4304146B2/ja
Publication of JP2006155528A publication Critical patent/JP2006155528A/ja
Application granted granted Critical
Publication of JP4304146B2 publication Critical patent/JP4304146B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】複数の文字種が含まれる単語を辞書に登録する辞書登録装置を提供すること。
【解決手段】単語を保持する辞書121を記憶する辞書記憶手段と、入力文書を形態素解析し未知語を抽出する形態素解析部102と、前記未知語の前方と後方の少なくとも一方の単語を結合した拡張未知語を生成する未知語範囲拡張部103と、前記未知語を拡張した部分の表記が一致する単語であって前記辞書に登録されている既登録単語を検索する部分一致検索部104と、前記既登録単語のうち前記未知語に相当する部分の表記の文字属性と前記未知語の表記の文字属性とに基づき、表記の類似性を判定する表記類似性判定部105と、前記表記類似性判定部105が前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定した場合に、前記拡張未知語を前記辞書に登録する辞書登録部106とを備えた。
【選択図】 図1

Description

この発明は、辞書に登録されていない単語を辞書へ登録する辞書登録装置、辞書登録方法および辞書登録プログラムに関するものである。
近年、パソコンや携帯電話等において日本語の文章を入力する手段として、一般にかな漢字変換システムが使用されている。また、最近では音声で文字を入力できる音声認識システムも使用され始めている。これらのシステムでは、ひらがなの入力文字を漢字仮名混じり文に変換する際、システムの辞書に登録されている単語の組合せの中で最適な表記列に変換する。従って、ユーザが希望する表記の単語が辞書に登録されていない場合には正しく変換されず、システムの辞書に登録されている単語の表記を適当に並べて誤った表記列に誤変換されてしまう。
辞書登録装置は、このような不都合を解消するために、システムの辞書に登録されていない単語である未知語を辞書へ追加登録する装置である。未知語を辞書に登録する方法としては、ユーザが入力画面から単語の表記、読み、品詞等の情報を一語ずつ入力し辞書に登録する方法と、ユーザが指定した文書を形態素解析し、抽出した未知語を一括して辞書に登録する方法が開発されている。
ユーザが指定した文書から未知語を抽出して登録する方法においては、システムの辞書に登録されていない単語が抽出された場合、当該単語の部分文字列のうち文字種が同一で連続する範囲を一語の未知語として推定する機能が開発されている(例えば、特許文献1)。
特開平2−163874号公報
しかしながら、文字種が同一で連続する範囲を一語の未知語として推定する方法によると、例えばカタカナとアラビア数字が結合した単語のように、複数の文字種が含まれる単語は一語として抽出することができない。このため、複数の文字種が含まれる単語を一語として正しく登録するためには、抽出された単語をユーザが確認し修正する必要があるという問題があった。
本発明は、上記に鑑みてなされたものであって、文字種で区切ることにより未知語を抽出するだけでなく、抽出された未知語の前方と後方の少なくとも一方の単語を抽出された未知語に結合して拡張未知語を生成し、生成した拡張未知語に類似する単語が辞書に既に登録されている場合は、当該拡張未知語も未知語として抽出することにより、複数の文字種が含まれる単語も同時に辞書に登録することができる辞書登録装置、辞書登録方法および辞書登録プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、単語を保持する辞書を記憶する辞書記憶手段と、入力文書を形態素解析し、前記入力文書の中から前記辞書に登録されていない未知語を抽出する形態素解析手段と、前記形態素解析手段が抽出した前記未知語の前方と後方の少なくとも一方の単語を前記未知語に結合した拡張未知語を生成する未知語範囲拡張手段と、前記未知語範囲拡張手段が生成した前記拡張未知語のうち、前記未知語を拡張した部分の表記が一致する単語であって前記辞書に登録されている既登録単語を前記辞書から検索する部分一致検索手段と、前記部分一致検索手段が検索した前記既登録単語のうち前記未知語に相当する部分の表記の文字属性と前記未知語の表記の文字属性とに基づき、前記部分一致検索手段が検索した前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記との類似性を判定する表記類似性判定手段と、前記表記類似性判定手段が前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定した場合に、前記拡張未知語を前記辞書に登録する辞書登録手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる辞書登録方法および辞書登録プログラムである。
本発明によれば、ユーザが指定した文書から未知語を抽出し辞書に登録するとき、文字種で区切ることにより未知語と推定された単語の表記だけでなく、未知語と推定された単語の前方と後方の少なくとも一方の単語を結合した単語であって、類似する単語が辞書に既に登録されている単語も未知語として抽出することができる。このため、複数の文字種が含まれる単語も同時に辞書に登録することができ、未知語抽出の精度を高めることができる。また、抽出された未知語の確認などのユーザの作業負担を軽減することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる辞書登録装置、辞書登録方法および辞書登録プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる辞書登録装置は、ユーザが指定した文書から形態素解析により未知語を抽出し、抽出した未知語の範囲を拡張し、拡張した未知語のうち未知語を拡張した部分が一致する単語であって、未知語に相当する部分の文字種が未知語の文字種と同一である単語が辞書に存在する場合は、当該拡張した未知語を抽出した未知語と同時に辞書に登録するものである。
図1は、第1の実施の形態にかかる辞書登録装置100の構成を示すブロック図である。同図に示すように、辞書登録装置100は、入出力制御部101と、形態素解析部102と、未知語範囲拡張部103と、部分一致検索部104と、表記類似性判定部105と、辞書登録部106と、ユーザI/F110とを備えている。また、本実施の形態にかかる辞書登録装置100は、RAM(Random Access Memory)130に単語列バッファ131と、未知語バッファ132とを保存し、ハードディスクドライブ装置(HDD:Hard Disk Drive)に解析ルール120と、辞書121とを保存している。HDDは、本発明における辞書記憶手段に相当する。
入出力制御部101は、ユーザI/F110を制御する処理部であり、ユーザI/Fへの入出力指示およびユーザI/F110と他の機能部との間で入出力データの授受を行う。
形態素解析部102は、入力された文書を解析ルール120および辞書121を参照して形態素解析することにより単語に分割し、単語列バッファ131に格納する。
未知語範囲拡張部103は、拡張未知語を生成し、後述する部分一致検索部104および表記類似性判定部105と連動して当該拡張未知語の辞書への登録の有効性を判定し、有効と判定された場合は当該拡張未知語を辞書登録のために未知語バッファ132に格納するものである。ここで、拡張未知語とは、形態素解析部102により抽出された未知語の前方または後方または前後両方の単語、すなわち抽出された未知語の前方と後方の少なくとも一方の単語を結合して未知語を拡張した単語をいう。
部分一致検索部104は、未知語範囲拡張部103が生成した拡張未知語に含まれる部分文字列のうち、未知語を拡張した部分が一致する単語を辞書121から検索する。
表記類似性判定部105は、部分一致検索部104が検索した単語に含まれる部分文字列のうち、未知語に相当する部分が、形態素解析部102により抽出された未知語と類似するか否かを判定する。
辞書登録部106は、部分一致検索部104が検索した単語に含まれる部分文字列のうち、未知語に相当する部分が形態素解析部102により抽出された未知語と類似すると表記類似性判定部105によって判定されたとき、未知語範囲拡張部103が生成した拡張未知語を辞書121に登録するものである。
ユーザI/F110は、ディスプレイ装置等の表示装置と、キーボードやマウスなどの入力装置であり、文書指定画面、未知語確認画面の表示を行うとともに、これらの画面からの入力操作を受付ける。
解析ルール120は、品詞間の結合度等の文法規則や、単語選択の優先規則などの形態素解析に必要なルールが記述されている。
辞書121は、単語を保持する辞書であり、一般的なかな漢字変換システムや音声認識システムなどで使用される辞書である。図2は、辞書121の構造の一例を示す説明図である。同図に示すように、辞書121は、辞書番号と、単語の表記と、単語の読みと、単語の品詞とを格納している。
RAM130は、ランダムアクセスが可能なメモリであり、単語列バッファ131や、未知語バッファ132を一時的に保存するための記憶部として機能する。単語列バッファ131は、形態素解析部102により抽出された単語列を格納する。未知語バッファ132は、形態素解析部102により抽出された未知語と、未知語範囲拡張部103により生成された拡張未知語を格納する。
図3は、単語列バッファ131の構造の一例を示す説明図である。同図に示すように、単語列バッファ131は、単語番号と、単語の表記と、単語の読みと、単語の品詞とを格納している。
図4は、未知語バッファ132の構造の一例を示す説明図である。同図に示すように、未知語バッファ132は、未知語または拡張未知語の表記と、単語列バッファ131内の当該未知語または拡張未知語に対応する単語の単語番号である解析結果単語番号とを格納している。また、拡張未知語の場合には、結合した各単語の単語番号を並べて解析結果単語番号に格納している。
次に、このように構成された第1の実施の形態にかかる辞書登録装置100による未知語登録処理について説明する。図5は、第1の実施の形態における未知語登録処理の全体の流れを示すフローチャートである。
まず、入出力制御部101がユーザI/F110に文書指定画面を表示する(ステップS501)。図6−1、図6−2は、文書指定画面の内容を示す模式図である。図6−1に示すように、文書指定画面には、参照ボタン601、削除ボタン602、次へボタン603、キャンセルボタン604が表示されている。参照ボタン601が押下されると、図6−2に示すようなファイル参照画面605を表示する。ファイル参照画面605で、新語登録する単語が含まれている文書ファイルを指定することができる。文書ファイルは複数指定することができる。指定した文書ファイルを選択し削除ボタン602を押下すると、当該文書ファイルの指定を解除することができる。次へボタン603が押下されると、入力された文書ファイルの指定を受付け、未知語登録処理を開始する。キャンセルボタン604が押下されると、未知語登録処理を中止する。
文書指定画面で文書ファイル名が指定され、次へボタン603が押下されると、形態素解析部102が、ユーザにより指定された文書ファイル内の文書を形態素解析し、解析の結果得られた単語を単語列バッファ131に格納する(ステップS502)。次に、未知語範囲拡張部103が、単語列バッファ131から単語を取得し(ステップS503)、取得した単語の品詞情報を参照し、取得した単語が未知語または未知語に準ずる語(以下、単に未知語という。)であるか否かを判断する(ステップS504)。ここで、未知語に準ずる語とは、例えば英字や数字などのように、辞書にあっても単語として意味を持たない語を示す。
取得した単語が未知語でない場合は(ステップS504:NO)、単語列バッファ131内のすべての単語を処理したか否かの判断処理に遷移する(ステップS515)。取得した単語が未知語である場合は(ステップS504:YES)、取得した未知語を未知語バッファ132に格納する(ステップS505)。
次に、未知語範囲拡張部103が、取得した未知語の前の単語を取得した未知語に結合して拡張した拡張未知語を生成し、生成した拡張未知語を部分一致検索部104に渡し、部分一致検索部104は拡張未知語の未知語相当部分以外が前方一致する単語を辞書121から検索する(ステップS506)。
未知語範囲拡張部103は、該当する単語が辞書121に存在するか否かを判断する(ステップS507)。存在しない場合は(ステップS507:NO)、最初の単語まで処理したか否か、すなわち、文書の最初の単語まで遡って前の単語の結合がなされたか否かを判断する処理に遷移する(ステップS514)。
該当する単語が辞書121に存在する場合は(ステップS507:YES)、未知語範囲拡張部103は、未知語の後ろの単語を結合してさらに拡張した拡張未知語を未知語バッファ132に格納する(ステップS508)。なお、前の単語を結合した直後の初回は、後ろの単語は結合せず、前の単語のみを結合した拡張未知語に対し、以降の部分一致検索処理、表記類似性判定処理を行う。その後、順次後ろの単語を結合した拡張未知語に対し同様の処理を行う。
次に、部分一致検索部104は、拡張未知語の未知語相当部分以外の文字列が部分一致する単語を辞書121から検索する(ステップS509)。さらに、未知語範囲拡張部103が、該当する単語が辞書121に存在するか否かを判断する(ステップS510)。存在しない場合は(ステップS510:NO)、最後の単語まで処理したか否か、すなわち、文書の最後の単語まで単語の結合がなされたか否かを判断する処理に遷移する(ステップS513)。
該当する単語が辞書121に存在する場合は(ステップS510:YES)、表記類似性判定部105が、該当する単語の未知語相当部分の文字種が、単語列バッファ131から取得した未知語の文字種と同一であるか否かを判断する(ステップS511)。同一でない場合は(ステップS511:NO)、拡張未知語を未知語バッファ132から削除する(ステップS512)。当該拡張未知語と類似する単語が辞書121に登録されていないため、当該拡張未知語を辞書121に追加登録するのは妥当でないと判断されたためである。
拡張未知語を削除した後、または文字種が同一である場合は(ステップS511:YES)、未知語範囲拡張部103は、文書の最後の単語まで処理したか否かを判断し(ステップS513)、最後の単語まで処理していない場合は(ステップS513:NO)、次の後ろの単語に対して処理を繰り返す(ステップS508)。最後の単語まで処理した場合は(ステップS513:YES)、次の処理に遷移する。
未知語範囲拡張部103は、文書の最初の単語まで処理したか否かを判断し(ステップS514)、最初の単語まで処理していない場合は(ステップS514:NO)、次の前の単語に対して処理を繰り返す(ステップS506)。最初の単語まで処理した場合は(ステップS514:YES)、次の処理に遷移する。
未知語範囲拡張部103は、単語列バッファ131内のすべての単語を処理したか否かを判断し(ステップS515)、すべての単語を処理していない場合は(ステップS515:NO)、次の単語を単語列バッファ131から取得し処理を繰り返す(ステップS503)。すべての単語を処理した場合は(ステップS515:YES)、次の処理に遷移する。
入出力制御部101は、上記処理で抽出した未知語および拡張未知語を辞書121に登録するか否かをユーザに確認させるための未知語確認画面をユーザI/F110に表示する(ステップS516)。
図7は、未知語確認画面の内容を示す模式図である。同図に示すように、未知語確認画面には、未知語または拡張未知語の表記、読み、品詞が一覧表示され、個々の未知語または拡張未知語の左側にチェックボックス701が表示されている。また、未知語確認画面の下部には、全て選択ボタン702、全て解除ボタン703、修正ボタン704、戻るボタン705、次へボタン706、キャンセルボタン707が表示されている。
ユーザがチェックボックス701をチェックすることにより、その右側に表示されている未知語または拡張未知語を辞書121に登録することが指定される。全て選択ボタン702が押下されると、全てのチェックボックス701がチェックされる。全て解除ボタン703が押下されると、全てのチェックボックス701のチェックが解除される。修正ボタン704が押下されると、読みや品詞の修正を行う画面(図示せず)を表示し、ユーザが読みや品詞の修正を行うことができる。
戻るボタン705が押下されると、文書指定画面に戻り、再度文書ファイルの指定を行うことができる。次へボタン706が押下されると、指定された未知語または拡張未知語を辞書121に登録する。キャンセルボタン707が押下された場合は、未知語登録処理を中止する。
未知語確認画面が表示されると、入出力制御部101は、次へボタン706が押下されたか否かを判断する(ステップS517)。次へボタン706が押下されていない場合は(ステップS517:NO)、次へボタン706の入力待ち状態となる。次へボタン706が押下された場合は(ステップS517:YES)、辞書登録部106は指定された単語を辞書121へ登録し(ステップS518)、未知語登録処理が終了する。
このように、第1の実施の形態にかかる辞書登録装置100では、ユーザが指定した文書を形態素解析し未知語と推定された単語の表記だけでなく、未知語と推定された単語の前方と後方の少なくとも一方の単語を結合して拡張した単語であって、辞書121に既に登録されている単語と類似する単語も未知語として抽出し辞書に登録することができる。
(第2の実施の形態)
第2の実施の形態にかかる辞書登録装置は、拡張未知語と類似する単語との類似度を予め定められた類似度判定規則に従い算出し、算出した値が予め定められた値より大きい場合は、当該拡張未知語を、抽出した未知語と同時に辞書に登録するものである。
図8は、第2の実施の形態にかかる辞書登録装置800の構成を示すブロック図である。同図に示すように、辞書登録装置800は、入出力制御部101と、形態素解析部102と、未知語範囲拡張部103と、部分一致検索部104と、表記類似性判定部105と、辞書登録部106と、ユーザI/F110とを備えている。また、本実施の形態にかかる辞書登録装置800は、RAM130に単語列バッファ131と、未知語バッファ132とを保存し、HDDに解析ルール120と、辞書121と、類似度判定規則表801を保存している。HDDは、本発明における辞書記憶手段および類似度判定規則記憶手段に相当する。
第2の実施の形態においては、類似度判定規則表801を追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる辞書登録装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
類似度判定規則表801は、比較元文字の文字種と比較先文字の文字種ごとの文字類似度を保持する。図9は、類似度判定規則表801の構造の一例を示す説明図である。同図に示すように、類似度判定規則表801は、比較元文字と、比較先文字と、文字類似度とを格納している。
このように、類似度判定規則表801は対応する文字ごとの文字類似度を格納している。従って、文字列全体間の類似度は、比較する文字列の各文字の文字類似度の平均を求めることにより算出する。例として、文字列“ABC”と文字列“Def”との類似度を類似度判定規則表801に従い算出する場合を以下に示す。
文字列“ABC”の最初の文字“A”および文字列“Def”の最初の文字“D”の文字種は共に英大文字であり、類似度判定規則表801に定義されている文字類似度は100である。文字列“ABC”の2つ目の文字“B” の文字種は英大文字であり、文字列“Def”の2つ目の文字“e”の文字種は英小文字であるため、文字類似度は90である。さらに、文字列“ABC”の最後の文字“C” の文字種は英大文字であり、文字列“Def”の最後の文字“f”の文字種は英小文字であるため、文字類似度は90である。これらの文字類似度の平均値(100+90+90)/3=93が、文字列“ABC”と文字列“Def”との類似度を表す。
なお、比較する文字列の文字数が異なる場合は、直前の文字と同文字種であれば直前の文字の文字類似度に対する所定の割合、例えば8割を該文字の類似度とするように構成してもよい。また、比較する文字の位置により異なる類似度が算出される可能性がある場合には、その最大値を類似度とするように構成してもよい。
次に、このように構成された第2の実施の形態にかかる辞書登録装置800による未知語登録処理について説明する。図10は、第2の実施の形態における未知語登録処理の全体の流れを示すフローチャートである。
ステップS1001からステップS1010までの、文書指定画面表示処理、形態素解析処理、拡張未知語検索処理は、第1の実施の形態にかかる辞書登録装置100におけるステップS501からステップS510までと同様の処理なので、その説明を省略する。
拡張未知語の未知語相当部分以外の文字列が部分一致する単語が辞書121に存在する場合は(ステップS1010:YES)、表記類似性判定部105が、未知語と当該部分一致する単語の未知語相当部分の類似度を、類似度判定規則表801に従い算出する(ステップS1011)。次に、表記類似性判定部105が、算出した値が予め定められた値より大きいか否かを判断する(ステップS1012)。
類似度が予め定められた値より小さい場合は(ステップS1012:NO)、拡張未知語を未知語バッファ132から削除する(ステップS1013)。類似度が予め定められた値より大きい場合は(ステップS1012:YES)、文書の最後の単語まで処理したか否かを判断する処理に遷移する(ステップS1014)。
ステップS1014からステップS1019までの、処理完了チェック処理、未知語確認画面表示処理、辞書登録処理は、第1の実施の形態にかかる辞書登録装置100におけるステップS513からステップS518までと同様の処理なので、その説明を省略する。
図11−1〜図11−7は、第2の実施の形態にかかる辞書登録装置800において、上述した未知語登録処理に従って、ユーザが指定した文書ファイルから未知語および拡張未知語を検出して辞書121に登録する処理の例を示した説明図である。
図11−1〜図11−7に示す例では、ユーザにより図11−1に示す文書を格納した文書ファイルが指定された場合が示されている。まず、形態素解析部102が図11−1に示す文書を形態素解析し、得られた単語列が単語列バッファ131に格納される(ステップS1002)。前述の図3に、このときの単語列バッファ131の内容の一部が示されている。図3に示すように、この例では単語番号51に相当する単語“DME”が未知語として抽出される。
この単語列バッファ131を参照し、未知語範囲拡張部103は、単語番号51に相当する単語“DME”を未知語バッファ132に格納する(ステップS1005)。このときの未知語バッファ132は図11−2に示す状態になる。
次に、直前の単語“東芝”を結合した拡張未知語“東芝DME”の未知語相当部分以外である“東芝”と前方一致する単語を辞書121から検索する(ステップS1006)。例えば、前述の図2に示す単語が辞書121に登録されていた場合、前方一致する単語として“東芝”、“東芝AVE”、“東芝AVE株式会社”が検索される。前方一致する単語が存在するため、拡張未知語“東芝DME”が未知語バッファ132に格納される(ステップS1008)。このときの未知語バッファ132は図11−3に示す状態になる。
各単語の未知語相当部分と未知語“DME”の類似度を算出すると、“東芝”は未知語相当部分が存在しないため類似度は0、“東芝AVE”の未知語相当部分“AVE”は文字数、文字種がすべて一致するので類似度は100となる。“東芝AVE株式会社”の未知語相当部分“AVE株式会社”は、文字数が4多いため、その部分の文字類似度を0として算出すると類似度は43(=300/7)となる。類似すると判定する類似度の基準値を75とすると、条件を満たす単語“東芝AVE”(類似度100)が辞書121に存在することから、拡張未知語“東芝DME”は削除されることなく未知語バッファ132に残される(ステップS1012)。
次に、後方の単語“株式”を結合した拡張未知語“東芝DME株式”を未知語バッファ132に格納する(ステップS1008)。このときの未知語バッファ132は図11−4に示す状態になる。
当該拡張未知語の未知語相当部分以外である“東芝”、“株式”の部分が部分一致する単語を辞書121から検索するが、該当する単語が存在しないため、拡張未知語“東芝DME株式”は未知語バッファ132から削除される(ステップS1013)。
同様に、次の後方の単語“会社”を結合した拡張未知語“東芝DME株式会社”を未知語バッファ132に格納し、部分一致検索を実行すると類似する単語“東芝AVE株式会社”が存在し、未知語相当部分“AVE”の類似度が100になるため、当該拡張未知語は未知語バッファ132に残される。このときの未知語バッファ132は図11−5に示す状態になる。
この後、後方の単語“」”を結合した拡張未知語“東芝DME株式会社」”を未知語バッファ132に格納し(図11−6)、同様の処理を文末まで繰り返す。文末まで処理が行われた場合は、次の前方の単語を結合して同様の処理を文頭まで繰り返す(図11−7)。
このように、第2の実施の形態にかかる辞書登録装置800では、比較する文字の文字種ごとの文字類似度を格納した類似度判定規則表801に従い、拡張未知語と既登録単語の類似度を判定することができる。これにより文字種が同一でない拡張未知語であっても未知語として抽出することができ、未知語抽出の精度を高めることができる。
なお、第1および第2の実施の形態にかかる辞書登録装置においては、未知語および拡張未知語を画面に表示してユーザが確認できるように構成しているが、確認画面の表示やユーザによる単語の選別をせずに、未知語および拡張未知語をそのまま自動登録するように構成してもよい。
また、第1および第2の実施の形態にかかる辞書登録装置においては、先に前方の単語を結合して拡張未知語を生成し類似性を判定した後、後方の単語を結合して拡張未知語を生成しているが、先に後方の単語を結合するように構成してもよいし、前方または後方の単語のみを結合するように構成してもよい。
第1または第2の実施の形態にかかる辞書登録装置は、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。
第1または第2の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、第1または第2の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、第1または第2の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、第1または第2の実施の形態の辞書登録プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1または第2の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムは、上述した各部(入出力制御部、形態素解析部、未知語範囲拡張部、部分一致検索部、表記類似性判定部、辞書登録部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から辞書登録プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、入出力制御部、形態素解析部、未知語範囲拡張部、部分一致検索部、表記類似性判定部、辞書登録部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる辞書登録装置、辞書登録方法および辞書登録プログラムは、辞書に登録されていない単語を追加登録する機能を有する文書作成システム、かな漢字変換システム、音声認識システムに適している。
第1の実施の形態にかかる辞書登録装置の構成を示すブロック図である。 辞書の一例を示す説明図である。 単語列バッファの一例を示す説明図である。 未知語バッファの一例を示す説明図である。 第1の実施の形態にかかる辞書登録装置における未知語登録処理を示すフローチャートである。 文書指定画面の一例を示す模式図である。 文書指定画面の一例を示す模式図である。 未知語確認画面の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置の構成を示すブロック図である。 変換表記規則表の一例を示す説明図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理を示すフローチャートである。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。
符号の説明
100、800 辞書登録装置
101 入出力制御部
102 形態素解析部
103 未知語範囲拡張部
104 部分一致検索部
105 表記類似性判定部
106 辞書登録部
110 ユーザI/F
120 解析ルール
121 辞書
130 RAM
131 単語列バッファ
132 未知語バッファ
601 参照ボタン
602 削除ボタン
603 次へボタン
604 キャンセルボタン
605 ファイル参照画面
701 チェックボックス
702 全て選択ボタン
703 全て解除ボタン
704 修正ボタン
705 戻るボタン
706 次へボタン
707 キャンセルボタン
801 類似度判定規則表

Claims (9)

  1. 単語を保持する辞書を記憶する辞書記憶手段と、
    入力文書を形態素解析し、前記入力文書の中から前記辞書に登録されていない未知語を抽出する形態素解析手段と、
    前記形態素解析手段が抽出した前記未知語の前方と後方の少なくとも一方の単語を前記未知語に結合した拡張未知語を生成する未知語範囲拡張手段と、
    前記未知語範囲拡張手段が生成した前記拡張未知語のうち、前記未知語を拡張した部分の表記が一致する単語であって前記辞書に登録されている既登録単語を前記辞書から検索する部分一致検索手段と、
    前記部分一致検索手段が検索した前記既登録単語のうち前記未知語に相当する部分の表記の文字属性と前記未知語の表記の文字属性とに基づき、前記部分一致検索手段が検索した前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記との類似性を判定する表記類似性判定手段と、
    前記表記類似性判定手段が前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定した場合に、前記拡張未知語を前記辞書に登録する辞書登録手段と、
    を備えたことを特徴とする辞書登録装置。
  2. 前記表記類似性判定手段は、前記既登録単語のうち前記未知語に相当する部分の表記の文字種と、前記未知語の表記の文字種とが同一である場合に、前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定することを特徴とする請求項1に記載の辞書登録装置。
  3. 比較元文字の文字種と比較先文字の文字種ごとの文字類似度を保持する類似度判定規則表を記憶する類似度判定規則記憶手段をさらに備え、
    前記表記類似性判定手段は、前記類似度判定規則表に基づいて算出した前記既登録単語のうち前記未知語に相当する部分の表記の文字種と前記未知語の表記の文字種との類似度の値が予め定められた値より大きい場合に、前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定することを特徴とする請求項1に記載の辞書登録装置。
  4. 入力文書を形態素解析し、単語を保持する辞書を記憶する辞書記憶手段に記憶されている前記辞書に登録されていない未知語を、前記入力文書の中から抽出する形態素解析ステップと、
    前記形態素解析ステップが抽出した前記未知語の前方と後方の少なくとも一方の単語を前記未知語に結合した拡張未知語を生成する未知語範囲拡張ステップと、
    前記未知語範囲拡張ステップが生成した前記拡張未知語のうち、前記未知語を拡張した部分の表記が一致する単語であって前記辞書に登録されている既登録単語を前記辞書から検索する部分一致検索ステップと、
    前記部分一致検索ステップが検索した前記既登録単語のうち前記未知語に相当する部分の表記の文字属性と前記未知語の表記の文字属性とに基づき、前記部分一致検索ステップが検索した前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記との類似性を判定する表記類似性判定ステップと、
    前記表記類似性判定ステップが前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定した場合に、前記拡張未知語を前記辞書に登録する辞書登録ステップと、
    を備えたことを特徴とする辞書登録方法。
  5. 前記表記類似性判定ステップは、前記既登録単語のうち前記未知語に相当する部分の表記の文字種と、前記未知語の表記の文字種とが同一である場合に、前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定することを特徴とする請求項4に記載の辞書登録方法。
  6. 前記表記類似性判定ステップは、記憶手段に記憶された比較元文字の文字種と比較先文字の文字種ごとの文字類似度を保持する類似度判定規則表に基づいて算出した前記既登録単語のうち前記未知語に相当する部分の表記の文字種と前記未知語の表記の文字種との類似度の値が予め定められた値より大きい場合に、前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定することを特徴とする請求項4に記載の辞書登録方法。
  7. 入力文書を形態素解析し、単語を保持する辞書を記憶する辞書記憶手段に記憶されている前記辞書に登録されていない未知語を、前記入力文書の中から抽出する形態素解析手順と、
    前記形態素解析手順が抽出した前記未知語の前方と後方の少なくとも一方の単語を前記未知語に結合した拡張未知語を生成する未知語範囲拡張手順と、
    前記未知語範囲拡張手順が生成した前記拡張未知語のうち、前記未知語を拡張した部分の表記が一致する単語であって前記辞書に登録されている既登録単語を前記辞書から検索する部分一致検索手順と、
    前記部分一致検索手順が検索した前記既登録単語のうち前記未知語に相当する部分の表記の文字属性と前記未知語の表記の文字属性とに基づき、前記部分一致検索手順が検索した前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記との類似性を判定する表記類似性判定手順と、
    前記表記類似性判定手順が前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定した場合に、前記拡張未知語を前記辞書に登録する辞書登録手順と、
    をコンピュータに実行させる辞書登録プログラム。
  8. 前記表記類似性判定手順は、前記既登録単語のうち前記未知語に相当する部分の表記の文字種と、前記未知語の表記の文字種とが同一である場合に、前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定することを特徴とする請求項7に記載の辞書登録プログラム。
  9. 前記表記類似性判定手順は、記憶手段に記憶された比較元文字の文字種と比較先文字の文字種ごとの文字類似度を保持する類似度判定規則表に基づいて算出した前記既登録単語のうち前記未知語に相当する部分の表記の文字種と前記未知語の表記の文字種との類似度の値が予め定められた値より大きい場合に、前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定することを特徴とする請求項7に記載の辞書登録プログラム。
JP2004349049A 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム Active JP4304146B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004349049A JP4304146B2 (ja) 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004349049A JP4304146B2 (ja) 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム

Publications (2)

Publication Number Publication Date
JP2006155528A true JP2006155528A (ja) 2006-06-15
JP4304146B2 JP4304146B2 (ja) 2009-07-29

Family

ID=36633704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004349049A Active JP4304146B2 (ja) 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム

Country Status (1)

Country Link
JP (1) JP4304146B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122807A (ja) * 2007-11-13 2009-06-04 Nomura Securities Co Ltd 連想検索システム
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text
US11157142B2 (en) 2017-10-27 2021-10-26 FUJIFLIM Business Innovation Corp. Document processing apparatus and non-transitory computer readable medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122807A (ja) * 2007-11-13 2009-06-04 Nomura Securities Co Ltd 連想検索システム
US10755594B2 (en) 2015-11-20 2020-08-25 Chrysus Intellectual Properties Limited Method and system for analyzing a piece of text
US11157142B2 (en) 2017-10-27 2021-10-26 FUJIFLIM Business Innovation Corp. Document processing apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP4304146B2 (ja) 2009-07-29

Similar Documents

Publication Publication Date Title
JP4058057B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP5235344B2 (ja) 機械翻訳を行う装置、方法およびプログラム
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP2006072744A (ja) 文書処理装置、その制御方法、プログラム、及び記憶媒体
JP4587165B2 (ja) 情報処理装置及びその制御方法
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP2009059159A (ja) 情報処理装置と情報処理方法とプログラム
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP5482236B2 (ja) プログラムおよび情報処理装置
JP4416644B2 (ja) 予測機能付き文字処理装置、方法、記録媒体およびプログラム
JP5379416B2 (ja) 言語処理装置および言語処理方法
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
JP4021813B2 (ja) 複合語登録プログラムおよび登録装置
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
JP5742454B2 (ja) 入力支援プログラム、入力支援装置、及び入力支援方法
JP5344649B2 (ja) 文字列変換装置、文字列変換方法、プログラムおよび記録媒体
JP2006155529A (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP2008084132A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2003178263A (ja) 文字認識装置及び記録媒体
JPH11345229A (ja) 文字処理装置及び文字処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007042144A (ja) 文書処理装置、文書処理方法およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090427

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4304146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140501

Year of fee payment: 5