JP2006155529A - 辞書登録装置、辞書登録方法および辞書登録プログラム - Google Patents

辞書登録装置、辞書登録方法および辞書登録プログラム Download PDF

Info

Publication number
JP2006155529A
JP2006155529A JP2004349050A JP2004349050A JP2006155529A JP 2006155529 A JP2006155529 A JP 2006155529A JP 2004349050 A JP2004349050 A JP 2004349050A JP 2004349050 A JP2004349050 A JP 2004349050A JP 2006155529 A JP2006155529 A JP 2006155529A
Authority
JP
Japan
Prior art keywords
notation
word
dictionary
conversion
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004349050A
Other languages
English (en)
Other versions
JP4192142B2 (ja
Inventor
Hisayoshi Nagae
尚義 永江
Yukihiro Fukunaga
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004349050A priority Critical patent/JP4192142B2/ja
Publication of JP2006155529A publication Critical patent/JP2006155529A/ja
Application granted granted Critical
Publication of JP4192142B2 publication Critical patent/JP4192142B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】今後入力する可能性のある単語の登録洩れをなくし、ユーザの単語登録の負荷を軽減するとともに文書入力時の誤変換を減少させる辞書登録装置を提供すること。
【解決手段】単語を保持する辞書121を記憶する辞書記憶手段と、前記辞書121に登録されていない未知語の入力を受付ける入力受付部101と、単語の表記と該表記と意味内容が関連する単語の表記とを予め対応付けた表記変換規則情報に基づいて、前記入力受付部101が受付けた前記未知語の表記を変換する表記変換部102と、表記変換部102が表記を変換した単語および前記未知語を前記辞書に登録する単語登録部103とを備えた。
【選択図】 図1

Description

この発明は、辞書に登録されていない単語を辞書へ登録する辞書登録装置、辞書登録方法および辞書登録プログラムに関するものである。
近年、パソコンや携帯電話等において日本語の文章を入力する手段として、一般にかな漢字変換システムが使用されている。また、最近では音声で文字を入力できる音声認識システムも使用され始めている。これらのシステムでは、ひらがなの入力文字を漢字仮名混じり文に変換する際、システムの辞書に登録されている単語の組合せの中で最適な表記列に変換する。従って、ユーザが希望する表記の単語が辞書に登録されていない場合には正しく変換されず、システムの辞書に登録されている単語の表記を適当に並べた誤った表記列に誤変換されてしまう。
辞書登録装置は、このような不都合を解消するために、システムの辞書に登録されていない単語を辞書へ追加登録する装置である。しかし、ユーザが使用する単語のうち、どの単語がシステムの辞書に登録されていないかを事前にすべて調べることは困難である。通常は、ユーザが文章を入力中に誤変換が発生した時に、初めてその単語が辞書に登録されていないことを知ることになる。従って誤変換を減らすためには、ユーザが未登録単語の存在に気付くたびに随時その単語を辞書に追加登録しなければならない。
このようなユーザによる単語登録の手間を軽減させるため、ユーザが過去に作成した文書ファイルからシステムの辞書に登録されていない単語を抽出し、辞書に一括登録する機能が開発されている(例えば、特許文献1)。
特開平2−163874号公報
しかしながら、辞書に一括登録する機能を使用した場合においても、今後使用する可能性があるが今まで入力したことがないため文書ファイル中に存在しない単語は辞書に追加登録されないという問題があった。例えば、過去に作成した文書では「右肺上葉」という単語は使用していたが、「左肺上葉」という単語は使用していなかった場合、文書中からは「右肺上葉」という単語しか検出されないため、「左肺上葉」という単語は辞書に登録されない。そのため、後日ユーザが「左肺上葉」と入力した時には、誤変換が発生してしまう。
本発明は、上記に鑑みてなされたものであって、ユーザが入力した単語または文書から検出された未知語だけでなく、入力した単語の表記または検出された未知語の表記を、関連する単語の表記に変換するための表記変換規則に従って変換し、変換後の表記の単語も同時に辞書に追加登録することにより、今後入力する可能性のある単語の登録洩れをなくし、ユーザの単語登録の負荷を軽減するとともに文書入力時の誤変換を減少させる辞書登録装置、辞書登録方法および辞書登録プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、単語を保持する辞書を記憶する辞書記憶手段と、前記辞書に登録されていない未知語の入力を受付ける入力受付手段と、単語の表記と該表記と意味内容が関連する単語の表記とを予め対応付けた表記変換規則情報に基づいて、前記入力受付手段が受付けた前記未知語の表記を変換する表記変換手段と、前記表記変換手段が表記を変換した単語および前記未知語を前記辞書に登録する単語登録手段とを備えたことを特徴とする。
また、本発明は、上記装置を実行することができる辞書登録方法および辞書登録プログラムである。
本発明によれば、辞書に登録されていない単語を辞書に登録するとき、登録のために入力した単語の表記だけでなく、入力した単語の表記と関連する単語の表記についても同時に登録することができる。このため、誤変換が発生するたびに未登録の単語を辞書に登録する手間を軽減し、誤変換の発生を減少させることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる辞書登録装置、辞書登録方法および辞書登録プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる辞書登録装置は、ユーザが入力した新語の表記を当該新語と関連する表記に変換し、変換した表記の単語も一括して辞書に登録するものである。
図1は、第1の実施の形態にかかる辞書登録装置100の構成を示すブロック図である。同図に示すように、辞書登録装置100は、入力受付部101と、表記変換部102と、単語登録部103と、ユーザI/F110とを備えている。また、本実施の形態にかかる辞書登録装置100は、ハードディスクドライブ装置(HDD:Hard Disk Drive)に表記変換規則表120と、辞書121とを保存している。HDDは、本発明における表記変換規則記憶手段および辞書記憶手段に相当する。
入力受付部101は、ユーザが入力した新語または文書ファイルから検出された未知語の入力を受付けるものである。ここで、新語とは、辞書に未登録であると認識してユーザが入力した単語のことをいう。また、未知語とは、辞書に登録されていない単語のことをいい、新語も未知語に含まれる。
表記変換部102は、表記変換規則表120に従って入力受付部101が受付けた単語の表記の変換を行うものである。表記変換規則表120の詳細については後述する。
単語登録部103は、表記変換部102が変換した単語を変換表記確認画面に表示するためにユーザI/F110に渡すとともに、変換表記確認画面で登録を指定された単語を辞書121に登録するものである。変換表記確認画面の詳細については後述する。
ユーザI/F110は、ディスプレイ装置等の表示装置と、キーボードやマウスなどの入力装置であり、入力画面、変換表記確認画面、登録結果確認画面の表示を行うとともに、これらの画面からの入力操作を受付ける。
表記変換規則表120は、単語の表記の変換規則を格納したものであり、表記変換部102によって参照される。図2は、表記変換規則表120の構造の一例を示す説明図である。同図の例に示すように、表記変換規則表120は、ある単語の表記に対する変換表記を格納している。例えば、表記“上”に対する変換表記として“下”が格納されている。変換表記は複数指定することができ、同図に示す例では、表記“1”に対しては“1”以外の1桁数字を示す2から9の数字を変換表記として指定している。
辞書121は、単語を保持する辞書であり、一般的なかな漢字変換システムや音声認識システムなどで使用される辞書である。図3は、辞書121の構造の一例を示す説明図である。同図に示すように、辞書121は、単語の表記と読みを格納している。辞書121には、これ以外の項目、例えば、品詞などを格納するように構成してもよい。
次に、このように構成された第1の実施の形態にかかる辞書登録装置100による未知語登録処理について説明する。図4は、第1の実施の形態における未知語登録処理の全体の流れを示すフローチャートである。
まず、ユーザI/F110が、新語の入力画面を表示する(ステップS401)。図5は、入力画面の内容を示す模式図である。同図に示すように、入力画面には、読み入力フィールド501、表記入力フィールド502、品詞入力フィールド503、登録ボタン504、キャンセルボタン505が表示されている。各入力フィールドに入力後、登録ボタン504が押下されると入力した単語が受付けられる。キャンセルボタン505が押下された場合は、未知語登録処理を中止する。
入力画面が表示されると、入力受付部101がユーザによる新語の入力を受付ける(ステップS402)。次に、表記変換部102が、入力を受付けた新語の中に表記変換規則表120の“表記”欄と一致する部分が含まれているか否かについて判断する(ステップS403)。入力を受付けた新語の表記と表記変換規則表120の表記との照合は、文字単位の最長一致文字列マッチングで行ってもよいし、新語の表記を形態素解析し、形態素に分割してから照合を行ってもよい。このように、新語の表記に含まれる部分文字列と表記変換規則表120の表記との一致判定は一般的なマッチング手法のいずれによって構成してもよい。
表記変換規則表120の“表記”欄と一致する部分が含まれていない場合は(ステップS403:NO)、単語登録部103は、受付けた新語を辞書121へ登録する(ステップS404)。一致する部分が含まれている場合は、(ステップS403:YES)表記変換部102は、該当する部分の表記に対応する変換表記を表記変換規則表120から取得し、入力を受付けた新語の該当部分の表記を取得した変換表記に変換する(ステップS405)。
一致する部分文字列が複数ある場合は、その組み合わせの数に相当する個数の単語が、表記を変換した単語として生成される。例えば、入力を受付けた新語が“右肺上葉”であった場合、部分文字列“右”、“上”が表記変換規則表120の表記と一致する。従って、“右肺下葉”、“左肺上葉”、“左肺下葉”の3つの単語が表記を変換した単語として生成される。
また、該当する部分の表記に対応する変換表記が複数指定されているときは、変換表記の数に相当する個数の単語が、表記を変換した単語として生成される。例えば、該当する部分の表記が数字の“1”であった場合、表記変換規則表120には対応する変換表記として数字の“2”から“9”までの8つの変換表記が指定されているため、“1”をそれぞれの数字に変換した8つの単語が表記を変換した単語として生成される。
次に、ユーザI/F110が、変換した表記の単語を変換表記確認画面に表示する(ステップS406)。図6は、変換表記確認画面の内容を示す模式図である。同図に示すように、変換表記確認画面には、変換した単語の表記、読み、品詞が一覧表示され、個々の単語の左側にチェックボックス601が表示されている。また、変換表記確認画面の下部には、登録ボタン602、キャンセルボタン603が表示されている。
チェックボックス601をチェックすることにより、その右側に表示されている変換した表記の単語を辞書121に登録することが指定される。登録ボタン602が押下されると、指定された単語を辞書121に登録する。キャンセルボタン603が押下された場合は、未知語登録処理を中止する。
なお、図6では、登録するか否かをチェックボックス601により指定することができるだけであるが、読みや品詞の修正も可能となるように変換表記確認画面を構成してもよい。
変換表記確認画面で登録ボタン602が押下されると、単語登録部103はチェックボックス601をチェックすることにより辞書121への登録が指定された表記が存在するか否かを判断する(ステップS407)。登録が指定された表記が存在しない場合は(ステップS407:NO)、単語登録部103は受付けた新語のみを辞書121へ登録する(ステップS404)。登録が指定された表記が存在する場合は(ステップS407:YES)、単語登録部103は、受付けた新語と登録が指定された表記を辞書121へ登録する(ステップS408)。
次に、ユーザI/F110が、辞書121に登録した単語を登録結果確認画面に表示する(ステップS409)。図7は、登録結果確認画面の内容を示す模式図である。同図に示すように、登録結果確認画面には、辞書121に登録した単語の表記、読み、品詞が一覧表示され、画面の下部には、閉じるボタン701が表示されている。閉じるボタン701を押下すると、未知語登録処理が終了する。
図8は、第1の実施の形態にかかる辞書登録装置100において、上述した未知語登録処理に従って、ユーザにより入力された新語と表記を変換した単語を辞書121に登録する処理の例を示した説明図である。
図8に示す例では、ユーザが“右肺上葉”を新語として入力した場合が示されている。この場合、表記変換規則表120との照合により、入力された新語の中の“右”、“上”の部分文字列が表記変換規則表120の表記と一致するため、それぞれ変換表記“左”、“下”が表記変換規則表120から取得される。そして、取得した2つの変換表記を1つずつまたは2つ同時に置き換えた単語3つが生成され、入力された新語を加えた合計4つの単語(“右肺上葉”、“右肺下葉”、“左肺上葉”、“左肺下葉”)が辞書121に追加登録される。
なお、第1の実施の形態にかかる辞書登録装置100においては、変換した表記や登録結果を画面に表示してユーザが確認できるように構成しているが、確認画面の表示やユーザによる単語の選別をせずに、変換した表記をそのまま自動登録するように構成してもよい。
このように、第1の実施の形態にかかる辞書登録装置100では、ユーザが入力した新語だけでなく、予め定められた表記変換規則に従って、入力された新語の表記を変換した表記の単語も同時に登録することができ、ユーザが辞書121に登録されていない単語を登録する負担を軽減することができる。また、一度の登録処理で複数の単語を登録することができるため、その後の誤変換の発生を減少させることができる。
(第2の実施の形態)
第2の実施の形態にかかる辞書登録装置は、ユーザが指定した文書ファイルから、辞書に登録されていない未知語を検出し、検出した未知語の表記を関連する表記に変換し、変換した表記の単語も一括して辞書に登録するものである。
すなわち、第2の実施の形態にかかる辞書登録装置900は、ユーザが入力した新語を受付ける代わりに、ユーザが指定した文書ファイルから未知語を検出し、検出した未知語を入力する単語として受付ける点が、第1の実施の形態にかかる辞書登録装置100と相違している。
図9は、第2の実施の形態にかかる辞書登録装置900の構成を示すブロック図である。同図に示すように、辞書登録装置900は、未知語検出部901と、入力受付部101と、表記変換部102と、単語登録部103と、ユーザI/F110とを備えている。また、本実施の形態にかかる辞書登録装置900は、HDDに表記変換規則表120と、辞書121とを保存している。
第2の実施の形態においては、未知語検出部901を追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる辞書登録装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
未知語検出部901は、ユーザが指定した文書ファイルから辞書121に登録されていないすべての未知語を検出し、検出した未知語を入力受付部101に渡す処理を行う。
次に、このように構成された第2の実施の形態にかかる辞書登録装置900による未知語登録処理について説明する。図10は、第2の実施の形態における未知語登録処理の全体の流れを示すフローチャートである。
まず、未知語検出部901が、ユーザが指定した文書ファイルから未知語を検出する(ステップS1001)。次に、入力受付部101が、未知語検出部901が検出した未知語の入力を受付け(ステップS1002)、表記変換部102が、入力を受付けた未知語の中に、表記変換規則表120の“表記”欄と一致する部分が含まれているか否かについて判断する(ステップS1003)。
一致する部分が含まれていない場合は(ステップS1003:NO)、単語登録部103が検出した未知語を辞書121へ登録する(ステップS1004)。一致する部分が含まれている場合は(ステップS1003:YES)、表記変換部102は、当該部分の表記を、表記変換規則表120の“変換表記”欄に格納されている表記に変換する(ステップS1005)。
次に、単語登録部103は、検出した未知語と、上述の処理で変換された表記の単語を辞書121へ登録する(ステップS1006)。その後、未知語検出部901は、ユーザにより指定された文書ファイル内のすべての未知語が処理されたか否かを判断し(ステップS1007)、すべての未知語が処理されていない場合は(ステップS1007:NO)、次の未知語の検出処理に遷移する(ステップS1001)。
すべての未知語が処理された場合は(ステップS1007:YES)、未知語登録処理を終了する。
図11は、第2の実施の形態にかかる辞書登録装置900において、上述した未知語登録処理に従って、ユーザが指定した文書ファイルから未知語を検出して辞書121に登録する処理の例を示した説明図である。
図11に示す例では、ユーザにより“所見ファイル001”が入力する文書ファイルとして指定された場合が示されている。当該文書ファイルから、同図に示すように、辞書121に登録されていない単語“右肺上葉”が未知語として検出される。検出された未知語と表記変換規則表120との照合により、検出された未知語の中の“右”、“上”の部分文字列が表記変換規則表120の表記と一致するため、それぞれ変換表記“左”、“下”が表記変換規則表120から取得される。そして、取得した2つの変換表記を1つずつまたは2つ同時に置き換えた単語3つが生成され、検出された未知語を加えた合計4つの単語(“右肺上葉”、“右肺下葉”、“左肺上葉”、“左肺下葉”)が辞書121に追加登録される。
この後、同図には示していないが、指定された文書ファイルから次の未知語を検出し、表記変換処理、辞書登録処理が繰り返される。
なお、第2の実施の形態ではユーザI/F110上に画面を表示していないが、変換した表記を確認する変換表記確認画面や、辞書121に登録した結果を確認する登録結果確認画面を表示するように構成してもよい。
このように、第2の実施の形態にかかる辞書登録装置900では、ユーザが指定した文書ファイルから未知語を検出し、検出した未知語とともに、予め定められた表記変換規則に従って、検出した未知語の表記を変換した表記の単語も同時に登録することができるため、ユーザが辞書に登録されていない単語を登録する負担を軽減することができる。また、一度の登録処理で複数の単語を登録することができるため、その後の誤変換の発生を減少させることができる。
(第3の実施の形態)
第3の実施の形態にかかる辞書登録装置は、ユーザが入力した新語の表記を当該新語と関連する表記に変換し、変換した表記が予め定められた辞書登録の登録条件を満たさない場合には、変換した表記を構成要素に分割して、分割した構成要素の中で辞書に未登録の構成要素をユーザが入力した新語とともに辞書に登録するものである。
図12は、第3の実施の形態にかかる辞書登録装置1200の構成を示すブロック図である。同図に示すように、辞書登録装置1200は、入力受付部101と、表記変換部102と、単語登録部103と、変換表記判定部1201と、変換表記分割部1202と、ユーザI/F110とを備えている。また、本実施の形態にかかる辞書登録装置1200は、HDDに表記変換規則表120と、辞書121とを保存している。
第3の実施の形態においては、変換表記判定部1201と、変換表記分割部1202とを追加したことが第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる辞書登録装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
変換表記判定部1201は、表記変換部102が変換した表記が、予め定められた辞書登録のための登録条件を満たすか否かを判定する。変換表記分割部1202は、変換表記判定部1201により登録条件を満たさないと判定された表記を構成要素に分割し、辞書121に未登録の構成要素を選別する処理を行う。
次に、このように構成された第3の実施の形態にかかる辞書登録装置1200による未知語登録処理について説明する。図13は、第3の実施の形態における未知語登録処理の全体の流れを示すフローチャートである。
ステップS1301からステップS1305までの、入力画面表示処理、新語入力受付処理、表記変換処理は、第1の実施の形態にかかる辞書登録装置100におけるステップS401からステップS405までと同様の処理なので、その説明を省略する。
表記変換部102が入力された新語の表記を変換した後、変換表記判定部1201が、変換した表記が登録条件を満たすか否かを判断する(ステップS1306)。この場合、表記の変換により生成された単語の個数や文字列長が予め定められた上限値を超えないことなどを登録条件とするように構成することができる。このように構成することにより、例えば変換により生成した単語の個数が非常に多いため、すべて登録するとその後追加登録できる単語数が制限されてしまうといった不都合を回避することができる。
登録条件を満たさない場合は(ステップS1306:NO)、変換表記分割部1202が、入力された新語の表記を構成要素に分割する(ステップS1307)。分割の方法としては、新語の表記のうち表記が変換された部分とそれ以外の部分に分割するように構成してもよいし、新語の表記に対して形態素解析を行って、形態素単位に分割するように構成してもよい。次に、変換表記分割部1202は、分割した構成要素から、辞書121に未登録の構成要素を選別する(ステップS1308)。辞書121に既に登録されている構成要素をさらに登録する必要がないためである。
登録条件を満たす場合(ステップS1306:YES)、および、辞書121に未登録の構成要素が選別された後、ユーザI/F110が変換表記確認画面を表示する(ステップS1309)。ステップS1310からステップS1312までの、登録指定の判定処理、辞書121への登録処理、登録結果確認画面表示処理は、第1の実施の形態にかかる辞書登録装置100におけるステップS407からステップS409までと同様の処理なので、その説明を省略する。
図14は、第3の実施の形態にかかる辞書登録装置1200において、上述した未知語登録処理に従って、ユーザが入力した新語の登録条件を判定し、新語を分割した構成要素を辞書121に登録する処理の例を示した説明図である。この例では、変換した表記の数が上限値10を超えないことが登録条件として指定されていることを前提とする。
図14に示す例では、ユーザが“T2強調像”を新語として入力した場合が示されている。この場合、表記変換規則表120との照合により、入力された新語の中の“T”、“2”の部分文字列が表記変換規則表120の表記と一致するため、それぞれ変換表記“A”〜“S”および“U”〜“Z”(アルファベット25種)、“1”および“3”〜“9”(数字8種)が表記変換規則表120から取得される。
この結果、入力された新語を加えると、合計で26×9=234個の単語が生成される。これは、変換した表記の数が10を超えないこととした登録条件を満たさないため、入力された新語の表記の分割が行われる。この例では、新語の表記のうち表記が変換された部分とそれ以外の部分に分割する方法により、入力された新語“T2強調像”は“T”、“2”、“強調像”の3つの構成要素に分割される。さらに、“T”、“2”は通常、辞書121に登録されているため、辞書121に登録されていない“強調像”のみが選別され、辞書121に追加登録される。これにより、その後、例えば“T1強調像”と入力された場合でも、“T”、“1”、“強調像”の3つの単語列として正しく変換することができるようになる。
なお、第3の実施の形態にかかる辞書登録装置1200においては、変換した表記や登録結果を画面に表示してユーザが確認できるように構成しているが、確認画面の表示やユーザによる単語の選別をせずに、変換した表記をそのまま自動登録するように構成してもよい。
このように、第3の実施の形態にかかる辞書登録装置1200では、変換した表記が予め定められた登録条件を満たす場合にだけ変換した表記を辞書に登録することで、不必要な変換表記の登録を回避することができる。また、登録条件を満たさない場合には、入力された新語を構成する構成要素の中で辞書に未登録の構成要素だけを登録することで、その後の誤変換を回避することができる。
(第4の実施の形態)
第4の実施の形態にかかる辞書登録装置は、ユーザが指定した文書ファイルから、辞書に登録されていない未知語を検出し、検出した未知語の表記を関連する表記に変換し、変換した表記が予め定められた辞書登録の登録条件を満たさない場合には、変換した表記を構成要素に分割して、分割した構成要素の中で辞書に未登録の構成要素をユーザが入力した新語とともに辞書に登録するものである。
図15は、第4の実施の形態にかかる辞書登録装置1500の構成を示すブロック図である。同図に示すように、辞書登録装置1500は、未知語検出部901と、入力受付部101と、表記変換部102と、単語登録部103と、変換表記判定部1201と、変換表記分割部1202と、ユーザI/F110とを備えている。また、本実施の形態にかかる辞書登録装置1500は、HDDに表記変換規則表120と、辞書121とを保存している。
第4の実施の形態においては、未知語検出部901を追加したことが第3の実施の形態と異なっている。その他の構成および機能は、第3の実施の形態にかかる辞書登録装置1200の構成を表すブロック図である図12と同様であるので、同一符号を付し、ここでの説明は省略する。また、未知語検出部901は、第2の実施の形態にかかる辞書登録装置900における未知語検出部901と同様であるので説明を省略する。
第4の実施の形態は、ユーザが入力した新語を受付ける代わりに、ユーザが指定した文書ファイルから未知語を検出し、検出した未知語を入力する単語として受付ける点が、第3の実施の形態と相違している。また、この相違点は第1の実施の形態と第2の実施の形態の相違点と同じである。すなわち、第4の実施の形態は、第2の実施の形態と第3の実施の形態を組み合わせた実施の形態である。
次に、このように構成された第4の実施の形態にかかる辞書登録装置1500による未知語登録処理について説明する。図16は、第3の実施の形態における未知語登録処理の全体の流れを示すフローチャートである。
ステップS1601からステップS1605までの、未知語検出処理、未知語入力受付処理、表記変換処理は、第2の実施の形態にかかる辞書登録装置1500におけるステップS1001からステップS1005までと同様の処理なので、その説明を省略する。また、ステップS1606からステップS1608までの変換表記判定処理、変換表記分割処理は、第3の実施の形態にかかる辞書登録装置1200におけるステップS1306からステップS1308までと同様の処理なので、その説明を省略する。
変換した表記が登録条件を満たす場合(ステップS1606:YES)、または、辞書121に未登録の構成要素が選別された場合(ステップS1608)、単語登録部103は、検出した未知語と変換した表記または選別した構成要素を辞書121へ登録する(ステップS1609)。
次に、未知語検出部901は、ユーザにより指定された文書ファイル内のすべての未知語が処理されたか否かを判断し(ステップS1610)、すべての未知語が処理されていない場合は(ステップS1610:NO)、次の未知語の検出処理に遷移する(ステップS1601)。
すべての未知語が処理された場合は(ステップS1610:YES)、未知語登録処理を終了する。
なお、第4の実施の形態ではユーザI/F110上に画面を表示していないが、変換した表記を確認する変換表記確認画面や、辞書121に登録した結果を確認する登録結果確認画面を表示するように構成してもよい。
このように、第4の実施の形態にかかる辞書登録装置1500では、ユーザが指定した文書ファイルから未知語を検出し、検出した未知語とともに、予め定められた表記変換規則に従って、検出した未知語の表記を変換した表記の単語も同時に登録することができる。さらに、変換した表記が予め定められた登録条件を満たす場合にだけ変換した表記を辞書に登録することで、不必要な変換表記の登録を回避することができる。また、登録条件を満たさない場合には、入力された新語を構成する構成要素の中で辞書に未登録の構成要素だけを登録することで、その後の誤変換を回避することができる。
(第5の実施の形態)
第5の実施の形態にかかる辞書登録装置は、ユーザが入力した新語の表記を、表記変換規則表120ではなく、単語の属性情報が格納された辞書を参照して当該新語と関連する表記に変換し、変換した表記の単語も一括して辞書に登録するものである。
図17は、第5の実施の形態にかかる辞書登録装置1700の構成を示すブロック図である。同図に示すように、辞書登録装置1700は、入力受付部101と、表記変換部102と、単語登録部103と、ユーザI/F110とを備えている。また、本実施の形態にかかる辞書登録装置1700は、HDDに辞書121を保存している。
第5の実施の形態においては、HDDに表記変換規則表120を保存していないこと、および、辞書121の内容が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる辞書登録装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
図18は、本実施の形態における辞書121の構造の一例を示す説明図である。同図に示すように、本実施の形態における辞書121は、単語の表記と読みの他に属性情報を格納していることが、図3に示した第1の実施の形態における辞書121と異なっている。属性情報としては、位置関係を表す単語であること、程度を表す単語であること、臓器名を表す単語であること、数字であることおよびその桁数、英字であることおよびその桁数、大文字/小文字の区別、などが指定できる。
なお、属性情報はこれらに限られるものではなく、単語の意味や品詞、桁数などを基に単語の分類に使用できるあらゆる属性を属性情報として指定することができる。
次に、このように構成された第5の実施の形態にかかる辞書登録装置1700による未知語登録処理について説明する。図19は、第5の実施の形態における未知語登録処理の全体の流れを示すフローチャートである。
ステップS1901からステップS1902までの、入力画面表示処理、新語入力受付処理は、第1の実施の形態にかかる辞書登録装置100におけるステップS401からステップS402までと同様の処理なので、その説明を省略する。
表記変換部102は、入力受付部101が受付けた新語を形態素解析し(ステップS1903)、求めた形態素と同一の属性情報を持つ形態素を辞書121から検索する(ステップS1904)。例えば、ユーザが“上葉”を新語として入力し、形態素として“上”、“葉”が得られた場合、表記“上”の属性情報“位置関係”と同一の属性情報を持つ“下”が辞書121から検索される。
次に、表記変換部102は、求めた形態素と同一の属性情報を持つ形態素を辞書121から検索した結果、該当する形態素が存在するか否かを判断する(ステップS1905)。該当する形態素が存在しない場合は(ステップS1905:NO)、単語登録部103が、受付けた新語を辞書121に登録する(ステップS1906)。
該当する形態素が存在する場合は(ステップS1905:YES)、表記変換部102は、入力された新語における該当部分の形態素の表記を、辞書121から検索した形態素の表記に変換する(ステップS1907)。上述の例では、“上葉”の“上”の部分を“下”に変換した表記“下葉”が表記を変換した単語として生成される。該当する形態素が複数存在する場合は、その組み合わせの数に相当する個数の単語が、表記を変換した単語として生成される。
ステップS1908からステップS1911までの、変換表記確認画面表示処理、登録指定判定処理、辞書登録処理、登録結果確認画面表示処理は、第1の実施の形態にかかる辞書登録装置100におけるステップS406からステップS409までと同様の処理なので、その説明を省略する。
このように、第5の実施の形態にかかる辞書登録装置1700では、表記変換規則表を使用せずに、属性情報を格納した辞書を参照することで表記の変換を行うことができる。
なお、本実施の形態では、第1の実施の形態において表記変換規則表120の代わりに辞書121の属性情報を参照して表記の変換をする例を示したが、第2〜第4の実施の形態においても、表記変換規則表120の代わりに辞書121の属性情報を参照して表記の変換をするように構成することができる。
第1〜第5の実施の形態にかかる辞書登録装置は、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。
第1〜第5の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、第1〜第5の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、第1〜第5の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、第1〜第5の実施の形態の辞書登録プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1〜第5の実施の形態にかかる辞書登録装置で実行される辞書登録プログラムは、上述した各部(未知語検出部、入力受付部、表記変換部、単語登録部、変換表記判定部、変換表記分割部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から辞書登録プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、未知語検出部、入力受付部、表記変換部、単語登録部、変換表記判定部、変換表記分割部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる辞書登録装置、辞書登録方法および辞書登録プログラムは、辞書に登録されていない単語を追加登録する機能を有する文書作成システム、かな漢字変換システム、音声認識システムに適している。
第1の実施の形態にかかる辞書登録装置の構成を示すブロック図である。 表記変換規則表の一例を示す説明図である。 辞書の一例を示す説明図である。 第1の実施の形態にかかる辞書登録装置における未知語登録処理を示すフローチャートである。 入力画面の一例を示す模式図である。 変換表記確認画面の一例を示す模式図である。 登録結果確認画面の一例を示す模式図である。 第1の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第2の実施の形態にかかる辞書登録装置の構成を示すブロック図である。 第2の実施の形態にかかる辞書登録装置における未知語登録処理を示すフローチャートである。 第2の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第3の実施の形態にかかる辞書登録装置の構成を示すブロック図である。 第3の実施の形態にかかる辞書登録装置における未知語登録処理を示すフローチャートである。 第3の実施の形態にかかる辞書登録装置における未知語登録処理の一例を示す模式図である。 第4の実施の形態にかかる辞書登録装置の構成を示すブロック図である。 第4の実施の形態にかかる辞書登録装置における未知語登録処理を示すフローチャートである。 第5の実施の形態にかかる辞書登録装置の構成を示すブロック図である。 第5の実施の形態にかかる辞書登録装置における辞書の一例を示す説明図である。 第5の実施の形態にかかる辞書登録装置における未知語登録処理を示すフローチャートである。
符号の説明
100、900、1200、1500、1700 辞書登録装置
101 入力受付部
102 表記変換部
103 単語登録部
110 ユーザI/F
120 表記変換規則表
121 辞書
501 読み入力フィールド
502 表記入力フィールド
503 品詞入力フィールド
504 登録ボタン
505 キャンセルボタン
601 チェックボックス
602 登録ボタン
603 キャンセルボタン
701 閉じるボタン
901 未知語検出部
1201 変換表記判定部
1202 変換表記分割部

Claims (11)

  1. 単語を登録した辞書を記憶する辞書記憶手段と、
    前記辞書に登録されていない未知語の入力を受付ける入力受付手段と、
    単語の表記と該表記と意味内容が関連する単語の表記とを予め対応付けた表記変換規則情報に基づいて、前記入力受付手段が受付けた前記未知語の表記を意味内容が関連する単語の表記に変換する表記変換手段と、
    前記表記変換手段による変換後の表記の単語および前記未知語を前記辞書に登録する単語登録手段と、
    を備えたことを特徴とする辞書登録装置。
  2. 入力文書から前記辞書に登録されていない前記未知語を検出する未知語検出手段をさらに備え、
    前記入力受付手段は、前記未知語検出手段が検出した前記未知語の入力を受付けることを特徴とする請求項1に記載の辞書登録装置。
  3. 前記表記変換規則情報を記憶する表記変換規則記憶手段をさらに備え、
    前記表記変換手段は、前記表記変換規則情報に従い、前記未知語の表記の一部または全部を関連する単語の表記に変換して、前記未知語の表記を変換することを特徴とする請求項1または2に記載の辞書登録装置。
  4. 前記辞書は単語と単語の属性情報とを対応して保持し、
    前記表記変換手段は、前記辞書が保持する単語の属性情報に従い、前記未知語の表記の一部または全部を同一の属性情報を持つ単語の表記に変換して、前記未知語の表記を変換することを特徴とする請求項1または2に記載の辞書登録装置。
  5. 前記表記変換手段による変換結果に基づいて、変換した表記が前記辞書に登録する単語の表記として妥当であるか否かを判定する変換表記判定手段と、
    前記変換表記判定手段が登録する単語として妥当でないと判定した表記を構成要素に分割する変換表記分割手段とをさらに備え、
    前記単語登録手段は、前記変換表記分割手段が分割した前記構成要素および前記未知語を前記辞書に登録することを特徴とする請求項1〜4のいずれか1つに記載の辞書登録装置。
  6. 前記変換表記判定手段は、前記表記変換手段が変換した表記の個数が予め定められた個数を超える場合に、前記辞書に登録する単語の表記として妥当でないと判定することを特徴とする請求項5に記載の辞書登録装置。
  7. 前記変換表記判定手段は、前記表記変換手段が変換した表記の文字列長が予め定められた文字列長を超える場合に、前記辞書に登録する単語の表記として妥当でないと判定することを特徴とする請求項5に記載の辞書登録装置。
  8. 前記変換表記分割手段は、前記表記変換手段が変換した表記の部分と変換しない表記の部分とを構成要素として分割することを特徴とする請求項5〜7のいずれか1つに記載の辞書登録装置。
  9. 前記変換表記分割手段は、前記表記変換手段が変換した表記を形態素解析し、形態素解析により求めた形態素を構成要素として分割することを特徴とする請求項5〜7のいずれか1つに記載の辞書登録装置。
  10. 単語を保持する辞書を記憶する辞書記憶手段に記憶されている前記辞書に登録されていない未知語の入力を受付ける入力受付ステップと、
    単語の表記と該表記と意味内容が関連する単語の表記とを予め対応付けた表記変換規則情報に基づいて、前記入力受付ステップが受付けた前記未知語の表記を変換する表記変換ステップと、
    前記表記変換ステップが表記を変換した単語および前記未知語を前記辞書に登録する辞書登録ステップと、
    を備えたことを特徴とする辞書登録方法。
  11. 単語を保持する辞書を記憶する辞書記憶手段に記憶されている前記辞書に登録されていない未知語の入力を受付ける入力受付手順と、
    単語の表記と該表記と意味内容が関連する単語の表記とを予め対応付けた表記変換規則情報に基づいて、前記入力受付手順が受付けた前記未知語の表記を変換する表記変換手順と、
    前記表記変換手順が表記を変換した単語および前記未知語を前記辞書に登録する辞書登録手順と、
    をコンピュータに実行させる辞書登録プログラム。
JP2004349050A 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム Expired - Fee Related JP4192142B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004349050A JP4192142B2 (ja) 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004349050A JP4192142B2 (ja) 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム

Publications (2)

Publication Number Publication Date
JP2006155529A true JP2006155529A (ja) 2006-06-15
JP4192142B2 JP4192142B2 (ja) 2008-12-03

Family

ID=36633705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004349050A Expired - Fee Related JP4192142B2 (ja) 2004-12-01 2004-12-01 辞書登録装置、辞書登録方法および辞書登録プログラム

Country Status (1)

Country Link
JP (1) JP4192142B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP2010157087A (ja) * 2008-12-26 2010-07-15 Fujitsu Ltd 文例データベース構築プログラム、文例表示プログラム、文例データベース構築方法および文例表示方法
US11640502B2 (en) 2020-03-09 2023-05-02 Omron Corporation Word registration device, word registration method, and word registration program stored on computer-readable storage

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP2010157087A (ja) * 2008-12-26 2010-07-15 Fujitsu Ltd 文例データベース構築プログラム、文例表示プログラム、文例データベース構築方法および文例表示方法
US11640502B2 (en) 2020-03-09 2023-05-02 Omron Corporation Word registration device, word registration method, and word registration program stored on computer-readable storage

Also Published As

Publication number Publication date
JP4192142B2 (ja) 2008-12-03

Similar Documents

Publication Publication Date Title
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
US9208140B2 (en) Rule based apparatus for modifying word annotations
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
US20130151957A1 (en) Document analysis system, document analysis method, document analysis program and recording medium
JP5751431B2 (ja) 不整合検出システム、方法、およびプログラム
Islam et al. Real-word spelling correction using google web 1tn-gram data set
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP4192142B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
Alam et al. Text normalization system for Bangla
CN106250354B (zh) 处理文书的信息处理装置、信息处理方法以及程序
CN112136136A (zh) 输入错误检测装置、输入错误检测方法及输入错误检测程序
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
WO2021107006A1 (ja) 情報処理装置、情報処理方法及びプログラム
JPH1011443A (ja) 文書符号検査システム
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
US20240037129A1 (en) Search device, search method, and recording medium
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
US20240354517A1 (en) Systems and methods for detecting sensitive text in documents
JP6203083B2 (ja) 未知語抽出装置及び未知語抽出方法
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080919

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110926

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees