JP4424057B2 - 学習装置およびプログラム - Google Patents

学習装置およびプログラム Download PDF

Info

Publication number
JP4424057B2
JP4424057B2 JP2004139945A JP2004139945A JP4424057B2 JP 4424057 B2 JP4424057 B2 JP 4424057B2 JP 2004139945 A JP2004139945 A JP 2004139945A JP 2004139945 A JP2004139945 A JP 2004139945A JP 4424057 B2 JP4424057 B2 JP 4424057B2
Authority
JP
Japan
Prior art keywords
abbreviation
identifier
phrase
user
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004139945A
Other languages
English (en)
Other versions
JP2005322048A (ja
Inventor
恭輔 石川
昌俊 田川
道弘 田宗
篤 伊藤
直子 佐藤
潔 田代
博 増市
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004139945A priority Critical patent/JP4424057B2/ja
Priority to US11/067,909 priority patent/US20050251743A1/en
Priority to CNB2005100537065A priority patent/CN100474288C/zh
Publication of JP2005322048A publication Critical patent/JP2005322048A/ja
Application granted granted Critical
Publication of JP4424057B2 publication Critical patent/JP4424057B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、入力されたデータを、辞書を用いて処理し、その結果を出力する、という処理システムにおいて、入力されたデータを用いて辞書を更新する技術に関する。
上記の処理システムにおいて入力されたデータを用いて辞書を更新する技術としては、特許文献1および特許文献2に開示された技術が挙げられる。
特許文献1には、文書を入力して分類するシステムが開示されている。このシステムは、まず、予め分類された文書を入力し、これらの文書を用いて、単語や隣接単語間の関係などの文書情報と、この文書情報が文書中に現れたときに当該文書が各分類に属する確率である文書分類確率とを対応付けて辞書(学習データ)を作成しておく。そして、分類すべき未分類の文書を入力し、この文書を、作成した辞書を用いて分類する。
特許文献2には、日本語入力変換に用いる辞書を複数人で共用して更新するシステムが開示されている。このシステムでは、サーバ装置に記憶されている辞書は、複数の使用者に共用され、使用される度に更新される。よって、効率的な学習が可能である。
特開平8−287097号公報 特開平10−260960号公報
一般に、上記の処理システムでは、特定のグループ(組織や部署など)に特化された辞書を用いることにより、そのグループに最適な処理結果を得ることができる。このような辞書を様々なグループ毎に予め用意しておくのは困難であるから、特定のグループに最適な処理結果を得るためには、学習によって辞書をグループに特化させる必要がある。この学習を効率的に行うためには、特許文献2の技術のように、辞書を複数人で共用して更新可能とするのが望ましい。
一方、複写機やプリンタなどの装置を上記の処理システムとして機能させることが検討されている。このような装置の使用者は上記のグループのメンバーに限らないから、特許文献2の技術を適用したとしても、学習によって構築される辞書が上記のグループに特化される保証はない。つまり、特定のグループに属さない使用者に使用され得る処理システムに特許文献2の技術を適用しても、グループに確実に特化された辞書を構築することはできない。
本発明は上述した事情に鑑みて為されたものであり、装置の使用者を限定することなく、特定のグループに確実に特化された辞書を効率的に構築して処理に用いることができる技術を提供することを目的としている。
本発明は、辞書を更新可能に記憶する記憶手段と、使用者に使用されてデータを入力する入力手段と、前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて、前記記憶手段に記憶されている辞書を更新する更新手段とを有する学習装置を提供する。
また、本発明は、コンピュータを、使用者に使用されてデータを入力する入力手段と、前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて前記辞書を更新する更新手段として機能させるためのプログラムを提供する。
上記の学習装置、および上記のプログラムを実行したコンピュータは、それぞれ、データを入力した使用者の識別子または当該使用者の属するグループの識別子が予め登録された識別子である場合にのみ、当該データを用いて、記憶手段に記憶されている辞書を更新する。
本発明によれば、使用者の識別子または使用者が属するグループの識別子を予め登録しておくことにより、学習装置やコンピュータの使用者を限定することなく、特定のグループに確実に特化された辞書を効率的に構築して処理に用いることができる。
以下、図面を参照して、本発明の一実施形態について説明する。
本実施形態は、本発明を、機械翻訳を行う装置に適用した場合のものである。本実施形態に係る装置は、入力された文書を翻訳して出力するが、翻訳に先立って、入力された文書を、文書中で元の語句に補足されていない略語が元の語句で補足されるように加工する。この加工に用いられるテーブルが、入力された文書を用いて更新される辞書である。
[構成]
図1は本実施形態に係る学習装置1の構成を示す図である。
学習装置1は、日本語の文書を入力して加工してから英語に翻訳して出力するものであり、使用者に操作されて当該使用者の指示を入力する操作部11、学習装置1の原稿台(図示略)にセットされた文書を光学的に読み取って画像データとして入力するスキャナ12、各種のデータを一時的に記憶するRAM13、RAM13に記憶されている画像データの画像を用紙上に形成して当該用紙を学習装置1外へ排出する印刷部14、ICカードの装着状態(装着中/非装着)を検出するとともに装着されたICカードからID(識別子)を読み出すICカードリーダ15、データを記憶する不揮発性メモリ16、および各部を制御するCPU17を有する。
ICカードリーダ15に装着されるICカードは、学習装置1を使用する全ての使用者に渡されており、各使用者に固有のIDを記憶している。例えば、使用者Aが所持するICカードにはID「A」が記憶されており、使用者Bが所持するICカードにはID「B」が記憶されており、使用者Cが所持するICカードにはID「C」が記憶されている。なお、使用者Aおよび使用者Bは同一のグループに属し、使用者Cはこのグループに属していない。
不揮発性メモリ16は、図示しない電源から電力が供給されなくともデータを保持することが可能であり、後述の動作を導くプログラムP、日本語と英語とが対応付けられている翻訳用の辞書D、後述のテーブルT1、および後述の登録リストLを記憶している。また、不揮発性メモリ16には、書き込まれたIDを保持するID領域Rが確保されている。
図2はテーブルT1のデータ構造を模式的に示す図である。
テーブルT1は文書を加工するための学習データを格納するものである。学習データは、1つの略語に1つの元の語句(日本語)を対応付けた組からなる。略語は組に固有であり、異なる組に同一の略語が含まれることはない。テーブルT1には複数の組が格納され得るが、初期状態では、テーブルT1に格納されている組は無い。
図3は登録リストLの内容を模式的に示す図である。
登録リストLは、テーブルT1を特化させるべきグループに属する使用者、すなわち登録メンバーのIDを格納したものである。この図に示すように、テーブルT1に格納されているIDは「A」および「B」である。つまり、使用者Aおよび使用者Bのみが登録メンバーとなっている。
CPU17は、図示せぬ電源から電力が供給されると、不揮発性メモリ16からプログラムPを読み出して実行する。これによって、CPU17は学習装置1の各部を制御可能な状態となり、次に述べる動作を行う。ただし、次に述べる動作の開始時点では、ICカードリーダ15にICカードが装着されていないものとする。
[動作]
CPU17は、図4に示す使用者特定処理を実行する。
使用者特定処理では、まず、不揮発性メモリ16上のID領域Rの記憶内容をクリアする(ステップSA1)。次に、ICカードリーダ15にICカードが装着されているか否かを判定する(ステップSA2)。具体的には、CPU17はICカードリーダ15にICカードの装着状態を検出させ、この検出結果を用いて上記の判定を行う。この判定は、ICカードリーダ15にICカードが装着されるまで繰り返される(ステップSA2:NO)。
ここで、使用者Aが、自身のICカードをICカードリーダ15に装着したとする。すると、ステップSA2の判定結果は「YES」となる。よって、CPU17は、装着中のICカードからICカードリーダ15を用いてID「A」を読み出し、このIDをID領域Rに書き込むとともに、使用者特定処理に並行して図5に示す翻訳処理を開始する(ステップSA3)。次に、ICカードリーダ15にICカードが装着されているか否かを判定する(ステップSA4)。この判定は、ICカードリーダ15からICカードが取り外されるまで繰り返される(ステップSA4:YES)。
図5の翻訳処理では、CPU17は、まず、翻訳を開始する旨の開始指示が操作部11を用いて入力されたか否かを判定する(ステップSB1)。この判定は、開始指示が入力されるまで繰り返される(ステップSB1:NO)。
ここで、使用者Aが、含まれる略語が「ATM」および「ODA」のみの日本語の文書(図6参照)を原稿台にセットし、操作部11を用いて開始指示を入力したものとする。すると、ステップSB1の判定結果は「YES」となる。よって、CPU17は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込む(ステップSB2)。次に、この画像データに対してOCR(Optical Character Recognition)を行ってテキストデータを生成し(ステップSB3)、このテキストデータに対して形態素解析を行う(ステップSB4)。
次に、この形態素解析の結果と辞書Dの内容とに基づいて、このテキストデータから略語を検出する(ステップSB5)。具体的には、形態素解析の結果から辞書Dに登録されていない未知語を検出し、検出した未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する。次に、少なくとも1つの略語が検出されたか否かを判定する(ステップSB6)。ここでは、略語として「ATM」および「ODA」が検出されているから、この判定結果が「YES」となる。
よって、CPU17は、学習装置1を使用中の使用者が登録メンバーであるか否かを判定する(ステップSB7)。具体的には、ID領域R内のIDが不揮発性メモリ16に記憶されている登録リストLに格納されているか否かを調べる。ここでは、ID領域R内のID「A」が登録リストLに格納されているから、この判定結果は「YES」となる。
よって、CPU17は、不揮発性メモリ16からテーブルT1を読み出してRAM13に書き込むとともに、検出された略語を含む組を上記テキストデータから抽出する処理を試みる(ステップSB8)。具体的には、検出した略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べ、現れる場合にのみ、その語句を当該略語を補足する元の語句とみなし、当該略語および当該元の語句を組としてテキストデータから抽出する。ここでは、検出された略語は「ATM」および「ODA」のみであり、かつ図6の文書において「ATM」の直後には「(現金自動預入引出機)」が現れ、かつ「ODA」の直後には括弧が現れないから、「ATM」および「現金自動預入引出機」のみが組として抽出される。なお、以降の説明では、RAM13上のテーブルT1を、不揮発性メモリ16上のテーブルT1と区別するために、「テーブルT2」と記す。
次に、CPU17は、少なくとも1つの組が抽出されたか否かを判定する(ステップSB9)。ここでは、「ATM」と「現金自動預入引出機」との組が抽出されているから、この判定結果が「YES」となる。したがって、CPU17は、抽出した組をテーブルT1に格納する(ステップSB10)。こうして、テーブルT1の内容が図8に示す通りとなる。なお、格納しようとする組に含まれている略語と同一の略語を含む組がテーブルT1に格納されている場合には、CPU17は、格納しようとする組で格納されている組を上書きする。
次に、CPU17は図7に示す加工処理を行う(ステップSB11)。
加工処理では、まず、検出した略語のうち、最初に検出された略語を処理対象の略語とする(ステップSC1)。ここでは、「ATM」が処理対象の略語となる。次に、処理対象の略語が元の語句で補足されているか否かを判定する(ステップSC2)。この判定は、テキストデータにおいて処理対象の略語の直後に括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べることにより行われる。図6から明らかなように、「ATM」は元の語句で補足されているから、ここでの判定結果は「YES」となる。よって、CPU17は、処理対象の略語の次に検出された略語が存在するか否かを判定する(ステップSC5)。ここでは、「ATM」の次に「ODA」が検出されているから、この判定結果は「YES」となる。よって、CPU17は、「ODA」を処理対象の略語とする(ステップSC6)。
次に、CPU17は、処理対象の略語が元の語句で補足されているか否かを判定する(ステップSC2)。図6から明らかなように、「ODA」は元の語句で補足されていないから、ここでの判定結果は「NO」となる。よって、CPU17は、処理対象の略語を含む組がテーブルT2に格納されているか否かを判定する(ステップSC3)。「ODA」はテーブルT2に格納されていないから、ここでの判定結果は「NO」となる。よって、CPU17は、処理対象の略語の次に検出された略語が存在するか否かを判定する(ステップSC5)。「ODA」の次には略語が検出されていないから、ここでの判定結果は「NO」となり、テキストデータが変更されることなく加工処理が終わる。
次に、CPU17は、形態素解析の結果および辞書Dを用いてテキストデータを英語に翻訳して翻訳結果の画像データをRAM13に書き込み、印刷部14を用いて、この画像データの画像を用紙上に形成して当該用紙を学習装置1外へ排出する。こうして、学習装置1から英語に翻訳された文書が出力される。以降、CPU17は、開始指示の入力を待ち続ける(ステップSB1:NO)。
ここで、使用者Aが、自身のICカードをICカードリーダ15から取り外したとする。すると、図4のステップSA4の判定結果が「NO」となる。よって、CPU17は、ID領域Rの記憶内容をクリアするとともに、実行中の翻訳処理を中止する(ステップSA1)。以降、ICカードリーダ15にICカードが装着されているか否かを判定し続ける(ステップSA2:NO)。
ここで、使用者Bが、自身のICカードをICカードリーダ15に装着したとする。すると、ステップSA2の判定結果が「YES」となる。よって、CPU17は、装着中のICカードからICカードリーダ15を用いてID「B」を読み出し、このIDをID領域Rに書き込むとともに、使用者特定処理に並行して図5の翻訳処理を開始する(ステップSA3)。以降、ICカードリーダ15にICカードが装着されているか否かを判定し続ける(ステップSA4:YES)。
ここで、使用者Bが、含まれる略語が「ATM」のみの日本語の文書(図9参照)を原稿台にセットし、操作部11を用いて開始指示を入力したものとする。すると、図5のステップSB1の判定結果が「YES」となる。以降、上述と同様の処理が行われる。ただし、図から明らかなように、図9の文書における唯一の略語「ATM」は元の語句に補足されていないから、ステップSB8にて抽出される組は無い。よって、ステップSB9の判定結果が「NO」となり、CPU17は、テーブルT1に組を格納することなく、加工処理を行う(ステップSB11)。
この加工処理では、この「ATM」を処理対象の略語とし(ステップSC1)、この略語が元の語句で補足されているか否かを判定する(ステップSC2)。上述のように、この「ATM」は元の語句で補足されていないから、ここでの判定結果は「NO」となる。よって、CPU17は、「ATM」を含む組がテーブルT2に格納されているか否かを判定する(ステップSC3)。この時点でのテーブルT2の内容は図8に示す通りである。図から明らかなように、「ATM」を含む組はテーブルT2に格納されているから、ここでの判定結果は「YES」となる。
よって、CPU17は、図9の文書に対するテキストデータに文字列を挿入して当該テキストデータを加工する(ステップSC4)。この文字列は当該組に含まれている元の語句「現金自動預入引出機」を括弧で囲んだものであり、その挿入位置は当該テキストデータ中の「ATM」の直後である。この加工の結果、テキストデータは、図10に示す文書を示すものとなる。次に、CPU17は、処理対象の略語の次に検出された略語が存在するか否かを判定する(ステップSC5)。「ATM」の次には略語が検出されていないから、ここでの判定結果は「NO」となり、加工処理が終わる。
加工処理後の動作は上述した通りであり、CPU17は、最終的には、開始指示の入力を待ち続ける(ステップSB12、ステップSB1:NO)。
ここで、使用者Bが、自身のICカードをICカードリーダ15から取り外したとする。すると、上述と同様の処理が行われ、CPU17は、最終的には、ICカードリーダ15にICカードが装着されているか否かを判定し続ける(ステップSA4:NO、ステップSA1、ステップSA2:NO)。
ここで、使用者Cが、自身のICカードをICカードリーダ15に装着したとする。すると、上述と同様の処理が行われ、CPU17は、最終的には、ICカードリーダ15にICカードが装着されているか否かを判定し続ける(ステップSA2:YES、ステップSA3、ステップSA4:YES)。ただし、この際にID領域Rに書き込まれるIDは「C」である。
ここで、使用者Cが、図9の文書を原稿台にセットし、操作部11を用いて開始指示を入力したものとする。すると、図5のステップSB1の判定結果が「YES」となる。以降、上述と同様の処理が行われる。ただし、図3に示すように、登録リストLには、ID領域Rに保持されているID「C」が格納されていないから、ステップSB7の判定結果が「NO」となる。よって、CPU17は、組の抽出を試みることなく、加工処理を行う(ステップSB11)。
この加工処理では、上述した使用者Bについての動作と同様の動作が行われる。この結果、図10に示す文書を示すテキストデータが得られて加工処理が終わる。加工処理後の動作は上述した通りであり、CPU17は、最終的には、開始指示の入力を待ち続ける(ステップSB12、ステップSB1:NO)。
ここで、使用者Cが自身のICカードをICカードリーダ15から取り外し、次いで使用者Bが自身のICカードをICカードリーダ15に装着したとする。この結果、ID領域RにはID「B」が書き込まれる。そして、使用者Bが、略語が含まれていない文書(図11参照)を原稿台にセットし、操作部11を用いて開始指示を入力したものとする。この場合には、図5のステップSB6の判定結果が「NO」となり、CPU17は、登録メンバーであるか否かの判定を行うことなく、ステップSB12の処理を行う。
[まとめ]
以上説明したように、学習装置1のCPU17は、スキャナ12に文書を入力させるとともに、不揮発性メモリ16からテーブルT1を読み出してテーブルT2としてRAM13に書き込む。そして、入力した文書を、テーブルT2を用いて加工し、更に辞書Dを用いて翻訳して印刷部14から出力させる。その一方、ICカードリーダ15に装着されたICカードからIDを読み出して取得し、このIDが不揮発性メモリ16上の登録リストLに予め格納されている場合にのみ、入力した文書を用いて、テーブルT1を更新する。
つまり、登録リストLに予め格納されているIDを記憶しているICカードを持つ使用者により文書が入力された場合にのみ、この文書によってテーブルT1が更新される。よって、学習装置1の使用者を限定することなく、使用者Aおよび使用者Bが属するグループに確実に特化されたテーブルT1を効率的に構築して加工処理に用いることができる。
なお、上述した実施形態を以下に述べるように変形してもよい。
例えば、学習装置1を複数の装置からなるシステムとして構成してもよい。
また、ICカードリーダ15にICカードが装着されていなくとも図5の翻訳処理を実行することができるように学習装置1を構成してもよい。この場合には、ID領域RにIDが書き込まれていない場合、すなわちIDの取得に失敗した場合にステップSB7の判定結果が「NO」となるようにすべきである。
また、グループのIDと各グループのメンバーのIDとを対応付けた組織表を不揮発性メモリ16に記憶させておき、これを用いて、使用者の属するグループを特定するようにしてもよい。また、使用者のIDではなく、使用者の属するグループのIDを記憶したICカードを用いてもよい。なお、いずれの場合であっても、登録リストLには、辞書の更新が許可されたグループのIDが予め格納されることになる。
また、学習装置1を機械翻訳以外の処理を行う装置として構成してもよい。例えば、OCRにおいて文字形状の特徴量と文字とを対応付けている特徴量辞書を、文字を高い確度で認識することができたときに更新する装置としてもよい。また、例えば、入力した文書を分類する処理や日本語入力変換処理などの、入力したデータを、辞書を用いて処理し、その結果を出力する、という任意の処理において、入力されたデータを用いて処理に用いる辞書を更新する装置としてもよい。もちろん、データの入力や出力の形態は任意である。例えば、データを受信することによって入力し、送信することによって出力する形態であってもよい。
なお、日本語入力変換処理などの、変換対象の入力データと使用者の指示(複数の候補からの選択操作)とに基づいて辞書の更新内容が定まる処理に適用する場合、変換対象の入力データのみならず、使用者の指示を示す入力データについても、入力した使用者(またはそのグループ)が予め登録された使用者(またはそのグループ)であることを確認した上で、辞書の更新を行うべきである。
本発明の一実施形態に係る学習装置1の構成を示す図である。 学習装置1内のテーブルT1のデータ構造を模式的に示す図である。 学習装置1内の登録リストLの内容を模式的に示す図である。 学習装置1が行う使用者特定処理のフローチャートである。 学習装置1が行う翻訳処理のフローチャートである。 学習装置1に入力される文書の一例を示す図である。 学習装置1が行う加工処理のフローチャートである。 テーブルT1の内容を模式的に示す図である。 学習装置1に入力される文書の一例を示す図である。 学習装置1により形成される文書の一例を示す図である。 学習装置1に入力される文書の一例を示す図である。
符号の説明
1…学習装置、11…操作部、12…スキャナ、13…RAM、14…印刷部、15…ICカードリーダ、16…不揮発性メモリ、17…CPU、P…プログラム、D…辞書、L…登録リスト、R…ID領域、T1,T2…テーブル。

Claims (2)

  1. 辞書を更新可能に記憶する記憶手段と、
    使用者に使用されてデータを入力する入力手段と、
    前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、
    前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、
    前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、
    前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、
    前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて、前記記憶手段に記憶されている辞書を更新する更新手段と
    を有する学習装置。
  2. コンピュータを、
    使用者に使用されてデータを入力する入力手段と、
    前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、
    前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、
    前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、
    前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、
    前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて前記辞書を更新する更新手段
    として機能させるためのプログラム。
JP2004139945A 2004-05-10 2004-05-10 学習装置およびプログラム Expired - Fee Related JP4424057B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004139945A JP4424057B2 (ja) 2004-05-10 2004-05-10 学習装置およびプログラム
US11/067,909 US20050251743A1 (en) 2004-05-10 2005-03-01 Learning apparatus, program therefor and storage medium
CNB2005100537065A CN100474288C (zh) 2004-05-10 2005-03-10 学习装置及其更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004139945A JP4424057B2 (ja) 2004-05-10 2004-05-10 学習装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2005322048A JP2005322048A (ja) 2005-11-17
JP4424057B2 true JP4424057B2 (ja) 2010-03-03

Family

ID=35240758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004139945A Expired - Fee Related JP4424057B2 (ja) 2004-05-10 2004-05-10 学習装置およびプログラム

Country Status (3)

Country Link
US (1) US20050251743A1 (ja)
JP (1) JP4424057B2 (ja)
CN (1) CN100474288C (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4626356B2 (ja) * 2005-03-25 2011-02-09 富士ゼロックス株式会社 付加情報を含む電子文書を編集する方法、装置およびプログラム
US8849653B2 (en) * 2006-05-09 2014-09-30 International Business Machines Corporation Updating dictionary during application installation
US9785628B2 (en) * 2011-09-29 2017-10-10 Microsoft Technology Licensing, Llc System, method and computer-readable storage device for providing cloud-based shared vocabulary/typing history for efficient social communication
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01279368A (ja) * 1988-04-30 1989-11-09 Sharp Corp キャラクタデータの転送方式
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
JPH03268062A (ja) * 1990-03-19 1991-11-28 Fujitsu Ltd 機械翻訳電子メール装置における私用単語の登録装置
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
JPH07175813A (ja) * 1993-10-27 1995-07-14 Ricoh Co Ltd 複合通信処理装置
US5872917A (en) * 1995-06-07 1999-02-16 America Online, Inc. Authentication using random challenges
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6164975A (en) * 1998-12-11 2000-12-26 Marshall Weingarden Interactive instructional system using adaptive cognitive profiling
EP1045374B1 (en) * 1999-04-13 2010-08-11 Sony Deutschland GmbH Merging of speech interfaces for concurrent use of devices and applications
JP2000353204A (ja) * 1999-06-10 2000-12-19 Nec Kofu Ltd 電子データ管理装置、方法及び記録媒体
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US20020062342A1 (en) * 2000-11-22 2002-05-23 Sidles Charles S. Method and system for completing forms on wide area networks such as the internet
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US6966030B2 (en) * 2001-07-18 2005-11-15 International Business Machines Corporation Method, system and computer program product for implementing acronym assistance
EP1280122A3 (en) * 2001-07-27 2004-12-29 Sharp Kabushiki Kaisha Learning support system
TWI299471B (en) * 2001-08-24 2008-08-01 Toshiba Kk Person recognition apparatus
MY141150A (en) * 2001-11-02 2010-03-15 Panasonic Corp Channel selecting apparatus utilizing speech recognition, and controling method thereof
US7536297B2 (en) * 2002-01-22 2009-05-19 International Business Machines Corporation System and method for hybrid text mining for finding abbreviations and their definitions
US20030236658A1 (en) * 2002-06-24 2003-12-25 Lloyd Yam System, method and computer program product for translating information
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility

Also Published As

Publication number Publication date
US20050251743A1 (en) 2005-11-10
JP2005322048A (ja) 2005-11-17
CN1696929A (zh) 2005-11-16
CN100474288C (zh) 2009-04-01

Similar Documents

Publication Publication Date Title
US20060285748A1 (en) Document processing device
JP2007004584A (ja) 情報処理装置
JP4424057B2 (ja) 学習装置およびプログラム
CN100369046C (zh) 文档处理装置和文档处理方法
JP2006155439A (ja) 文書管理装置及びその方法
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
JP4645065B2 (ja) 文書処理装置およびプログラム
JP4424056B2 (ja) 文書処理装置およびプログラム
JPS6316795B2 (ja)
JP2007004429A (ja) 文書処理装置
JP4255766B2 (ja) イメージ処理システム及びイメージ処理装置
JP3712831B2 (ja) 文書理解装置および郵便区分機
JP2000011095A (ja) 文字認識装置及び方法
JP3157557B2 (ja) 文字認識装置
JPS6074094A (ja) 文字認識装置
JPH06333085A (ja) 光学的文字読取装置
JP2005242786A (ja) 帳票識別装置および帳票識別方法
JP2024014065A (ja) 帳票判定システム、帳票判定装置、及び帳票判定方法
JP3006294B2 (ja) 光学的文字読取装置
JP2004086619A (ja) 姓名漢字検索システム
JP3477308B2 (ja) 機械翻訳装置
JP2006276917A (ja) 文書処理装置及び文書処理方法
JP2749425B2 (ja) 記事抽出方式
JPH08241314A (ja) 文書ファイリングシステム
JP4304920B2 (ja) 文字列認識装置とそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091130

R150 Certificate of patent or registration of utility model

Ref document number: 4424057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees
S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370