JP4424057B2

JP4424057B2 - 学習装置およびプログラム

Info

Publication number: JP4424057B2
Application number: JP2004139945A
Authority: JP
Inventors: 恭輔石川; 昌俊田川; 道弘田宗; 篤伊藤; 直子佐藤; 潔田代; 博増市; 紹明劉
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-05-10
Filing date: 2004-05-10
Publication date: 2010-03-03
Anticipated expiration: 2024-05-10
Also published as: US20050251743A1; JP2005322048A; CN1696929A; CN100474288C

Description

本発明は、入力されたデータを、辞書を用いて処理し、その結果を出力する、という処理システムにおいて、入力されたデータを用いて辞書を更新する技術に関する。

上記の処理システムにおいて入力されたデータを用いて辞書を更新する技術としては、特許文献１および特許文献２に開示された技術が挙げられる。
特許文献１には、文書を入力して分類するシステムが開示されている。このシステムは、まず、予め分類された文書を入力し、これらの文書を用いて、単語や隣接単語間の関係などの文書情報と、この文書情報が文書中に現れたときに当該文書が各分類に属する確率である文書分類確率とを対応付けて辞書（学習データ）を作成しておく。そして、分類すべき未分類の文書を入力し、この文書を、作成した辞書を用いて分類する。

特許文献２には、日本語入力変換に用いる辞書を複数人で共用して更新するシステムが開示されている。このシステムでは、サーバ装置に記憶されている辞書は、複数の使用者に共用され、使用される度に更新される。よって、効率的な学習が可能である。
特開平８−２８７０９７号公報特開平１０−２６０９６０号公報

一般に、上記の処理システムでは、特定のグループ（組織や部署など）に特化された辞書を用いることにより、そのグループに最適な処理結果を得ることができる。このような辞書を様々なグループ毎に予め用意しておくのは困難であるから、特定のグループに最適な処理結果を得るためには、学習によって辞書をグループに特化させる必要がある。この学習を効率的に行うためには、特許文献２の技術のように、辞書を複数人で共用して更新可能とするのが望ましい。

一方、複写機やプリンタなどの装置を上記の処理システムとして機能させることが検討されている。このような装置の使用者は上記のグループのメンバーに限らないから、特許文献２の技術を適用したとしても、学習によって構築される辞書が上記のグループに特化される保証はない。つまり、特定のグループに属さない使用者に使用され得る処理システムに特許文献２の技術を適用しても、グループに確実に特化された辞書を構築することはできない。

本発明は上述した事情に鑑みて為されたものであり、装置の使用者を限定することなく、特定のグループに確実に特化された辞書を効率的に構築して処理に用いることができる技術を提供することを目的としている。

本発明は、辞書を更新可能に記憶する記憶手段と、使用者に使用されてデータを入力する入力手段と、前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも２つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて、前記記憶手段に記憶されている辞書を更新する更新手段とを有する学習装置を提供する。

また、本発明は、コンピュータを、使用者に使用されてデータを入力する入力手段と、前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも２つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて前記辞書を更新する更新手段として機能させるためのプログラムを提供する。

上記の学習装置、および上記のプログラムを実行したコンピュータは、それぞれ、データを入力した使用者の識別子または当該使用者の属するグループの識別子が予め登録された識別子である場合にのみ、当該データを用いて、記憶手段に記憶されている辞書を更新する。

本発明によれば、使用者の識別子または使用者が属するグループの識別子を予め登録しておくことにより、学習装置やコンピュータの使用者を限定することなく、特定のグループに確実に特化された辞書を効率的に構築して処理に用いることができる。

以下、図面を参照して、本発明の一実施形態について説明する。
本実施形態は、本発明を、機械翻訳を行う装置に適用した場合のものである。本実施形態に係る装置は、入力された文書を翻訳して出力するが、翻訳に先立って、入力された文書を、文書中で元の語句に補足されていない略語が元の語句で補足されるように加工する。この加工に用いられるテーブルが、入力された文書を用いて更新される辞書である。

［構成］
図１は本実施形態に係る学習装置１の構成を示す図である。
学習装置１は、日本語の文書を入力して加工してから英語に翻訳して出力するものであり、使用者に操作されて当該使用者の指示を入力する操作部１１、学習装置１の原稿台（図示略）にセットされた文書を光学的に読み取って画像データとして入力するスキャナ１２、各種のデータを一時的に記憶するＲＡＭ１３、ＲＡＭ１３に記憶されている画像データの画像を用紙上に形成して当該用紙を学習装置１外へ排出する印刷部１４、ＩＣカードの装着状態（装着中／非装着）を検出するとともに装着されたＩＣカードからＩＤ（識別子）を読み出すＩＣカードリーダ１５、データを記憶する不揮発性メモリ１６、および各部を制御するＣＰＵ１７を有する。

ＩＣカードリーダ１５に装着されるＩＣカードは、学習装置１を使用する全ての使用者に渡されており、各使用者に固有のＩＤを記憶している。例えば、使用者Ａが所持するＩＣカードにはＩＤ「Ａ」が記憶されており、使用者Ｂが所持するＩＣカードにはＩＤ「Ｂ」が記憶されており、使用者Ｃが所持するＩＣカードにはＩＤ「Ｃ」が記憶されている。なお、使用者Ａおよび使用者Ｂは同一のグループに属し、使用者Ｃはこのグループに属していない。

不揮発性メモリ１６は、図示しない電源から電力が供給されなくともデータを保持することが可能であり、後述の動作を導くプログラムＰ、日本語と英語とが対応付けられている翻訳用の辞書Ｄ、後述のテーブルＴ１、および後述の登録リストＬを記憶している。また、不揮発性メモリ１６には、書き込まれたＩＤを保持するＩＤ領域Ｒが確保されている。

図２はテーブルＴ１のデータ構造を模式的に示す図である。
テーブルＴ１は文書を加工するための学習データを格納するものである。学習データは、１つの略語に１つの元の語句（日本語）を対応付けた組からなる。略語は組に固有であり、異なる組に同一の略語が含まれることはない。テーブルＴ１には複数の組が格納され得るが、初期状態では、テーブルＴ１に格納されている組は無い。

図３は登録リストＬの内容を模式的に示す図である。
登録リストＬは、テーブルＴ１を特化させるべきグループに属する使用者、すなわち登録メンバーのＩＤを格納したものである。この図に示すように、テーブルＴ１に格納されているＩＤは「Ａ」および「Ｂ」である。つまり、使用者Ａおよび使用者Ｂのみが登録メンバーとなっている。

ＣＰＵ１７は、図示せぬ電源から電力が供給されると、不揮発性メモリ１６からプログラムＰを読み出して実行する。これによって、ＣＰＵ１７は学習装置１の各部を制御可能な状態となり、次に述べる動作を行う。ただし、次に述べる動作の開始時点では、ＩＣカードリーダ１５にＩＣカードが装着されていないものとする。

［動作］
ＣＰＵ１７は、図４に示す使用者特定処理を実行する。
使用者特定処理では、まず、不揮発性メモリ１６上のＩＤ領域Ｒの記憶内容をクリアする（ステップＳＡ１）。次に、ＩＣカードリーダ１５にＩＣカードが装着されているか否かを判定する（ステップＳＡ２）。具体的には、ＣＰＵ１７はＩＣカードリーダ１５にＩＣカードの装着状態を検出させ、この検出結果を用いて上記の判定を行う。この判定は、ＩＣカードリーダ１５にＩＣカードが装着されるまで繰り返される（ステップＳＡ２：ＮＯ）。

ここで、使用者Ａが、自身のＩＣカードをＩＣカードリーダ１５に装着したとする。すると、ステップＳＡ２の判定結果は「ＹＥＳ」となる。よって、ＣＰＵ１７は、装着中のＩＣカードからＩＣカードリーダ１５を用いてＩＤ「Ａ」を読み出し、このＩＤをＩＤ領域Ｒに書き込むとともに、使用者特定処理に並行して図５に示す翻訳処理を開始する（ステップＳＡ３）。次に、ＩＣカードリーダ１５にＩＣカードが装着されているか否かを判定する（ステップＳＡ４）。この判定は、ＩＣカードリーダ１５からＩＣカードが取り外されるまで繰り返される（ステップＳＡ４：ＹＥＳ）。

図５の翻訳処理では、ＣＰＵ１７は、まず、翻訳を開始する旨の開始指示が操作部１１を用いて入力されたか否かを判定する（ステップＳＢ１）。この判定は、開始指示が入力されるまで繰り返される（ステップＳＢ１：ＮＯ）。

ここで、使用者Ａが、含まれる略語が「ＡＴＭ」および「ＯＤＡ」のみの日本語の文書（図６参照）を原稿台にセットし、操作部１１を用いて開始指示を入力したものとする。すると、ステップＳＢ１の判定結果は「ＹＥＳ」となる。よって、ＣＰＵ１７は、原稿台にセットされた文書をスキャナ１２により光学的に読み取って画像データとして入力し、この画像データをＲＡＭ１３に書き込む（ステップＳＢ２）。次に、この画像データに対してＯＣＲ（Optical Character Recognition）を行ってテキストデータを生成し（ステップＳＢ３）、このテキストデータに対して形態素解析を行う（ステップＳＢ４）。

次に、この形態素解析の結果と辞書Ｄの内容とに基づいて、このテキストデータから略語を検出する（ステップＳＢ５）。具体的には、形態素解析の結果から辞書Ｄに登録されていない未知語を検出し、検出した未知語のうち、少なくとも２つの大文字のアルファベットから構成されているものを略語として検出する。次に、少なくとも１つの略語が検出されたか否かを判定する（ステップＳＢ６）。ここでは、略語として「ＡＴＭ」および「ＯＤＡ」が検出されているから、この判定結果が「ＹＥＳ」となる。

よって、ＣＰＵ１７は、学習装置１を使用中の使用者が登録メンバーであるか否かを判定する（ステップＳＢ７）。具体的には、ＩＤ領域Ｒ内のＩＤが不揮発性メモリ１６に記憶されている登録リストＬに格納されているか否かを調べる。ここでは、ＩＤ領域Ｒ内のＩＤ「Ａ」が登録リストＬに格納されているから、この判定結果は「ＹＥＳ」となる。

よって、ＣＰＵ１７は、不揮発性メモリ１６からテーブルＴ１を読み出してＲＡＭ１３に書き込むとともに、検出された略語を含む組を上記テキストデータから抽出する処理を試みる（ステップＳＢ８）。具体的には、検出した略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べ、現れる場合にのみ、その語句を当該略語を補足する元の語句とみなし、当該略語および当該元の語句を組としてテキストデータから抽出する。ここでは、検出された略語は「ＡＴＭ」および「ＯＤＡ」のみであり、かつ図６の文書において「ＡＴＭ」の直後には「（現金自動預入引出機）」が現れ、かつ「ＯＤＡ」の直後には括弧が現れないから、「ＡＴＭ」および「現金自動預入引出機」のみが組として抽出される。なお、以降の説明では、ＲＡＭ１３上のテーブルＴ１を、不揮発性メモリ１６上のテーブルＴ１と区別するために、「テーブルＴ２」と記す。

次に、ＣＰＵ１７は、少なくとも１つの組が抽出されたか否かを判定する（ステップＳＢ９）。ここでは、「ＡＴＭ」と「現金自動預入引出機」との組が抽出されているから、この判定結果が「ＹＥＳ」となる。したがって、ＣＰＵ１７は、抽出した組をテーブルＴ１に格納する（ステップＳＢ１０）。こうして、テーブルＴ１の内容が図８に示す通りとなる。なお、格納しようとする組に含まれている略語と同一の略語を含む組がテーブルＴ１に格納されている場合には、ＣＰＵ１７は、格納しようとする組で格納されている組を上書きする。

次に、ＣＰＵ１７は図７に示す加工処理を行う（ステップＳＢ１１）。
加工処理では、まず、検出した略語のうち、最初に検出された略語を処理対象の略語とする（ステップＳＣ１）。ここでは、「ＡＴＭ」が処理対象の略語となる。次に、処理対象の略語が元の語句で補足されているか否かを判定する（ステップＳＣ２）。この判定は、テキストデータにおいて処理対象の略語の直後に括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べることにより行われる。図６から明らかなように、「ＡＴＭ」は元の語句で補足されているから、ここでの判定結果は「ＹＥＳ」となる。よって、ＣＰＵ１７は、処理対象の略語の次に検出された略語が存在するか否かを判定する（ステップＳＣ５）。ここでは、「ＡＴＭ」の次に「ＯＤＡ」が検出されているから、この判定結果は「ＹＥＳ」となる。よって、ＣＰＵ１７は、「ＯＤＡ」を処理対象の略語とする（ステップＳＣ６）。

次に、ＣＰＵ１７は、処理対象の略語が元の語句で補足されているか否かを判定する（ステップＳＣ２）。図６から明らかなように、「ＯＤＡ」は元の語句で補足されていないから、ここでの判定結果は「ＮＯ」となる。よって、ＣＰＵ１７は、処理対象の略語を含む組がテーブルＴ２に格納されているか否かを判定する（ステップＳＣ３）。「ＯＤＡ」はテーブルＴ２に格納されていないから、ここでの判定結果は「ＮＯ」となる。よって、ＣＰＵ１７は、処理対象の略語の次に検出された略語が存在するか否かを判定する（ステップＳＣ５）。「ＯＤＡ」の次には略語が検出されていないから、ここでの判定結果は「ＮＯ」となり、テキストデータが変更されることなく加工処理が終わる。

次に、ＣＰＵ１７は、形態素解析の結果および辞書Ｄを用いてテキストデータを英語に翻訳して翻訳結果の画像データをＲＡＭ１３に書き込み、印刷部１４を用いて、この画像データの画像を用紙上に形成して当該用紙を学習装置１外へ排出する。こうして、学習装置１から英語に翻訳された文書が出力される。以降、ＣＰＵ１７は、開始指示の入力を待ち続ける（ステップＳＢ１：ＮＯ）。

ここで、使用者Ａが、自身のＩＣカードをＩＣカードリーダ１５から取り外したとする。すると、図４のステップＳＡ４の判定結果が「ＮＯ」となる。よって、ＣＰＵ１７は、ＩＤ領域Ｒの記憶内容をクリアするとともに、実行中の翻訳処理を中止する（ステップＳＡ１）。以降、ＩＣカードリーダ１５にＩＣカードが装着されているか否かを判定し続ける（ステップＳＡ２：ＮＯ）。

ここで、使用者Ｂが、自身のＩＣカードをＩＣカードリーダ１５に装着したとする。すると、ステップＳＡ２の判定結果が「ＹＥＳ」となる。よって、ＣＰＵ１７は、装着中のＩＣカードからＩＣカードリーダ１５を用いてＩＤ「Ｂ」を読み出し、このＩＤをＩＤ領域Ｒに書き込むとともに、使用者特定処理に並行して図５の翻訳処理を開始する（ステップＳＡ３）。以降、ＩＣカードリーダ１５にＩＣカードが装着されているか否かを判定し続ける（ステップＳＡ４：ＹＥＳ）。

ここで、使用者Ｂが、含まれる略語が「ＡＴＭ」のみの日本語の文書（図９参照）を原稿台にセットし、操作部１１を用いて開始指示を入力したものとする。すると、図５のステップＳＢ１の判定結果が「ＹＥＳ」となる。以降、上述と同様の処理が行われる。ただし、図から明らかなように、図９の文書における唯一の略語「ＡＴＭ」は元の語句に補足されていないから、ステップＳＢ８にて抽出される組は無い。よって、ステップＳＢ９の判定結果が「ＮＯ」となり、ＣＰＵ１７は、テーブルＴ１に組を格納することなく、加工処理を行う（ステップＳＢ１１）。

この加工処理では、この「ＡＴＭ」を処理対象の略語とし（ステップＳＣ１）、この略語が元の語句で補足されているか否かを判定する（ステップＳＣ２）。上述のように、この「ＡＴＭ」は元の語句で補足されていないから、ここでの判定結果は「ＮＯ」となる。よって、ＣＰＵ１７は、「ＡＴＭ」を含む組がテーブルＴ２に格納されているか否かを判定する（ステップＳＣ３）。この時点でのテーブルＴ２の内容は図８に示す通りである。図から明らかなように、「ＡＴＭ」を含む組はテーブルＴ２に格納されているから、ここでの判定結果は「ＹＥＳ」となる。

よって、ＣＰＵ１７は、図９の文書に対するテキストデータに文字列を挿入して当該テキストデータを加工する（ステップＳＣ４）。この文字列は当該組に含まれている元の語句「現金自動預入引出機」を括弧で囲んだものであり、その挿入位置は当該テキストデータ中の「ＡＴＭ」の直後である。この加工の結果、テキストデータは、図１０に示す文書を示すものとなる。次に、ＣＰＵ１７は、処理対象の略語の次に検出された略語が存在するか否かを判定する（ステップＳＣ５）。「ＡＴＭ」の次には略語が検出されていないから、ここでの判定結果は「ＮＯ」となり、加工処理が終わる。
加工処理後の動作は上述した通りであり、ＣＰＵ１７は、最終的には、開始指示の入力を待ち続ける（ステップＳＢ１２、ステップＳＢ１：ＮＯ）。

ここで、使用者Ｂが、自身のＩＣカードをＩＣカードリーダ１５から取り外したとする。すると、上述と同様の処理が行われ、ＣＰＵ１７は、最終的には、ＩＣカードリーダ１５にＩＣカードが装着されているか否かを判定し続ける（ステップＳＡ４：ＮＯ、ステップＳＡ１、ステップＳＡ２：ＮＯ）。

ここで、使用者Ｃが、自身のＩＣカードをＩＣカードリーダ１５に装着したとする。すると、上述と同様の処理が行われ、ＣＰＵ１７は、最終的には、ＩＣカードリーダ１５にＩＣカードが装着されているか否かを判定し続ける（ステップＳＡ２：ＹＥＳ、ステップＳＡ３、ステップＳＡ４：ＹＥＳ）。ただし、この際にＩＤ領域Ｒに書き込まれるＩＤは「Ｃ」である。

ここで、使用者Ｃが、図９の文書を原稿台にセットし、操作部１１を用いて開始指示を入力したものとする。すると、図５のステップＳＢ１の判定結果が「ＹＥＳ」となる。以降、上述と同様の処理が行われる。ただし、図３に示すように、登録リストＬには、ＩＤ領域Ｒに保持されているＩＤ「Ｃ」が格納されていないから、ステップＳＢ７の判定結果が「ＮＯ」となる。よって、ＣＰＵ１７は、組の抽出を試みることなく、加工処理を行う（ステップＳＢ１１）。

この加工処理では、上述した使用者Ｂについての動作と同様の動作が行われる。この結果、図１０に示す文書を示すテキストデータが得られて加工処理が終わる。加工処理後の動作は上述した通りであり、ＣＰＵ１７は、最終的には、開始指示の入力を待ち続ける（ステップＳＢ１２、ステップＳＢ１：ＮＯ）。

ここで、使用者Ｃが自身のＩＣカードをＩＣカードリーダ１５から取り外し、次いで使用者Ｂが自身のＩＣカードをＩＣカードリーダ１５に装着したとする。この結果、ＩＤ領域ＲにはＩＤ「Ｂ」が書き込まれる。そして、使用者Ｂが、略語が含まれていない文書（図１１参照）を原稿台にセットし、操作部１１を用いて開始指示を入力したものとする。この場合には、図５のステップＳＢ６の判定結果が「ＮＯ」となり、ＣＰＵ１７は、登録メンバーであるか否かの判定を行うことなく、ステップＳＢ１２の処理を行う。

［まとめ］
以上説明したように、学習装置１のＣＰＵ１７は、スキャナ１２に文書を入力させるとともに、不揮発性メモリ１６からテーブルＴ１を読み出してテーブルＴ２としてＲＡＭ１３に書き込む。そして、入力した文書を、テーブルＴ２を用いて加工し、更に辞書Ｄを用いて翻訳して印刷部１４から出力させる。その一方、ＩＣカードリーダ１５に装着されたＩＣカードからＩＤを読み出して取得し、このＩＤが不揮発性メモリ１６上の登録リストＬに予め格納されている場合にのみ、入力した文書を用いて、テーブルＴ１を更新する。

つまり、登録リストＬに予め格納されているＩＤを記憶しているＩＣカードを持つ使用者により文書が入力された場合にのみ、この文書によってテーブルＴ１が更新される。よって、学習装置１の使用者を限定することなく、使用者Ａおよび使用者Ｂが属するグループに確実に特化されたテーブルＴ１を効率的に構築して加工処理に用いることができる。

なお、上述した実施形態を以下に述べるように変形してもよい。
例えば、学習装置１を複数の装置からなるシステムとして構成してもよい。
また、ＩＣカードリーダ１５にＩＣカードが装着されていなくとも図５の翻訳処理を実行することができるように学習装置１を構成してもよい。この場合には、ＩＤ領域ＲにＩＤが書き込まれていない場合、すなわちＩＤの取得に失敗した場合にステップＳＢ７の判定結果が「ＮＯ」となるようにすべきである。

また、グループのＩＤと各グループのメンバーのＩＤとを対応付けた組織表を不揮発性メモリ１６に記憶させておき、これを用いて、使用者の属するグループを特定するようにしてもよい。また、使用者のＩＤではなく、使用者の属するグループのＩＤを記憶したＩＣカードを用いてもよい。なお、いずれの場合であっても、登録リストＬには、辞書の更新が許可されたグループのＩＤが予め格納されることになる。

また、学習装置１を機械翻訳以外の処理を行う装置として構成してもよい。例えば、ＯＣＲにおいて文字形状の特徴量と文字とを対応付けている特徴量辞書を、文字を高い確度で認識することができたときに更新する装置としてもよい。また、例えば、入力した文書を分類する処理や日本語入力変換処理などの、入力したデータを、辞書を用いて処理し、その結果を出力する、という任意の処理において、入力されたデータを用いて処理に用いる辞書を更新する装置としてもよい。もちろん、データの入力や出力の形態は任意である。例えば、データを受信することによって入力し、送信することによって出力する形態であってもよい。

なお、日本語入力変換処理などの、変換対象の入力データと使用者の指示（複数の候補からの選択操作）とに基づいて辞書の更新内容が定まる処理に適用する場合、変換対象の入力データのみならず、使用者の指示を示す入力データについても、入力した使用者（またはそのグループ）が予め登録された使用者（またはそのグループ）であることを確認した上で、辞書の更新を行うべきである。

本発明の一実施形態に係る学習装置１の構成を示す図である。学習装置１内のテーブルＴ１のデータ構造を模式的に示す図である。学習装置１内の登録リストＬの内容を模式的に示す図である。学習装置１が行う使用者特定処理のフローチャートである。学習装置１が行う翻訳処理のフローチャートである。学習装置１に入力される文書の一例を示す図である。学習装置１が行う加工処理のフローチャートである。テーブルＴ１の内容を模式的に示す図である。学習装置１に入力される文書の一例を示す図である。学習装置１により形成される文書の一例を示す図である。学習装置１に入力される文書の一例を示す図である。

符号の説明

１…学習装置、１１…操作部、１２…スキャナ、１３…ＲＡＭ、１４…印刷部、１５…ＩＣカードリーダ、１６…不揮発性メモリ、１７…ＣＰＵ、Ｐ…プログラム、Ｄ…辞書、Ｌ…登録リスト、Ｒ…ＩＤ領域、Ｔ１，Ｔ２…テーブル。

Claims

辞書を更新可能に記憶する記憶手段と、
使用者に使用されてデータを入力する入力手段と、
前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも２つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、
前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、
前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、
前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、
前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて、前記記憶手段に記憶されている辞書を更新する更新手段と
を有する学習装置。
コンピュータを、
使用者に使用されてデータを入力する入力手段と、
前記入力手段により入力されたデータから予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも２つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、
前記入力手段の使用者の識別子または該使用者の属するグループの識別子を取得する取得手段と、
前記取得手段により取得された識別子が予め登録された識別子であって、かつ、前記略語検出手段により検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を格納する格納手段と、
前記略語検出手段により検出された略語が前記格納手段に格納されており、かつ、当該略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れない場合には、当該略語の直後に、前記組として当該略語とともに前記格納手段に格納されている前記元の語句を挿入し、その結果を出力する出力手段と、
前記取得手段により取得された識別子が予め登録された識別子である場合に、前記格納手段に格納された組を用いて前記辞書を更新する更新手段
として機能させるためのプログラム。