JP4424056B2 - 文書処理装置およびプログラム - Google Patents
文書処理装置およびプログラム Download PDFInfo
- Publication number
- JP4424056B2 JP4424056B2 JP2004139944A JP2004139944A JP4424056B2 JP 4424056 B2 JP4424056 B2 JP 4424056B2 JP 2004139944 A JP2004139944 A JP 2004139944A JP 2004139944 A JP2004139944 A JP 2004139944A JP 4424056 B2 JP4424056 B2 JP 4424056B2
- Authority
- JP
- Japan
- Prior art keywords
- abbreviation
- document
- phrase
- input
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
しかし、この技術を用いても正しく変換することが困難なケースがある。例えば、ある語句(例えば「現金自動預入引出機」)の略語と他の語句(例えば「非同期伝送モード」)の略語とが一致していると、このような略語(例えば「ATM」)から元の語句を正しく特定するのが困難になる。
また、この技術を用いても使用者に負担がかかるケースがある。例えば、会社や部門などの特定の範囲内でのみ用いられる略語は標準的な辞書に登録されていないから、このような略語から元の語句を特定することができるようにするには、使用者が、略語と元の語句とを対応付けて装置に記憶させる作業を予め行わねばならない。
本発明は上述した事情に鑑みてなされたものであり、使用者に負担をかけることなく、文書中の略語から元の語句を正しく特定することができる技術を提供することを目的としている。
この文書処理装置は、文書を入力して印刷する際に、入力した文書から略語と該略語を補足する元の語句との組を抽出して記憶する。したがって、使用者は、この文書処理装置に文書を印刷させるだけで、略語と元の語句とを対応付けて記憶させることができる。また、この文書処理装置は、使用者が多ければ多いほど、効率的に組を記憶させることができる。
また、文書を入力して印刷する装置は会社や部門などの特定の範囲内の使用者に共用されることが多いから、この文書処理装置により記憶される組は、略語と元の語句とを上記特定の範囲内で正しく対応付けることになる。したがって、この組を用いれば、文書中の略語から元の語句を正しく特定することができる。
この文書処理装置は、文書を光学的に読み取ることにより入力して出力する際に、入力した文書から略語と該略語を補足する元の語句との組を抽出して記憶する。したがって、使用者は、この文書処理装置に文書を光学的に読み取らせるだけで、略語と元の語句とを対応付けて記憶させることができる。また、この文書処理装置は、使用者が多ければ多いほど、効率的に組を記憶させることができる。
また、文書を光学的に読み取って出力する装置は上記特定の範囲内の使用者に共用されることが多い。したがって、この文書処理装置により記憶される組を用いれば、文書中の略語から元の語句を正しく特定することができる。
このプログラムによれば、使用者はコンピュータに文書および指示を入力するだけで、指示に応じた処理だけでなく、略語と元の語句とを対応付けて記憶させる処理をも行わせることができる。しかも、後者の処理は、使用者に意識されることなく行われる。また、このコンピュータの使用者が多ければ多いほど、略語および元の語句を効率的に記憶させることができる。
また、このコンピュータは特定の範囲内の使用者に共用されるから、このコンピュータによれば、文書中で元の語句に補足されていない略語の元の語句を正しく特定し、この略語の近傍位置に当該元の語句を挿入することができる。この結果、使用者は適切な出力物を得ることができる。
[構成]
図1は本発明の一実施形態に係る文書処理装置1の構成を示す図である。
文書処理装置1は、ある会社の社員に共用されるように当該会社内に設置されており、社員に操作されて当該社員の指示を入力する操作部11、文書処理装置1の原稿台(図示略)にセットされた文書を光学的に読み取って画像データとして入力するスキャナ12、画像データを一時的に記憶するRAM13、RAM13に記憶されている画像データの画像を用紙上に形成して当該用紙を文書として文書処理装置1外へ排出する印刷部14、データを記憶する不揮発性メモリ15、および各部を制御するCPU16を有する。
テーブルTは1つの略語に1つの元の語句(日本語)を対応付けた組を格納するものである。略語は組に固有であり、異なる組に同一の略語が含まれることはない。テーブルTには複数の組が格納され得るが、初期状態では、テーブルTに格納されている組は無い。
次に、上述した構成の文書処理装置1の動作について説明する。
まず、第1の社員が図3に示す日本語の文書を原稿台にセットし、操作部11を用いて複写の指示を入力したものとする。
すると、CPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込み、印刷部14を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置1外へ排出する。こうして文書が複写される。
まず、RAM13に記憶されている画像データからOCR(Optical Character Recognition)によってテキストデータを生成する(ステップSA1)。次に、このテキストデータに対して形態素解析を行う(ステップSA2)。次に、この形態素解析の結果と辞書Dの内容とに基づいて、このテキストデータから略語と当該略語を補足する元の語句との組の抽出を試みる(ステップSA3)。図3の文書の場合、略語「ATM」と元の語句「現金自動預入引出機」との組が抽出される。
すると、上述と同様の処理が繰り返される。ただし、図6の文書には略語「ODA」は存在するものの、この略語を補足する元の語句は存在しない。したがって、ステップSA4の判定結果が「NO」となり、新たな組がテーブルTに登録されることなく登録処理が終了する。なお、略語すら存在しない文書を複写する際にも、これと同様の動作となる。
すると、CPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込む。次に、図4の登録処理を行う。図7の文書には略語「ODA」と当該略語を補足する元の語句「政府開発援助」とが存在するから、この登録処理では、これらの組がテーブルTに格納される。この結果、テーブルTの内容は図8に示す通りとなる。
まず、RAM13に記憶されている画像データからOCRによってテキストデータを生成する(ステップSB1)。次に、このテキストデータに対して形態素解析を行う(ステップSB2)。次に、この形態素解析の結果と辞書Dの内容とに基づいて、このテキストデータから、元の語句で補足されていない略語の検出を試みる(ステップSB3)。図7の文書の場合、「ATM」および「CD」が検出される。
以上説明したように、文書処理装置1は、文書を複写したり翻訳したりするときに、当該文書から略語と当該略語を補足する元の語句との組を抽出してテーブルTに格納することができる。
また、文書処理装置1はある会社の社員に共用されているから、文書処理装置1によれば、略語と元の語句とを特定の範囲(会社)内において正しく対応付けた組を効率よく収集することができる。
以上より、使用者(社員)は、文書処理装置1を用いて文書を複写したり翻訳したりするだけで、文書中の略語から元の語句を正しく特定するためのデータを文書処理装置1に効率よく蓄積させることができる。しかも、この蓄積は、使用者に意識されることなく行われる。
例えば、加工処理において、テキストデータからテーブルTに格納されている組に含まれている略語を検出し、検出した略語の直後に当該略語を含む組に含まれている元の語句を括弧で囲った文字列を挿入するようにしてもよい。
また、加工処理により得られたテキストデータをそのまま翻訳に用いるようにしてもよい。
また、加工処理を経ずに翻訳を行い、翻訳後の文書(画像データ)を、当該文書中で元の語句に補足されていない略語であってテーブルTに格納されている略語の近傍位置に当該略語の元の語句を翻訳して得られる文字列を挿入することによって加工するようにしてもよい。
また、文書処理装置1に通信機能を持たせ、テーブルTを他の装置へ送信することができるようにしてもよい。
また、任意の自然言語で記述された文書を別の任意の自然言語に翻訳するようにしてもよい。
Claims (5)
- ある自然言語の文書を入力して印刷することにより出力する入出力手段と、
前記入出力手段により入力された文書から予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する第1略語検出手段と、
前記第1略語検出手段により検出された略語の直後に、括弧で囲われた当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該元の語句の組を抽出する組抽出手段と、
前記組抽出手段により抽出された組を記憶する記憶手段と、
前記第1略語検出手段により検出された略語の直後に、括弧で囲われた当該略語よりも長い語句が現れない場合には、当該略語を元の語句に補足されていない略語として検出する第2略語検出手段と、
前記第2略語検出手段により検出された略語を含む組が前記記憶手段に記憶されている場合には、前記入出力手段により入力された文書を、該組内の元の語句を該略語の近傍位置に挿入することにより加工する挿入手段と
を有し、
前記入出力手段は前記挿入手段により加工された文書を出力する
文書処理装置。 - 前記入出力手段は、前記文書を光学的に読み取ることにより入力して出力する
ことを特徴とする請求項1に記載の文書処理装置。 - 使用者に操作される操作部を有し、
前記入出力手段は、前記操作部を用いて所定の指示が入力されると、前記文書を入力して出力する
ことを特徴とする請求項1または2に記載の文書処理装置。 - 前記挿入手段により加工された文書を別の自然言語に翻訳する翻訳手段を有し、
前記入出力手段は前記翻訳手段により翻訳された文書を出力する
ことを特徴とする請求項1から3のいずれかに記載の文書処理装置。 - コンピュータに、
ある自然言語の文書および指示を入力し、入力した文書に対して該指示に応じた処理を
行ってから該文書を出力する一方、入力した文書から予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも2つの大文字のアルファベットから構成されているものを略語として検出し、検出された略語の直後に、括弧で囲われた当該略語よりも長い語句が現れる場合には、当該語句を、当該略語を補足する元の語句として検出し、当該略語と当該略語を補足する元の語句とを対応付けて記憶する登録手順と、
前記登録手順の後に、前記自然言語の文書および指示を入力し、入力した文書から予め定められた辞書に登録されていない未知語を抽出し、抽出した未知語のうち少なくとも2つの大文字のアルファベットから構成されているものを略語として検出し、検出された略語の直後に、括弧で囲われた当該略語よりも長い語句が現れない場合には、当該略語を元の語句に補足されていない略語として検出して、当該元の語句に補足されていない略語の近傍位置に当該略語に対応付けて記憶している元の語句を挿入することにより加工し、加工した文書に対して該指示に応じた処理を行ってから該文書を出力する実行手順と
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004139944A JP4424056B2 (ja) | 2004-05-10 | 2004-05-10 | 文書処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004139944A JP4424056B2 (ja) | 2004-05-10 | 2004-05-10 | 文書処理装置およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005322047A JP2005322047A (ja) | 2005-11-17 |
JP2005322047A5 JP2005322047A5 (ja) | 2007-06-07 |
JP4424056B2 true JP4424056B2 (ja) | 2010-03-03 |
Family
ID=35469283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004139944A Expired - Fee Related JP4424056B2 (ja) | 2004-05-10 | 2004-05-10 | 文書処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4424056B2 (ja) |
-
2004
- 2004-05-10 JP JP2004139944A patent/JP4424056B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005322047A (ja) | 2005-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7159608B2 (ja) | 操作画面の表示装置、画像処理装置及びプログラム | |
JP5372110B2 (ja) | 情報出力装置、情報出力方法、及びコンピュータプログラム | |
US7623716B2 (en) | Language translation device, image processing apparatus, image forming apparatus, language translation method and storage medium | |
US9529792B2 (en) | Glossary management device, glossary management system, and recording medium for glossary generation | |
JP4424056B2 (ja) | 文書処理装置およびプログラム | |
US20050251743A1 (en) | Learning apparatus, program therefor and storage medium | |
JP4720309B2 (ja) | 文書読取システム | |
JP2007052613A (ja) | 翻訳装置、翻訳システムおよび翻訳方法 | |
JP6749583B2 (ja) | 情報処理装置、画像処理装置およびプログラム | |
JP4797507B2 (ja) | 翻訳装置、翻訳システムおよびプログラム | |
JP2006252164A (ja) | 中国語文書処理装置 | |
JP7268389B2 (ja) | 情報処理装置及びプログラム | |
JP2007087056A (ja) | 翻訳装置及びプログラム | |
JP4645065B2 (ja) | 文書処理装置およびプログラム | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP2006276904A (ja) | ファックス装置 | |
JP4872285B2 (ja) | 文書管理装置、文書管理システムおよび文書管理方法 | |
JP2019197321A (ja) | 画像処理装置及び画像形成装置 | |
JP2001034611A (ja) | 読み情報出力装置および記録媒体 | |
JP2005339039A (ja) | 文書処理装置および文書処理方法 | |
JP2004199483A (ja) | 画像出力装置 | |
JP2006276917A (ja) | 文書処理装置及び文書処理方法 | |
US20230137350A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2003173421A (ja) | 文字認識結果補正装置 | |
JP2006349836A (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070417 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090421 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4424056 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |