JP4645065B2 - 文書処理装置およびプログラム - Google Patents
文書処理装置およびプログラム Download PDFInfo
- Publication number
- JP4645065B2 JP4645065B2 JP2004154971A JP2004154971A JP4645065B2 JP 4645065 B2 JP4645065 B2 JP 4645065B2 JP 2004154971 A JP2004154971 A JP 2004154971A JP 2004154971 A JP2004154971 A JP 2004154971A JP 4645065 B2 JP4645065 B2 JP 4645065B2
- Authority
- JP
- Japan
- Prior art keywords
- abbreviation
- document
- dictionary
- phrase
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Description
しかし、この技術を用いても正しく変換することが困難なケースがある。例えば、ある語句(例えば「現金自動預入引出機」)の略語と他の語句(例えば「非同期伝送モード」)の略語とが一致していると、このような略語(例えば「ATM」)から元の語句を正しく特定するのが困難になる。
また、この技術を用いても使用者に負担がかかるケースがある。例えば、会社や部門などの特定の範囲内でのみ用いられる略語は標準的な辞書に登録されていないから、このような略語から元の語句を特定することができるようにするには、使用者が、略語と元の語句とを対応付けて装置に記憶させる作業を予め行わねばならない。つまり、特定の範囲に十分に特化された辞書を得るためには、その範囲内で機械翻訳の対象となる文書の特性に特化した情報(以降、「解析用範囲特化データ」という)を予め大量に収集しておかねばならない。しかし、この収集を効率よく行う技術は提案されていない。
また、本発明は、コンピュータに、使用者の識別子を入力する入力手順と、文書を読み取って、読み取られた文書を用いて、略語から当該略語を補足する元の語句を特定する文書処理で用いられるデータを取得する取得手順と、前記取得手順にて取得したデータから、前記辞書に登録されていない未知語を検出する未知語検出手順と、前記未知語検出手順にて検出した未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手順と、前記略語検出手順にて検出した略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合に、その語句を当該略語を補足する元の語句とし、当該略語と当該元の語句とを組として抽出する抽出手順と、前記入力手順にて入力された識別子により特定されるグループと対応付けて、前記抽出手順にて抽出した前記組を記憶する記憶手順とを実行させるためのプログラムを提供する。
以上より、本発明によれば、上記文書処理の精度を向上させるための、自身が属するグループに特化したデータを、手間をかけずに、効率よく収集することができる。
なお、本発明を機械翻訳に適用した実施形態が第1実施形態であり、OCRに適用した実施形態が第2実施形態である。
[構成]
図1は本発明の第1実施形態に係る文書処理装置1の構成を示す図である。
文書処理装置1は、ある会社の社員に共用されるように当該会社内に設置されており、社員に操作されて当該社員の指示を入力する操作部11、文書処理装置1の原稿台(図示略)にセットされた文書を光学的に読み取って画像データとして入力するスキャナ12、画像データを一時的に記憶するRAM13、RAM13に記憶されている画像データの画像を用紙上に形成して当該用紙を文書として文書処理装置1外へ排出する印刷部14、データを記憶する不揮発性メモリ15、ICカードが装着されると該ICカードから識別子を読み出すICカードリーダ17、および各部を制御するCPU16を有する。なお、ICカードは全社員に渡されており、各社員に固有の識別子を記憶している。
テーブルT1は1つの略語に1つの元の語句(日本語)を対応付けた組を格納するものである。略語は組に固有であり、異なる組に同一の略語が含まれることはない。テーブルT1には複数の組が格納され得るが、初期状態では、テーブルT1に格納されている組は無い。以上述べたことはテーブルT2にもあてはまる。
組織表Gは、社員の識別子から当該社員が所属する部署(第1の部署/第2の部署)を識別するためのテーブルであり、社員の識別子と部署の識別子とを対応付けて格納している。
次に、上述した構成の文書処理装置1の動作について説明する。
まず、第1の部署に所属する第1の社員が自身のICカードをICカードリーダ17に装着し、図3に示す日本語の文書を原稿台にセットし、操作部11を用いて複写の指示を入力したものとする。
すると、CPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込み、印刷部14を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置1外へ排出する。こうして文書が複写される。
まず、操作部11を用いて特定の指示が入力されているか否かを判定する(ステップSA1)。ここでは、この判定結果は「NO」となる。次に、RAM13に記憶されている画像データからOCR(Optical Character Recognition)によってテキストデータを生成する(ステップSA2)。次に、このテキストデータに対して形態素解析を行う(ステップSA3)。次に、この形態素解析の結果と辞書Dの内容とに基づいて、このテキストデータから略語と当該略語を補足する元の語句との組の抽出を試みる(ステップSA4)。図3の文書の場合、略語「ATM」と元の語句「現金自動預入引出機」との組が抽出される。
すると、上述と同様の処理が繰り返される。ただし、図6の文書には略語「ODA」は存在するものの、この略語を補足する元の語句は存在しない。したがって、ステップSA5の判定結果が「NO」となり、新たな組がテーブルに登録されることなく登録処理が終了する。なお、略語すら存在しない文書を複写する際にも、これと同様の動作となる。
すると、CPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込む。次に、図4の登録処理を行う。図7の文書には略語「ODA」と当該略語を補足する元の語句「政府開発援助」とが存在するから、この登録処理では、これらの組がテーブルT1に格納される。この結果、テーブルT1の内容は図8に示す通りとなる。
まず、RAM13に記憶されている画像データからOCRによってテキストデータを生成する(ステップSB1)。次に、このテキストデータに対して形態素解析を行う(ステップSB2)。次に、この形態素解析の結果と辞書Dの内容とに基づいて、このテキストデータから、元の語句で補足されていない略語の検出を試みる(ステップSB3)。図7の文書の場合、「ATM」および「CD」が検出される。
以上説明したように、文書処理装置1は、文書を複写するときに、使用者に意識させることなく、当該文書から略語と当該略語を補足する元の語句との組(解析用範囲特化データ)を抽出し、そのときに文書処理装置1を使用している社員の所属する部署に応じたテーブルに格納することができる。また、文書処理装置1は、ある会社の社員に共用されているから、上記の組の収集を効率よく行うことができる。
例えば、文書を翻訳するときに行われる収集を、特定の指示が入力されなかったときに限定して行うようにしてもよい。
また、文書処理装置1は、加工処理により加工された画像データの画像を用紙上に形成して当該用紙を排出する装置であってもよい。
また、文書処理装置1に通信機能を持たせ、テーブルT1やテーブルT2を他の装置へ送信することができるようにしてもよい。
また、ICカードに部署の識別子を記録しておき、これを用いてテーブルを特定するようにしてもよい。
[構成]
図12は本発明の第2実施形態に係る文書処理装置2の構成を示す図である。
文書処理装置2は、ある会社の社員に共用されるように当該会社内に設置されており、社員に操作されて当該社員の指示を入力する操作部21、文書処理装置2の原稿台(図示略)にセットされた文書を光学的に読み取って画像データとして入力するスキャナ22、画像データを一時的に記憶するRAM23、RAM23に記憶されている画像データの画像を用紙上に形成して当該用紙を文書として文書処理装置2外へ排出する印刷部24、データを記憶する不揮発性メモリ25、図示しない外部の装置との間で通信路(図示略)を介してデータを授受する通信部26、ICカードが装着されると該ICカードから識別子を読み出すICカードリーダ28、および各部を制御するCPU27を有する。なお、ICカードは全社員に渡されており、各社員に固有の識別子を記憶している。
次に、上述した構成の文書処理装置2の動作について説明する。
まず、第1の部署に所属する第1の社員が自身のICカードをICカードリーダ28に装着し、図13に示す日本語の文書を原稿台にセットするものとする。この文書の先頭部分(最初に読み取られる部分)の文字は、他の部分に現れる文字よりも大きい。
複写登録処理では、CPU27は、原稿台にセットされた文書をスキャナ22により光学的に読み取って画像データとして入力し、この画像データをRAM23に書き込み、印刷部24を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置2外へ排出する。こうして文書が複写される。
まず、操作部11を用いて特定の指示が入力されているか否かを判定する(ステップSC1)。ここでは、この判定結果は「NO」となる。次に、識別子領域R2から識別子を読み出し、この識別子と組織表G2とを用いて、抽出された組の格納先の固有特徴量辞書を特定する(ステップSC2)。この結果、第1の社員が所属している第1の部署に対応している固有特徴量辞書D221が特定される。
次に、CPU27は、この推定結果を不揮発性メモリ25の所定領域に書き込み(ステップSD11)、OCR処理を終了する。
以上説明したように、文書処理装置2は、文書を複写するときに、使用者に意識させることなく、当該文書から、十分に高い確度で推定された文字の形状の特徴量(OCR用範囲特化データ)を算出し、そのときに文書処理装置2を使用している社員の所属する部署に応じた固有特徴量辞書に格納することができる。また、文書処理装置2は、ある会社の社員に共用されているから、上記の特徴量の収集を効率よく行うことができる。
また、文書処理装置2は、文字が十分に高い確度で推定された場合にのみ、上記のデータを蓄積する。したがって、誤ったデータを蓄積して認識精度を低下させてしまう事態を確実に回避することができる。
なお、上述した実施形態を変形し、他の装置からの要求に応じて、固有特徴量辞書D221や固有特徴量辞書D222を当該装置へ送信することができるようにしてもよい。
また、上述した実施形態を変形し、ICカードに部署の識別子を記録しておき、これを用いて固有特徴量辞書を特定するようにしてもよい。
Claims (2)
- 文書を読み取る読取手段により読み取られた文書を用いて、略語から当該略語を補足する元の語句を特定する文書処理で用いられるデータを取得する取得手段と、
語句が登録されている辞書を記憶する辞書記憶手段と、
前記取得手段によって取得されたデータから、前記辞書に登録されていない未知語を検出する未知語検出手段と、
前記未知語検出手段によって検出された未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、
前記略語検出手段によって検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合に、その語句を当該略語を補足する元の語句とし、当該略語と当該元の語句とを組として抽出する抽出手段と、
使用者の識別子を記憶する識別子記憶手段と、
前記読取手段により文書が読み取られたときに前記識別子記憶手段に記憶されている識別子により特定されるグループと対応付けて、前記抽出手段により抽出された前記組を記憶するデータ記憶手段と
を有する文書処理装置。 - コンピュータに、
使用者の識別子を入力する入力手順と、
文書を読み取って、読み取られた文書を用いて、略語から当該略語を補足する元の語句を特定する文書処理で用いられるデータを取得する取得手順と、
前記取得手順にて取得したデータから、前記辞書に登録されていない未知語を検出する未知語検出手順と、
前記未知語検出手順にて検出した未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手順と、
前記略語検出手順にて検出した略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合に、その語句を当該略語を補足する元の語句とし、当該略語と当該元の語句とを組として抽出する抽出手順と、
前記入力手順にて入力された識別子により特定されるグループと対応付けて、前記抽出手順にて抽出した前記組を記憶する記憶手順と
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004154971A JP4645065B2 (ja) | 2004-05-25 | 2004-05-25 | 文書処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004154971A JP4645065B2 (ja) | 2004-05-25 | 2004-05-25 | 文書処理装置およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005339040A JP2005339040A (ja) | 2005-12-08 |
JP2005339040A5 JP2005339040A5 (ja) | 2007-06-07 |
JP4645065B2 true JP4645065B2 (ja) | 2011-03-09 |
Family
ID=35492562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004154971A Expired - Fee Related JP4645065B2 (ja) | 2004-05-25 | 2004-05-25 | 文書処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4645065B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0253099A (ja) * | 1988-08-17 | 1990-02-22 | Asahi Chem Ind Co Ltd | 文字認識装置 |
JPH077419B2 (ja) * | 1989-06-30 | 1995-01-30 | シャープ株式会社 | 機械翻訳装置における略称付き固有名詞処理方法 |
JPH07182333A (ja) * | 1993-12-24 | 1995-07-21 | Sharp Corp | 日本語処理装置 |
JP3267064B2 (ja) * | 1994-09-20 | 2002-03-18 | 株式会社日立製作所 | パターン情報処理装置 |
JPH0916722A (ja) * | 1995-06-30 | 1997-01-17 | Smk Corp | 光学式文字読取装置 |
-
2004
- 2004-05-25 JP JP2004154971A patent/JP4645065B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005339040A (ja) | 2005-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008225695A (ja) | 文字認識誤り修正装置およびプログラム | |
US7680331B2 (en) | Document processing device and document processing method | |
Lehal et al. | A post-processor for Gurmukhi OCR | |
JP4645065B2 (ja) | 文書処理装置およびプログラム | |
JP4720309B2 (ja) | 文書読取システム | |
JP4424057B2 (ja) | 学習装置およびプログラム | |
JP2006252164A (ja) | 中国語文書処理装置 | |
JPH10177623A (ja) | 文書認識装置および言語処理装置 | |
JP2007264858A (ja) | 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法 | |
JPS592191A (ja) | 手書き日本語文の認識処理方式 | |
JP4424056B2 (ja) | 文書処理装置およびプログラム | |
JP3455643B2 (ja) | 文字認識装置における学習辞書の更新方法及び文字認識装置 | |
JP2939945B2 (ja) | ローマ字住所認識装置 | |
JP2985813B2 (ja) | 文字列認識装置および知識データベース学習方法 | |
WO2024134769A1 (ja) | 自然言語処理装置、自然言語処理方法およびコンピュータプログラム | |
JP3157557B2 (ja) | 文字認識装置 | |
JP2000090193A (ja) | 文字認識装置および項目分類方法 | |
JP7257204B2 (ja) | 文字列検索装置、文字列検索方法、および、文字列検索プログラム | |
JP2000011095A (ja) | 文字認識装置及び方法 | |
JP2977247B2 (ja) | 文字間スペース処理方法 | |
JP2838850B2 (ja) | 仮名漢字変換装置 | |
CN116737905A (zh) | 内容提取方法及其在研发创意应答中的应用 | |
JP2006276917A (ja) | 文書処理装置及び文書処理方法 | |
JP2002074262A (ja) | 認識文字修正方法 | |
JPH0576666B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070417 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070417 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101109 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101122 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4645065 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |