JP2014013534A - 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム - Google Patents
文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム Download PDFInfo
- Publication number
- JP2014013534A JP2014013534A JP2012151256A JP2012151256A JP2014013534A JP 2014013534 A JP2014013534 A JP 2014013534A JP 2012151256 A JP2012151256 A JP 2012151256A JP 2012151256 A JP2012151256 A JP 2012151256A JP 2014013534 A JP2014013534 A JP 2014013534A
- Authority
- JP
- Japan
- Prior art keywords
- document
- character string
- document name
- character
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Abstract
【解決手段】文書処理装置1は、文書読み取り部12が紙文書を読み取った文書画像データからOCR部13が文字情報を抽出して、タイトル作成部14が、OCR部13の抽出した文字情報から該文書画像データの特徴を示す所定数の文字列をタイトル文字列として抽出し、文書名作成部15が、タイトル作成部14の抽出したタイトル文字列から予め設定されている出力条件に適した文字列を文書名として作成する。
【選択図】 図1
Description
アー・ウムラウト(小文字) ae
アー・ウムラウト(大文字) Ae
オー・ウムラウト(小文字) oe
オー・ウムラウト(大文字) Oe
ウー・ウムラウト(小文字) ue
ウー・ウムラウト(大文字) Ue
また、出力可能ASCII限定部41aは、代用文字が規定されていない場合であっても、印字可能ASCII文字以外の文字を削除する代わりに、適当なASCII文字、例えば、「_」等に置換する。
11 文書給紙部
12 文書読み取り部
13 OCR部
14 タイトル作成部
15 文書名作成部
16 文書蓄積部
20 コンピュータ装置
21 CPU
22 メモリ
23 通信部
24 表示部
25 ハードディスク
26 キーボード
27 CD−ROMドライブ
28 FDドライブ
29 バス
NW 通信回線
S1〜S3 装置
30 文書名作成部
31 タイトル候補入力部
32 文書名文字列決定部
33 文字列整形部
33a 全角半角変換部
33b ファイル名禁則適用部
34 文書名文字列出力部
40 文書名作成部
41 文字列整形部
41a 出力可能ASCII限定部
42 印刷可能ASCII限定部
Claims (9)
- 文書画像データから文字情報を抽出する文字情報抽出手段と、
前記文字情報抽出手段の抽出した前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出手段と、
前記特徴文字列抽出手段の抽出した前記文書名候補文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成手段と、
を備えていることを特徴とする文書処理装置。 - 前記文書名作成手段は、
同じ意味の文字を異なるバイト数で表現可能な文字を、そのバイト数とともに登録されている文字−バイト対応テーブルと、
前記文書名候補文字列のうち、前記文字−バイト対応テーブルに登録されている文字に対してより少ないバイト数の文字を前記文書名の文字列として選択する文字選択手段と、
を備えていることを特徴とする請求項1記載の文書処理装置。 - 前記文書名作成手段は、
前記特徴文字列抽出手段の抽出した複数の前記文書名候補文字列に対して前記文書画像データの内容を表現する顕著らしさを評価して順序付ける評価手段と、
前記評価手段の評価順序に従って前記文書名候補文字列を前記設定文字数分まで連結した文字列を前記文書名として作成する文字列連結手段と、
を備えていることを特徴とする請求項1または請求項2記載の文書処理装置。 - 前記文書名作成手段は、
前記文書名候補文字列のうち、ASCII文字列以外の文字列を削除する文字列削除手段と、
前記文字列削除手段によって削除された前記文書名候補文字列を前記設定文字数分まで連結した文字列を前記文書名として作成する文字列連結手段と、
を備えていることを特徴とする請求項1から請求項3のいずれかに記載の文書処理装置。 - 前記文書名作成手段は、
前記文書名候補文字列のうち、ASCII文字以外の文字を所定のASCII文字に置換する文字置換手段と、
前記文書名候補文字列のASCII文字と前記文字置換手段によって置換されたASCII文字を連結した文字列を前記文書名として作成する文字列連結手段と、
を備えていることを特徴とする請求項1から請求項3のいずれかに記載の文書処理装置。 - 前記特徴文字列抽出手段は、
前記文書画像データが複数ページから構成されていると、ページ毎に該ページの文書画像データの特徴を表す文字列を抽出し、
前記文書名作成手段は、
前記特徴文字列抽出手段の抽出した前記文字列に対して文書名としての評価を行なう評価手段と、
前記評価手段が評価した評価結果が所定の閾値を越える文字列が前記設定文字数分になるまで前記文書画像データの先頭ページから最終ページに向かって前記評価手段に評価させて、該閾値を超える該設定文字数分の文字列を前記文書名として作成する評価制御手段と、
を備えていることを特徴とする文書処理装置。 - 文書画像データを取り込んで、該文書画像データに対して、文書処理部が、文書名を付与して保管し、該保管されている該文書画像データの該文書名を所定の表示手段に表示して、該表示手段へ表示している文書に対する出力要求に応じて該文書画像データの出力を行う画像処理装置において、
前記文書処理部として、請求項1から請求項6のいずれかに記載の文書処理装置を搭載していることを特徴とする画像処理装置。 - 文書画像データから文字情報を抽出する文字情報抽出処理ステップと、
前記文字情報抽出処理ステップで抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理ステップと、
前記特徴文字列抽出処理ステップで抽出した前記文書名候補文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成処理ステップと、
を有していることを特徴とする文書処理方法。 - コンピュータに、
文書画像データから文字情報を抽出する文字情報抽出処理と、
前記文字情報抽出処理で抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理と、
前記特徴文字列抽出処理で抽出した前記文書名候補文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成処理と、
を実行させることを特徴とする文書処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012151256A JP2014013534A (ja) | 2012-07-05 | 2012-07-05 | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
US13/915,764 US20140013220A1 (en) | 2012-07-05 | 2013-06-12 | Document processing apparatus, image processing apparatus, document processing method, and medium |
EP13172935.2A EP2682881A3 (en) | 2012-07-05 | 2013-06-20 | Document Processing Apparatus, Image Processing Apparatus, Document Processing Method, and Medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012151256A JP2014013534A (ja) | 2012-07-05 | 2012-07-05 | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014013534A true JP2014013534A (ja) | 2014-01-23 |
Family
ID=48793869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012151256A Pending JP2014013534A (ja) | 2012-07-05 | 2012-07-05 | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140013220A1 (ja) |
EP (1) | EP2682881A3 (ja) |
JP (1) | JP2014013534A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016165059A (ja) * | 2015-03-06 | 2016-09-08 | シャープ株式会社 | 画像処理装置 |
JP2018190063A (ja) * | 2017-04-28 | 2018-11-29 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置 |
JP2020133470A (ja) * | 2019-02-18 | 2020-08-31 | 株式会社東芝 | 車室半体の上下反転方法、それに用いる回転シャフトブラケット及び反転用架台 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6051827B2 (ja) * | 2012-12-07 | 2016-12-27 | 株式会社リコー | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム |
US9400833B2 (en) * | 2013-11-15 | 2016-07-26 | Citrix Systems, Inc. | Generating electronic summaries of online meetings |
US9342561B2 (en) * | 2014-01-08 | 2016-05-17 | International Business Machines Corporation | Creating and using titles in untitled documents to answer questions |
CN103870939B (zh) * | 2014-04-01 | 2017-08-29 | 北京中电普华信息技术有限公司 | 一种对象名称生成方法及系统 |
US9542136B2 (en) | 2015-03-19 | 2017-01-10 | Ricoh Company, Ltd. | Communication control system, communication control apparatus, and communication control method |
AU2017320475B2 (en) | 2016-09-02 | 2022-02-10 | FutureVault Inc. | Automated document filing and processing methods and systems |
US10289963B2 (en) * | 2017-02-27 | 2019-05-14 | International Business Machines Corporation | Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques |
JP2024010503A (ja) * | 2022-07-12 | 2024-01-24 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置及び画像形成装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08289057A (ja) * | 1995-04-17 | 1996-11-01 | Brother Ind Ltd | ファクシミリ装置 |
US20020143804A1 (en) * | 2001-04-02 | 2002-10-03 | Dowdy Jacklyn M. | Electronic filer |
JP2003016076A (ja) * | 2001-06-28 | 2003-01-17 | Ricoh Co Ltd | 文書画像からのタイトル抽出方法 |
JP2005202714A (ja) * | 2004-01-16 | 2005-07-28 | Giken Shoji International Co Ltd | 文書検索システム |
JP2006211261A (ja) * | 2005-01-27 | 2006-08-10 | Kyocera Mita Corp | 画像読取り装置および画像読取りプログラム |
US20080170786A1 (en) * | 2007-01-17 | 2008-07-17 | Kabushiki Kaisha Toshiba | Image processing system, image processing method, and image processing program |
JP2008176764A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | 画像処理システム、画像処理方法、画像処理プログラム |
JP2009027648A (ja) * | 2007-07-23 | 2009-02-05 | Murata Mach Ltd | 画像処理装置 |
JP2010113735A (ja) * | 2010-01-21 | 2010-05-20 | Omron Corp | データ名決定装置 |
JP2010238159A (ja) * | 2009-03-31 | 2010-10-21 | Hitachi Software Eng Co Ltd | 認識パラメータチューニング方法 |
JP2011155548A (ja) * | 2010-01-28 | 2011-08-11 | Kyocera Mita Corp | ファイル作成装置、ファイル作成プログラム、及びファイル作成方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
AU2782799A (en) * | 1998-02-24 | 1999-09-06 | Gateway 2000, Inc. | Software management system |
US7099507B2 (en) * | 1998-11-05 | 2006-08-29 | Ricoh Company, Ltd | Method and system for extracting title from document image |
US20020078069A1 (en) * | 2000-12-15 | 2002-06-20 | International Business Machines Corporation | Automatic file name/attribute generator for object oriented desktop shells |
JP2004070523A (ja) * | 2002-08-02 | 2004-03-04 | Canon Inc | 情報処理装置およびその方法 |
GB0327694D0 (en) * | 2003-11-28 | 2003-12-31 | Ibm | A system for distributed communications |
JP2007122403A (ja) * | 2005-10-28 | 2007-05-17 | Fuji Xerox Co Ltd | 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム |
US8583419B2 (en) * | 2007-04-02 | 2013-11-12 | Syed Yasin | Latent metonymical analysis and indexing (LMAI) |
-
2012
- 2012-07-05 JP JP2012151256A patent/JP2014013534A/ja active Pending
-
2013
- 2013-06-12 US US13/915,764 patent/US20140013220A1/en not_active Abandoned
- 2013-06-20 EP EP13172935.2A patent/EP2682881A3/en not_active Withdrawn
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08289057A (ja) * | 1995-04-17 | 1996-11-01 | Brother Ind Ltd | ファクシミリ装置 |
US20020143804A1 (en) * | 2001-04-02 | 2002-10-03 | Dowdy Jacklyn M. | Electronic filer |
JP2003016076A (ja) * | 2001-06-28 | 2003-01-17 | Ricoh Co Ltd | 文書画像からのタイトル抽出方法 |
JP2005202714A (ja) * | 2004-01-16 | 2005-07-28 | Giken Shoji International Co Ltd | 文書検索システム |
JP2006211261A (ja) * | 2005-01-27 | 2006-08-10 | Kyocera Mita Corp | 画像読取り装置および画像読取りプログラム |
US20080170786A1 (en) * | 2007-01-17 | 2008-07-17 | Kabushiki Kaisha Toshiba | Image processing system, image processing method, and image processing program |
JP2008176764A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | 画像処理システム、画像処理方法、画像処理プログラム |
JP2009027648A (ja) * | 2007-07-23 | 2009-02-05 | Murata Mach Ltd | 画像処理装置 |
JP2010238159A (ja) * | 2009-03-31 | 2010-10-21 | Hitachi Software Eng Co Ltd | 認識パラメータチューニング方法 |
JP2010113735A (ja) * | 2010-01-21 | 2010-05-20 | Omron Corp | データ名決定装置 |
JP2011155548A (ja) * | 2010-01-28 | 2011-08-11 | Kyocera Mita Corp | ファイル作成装置、ファイル作成プログラム、及びファイル作成方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016165059A (ja) * | 2015-03-06 | 2016-09-08 | シャープ株式会社 | 画像処理装置 |
JP2018190063A (ja) * | 2017-04-28 | 2018-11-29 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置 |
JP2020133470A (ja) * | 2019-02-18 | 2020-08-31 | 株式会社東芝 | 車室半体の上下反転方法、それに用いる回転シャフトブラケット及び反転用架台 |
JP7129357B2 (ja) | 2019-02-18 | 2022-09-01 | 株式会社東芝 | 車室半体の上下反転方法、それに用いる回転シャフトブラケット及び反転用架台 |
Also Published As
Publication number | Publication date |
---|---|
US20140013220A1 (en) | 2014-01-09 |
EP2682881A2 (en) | 2014-01-08 |
EP2682881A3 (en) | 2016-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014013534A (ja) | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム | |
JP6051827B2 (ja) | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム | |
RU2437152C2 (ru) | Устройство обработки изображений, способ и компьютерная программа обработки изображений | |
EP2779613B1 (en) | Document processing apparatus, document processing method, and document processing computer program product | |
CN101458699B (zh) | 图像处理装置和图像处理方法 | |
JP2006059075A (ja) | 文書処理装置およびプログラム | |
US20060062492A1 (en) | Document processing device, document processing method, and storage medium recording program therefor | |
JP4934124B2 (ja) | 画像形成装置 | |
JP4991407B2 (ja) | 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法 | |
US8634112B2 (en) | Document processing apparatus for generating an electronic document | |
JP5430312B2 (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
US7505903B2 (en) | Speech recognition dictionary creation method and speech recognition dictionary creating device | |
JP2012015896A (ja) | 画像処理装置 | |
JP2020204905A (ja) | 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム | |
JP2007011683A (ja) | 文書管理支援装置 | |
CN112905733A (zh) | 一种基于ocr识别技术的图书保存方法、系统及装置 | |
JP2006276904A (ja) | ファックス装置 | |
JP2010170525A (ja) | 付加画像処理システム、画像形成装置及び付加画像追加方法 | |
JP2017091024A (ja) | 入力支援装置 | |
JP2005267057A (ja) | テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム | |
JP2007323317A (ja) | 変換装置、変換方法及びプログラム | |
JP2006004050A (ja) | 画像処理装置、画像読み取り装置およびプログラム | |
KR100544375B1 (ko) | 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체 | |
JP2004287992A (ja) | 文書情報処理装置並びにプログラム | |
CN116167340A (zh) | 一种文档处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150616 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160301 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160906 |