JP2020144646A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2020144646A
JP2020144646A JP2019041257A JP2019041257A JP2020144646A JP 2020144646 A JP2020144646 A JP 2020144646A JP 2019041257 A JP2019041257 A JP 2019041257A JP 2019041257 A JP2019041257 A JP 2019041257A JP 2020144646 A JP2020144646 A JP 2020144646A
Authority
JP
Japan
Prior art keywords
document
character string
key
processing device
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019041257A
Other languages
English (en)
Inventor
久保 周作
Shusaku Kubo
周作 久保
岡田 茂
Shigeru Okada
茂 岡田
公則 吉塚
Kiminori Yoshizuka
公則 吉塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019041257A priority Critical patent/JP2020144646A/ja
Priority to US16/535,083 priority patent/US11113520B2/en
Publication of JP2020144646A publication Critical patent/JP2020144646A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】有効期限等の属性が明示されていない文書についても、その属性を管理することのできる技術を提供する。【解決手段】読取手段11は、契約書、又は車検証等の文書を読み取る。決定手段12は、文書の読取結果から、日付を示す第1文字列と、期間を示す第2文字列とを特定し、特定された第1文字列と前記第2文字列とに従って文書の属性を決定する。【選択図】図2

Description

本発明は、情報処理装置及びプログラムに関する。
自動車検査証や契約書など、有効期限や次の更新がある文書は、必ず保管しておく必要があるが、常に必要なものではないので、電子化し、紙ファイル自体は倉庫に保管するといった運用が多くなってきている。このような文書の有効期限を管理する技術が提案されている。例えば特許文献1には、文書の画像データを解析して文書の種類を検出する検出手段と、文書の種類毎に保存期間を記憶する記憶手段と、検出手段において検出された文書の種類に対応する保存期間に基づいて画像データの保存期限日を算出する算出手段と、算出された保存期限日に基づいて画像データを管理する管理制御手段と、を備える情報処理装置が開示されている。また、特許文献2には、契約開始日と確認基準日とを契約情報として保持し、確認基準日がきた契約情報を確認対象検出装置が検出することが記載されている。
また、特許文献3には、契約書の文章中からキーワードを検出し、検出されたキーワードの中から契約書の契約期間を認識し、契約期間を自動更新する契約書管理システムが記載されている。
特開2007−148569号公報 特開2005−267052号公報 特許第6290459号
本発明は、有効期限等の属性が明示されていない文書についても、その属性を管理することができる技術を提供することを目的とする。
本発明の請求項1に係る情報処理装置は、文書を読み取る読取手段と、前記文書の読取結果から、日付を示す第1文字列と、期間を示す第2文字列とを特定し、前記第1文字列と前記第2文字列とに従って、当該文書の属性を決定する決定手段とを有することを特徴とする。
本発明の請求項2に係る情報処理装置は、請求項1に記載の構成において、前記決定手段は、前記文書から予め定められた第1キーを抽出し、抽出された第1キーとの前記文書における位置関係が予め定められた条件を満たす、数字を含む文字列を前記第1文字列として特定することを特徴とする。
本発明の請求項3に係る情報処理装置は、請求項1又は2に記載の構成において、前記決定手段は、前記文書から予め定められた第2キーを抽出し、抽出された第2キーとの位置関係が予め定められた条件を満たす文字列を第2文字列として特定することを特徴とする。
本発明の請求項4に係る情報処理装置は、請求項1乃至3のいずれか1項に記載の構成において、前記第1文字列が示す日付に、前記第2文字列が示す期間を足し合わせた結果を示す日付を、前記属性とすることを特徴とする。
本発明の請求項5に係る情報処理装置は、請求項1乃至4のいずれか1項に記載の構成において、前記決定手段は、前記属性を前記文書のファイル名又はプロファイル情報とすることを特徴とする。
本発明の請求項6に係る情報処理装置は、請求項1乃至5のいずれか1項に記載の構成において、前記属性は、前記文書の有効期限を示すことを特徴とする。
本発明の請求項7に係る情報処理装置は、請求項1に記載の構成において、前記決定手段は、前記文書の種類を特定し、特定された種類に対応する第1キー及び第2キーを、前記種類と前記第1キー及び前記第2キーとの対応関係を記憶する記憶手段を参照して特定し、特定された第1キーとの前記文書における位置関係が予め定められた条件を満たす、数字を含む文字列を前記第1文字列として特定し、特定された第2キーとの位置関係が予め定められた条件を満たす文字列を第2文字列として特定することを特徴とする。
本発明の請求項8に係るプログラムは、コンピュータに、文書を読み取るステップと、前記文書の読取結果から、日付を示す第1文字列と、期間を示す第2文字列とを特定し、前記第1文字列と前記第2文字列とに従って、当該文書の属性を決定するステップとを実行させるためのプログラムであることを特徴とする。
請求項1及び8に係る発明によれば、有効期限等の属性が明示されていない文書についても、その属性を管理することができる。
請求項2に係る発明によれば、有効期限等の属性が明示されていない文書についても、その属性を管理することができる。
請求項3に係る発明によれば、有効期限等の属性が明示されていない文書についても、その属性を管理することができる。
請求項4に係る発明によれば、日付と期間が記載されている文書の有効期限等の属性を管理することができる。
請求項5に係る発明によれば、ファイル名又はプロファイル情報により属性を管理することができる。
請求項6に係る発明によれば、有効期限等が明示されていない文書についても、その有効期限を管理することができる。
請求項7に係る発明によれば、文書の種類に対応する日付や期間を文書から抽出することができる。
システム1の構成を例示するブロック図。 画像処理装置10の機能構成を例示するブロック図。 画像処理装置10のハードウェア構成を例示するブロック図。 文書処理装置20のハードウェア構成を例示するブロック図。 文書を例示した図。 文書を例示した図。 システム1が行う処理の流れを例示するフローチャート。 位置関係データベースDB3の内容を例示する図。 バリュー情報を例示した図。 更新されたバリュー情報を例示した図。
1.構成
図1は本実施形態に係るシステム1の構成を例示するブロック図である。システム1は、画像処理装置10(情報処理装置の一例)、文書処理装置20(情報処理装置の一例)、データベースサーバ30、及びファイルサーバ40を備える。画像処理装置10は、コピー機能やスキャン機能を備えた装置である。画像処理装置10は処理対象である文書の画像を読み取り、読み取った画像を表す画像データを生成する。画像処理装置10は、通信回線2により文書処理装置20、データベースサーバ30及びファイルサーバ40に接続されている。通信回線2は、例えばインターネット、移動体通信網、電話回線、及びLAN(local Area Network)などのうちの少なくとも1つを含む。
文書処理装置20は、画像処理装置10により読み取られた画像に対し文字認識処理等の各種の処理を行う。データベースサーバ30は、画像処理装置10により読み取られた文書の画像の属性等を示すデータを記憶する。ファイルサーバ40は、画像処理装置10により読み取られた文書の画像を表すファイルを記憶する。文書処理装置20、データベースサーバ30及びファイルサーバ40は例えば汎用サーバ等のコンピュータ装置である。図1に示す例では、1つの画像処理装置10が通信回線2に接続されているが、複数の画像処理装置10が通信回線2に接続されてもよい。
図2は、本実施形態に係るシステム1の機能構成を例示するブロック図である。システム1は、読取手段11及び決定手段12を備える。読取手段11は、契約書、又は車検証等の文書を読み取る。決定手段12は、文書の読取結果から、日付を示す第1文字列と、期間を示す第2文字列とを特定し、特定された第1文字列と前記第2文字列とに従って、文書の属性を決定する。決定される属性は、例えば文書の有効期限を示す情報である。
図3は画像処理装置10のハードウェア構成を例示するブロック図である。プロセッサ101は、画像処理装置10の他の要素を制御するプロセッサである。メモリ102は、プロセッサ101がプログラムを実行するためのワークエリアとして機能する記憶装置であり、例えばRAM(Random Access Memory)を含む。記憶装置103は各種のプログラム及びデータを記憶する記憶装置であり、例えば、SSD(Solid State Drive)又はHDD(Hard Disk Drive)を含む。通信IF104は、予め定められた無線又は有線の通信規格(例えば、Wi−Fi(登録商標)、Bluetooth(登録商標)、又はイーサネット(登録商標))に従って他の装置と通信を行う。
UI部105は例えばタッチスクリーンとキーとを備える。UI部105は画像処理装置10に内蔵されていてもよく、また、外付けされて外部接続されるものであってもよい。画像形成部106は電子写真方式等により、給紙部109により搬送路に沿って搬送されてくる用紙等の媒体に画像を形成する。画像読取部107は、原稿(媒体)の画像を光学的に読み取る。画像処理部108は、例えばDSP(Digital Signal Processor)やGPU(Graphics Processing Unit)を備え、各種の画像処理を実行する。給紙部109は画像形成部106に用紙等の媒体を供給する。
図4は文書処理装置20のハードウェア構成を例示するブロック図である。プロセッサ201は、文書処理装置20の他の要素を制御するプロセッサである。メモリ202は、プロセッサ201がプログラムを実行するためのワークエリアとして機能する記憶装置であり、例えばRAM(Random Access Memory)を含む。記憶装置203は各種のプログラム及びデータを記憶する記憶装置であり、例えば、SSD(Solid State Drive)又はHDD(Hard Disk Drive)を含む。通信IF204は、予め定められた無線又は有線の通信規格(例えば、Wi−Fi(登録商標)、Bluetooth(登録商標)、又はイーサネット(登録商標))に従って他の装置と通信を行う。UI部205は例えばタッチスクリーンとキーとを備える。UI部205は文書処理装置20に内蔵されていてもよく、また、外付けされて外部接続されるものであってもよい。
この例で、メモリ102、記憶装置103、メモリ202又は記憶装置203に記憶されているプログラムを、プロセッサ101又はプロセッサ201が実行することにより、図2に示される機能が実装される。プログラムを実行しているプロセッサ101又はプロセッサ201は、読取手段11及び決定手段12の一例である。
図5は本実施形態の処理対象となる文書を例示する図であり、図6は、図5に例示した文書の一部を拡大した図である。図5には、文書として「秘密保持契約書」が例示されている。また、図6の例では、文書の有効期限を「本日より1年間」とする旨が記載されている。また、有効期限の例外として、「秘密保持義務及び損害賠償については、契約終了後3年間継続する」旨が記載されている。
2.動作
次いで、この実施形態の動作を説明する。この実施形態では、システム1は、文書を読み取って文書を表す画像ファイルを生成する際に、その文書が将来必要となるであろう日時を、文書の属性としてファイルに付与する処理を行う。
図7は、システム1が行う処理の流れを例示するフローチャートである。ステップS101において、画像処理装置10は文書の読取処理を行う。この実施形態では、画像処理装置10は、文書を表す画像(以下、単に「画像」という)を画像読取部107により読み取って画像データを生成し、生成した画像データに対して画像の正立処理及びクレンジング処理等の画像処理を行う。生成された画像データは画像処理装置10から文書処理装置20に送信される。
ステップS102において、文書処理装置20は文書を表す画像のレイアウト等を解析する。例えば、文書処理装置20は画像を解析し、帳票等の文書の罫線の位置や文書エリアの配置等の情報を抽出する。
ステップS103において、文書処理装置20は、解析された画像のレイアウトが、文書の種類を特定するために参照される文書特定データベースDB1に登録されているかを判定する。登録されたレイアウトが画像に含まれていない場合、文書処理装置20はステップS104の処理に進む。一方、予め登録されたレイアウトが画像に含まれる場合、文書処理装置20はステップS108の処理に進む。
文書特定データベースDB1は、文書の種類を特定するために参照されるデータベースであり、例えば文書処理装置20の記憶装置203に記憶される。文書特定データベースDB1には、文書のレイアウトを示すレイアウト情報又は文書名が、文書の種類に紐づけられて記憶される。文書の種類は、例えば、「秘密保持契約書」、「車検証」等である。
ステップS104において、文書処理装置20は画像の一部の領域に対し文字認識処理(例えば、光学文字認識処理:Optical Character Recognition)を行う。ステップS105において、文書処理装置20は、ステップS104の文字認識処理の結果に従い文書名を抽出する。例えば、文書処理装置20がレイアウト解析を行って予め定められた位置にある文字列を文書名として抽出してもよい。
ステップS106において、文書処理装置20は文書の種類を示す属性情報が処理対象である文書に含まれているかを判定する。属性情報は、例えば文書処理装置20に予め登録された文字列である。文書処理装置20は、ステップS106においてその文字列が文書に含まれているかを判定する。属性情報が含まれていない場合、文書処理装置20はステップS107の処理に進む。一方、属性情報が含まれている場合、文書処理装置20はステップS107の処理をスキップし、ステップS108の処理に進む。
ステップS107において、文書処理装置20は文書種類の入力をユーザに促す情報を出力する。例えば、文書処理装置20が画像処理装置10に出力要求を送信し、画像処理装置10が「文書の種類を入力してください」といったメッセージを表示したり、音声メッセージを出力したりしてもよい。この場合、ユーザは画像処理装置10のUI部105を用いて文書の種類を入力する操作を行う。ユーザにより画像処理装置10が操作されると、操作内容に応じたデータが画像処理装置10から文書処理装置20に送信される。
ステップS108において、文書処理装置20は画像のレイアウト情報又は抽出された文書名等の情報から、文書の種類を特定する。例えば、文書処理装置20は、レイアウト解析の結果及び特定された文書名を、文書特定データベースDB1から検索し、検索された情報に紐づけられている文書の種類を特定する。また、例えば、ユーザにより文書の種類を示す情報が入力された場合、文書処理装置20は、ユーザによるUI部105に対する操作内容に従って文書の種類を特定する。
ステップS109乃至S113において、文書処理装置20は、処理対象である文書から予め定められたキー情報(第1キー及び第2キーの一例)を抽出し、抽出されたキー情報との文書内における位置関係が予め定められた条件を満たす、数字を含む文字列をバリュー情報(第1文字列及び第2文字列の一例)として特定する。キー情報とは、バリュー情報の属性名を示す文字列である。キー情報は、例えば、「種類」、「甲」、「乙」、「契約日」、「有効期限」、「契約締結日」、又は「契約種類」である。まず、ステップS109において、文書処理装置20は、キー情報データベースDB2(記憶手段の一例)を参照し、特定された文書の種類に対応する、抽出対象とするキー情報(第1キー及び第2キーの一例)を特定する。
キー情報データベースDB2には、文書の種類と、その種類の文書について抽出対象とするキー情報とが対応付けて記憶されている。この実施形態において、「契約日」及び「契約締結日」は第1キーの一例であり、「有効期限」は第2キーの一例である。どのキー情報が第1キーであってどの情報が第2キーであるかは、キー情報データベースDB2に予め登録されている。第1キーと第2キーとは、文書の種類に対応付けてキー情報データベースDB2に記憶されている。すなわち、第1キーと第2キーとは互いに関連付けられている。
ステップS110において、文書処理装置20は、読み取られた文書画像の全面に対して文字認識処理を行い、テキストデータを取得する。ステップS111において、文書処理装置20は、ステップS110の文字認識処理の結果から、抽出するキー情報の位置を特定する。例えば、ステップS108で特定された種類に対応するキー情報が「種類」、「甲」、「乙」、「契約日」、及び「有効期限」の5つである場合、文書処理装置20は、これらの5つの単語を、文字認識結果から抽出し、キー情報の位置を特定する。
ステップS112において、文書処理装置20は、キー情報に対応するバリュー情報に関する位置情報を、位置関係データベースDB3(記憶手段の一例)に問い合わせる。
図8は、位置関係データベースDB3の内容を例示する図である。図8の例では、「キー情報」、「バリュー属性」、及び「位置関係」との各項目が互いに関連付けて記憶されている。これらの項目のうち、「キー情報」の項目には、文書からキー情報として抽出される文字列(例えば「甲」、「乙」、「契約日」、「有効期限」)が記憶される。「バリュー属性」の項目には、キー情報に対応するバリュー情報の属性を示す情報(例えば、「日付」、「期間」)が記憶される。「位置関係」の項目には、文書の画像内におけるキー情報とバリュー情報との位置関係(対応関係)を示す情報が記憶される。例えば、図6の例において、キー情報が「有効期限」である場合、図8のデータベースが参照されることにより、キー情報に対するバリュー情報の文書内における位置が「同行、右側」であると特定される。
図7の説明に戻る。ステップS113において、文書処理装置20は、文字認識処理の結果からバリュー情報を特定する。この実施形態では、ステップS111で特定されたキー情報との位置関係がステップS112で特定された位置関係の条件を満たす文字列がバリュー情報として特定される。
図9は、ステップS113において特定されるバリュー情報を例示した図である。図9の例では、「種類」のキー情報に対応するバリュー情報として「秘密保持契約書」が特定され、「甲」のキー情報に対応するバリュー情報として「(株)XYZ」が特定され、「乙」のキー情報に対応するバリュー情報として「(株)ABC商事」が特定されている。また、「契約日」のキー情報に対応するバリュー情報として「2010年10月25日」が特定され、「有効期限」のキー情報に対応するバリュー情報として「本日より1年間」が特定されている。「契約日」のキー情報(第1キーの一例)に対応するバリュー情報は、日付を示す第1文字列の一例である。「有効期限」のキー情報(第2キーの一例)に対応するバリュー情報は、期間を示す第2文字列の一例である。
図7の説明に戻る。ステップS114において、文書処理装置20は、「有効期限」のキー情報に対応するバリュー情報として特定された情報が、具体的な日時を示すものであるかを判定する。具体的な日時を示す情報でない場合、文書処理装置20はステップS115の処理に進む。一方、具体的な日時を示す情報である場合、文書処理装置20はステップS116の処理に進む。
ステップS115において、文書処理装置20は、「有効期限」のキー情報を用いて具体的な値(属性)を再計算する。この実施形態では、文書処理装置20は、ステップS113で特定された、日付を示すバリュー情報(第1文字列の一例)と、期間を示すバリュー情報(第2文字列の一例)とに従って、文書の属性を決定する。日付を示すバリュー情報は、例えば、「契約日」のキー情報に対応するバリュー情報である。また、期間を示すバリュー情報は、例えば、「契約期間」、「有効期限」、又は「例外的な延長期限」等のキー情報に対応するバリュー情報である。文書の属性は、例えば「有効期限」である。
具体的には、例えば、「契約日」のキー情報に対応するバリュー情報として「2010年10月25日」という文字列が特定され、「契約期間」のキー情報に対応するバリュー情報として「本日より1年間」という文字列が特定されたとする。この場合、文書処理装置20は、「2010年10月25日」に、1年間(=365日)を加算した「2011年10月24日」を、有効期限(文書の属性)として特定する。すなわち、文書処理装置20は、日付を示すバリュー情報(第1文字列)と期間を示すバリュー情報(第2文字列)とを特定し、第1文字列が示す日付に、第2文字列が示す期間を足し合わせた結果を示す日付を、文書の属性として特定する。
図10は、「有効期限」が更新されたバリュー情報の内容を例示する図である。図10の例では、有効期限が「2011年10月24日」という具体的な日付に更新されている。
図7の説明に戻る。ステップS116において、文書処理装置20は、有効期限の情報が変更されたバリュー情報を生成する。ステップS117において、文書処理装置20は、ステップS116で生成されたバリュー情報(属性)を処理対象である文書のファイル名又はプロファイル情報とする。例えば、文書処理装置20は、「乙」のキー情報に対応するバリュー情報である「株式会社ABC商事」、及び、「有効期限」のキー情報に対応するバリュー情報である「2011年10月24日」を用いて、「ABC商事_20111024」という文字列をファイル名として生成する。また、文書処理装置20は、処理対象である文書から抽出されたキー情報とバリュー情報とが対応付けて記されたファイル(例えば、csvファイル。以下「属性ファイル」という)を生成する。
ステップS118において、文書処理装置20は、指定されたバリュー情報がファイル名に付与されたファイルを生成する。このファイルには、処理対象であった文書から抽出されたキー情報とバリュー情報との組み合わせ(図10参照)を示す情報が付与される。生成されたファイルはファイルサーバ40に送信され、ファイルサーバ40の記憶装置に記憶される。また、キー情報とバリュー情報との組み合わせが記された属性ファイルは、データベースサーバ30に送信され、データベースサーバ30の記憶装置に記憶される。
ところで、車検証や契約書等の文書は、有効期限があり、次の更新まで保管しておく必要がある。しかし、これらの文書は、常に必要なものではないため、電子化して紙ファイル自体は倉庫に保管する、といった運用がなされている場合がある。
契約書等の文書を電子化して管理する場合、会社毎や担当者毎、日付毎などの整理の仕方がばらばらで、後から探し出すのに苦労することが多い。さらに契約書の有効期限などは管理されていない場合が多く、有効期限切れなどの問題が発生する場合がある。そのため、契約書の情報を抜き出して別途管理することもあるが、その場合、手間がかかってしまい、また、データの登録し忘れ等が発生してしまう場合がある。
それに対しこの実施形態では、電子化した文書に有効期限等の属性を付与して管理が行われるため、有効期限切れなどの問題が発生し難くなる。
3.変形例
上述した実施形態は、本発明の実施の一例に過ぎず、以下のように変形させてもよい。また、上述した実施形態及び以下に示す各変形例は、必要に応じて組み合わされて実施されてもよい。
(1)上述の実施形態では、文書処理装置20は、処理対象である文書から予め定められたキー情報(第1キー及び第2キーの一例)を抽出し、抽出されたキー情報との文書内における位置関係が予め定められた条件を満たす、数字を含む文字列をバリュー情報(第1文字列及び第2文字列の一例)として特定した。バリュー情報の特定方法は上述した実施形態で示したものに限られない。例えば、処理対象の文書に日付を示す情報又は期間を示す情報が二次元バーコード等により埋め込まれている場合、文書処理装置20は、そのバーコードを読み取って解析することにより、日付や期間を特定してもよい。
(2)上述の実施形態において、期間を特定するために用いられるキー情報は、1つであってもよく、また、複数であってもよい。期間のキー情報として複数のキー情報が用いられる場合、複数の属性が特定されてもよい。例えば、いずれかのキー情報の示す期間を特定された日付に足し合わせた結果を示す日時が属性として特定されるとともに、他の属性として、それぞれのキー情報の示す期間を合計した期間を、特定された日付に足し合わせた結果を示す日付が特定されてもよい。具体的には、例えば、期間を示すバリュー情報として「契約期間」のキー情報に対応する「1年間」と、「例外的な延長期限」のキー情報に対応する「本契約終了後3年間」という文字列が特定される場合がある。この場合、文書処理装置20は、特定された日付に、「1年」と「3年」との両方を足し合わせた結果を示す日付を、文書の属性として特定する。
(3)上述の実施形態では、文書の属性として有効期限を示す情報が用いられたが、文書の属性は上述した実施形態で示したものに限られない。
(4)上述の実施形態では、画像処理装置10は、文書を表す画像に対し文字認識処理を行うことにより、日付を示す第1文字列と、期間を示す第2文字列とを特定した。第1文字列及び第2文字列の特定方法は上述した実施形態で示したものに限られない。例えば、読取対象である文書が二次元バーコードを含む車検証である場合、画像処理装置10は、その二次元バーコードを読み取ることによって、登録年月日を示す第1文字列を特定してもよい。
(5)上述の実施形態において画像処理装置10に実装された機能及び文書処理装置20に実装された機能が、単体の装置に実装されてもよい。また、画像処理装置10に実装された機能及び文書処理装置20に実装された機能が、複数の装置により分担されて提供されてもよい。例えば、文字認識処理を行うサーバと、文書種類の特定処理を行うサーバとが、別体の装置として構成されていてもよい。
(6)システム1において行われる処理の順序は、上述した実施形態において説明された例に限定されない。処理のステップは、矛盾が生じない限りにおいて、入れ替えられてもよい。また、本発明は、システム1において行われる情報処理方法として提供されてもよい。
(7)上述の実施形態において、画像処理装置10のプロセッサ101又は文書処理装置20のプロセッサ201により実行されるプログラムは、インターネットなどの通信回線を介してダウンロードされてもよい。また、これらのプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。
1…システム、2…通信回線、10…画像処理装置、11…読取手段、12…決定手段、20…文書処理装置、30…データベースサーバ、40…ファイルサーバ、101…プロセッサ、102…メモリ、103…記憶装置、104…通信IF、105…UI部、106…画像形成部、107…画像読取部、108…画像処理部、109…給紙部。

Claims (8)

  1. 文書を読み取る読取手段と、
    前記文書の読取結果から、日付を示す第1文字列と、期間を示す第2文字列とを特定し、前記第1文字列と前記第2文字列とに従って、当該文書の属性を決定する決定手段と
    を有する情報処理装置。
  2. 前記決定手段は、前記文書から予め定められた第1キーを抽出し、抽出された第1キーとの前記文書における位置関係が予め定められた条件を満たす、数字を含む文字列を前記第1文字列として特定する
    請求項1に記載の情報処理装置。
  3. 前記決定手段は、前記文書から予め定められた第2キーを抽出し、抽出された第2キーとの位置関係が予め定められた条件を満たす文字列を第2文字列として特定する
    請求項1又は2に記載の情報処理装置。
  4. 前記決定手段は、前記第1文字列が示す日付に、前記第2文字列が示す期間を足し合わせた結果を示す日付を、前記属性とする
    請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記決定手段は、前記属性を前記文書のファイル名又はプロファイル情報とする
    請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記属性は、前記文書の有効期限を示す
    請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記決定手段は、前記文書の種類を特定し、特定された種類に対応する第1キー及び第2キーを、前記種類と前記第1キー及び前記第2キーとの対応関係を記憶する記憶手段を参照して特定し、
    特定された第1キーとの前記文書における位置関係が予め定められた条件を満たす、数字を含む文字列を前記第1文字列として特定し、
    特定された第2キーとの位置関係が予め定められた条件を満たす文字列を第2文字列として特定する
    請求項1に記載の情報処理装置。
  8. コンピュータに、
    文書を読み取るステップと、
    前記文書の読取結果から、日付を示す第1文字列と、期間を示す第2文字列とを特定し、前記第1文字列と前記第2文字列とに従って、当該文書の属性を決定するステップと
    を実行させるためのプログラム。
JP2019041257A 2019-03-07 2019-03-07 情報処理装置及びプログラム Pending JP2020144646A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019041257A JP2020144646A (ja) 2019-03-07 2019-03-07 情報処理装置及びプログラム
US16/535,083 US11113520B2 (en) 2019-03-07 2019-08-08 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019041257A JP2020144646A (ja) 2019-03-07 2019-03-07 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2020144646A true JP2020144646A (ja) 2020-09-10

Family

ID=72336384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019041257A Pending JP2020144646A (ja) 2019-03-07 2019-03-07 情報処理装置及びプログラム

Country Status (2)

Country Link
US (1) US11113520B2 (ja)
JP (1) JP2020144646A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7447614B2 (ja) * 2020-03-27 2024-03-12 富士フイルムビジネスイノベーション株式会社 情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275849A (ja) * 2004-03-25 2005-10-06 Canon Inc 文書処理装置および文書処理方法
JP6290459B1 (ja) * 2016-08-31 2018-03-07 株式会社オプティム 契約書管理システム、契約書管理方法、および契約書管理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267052A (ja) 2004-03-17 2005-09-29 Japan Research Institute Ltd 契約管理システム、そのソフトウエア、その記録媒体、及び契約管理方法
JP2007148569A (ja) * 2005-11-24 2007-06-14 Canon Inc 情報処理装置及びその制御方法、プログラム、記憶媒体
US20130054644A1 (en) * 2010-05-28 2013-02-28 Omron Corporation Information processing method and program for registering special day and information processing apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275849A (ja) * 2004-03-25 2005-10-06 Canon Inc 文書処理装置および文書処理方法
JP6290459B1 (ja) * 2016-08-31 2018-03-07 株式会社オプティム 契約書管理システム、契約書管理方法、および契約書管理プログラム

Also Published As

Publication number Publication date
US11113520B2 (en) 2021-09-07
US20200285847A1 (en) 2020-09-10

Similar Documents

Publication Publication Date Title
CN101281526B (zh) 信息处理装置、信息处理系统和信息处理方法
JP2023022812A (ja) 脱炭素社会の構築に向けた導出装置、導出方法、及びプログラム
US10719887B2 (en) Non-transitory computer-readable medium, data management system and data management server
JP6743445B2 (ja) 携帯型情報装置およびプログラム
JP2008257444A (ja) 類似ファイル管理装置、その方法及びそのプログラム
US20160308998A1 (en) Capturing candidate profiles
JP7184386B2 (ja) 対話装置、制御装置、対話システム、対話方法、制御方法、およびプログラム
Alkhnbashi et al. CRISPRloci: comprehensive and accurate annotation of CRISPR–Cas systems
US9009193B2 (en) Techniques providing a software fitting assessment
US20210174013A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP2006268690A (ja) Faq提示・改善方法、faq提示・改善装置およびfaq提示・改善プログラム
JP2020144646A (ja) 情報処理装置及びプログラム
JP2010061183A (ja) 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体
US20210174011A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP6495511B1 (ja) 電子メール作成装置、方法及びプログラム
JP2020154962A (ja) 情報処理装置及びプログラム
JP6869004B2 (ja) 文書管理装置および文書管理方法
JP2012027525A (ja) ファイル格納補助システムと方法およびプログラム
JP2009223679A (ja) 電子文書検索装置、及び電子文書検索プログラム
JP2017162138A (ja) 情報処理装置及び情報処理プログラム
JP5455997B2 (ja) 営業管理システム及び入力支援プログラム
JP2017073011A (ja) 顧客情報通知システム、顧客情報通知装置、顧客情報通知方法及びコンピュータプログラム
JP2021092911A (ja) 案件管理装置、案件管理プログラム及び案件管理方法
JP2019046280A (ja) 情報処理装置及びプログラム
JP2013065307A (ja) マッピングテーブル生成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230420

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230725