JP2020115260A - 情報処理装置、及び情報処理プログラム - Google Patents

情報処理装置、及び情報処理プログラム Download PDF

Info

Publication number
JP2020115260A
JP2020115260A JP2019006192A JP2019006192A JP2020115260A JP 2020115260 A JP2020115260 A JP 2020115260A JP 2019006192 A JP2019006192 A JP 2019006192A JP 2019006192 A JP2019006192 A JP 2019006192A JP 2020115260 A JP2020115260 A JP 2020115260A
Authority
JP
Japan
Prior art keywords
document
information
keyword
candidate
priority information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019006192A
Other languages
English (en)
Other versions
JP7302175B2 (ja
Inventor
邦彦 小林
Kunihiko Kobayashi
邦彦 小林
清水 淳一
Junichi Shimizu
淳一 清水
大悟 堀江
Daigo Horie
大悟 堀江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019006192A priority Critical patent/JP7302175B2/ja
Priority to US16/531,119 priority patent/US11006015B2/en
Priority to CN201910828110.XA priority patent/CN111444751B/zh
Publication of JP2020115260A publication Critical patent/JP2020115260A/ja
Application granted granted Critical
Publication of JP7302175B2 publication Critical patent/JP7302175B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00912Arrangements for controlling a still picture apparatus or components thereof not otherwise provided for
    • H04N1/00915Assigning priority to, or interrupting, a particular operation
    • H04N1/00923Variably assigning priority
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】複数のキーワードの中から、取得したい情報の項目を表す何れか1つのキーワードを特定し、特定したキーワードに対応した文字列を出力する情報処理装置、及び情報処理プログラムを提供する。【解決手段】情報処理装置は、ユーザが取得したい情報の項目を表すキーワードとして設定した候補キーワードが文書内に複数含まれる場合、優先情報に従って、複数の候補キーワードの中から取得したい情報の項目を表す目的キーワードを設定し、目的キーワードに対応したバリューを文書から抽出し、抽出したバリューを出力する。【選択図】図5

Description

本発明は、情報処理装置、及び情報処理プログラムに関する。
スキャナで読み取った文書画像から、ユーザが所望する特定のキーワードによって表される項目と対応付けられた文字列を抽出する情報処理装置が知られている。
特許文献1には、画像に対して領域解析処理を実行することにより領域を抽出する抽出手段と、特定のキーワードと当該キーワードに対応するバリューとを抽出するためのルールを取得する取得手段と、前記ルールを用いて前記キーワードを含む領域および当該キーワードに対応するバリューを含む領域を特定する順番を、当該ルールに含まれる前記キーワードと当該キーワードに対応するバリューとが取り得る値に応じて決定する決定手段と、前記決定された順番に従い、前記キーワードを含む領域または当該キーワードに対応するバリューを含む領域を前記抽出された領域の中から特定する特定手段と、前記特定された領域に対して文字認識処理を行う文字認識手段と、を備え、前記特定手段は、前記決定された順番に従い、先に特定した領域に基づいて、対応するもう一方の領域を特定する、ことを特徴とする情報処理装置が開示されている。
特開2018−128996号公報
ユーザが所望する情報を表す項目の表記が予め定められている場合には、定められた表記をキーワードに設定することで、文書からキーワードに対応付けられた文字列が抽出される。
しかしながら、例えば文書の作成元が異なれば、同じ項目であっても異なるキーワードを用いて文書を作成している場合がある。こうした場合でも文書から所望の項目と対応付けられた文字列を抽出するには、所望の項目の表記に用いられると考えられる複数のキーワードの候補を用いて、各々のキーワードの候補と対応付けられた文字列を抽出すればよい。
しかしながら、複数のキーワードの候補を用いて各々のキーワードの候補と対応付けられた文字列を抽出する場合、何れの文字列が所望する項目と対応付けられた文字列であるか判断がつかない。
本発明は、文書内に、取得したい情報の項目を表すキーワードの候補が複数存在する場合であっても、複数のキーワードの中から、取得したい情報の項目を表す何れか1つのキーワードを特定し、特定したキーワードに対応した文字列を出力することができる情報処理装置、及び情報処理プログラムを提供することを目的とする。
第1態様に係る情報処理装置は、取得対象の情報を表す候補のキーワードが文書内に複数含まれる場合に、前記候補のキーワードのうち何れのキーワードを、前記取得対象となる情報の項目を表す目的のキーワードとして優先して使用するかを規定した優先情報に従って、前記候補のキーワードの中から前記目的のキーワードを設定する設定部と、前記設定部で設定した前記目的のキーワードに対応した文字列を文書から抽出する抽出部と、前記抽出部で抽出した前記目的のキーワードに対応した文字列を出力する出力部と、を備える。
第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、文書が、異なる書式で記載された複数の文書で構成される場合、前記設定部は、前記優先情報に従って、前記目的のキーワードを書式の異なる文書毎に設定する。
第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記優先情報には文書毎の書式情報が対応付けられ、前記設定部は、文書における書式が何れかの前記優先情報と対応付けられた特定の書式情報に従う場合、前記特定の書式情報が対応付けられた前記優先情報に従って、前記候補のキーワードの中から前記目的のキーワードを設定する。
第4態様に係る情報処理装置は、第3態様に係る情報処理装置において、前記優先情報と対応付けられた書式情報が、前記候補のキーワードを表す文字列の文字属性、または前記候補のキーワードに対応した文字列の文字属性で表される。
第5態様に係る情報処理装置は、第3態様に係る情報処理装置において、前記優先情報と対応付けられた書式情報が、文書における前記候補のキーワードの記載位置で表される。
第6態様に係る情報処理装置は、第3態様に係る情報処理装置において、前記優先情報と対応付けられた書式情報が、文書における前記候補のキーワードに対応した文字列の記載位置で表される。
第7態様に係る情報処理装置は、第5態様または第6態様に係る情報処理装置において、前記候補のキーワードの記載位置、または前記候補のキーワードに対応した文字列の記載位置が、前記候補のキーワードの何れか1つの位置を基準とする相対位置で表される。
第8態様に係る情報処理装置は、第1態様〜第7態様の何れかの態様に係る情報処理装置において、前記候補のキーワードの中から何れか1つのキーワードを選択した選択結果を受け付ける受付部を備え、前記設定部は、文書に含まれる前記候補のキーワードと一致する前記優先情報が存在しない場合、前記受付部で受け付けた選択結果によって表されるキーワードを、前記候補のキーワードにおける前記目的のキーワードに設定する。
第9態様に係る情報処理装置は、第8態様に係る情報処理装置において、前記優先情報の何れとも一致しない前記候補のキーワードの各々に対して、前記選択結果に従った新たな優先情報を生成する生成部を備える。
第10態様に係る情報処理プログラムは、コンピュータを、第1態様〜第9態様の何れかの態様に係る情報処理装置の各部として機能させるためのプログラムである。
第1態様、及び第10態様によれば、文書内に、取得したい情報の項目を表すキーワードの候補が複数存在する場合であっても、複数のキーワードの中から、取得したい情報の項目を表す何れか1つのキーワードを特定し、特定したキーワードに対応した文字列を出力することができる、という効果を有する。
第2態様によれば、文書内に異なる書式の文書が含まれる場合であっても、書式の異なる文書毎に、取得対象となる情報の項目を表すキーワードに対応した文字列を出力することができる、という効果を有する。
第3態様によれば、同じ候補のキーワードをそれぞれ複数含む複数の文書があったとしても、複数の候補のキーワードの中から取得対象となる情報の項目を表すキーワードを文書毎に特定することができる、という効果を有する。
第4態様によれば、同じ候補のキーワードをそれぞれ複数含む複数の文書があったとしても、文字列の文字属性によって、複数の候補のキーワードの中から取得対象となる情報の項目を表すキーワードを文書毎に特定することができる、という効果を有する。
第5態様によれば、同じ候補のキーワードをそれぞれ複数含む複数の文書があったとしても、候補のキーワードの記載位置によって、複数の候補のキーワードの中から取得対象となる情報の項目を表すキーワードを文書毎に特定することができる、という効果を有する。
第6態様によれば、同じ候補のキーワードをそれぞれ複数含む複数の文書があったとしても、候補のキーワードに対応した文字列の記載位置によって、複数の候補のキーワードの中から取得対象となる情報の項目を表すキーワードを文書毎に特定することができる、という効果を有する。
第7態様によれば、取得対象となる情報の項目を含む文書が、原稿の内容を光学的に読み取る場合に、原稿が基準となる読み取り位置からずれて読み取られた結果、生成された文書であったしても、複数の候補のキーワードの中から取得対象となる情報の項目を表すキーワードを文書毎に特定することができる、という効果を有する。
第8態様によれば、複数の候補のキーワードのうち、何れのキーワードが取得対象となる情報の項目を表すキーワードであるか不明な場合であっても、取得対象となる情報の項目を表すキーワードに対応した文字列を出力することができる、という効果を有する。
第9態様によれば、文書に対応した優先情報を新たに生成しない場合と比較して、複数の候補のキーワードのうち、何れのキーワードが目的のキーワードかユーザに選択させる回数を低減させることができる、という効果を有する。
情報処理装置の機能構成例を示すブロック図である。 文書の一例を示す図である。 優先情報の一例を示す図である。 情報処理装置における電気系統の要部構成例を示す図である。 第1実施形態に係る情報処理の流れの一例を示すフローチャートである。 選択画面の表示例について説明した図である。 第2実施形態に係る情報処理の流れの一例を示すフローチャートである。 第2実施形態に係る情報処理で用いられる優先情報の一例を示す図である。 文書の他の一例を示す図である。 文書における文字列の記載位置のずれについて説明した図である。 優先情報に設定する書式情報に文字属性を用いた場合の状況について説明した図である。
以下、本実施の形態について図面を参照しながら説明する。なお、機能が同じ構成要素及び処理には全図面を通して同じ符合を付与し、重複する説明を省略する。
<第1実施形態>
図1は、例えばOCR処理された文書から、ユーザが指定した取得対象の情報のキーワードに対応した文字列を抽出して出力する情報処理装置10の機能構成例を示すブロック図である。
情報処理装置10は、スキャン処理部11、画像処理部12、出力部13、ユーザインターフェース(User Interface:UI)部14、及び制御部15の各機能部と、キーワードデータベース(Database:DB)16、及び優先情報DB17を含む。
スキャン処理部11は、原稿に記載された内容を光学的に読み取るスキャナユニット50を用いて、原稿に対応した画像(以降、「文書画像」という)を生成し、画像処理部12に引き渡す。
画像処理部12は、OCR処理部12A、抽出部12B、及び設定部12Cを含んでいる。
スキャン処理部11から文書画像を受け付けた画像処理部12は、まず、OCR処理部12Aで文書画像に対して公知の画像認識を行い、文書画像のうち文字に相当する画像を文字コードに変換する。すなわち、OCR処理部12Aによって、文書画像が文字情報として扱われるようになり、文字のコピーや検索が行われるようになる。以降では、OCR処理部12Aで文書画像から文字情報に変換された変換データを「文書20」ということにする。
抽出部12BはOCR処理部12Aによって生成された文書20から、ユーザが指定したキーワードに対応した文字列を抽出する。
図2は、OCR処理部12Aで生成された文書20の一例を示す図である。文書20には様々な内容を記した文字列が含まれ、文字列の書式に決まりはなく、様々な書式が用いられる。このように情報処理装置10で扱う文書20の書式に制約はなく、如何なる書式を有する文書20であってもよいが、文書20を特定の内容の文書20に限定して説明した方が開示の技術をわかりやすく説明することができるため、説明の便宜上、以降では一例として、文書20が他社から受け取った見積書である場合について説明を行う。
ユーザが文書20から所望する情報を抽出する場合、所望する情報の項目を表すキーワードを参考にして抽出することになる。
例えばユーザが、見積書を特定するため見積書と一意に対応付けられた識別子である見積番号を見積書から抽出して見積書を管理したいと考える場合で、見積書の書式が予め定められている場合について説明する。この場合、ユーザは見積番号が例えば「見積番号」というキーワードで見積書に記載されていることを知っていることになる。したがって、情報処理装置10はユーザの指示に従い、「見積番号」を取得対象の情報を表す目的キーワードに設定することで、「見積番号」の文字列を見積書から検出し、「見積番号」と対応した文字列を見積番号として見積書から抽出する。取得対象となる情報の項目を表す目的キーワードは、開示の技術に係る「目的のキーワード」の一例である。
目的キーワードと対応した文字列とは、例えば目的キーワードと同じ行にある文字列のように、目的キーワードの内容を表していると推測される文字列であり、以降「バリュー」と呼ぶ。目的キーワードからどの方向にどの程度離れた位置にある文字列をバリューとして抽出するかは、予め定められたバリューの抽出ルールに従う。ここでは一例として、目的キーワードの記載行と同じ行で、かつ、目的キーワードの右隣にある文字列をバリューとする抽出ルールが設定されていることにするが、バリューの抽出ルールは変更してもよい。
上述したケースでは、情報処理装置10が受け付ける見積書の書式が予め定められているため、「見積番号」を予め所望する情報を表す目的キーワードとして設定した。しかし、情報処理装置10で受け付ける見積書の種類が複数になれば、見積番号が様々な表記で表されることがある。例えば図2の見積書の例では、見積番号が「見積書番号」と記載されている。更に、見積書の中に、見積番号を例えば「No」、「整理番号」、「Number」、及び「発行番号」のように表記しているものもある。
このように見積番号は見積書内でどのような表記で表されているかわからないため、見積番号のようなユーザが所望する情報を表すキーワードの表記の揺れがキーワードDB16に予め登録され、例えば作成元が異なるような文書20からもユーザが所望する情報が抽出されるように考慮されている。具体的には、見積番号に対して例えば「番号」、「見積番号」、「No」、「見積書番号」、「整理番号」、「Number」、及び「発行番号」等がそれぞれ見積番号を表すキーワードとしてキーワードDB16に登録されている。このように、ユーザが所望する情報を表すキーワードとして予めキーワードDB16に登録された複数のキーワードを、情報に対する「候補キーワード」ということにする。ユーザが所望する情報を言い表すと考えられる複数のキーワードからなる候補キーワードは、開示の技術に係る「候補のキーワード」の一例である。
抽出部12BはキーワードDB16を参照して、キーワードDB16に登録されている候補キーワードのうち、文書20に含まれるキーワードを候補キーワードとして文書20から抽出して設定部12Cに引き渡す。
設定部12Cは、抽出部12Bから候補キーワードを受け付けると、優先情報DB17に含まれる優先情報30に従って、受け付けた候補キーワードの中から目的キーワードを設定する。
図3は、優先情報DB17に含まれる優先情報30の一例を示す図である。優先情報30には、例えば情報番号、条件、及びキーワードが対応付けられている。
情報番号は、優先情報30を識別するための識別子であり、優先情報30毎に異なる番号が設定される。
条件は、文書20に含まれる候補キーワードの組み合わせを示した情報である。文書20の種類や作成元が異なれば文書20の書式が変わり、文書20に含まれる候補キーワードの組み合わせも変化する。例えばA社の見積書には、見積番号を表す「見積書番号」のキーワードの他、例えば「No」のように見積番号とは異なる番号で、他の意味を表すキーワードが含まれることがある。また、例えばB社の見積書には、見積番号を表す「番号」のキーワードの他、「No」や「Number」のように見積番号とは異なる番号で、他の意味を表すキーワードが含まれることがある。
したがって、キーワードは、優先情報30の条件に含まれる候補キーワードのうち、何れのキーワードが目的キーワードなのかを示している。
文書20に含まれる候補キーワードを、文書20の種類や作成元毎に予め優先情報30の条件に設定しておくことで、文書20がどこで作成されたどのような文書20なのか特定されることになる。具体的には、設定部12Cは、抽出部12Bから受け付けた候補キーワードの組み合わせと一致するキーワードの組み合わせを条件に含む優先情報30を、文書20に適合する優先情報30として設定する。
更に、設定部12Cは、適合する優先情報30に含まれるキーワードを、文書20の目的キーワードとして設定する。例えば図2に示す文書20を受け付けた場合、文書20には「No」及び「見積書番号」の候補キーワードがそれぞれ含まれるため、設定部12Cは、受け付けた候補キーワードと同じキーワードが条件に設定されている情報番号=“2”の優先情報30を文書20に適合する優先情報30として設定し、「見積書番号」を目的キーワードに設定する。設定部12Cは、設定した目的キーワードを抽出部12Bに通知する。
これにより、抽出部12Bはバリューの抽出ルールに従って、設定部12Cに引き渡した候補キーワードのうち、設定部12Cによって設定された目的キーワードのバリューを文書20から抽出して、目的キーワードとバリューを出力部13に引き渡す。
出力部13は、画像処理部12の設定部12Cからバリューを受け付けると、目的キーワードと対応付けてバリューを出力する。「バリューを出力する」とは、文書20から抽出したバリューがどのような文字列であるのか認識可能な状態にすることである。バリューを認識する対象は人に限られず装置であってもよい。したがって、目的キーワードと対応付けてバリューを表示装置に表示する、用紙に印字する、音声で通知する、記憶装置に記憶する、及び図示しない通信回線を通じて後述する通信ユニット47から送信することは、それぞれバリューの出力を表す一形態である。
UI部14は、ユーザからの指示を受け付けると共に、情報処理装置10の動作や状態といった各種情報をユーザに通知する。例えばUI部14は、文書20から所望の情報を抽出するように指示する抽出指示や、優先情報DB17に含まれる優先情報30の追加、変更、及び削除を指示する登録指示をユーザから受け付け、目的キーワードに対応したバリューをユーザに通知する。UI部14は、本実施の形態に係る受付部の一例である。
制御部15は、スキャン処理部11、画像処理部12、出力部13、及びUI部14の各機能部の処理を制御すると共に、ユーザの指示に従ってキーワードDB16、及び優先情報DB17を管理する制御を行う。また、制御部15は、後ほど詳細に説明するように、新たな優先情報30を生成して優先情報DB17に追加することから、本実施の形態に係る生成部の一例でもある。
図4は、情報処理装置10における電気系統の要部構成例を示す図である。情報処理装置10は、例えばコンピュータ40を用いて構成される。
コンピュータ40は、本実施の形態に係る各機能部を担うCPU(Central Processing Unit)41、情報処理プログラムを記憶するROM(Read Only Memory)42、CPU41の一時的な作業領域として使用されるRAM(Random Access Memory)43、不揮発性メモリ44、及び入出力インターフェース(I/O)45を備える。そして、CPU41、ROM42、RAM43、不揮発性メモリ44、及びI/O45がバス46を介して各々接続されている。
不揮発性メモリ44は、不揮発性メモリ44に供給される電力が遮断されても、記憶した情報が維持される記憶装置の一例であり、例えば半導体メモリが用いられるがハードディスクを用いてもよい。不揮発性メモリ44は、必ずしもコンピュータ40に内蔵されている必要はなく、例えばメモリカードのようにコンピュータ40に着脱される記憶装置であってもよい。
I/O45には、例えば通信ユニット47、入力ユニット48、表示ユニット49、及びスキャナユニット50が接続される。
通信ユニット47は図示しない通信回線に接続され、図示しない接続回線に接続する記憶装置及びコンピュータといった外部装置と通信を行う通信プロトコルを備える。
入力ユニット48は、ユーザからの指示を受け付けてCPU41に通知する装置であり、例えばボタン、タッチパネル、キーボード、及びマウス等が用いられる。情報処理装置10は、入力ユニット48を介して利用者から指示された機能を実行する。情報処理装置10はユーザからの指示を音声で受け付けてもよく、この場合、I/O45にはマイクが接続される。
表示ユニット49は、CPU41によって処理された情報を画像として表示する装置であり、例えば液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、及び映像をスクリーンに投影するプロジェクタ等が用いられる。
スキャナユニット50は、CPU41の指示に従って、例えば図示しないプラテンガラスに置かれた原稿の内容を光学的に読み取り、原稿の内容を文書画像に変換する装置である。スキャナユニット50はスキャン処理部11の処理で用いられる。
情報処理装置10は、スキャナユニット50で読み取られた文書画像をスキャン処理部11で受け付けるが、必ずしもI/O45に接続されたスキャナユニット50から文書画像を受け付ける必要はない。例えば、情報処理装置10は、通信ユニット47を通じて図示しない通信回線に接続された図示しないスキャナ装置で読み取られた文書画像を受け付けてもよい。また、情報処理装置10は、クラウドサーバに格納された文書画像を受け付けてもよい。
なお、I/O45に接続されるユニットは図4に例示したユニットに限定されない。例えば、CPU41の指示に従って、処理した情報を記録媒体に形成する画像形成ユニットをI/O45に接続してもよい。
また、通信ユニット47や着脱可能な半導体メモリを通じて文書画像を受け付ける場合、スキャナユニット50は必ずしも必要ない。この場合、情報処理装置10は、デスクトップコンピュータ、タブレット型コンピュータ、スマートフォン、及びウェアラブル端末のように、ユーザとのインターフェースを提供する入出力装置、及び入力された情報を処理する処理機能を備えた情報機器が用いられる。
次に、文書20からユーザが所望する情報を抽出する情報処理装置10の動作について説明する。
図5は、ユーザの指示によって文書画像を受け付け、OCR処理部12Aが受け付けた文書画像を文書20に変換した場合に、CPU41によって実行される情報処理の流れの一例を示すフローチャートである。情報処理を規定する情報処理プログラムは、例えば情報処理装置10のROM42に予め記憶されている。情報処理装置10のCPU41は、ROM42に記憶される情報処理プログラムを読み込み、情報処理を実行する。
なお、情報処理装置10には、ユーザが所望する情報に対する複数の候補キーワードがキーワードDB16に予め登録されている。また、優先情報DB17には、少なくとも1つの優先情報30が予め含まれている。
ステップS10において、CPU41はキーワードDB16に予め登録されている、ユーザが所望する情報を表す候補キーワードを用いて、文書20に含まれる候補キーワードを抽出する。
ステップS20において、CPU41は優先情報DB17を参照し、優先情報DB17に含まれる優先情報30を1つ取得する。
ステップS30において、CPU41は、ステップS10で文書20から抽出した候補キーワードの組み合わせと、ステップS20で取得した優先情報30の条件に含まれる候補キーワードの組み合わせが一致するか否かを判定する。
候補キーワードの組み合わせが一致しない場合、ステップS20で取得した優先情報30は受け付けた文書20に対する優先情報30ではないと考えられるため、ステップS40に移行する。
ステップS40において、CPU41は、優先情報DB17に未選択の優先情報30が存在するか否かを判定する。優先情報DB17にまだ未選択の優先情報30が存在する場合にはステップS20に移行し、ステップS20で未選択の優先情報30の中から優先情報30を1つ取得する。すなわち、ステップS40の判定処理で未選択の優先情報30が存在しないと判定されるまで、ステップS20〜S40の処理を繰り返し実行し、ステップS30の判定処理で、ステップS10で文書20から抽出した候補キーワードの組み合わせと一致する優先情報30を優先情報DB17から探索する処理を実行する。
それでもステップS10で文書20から抽出した候補キーワードの組み合わせと一致する優先情報30が優先情報DB17に含まれない場合、ステップS50に移行する。
この場合、文書20に含まれる候補キーワードの組み合わせは、何れの優先情報30の条件に設定された候補キーワードの組み合わせとも異なることから、受け付けた文書20は、これまでに情報処理装置10で受け付けたことのない新たな文書20であると考えられる。すなわち、情報処理装置10では、文書20に含まれる複数の候補キーワードのうち、何れの候補キーワードが目的キーワードであるか判断する判断材料を有していないことになる。
したがって、ステップS50において、CPU41は、文書20に含まれる複数の候補キーワードの中から目的キーワードをユーザに選択させるための選択画面22を、例えば表示ユニット49に表示させる。選択画面22の表示先は表示ユニット49に限られず、CPU41は、例えば通信ユニット47を経由してスマートフォン等の情報機器に表示させるようにしてもよい。
図6は、選択画面22の表示例について説明した図である。図6(A)は、優先情報DB17に適合する優先情報30が存在しない文書20の一例を示す図であり、図6(B)は、図6(A)の文書20を受け付けた場合に表示される選択画面22の一例を示す図である。
CPU41はバリューの抽出ルールに従って、ステップS10で文書20から抽出した各々の候補キーワードのバリューを更に文書20から抽出し、文書20から抽出した各々の候補キーワードのバリューを候補キーワードと対応付けて選択画面22に表示する。選択画面22には、例えばラジオボタン24のように、各々の候補キーワードから何れか1つのキーワードを目的キーワードとして選択するための選択アイテムが表示される。選択アイテムを通じてユーザが選択した何れか1つの候補キーワードが、文書20における目的キーワードとなる。
図6(B)の例では、図6(A)で示される文書20に含まれる候補キーワード「No」及び「整理番号」のうち、「整理番号」が目的キーワードとして選択された状況を示している。
ステップS60において、CPU41は、ユーザによる選択画面22の操作によってキーワードの選択結果を受け付けたか否かを判定する。キーワードの選択結果を受け付けていない場合にはステップS60の判定処理を繰り返し実行して、選択結果の受付を監視する。一方、キーワードの選択結果を受け付けた場合には、ステップS70に移行する。
ステップS70において、CPU41は、ステップS10で文書20から抽出した候補キーワードを条件に設定し、受け付けた選択結果で表されるキーワードを目的キーワードに設定した新たな優先情報30を生成して、優先情報DB17に追加する。図6(C)は、図6(B)の選択画面22の選択結果に基づいて生成された優先情報30の例を示す図である。図6(A)で示される文書20から候補キーワード「No」及び「整理番号」が抽出され、図6(B)で示される選択画面22で「整理番号」が目的キーワードに選択された場合、条件に「No」及び「整理番号」が設定され、キーワードに「整理番号」が設定された情報番号=“3”の優先情報30が優先情報DB17に追加される。優先情報DB17に追加した新たな優先情報30は、受け付けた文書20に適合した優先情報30となる。
一方、ステップS30の判定処理で、ステップS10で文書20から抽出した候補キーワードの組み合わせと、ステップS20で取得した優先情報30の条件に含まれる候補キーワードの組み合わせが一致すると判定された場合、すなわち、文書20に適合する優先情報30が優先情報DB17に存在すると判定された場合、またはステップS70で新たな優先情報30が生成された場合には、ステップS80に移行する。
ステップS80において、CPU41は、文書20に適合した優先情報30から目的キーワードを取得する。
ステップS90において、CPU41はバリューの抽出ルールを参照して、ステップS80で取得した目的キーワードのバリューを文書20から抽出して、例えば目的キーワードと共に抽出したバリューを出力する。なお、文書20に適合した優先情報30が存在せず、ステップS50で選択画面22を表示した場合には、ユーザが目的キーワードに選択した候補キーワードと対応付けられているバリューが目的キーワードのバリューとなるため、改めて文書20からバリューを抽出しなくてもよい。以上により、図5に示す情報処理を終了する。
情報処理装置10で受け付ける文書20はページ単位に分割された文書20に限られず、例えば表計算アプリケーションで用いられるスプレッドシートのように、ページ単位で管理されない文書20であってもよい。また、情報処理装置10で受け付けた文書20がページ単位に分割される文書20の場合、受け付ける文書20のページ数に制限はなく、1ページからなる文書20であっても、複数のページからなる文書20であってもよい。
また、文書20が、例えばA社の文書20の後にB社の文書20が重ねられているような、異なる書式で記載された複数の文書20で構成される場合であっても、文書20に含まれる候補キーワードの組み合わせから、書式の異なる文書20毎に適合した優先情報30が得られる。したがって、文書20の作成元によってユーザが所望する情報を表すキーワードの表記が異なる場合であっても、ユーザが所望する情報のバリューが得られる。
なお、同じ種類の文書20や同じ作成元が作成した文書20の場合、例えば「■見積番号」のように、候補キーワードの前に同じ記号が付けられる等、文書20の書式には共通性が見られる。したがって、例えば複数の作成元が作成した各々の文書20からなる文書20のうち、同じ作成元が作成した文書20の範囲は、文書20の書式の変化度合いによって判別される。また、文書20のヘッダーやフッターに記載された作成元情報及びページ番号、並びに、文書の先頭ページにだけ記載される表題の有無からも、作成元毎の文書20の範囲を判別する情報が得られる。
更に言えば、作成元の異なる文書20毎に文書20のページ数が分かっている場合には、ページ数によって作成元毎の文書20の範囲が判別される。
このように本実施の形態に係る情報処理装置10によれば、ユーザが所望する情報を表す複数の候補キーワードを予め設定しておき、文書20から抽出された候補キーワードと一致する候補キーワードを含む優先情報30を文書20に適合する優先情報30として選択する。その上で、情報処理装置10は、文書20に適合する優先情報30のキーワードを目的キーワードに設定し、目的キーワードに対応したバリューを文書20から抽出して、目的キーワードと共にバリューを出力する。なお、文書20から抽出したバリューを目的キーワードと共に出力する必要はなく、抽出したバリューだけを出力してもよいことは言うまでもない。
<第2実施形態>
第1実施形態では、文書20に含まれる候補キーワードの組み合わせに基づいて、文書20に適合する優先情報30を選択する情報処理装置10について説明した。しかしながら、文書20には、文書20に含まれる候補キーワードの組み合わせは同じであるが、作成元や種類が異なる文書20が存在することがある。文書20の作成元や種類が異なれば、各々の文書20に含まれる候補キーワードの組み合わせは同じであっても、ユーザが所望する情報を表す目的キーワードが異なることがある。
こうした状況を考えると、文書20に含まれる候補キーワードの組み合わせが優先情報30に含まれる候補キーワードの組み合わせと一致するからといって、必ずしも当該優先情報30に含まれるキーワードが文書20の正しい目的キーワードを表しているとは限らないことがある。
したがって、本実施の形態では、文書20に含まれる候補キーワードの組み合わせから文書20に適合する優先情報30を選択する場合よりも精度よく、文書20に適合する優先情報30を選択する情報処理装置10について説明を行う。
図7は、ユーザの指示によって文書画像を受け付け、OCR処理部12Aが受け付けた文書画像を文書20に変換した場合に、CPU41によって実行される情報処理の流れの一例を示すフローチャートである。情報処理を規定する情報処理プログラムは、例えば情報処理装置10のROM42に予め記憶されている。情報処理装置10のCPU41は、ROM42に記憶される情報処理プログラムを読み込み、情報処理を実行する。
図7に示す情報処理が、図5に示した第1実施形態に係る情報処理と異なる点は、ステップS35が追加された点であり、その他の処理は同じである。
なお、情報処理装置10には、ユーザが所望する情報に対する複数の候補キーワードがキーワードDB16に予め登録されている。また、優先情報DB17には、少なくとも1つの優先情報30が予め含まれている。
ステップS30で、ステップS10において文書20から抽出した候補キーワードの組み合わせと、ステップS20で取得した優先情報30の条件に含まれる候補キーワードの組み合わせが一致すると判定された場合、ステップS35が実行される。
ステップS35において、CPU41はステップS20で取得した優先情報30を参照して、文書20の書式が優先情報30の条件に設定されている書式情報と同じであるか否かを判定する。
図8は、本実施の形態に係る優先情報30の一例を示す図である。本実施の形態に係る優先情報30の条件には、候補キーワードに加え、文書20の書式情報が予め設定されている。図8の優先情報30の場合、文書20の書式情報として、文書20における候補キーワードの記載位置が設定されている。候補キーワードの記載位置は例えば[x、y、w、h]の形式で設定される。
“x”,“y”、“w”、及び“h”はそれぞれ0以上の整数であり、“x”は文書20のページに予め設定された2次元座標系(XY座標系)における候補キーワードのX軸方向の座標値を表し、“y”はXY座標系における候補キーワードのY軸方向の座標値を表す。XY座標系の原点Pはページの何れの場所に設定してもよいが、一例としてページの左上の頂点を原点Pに設定し、原点Pから文書20の行方向に沿った方向をX軸方向、X軸方向と直交する方向をY軸方向とする。
候補キーワードのX軸方向の座標値とは、例えば候補キーワードをできるだけ小さい矩形(「包括矩形」という)で囲んだ場合の当該包括矩形の左上の頂点のX軸方向の座標値のことであり、候補キーワードのY軸方向の座標値とは、包括矩形の左上の頂点のY軸方向の座標値のことをいう。なお、候補キーワードのX軸方向及びY軸方向の座標値の設定は上記の例に限られない。例えば候補キーワードが記載されている領域の中心点の座標値等、候補キーワードの記載位置に応じて座標が一意に設定される箇所であれば、どのような箇所を候補キーワードのX軸方向及びY軸方向の座標値として設定してもよい。
“w”は、XY座標系における候補キーワードの幅を表し、“h”はXY座標系における候補キーワードの高さを表す。候補キーワードの幅は、例えば候補キーワードを囲む包括矩形のX軸方向の長さに設定され、候補キーワードの高さは、例えば候補キーワードを囲む包括矩形のY軸方向の長さに設定される。なお、候補キーワードの記載領域の大きさに応じて値が一意に設定されるのであれば、候補キーワードの幅及び高さをどのように定義してもよい。
文書20が情報処理装置10で受け付けたことのない新たな文書20である場合には、図7のステップS70で新たな優先情報30が生成されるが、CPU41は、新たな優先情報30を生成する場合に、文書20における候補キーワードの記載位置を候補キーワードと対応付けて新たな優先情報30の条件に設定する。この場合、CPU41は、選択画面22に候補キーワードの記載位置を表示するようにしてもよい。
ユーザは、選択画面22に表示された候補キーワードの記載位置を確認し、必要があれば候補キーワードの記載位置を修正する。候補キーワードの記載位置が修正された場合、CPU41は、候補キーワードの修正後の記載位置を優先情報30に登録する。
図8の情報番号=“3”で表される優先情報30の場合、候補キーワード「No」に対して[10、10、15、10]の記載位置が設定され、候補キーワード「見積書番号」に対して[40、25、40、10]の記載位置が設定されている。
図9は、図8の情報番号=“3”で表される優先情報30に対応した文書20の一例を示す図である。
一方、図8の情報番号=“2”で表される優先情報30の場合、候補キーワード「No」に対して[10、10、15、10]の記載位置が設定され、候補キーワード「見積書番号」に対して[10、25、40、10]の記載位置が設定されている。これは、図2に示した文書20に対応した優先情報30である。
このように、図8に示す優先情報30には候補キーワードの記載位置が設定されているため、共に同じ候補キーワードである「No」と「見積書番号」を含む図2に示した文書20及び図9に示した文書20であっても、候補キーワードの記載位置の違いから、図2に示した文書20は、図8の情報番号=“2”で表される優先情報30の書式情報と同じと判定され、情報番号=“3”で表される優先情報30の書式情報とは同じでないと判定されることになる。逆に、図9に示した文書20は、図8の情報番号=“3”で表される優先情報30の書式情報と同じと判定され、情報番号=“2”で表される優先情報30の書式情報とは同じでないと判定される。
ステップS35の判定処理で、文書20の書式がステップS20で取得した優先情報30の条件に設定されている書式情報と同じでないと判定された場合にはステップS40に移行する。ステップS40で未選択の優先情報30が存在すると判定された場合、ステップS20で新たな優先情報30が取得されるため、文書20に含まれる候補キーワードと候補キーワードが一致する新たな優先情報30が存在すれば、ステップS35で文書20の書式と新たな優先情報30の条件に設定されている書式情報が比較されることになる。
ステップS35の判定処理で、文書20の書式がステップS20で取得した優先情報30の条件に設定されている記載位置と同じであると判定された場合には、参照している優先情報30が文書20に適合する優先情報30となるため、ステップS80に移行する。
ステップS80では、候補キーワードの組み合わせが一致し、かつ、候補キーワードの記載位置が同じであると判定した文書20に適合する優先情報30から目的キーワードを取得することになる。
なお、「記載位置が同じ」とは、記載位置の比較対象となる文字列の文書20における記載位置が、優先情報30の条件に設定されている記載位置と一致する場合だけでなく、優先情報30の条件に設定されている記載位置から予め定めた範囲内に含まれる状況も含まれる。「予め定めた範囲」は、優先情報30の条件に設定されている記載位置からの差分が当該範囲内であれば、記載位置が同じと判定しても優先情報30の選択精度が低下しないような範囲に設定される。
図7に示した情報処理では、優先情報30の条件に設定される書式情報が文書20における候補キーワードの記載位置である場合について説明したが、優先情報30の条件に設定される書式情報は候補キーワードの記載位置に限られない。優先情報30の条件に設定されている書式情報は、文書20の種類や作成元の判別に利用される情報であればどのような情報であってもよい。例えば、優先情報30の条件に設定される書式情報として、文書20における候補キーワードのバリューの記載位置を用いてもよい。
なお、文書20における文字列の記載位置に基づいて文書20に適合した優先情報30を選択する場合、文書20における文字列の記載位置が実際の原稿における記載位置と異なる場合がある。例えばスキャナユニット50で原稿を読み取る場合に原稿を原稿の読み取り範囲からずらして配置してしまうと、同じ文字列であっても文書20における文字列の記載位置が異なることになる。
図10は、スキャナユニット50への原稿の配置ずれに伴う、文書20における文字列の記載位置のずれについて説明した図である。
原稿の角(図10の例では左上の角)がスキャナユニット50における原稿の読み取り範囲の基準点と一致するように、図示しないプラテンガラスに原稿が置かれた場合には、文書20の原点Pと原稿の角が同じ位置となるため、図10に示すように、文書20における文字列の記載位置は、原稿における文字列の記載位置と同じになる(領域26A参照)。しかしながら、原稿の角がスキャナユニット50における原稿の読み取り範囲の基準点からずれて配置された場合には、文書20の原点Pと原稿の角が異なる位置となるため、文書20における文字列の記載位置が、原稿の角を原稿の読み取り範囲の基準点にあわせた場合の文字列の記載位置と異なることになる(領域26B参照)。
すなわち、優先情報30における条件に設定された候補キーワードの記載位置を文書20の原点Pを基準とした座標(「絶対座標」という)で表した場合、本来は文書20に適合した優先情報30であったとしても、スキャナユニット50への原稿の配置の仕方によっては、文書20に適合した優先情報30でないと判定されることがある。
したがって、優先情報30に候補キーワードや候補キーワードのバリューの記載位置を設定する場合、文書20に含まれる何れか1つの文字列の位置を基準点とする相対位置を用いるようにすればよい。なお、相対位置の基準点を相対基準点ということにする。
一例として、候補キーワード「No」の包括矩形における左上の頂点を相対基準点に設定した場合、図9に示した文書20の「No」の記載位置は、例えば[0、0、15、10]、「見積書番号」の記載位置は[30、15、40、10]のように表される。原稿の角がスキャナユニット50における原稿の読み取り範囲の基準点からずれて配置された結果、文書20における候補キーワードの記載位置が図10の領域26Bの位置にずれたとしても、候補キーワードの相対基準点も同じようにずれるため、相対基準点から見た候補キーワードの記載位置は変化しない。したがって、原稿の角がスキャナユニット50における原稿の読み取り範囲の基準点からずれて配置された文書20であったとしても、優先情報30に候補キーワードの記載位置が絶対座標で設定される場合と比較して、文書20に適合する優先情報30を正しく選択することになる。
なお、優先情報30の条件に設定される書式情報は、文書20における文字列の記載位置に限られない。例えば候補キーワードの文字属性、または候補キーワードのバリューの文字属性を書式情報に設定してもよい。
「文字属性」とは、文書20における文字の見え方を規定する要素の集合体であり、文字属性を規定する要素には、例えば文字の大きさ、文字の字体、文字の太さ、文字の装飾、及び文字の色が含まれる。
「文字の装飾」とは、文字が表す本来の意味が読み取れる範囲内で文字の外形を修正したり、文字に他の要素を付け加えたりすることをいう。例えば斜体の文字、並びに、下線、取り消し線、傍点、及び影が加えられた文字は、装飾が施された文字の一例である。
文字列の間隔、または文字の間隔も文字の見え方を規定するため文字属性に含まれる。例えば文書20が異なれば候補キーワードと、候補キーワードに対応したバリューの間隔が異なる場合があるため、文字列の間隔を書式情報に用いてもよい。また、文書20が異なれば候補キーワードと、候補キーワードに対応したバリューを区切る区切り文字(例えばスペースや“:”や“=”のような文字)が異なる場合があるため、区切り文字の種類を書式情報に用いてもよい。
図11は、優先情報30の条件に設定される書式情報に文字属性を用いた場合の状況について説明した図である。
図11(A)及び図11(B)は互いに異なる文書20であるが、含まれる候補キーワードの表記及び記載位置は同じ文書20である。しかしながら、図11(A)の文書20は候補キーワードのバリューに下線が付されている書式を有し、図11(B)の文書20は候補キーワードに下線が付されている書式を有している。図11(C)は、優先情報30の一例を示している。
図11(C)の優先情報30において、“Value”はバリューを表し、“Key”は候補キーワードを表す。また、“under”は下線が付されていることを表す。情報番号=“1”で表される優先情報30の条件には、「No」及び「見積書番号」という候補キーワードのバリューに下線が付されているような書式を有する文書20の書式情報が設定されていることから、情報番号=“1”で表される優先情報30が、図11(A)の文書20に適合した優先情報30として選択される。
また、情報番号=“2”で表される優先情報30の条件には、「No」及び「見積書番号」という候補キーワードに下線が付されているような書式を有する文書20の書式情報が設定されていることから、情報番号=“2”で表される優先情報30が、図11(B)の文書20に適合した優先情報30として選択される。
文字の大きさに関しても、例えば[Key size=10]のように候補キーワードと対応付けて優先情報30の条件に設定すれば、候補キーワードにおける文字の大きさが10ポイントの書式を有する文書20の書式情報が設定された優先情報30となる。また、文字の字体に関しても、例えば[Key font=明朝体]のように候補キーワードと対応付けて優先情報30の条件に設定すれば、候補キーワードにおける文字の字体が明朝体の書式を有する文書20の書式情報が設定された優先情報30となる。このようにして、他の文字属性についても優先情報30に設定すればよい。
優先情報30の条件に設定する書式情報に文字属性を用いることで、文書20に含まれる候補キーワードの組み合わせが同じ文書20であっても、各々の文書20に適合する優先情報30が選択されることになる。
以上、実施の形態を用いて本発明について説明したが、本発明は実施の形態に記載の範囲には限定されない。本発明の要旨を逸脱しない範囲で実施の形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。例えば、本発明の要旨を逸脱しない範囲で処理の順序を変更してもよい。
本実施の形態では、一例として情報処理をソフトウェアで実現する形態について説明したが、図5及び図7に示したフローチャートと同等の処理を、例えばASIC(Application Specific Integrated Circuit)に実装し、ハードウェアで処理させるようにしてもよい。この場合、情報処理をそれぞれソフトウェアで実現した場合と比較して、処理の高速化が図られる。
また、図1に示した各機能部や、キーワードDB16及び優先情報DB17を単体の情報処理装置10で実現するのではなく、例えばクラウドコンピューティングを用いて複数の情報機器に分散して配置し、複数の情報機器を連係させることで、情報処理装置10と同等の処理を実行するようにしてもよい。
また、上述した実施の形態では、情報処理プログラムがROM42にインストールされている形態を説明したが、これに限定されるものではない。本発明に係る情報処理プログラムは、コンピュータで読み取り可能な記憶媒体に記録された形態で提供することも可能である。例えば、本発明に係る情報処理プログラムを、CD(Compact Disc)−ROM、又はDVD(Digital Versatile Disc)−ROM等の光ディスクに記録した形態で提供してもよい。また、本発明に係る情報処理プログラムを、USB(Universal Serial Bus)メモリ及びフラッシュメモリ等の半導体メモリに記録した形態で提供してもよい。更に、情報処理装置10は、通信ユニット47を介して、図示しない通信回線に接続される外部装置から本発明に係る情報処理プログラムを取得するようにしてもよい。
10・・・情報処理装置
11・・・スキャン処理部
12・・・画像処理部
12A・・・OCR処理部
12B・・・抽出部
12C・・・設定部
13・・・出力部
14・・・ユーザインターフェース部
15・・・制御部
16・・・キーワードDB
17・・・優先情報DB
20・・・文書
22・・・選択画面
24・・・ラジオボタン
26A(26B)・・・領域
30・・・優先情報
40・・・コンピュータ
41・・・CPU
42・・・ROM
43・・・RAM
44・・・不揮発性メモリ
46・・・バス
47・・・通信ユニット
48・・・入力ユニット
49・・・表示ユニット
50・・・スキャナユニット

Claims (10)

  1. 取得対象の情報を表す候補のキーワードが文書内に複数含まれる場合に、前記候補のキーワードのうち何れのキーワードを、前記取得対象となる情報の項目を表す目的のキーワードとして優先して使用するかを規定した優先情報に従って、前記候補のキーワードの中から前記目的のキーワードを設定する設定部と、
    前記設定部で設定した前記目的のキーワードに対応した文字列を文書から抽出する抽出部と、
    前記抽出部で抽出した前記目的のキーワードに対応した文字列を出力する出力部と、
    を備えた情報処理装置。
  2. 文書が、異なる書式で記載された複数の文書で構成される場合、
    前記設定部は、前記優先情報に従って、前記目的のキーワードを書式の異なる文書毎に設定する
    請求項1記載の情報処理装置。
  3. 前記優先情報には文書毎の書式情報が対応付けられ、
    前記設定部は、文書における書式が何れかの前記優先情報と対応付けられた特定の書式情報に従う場合、前記特定の書式情報が対応付けられた前記優先情報に従って、前記候補のキーワードの中から前記目的のキーワードを設定する
    請求項2記載の情報処理装置。
  4. 前記優先情報と対応付けられた書式情報が、前記候補のキーワードを表す文字列の文字属性、または前記候補のキーワードに対応した文字列の文字属性で表された
    請求項3記載の情報処理装置。
  5. 前記優先情報と対応付けられた書式情報が、文書における前記候補のキーワードの記載位置で表された
    請求項3記載の情報処理装置。
  6. 前記優先情報と対応付けられた書式情報が、文書における前記候補のキーワードに対応した文字列の記載位置で表された
    請求項3記載の情報処理装置。
  7. 前記候補のキーワードの記載位置、または前記候補のキーワードに対応した文字列の記載位置が、前記候補のキーワードの何れか1つの位置を基準とする相対位置で表された
    請求項5または請求項6記載の情報処理装置。
  8. 前記候補のキーワードの中から何れか1つのキーワードを選択した選択結果を受け付ける受付部を備え、
    前記設定部は、文書に含まれる前記候補のキーワードと一致する前記優先情報が存在しない場合、前記受付部で受け付けた選択結果によって表されるキーワードを、前記候補のキーワードにおける前記目的のキーワードに設定する
    請求項1〜請求項7の何れか1項に記載の情報処理装置。
  9. 前記優先情報の何れとも一致しない前記候補のキーワードの各々に対して、前記選択結果に従った新たな優先情報を生成する生成部を備えた
    請求項8記載の情報処理装置。
  10. コンピュータを、請求項1〜請求項9の何れか1項に記載の情報処理装置の各部として機能させるための情報処理プログラム。
JP2019006192A 2019-01-17 2019-01-17 情報処理装置、及び情報処理プログラム Active JP7302175B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019006192A JP7302175B2 (ja) 2019-01-17 2019-01-17 情報処理装置、及び情報処理プログラム
US16/531,119 US11006015B2 (en) 2019-01-17 2019-08-04 Information processing apparatus and non-transitory computer readable medium storing information processing program
CN201910828110.XA CN111444751B (zh) 2019-01-17 2019-09-03 信息处理装置、储存介质及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019006192A JP7302175B2 (ja) 2019-01-17 2019-01-17 情報処理装置、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2020115260A true JP2020115260A (ja) 2020-07-30
JP7302175B2 JP7302175B2 (ja) 2023-07-04

Family

ID=71609284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019006192A Active JP7302175B2 (ja) 2019-01-17 2019-01-17 情報処理装置、及び情報処理プログラム

Country Status (3)

Country Link
US (1) US11006015B2 (ja)
JP (1) JP7302175B2 (ja)
CN (1) CN111444751B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064209A (ja) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292262A1 (en) * 2015-04-02 2016-10-06 Canon Information And Imaging Solutions, Inc. System and method for extracting data from a non-structured document
JP2018128996A (ja) * 2017-02-10 2018-08-16 キヤノン株式会社 情報処理装置、制御方法、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3246432B2 (ja) * 1998-02-10 2002-01-15 株式会社日立製作所 宛名読取り装置および郵便物等区分機
JP2007122403A (ja) * 2005-10-28 2007-05-17 Fuji Xerox Co Ltd 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US20100076965A1 (en) * 2006-11-20 2010-03-25 Access Co., Ltd. Information display device, information display program and information display system
JP5295605B2 (ja) * 2008-03-27 2013-09-18 株式会社東芝 検索キーワード改良装置、サーバ装置、および方法
US9886760B2 (en) * 2015-03-05 2018-02-06 Broncus Medical Inc. GPU-based system for performing 2D-3D deformable registration of a body organ using multiple 2D fluoroscopic views
JP6613620B2 (ja) * 2015-05-20 2019-12-04 富士電機株式会社 対策事例情報登録・検索装置、キーワード決定方法
US10630639B2 (en) * 2017-08-28 2020-04-21 Go Daddy Operating Company, LLC Suggesting a domain name from digital image metadata
JP6760244B2 (ja) * 2017-10-31 2020-09-23 京セラドキュメントソリューションズ株式会社 文書管理システム及び文書管理サーバー

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292262A1 (en) * 2015-04-02 2016-10-06 Canon Information And Imaging Solutions, Inc. System and method for extracting data from a non-structured document
JP2018128996A (ja) * 2017-02-10 2018-08-16 キヤノン株式会社 情報処理装置、制御方法、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064209A (ja) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
CN111444751A (zh) 2020-07-24
JP7302175B2 (ja) 2023-07-04
US20200236243A1 (en) 2020-07-23
US11006015B2 (en) 2021-05-11
CN111444751B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
JP2009238217A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
US9864750B2 (en) Objectification with deep searchability
JP2020140450A (ja) 構造化データ生成方法および構造化データ生成装置
JP7302175B2 (ja) 情報処理装置、及び情報処理プログラム
US20150356120A1 (en) Design management apparatus, design management method, and non-transitory computer readable medium
JP7383882B2 (ja) 情報処理装置、及び情報処理プログラム
JP5159588B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2010039783A (ja) 文書処理装置、文書処理システム、文書処理方法、及び、文書処理プログラム
US11074392B2 (en) Information processing apparatus and non-transitory computer readable medium for switching between an attribute information mode and an image information mode
JP6330488B2 (ja) 情報処理装置、記録システム、及びプログラム
JP2022019445A (ja) 画像処理装置、方法、プログラム
WO2016170690A1 (ja) 入力制御プログラム、入力制御装置、入力制御方法、文字修正プログラム、文字修正装置、及び文字修正方法
US10755034B2 (en) Information processing apparatus
JP5645481B2 (ja) 装置、方法、及びプログラム
JP4999014B2 (ja) 拡大縮小可能フォントをサポートするテキストエディタを用いたオブジェクトの挿入
JP5811435B2 (ja) 表示装置及び表示制御プログラム
JP6657799B2 (ja) 図形処理装置、図形処理方法、および、図形処理プログラム
JP2020099030A (ja) 情報処理装置、及び情報処理方法
JP2013125450A (ja) 外国人氏名正字出力システム及び外国人氏名正字出力方法
WO2021260852A1 (ja) データ処理装置、データ処理方法、および、データ処理プログラム
JP2017204270A (ja) 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム
JP5569367B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2018005367A (ja) 編集支援システム、編集支援装置、データ置換装置及び編集支援方法
JP4566237B2 (ja) 文字コード入力支援システム、文字コード入力支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230605

R150 Certificate of patent or registration of utility model

Ref document number: 7302175

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150