JP2019095848A - 文書処理装置およびプログラム - Google Patents

文書処理装置およびプログラム Download PDF

Info

Publication number
JP2019095848A
JP2019095848A JP2017222147A JP2017222147A JP2019095848A JP 2019095848 A JP2019095848 A JP 2019095848A JP 2017222147 A JP2017222147 A JP 2017222147A JP 2017222147 A JP2017222147 A JP 2017222147A JP 2019095848 A JP2019095848 A JP 2019095848A
Authority
JP
Japan
Prior art keywords
information
character string
attribute information
attribute
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017222147A
Other languages
English (en)
Inventor
芳恵 大平
Yoshie Ohira
芳恵 大平
将之 岩澤
Masayuki Iwazawa
将之 岩澤
慎吾 加藤
Shingo Kato
慎吾 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2017222147A priority Critical patent/JP2019095848A/ja
Priority to US16/179,283 priority patent/US20190155889A1/en
Publication of JP2019095848A publication Critical patent/JP2019095848A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、少ない操作で属性情報の登録を行う。【解決手段】文書処理装置10は、記憶装置19に記憶されている属性情報付与プログラム30を制御部としてのCPU16において実行することにより、文書情報登録部22、判定情報登録部23、領域指定受付部24、属性情報判定部25、修正部26及び表示制御部27等として機能する。表示制御部27は、記憶装置19に格納されたフォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて、領域指定受付部24により受け付けられた領域中の文字列から属性情報の候補を表示するように制御する。【選択図】図3

Description

本発明は、文書処理装置およびプログラムに関する。
特許文献1には、テキスト情報を抽出するテキスト文書抽出部と、テキスト情報に含まれている文字列の係り受け関係を解析する構文解析部と、係り受け関係の内容を示すタグを、当該係り受け関係が示す文字列に割り当て、テキスト情報に埋め込む論理構造埋込部と、タグが割り当てられた文字列に文書名が含まれている場合、文書名を識別するタグを、テキスト情報に対して埋め込む文書タグ埋込部と、文字列の入力を受け付けるユーザ入力受付部と、テキスト情報に埋め込まれたタグに基づいて、入力を受け付けた文字列と係り受け関係を有する文書名を含む文字列が存在するか否かを判断する判断部と、文書名が存在すると判断された場合、文書名で示されたXML文書又は文書データを検索する検索部とを備える文書処理装置が開示されている。
特許文献2には、文書データを取得する文書データ取得部と、文書データから所定の文字列抽出条件に適合する文字列を抽出する文字列抽出部と、文字列抽出部によって抽出された各文字列が有する共通の特徴を抽出し、該共通の特徴をデータ化したフォーマットを生成するフォーマット生成部と、抽出された文字列の一覧表示を行うと共に、フォーマットを表示する表示装置と、フォーマットに対する修正を行うフォーマット修正部とを備えており、文字列抽出部は、フォーマット修正部によって修正されたフォーマットに適合するように文字列の再抽出を行う文書処理装置が開示されている。
特開2009−181166号公報 特開2011−039580号公報
本発明の目的は、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、少ない操作で属性情報の登録を行うことが可能な文書処理装置及びプログラムを提供することである。
[文書処理装置]
請求項1に係る本発明は、電子文書上において、ユーザによる領域の指定を受け付ける受付手段と、属性情報の種類を判定するための情報である判定情報に基づいて、前記受付手段により受け付けられた領域中の文字列から属性情報の候補を表示するように制御する表示制御手段と、を備えた文書処理装置である。
請求項2に係る本発明は、前記判定情報は、属性の種類に対応した書式情報である請求項1記載の文書処理装置である。
請求項3に係る本発明は、前記判定情報は、属性として登録される可能性がある文字列である請求項1記載の文書処理装置である。
請求項4に係る本発明は、前記領域中の文字列を、前記判定情報に基づいて修正する修正手段をさらに備え、前記表示制御手段は、前記修正手段により修正された文字列を、属性情報の候補として表示するように制御する請求項3記載の文書処理装置である。
請求項5に係る本発明は、前記修正手段は、前記領域中の文字列を、前記判定情報として登録されている文字列と同一になるように修正する請求項4記載の文書処理装置である。
請求項6に係る本発明は、前記領域中において、前記判定情報として登録された文字列を複数含む場合は、前記表示制御手段は、前記複数の文字列を、属性情報の候補としてそれぞれ表示するように制御する請求項1から5のいずれか記載の文書処理装置である。
請求項7に係る本発明は、前記表示制御手段は、前記判定情報に基づいて、前記文字列を、前記文字列に対応する複数の種類の入力欄に属性情報の候補としてそれぞれ表示するように制御する請求項6記載の文書処理装置である。
[プログラム]
請求項8に係る本発明は、電子文書上において、ユーザによる領域の指定を受け付けるステップと、属性情報の種類を判定するための情報である判定情報に基づいて、受け付けられた領域中の文字列から属性情報の候補を表示するように制御するステップと、を備えたプログラムである。
請求項1に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、少ない操作で属性情報の登録を行うことが可能な文書処理装置を提供することができる。
請求項2に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、領域中の文字列の書式が異なる場合であっても、少ない操作で属性情報の登録を行うことが可能な文書処理装置を提供することができる。
請求項3に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、使用頻度が高い文字列を用いて、少ない操作で属性情報の登録を行うことが可能な文書処理装置を提供することができる。
請求項4に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、誤入力を防止して、少ない操作で属性情報の登録を行うことが可能な文書処理装置を提供することができる。
請求項5に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、誤入力を防止して、少ない操作で属性情報の登録を行うことが可能な文書処理装置を提供することができる。
請求項6に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、少ない操作で属性情報の登録を行うことが可能な文書処理装置を提供することができる。
請求項7に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、少ない操作で属性情報の登録を行うことが可能な文書処理装置を提供することができる。
請求項8に係る本発明によれば、表示された電子文書において、ユーザが文字列を選択して属性情報として登録する際に、ユーザが文字列を選択して属性情報の種類を判定して登録する場合と比較して、少ない操作で属性情報の登録を行うことが可能なプログラムを提供することができる。
本発明の一実施形態の文書管理システムの構成を示す図である。 本発明の一実施形態における文書処理装置10のハードウェア構成を示すブロック図である。 本発明の一実施形態における文書処理装置10の機能構成を示すブロック図である。 文書処理装置10の表示画面例を示す図である。 文書処理装置10の属性情報を設定登録する際の表示画面例を示す図である。 文書処理装置10の属性情報を設定登録する際の表示画面例を示す図である。 文書処理装置10の属性情報を設定登録する際の表示画面例を示す図である。 文書処理装置10の属性情報を設定登録する際の表示画面例を示す図である。 文書処理装置10の文書データに属性情報を付与する際の設定動作を説明するためのフローチャート図である。 文書処理装置10の文書データに属性情報を付与する動作を説明するためのフローチャート図である。 文書処理装置10の文書データに属性情報を付与する際の表示画面例を示す図である。 文書処理装置10の文書データに属性情報を付与する際の表示画面例を示す図である。 文書処理装置10の文書データに属性情報を付与する際の表示画面例を示す図である。 文書処理装置10の文書データに属性情報を付与する際の表示画面例を示す図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は本発明の一実施形態の文書管理システムのシステム構成を示す図である。
本発明の一実施形態の文書管理システムは、図1に示されるように、ネットワーク1により相互に接続されたパーソナルコンピュータ等の文書処理装置10〜12、およびサーバ装置14により構成される。
文書処理装置10〜12には、属性情報付与ソフトウェアがインストールされており、この属性情報付与ソフトウェアにより属性情報付与プログラムを実行して電子文書である文書データに属性情報を付与することにより、複数の文書データを仕分けることが可能となっている。
また、文書処理装置10〜12には、属性情報を付与して生成された文書データや、これらの文書データを格納したファイルを互いに送受信したり、閲覧、修正することが可能になっている。
また、サーバ装置14は、文書処理装置10〜12とネットワーク1を介して接続されており、文書処理装置10〜12により属性情報を付与して生成された文書データや、これらの文書データを格納したファイルを格納することができるようになっている。そして、文書処理装置10〜12は、サーバ装置14に格納されている属性情報を付与して生成された文書データや、これらの文書データを格納したファイルを読み出すことができるようになっていることにより、文書処理装置10〜12は、サーバ装置14を介しての文書データやファイルの受け渡しが可能となる。
次に、本実施形態の文書管理システムにおける文書処理装置10のハードウェア構成を図2に示す。なお、文書処理装置11、12の構成は、文書処理装置10の構成と同じであるためその説明は省略する。
文書処理装置10は、図2に示されるように、CPU16、メモリ17、ネットワーク1を介して外部の装置等との間でデータの送信及び受信を行う通信インタフェース(IF)18、ハードディスクドライブ(HDD)等の記憶装置19、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置20を有する。これらの構成要素は、制御バス21を介して互いに接続されている。
CPU16は、メモリ17または記憶装置19に格納された属性情報付与プログラムに基づいて所定の処理を実行して、文書処理装置10の動作を制御する。なお、本実施形態では、CPU16は、メモリ17または記憶装置19内に格納された属性情報付与プログラムを読み出して実行するものとして説明したが、当該プログラムをCD−ROM等の記憶媒体に格納してCPU16に提供することも可能である。
図3は、上記の属性情報付与プログラムが実行されることにより実現される文書処理装置10の機能構成を示すブロック図である。
文書処理装置10は、記憶装置19に記憶されている属性情報付与プログラム30を制御部としてのCPU16において実行することにより、文書情報登録部22、判定情報登録部23、領域指定受付部24、属性情報判定部25、修正部26及び表示制御部27等として機能する。
また、記憶装置19は、属性情報付与プログラム30、文書情報31、フォーマット登録情報33及び固有名詞登録情報34等を格納する。
属性情報付与プログラム30は、CPU16を文書情報登録部22、判定情報登録部23、領域指定受付部24、属性情報判定部25、修正部26及び表示制御部27等として動作させるプログラムである。
文書情報31は、例えばテキスト情報、画像情報、動画情報等の情報であって、属性情報を付与して生成された文書情報を含む。
フォーマット登録情報33及び固有名詞登録情報34は、属性情報の種類を判定するための情報である判定情報として用いられる。フォーマット登録情報33及び固有名詞登録情報34は、予め記憶装置19に登録される。
フォーマット登録情報33は、属性の種類(属性名)に対応した書式情報であって、どの種類の属性情報なのかを判定するためのフォーマットを登録する。例えば、属性名「日付」に対して「○○年○月○日」、「○○/○/○」等の書式情報が登録される。また、属性名「取引先名称」に対して「○○株式会社」、「○○Co,Ltd」、「○○(株)」、「(株)○○」等の書式情報が登録される。また、属性名「金額」に対して「××円」、「¥××」、「××$」等の書式情報が登録される。
固有名詞登録情報34は、属性として登録される可能性がある文字列や、属性情報として使用頻度の高い文字列等であって、例えば「ABC株式会社」、「DEF Co,Ltd」等の固有名詞が登録される。
文書情報登録部22は、登録要求に応じて記憶装置19の文書情報31に新たな文書情報を登録する。
判定情報登録部23は、登録要求に応じて記憶装置19に新たな判定情報を登録する。具体的には、判定情報登録部23は、属性の種類に関連付けて新たな書式情報を登録し、フォーマット登録情報33に格納する。また、判定情報登録部23は、新たな属性の種類を登録し、フォーマット登録情報33に格納する。また、判定情報登録部23は、属性として登録される可能性がある文字列や、属性情報として使用頻度の高い文字列等の新たな文字列を登録し、固有名詞登録情報34に格納する。
領域指定受付部24は、文書データのビュー画面上において、ユーザによる領域の指定を受け付ける。
属性情報判定部25は、領域指定受付部24により指定された領域中の文字列を、記憶装置19に格納されたフォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて抽出する。
修正部26は、領域指定受付部24により指定された領域中の文字列を、記憶装置19に格納されたフォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて修正する。つまり、領域指定受付部24により指定された領域が適切な領域でなかった場合や誤記があった場合に、フォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて修正する。例えば、修正部26は、指定された領域中の文字列を固有名詞登録情報34として登録されている文字列と同一になるように修正する。また、修正部26は、固有名詞登録情報34と比較して、領域指定受付部24により指定された領域中に、余分な文字列が含まれていた場合に、その余分な文字列を削除する。
表示制御部27は、記憶装置19に格納されたフォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて、領域指定受付部24により受け付けられた領域中の文字列から抽出された文字列を属性情報の候補として表示するように制御する。つまり、フォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて、領域中の文字列から抽出された文字列を、その文字列に対応する属性の種類である属性名の設定画面の入力欄に自動で入力し、属性情報の候補として表示するように制御する。
また、表示制御部27は、領域指定受付部24により受け付けられた領域中において、記憶装置19に格納されたフォーマット登録情報33及び固有名詞登録情報34等の判定情報を複数含む場合は、これらの判定情報に対応する文字列をそれぞれ抽出し、属性情報の候補としてそれぞれ表示するように制御する。つまり、フォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて、領域中の文字列から抽出された文字列を、それぞれの文字列に対応する属性の種類である属性名の設定画面の入力欄に自動で入力し、属性情報の候補としてそれぞれ表示するように制御する。
また、表示制御部27は、修正部26により修正された文字列を、属性情報の候補として表示するように制御する。
次に、属性情報付与ソフトウェアを起動してファイルを展開した際の表示画面例について図4に基づいて詳述する。
属性情報付与ソフトウェアの起動により、表示画面には、文書データに対して属性情報を付与するための画面が表示される。具体的には、属性情報付与プログラムが実行されることにより、表示画面には、文書データに対して実行するための各種機能がツールバー40上にツールとして表示される。さらに、文書データのビュー画面41や、属性情報を付与するための設定画面42等が表示される。
文書処理装置10では、予め登録されたフォーマット登録情報33及び固有名詞登録情報34等の判定情報を用いることにより、ユーザの操作により、属性情報として付与したい文字列を、ビュー画面41に表示された文書データの中からテキスト選択モードを用いて領域指定するだけで、設定画面42の入力欄43に自動で入力されて属性情報の候補として表示することができる。
次に、判定情報登録部23により、記憶装置19のフォーマット登録情報33及び固有名詞登録情報34等に新たな判定情報を設定登録する動作について、図5〜図8に基づいて説明する。
まず、図5に示されているような表示画面において、ツールバー40の「環境設定」ボタン44にカーソル45を合わせてクリックされると、図6に示されているような環境設定画面が表示される。そして、環境設定画面において「適切な属性値を選択する」のチェックボックス46にチェックマークが入力されて「OK」ボタン47がクリックされると、フォーマット登録情報33及び固有名詞登録情報34等の判定情報を用いた動作が可能となる。そして、属性名登録タブ48がクリックされると、図7及び図8に示されるような属性名登録画面が表示される。
ユーザは、図7及び図8に示されるような属性名登録画面において、判定情報を登録することができる。つまり、属性の種類に関連付けて新たな書式情報を登録し、フォーマット登録情報33に格納することができる。また、新たな属性の種類を登録し、フォーマット登録情報33に格納することができる。また、属性として登録される可能性がある文字列や、属性情報として使用頻度の高い文字列等の固有名詞を登録し、固有名詞登録情報34に格納することができる。
具体的には、ユーザは、図7に示されているような表示画面において、例えば属性名「取引先名称」に対して「○○株式会社」、「○○Co,Ltd」、「○○(株)」、「(株)○○」等の書式情報をそれぞれ入力欄49に入力して登録ボタン50をクリックすることにより「取引先名称」に対応する書式情報として登録することができる。つまり、これらの書式情報をフォーマット登録情報33として登録しておくことにより、例えば抽出された文字列に「(株)」が含まれていた場合には、属性名「取引先名称」の入力欄43に属性情報の候補として入力することができる。
また、ユーザは、図7及び図8に示されているような表示画面において、例えば「ABC株式会社」、「DEF Co,Ltd」等の属性として登録される可能性がある固有名詞や、属性情報として使用頻度の高い固有名詞を入力欄51に入力して登録ボタン52をクリックすることにより、「ABC株式会社」、「DEF Co,Ltd」等の固有名詞を登録することができる。なお、固有名詞登録情報34は、領域指定した文字列に余分な文字が入力されている等、抽出された文字列に過不足等の誤記がある場合に修正して属性情報の候補として入力するために用いられる。また、固有名詞登録画面53において、下位に表示される固有名詞に比べて上位に表示される固有名詞の方が属性情報として使用する優先度が高いことを意味する。
また、ユーザは、図8に示されているような表示画面において、プルダウンマーク54をクリックすることにより、新たな属性の種類(属性名)である例えば「日付」、「金額」、「品名」等の属性の種類を追加登録したり、その追加登録された属性の種類に対してそれぞれ書式情報を登録することができる。
次に、文書データに属性を付与する際の文書処理装置10における設定動作について、上述した図5、図6及び図9に基づいて説明する。
まず、上述した図5に示されているような表示画面において、「環境設定」ボタン44がクリックされることにより環境設定ボタンを受付けて(ステップS10)、図6に示されているような環境設定画面を表示する。そして、環境設定画面において「適切な属性値を選択する」のチェックボックス46がオンか否かが判定される(ステップS11)。そして、「適切な属性値を選択する」のチェックボックス46がオンでない状態で「OK」ボタン47がクリックされると(ステップS11においてNo)、処理を終了し、フォーマット登録情報33及び固有名詞登録情報34等の判定情報を用いないで属性情報をユーザが手動入力する手動入力モードとなる。
そして、環境設定画面において「適切な属性値を選択する」のチェックボックス46がオンの状態で「OK」ボタン47がクリックされると(ステップS11においてYes)、フォーマット登録情報33又は固有名詞登録情報34等の判定情報が登録されているか否かが判定される(ステップS12)。判定情報が登録されていないと判定された場合には(ステップS12においてNo)、処理を終了し、手動入力モードとなる。
また、判定情報が登録されていると判定された場合には(ステップS12においてYes)、記憶装置19から固有名詞登録情報34が読み込まれ(ステップS13)、さらにフォーマット登録情報33が読み込まれて(ステップS14)、フォーマット登録情報33及び固有名詞登録情報34等の判定情報を用いて属性情報の候補を自動入力する自動入力モードとなる。
次に、文書処理装置10の文書データに属性情報を付与する動作について、図10〜図13に基づいて詳述する。
まず、ユーザによりテキスト選択モードが実行され(ステップS100)、領域指定受付部24により属性情報として使用したい文字列を含む領域61の指定を受け付ける(ステップS101)。具体的には、ユーザが、例えば図11に示されるテキスト選択ボタン60にカーソル45を合わせてクリックすることにより、テキストを選択可能なテキスト選択モードが実行される。そして、ユーザが、図12に示されるように、ビュー画面41に表示された文書データに対して属性情報として付与したい例えば「ABC株式会社」を含む領域61をカーソル45によりドラッグして範囲を指定する。
そして、指定された領域61から文字列を抽出する(ステップS102)。そして、抽出された文字列がフォーマット登録情報33であるか否かが判定される(ステップS103)。例えば「(株)」や「Co,Ltd」等の文字列が含まれているか否か、123等のアラビア数字や一二三等の漢数字等の文字列が含まれているか否かが判定される。具体的には、指定された領域61から「ABC株式会社」が抽出されると、この抽出された文字列がフォーマット登録情報33であるか否かが判定される。
そして、フォーマット登録情報33であると判定された場合には(ステップS103においてYes)、そのフォーマット登録情報33に基づいて属性情報を特定する(ステップS104)。具体的には、抽出された「ABC株式会社」がフォーマット登録情報33であると判定されると、「ABC株式会社」の書式情報「株式会社」に対応する属性名「取引先名称」が特定される。
そして、フォーマット登録情報33に基づいて属性情報が特定された場合や(ステップS104)、抽出された文字列がフォーマット登録情報33でないと判定された場合に(ステップS103においてNo)、抽出された文字列が予め登録された固有名詞登録情報34であるか否かが判定される(ステップS105)。
そして、抽出された文字列が予め登録された固有名詞登録情報34であると判定された場合には(ステップS105においてYes)、抽出された文字列と固有名詞登録情報34とを比較して修正が必要か否かが判定される(ステップS106)。例えば、抽出された文字列に余分な文字列が含まれているか、抽出された文字列に過不足があるか等が判定される。
そして、抽出された文字列に修正が必要であると判定された場合(ステップS106においてYes)には、抽出された文字列を固有名詞登録情報34に基づいて修正する(ステップS107)。つまり、抽出された文字列を固有名詞登録情報34として登録された文字列と同一になるように修正する。具体的には、例えば、領域を指定されて抽出された文字列が「、ABC株式会社」である場合には、読点「、」を削除して、固有名詞登録情報34として登録されている「ABC株式会社」と同一になるように修正する。
そして、抽出された文字列に修正が必要でないと判定された場合や(ステップS106においてNo)、抽出された文字列が固有名詞登録情報34に基づいて修正された場合(ステップS107)や、抽出された文字列が固有名詞登録情報34でないと判定された場合(ステップS105においてNo)には、候補として表示される属性情報が特定されているか否かが判定される(ステップS108)。
そして、属性情報が特定されていると判定された場合には(ステップS108においてYes)、属性情報の設定画面42の入力欄43に属性情報として特定された文字列が自動入力されて表示される(ステップS109)。具体的には、指定された領域61から抽出された「ABC株式会社」から判定情報に基づいて属性の種類である「取引先名称」が特定され、図13に示されるように、属性情報の設定画面42の属性名「取引先名称」の入力欄43に「ABC株式会社」が自動入力されて属性情報の候補として表示される。
また、属性情報が特定されていないと判定された場合には(ステップS108においてNo)、属性情報の設定画面42の入力欄43にユーザの操作により手動入力することにより表示される(ステップS110)。
次に、本発明の他の実施形態について、図14に基づいて説明する。
本実施形態では、文書データのビュー画面41上の指定された領域71に複数の文字列が存在する場合について説明する。
まず、テキスト選択モードが実行され、図14に示されるように、ビュー画面41に表示された文書データに対して属性情報として付与したい例えば領域71をカーソルによりドラッグして範囲が指定されると、指定された領域71から全ての文字列が抽出される。
具体的には、スペースから句読点等の文章の区切りまでを、複数の文字列を含む一文に該当する文字列の領域として認識し、固有名詞や助詞等の品詞に分解する。この場合に分かち書きをしない言語であっても認識可能であり、スペース等の認識も可能である。つまり、指定された領域71から「2017年7月16日」、「DEF Co.,Ltd」、「ABC株式会社」等の複数の文字列が抽出される。
そして、品詞ごとに分解された複数の文字列を取得し、記憶装置19に記憶されたフォーマット登録情報33に基づいて、抽出された文字列がそれぞれフォーマット登録情報33であるか否かが判定される。
そして、抽出された「2017年7月16日」、「DEF Co.,Ltd」、「ABC株式会社」がそれぞれフォーマット登録情報33であると判定されると、「2017年7月16日」の書式情報に対応する属性名「日付」が属性情報として特定され、「ABC株式会社」、「DEF Co.,Ltd」の書式情報に対応する属性名「取引先名称」が属性情報として特定される。
そして、抽出された「2017年7月16日」、「DEF Co.,Ltd」、「ABC株式会社」がそれぞれ予め登録された固有名詞登録情報34であるか否かが判定される。そして、固有名詞登録情報34であって、固有名詞登録情報34と比較して修正が必要である場合には、抽出された文字列は固有名詞登録情報34に基づいて修正される。
そして、属性情報が特定されているか否かが判定され、属性情報が特定されていると判定された場合には、属性情報の設定画面42の入力欄43に属性情報として特定された文字列が自動入力されて表示される。具体的には、指定された領域71から抽出された「2017年7月16日」、「DEF Co.,Ltd」、「ABC株式会社」等からフォーマット登録情報33及び固有名詞登録情報34等の判定情報に基づいて属性情報が特定され、図14に示されるように、属性情報の設定画面42の属性名「日付」の入力欄43に「2017/7/16」が自動入力されて属性情報の候補として表示される。また、属性名「取引先名称」の入力欄43に「DEF Co.,Ltd」、「ABC株式会社」が自動入力されて属性情報の候補として表示される。
そして、ユーザは、属性情報の候補として表示されている画面をみて、必要に応じて手動入力、修正して登録することにより文書データに対して属性情報を付与することができる。
なお、上記実施形態では、属性情報の設定画面42をUI装置20に表示して処理を実行する構成について詳述したが、これに限らず、例えば文書データを選択して例えばマウスで右クリックして実行バーを表示させる等により実行画面を表示して処理を実行するようにしてもよい。
また、上記実施形態では、フォーマット登録情報33及び固有名詞登録情報34等の判定情報を用いて文書データに属性情報を付与する前に、予め環境設定画面において、判定情報として用いる書式情報や文字列をフォーマット登録情報33や固有名詞登録情報34に登録しておく構成について詳述したが、これに限らず、属性情報を付与する設定画面42において、指定された領域から抽出された文字列をフォーマット登録情報33や固有名詞登録情報34に登録するか否かを問う画面を表示して登録するようにしてもよい。
[変形例]
上記実施形態では、属性情報付与ソフトに対して本発明を適用した場合を用いて説明したが、本発明はこれに限定されるものではなく、文書データ等に対して編集操作を行う構成を有するソフトウェアであれば同様に本発明を適用することができるものである。
例えば、パーソナルコンピュータ上で文書データを編集するようなソフトウェアだけでなく、スマートフォン、タブレット端末装置等の携帯情報端末装置等において文書データの編集操作を行うようなソフトウェアに対しても本発明は同様に適用可能である。
また、実施形態において、情報処理装置によって実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD、FD(Flexible Disk))など)、光記録媒体(光ディスク(CD(Compact Disk)、DVD(Digital Versatile Disk))など)、光磁気記録媒体、半導体メモリ(フラッシュROMなど)などのコンピュータが読み取り可能な記録媒体に記憶した状態で提供されてもよい。また、これらのプログラムは、インターネットなどのネットワーク経由でダウンロードされてもよい。
1 ネットワーク
10、11、12 文書処理装置
14 サーバ装置
16 CPU
17 メモリ
18 通信インタフェース(IF)
19 記憶装置
20 ユーザインタフェース(UI)装置
23 判定情報登録部
24 領域指定受付部
26 修正部
27 表示制御部
30 属性情報付与プログラム
33 フォーマット登録情報
34 固有名詞登録情報

Claims (8)

  1. 電子文書上において、ユーザによる領域の指定を受け付ける受付手段と、
    属性情報の種類を判定するための情報である判定情報に基づいて、前記受付手段により受け付けられた領域中の文字列から属性情報の候補を表示するように制御する表示制御手段と、
    を備えた文書処理装置。
  2. 前記判定情報は、属性の種類に対応した書式情報である請求項1記載の文書処理装置。
  3. 前記判定情報は、属性として登録される可能性がある文字列である請求項1記載の文書処理装置。
  4. 前記領域中の文字列を、前記判定情報に基づいて修正する修正手段をさらに備え、
    前記表示制御手段は、前記修正手段により修正された文字列を、属性情報の候補として表示するように制御する請求項3記載の文書処理装置。
  5. 前記修正手段は、前記領域中の文字列を、前記判定情報として登録されている文字列と同一になるように修正する請求項4記載の文書処理装置。
  6. 前記領域中において、前記判定情報として登録された文字列を複数含む場合は、前記表示制御手段は、前記複数の文字列を、属性情報の候補としてそれぞれ表示するように制御する請求項1から5のいずれか記載の文書処理装置。
  7. 前記表示制御手段は、前記判定情報に基づいて、前記文字列を、前記文字列に対応する複数の種類の入力欄に属性情報の候補としてそれぞれ表示するように制御する請求項6記載の文書処理装置。
  8. 電子文書上において、ユーザによる領域の指定を受け付けるステップと、
    属性情報の種類を判定するための情報である判定情報に基づいて、受け付けられた領域中の文字列から属性情報の候補を表示するように制御するステップと、
    を備えたプログラム。
JP2017222147A 2017-11-17 2017-11-17 文書処理装置およびプログラム Pending JP2019095848A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017222147A JP2019095848A (ja) 2017-11-17 2017-11-17 文書処理装置およびプログラム
US16/179,283 US20190155889A1 (en) 2017-11-17 2018-11-02 Document processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017222147A JP2019095848A (ja) 2017-11-17 2017-11-17 文書処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2019095848A true JP2019095848A (ja) 2019-06-20

Family

ID=66533067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017222147A Pending JP2019095848A (ja) 2017-11-17 2017-11-17 文書処理装置およびプログラム

Country Status (2)

Country Link
US (1) US20190155889A1 (ja)
JP (1) JP2019095848A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962794A (ja) * 1995-08-24 1997-03-07 Fujitsu Ltd 文書認識装置
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置
JP2008250385A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JPWO2014006715A1 (ja) * 2012-07-05 2016-06-02 富士通株式会社 入力支援方法、情報処理システムおよびプログラム
JP2016200899A (ja) * 2015-04-08 2016-12-01 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962794A (ja) * 1995-08-24 1997-03-07 Fujitsu Ltd 文書認識装置
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置
JP2008250385A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 情報検索装置、情報検索方法及び情報検索プログラム
JPWO2014006715A1 (ja) * 2012-07-05 2016-06-02 富士通株式会社 入力支援方法、情報処理システムおよびプログラム
JP2016200899A (ja) * 2015-04-08 2016-12-01 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US20190155889A1 (en) 2019-05-23

Similar Documents

Publication Publication Date Title
JP6487282B2 (ja) ワークフロー管理システムにおいて実行するためのアプリケーションを開発する方法、及びワークフロー管理システムにおいて実行するためのアプリケーションの生成を支援する装置
JP5465171B2 (ja) 文書を解析するためのシステムおよび方法
CN108762743B (zh) 一种数据表操作代码生成方法及装置
US8327333B2 (en) Apparatus, method, and system of assisting software development
JP2007094818A (ja) 複数データの一括コピー及びペースト方法、装置、およびコンピュータ・プログラム
JP2004500645A (ja) ビジュアルデータ形式の記憶と検索
JP2006107442A (ja) 電子ドキュメント内で特定のタイプのコンテンツを管理するための方法、装置、およびコンピュータ可読媒体
US7096421B2 (en) System and method for comparing hashed XML files
KR20080041234A (ko) 데이터베이스 애플리케이션에 선택 가능 기능 컨트롤을디스플레이하기 위한 명령 사용자 인터페이스
JP6514084B2 (ja) 操作支援システム、操作支援方法、および、操作支援プログラム
US11521406B2 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium storing program
US20150095356A1 (en) Automatic keyword tracking and association
US9141867B1 (en) Determining word segment boundaries
JP2016045545A (ja) 影響調査システム、影響調査方法、および影響調査プログラム
JP6003263B2 (ja) 議事録作成支援装置、議事録作成支援システム、議事録作成支援方法、及びプログラム
US20060143605A1 (en) Method and system for installing multi-language program
US20040064788A1 (en) System and method for generating source code for an XML application
US20150186363A1 (en) Search-Powered Language Usage Checks
JP2019095848A (ja) 文書処理装置およびプログラム
JP5550959B2 (ja) 文書処理システム、及びプログラム
JP7092992B2 (ja) 文書管理プログラム、文書管理装置および文書管理方法
US20190012400A1 (en) Information processing apparatus and non-transitory computer readable medium
JP6939473B2 (ja) 文書処理装置及びプログラム
US20240169142A1 (en) Meeting information management system, meeting information management method, recording medium storing meeting information management program
US20230367471A1 (en) System and Method for Specifying Properties for a Protocol-Compliant Uniform Resource Locator

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200831

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20201102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210820

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211221