JP2023141170A

JP2023141170A - 画像処理装置、その制御方法、プログラム、及び画像処理システム

Info

Publication number: JP2023141170A
Application number: JP2022047350A
Authority: JP
Inventors: 優一八木; Yuichi Yagi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-10-05

Abstract

【課題】本発明は、例えば文書分類のためのキーワードのユーザによる登録を簡略化し、処理対象の文書を好適に分類する仕組みを提供する。【解決手段】本画像処理装置は、学習フェーズにおいて、原稿を読み取って出力される電子データを取得し、電子データから特徴量を抽出し、複数の電子データごとに抽出された特徴量を用いて、複数の電子データを複数のクラスタに分類する。さらに、本画像処理装置は、分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成し、クラスタごとに、出現頻度表を用いて特定名称を登録する。また、本画像処理装置は、推定フェーズにおいて、所定の原稿からの電子データについて、特徴量を抽出し、生成された出現頻度表と抽出した特徴量を用いて、当該電子データとクラスタごとの類似度を示すスコアを取得する。さらに、本画像処理装置は、取得されたスコアに基づいて、所定の原稿からの電子データに対する特定名称を決定する。【選択図】図４

Description

本発明は、画像処理装置、その制御方法、プログラム、及び画像処理システムに関するものである。

ＯＣＲが搭載された画像処理装置などでは、文書原稿を読み取るだけで文字データを含む電子データを生成して出力することができる。生成された電子データは、一旦文書にされた原稿を引用したり修正したりして新たな文書を作成するのに非常に有用である。

このようにＯＣＲ機能で生成された電子データは、記憶部に記憶されたり、他の機器へ転送される。したがって、ユーザの利便性を高めるためには、電子データにはファイル名を付与したり、転送先のフォルダ名に付与したりする必要がある。しかし、ユーザが画像処理装置の操作部等からファイル名を入力したり、指定したりする作業は煩雑である。

特許文献１は、文書から読み取られた文字データに予め設定されたキーワードが含まれる場合、そのキーワードに対応した文書種類を判別し、該当する文書種類に関する特定名称をその電子データのファイル名として自動で付与することを提案している。これにより、ファイル名を付与する際の作業を簡素化している。

特開２００８－２９９７７８号公報

しかしながら、上記従来技術には以下に記載する課題がある。上記従来技術では、キーワードとそれに対応する特定名称を予め設定しておく必要があり、ユーザが扱う文書種類の全てに対して設定するため、大変な労力が必要になる。また、ユーザは扱うキーワードを把握しておく必要があり、キーワードの入力漏れがあると分類ができないといった問題も生じうる。

本発明は、上述の課題の少なくとも一つに鑑みて成されたものであり、文書分類のためのキーワードのユーザによる登録を簡略化し、処理対象の文書を好適に分類する仕組みを提供する。

本発明は、例えば、画像処理装置であって、原稿を読み取って出力される電子データを取得する第１取得手段と、前記電子データから特徴量を抽出する抽出手段と、複数の電子データごとに抽出された前記特徴量を用いて、該複数の電子データを複数のクラスタに分類する分類手段と、前記分類手段によって分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成する生成手段と、前記クラスタごとに、前記出現頻度表を用いて特定名称を登録する登録手段とを備えることを特徴とする。

また、本発明は、例えば、画像処理システムであって、原稿を読み取って電子データを出力する読取手段と、前記電子データから特徴量を抽出する抽出手段と、複数の電子データごとに抽出された前記特徴量を用いて、該複数の電子データを複数のクラスタに分類する分類手段と、前記分類手段によって分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成する生成手段と、前記クラスタごとに、前記出現頻度表を用いて特定名称を登録する登録手段とを備えることを特徴とする。

本発明によれば、文書分類のためのキーワードのユーザによる登録を簡略化し、処理対象の文書を好適に分類することができる。

一実施形態に係るシステムの構成例を示す図。一実施形態に係る画像処理装置のハードウェア構成例を示す図。一実施形態に係る機械学習サーバのハードウェア構成例を示す図。一実施形態に係るシステムの機能構成例を示す図。一実施形態に係るクラスタの生成処理（学習フェーズ）の一例を示すフローチャート。一実施形態に係る電子データごとに単語と出現数を表した単語出現頻度表の一例を示す図。一実施形態に係るクラスタ識別ＩＤと分類した電子データを対応付けたクラスタリング結果の一例を示す図。一実施形態に係るクラスタ毎の単語出現頻度表の一例を示す図。一実施形態に係る特定名称登録画面の一例を示す図。一実施形態に係る特定名称付与情報の一例を示す図。一実施形態に係る文書分類処理（推定フェーズ）の一例を示すフローチャート。一実施形態に係る特定名称選択画面の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜システムの構成＞
以下では、本発明の一実施形態について図面を用いて説明する。まず、図１を参照して、本実施形態に係るシステムの全体構成について説明する。

本システムは、画像処理装置１０１、機械学習サーバ１０２、汎用コンピュータ１０３、及びデータサーバ１０５を含んで構成される。これらの機器は、有線ＬＡＮ等のＬＡＮ１０４介して接続され、相互にデータを送受することができる。画像処理装置１０１は、プリンタ、複合機、ＦＡＸ、及びスキャナなどの画像処理機能を有する装置である。本実施形態では、画像処理装置としてＭＦＰ（multifunction peripheral）を例に説明する。汎用コンピュータ１０３は、画像処理装置１０１に対してプリントデータの送信等を行う。データサーバ１０５は、機械学習サーバ１０２において機械学習を行うために使用される学習データを外部機器から収集して機械学習サーバ１０２へ提供する。機械学習サーバ１０２は、外部から提供される、文書原稿等から読み取られた画像データから特徴を抽出し、文書を分類するためのクラスタリングを行う。なお、これらの装置の種類や数は一例であり、本発明を限定する意図はない。例えば、複数の装置が一体化して設けられてもよいし、より多くの装置に機能分散することにより実現されてもよい。より具体的には、画像処理装置１０１が機械学習サーバ１０２及びデータサーバ１０５の少なくとも１つの機能を有して構成されてもよい。或いは、機械学習サーバ１０２が画像処理装置１０１の読取機能以外の機能及びデータサーバ１０５の機能のうち少なくとも１つの機能を有して構成されてもよい。

＜画像処理装置の構成＞
次に、図２を参照して、本実施形態に係る画像処理装置１０１のハードウェア構成について説明する。画像処理装置１０１は、スキャナ１０、プリンタ２０、操作部１４０、及びコントローラ１２００を備える。コントローラ１２００は、ＣＰＵ１２０１、ＲＡＭ１２０２、ＲＯＭ１２０３、ＨＤＤ１２０４、画像バスＩ／Ｆ１２０５、操作部Ｉ／Ｆ１２０６、及びスキャナ・プリンタ通信Ｉ／Ｆ１２０８備える。また、コントローラ１２００は、ＬＡＮＩ／Ｆ１２１０、及びモデム１２１１、無線通信Ｉ／Ｆ１２７０、及びＧＰＵ１２９１を備える。これらのコンポーネントはシステムバス１２０７を介して相互にデータを送受することができる。また、コントローラ１２００は、デバイスＩ／Ｆ１２２０、画像回転部１２３０、画像圧縮部１２４０、ＲＩＰ１２６０、スキャナ画像処理部１２８０を備える。これらのコンポーネントと画像バスＩ／Ｆ１２０５とは、画像バス２００８を介して相互に画像データを高速に転送することができる。

操作部１４０は、画像処理装置１０１を使用するユーザが各種の操作を行うためのユーザインタフェースである。スキャナ１０は、操作部１４０からの指示に従って原稿から画像情報を読み取る。スキャナ１０は、スキャナ１０を制御するＣＰＵや原稿読取を行うための不図示の照明ランプや走査ミラーなどを有する。プリンタ２０は画像データに基づいて用紙へ印刷を実行する。プリンタ２０は、プリンタ部の制御を行うＣＰＵや画像形成や定着を行うための不図示の感光体ドラムや定着器を有する。

コントローラ１２００は、操作部１４０、スキャナ１０、及びプリンタ２０を制御するとともに、ＬＡＮ１０４、公衆回線（ＷＡＮ）３００１、及び無線ＬＡＮ１０６を介した外部装置との情報の送受を制御する。ＣＰＵ１２０１は画像処理装置１０１を統括的に制御する。ＲＡＭ１２０２は、ＣＰＵ１２０１が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ１２０３は、ＣＰＵ１２０１が実行するブートプログラムが格納されている。ハードディスクドライブ（ＨＤＤ）１２０４は、システムソフトウェア、画像データ、及びソフトウェアカウンタ値などを格納する。コントローラ１２００は、印刷やコピージョブ実行時の、ユーザ名や印刷部数、カラー印刷等、出力属性情報等をジョブ実行時の履歴をジョブログ情報としてＨＤＤ１２０４あるいはＲＡＭ１２０２に記録管理している。

ＧＰＵ１２９１はデータをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはＧＰＵ１２９１で処理を行うことが有効である。本実施形態では、画像処理装置１０１による処理はＣＰＵ１２０１に加えてＧＰＵ１２９１を用いる。画像処理装置１０１の処理はＣＰＵ１２０１又はＧＰＵ１２９１のみにより演算が行われてもよい。

また、コントローラ１２００は、操作部Ｉ／Ｆ１２０６を介して、画像データを操作部１４０に対して出力する。また操作部Ｉ／Ｆ１２０６は操作部１４０から本画像処理装置を使用するユーザが入力した情報をＣＰＵ１２０１に伝える役割を有する。ＬＡＮＩ／Ｆ１２１０は、ＬＡＮ１０４に接続され、汎用コンピュータ１０３やＬＡＮ１０４上の不図示の外部装置や外部端末との通信（送受信）を制御する。モデム１２１１は、公衆回線３００１に接続され、不図示の外部のファクシミリ装置とのデータの通信（送受信）を行う。無線通信Ｉ／Ｆ１２７０は、無線１０６により外部の端末と接続する。また、スキャナ１０及びプリンタ２０と夫々通信を行う内部通信Ｉ／Ｆ１２０８と、これらを互いに接続するシステムバス１２０７とを備える。

ＩｍａｇｅＢｕｓＩ／Ｆ１２０５は、システムバス１２０７及び画像バス１２１２を接続しデータ構造を変換するバスブリッジとして機能する。ラスタイメージプロセッサ（ＲＩＰ）１２６０は、ＬＡＮ１０４を介してＬＡＮ上の汎用コンピュータ１０３から受信した印刷ジョブに含まれるＰＤＬコードを、ビットマップイメージに展開する。スキャナ画像処理部１２８０は、スキャナ１０から入力された画像データに対して、補正、加工、編集を行う。プリンタ画像処理部１２９０は、プリンタ２０で出力（印刷）される画像データに対して補正、解像度変換等を行う。画像回転部１２３０は画像データの回転を行う。画像圧縮部１２４０は、多値画像データについてはＪＰＥＧ、２値画像データについてはＪＢＩＧ、ＭＭＲ又はＭＨの圧縮伸張処理を実行する。デバイスＩ／Ｆ１２２０は、スキャナ１０及びプリンタ２０とコントローラ１２００を接続して画像データの同期系／非同期系の変換を行う。

＜機械学習サーバ＞
次に、図３を参照して、本実施形態に係る機械学習サーバ１０２の構成例を説明する。機械学習サーバ１０２は、ＣＰＵ１３０１、ＲＡＭ１３０２、ＲＯＭ１３０３、ＨＤＤ１３０４、ネットワーク部１３１０、ＩＯ部１３０５、及びＧＰＵ１３０６を備える。各コンポーネントは、システムバス１２０７を介して相互に接続されデータの送受を行うことができる。

ＣＰＵ１３０１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やアプリケーションソフトなどのプログラムをＨＤＤ１３０４から読み出して実行することで種々の機能を提供する。ＲＡＭ１３０２はＣＰＵ１３０１がプログラムを実行する際のシステムワークメモリである。ＲＯＭ１３０３はＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳを起動するためのプログラムや設定ファイルを記憶している。ＨＤＤ１３０４はハードディスクドライブであって、システムソフトウェアなどが記憶されている。ＧＰＵ１３０６はＧＰＵ１２９１と同様である。本実施形態では、機械学習サーバ１０２による処理にはＣＰＵ１３０１に加えてＧＰＵ１３０６を用いる。機械学習サーバ１０２の処理はＣＰＵ１３０１またはＧＰＵ１３０６のみにより演算が行われてもよい。

ネットワーク部１３１０はＬＡＮ１０４に接続され、画像処理装置１０１などの外部機器と双方向に通信（送受信）を行う。ＩＯ部１３０５はマルチタッチセンサ等を備えた液晶ディスプレイ入出力デバイスとから構成する不図示の操作部との情報を入出力するインタフェースである。操作部にはプログラムが指示する画面情報に基づき所定の解像度や色数等で所定の情報が描画される。例えば、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画面を形成し、操作に必要な各種ウィンドウやデータ等が表示される。＜本システムにおける機能構成＞
次に、図４を参照して、図２のハードウェア構成例で示したハードウェア資源とプログラムを利用することで実現される機能構成４００の一例について説明する。以下で説明する機能構成を実現するためのプログラムは、その構成要素ごとに各装置のストレージに格納されており、ＲＡＭに読み出されてＣＰＵにて実行されるものである。例えば、画像処理装置１０１では、ＨＤＤ１２０４に格納されている制御プログラムがＲＡＭ１２０２に読み出されてＣＰＵ１２０１にて実行されるものである。機械学習サーバ１０２や、データサーバ１０５も同様である。

本実施形態に係るシステムによれば、画像処理装置１０１の読み取った複数の電子データからＯＣＲ機能で文字データを抽出し、文字データを形態素解析（ＭｏｒｐｈｏｌｏｇｉｃａｌＡｎａｌｙｓｉｓ）して単語へ分解する。Ｂａｇ－Ｏｆ－ＷｏｒｄｓやＴｆ－ｉｄｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）、Ｗｏｒｄ２Ｖｅｃなどの手法に分解した単語を入力することによって得られる特徴量をベクトルとして取得する。その後、Ｋ－ｍｅａｎｓ法などの手法を用いてクラスタリングし、クラスタリングによって分類した複数の電子データからクラスタ毎のＢａｇ－Ｏｆ－Ｗｏｒｄｓのような単語出現頻度表を生成する。ここでまでの機能が学習フェーズとなる。推定フェーズの機能として、まず単語出現頻度表を用いて新たに読み取った電子データの文字データと単語出現頻度表から類似度を表すスコアを取得する。その後、スコアに基づき電子データのファイル名称や格納先を決定する。これらの処理を実行する各機能部の機能を以下で詳細に説明する。

（画像処理装置）
画像処理装置１０１は、機能構成として、ＵＩ表示部４０１、データ記憶部４０２、ＪＯＢ制御部４０３、画像読取部４０４、特定名称付与部４０５、及びスコア取得部４０６を含んで構成される。ＵＩ表示部４０１は、操作部Ｉ／Ｆ１２０６を介して操作部１４０に備える画面に対してユーザからの操作設定の受け付けやその操作受付画面を提供する。操作受付画面では特定名称付与部４０５が用いる名称をユーザに入力させることができる。データ記憶部４０２は、ＲＡＭ１２０２やＨＤＤ１２０４に対して、電子データなど、画像処理装置１０１が入出力を行うデータの記録を行う。

ＪＯＢ制御部４０３は、ユーザの指示に基づきコピーやファックス、プリント、スキャン画像送信等の画像処理装置１０１の基本機能の実行や基本機能の実行に伴い他のソフト構成要素間の指示やデータの送受信を中心的に行う。また、ＪＯＢ制御部４０３は、画像読取部４０４から受け取った画像データをＯＣＲで文字データを含む電子データに変換する。なお、画像データのＯＣＲによる変換は、機械学習サーバ１０２やデータサーバ１０５で行ってもよい。画像読取部４０４は、ＪＯＢ制御部４０３の指示に基づきコピーやスキャン機能を実行する制御を行う場合にスキャナ１０により原稿を光学的に読み取る動作を行う。

特定名称付与部４０５は、ＪＯＢ制御部４０３から受け取った電子データに付与する特定名称を決定する。また、特定名称付与部４０５は、後述のクラスタリング解析部４１５によって生成されたクラスタ毎の単語出現頻度表を受け取り、単語出現頻度表に対応した特定名称を登録し、特定名称と単語出現頻度表をクラスタ識別ＩＤに対応付けて管理する。特定名称は、ＵＩ表示部４０３でクラスタ毎にユーザが設定することで登録される。ユーザに設定させる際に、単語出現頻度表の結果をＵＩ表示部４０３に表示させ、ユーザの特定名称の入力を補助する。もちろん予め定めた命名規則によりユーザ入力を必要とすることなく特定名称を決定してもよい。

より詳細には、特定名称付与部４０５は、ＪＯＢ制御部から受け取った電子データとクラスタ識別ＩＤに対応付けたクラスタ毎の単語出現頻度表をスコア取得部４０６に渡し電子データのクラスタ識別ＩＤ毎のスコアを受け取る。そして特定名称付与部４０５は最も高いスコアとなったクラスタ識別ＩＤに対応する特定名称をＪＯＢ制御部に渡す。クラスタごとのスコアに所定値以上の差が出なかった場合は、特定名称付与部４０５はＵＩ表示部４０１に、クラスタ識別ＩＤに紐づいた特定名称とスコア値とを表示し、使用する特定名称をユーザに選択させ、選択された特定名称をＪＯＢ制御部４０３に渡す。なお、特定名称の登録はユーザに行わせるのではなく、特定名称付与部４０５が単語出現頻度表に基づいて決定し登録する構成や、後述のクラスタリング解析部４１５から受け取る構成としてもよい。

スコア取得部４０６は、特定名称付与部４０５から受け取った電子データとクラスタ識別ＩＤに対応付けたクラスタ毎の単語出現頻度表を用いて、電子データに含まれるＯＣＲ機能で抽出された文字データと単語出現頻度表との類似度を表すスコアを取得する。さらに、スコア取得部４０６は、取得したクラスタ識別ＩＤ毎のスコアを特定名称付与部４０５に送る。

（データサーバ）
データサーバ１０５は、データ収集・提供部４１０とデータ記憶部４１２とを含んで構成される。データ収集・提供部４１０は、機械学習サーバ１０２において学習するための学習データの収集と提供を行う。本発明のシステムにおいては画像処理装置１０１において原稿から読み取られた電子データを受信し、機械学習サーバ１０２へ提供する。また、収集先としては、他の画像処理装置や、汎用コンピュータ１０３、他のデータサーバから収集してもよい。即ち、目的の機械学習をさせるために必要なデータの収集が可能な装置であればよい。データ記憶部４１２は、収集した学習データの記録管理を行う。

（機械学習サーバ）
機械学習サーバ１０２は、特徴量抽出部４１３、クラスタリング部４１４、クラスタリング解析部４１５、及びデータ記憶部４１６を含んで構成される。機械学習サーバ１０２は、ＧＰＵ１３０６やＣＰＵ１３０１を使用して以下で説明する各処理を実行する。

特徴量抽出部４１３は、複数の電子データの文字データを形態素解析して単語に分解する。そして、特徴量抽出部４１３は、形態素解析結果をＢａｇ－Ｏｆ－ＷｏｒｄｓやＴｆ－ｉｄｆ、Ｗｏｒｄ２Ｖｅｃなどの手法に入力させることによって得られる特徴量をベクトルとして取得する。特徴量抽出部４１３は、形態素解析して単語に分解した際に、単語の前処理として種々のフィルタリングを行う。例えば、名詞・動詞・形容詞に絞ったり、半角全角をそろえたり、原形に変換したり、３音以上の単語の末尾の長音を除去したり、頻出単語や一般的な単語を除外したり、類語辞書に基づき変換したり等を行う。この処理は、扱う文書の特性に合わせていろいろな処理が考えられるものであり、本発明を上記の処理に限定する意図はない。

クラスタリング部４１４は、特徴量抽出部４１３によって取得された電子データのベクトルに基づき、類似したベクトルを有する電子データを同一のクラスタに分類する。具体的には、クラスタリング部４１４は、Ｋ－ｍｅａｎｓ法やＷａｒｄ法などの手法を用いることで、電子データをクラスタ分けする。クラスタリングに必要なパラメータ、例えばＫ－ｍｅａｎｓ法のクラスタ数などは、電子データを受け取った際に受け取る構成や予めクラスタリング部４１４に設定することができる。さらに、クラスタリング部４１４は、クラスタを識別するためのクラスタ識別ＩＤを各クラスタに付与し、各クラスタと電子データとを紐づけたクラスタリング結果を作成する。

クラスタリング解析部４１５は、特徴量抽出部４１３によって生成された各電子データの形態素解析結果をクラスタ毎に収集し、クラスタ毎の単語出現頻度表を生成する。単語出現頻度表の詳細については後述する。データ記憶部４１６は、データサーバ１０５から受信したデータや生成された学習データを、機械学習サーバ１０２のＲＡＭ１３０２やＨＤＤ１３０４へ一時的に記録する。

＜クラスタの生成（学習フェーズ）＞
次に、図５に示すフローチャートを参照して、本実施形態に係るシステムにおける単語出現頻度表を生成して特定名称を割り当てるクラスタの生成処理について説明する。ここでは、単語出現頻度表の生成と、特定名称の設定とを含む学習フェーズの処理を説明する。また、以下で説明する処理は、説明を容易にするため、画像処理装置１０１、機械学習サーバ１０２、及びデータサーバ１０５における処理が含まれるものとして説明するが、それぞれの処理を実行するプログラムは個別に実行されるプログラムである。また、ここでは、各装置に分散して学習フェーズが行われる例について説明するが、各処理が１つの装置、例えば、画像処理装置１０１、機械学習サーバ１０２、及びデータサーバ１０５が一体として設けられるようにしてもよい。或いは、スキャン機能以外の画像処理装置１０１の機能と、機械学習サーバ１０２、及びデータサーバ１０５が一体として設けられてもよい。この場合は、原稿の読み取りについては画像処理装置１０１で行い、その他の処理が一体化された装置で行われる。

まずＳ５０１で画像処理装置１０１のＪＯＢ制御部４０３は、ユーザからＵＩ表示部４０１を経由して文書分類準備処理の実行指示を受け、画像処理装置１０１に載置された文書原稿束をスキャナ１０によって読み取り電子データを作成する。電子データを作成する単位は、スキャナ１０を用いて画像読取部４０４が読み取る原稿１ページごとでもよいし、ユーザが指定したページ単位でもよい。電子データ作成完了後、画像処理装置１０１は、ＬＡＮＩ／Ｆ１２１０を介してデータサーバ１０５のデータ収集・提供部４１０に送信する。送信されたデータはデータ記憶部４１２に記憶される。

続いて、Ｓ５０２で機械学習サーバ１０２の特徴量抽出部４１３は、データサーバ１０５のデータ記憶部４１２から複数の電子データを取得し、電子データから特徴量をベクトルとして取得する。ベクトルの取得は、前述した方法を用いて、例えば、図６に示すような電子データごとに単語と出現数を定義した形態素解析結果６００、６１０を生成する。生成される電子データごとの形態素解析結果６００、６１０は文書原稿から読み取られた電子データの含まれる抽出された単語ごとに識別ＩＤと出現数とが紐付けて登録される。例えば、形態素解析結果６００では、単語ＩＤ”１”の単語「負担」が当該電子データに１７回含まれ、最も出現頻度が高く、他の単語と比較してもその出現数は突出した回数となっていることが分かる。一方、形態素解析結果６１０では、最も出現頻度が高い単語は「書類」、「審判」の２つの単語であり、その出現回数は４回となっており、他の単語と比較して突出した差がないことが分かる。

次に、Ｓ５０３で機械学習サーバ１０２のクラスタリング部４１４は、特徴量抽出部４１３が生成したベクトルを用いてクラスタリングを実行する。クラスタリングは、前述した方法を用いて、例えば、図７に示すようなクラスタ識別ＩＤと分類した電子データを対応付けたクラスタリング結果を生成する。クラスタリング結果には、クラスタ識別ＩＤ７０１と、クラスタごとに分類された電子データの識別子７０２とが含まれる。図７の例では、クラスタ「１」に電子データ「１、３、４、・・・」が分類されていることが分かる。

Ｓ５０４でクラスタリング解析部４１５は、クラスタリング部４１４が生成したクラスタリング結果からクラスタ毎に特徴量抽出部４１３によって生成された各電子データの形態素解析結果を収集し、クラスタ毎の単語出現頻度表を生成する。単語出現頻度表は、例えばＢａｇ－Ｏｆ－Ｗｏｒｄｓのような単語と出現数をまとめた、他の文書との類似度を取得できる形式とする。図８は本実施形態に係る単語出現頻度表８００、８１０の一例を示す。単語出現頻度表８００、８１０は、クラスタに分類された複数の電子データの形態素解析結果をまとめたものであり、単語ごとにその識別子である単語ＩＤと、出現数とが紐付けて定義される。さらにクラスタリング解析部４１５はデータ収集・提供部４１０にクラスタ毎の単語出現頻度表を送信する。送信された単語出現頻度表はデータ記憶部４１６に記憶される。

Ｓ５０５で特定名称付与部４０５は、データサーバ１０５のデータ記憶部４１２からクラスタ毎の単語出現頻度表を取得し、ＵＩ表示部４０１に特定名称登録画面を表示し、ユーザから特定名称の入力を受け付け、特定名称付与情報を作成する。このとき、特定名称付与部４０５は単語出現頻度表をクラスタ識別ＩＤと対応付けてデータ記憶部４０２に保存する。ユーザからの特定名称登録画面では、例えば、図９に示すような画面からクラスタ識別ＩＤ毎にユーザが入力した特定名称を図１０に示す特定名称付与情報に登録する。ユーザが特定名称を決めるための情報として図９の特定名称登録画面の表示領域９０１、９１１に単語出現頻度表を表示するようにしてもよい。さらに、特定名称付与部４０５は更新した特定名称付与情報をデータ記憶部４０２に記憶し、本フローチャートの処理を終了する。

＜特定名称登録画面＞
次に、図９を参照して特定名称登録画面の一例について説明する。特定名称登録画面９００、９１０はそれぞれ分類されたクラスタごとの特定名称をユーザに決定させるための画面である。特定名称登録画面９００、９１０のそれぞれには、単語出現頻度のヒストグラムを表示する表示領域９０１、９１１と、入力領域９０２、９１２とが含まれる。表示領域９０１、９１１には、抽出された単語ごとに、出現回数を表す棒グラフが表示される。なお、図９に示すように、出現回数が多い単語から順に表示されることが望ましい。これにより、ユーザは出現頻度の高い単語を容易に確認することができ、より利便性を高めることができる。ユーザは出現回数を確認しつつ、入力領域９０２、９１２へ当該クラスタの特定名称を入力することができる。ここでは、ユーザが入力する方式を一例に説明したが、ユーザには特定名称に使用する単語を選択させ、選択された単語に従って所定の命名規則により特定名称を決定する方式でもよい。その場合、図９の表示領域９０１、９１１の各単語が選択可能に表示される。なお、何れか１つの単語を選択可能としてもよく、複数の単語を選択可能としてもよい。

図１０は決定された特定名称付与情報の一例を示す。特定名称付与情報１０００には、クラスタごとにクラスタ識別ＩＤと、決定された特定名称とが紐付けて登録される。例えば、クラスタ識別ＩＤが”１”のクラスタには、「輸出関連書類」との特定名称が割り当てられている。これは、例えば当該クラスタの中で最も出現頻度が高い単語は用いられており、即ち、特定名称とは当該クラスタの特徴を表す名称が割り当てられる。

＜文書分類処理（推定フェーズ）＞
次に、図１１に示すフローチャートを参照して、文書分類処理の処理フローについて説明する。ここでは、学習フェーズで生成されたクラスタを用いて、所定の文書を分類する推定フェーズの処理について説明する。なお、本フローチャートは、生成されたクラスタを利用するジョブの一例として、指定された文書を分類して特定名称を割り当ててファイルを作成し、作成したファイルを送信する文書送信ジョブを受け付けた際の処理を示す。以下で説明する処理は、例えば、画像処理装置１０１のＣＰＵ１２０１がＲＯＭ１２０３やＨＤＤ１２０４に格納された制御プログラムをＲＡＭ１２０２に読み出して実行することにより実現される。

まずＳ１１０１でＪＯＢ制御部４０３は、ユーザからＵＩ表示部４０１を経由して文書送信ジョブの指示を受け、ジョブ実行を開始する。文書送信ジョブは、例えば、文書原稿等を読み取って作成した電子データを、指定されたメールアドレスに送信するＥメール送信や指定されたファイルサーバのフォルダに電子データを送信するファイル送信である。

Ｓ１１０２でＪＯＢ制御部４０３は、文書原稿をスキャナ１０で読み取り、電子データを生成する。ここでは、画像処理装置１０１の不図示の原稿台に載置された原稿をスキャナ１０で読み取って電子データを作成する。なお、既にデータ記憶部４０２に記憶されている電子データを処理の対象としてもよい。

次に、Ｓ１１０３でＪＯＢ制御部４０３は、作成された電子データのクラスタ識別ＩＤごとのスコアを取得する。より具体的には、まずＪＯＢ制御部４０３は特定名称付与部４０５に作成された電子データを渡す。特定名称付与部４０５は、スコア取得部４０６に電子データとともに、データ記憶部４０２に保存されたクラスタ識別ＩＤ毎の単語出現頻度表を渡す。スコア取得部４０６は、単語出現頻度表にある単語が、電子データのＯＣＲ機能で抽出された文字データに含まれるかを確認し、出現頻度に応じたスコアを取得する。スコアは、単語出現数の総和と単語ごとの出現数の比率で取得するようにし、他の単語出現頻度表のスコアと比較できるようにする。例えば、図８の単語出現頻度表８００の単語の総和が２１７で、ある電子データに単語ＩＤの”１（出現数３２）”、”２（出現数３０）”が含まれていた場合、「（３２＋３０）／２１７×１００」＝２８．５とスコアが取得される。スコア取得部４０６は、クラスタ識別ＩＤごとのスコアを特定名称付与部４０５に渡す。

次に、Ｓ１１０４で特定名称付与部４０５は、受け取ったスコア値が、所定値以上の差があるかを確認し、スコア値に差があった場合は、Ｓ１１０５に進み、差がなかった場合はＳ１１０７に進む。Ｓ１１０５で特定名称付与部４０５は最もスコアの高かったクラスタ識別ＩＤに対応する特定名称付与情報の特定名称をＪＯＢ制御部４０３に通知する。なお、特定名称が未登録の場合は、Ｓ５０５と同様に、ＵＩ表示部４０１に図９の特定名称設定画面を表示し、ユーザから特定名称の入力を受け付け、特定名称付与情報を更新するようにしてもよい。

続いて、Ｓ１００６でＪＯＢ制御部４０３は通知された特定名称を用いて送信ジョブを実行し、本フローチャートの処理を終了する。例えば、Ｅメール送信を実行する場合は、送信するファイル名に特定名称を付与する。例えば、図１０のクラスタ識別ＩＤが”１”の特定名称を使用する場合は、特定名称に日付と識別番号を加えて「輸出関連書類_2021 10 27_0001.pdf」といったファイル名にする。ファイルサーバへの送信を実行する場合は、送信先のフォルダに特定名称をフォルダ名にしたフォルダを作成し、そのフォルダにファイルを送信する。

一方、Ｓ１１０４で所定値以上の差がないと判断した場合、Ｓ１１０７で特定名称付与部４０５は、ＵＩ表示部４０１に図１２に示す特定名称選択画面を表示する。表示する特定名称はスコア値が近いクラスタ識別ＩＤに限定してもよいし、全ての特定名称を表示するようにしてもよい。特定名称付与部４０５は、ＵＩ表示部４０１を経由して、ユーザが選択した特定名称、又は特定名称を使用しない旨の結果を受け取り、Ｓ１１０８に進む。

Ｓ１１０８で特定名称付与部４０５は、ユーザが特定名称を選択したか否かを確認する。特定名称が選択された場合は、選択されたクラスタ識別ＩＤに対応する特定名称付与情報の特定名称をＪＯＢ制御部４０３に通知し、Ｓ１１０６に進む。特定名称を使用しない場合は、Ｓ１１０９に進む。Ｓ１１０９でＪＯＢ制御部４０３は特定名称を用いずに送信ジョブを実行し、本フローチャートの処理を終了する。特定名称を用いない場合は、例えば日付と識別番号とからなる名称して送信ジョブを実行する。

＜特定名称選択画面＞
図１２を参照して、本実施形態に係る特定名称選択画面の一例を説明する。特定名称選択画面２００は、候補となる特定名称と取得されたそのスコアと紐付けて表示する選択領域２０１と、ボタン２０２、２０３とを含んで構成される。

選択領域２０１には、例えばスコアの高い特定名称の候補がいくつか選択可能に表示される。図１２の例では２つの候補が表示されている例を示すが、さらに多くの候補が表示されてもよく、全ての候補が表示されてもよい。ユーザは所望の候補を選択することができる。図１２では１つ目の候補である特定名称「輸出関連書類」が選択された様子を示す。選択された候補の項目は強調して表示されることが望ましい。

ボタン２０２は特定名称を使用しない場合に選択されるボタンである、ボタン２０３は、選択領域２０１で何れかの候補は選択された状態で操作されると、選択した特定名称を用いて送信処理が実行されるボタンである。

以上説明したように、本実施形態に係る画像処理装置は、学習フェーズにおいて、原稿を読み取って出力される電子データを取得し、電子データから特徴量を抽出する。また、本画像処理装置は、複数の電子データごとに抽出された特徴量を用いて、複数の電子データを複数のクラスタに分類する。さらに、本画像処理装置は、分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成し、クラスタごとに、出現頻度表を用いて特定名称を登録する。また、本画像処理装置は、推定フェーズにおいて、所定の原稿からの電子データについて、特徴量を抽出し、生成された出現頻度表と抽出した特徴量を用いて、当該電子データとクラスタごとの類似度を示すスコアを取得する。さらに、本画像処理装置は、取得されたスコアに基づいて、所定の原稿からの電子データに対する特定名称を決定する。これにより、ユーザの手を介さず、クラスタリング手法を用いて読み取った原稿から文書の分類に用いる単語出現頻度表を生成し、単語出現頻度表を用いることでユーザが予めキーワードを全て把握しておく必要がなく、文書を分類することが可能となる。このように、本実施形態によれば、文書分類のためのキーワードのユーザによる登録を簡略化し、処理対象の文書を好適に分類することができる。

なお、本システムは、画像処理装置１０１、機械学習サーバ１０２、及びデータサーバ１０５が協働して文書を分類する処理について説明したが、本発明を当該構成に限定する意図はない。例えば、画像処理装置１０１が機械学習サーバ１０２及びデータサーバ１０５の機能も備えてもよく、画像処理装置１０１がスキャナ１０による画像読取機能のみを提供し、その他の処理については機械学習サーバ１０２で実現するようにしてもよい。つまり、本発明の画像処理装置は、画像処理装置、機械学習サーバ、及びデータサーバとして適用することができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：画像処理装置、１０２：機械学習サーバ、１０３：汎用コンピュータ、１０４：ＬＡＮ、１０５：データサーバ

Claims

画像処理装置であって、
原稿を読み取って出力される電子データを取得する第１取得手段と、
前記電子データから特徴量を抽出する抽出手段と、
複数の電子データごとに抽出された前記特徴量を用いて、該複数の電子データを複数のクラスタに分類する分類手段と、
前記分類手段によって分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成する生成手段と、
前記クラスタごとに、前記出現頻度表を用いて特定名称を登録する登録手段と
を備えることを特徴とする画像処理装置。
前記第１取得手段によって取得された所定の原稿からの電子データについて、前記抽出手段によって特徴量を抽出させ、前記生成手段によって生成された前記出現頻度表と該抽出した特徴量を用いて、当該電子データとクラスタごとの類似度を示すスコアを取得する第２取得手段と、
前記取得されたスコアに基づいて、前記所定の原稿からの電子データに対する特定名称を決定する決定手段と
をさらに備えることを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、他のクラスタのスコア値と所定値以上の差を有する最も高いスコア値のクラスタに設定された特定名称を用いて、前記所定の原稿からの電子データに対する特定名称を決定することを特徴とする請求項２に記載の画像処理装置。
前記決定手段は、他のクラスタのスコア値と所定値以上の差を有する最も高いスコア値のクラスタがない場合には、特定名称の候補となる１以上のクラスタの特定名称を選択可能に表示し、ユーザ入力により選択された特定名称を用いて、前記所定の原稿からの電子データに対する特定名称を決定することを特徴とする請求項２又は３に記載の画像処理装置。
特定名称の候補となる１以上のクラスタには、前記分類手段によって分類さ有れた前記複数のクラスタの全てが含まれることを特徴とする請求項４に記載の画像処理装置。
前記登録手段は、前記出現頻度表に含まれる特徴量ごとに出現頻度を表すグラフとともに、特定名称に関するユーザ入力を受け付ける登録画面を表示部に表示し、該ユーザ入力に従って前記クラスタごとの特定名称を登録することを特徴とする請求項１乃至５の何れか１項に記載の画像処理装置。
前記登録画面では、前記クラスタごとに登録される特定名称がユーザによって入力されることを特徴とする請求項６に記載の画像処理装置。
前記登録画面では、前記クラスタごとに１以上の特徴量が選択可能に表示され、
前記登録手段は、選択された特徴量に基づいて前記クラスタごとの特定名称を決定して登録することを特徴とする請求項６に記載の画像処理装置。
原稿を読み取って電子データを出力する読取手段をさらに備え、
前記第１取得手段は、前記読取手段から出力された電子データを取得することを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
前記第１取得手段は、外部装置において原稿から読み取られた電子データを取得することを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
前記特徴量は電子データを形態素解析して抽出された単語に対応し、前記出現頻度表は前記特徴量として抽出された単語ごとの出現頻度を示す表であることを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
画像処理装置の制御方法であって、
第１取得手段が、原稿を読み取って出力される電子データを取得する第１取得工程と、
抽出手段が、前記電子データから特徴量を抽出する抽出工程と、
分類手段が、複数の電子データごとに抽出された前記特徴量を用いて、該複数の電子データを複数のクラスタに分類する分類工程と、
生成手段が、前記分類工程で分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成する生成工程と、
登録手段が、前記クラスタごとに、前記出現頻度表を用いて特定名称を登録する登録工程と
を含むことを特徴とする画像処理装置の制御方法。
第２取得手段が、前記第１取得工程で取得された所定の原稿からの電子データについて、前記抽出手段によって特徴量を抽出させ、前記生成工程で生成された前記出現頻度表と該抽出した特徴量を用いて、当該電子データとクラスタごとの類似度を示すスコアを取得する第２取得工程と、
決定手段が、前記取得されたスコアに基づいて、前記所定の原稿からの電子データに対する特定名称を決定する決定工程と
をさらに含むことを特徴とする請求項１２に記載の画像処理装置の制御方法。
画像処理装置の制御方法における各工程をコンピュータに実行させるためのプログラムであって、前記制御方法は、
第１取得手段が、原稿を読み取って出力される電子データを取得する第１取得工程と、
抽出手段が、前記電子データから特徴量を抽出する抽出工程と、
分類手段が、複数の電子データごとに抽出された前記特徴量を用いて、該複数の電子データを複数のクラスタに分類する分類工程と、
生成手段が、前記分類工程で分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成する生成工程と、
登録手段が、前記クラスタごとに、前記出現頻度表を用いて特定名称を登録する登録工程と
を含むことを特徴とするプログラム。
前記制御方法が、
第２取得手段が、前記第１取得工程で取得された所定の原稿からの電子データについて、前記抽出手段によって特徴量を抽出させ、前記生成工程で生成された前記出現頻度表と該抽出した特徴量を用いて、当該電子データとクラスタごとの類似度を示すスコアを取得する第２取得工程と、
決定手段が、前記取得されたスコアに基づいて、前記所定の原稿からの電子データに対する特定名称を決定する決定工程と
をさらに含むことを特徴とする請求項１４に記載のプログラム。
画像処理システムであって、
原稿を読み取って電子データを出力する読取手段と、
前記電子データから特徴量を抽出する抽出手段と、
複数の電子データごとに抽出された前記特徴量を用いて、該複数の電子データを複数のクラスタに分類する分類手段と、
前記分類手段によって分類されたクラスタごとに、分類された１以上の電子データから抽出された特徴量ごとの出現頻度を示す出現頻度表を生成する生成手段と、
前記クラスタごとに、前記出現頻度表を用いて特定名称を登録する登録手段と
を備えることを特徴とする画像処理システム。
前記読取手段によって所定の原稿から出力された電子データについて、前記抽出手段によって特徴量を抽出させ、前記生成手段によって生成された前記出現頻度表と該抽出した特徴量を用いて、当該電子データとクラスタごとの類似度を示すスコアを取得する取得手段と、
前記取得されたスコアに基づいて、前記所定の原稿からの電子データに対する特定名称を決定する決定手段と
をさらに備えることを特徴とする請求項１６に記載の画像処理システム。