JP2024071951A

JP2024071951A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2024071951A
Application number: JP2022182491A
Authority: JP
Inventors: 健阿知波
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2024-05-27

Abstract

【課題】墨消しされた文字列が読み上げられる代わりに墨消しされた文字列の項目が識別可能な音声が再生される音声データを生成すること。
【解決手段】
情報処理装置は、文書画像における文字列を音声に変換して得られた第１の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第２の音声データと、を取得する取得手段と、前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、前記生成手段は、前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第２の音声データに基づく音声が再生されるように、前記第１の音声データと前記第２の音声データとを用いて前記読み上げ音声データを生成する。
【選択図】図９

Description

本開示は、文字列データを音声データに変換する技術に関する。

スキャンまたはＦＡＸ等で文書を読み取ることで得られた文書画像の中には、個人情報（例えば、氏名、住所）または機密情報（例えば、取引先の会社名）を示す文字列が含まれる場合がある。このような文書画像に対して、個人情報または機密情報を示す文字列を墨消し（不可視化）するように加工して出力する技術が知られている。また、文書画像に対してＯＣＲ処理を実行し、その結果得られた文字列を音声データに変換して出力する技術が知られている。

特許文献１は、文書画像における墨消しされた文字列が読み上げられる際にはＢＧＭを流すことが開示されている。

特開２０１２－２３１２６８号公報

文書画像内の墨消しされた文字列が読み上げられる代わりにＢＧＭが再生されると、ユーザは、どの項目の文字列が墨消しされたかを判別できなくなることがある。

例えば、音声データを使用するユーザには、運転中、歩行中、または外出先にいるユーザのようなＰＣ等の画面を閲覧できない環境に置かれたユーザがいる。または、ＰＣの操作ができないユーザ、目の不自由なユーザ、小さい文字が読めない高齢者のユーザがいる。これらのユーザは、音声のみによって文書の内容を理解するために、文書画像から生成された音声データを利用することが考えらえる。即ち、文書画像を表示させずに、文書画像から生成された音声データを再生することが考えらえる。この場合、墨消しされた文字列の音声の代わりにＢＧＭが再生されると、ユーザは、どの項目が墨消しされたかを前後関係や文脈から予測しなければならない。

また、ＰＣ等の画面に文書画像を表示しながら文書画像内の文字列の音声を聴くために、音声データが用いられる場合がある。例えば、ＰＣ等の画面を閲覧できる環境下に置かれたユーザが、画面に表示された文書画像を目視で確認しながら音声で文書の内容を理解するために音声データが用いられる。この場合、項目を表す文字列（例えば、「氏名」の文字列）の記載がない当該項目に対応する文字列（例えば、「山田太郎」の文字列）が墨消しされると、どの項目の文字列が墨消しされたかを文書画像からも判別することが困難となる場合がある。

本開示の情報処理装置は、文書画像における文字列を音声に変換して得られた第１の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第２の音声データと、を取得する取得手段と、前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、前記生成手段は、前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第２の音声データに基づく音声が再生されるように、前記第１の音声データと前記第２の音声データとを用いて前記読み上げ音声データを生成することを特徴とする。

本開示によれば、墨消しされた文字列が読み上げられる代わりに墨消しされた文字列の項目が識別可能な音声が再生される音声データを生成できる。

情報処理システムの構成を示す図である。画像形成装置、学習装置、情報処理装置のハードウェア構成を示す図である。情報処理システムの利用シーケンスを説明するための図である。文書の一例および墨消し処理の設定画面の一例を示す図である。固有表現ラベルに対応した文字列群の一例を示す図である。文字列群をグループ分けの方法の一例を説明するための概念図である。文字列抽出器を生成する方法を説明するためのフローチャートである。墨消し処理の流れを説明するためのフローチャートである。音声変換処理の流れを説明するためのフローチャートである。墨消し対象の文字列の代わりに挿入する音を説明するための図である。

本開示の技術を実施するための形態について図面を用いて説明する。なお、以下の実施形態に記載された構成要素は例示であって、本開示の技術範囲を限定する趣旨のものではない。

＜実施形態１＞
［情報処理システムの構成］
図１は、情報処理システム１００の構成例を示した図である。図１に示すように、情報処理システム１００は、例えば、画像形成装置１１０、学習装置１２０、および情報処理装置１３０を有し、各装置はネットワーク１０４を介して互いに接続されている。情報処理システム１００において、画像形成装置１１０、学習装置１２０、情報処理装置１３０は、ネットワーク１０４に対して単一接続ではなく、複数接続された構成であってもよい。例えば、情報処理装置１３０は、高速演算リソースを有する第１のサーバ装置と大容量ストレージを有する第２のサーバ装置で構成され、ネットワーク１０４を介して互いに接続された構成であってもよい。

画像形成装置１１０は、プリント、スキャン、ＦＡＸのように複数の機能を備えたＭＦＰ（Ｍｕｌｔｉ－ＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）などで実現される。画像形成装置１１０は、機能部として少なくとも画像取得部１１８を有する。

画像形成装置１１０はスキャナデバイス２０６（図２参照）を有している。スキャナデバイス２０６が紙などの記憶媒体に文字列が印刷された文書１１１を光学的に読み取り、画像取得部１１８は、所定のスキャン画像処理を行うことで文書画像１１３を生成する。また、例えば、画像取得部１１８は、不図示のＦＡＸ送信機から送信されたＦＡＸデータ１１２を受信し、所定のＦＡＸ画像処理を行うことで文書画像１１３を生成する。画像取得部１１８は、生成された文書画像１１３を情報処理装置１３０に送信する。

画像形成装置１１０は、前述したスキャンまたはＦＡＸの機能を備えたＭＦＰ以外に、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などで実現される構成であってもよい。例えば、ＰＣ上で動作する文書作成アプリケーションを用いて生成された、ＰＤＦ、ＪＰＥＧ等の文書画像１１３が情報処理装置１３０に送信されてもよい。

学習装置１２０は、学習データ生成部１２１、および学習部１２２の機能部を有する。学習データ生成部１２１は、エンジニアによって提供された複数の文書画像のサンプル１１４に基づき、文書画像のサンプル１１４に含まれる文字列群のうちの抽出対象の文字列に正解ラベルが付与されたデータを学習データとして生成する。

学習部１２２は、学習データ生成部１２１が生成した学習データを用いて、文書画像に含まれる抽出対象の文字列の項目名（固有表現ラベル）を推定して出力する文字列抽出器１１５を生成する。

情報処理装置１３０は、情報処理部１３１、およびデータ管理部１３５の各機能部を有する。情報処理部１３１には、文字認識部１３２、墨消し処理部１３３、および音声データ生成部１３４が少なくとも含まれる。

文字認識部１３２は、文書画像１１３に対してＯＣＲ処理を実行し、文字認識結果として、文書画像内に含まれる複数の文字列のデータを生成する。

墨消し処理部１３３は、文字列抽出器１１５を利用し、画像形成装置１１０から受信した文書画像１１３に含まれる文字列の中から、予め設定された墨消し対象の文字列を抽出する。そして、墨消し処理部１３３は、文書画像１１３のうち墨消し対象の文字列が存在した領域を不可視化墨消し加工することで墨消し画像１１６を生成する。

「墨消し」の用語は、一般に、画像の一部を所定の色で塗りつぶして隠すことを意味する。このため、音声データの一部の情報を隠すことを意味する場合などに「墨消し」を「マスク」と言い換えている場合がある。「墨消し」および「マスク」いずれも情報を隠すことを意味する。

音声データ生成部１３４は、生成した墨消し画像１１６に含まれる文字列を読み上げる音声のデータである音声データ１１７（読み上げ音声データ）を生成する。音声データ生成部１３４は、後述する音声変換器を利用して音声データ１１７を生成する。

音声変換器は、一般に、音声合成サービスとして広く知られるものであって、例えば、カーナビゲーションのガイド音声、視覚障害者向けのスクリーンリーダー、電子書籍の読み上げ機能などで広く用いられる公知の技術が用いられてよい。本実施形態では、文書画像をＯＣＲ処理して得られた文字列を文書画像中の配置順序に従って連結したテキストを音声変換器に対して入力し、当該テキストを読み上げる音声のデータが音声データ１１７として生成される。

データ管理部１３５は、生成された墨消し画像１１６及び音声データ１１７を所定の記憶部に記憶して管理する。また、データ管理部１３５は、ユーザの要求に従って、墨消し画像１１６の表示または音声データ１１７を再生するために対応するデータを出力する。

ネットワーク１０４は、ＬＡＮやＷＡＮ等で実現されるものであって、画像形成装置１１０、学習装置１２０、情報処理装置１３０の間を互いに接続して、装置間でデータを送受信するための通信部である。

［画像形成装置のハードウェア構成］
図２は、図１の情報処理システム１００に含まれる画像形成装置１１０、学習装置１２０、情報処理装置１３０のハードウェア構成の一例を示した図である。

図２（ａ）は、画像形成装置１１０のハードウェア構成を示す図である。図２（ａ）に示すように、画像形成装置１１０は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、ストレージ２０８、外部インタフェース２１１等を有し、データバス２０３を介して互いに接続される。ＣＰＵ２０１は、画像形成装置１１０の動作全体を制御するための制御部である。ＣＰＵ２０１は、ＲＯＭ２０２に記憶された起動プログラムを実行することで、画像形成装置１１０のシステムを起動し、ストレージ２０８に記憶された制御プログラムを実行することで、画像形成装置１１０のプリント、スキャン、ＦＡＸ等の機能を実現する。ＲＯＭ２０２は、不揮発性メモリで実現されるものであって、画像形成装置１１０を起動する起動プログラムを格納するための記憶部である。データバス２０３は、画像形成装置１１０を構成するデバイス間で相互にデータを送受信するための通信部である。ＲＡＭ２０４は、揮発性メモリで実現されるものであって、ＣＰＵ２０１が制御プログラムを実行する際のワークメモリとして使用される記憶部である。

プリンタデバイス２０５は、画像出力デバイスであり、画像を紙などの記憶媒体に印刷して出力する。スキャナデバイス２０６は、画像入力デバイスであり、文字や図表等が印刷された紙などの文書を光学的に読み取って文書画像を生成するために用いられる。原稿搬送デバイス２０７は、ＡＤＦ（ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）等で実現されるものであって、原稿台に載置された原稿を検知し、検知した原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で実現されるものであって、前述の制御プログラムおよび文書画像を記憶するための記憶部である。入力デバイス２０９は、タッチパネルおよびハードキー等で実現されるものであって、ユーザからの画像形成装置１１０に対する操作入力を受け付ける。表示デバイス２１０は、液晶ディスプレイ等で実現されるものであって、画像形成装置１１０の設定画面をユーザに対して表示出力するための表示部である。外部インタフェース２１１は、画像形成装置１１０とネットワーク１０４との間を接続するものであって、不図示のＦＡＸ送信機からＦＡＸデータを受信したり、情報処理装置１３０に対して文書画像を送信したりするためのインタフェース部である。

図２（ｂ）は、学習装置１２０のハードウェア構成を示す図である。図２（ｂ）に示すように、学習装置１２０は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インタフェース２３８、ＧＰＵ２３９を有し、データバス２３３を介して互いに接続されている。

ＣＰＵ２３１は、学習装置１２０の動作全体を制御するための制御部である。ＣＰＵ２３１は、ＲＯＭ２３２に記憶されたブートプログラムを実行することで、学習装置１２０のシステムを起動する。また、ＣＰＵ２３１は、ストレージ２０８に記憶されたプログラムを実行することで、文書データを生成したり、文書データを用いて学習して文字列抽出器１１５を生成したりする。ＲＯＭ２３２は、不揮発性メモリで実現されるものであって、学習装置１２０を起動するブートプログラムを格納するための記憶部である。データバス２３３は、学習装置１２０を構成するデバイス間で相互にデータを送受信するための通信部である。ＲＡＭ２３４は、揮発性メモリで実現されるものであって、ＣＰＵ２３１が文書データ生成や学習を行うプログラムを実行する際のワークメモリとして使用される記憶部である。

ストレージ２３５は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で実現されるものであって、文書データや文字列抽出器１１５を記憶するための記憶部である。入力デバイス２３６は、マウスおよびキーボード等で実現されるものであって、エンジニアからの学習装置１２０に対する操作入力を受け付ける。表示デバイス２３７は、液晶ディスプレイ等で実現されるものであって、学習装置１２０の設定画面をエンジニアに対して表示出力するための表示部である。外部インタフェース２３８は、学習装置１２０と、ネットワーク１０４との間を接続するものであって、不図示のＰＣ等から文書画像を受信したり、情報処理装置１３０に対して文字列抽出器１１５を送信したりするためのインタフェース部である。ＧＰＵ２３９は、画像処理プロセッサで構成された演算部である。ＧＰＵ２３９は、例えば、ＣＰＵ２３１から与えられた制御コマンドに従って、与えられた文書画像に含まれる文字列のデータに基づき文字列抽出器１１５を生成するための演算を実行する。

図１に示す学習装置１２０に含まれる各機能部は、ＣＰＵ２３１が所定のプログラムを実行することにより実現されるが、これに限られるものではない。他にも例えば、演算を高速化するためのＧＰＵ２３９または、不図示のＦＰＧＡ（Field Programmable Gate Array）などのハードウェアが利用されてもよい。各機能部は、ソフトウエアと専用ＩＣなどのハードウェアとの協働で実現されてもよいし、一部またはすべての機能がハードウェアのみで実現されてもよい。

図２（ｃ）は、情報処理装置１３０のハードウェア構成を示す図である。図２（ｃ）に示すように、情報処理装置１３０は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、外部インタフェース２６８を有する。各部はデータバス２６３を介して互いに接続される。

ＣＰＵ２６１は、情報処理装置１３０の動作全体を制御するための制御部である。ＣＰＵ２６１は、ＲＯＭ２６２に記憶されたブートプログラムを実行することで、情報処理装置１３０のシステムを起動し、ストレージ２６５に記憶された情報処理プログラムを実行することで、文字認識、墨消し加工、音声変換などの情報処理を実行する。

ＲＯＭ２６２は、不揮発性メモリで実現されるものであって、情報処理装置１３０を起動するブートプログラムを格納するための記憶部である。データバス２６３は、情報処理装置１３０を構成するデバイス間で相互にデータを送受信するための通信部である。ＲＡＭ２６４は、揮発性メモリで実現されるものであって、ＣＰＵ２６１が情報処理プログラムを実行する際のワークメモリとして使用される記憶部である。ストレージ２６５は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で実現されるものであって、前述の情報処理プログラム、文書画像１１３、文字列抽出器１１５、音声データ１１７等を記憶するための記憶部である。

入力デバイス２６６は、マウスやキーボード等で実現されるものであって、ユーザまたはエンジニアから情報処理装置１３０に対する操作入力を受け付ける操作部である。表示デバイス２６７は、液晶ディスプレイ等で実現されるものであって、情報処理装置１３０の設定画面をユーザまたはエンジニアに対して表示するための表示部である。ＣＰＵ２６１は、表示デバイス２６７に表示される画面を制御する表示制御部として動作する。

外部インタフェース２６８は、情報処理装置１３０と、ネットワーク１０４との間を接続するものであって、学習装置１２０から文字列抽出器１１５を受信したり、画像形成装置１１０から文書画像１１３を受信したりするためのインタフェース部である。

図１の情報処理装置１３０に含まれる各機能部は、ＣＰＵ２６１が所定のプログラムを実行することにより実現されるが、これに限られるものではない。他にも例えば、演算を高速化するためのＧＰＵ（Graphics Processing Unit）、または、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアが利用されてもよい。各機能部は、ソフトウエアと専用ＩＣなどのハードウェアとの協働で実現されてもよいし、一部またはすべての機能がハードウェアのみで実現されてもよい。

［シーケンス］
図３は、図１の情報処理システム１００の利用シーケンスを示す図である。各処理の説明における記号「Ｓ」は、シーケンスにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。また、説明の便宜上、ユーザまたはエンジニアの操作にもステップを用いて説明している。

図３の（ａ）の点線内のステップは、文字列抽出器１１５を生成するステップの流れを説明するためのステップを示している。

Ｓ３０１において情報処理システム１００に係るエンジニア３０１は、文字列抽出器１１５を生成するために、学習装置１２０に複数の文書画像のサンプル１１４を入力する。

Ｓ３０２において学習装置１２０は、文書画像のサンプル１１４のデータを取得する。そして文字列抽出器１１５を生成する。

Ｓ３０３において学習装置１２０は、情報処理装置１３０に対して、生成した文字列抽出器１１５を送信する。なお、図３のＳ３０２～Ｓ３０３の学習装置１２０で実行される処理の詳細なフローは後述する。

次に図３の（ｂ）の点線内のステップについて説明する。Ｓ３０４においてエンジニア３０１は、文字列を音声に変換するための音声変換器を情報処理装置１３０に送信する。音声変換器は、情報処理装置１３０のストレージ２６５に保存される。

Ｓ３０５においてエンジニア３０１は、文書画像に含まれる墨消し処理された文字列の代わりに挿入される音（音声）のデータである挿入用の音のデータを保存する。挿入用の音のデータは、例えば、予め定めたビープ音、および「人名はマスクされました」等の予め定めた音声のデータである。詳細は後述する。

次に図３の（ｃ）の点線内のステップについて説明する。図３の（ｃ）の点線内は、情報処理システム１００を利用するユーザ３００の指示に従い、文書画像における墨消し対象の文字列の領域の墨消し処理の流れを説明する図である。

Ｓ３０６においてユーザ３００は、画像形成装置１１０に紙の文書（原稿）をセットして、画像形成装置１１０に文書のスキャンの実行を指示する。

Ｓ３０７において画像形成装置１１０のスキャナデバイス２０６は紙の文書を読み取り、画像取得部１１８はスキャンされた文書の文書画像を生成する。そして、画像取得部１１８は、情報処理装置１３０に生成された文書画像を送信する。

Ｓ３０８においてユーザ３００は、送信された文書画像における墨消し処理の対象とする項目名を指定する。

図４は、墨消し処理の対象となる項目名をユーザが選択するための設定画面４１０の一例を説明する図である。図４（ａ）は、Ｓ３０６でスキャンの対象となった文書の一例を示す図である。図４（ｂ）は、情報処理装置１３０の表示デバイス２６７に表示される設定画面４１０の一例を示す図である。設定画面４１０は、画像形成装置１１０の表示デバイス２１０に表示されてもよい。

設定画面４１０には、文書４０１に対応する文書画像のプレビューを表示するプレビュー表示領域４１１が含まれる。さらに、人名、住所、日付、会社名、金額、文書番号のような予め定めた項目名を選択して指定できるチェックボックス４２０～４２５が含まれる。ユーザは、墨消し処理の対象となる項目名に対応するチェックボックスにチェックを入れる操作入力４１２をすることで、墨消しの対象とする項目名を指定する。

Ｓ３０９において情報処理装置は、Ｓ３０７で送信された文書画像を受信して、受信した文書画像に対して、文字認識処理等の画像処理を実行する。

Ｓ３１０において情報処理装置１３０は、Ｓ３０８でユーザ３００が選択した墨消し処理の対象となる項目名の情報を取得し、Ｓ３０７で送信された文書画像に対する墨消し対象の項目名の情報を保存する。

Ｓ３１１において情報処理装置１３０は、Ｓ３０９で取得した墨消し対象の項目名の情報を用いて、Ｓ３０７で受信した文書画像に対して墨消し処理をして、墨消し画像を生成する。

Ｓ３１２において情報処理装置１３０は、Ｓ３１１で生成された墨消し画像における墨消し対象の項目名を特定するための情報であるラベルを保存する。

Ｓ３１３において情報処理装置１３０は、ユーザからの要求に応じて、Ｓ３１１で生成した墨消し画像を送信する。なお、図３（ｃ）のＳ３０９～Ｓ３１２の詳細な処理フローは後述する。

図３（ｄ）は、Ｓ３１１で生成された墨消し画像に対応した音声データを生成し、ユーザに対して音声データを送信する流れを説明する図である。Ｓ３０８においてユーザ３００は、文書画像から認識された文字列を音声に変換して音声データを生成する指示を情報処理装置１３０に対して行うことができる。このユーザの指示があった場合、次のステップの処理が行われる。

Ｓ３１４において情報処理装置１３０は、Ｓ３１１で生成した墨消し画像に含まれる文字列を連結して得られたテキストを、Ｓ３０４で保存された音声変換器に入力して、音声に変換する。

Ｓ３１５において情報処理装置１３０は、Ｓ３１２で保存したラベルに基づいて、Ｓ３０５で保存した挿入用の音のデータの中から、ラベルに対応する挿入用の音のデータを取得する。

Ｓ３１６において情報処理装置１３０は、Ｓ３１４で生成した音声のデータに対して、Ｓ３１５で取得した音のデータを挿入することでデータを合成して、墨消し画像に対応する音声データを生成する。

Ｓ３１７において情報処理装置１３０は、ユーザ３００からの要求に応じて、Ｓ３１６で生成した音声データを送信する。なお、図３（ｄ）の詳細な処理フローは後述する。

［文字列抽出器を生成する処理］
図５は、固有表現の文字列（項目値）の具体例と、文字列（項目値）が示す項目の名称である項目名と、をテーブル形式でまとめた図である。文書画像に含まれる文字列の中から抽出される固有表現の文字列について説明する。

テーブルの列５１０には、固有表現の項目名である、人名、住所、日付、会社名、金額文書番号がそれぞれの行５１１～５１５に保持されている。またテーブルの列５２０の行５１１～５１５には、列５１０に保持されている項目名に対応する項目値の具体例となる文字列が複数保持されている。

図５で示した文字列は、本実施形態における抽出対象の文字列の具体例を示したものである。文字列には、＜ラベル：人名＞、＜ラベル：住所＞、＜ラベル：日付＞、＜ラベル：会社名＞、＜ラベル：金額＞のように、項目名を示す固有表現ラベルが付与される。

図６（ａ）は、文書画像のサンプル１１４に含まれる文字列のデータと、文字列のデータを変換して得られた特徴ベクトルとを説明するための概念図である。図６（ａ）に示すように、文書画像のサンプル１１４に含まれる文字列６０１は、例えば、学習済のＢＥＲＴの言語モデルを用いることで、７６８次元の数値で表現された特徴ベクトル６０２に変換することができる。文字列のデータを特徴ベクトルに変換する技術は、Ｗｏｒｄ２Ｖｅｃ、ＧｌｏＶｅ、ｆａｓｔＴｅｘｔ、ＢＥＲＴ，ＸＬＮｅｔ、ＡＬＢＥＲＴなどの公知の技術を用いればよい。

図６（ｂ）は、図６（ａ）で示した複数の特徴ベクトルを、機械学習によるクラスタリング手法を用いてグループ化する様子を説明するための概念図である。複数の特徴ベクトルをグループ化するクラスタリング手法としては、最短距離法、最長距離法などの階層クラスタリング手法や、Ｋ－ｍｅａｎｓ、Ｘ－ｍｅａｎｓなどの非階層クラスタリング手法などの公知の技術がある。図６（ｂ）は、図６（ａ）で示した７６８次元で表現される特徴ベクトルを、ＰＣＡやｔ－ＳＮＥなどの公知の技術を用いて２次元平面に次元圧縮するように変換して、文字列のグループ化を可視化して示した図である。図６（ｂ）に示すように、図６（ａ）で示した文字列データの特徴ベクトル６０２に対して、前述したクラスタリング手法を用いることで、同一の項目名の文字列が含まれるグループ６１１、６１３、６１５が得られる。

図６（ｂ）に示すように、同じ項目の文字列は類似した特徴量を持つため、特徴ベクトルは、多次元空間上で互いに近い位置に存在する。例えば、「人名」の文字列はそれぞれ類似の特徴量を持つので、クラスタリングなどの手法を用いることで、「人名」を表す文字列には「人名」の項目名であることを示す固有表現ラベルを自動で付与することができる。例えば、図６（ｂ）のグループ６１１に含まれる文字列には＜ラベル：人名＞の固有表現ラベルを付与することができる。同様に、グループ６１３に含まれる文字列には＜ラベル：日付＞、グループ６１５に含まれる文字列には＜ラベル：金額＞の固有表現ラベルを付与することができる。このように、文書画像のサンプル１１４に出現する固有表現の文字列群を獲得できる。この方法を用いて、後述する学習データが生成される。

図７は、図３の（ａ）の点線内のＳ３０２～Ｓ３０３（文字列抽出器１１５を生成に係る処理）の詳細を説明するフローチャートである。図７のフローチャートで示される一連の処理は、学習装置１２０のＣＰＵ２３１またはＧＰＵ２３９の何れかがＲＯＭ２３２またはストレージ２３５に記憶されているプログラムコードをＲＡＭ２３４に展開し実行することにより行われる。また、図７におけるステップの一部または全部の機能をＡＳＩＣまたは電子回路等のハードウェアで実現してもよい。

Ｓ７０１において学習データ生成部１２１は、図３のＳ３０１でエンジニア３０１から入力された複数の文書画像を、文書画像のサンプル１１４として取得する。具体的には、例えば、法律、会計、人事、医療などの事務職で扱う文書画像のサンプル１１４を取得する。

図４（ａ）は、文書の一例を示す図である。例えば、図４（ａ）のような契約書の文書４０１などの法律系の事務職の分野で扱う文書のように特定の業務分野で扱う文書の画像のみが文書画像のサンプルとして取得されてもよい。あるいは、法律、会計、人事、医療の業務分野全般で扱う文書の画像のように複数の異なる業務分野で扱う文書の画像が文書画像のサンプル１１４として取得されてもよい。

Ｓ７０２において学習データ生成部１２１は、Ｓ７０１で取得した文書画像のサンプルに含まれる文字列に、対応する固有表現ラベルを正解ラベルとして付与して、学習データを生成する。例えば、次の手順で学習データは生成される。学習データ生成部１２１は、はじめに、図６（ａ）のように、文書画像のサンプルから文字列を抽出して、抽出された文字列を特徴ベクトルに変換する。そして、特徴ベクトルに基づき、図６（ｂ）のように文書画像のサンプルから抽出された文字列群を、氏名、住所、日付、会社名、金額などの項目名（固有表現）にグループ分けする。グループ分けされた文字列群に、その項目名を示す固有表現ラベルを自動判別し、正解ラベルとして固有表現ラベルを付与して学習データを生成する。

学習データは、抽出された文字列に正解ラベルをエンジニアが手動で付与して生成されてもよい。

また、学習データは、図５のようなデータベースに基づき自動生成されてもよい。例えば、図４（ａ）の文書４０１に含まれる「山田太郎」の文字列４０２のような「人名」の項目名の項目値を、図５の「人名」に対応する項目値のいずれかと置き換えるようにして図５のデータベースを更新することで学習データが生成されてもよい。同様に、抽出対象の住所、日付、会社名、金額などの他の項目名についても、文書画像のサンプルから得られた文字列を、図５のそれぞれの項目名に対する項目値のいずれかと置き換えることで、学習データが自動生成されてもよい。

学習データとして取得する方法は、他にも、予め与えられた各種データベースを利用する方法でもよい。例えば、人名データベースに登録された人名の文字列を、個人情報保護の観点から、姓・名をランダムに組み合わせて匿名化された人名の文字列を生成して、生成された文字列に「人名」の正解ラベルを付与することで学習データが生成されてもよい。同様に、地名データベースや組織名データベースに登録された文字列の取り込むことで学習データが生成されてもよい。同様に、金額や日付など、数字と記号の組み合わせの表記パターンが複数存在する場合に、取りうる数値の範囲内でこれらの表記パターンと組み合わせた文字列をランダムに生成した疑似生成データを利用して学習データが生成されてもよい。

Ｓ７０３において学習部１２２は、Ｓ７０２で生成した学習データに基づき文字列抽出器１１５を生成する。Ｓ７０３で生成される文字列抽出器１１５は、一般に、ＮＥＲ（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）と呼ばれる分野の分類タスクとして扱われるものであって、画像および自然言語の特徴量を用いた機械学習によって実現されるものである。

機械学習によって文字列抽出器１１５を生成する方法として、例えば、文書画像全体の文字列の特徴量を入力すると、文書画像内の夫々の文字列の項目名が出力される学習モデルを用意する。教師データは、学習データの項目名（正解ラベル）とする。そして、文書画像内の文字列の特徴量が入力されると、抽出対象の文字列については項目名（固有表現ラベル）を出力し、抽出対象外の文字列には項目名を出力しないように、用意した学習モデルを学習させる。これによって、文書画像内の文字列の特徴量を入力すると、文書画像内の各文字列に対応する項目名（固有表現ラベル）が出力される文字列抽出器として動作する学習済みモデルを生成することがでる。

なお、文字列抽出器１１５は、機械学習以外の方法で生成されてもよい。例えば、文字列抽出器に、予め算出された項目名（固有表現ラベル）毎の文字列群の特徴ベクトルの重心ベクトルを保持させておく。そして、任意の文字列の特徴ベクトルと、項目名毎の重心ベクトルとをそれぞれ比較して、類似する重心ベクトルに対応する項目名を、任意の文字列の項目名として決定するように構成された文字列抽出器でもよい。類似するかの判定方法は、例えば、コサイン類似度比較などの方法を用いればよい。

Ｓ７０４において学習部１２２は、Ｓ７０３で生成した文字列抽出器１１５を、情報処理装置１３０に送信する。

［文字列抽出器を用いた墨消し処理］
図８は、図３の（ｃ）の点線内におけるＳ３０９～３１３の詳細を説明するフローチャートである。図８のフローチャートで示される一連の処理は、情報処理装置１３０のＣＰＵ２６１がＲＯＭ２６２またはストレージ２６５に記憶されているプログラムコードをＲＡＭ２６４に展開し実行することにより行われる。また、図８におけるステップの一部または全部の機能をＡＳＩＣまたは電子回路等のハードウェアで実現してもよい。

Ｓ８０１において文字認識部１３２は、図３のＳ３０７で画像形成装置１１０から送信された文書画像を取得する。

Ｓ８０２において文字認識部１３２は、Ｓ８０１で取得した文書画像に含まれる文字列領域を抽出する。そして、抽出された文字列領域に対して、文字認識処理（ＯＣＲ処理）を実行して、文書画像に含まれる文字列のデータ（文字列データ）を取得する。

文字列領域は、ブロックセレクション（ＢＳ）処理を行うことで抽出される。ブロックセレクション（ＢＳ）処理では、文書画像をオブジェクト単位に分割して、文書画像内のブロック領域を抽出する処理が行われる。そして、抽出された各ブロック領域の属性を決定する処理が行われる。具体的には、例えば、文字、写真、図表などの属性を決定し、文書画像を、異なる属性を持つブロック領域に分割する。ブロックセレクション処理は、公知の領域判定技術を用いて実現できる。

ＯＣＲ処理の結果得られる文字列データは、例えば、文書画像内で間隔を空けたり罫線で区切られたりすることで配置された文書画像内の単語区切りの文字列を、配置情報に基づく所定の読出し順序で連続的に読み出されて得られたデータでもよい。または、文字列データは、例えば、文書画像に含まれる文章に対して形態素解析の手法を用いて分割された単語区切りの文字列を、配置情報に基づく所定の読出し順序で連続的に読み出されて得られたデータでもよい。

Ｓ８０３において墨消し処理部１３３は、図３のＳ３０３で学習装置１２０から送信された文字列抽出器１１５を取得する。

Ｓ８０４において墨消し処理部１３３は、文字列抽出器１１５を用いて、Ｓ８０２で取得した文字列データから、墨消し対象となり得る項目名（固有表現）に対応する文字列を抽出する。本実施形態では、墨消し対象となり得る項目名は、「人名」「住所」「日付」「会社名」「金額」「文書番号」であるための、それらの項目名の文字列が抽出される。文字列の固有表現を認識して抽出する技術は、前述したように、一般に、ＮＥＲ（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）と呼ばれる分野の分類タスクとして扱われるものである。

Ｓ８０５において墨消し処理部１３３は、Ｓ３０８でユーザが設定画面４１０を操作して指示した墨消し処理の対象とする項目名を示す情報を取得する。

図４（ｂ）の設定画面４１０において、例えば、ユーザが、「人名」の項目名に対応するチェックボックス４２０を選択した場合、Ｓ８０５では、「人名」の項目名が墨消し対象に選択されたことを示す情報が取得される。

Ｓ８０６において墨消し処理部１３３は、Ｓ８０１で取得された文書画像において、Ｓ８０５で取得された墨消し対象の項目名の文字列が含まれる領域を墨消し処理して得られた墨消し画像を生成する。そして生成した墨消し画像のプレビューを設定画面４１０のプレビュー表示領域４１１に表示する。

例えば、図４（ａ）に示す文書４０１がスキャンされて得られた文書画像が、Ｓ８０１において取得された文書画像とだとする。文書４０１には、人名である「山田太郎」の文字列４０２および「鈴木次郎」の文字列４０３が含まれる。このため、Ｓ８０４では、「山田太郎」の文字列４０２、および「鈴木次郎」の文字列４０３には、項目名が「人名」であることを示す固有表現ラベルが付与される。

そして、ユーザが「人名」の項目名を墨消し対象に選択してその情報がＳ８０５で取得されたとする。この場合、墨消し処理部１３３は、プレビュー表示領域４１１の中で、人名の文字列である「山田太郎」の文字列４０２および「鈴木次郎」の文字列４０３の文字列が配置されていた画像領域に、文字列の代わりに墨消し４３０、４３１を表示するように制御する。文書画像に含まれる別の人名を表す文字列が文書画像内にあった場合にも同様に、プレビュー表示領域４１１の中で、墨消し４３２を表示するように制御する。「終了」ボタン４１４が押下されると、墨消し設定を終了する。

Ｓ８０７において墨消し処理部１３３は、設定画面４１０において選択されている墨消し対象の項目名を確定させて保存するユーザの操作を受け付けたかを判定する。

ユーザは、設定画面４１０のプレビュー表示領域４１１に表示されている墨消し画像を目視でチェックして所望の画像が生成されていることが確認した場合、「設定を保存」のボタン４１３を押下する。その押下が受け付けられた場合、ユーザの保存の操作を受け付けたと判定される。ユーザの保存の指示が受け付けられたと墨消し処理部１３３が判定した場合（Ｓ８０７でＹＥＳ）、Ｓ８０８に遷移する。

ユーザが設定画面４１０において何れかのチェックボックス４２０～４２４が押下されて、その操作が受け付けられた場合、墨消し処理の対象とする項目名が変更されたことになる。このように、ユーザから受け付けた指示が墨消し処理の対象とする項目名の変更の指示の場合（Ｓ８０７でＮＯ）、Ｓ８０５に遷移して、Ｓ８０５～Ｓ８０６を繰り返す。

例えば、図４の設定画面４１０の状態において「住所」の項目名に対応するチェックボックス４２１が選択された場合、Ｓ８０５に戻る。そして、Ｓ８０５～Ｓ８０６が繰り返されることで、プレビュー表示領域４１１に「東京都千代田区大手町×丁目××番××号」の文字列４３３が配置されていた画像領域が墨消しされるように制御される。

Ｓ８０８において墨消し処理部１３３は、「設定を保存」のボタン４１３が押下された際に選択されていた項目名が墨消しされた文書画像である墨消し画像を保存する。

Ｓ８０９において墨消し処理部１３３は、直前のＳ８０５で取得した墨消し対象の項目名を示す固有表現ラベルを特定するための墨消し対象ラベルを保存する。例えば、墨消し対象の項目名に対応する固有表現ラベルが＜ラベル：人名＞であった場合、墨消し対象ラベルとして＜ラベル：人名＞が保存される。

［墨消し画像に対する音声変換処理］
図９は、図３の（ｄ）の点線内におけるＳ３１４～３１６の詳細を説明するフローチャートである。図９のフローチャートで示される一連の処理は、情報処理装置１３０のＣＰＵ２６１がＲＯＭ２６２またはストレージ２６５に記憶されているプログラムコードをＲＡＭ２６４に展開し実行することにより行われる。また、図９におけるステップの一部または全部の機能をＡＳＩＣまたは電子回路等のハードウェアで実現してもよい。

Ｓ９０１において音声データ生成部１３４は、図３のＳ３０４で保存された音声変換器を取得する。

Ｓ９０２において音声データ生成部１３４は、図３のＳ３０９（図８のＳ８０２）で取得された文書画像の文字列のデータを取得する。

Ｓ９０３において音声データ生成部１３４は、Ｓ９０１で取得した音声変換器を用いて、文書画像内の文字列が読み上げられるように、Ｓ９０２で取得した文字列のデータを音声のデータに変換して、音声データを生成する。

Ｓ９０４において音声データ生成部１３４は、図３のＳ３１２（図８のＳ８０９）で保存された墨消し対象ラベルを取得する。

Ｓ９０５において音声データ生成部１３４は、図３のＳ３０５で保存された挿入用の音のデータのうち、Ｓ９０４で取得した墨消し対象ラベルが示す項目名に対応する音のデータを取得する。挿入用の音データについては後述する。

Ｓ９０６において音声データ生成部１３４は、Ｓ９０３で生成した音声データのうち、墨消し対象の項目名の文字列の音声の代わりに挿入用の音が再生されるように、データを合成することで新たな音声データを生成する。この結果、図３のＳ３１１（図８のＳ８０８）で保存された墨消し画像に対応する音声データが生成される。生成された音声データは、墨消し対象の項目名の文字列の部分については、墨消し対象の項目名の文字列が読み上げられる代わりにＳ９０５で取得した挿入用の音が再生される音声データとなる。また、墨消し対象の文字列以外の文字列が読み上げられる場合はＳ９０３で生成した音声データに基づく音声が再生される音声データとなる。

図１０（ａ）は、Ｓ９０５で取得される挿入用の音のデータをユーザが選択するための音設定画面１０００の一例を示す図である。音設定画面１０００は、図３のＳ３０８で、ユーザが墨消し対象を指定して、かつ、音声変換を指示した場合に、表示される設定画面である。例えば、情報処理装置１３０の表示デバイス２６７に表示される。

本実施形態では、文書画像の文字列が音声変換される場合、墨消しされた文字列については、墨消しされた文字列の音声の代わりに挿入用の音が再生されるように音声データが生成される。挿入用の音には音声も含まれる。墨消しされた文字列の音声の代わりとなる挿入用の音は、墨消しされた文字列が特定できないような音または音声である。しかし、選択可能な挿入用の音には、墨消しされた文字列が特定できない音であるが、墨消しされた文字列の項目をユーザが識別できるような音または音声が含まれる。挿入用の音は、複数の音（音声）から選択可能なように構成されている。

音設定画面１０００には、複数の音または音声から、挿入用の音を選択するための選択ボタン１００１～１００４が含まれる。

文書画像に含まれる「譲渡契約書山田太郎以下甲という、と、鈴木次郎以下、乙という、は、次の通り」という文章のうち、「山田太郎」および「鈴木次郎」の項目名が「人名」と抽出されたものとする。また、「人名」の項目名が墨消し対象に選択されて、墨消し処理されたもとする。この場合における、選択ボタン１００１～１００４それぞれが選択された場合にＳ９０６で生成される音声データについて説明する。

選択ボタン１００１は、挿入用の音としてビープ音を選択するためのボタンである。ユーザからの操作入力１００５によって、図１０の選択ボタン１００１が選択されたとする。この場合、墨消し処理された文字列「山田太郎」または「鈴木次郎」が読み上げられる代わりの音として、ビープ音が再生されるように、墨消し画像の音声データがＳ９０６で生成される。その結果、図１０（ｂ）に示すように、「譲渡契約書［ビープ音］以下甲という、と、［ビープ音］以下、乙という、は、次の通り」という音声が再生される音声データがＳ９０６で生成される。

本実施形態では、項目名ごとに異なる音のビープ音が保存されていて、墨消された文字列の項目名に対応するビープ音の音データが取得される。このため、ユーザは、どの項目が墨消しされたかをビープ音を聞くことで識別することができる。

次に、ユーザからの操作入力１００５によって、図１０の選択ボタン１００２が選択された場合について説明する。この場合は、墨消し対象の項目名を示す音声が、墨消された文字列の音声の代わりに再生されるように、Ｓ９０６で音声データが生成される。例えば、Ｓ９０５では、「人名はマスクされました」のように「人名」という墨消し対象の項目名の音声が含まれる音声のデータが挿入用の音のデータとして取得される。この結果、Ｓ９０６では、図１０（ｃ）に示すように「譲渡契約書人名はマスクされました以下甲という、と、人名はマスクされました以下、乙という、は、次の通り」という音声が再生される音声データが生成される。

次に、ユーザからの操作入力１００５によって、図１０の選択ボタン１００３が選択された場合について説明する。この場合は、墨消し対象となった項目名が墨消し対象となった理由の音声が墨消された文字列の代わりに再生されるように、Ｓ９０６で音声データが生成される。例えば、墨消し対象の項目名が個人情報のカテゴリである場合、Ｓ９０５では、「個人情報」のカテゴリに属することを示す挿入用の音のデータが取得される。本実施形態では、「個人情報のためマスクされました」と再生される音声データが取得される。

この結果、Ｓ９０６では、図１０（ｄ）に示すように、「譲渡契約書個人情報のためマスクされました以下甲という、と、個人情報のためマスクされました以下、乙という、は、次の通り」という音声が再生される音声データが生成される。

個人情報保護の対象として定義されている項目名の固有表現ラベルには、「個人情報」のカテゴリが予め関連付けられているものとする。例えば、「人名」および「住所」の項目名の固有表現ラベルに対して予め「個人情報」であることを関連付けておく。他にも、会社ごとに社外に公開すべきでない情報として予め定義されている項目名の固有表現ラベルには「機密情報」のカテゴリを予め関連付けておく。例えば、「日付」、「会社名」、「金額」の項目名は、「機密情報」のカテゴリを関連付けることが考えられる。その場合、「機密情報」のカテゴリに属することを示す挿入用の音として「社内情報のためマスクされました」または「機密情報のためマスクされました」が保存される。

次に、ユーザからの操作入力１００５によって、図１０の選択ボタン１００４が選択された場合について説明する。この場合は、Ｓ９０５では、挿入用の音のデータは取得されない。この結果、Ｓ９０６では、図１０（ｅ）に示すように、「譲渡契約書以下甲という、と、以下、乙という、は、次の通り」というように墨消し対象の文字列の音声が含まれないような音声データが生成される。

このように本実施形態では、図１０に示すように、墨消し対象の文字列が読み上げられる代わりに再生される音を、ユーザの選択に応じて、音声とするかビープ音とするか無音とするかを選択できることができる。

ユーザは音設定画面１０００で、墨消し部分に対する所望の挿入用の音を選択した後、「設定を保存」ボタン１００６を押下することで、選択された挿入用の音の情報が保存される。またユーザが「終了」ボタン１００７を押下することで、墨消し設定は終了する。

なお、文書画像に含まれる文字列には、項目名を表す文字列が含まれている場合がある。例えば、図４（ａ）の文書４０１には、文書番号の項目値「０００１１１」と文書番号の項目名を表す「文書番号」の文字列が含まれる。そして、設定画面４１０で「文書番号」の項目名を墨消し対象とするチェックボックス４２５にチェックされたとする。この場合、文書画像に含まれる「文書番号：０００１１１」という文章のうち「０００１１１」のみが文書番号の項目名の文字列として墨消し処理されることがある。この場合、図１０（ａ）の選択ボタン１００２が選択されると、Ｓ９０６では、「文書番号：０００１１１」の「０００１１１」が「文書番号が墨消しされました」に置きかえられた音声データが生成される。即ち、「文書番号、文書番号が墨消しされました」と再生される音声データが生成されてしまう。

このため、項目名を表す文字列の音声が繰り返し再生されるのを抑制する処理が行われてもよい。例えば、図１０（ａ）の選択ボタン１００２が選択された場合、項目名を示す文字列が項目値の隣にある場合は項目名と項目値とをまとめて墨消し処理されるようにしてもよい。即ち、「文書番号：０００１１１」の全てを墨消し対象とすることで、項目名を示す文字列が繰り返し再生されてしまうことを抑制できる。

以上説明したように本実施形態によれば、墨消し対象の文字列を含む文書画像から音声データを生成する場合、何の項目が墨消しされたかを判別可能な音または音声が再生される音声データを生成できる。このため、文書画像において項目名を表す文字列（例えば、氏名）の記載がない項目値（例えば、山田太郎）が墨消しされた場合でも、墨消しされた項目値が、何の項目であったかを判別可能な音声データを生成できる。また、文書画像を目視確認できない状況で音声データを利用するユーザが、何の項目の項目値が墨消しされたかを判断可能な音声が再生される音声データを生成できる。

＜その他の実施形態＞
記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、上述した実施形態の開示は、以下の構成を含む。

（構成１）
文書画像における文字列を音声に変換して得られた第１の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第２の音声データと、を取得する取得手段と、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、
前記生成手段は、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第２の音声データに基づく音声が再生されるように、
前記第１の音声データと前記第２の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理装置。

（構成２）
前記第２の音声データは、前記所定の項目を示す音声を含む音声のデータである
ことを特徴とする構成１に記載の情報処理装置。

（構成３）
前記第２の音声データは、前記所定の項目のカテゴリを示す音声を含む音声のデータである
ことを特徴とする構成１に記載の情報処理装置。

（構成４）
前記第２の音声データは、個人情報であることを示す音声を含む音声のデータである
ことを特徴とする構成３に記載の情報処理装置。

（構成５）
前記第２の音声データは、機密情報であることを示す音声を含む音声のデータである
ことを特徴とする構成３に記載の情報処理装置。

（構成６）
前記第２の音声データは、前記所定の項目であることを示すビープ音のデータである
ことを特徴とする構成１に記載の情報処理装置。

（構成７）
前記取得手段は、
前記所定の項目をユーザに識別させるための複数の音のうちから選択された音のデータを、前記第２の音声データとして取得する
ことを特徴とする構成１から６のいずれか１項に記載の情報処理装置。

（構成８）
前記複数の音のうちの何れかの音をユーザが選択するための第１の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記取得手段は、前記第１の設定画面を介して選択された音のデータを、前記第２の音声データとして取得する
ことを特徴とする構成７に記載の情報処理装置。

（構成９）
前記墨消し処理の対象とする項目を選択するための第２の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記所定の項目は、前記第２の設定画面を介してユーザが選択した項目である
ことを特徴とする構成１から８のいずれか１項に記載の情報処理装置。

（構成１０）
前記文書画像に含まれる文字列を認識する認識手段と、
前記文書画像から認識された文字列から、前記所定の項目の文字列を抽出する抽出手段と、
前記抽出された文字列が前記文書画像に表示されないように、前記墨消し処理がされる前の前記文書画像に前記墨消し処理する処理手段と、
前記墨消し処理された前記文書画像を表示部に表示させる表示制御手段と、
をさらに有することを特徴とする構成１から９のいずれか１項に記載の情報処理装置。

（構成１１）
前記抽出された文字列に、前記文字列が表す項目に応じたラベルを付与する付与手段をさらに有し、
前記取得手段は、前記ラベルに対応する音のデータを前記第２の音声データとして取得する
ことを特徴とする構成１０に記載の情報処理装置。

（構成１２）
文書画像における文字列を音声に変換して得られた第１の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第２の音声データと、を取得する取得ステップと、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成ステップと、を有し、
前記生成ステップでは、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第２の音声データに基づく音声が再生されるように、
前記第１の音声データと前記第２の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理方法。

（構成１３）
コンピュータに、構成１から１１のいずれか１項に記載の情報処理装置の各手段を実行させるためのプログラム。

１３０情報処理装置
１３３墨消し処理部
１３４音声データ生成部

Claims

文書画像における文字列を音声に変換して得られた第１の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第２の音声データと、を取得する取得手段と、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、
前記生成手段は、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第２の音声データに基づく音声が再生されるように、前記第１の音声データと前記第２の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理装置。
前記第２の音声データは、前記所定の項目を示す音声を含む音声のデータである
ことを特徴とする請求項１に記載の情報処理装置。
前記第２の音声データは、前記所定の項目のカテゴリを示す音声を含む音声のデータである
ことを特徴とする請求項１に記載の情報処理装置。
前記第２の音声データは、個人情報であることを示す音声を含む音声のデータである
ことを特徴とする請求項３に記載の情報処理装置。
前記第２の音声データは、機密情報であることを示す音声を含む音声のデータである
ことを特徴とする請求項３に記載の情報処理装置。
前記第２の音声データは、前記所定の項目であることを示すビープ音のデータである
ことを特徴とする請求項１に記載の情報処理装置。
前記取得手段は、
前記所定の項目をユーザに識別させるための複数の音のうちから選択された音のデータを、前記第２の音声データとして取得する
ことを特徴とする請求項１に記載の情報処理装置。
前記複数の音のうちの何れかの音をユーザが選択するための第１の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記取得手段は、前記第１の設定画面を介して選択された音のデータを、前記第２の音声データとして取得する
ことを特徴とする請求項７に記載の情報処理装置。
前記墨消し処理の対象とする項目を選択するための第２の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記所定の項目は、前記第２の設定画面を介してユーザが選択した項目である
ことを特徴とする請求項１に記載の情報処理装置。
前記文書画像に含まれる文字列を認識する認識手段と、
前記文書画像から認識された文字列から、前記所定の項目の文字列を抽出する抽出手段と、
前記抽出された文字列が前記文書画像に表示されないように、前記墨消し処理がされる前の前記文書画像に前記墨消し処理する処理手段と、
前記墨消し処理された前記文書画像を表示部に表示させる表示制御手段と、
をさらに有することを特徴とする請求項１に記載の情報処理装置。
前記抽出された文字列に、前記文字列が表す項目に応じたラベルを付与する付与手段をさらに有し、
前記取得手段は、前記ラベルに対応する音のデータを前記第２の音声データとして取得する
ことを特徴とする請求項１０に記載の情報処理装置。
文書画像における文字列を音声に変換して得られた第１の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第２の音声データと、を取得する取得ステップと、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成ステップと、を有し、
前記生成ステップでは、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第２の音声データに基づく音声が再生されるように、前記第１の音声データと前記第２の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理方法。
コンピュータに、請求項１から１１のいずれか１項に記載の情報処理装置の各手段を実行させるためのプログラム。