JP2024071951A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2024071951A JP2024071951A JP2022182491A JP2022182491A JP2024071951A JP 2024071951 A JP2024071951 A JP 2024071951A JP 2022182491 A JP2022182491 A JP 2022182491A JP 2022182491 A JP2022182491 A JP 2022182491A JP 2024071951 A JP2024071951 A JP 2024071951A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- voice data
- document image
- information processing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 86
- 238000003672 processing method Methods 0.000 title claims 2
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 27
- 239000013598 vector Substances 0.000 description 15
- 238000003780 insertion Methods 0.000 description 14
- 230000037431 insertion Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013523 data management Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】墨消しされた文字列が読み上げられる代わりに墨消しされた文字列の項目が識別可能な音声が再生される音声データを生成すること。
【解決手段】
情報処理装置は、文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得手段と、前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、前記生成手段は、前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する。
【選択図】図9
【解決手段】
情報処理装置は、文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得手段と、前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、前記生成手段は、前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する。
【選択図】図9
Description
本開示は、文字列データを音声データに変換する技術に関する。
スキャンまたはFAX等で文書を読み取ることで得られた文書画像の中には、個人情報(例えば、氏名、住所)または機密情報(例えば、取引先の会社名)を示す文字列が含まれる場合がある。このような文書画像に対して、個人情報または機密情報を示す文字列を墨消し(不可視化)するように加工して出力する技術が知られている。また、文書画像に対してOCR処理を実行し、その結果得られた文字列を音声データに変換して出力する技術が知られている。
特許文献1は、文書画像における墨消しされた文字列が読み上げられる際にはBGMを流すことが開示されている。
文書画像内の墨消しされた文字列が読み上げられる代わりにBGMが再生されると、ユーザは、どの項目の文字列が墨消しされたかを判別できなくなることがある。
例えば、音声データを使用するユーザには、運転中、歩行中、または外出先にいるユーザのようなPC等の画面を閲覧できない環境に置かれたユーザがいる。または、PCの操作ができないユーザ、目の不自由なユーザ、小さい文字が読めない高齢者のユーザがいる。これらのユーザは、音声のみによって文書の内容を理解するために、文書画像から生成された音声データを利用することが考えらえる。即ち、文書画像を表示させずに、文書画像から生成された音声データを再生することが考えらえる。この場合、墨消しされた文字列の音声の代わりにBGMが再生されると、ユーザは、どの項目が墨消しされたかを前後関係や文脈から予測しなければならない。
また、PC等の画面に文書画像を表示しながら文書画像内の文字列の音声を聴くために、音声データが用いられる場合がある。例えば、PC等の画面を閲覧できる環境下に置かれたユーザが、画面に表示された文書画像を目視で確認しながら音声で文書の内容を理解するために音声データが用いられる。この場合、項目を表す文字列(例えば、「氏名」の文字列)の記載がない当該項目に対応する文字列(例えば、「山田太郎」の文字列)が墨消しされると、どの項目の文字列が墨消しされたかを文書画像からも判別することが困難となる場合がある。
本開示の情報処理装置は、文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得手段と、前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、前記生成手段は、前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成することを特徴とする。
本開示によれば、墨消しされた文字列が読み上げられる代わりに墨消しされた文字列の項目が識別可能な音声が再生される音声データを生成できる。
本開示の技術を実施するための形態について図面を用いて説明する。なお、以下の実施形態に記載された構成要素は例示であって、本開示の技術範囲を限定する趣旨のものではない。
<実施形態1>
[情報処理システムの構成]
図1は、情報処理システム100の構成例を示した図である。図1に示すように、情報処理システム100は、例えば、画像形成装置110、学習装置120、および情報処理装置130を有し、各装置はネットワーク104を介して互いに接続されている。情報処理システム100において、画像形成装置110、学習装置120、情報処理装置130は、ネットワーク104に対して単一接続ではなく、複数接続された構成であってもよい。例えば、情報処理装置130は、高速演算リソースを有する第1のサーバ装置と大容量ストレージを有する第2のサーバ装置で構成され、ネットワーク104を介して互いに接続された構成であってもよい。
[情報処理システムの構成]
図1は、情報処理システム100の構成例を示した図である。図1に示すように、情報処理システム100は、例えば、画像形成装置110、学習装置120、および情報処理装置130を有し、各装置はネットワーク104を介して互いに接続されている。情報処理システム100において、画像形成装置110、学習装置120、情報処理装置130は、ネットワーク104に対して単一接続ではなく、複数接続された構成であってもよい。例えば、情報処理装置130は、高速演算リソースを有する第1のサーバ装置と大容量ストレージを有する第2のサーバ装置で構成され、ネットワーク104を介して互いに接続された構成であってもよい。
画像形成装置110は、プリント、スキャン、FAXのように複数の機能を備えたMFP(Multi-Function Peripheral)などで実現される。画像形成装置110は、機能部として少なくとも画像取得部118を有する。
画像形成装置110はスキャナデバイス206(図2参照)を有している。スキャナデバイス206が紙などの記憶媒体に文字列が印刷された文書111を光学的に読み取り、画像取得部118は、所定のスキャン画像処理を行うことで文書画像113を生成する。また、例えば、画像取得部118は、不図示のFAX送信機から送信されたFAXデータ112を受信し、所定のFAX画像処理を行うことで文書画像113を生成する。画像取得部118は、生成された文書画像113を情報処理装置130に送信する。
画像形成装置110は、前述したスキャンまたはFAXの機能を備えたMFP以外に、PC(Personal Computer)などで実現される構成であってもよい。例えば、PC上で動作する文書作成アプリケーションを用いて生成された、PDF、JPEG等の文書画像113が情報処理装置130に送信されてもよい。
学習装置120は、学習データ生成部121、および学習部122の機能部を有する。学習データ生成部121は、エンジニアによって提供された複数の文書画像のサンプル114に基づき、文書画像のサンプル114に含まれる文字列群のうちの抽出対象の文字列に正解ラベルが付与されたデータを学習データとして生成する。
学習部122は、学習データ生成部121が生成した学習データを用いて、文書画像に含まれる抽出対象の文字列の項目名(固有表現ラベル)を推定して出力する文字列抽出器115を生成する。
情報処理装置130は、情報処理部131、およびデータ管理部135の各機能部を有する。情報処理部131には、文字認識部132、墨消し処理部133、および音声データ生成部134が少なくとも含まれる。
文字認識部132は、文書画像113に対してOCR処理を実行し、文字認識結果として、文書画像内に含まれる複数の文字列のデータを生成する。
墨消し処理部133は、文字列抽出器115を利用し、画像形成装置110から受信した文書画像113に含まれる文字列の中から、予め設定された墨消し対象の文字列を抽出する。そして、墨消し処理部133は、文書画像113のうち墨消し対象の文字列が存在した領域を不可視化墨消し加工することで墨消し画像116を生成する。
「墨消し」の用語は、一般に、画像の一部を所定の色で塗りつぶして隠すことを意味する。このため、音声データの一部の情報を隠すことを意味する場合などに「墨消し」を「マスク」と言い換えている場合がある。「墨消し」および「マスク」いずれも情報を隠すことを意味する。
音声データ生成部134は、生成した墨消し画像116に含まれる文字列を読み上げる音声のデータである音声データ117(読み上げ音声データ)を生成する。音声データ生成部134は、後述する音声変換器を利用して音声データ117を生成する。
音声変換器は、一般に、音声合成サービスとして広く知られるものであって、例えば、カーナビゲーションのガイド音声、視覚障害者向けのスクリーンリーダー、電子書籍の読み上げ機能などで広く用いられる公知の技術が用いられてよい。本実施形態では、文書画像をOCR処理して得られた文字列を文書画像中の配置順序に従って連結したテキストを音声変換器に対して入力し、当該テキストを読み上げる音声のデータが音声データ117として生成される。
データ管理部135は、生成された墨消し画像116及び音声データ117を所定の記憶部に記憶して管理する。また、データ管理部135は、ユーザの要求に従って、墨消し画像116の表示または音声データ117を再生するために対応するデータを出力する。
ネットワーク104は、LANやWAN等で実現されるものであって、画像形成装置110、学習装置120、情報処理装置130の間を互いに接続して、装置間でデータを送受信するための通信部である。
[画像形成装置のハードウェア構成]
図2は、図1の情報処理システム100に含まれる画像形成装置110、学習装置120、情報処理装置130のハードウェア構成の一例を示した図である。
図2は、図1の情報処理システム100に含まれる画像形成装置110、学習装置120、情報処理装置130のハードウェア構成の一例を示した図である。
図2(a)は、画像形成装置110のハードウェア構成を示す図である。図2(a)に示すように、画像形成装置110は、CPU201、ROM202、RAM204、プリンタデバイス205、スキャナデバイス206、ストレージ208、外部インタフェース211等を有し、データバス203を介して互いに接続される。CPU201は、画像形成装置110の動作全体を制御するための制御部である。CPU201は、ROM202に記憶された起動プログラムを実行することで、画像形成装置110のシステムを起動し、ストレージ208に記憶された制御プログラムを実行することで、画像形成装置110のプリント、スキャン、FAX等の機能を実現する。ROM202は、不揮発性メモリで実現されるものであって、画像形成装置110を起動する起動プログラムを格納するための記憶部である。データバス203は、画像形成装置110を構成するデバイス間で相互にデータを送受信するための通信部である。RAM204は、揮発性メモリで実現されるものであって、CPU201が制御プログラムを実行する際のワークメモリとして使用される記憶部である。
プリンタデバイス205は、画像出力デバイスであり、画像を紙などの記憶媒体に印刷して出力する。スキャナデバイス206は、画像入力デバイスであり、文字や図表等が印刷された紙などの文書を光学的に読み取って文書画像を生成するために用いられる。原稿搬送デバイス207は、ADF(Auto Document Feeder)等で実現されるものであって、原稿台に載置された原稿を検知し、検知した原稿を1枚ずつスキャナデバイス206に搬送する。
ストレージ208は、HDD(Hard Disk Drive)等で実現されるものであって、前述の制御プログラムおよび文書画像を記憶するための記憶部である。入力デバイス209は、タッチパネルおよびハードキー等で実現されるものであって、ユーザからの画像形成装置110に対する操作入力を受け付ける。表示デバイス210は、液晶ディスプレイ等で実現されるものであって、画像形成装置110の設定画面をユーザに対して表示出力するための表示部である。外部インタフェース211は、画像形成装置110とネットワーク104との間を接続するものであって、不図示のFAX送信機からFAXデータを受信したり、情報処理装置130に対して文書画像を送信したりするためのインタフェース部である。
図2(b)は、学習装置120のハードウェア構成を示す図である。図2(b)に示すように、学習装置120は、CPU231、ROM232、RAM234、ストレージ235、入力デバイス236、表示デバイス237、外部インタフェース238、GPU239を有し、データバス233を介して互いに接続されている。
CPU231は、学習装置120の動作全体を制御するための制御部である。CPU231は、ROM232に記憶されたブートプログラムを実行することで、学習装置120のシステムを起動する。また、CPU231は、ストレージ208に記憶されたプログラムを実行することで、文書データを生成したり、文書データを用いて学習して文字列抽出器115を生成したりする。ROM232は、不揮発性メモリで実現されるものであって、学習装置120を起動するブートプログラムを格納するための記憶部である。データバス233は、学習装置120を構成するデバイス間で相互にデータを送受信するための通信部である。RAM234は、揮発性メモリで実現されるものであって、CPU231が文書データ生成や学習を行うプログラムを実行する際のワークメモリとして使用される記憶部である。
ストレージ235は、HDD(Hard Disk Drive)等で実現されるものであって、文書データや文字列抽出器115を記憶するための記憶部である。入力デバイス236は、マウスおよびキーボード等で実現されるものであって、エンジニアからの学習装置120に対する操作入力を受け付ける。表示デバイス237は、液晶ディスプレイ等で実現されるものであって、学習装置120の設定画面をエンジニアに対して表示出力するための表示部である。外部インタフェース238は、学習装置120と、ネットワーク104との間を接続するものであって、不図示のPC等から文書画像を受信したり、情報処理装置130に対して文字列抽出器115を送信したりするためのインタフェース部である。GPU239は、画像処理プロセッサで構成された演算部である。GPU239は、例えば、CPU231から与えられた制御コマンドに従って、与えられた文書画像に含まれる文字列のデータに基づき文字列抽出器115を生成するための演算を実行する。
図1に示す学習装置120に含まれる各機能部は、CPU231が所定のプログラムを実行することにより実現されるが、これに限られるものではない。他にも例えば、演算を高速化するためのGPU239または、不図示のFPGA(Field Programmable Gate Array)などのハードウェアが利用されてもよい。各機能部は、ソフトウエアと専用ICなどのハードウェアとの協働で実現されてもよいし、一部またはすべての機能がハードウェアのみで実現されてもよい。
図2(c)は、情報処理装置130のハードウェア構成を示す図である。図2(c)に示すように、情報処理装置130は、CPU261、ROM262、RAM264、ストレージ265、入力デバイス266、表示デバイス267、外部インタフェース268を有する。各部はデータバス263を介して互いに接続される。
CPU261は、情報処理装置130の動作全体を制御するための制御部である。CPU261は、ROM262に記憶されたブートプログラムを実行することで、情報処理装置130のシステムを起動し、ストレージ265に記憶された情報処理プログラムを実行することで、文字認識、墨消し加工、音声変換などの情報処理を実行する。
ROM262は、不揮発性メモリで実現されるものであって、情報処理装置130を起動するブートプログラムを格納するための記憶部である。データバス263は、情報処理装置130を構成するデバイス間で相互にデータを送受信するための通信部である。RAM264は、揮発性メモリで実現されるものであって、CPU261が情報処理プログラムを実行する際のワークメモリとして使用される記憶部である。ストレージ265は、HDD(Hard Disk Drive)等で実現されるものであって、前述の情報処理プログラム、文書画像113、文字列抽出器115、音声データ117等を記憶するための記憶部である。
入力デバイス266は、マウスやキーボード等で実現されるものであって、ユーザまたはエンジニアから情報処理装置130に対する操作入力を受け付ける操作部である。表示デバイス267は、液晶ディスプレイ等で実現されるものであって、情報処理装置130の設定画面をユーザまたはエンジニアに対して表示するための表示部である。CPU261は、表示デバイス267に表示される画面を制御する表示制御部として動作する。
外部インタフェース268は、情報処理装置130と、ネットワーク104との間を接続するものであって、学習装置120から文字列抽出器115を受信したり、画像形成装置110から文書画像113を受信したりするためのインタフェース部である。
図1の情報処理装置130に含まれる各機能部は、CPU261が所定のプログラムを実行することにより実現されるが、これに限られるものではない。他にも例えば、演算を高速化するためのGPU(Graphics Processing Unit)、または、FPGA(Field Programmable Gate Array)などのハードウェアが利用されてもよい。各機能部は、ソフトウエアと専用ICなどのハードウェアとの協働で実現されてもよいし、一部またはすべての機能がハードウェアのみで実現されてもよい。
[シーケンス]
図3は、図1の情報処理システム100の利用シーケンスを示す図である。各処理の説明における記号「S」は、シーケンスにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。また、説明の便宜上、ユーザまたはエンジニアの操作にもステップを用いて説明している。
図3は、図1の情報処理システム100の利用シーケンスを示す図である。各処理の説明における記号「S」は、シーケンスにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。また、説明の便宜上、ユーザまたはエンジニアの操作にもステップを用いて説明している。
図3の(a)の点線内のステップは、文字列抽出器115を生成するステップの流れを説明するためのステップを示している。
S301において情報処理システム100に係るエンジニア301は、文字列抽出器115を生成するために、学習装置120に複数の文書画像のサンプル114を入力する。
S302において学習装置120は、文書画像のサンプル114のデータを取得する。そして文字列抽出器115を生成する。
S303において学習装置120は、情報処理装置130に対して、生成した文字列抽出器115を送信する。なお、図3のS302~S303の学習装置120で実行される処理の詳細なフローは後述する。
次に図3の(b)の点線内のステップについて説明する。S304においてエンジニア301は、文字列を音声に変換するための音声変換器を情報処理装置130に送信する。音声変換器は、情報処理装置130のストレージ265に保存される。
S305においてエンジニア301は、文書画像に含まれる墨消し処理された文字列の代わりに挿入される音(音声)のデータである挿入用の音のデータを保存する。挿入用の音のデータは、例えば、予め定めたビープ音、および「人名はマスクされました」等の予め定めた音声のデータである。詳細は後述する。
次に図3の(c)の点線内のステップについて説明する。図3の(c)の点線内は、情報処理システム100を利用するユーザ300の指示に従い、文書画像における墨消し対象の文字列の領域の墨消し処理の流れを説明する図である。
S306においてユーザ300は、画像形成装置110に紙の文書(原稿)をセットして、画像形成装置110に文書のスキャンの実行を指示する。
S307において画像形成装置110のスキャナデバイス206は紙の文書を読み取り、画像取得部118はスキャンされた文書の文書画像を生成する。そして、画像取得部118は、情報処理装置130に生成された文書画像を送信する。
S308においてユーザ300は、送信された文書画像における墨消し処理の対象とする項目名を指定する。
図4は、墨消し処理の対象となる項目名をユーザが選択するための設定画面410の一例を説明する図である。図4(a)は、S306でスキャンの対象となった文書の一例を示す図である。図4(b)は、情報処理装置130の表示デバイス267に表示される設定画面410の一例を示す図である。設定画面410は、画像形成装置110の表示デバイス210に表示されてもよい。
設定画面410には、文書401に対応する文書画像のプレビューを表示するプレビュー表示領域411が含まれる。さらに、人名、住所、日付、会社名、金額、文書番号のような予め定めた項目名を選択して指定できるチェックボックス420~425が含まれる。ユーザは、墨消し処理の対象となる項目名に対応するチェックボックスにチェックを入れる操作入力412をすることで、墨消しの対象とする項目名を指定する。
S309において情報処理装置は、S307で送信された文書画像を受信して、受信した文書画像に対して、文字認識処理等の画像処理を実行する。
S310において情報処理装置130は、S308でユーザ300が選択した墨消し処理の対象となる項目名の情報を取得し、S307で送信された文書画像に対する墨消し対象の項目名の情報を保存する。
S311において情報処理装置130は、S309で取得した墨消し対象の項目名の情報を用いて、S307で受信した文書画像に対して墨消し処理をして、墨消し画像を生成する。
S312において情報処理装置130は、S311で生成された墨消し画像における墨消し対象の項目名を特定するための情報であるラベルを保存する。
S313において情報処理装置130は、ユーザからの要求に応じて、S311で生成した墨消し画像を送信する。なお、図3(c)のS309~S312の詳細な処理フローは後述する。
図3(d)は、S311で生成された墨消し画像に対応した音声データを生成し、ユーザに対して音声データを送信する流れを説明する図である。S308においてユーザ300は、文書画像から認識された文字列を音声に変換して音声データを生成する指示を情報処理装置130に対して行うことができる。このユーザの指示があった場合、次のステップの処理が行われる。
S314において情報処理装置130は、S311で生成した墨消し画像に含まれる文字列を連結して得られたテキストを、S304で保存された音声変換器に入力して、音声に変換する。
S315において情報処理装置130は、S312で保存したラベルに基づいて、S305で保存した挿入用の音のデータの中から、ラベルに対応する挿入用の音のデータを取得する。
S316において情報処理装置130は、S314で生成した音声のデータに対して、S315で取得した音のデータを挿入することでデータを合成して、墨消し画像に対応する音声データを生成する。
S317において情報処理装置130は、ユーザ300からの要求に応じて、S316で生成した音声データを送信する。なお、図3(d)の詳細な処理フローは後述する。
[文字列抽出器を生成する処理]
図5は、固有表現の文字列(項目値)の具体例と、文字列(項目値)が示す項目の名称である項目名と、をテーブル形式でまとめた図である。文書画像に含まれる文字列の中から抽出される固有表現の文字列について説明する。
図5は、固有表現の文字列(項目値)の具体例と、文字列(項目値)が示す項目の名称である項目名と、をテーブル形式でまとめた図である。文書画像に含まれる文字列の中から抽出される固有表現の文字列について説明する。
テーブルの列510には、固有表現の項目名である、人名、住所、日付、会社名、金額文書番号がそれぞれの行511~515に保持されている。またテーブルの列520の行511~515には、列510に保持されている項目名に対応する項目値の具体例となる文字列が複数保持されている。
図5で示した文字列は、本実施形態における抽出対象の文字列の具体例を示したものである。文字列には、<ラベル:人名>、<ラベル:住所>、<ラベル:日付>、<ラベル:会社名>、<ラベル:金額>のように、項目名を示す固有表現ラベルが付与される。
図6(a)は、文書画像のサンプル114に含まれる文字列のデータと、文字列のデータを変換して得られた特徴ベクトルとを説明するための概念図である。図6(a)に示すように、文書画像のサンプル114に含まれる文字列601は、例えば、学習済のBERTの言語モデルを用いることで、768次元の数値で表現された特徴ベクトル602に変換することができる。文字列のデータを特徴ベクトルに変換する技術は、Word2Vec、GloVe、fastText、BERT,XLNet、ALBERTなどの公知の技術を用いればよい。
図6(b)は、図6(a)で示した複数の特徴ベクトルを、機械学習によるクラスタリング手法を用いてグループ化する様子を説明するための概念図である。複数の特徴ベクトルをグループ化するクラスタリング手法としては、最短距離法、最長距離法などの階層クラスタリング手法や、K-means、X-meansなどの非階層クラスタリング手法などの公知の技術がある。図6(b)は、図6(a)で示した768次元で表現される特徴ベクトルを、PCAやt-SNEなどの公知の技術を用いて2次元平面に次元圧縮するように変換して、文字列のグループ化を可視化して示した図である。図6(b)に示すように、図6(a)で示した文字列データの特徴ベクトル602に対して、前述したクラスタリング手法を用いることで、同一の項目名の文字列が含まれるグループ611、613、615が得られる。
図6(b)に示すように、同じ項目の文字列は類似した特徴量を持つため、特徴ベクトルは、多次元空間上で互いに近い位置に存在する。例えば、「人名」の文字列はそれぞれ類似の特徴量を持つので、クラスタリングなどの手法を用いることで、「人名」を表す文字列には「人名」の項目名であることを示す固有表現ラベルを自動で付与することができる。例えば、図6(b)のグループ611に含まれる文字列には<ラベル:人名>の固有表現ラベルを付与することができる。同様に、グループ613に含まれる文字列には<ラベル:日付>、グループ615に含まれる文字列には<ラベル:金額>の固有表現ラベルを付与することができる。このように、文書画像のサンプル114に出現する固有表現の文字列群を獲得できる。この方法を用いて、後述する学習データが生成される。
図7は、図3の(a)の点線内のS302~S303(文字列抽出器115を生成に係る処理)の詳細を説明するフローチャートである。図7のフローチャートで示される一連の処理は、学習装置120のCPU231またはGPU239の何れかがROM232またはストレージ235に記憶されているプログラムコードをRAM234に展開し実行することにより行われる。また、図7におけるステップの一部または全部の機能をASICまたは電子回路等のハードウェアで実現してもよい。
S701において学習データ生成部121は、図3のS301でエンジニア301から入力された複数の文書画像を、文書画像のサンプル114として取得する。具体的には、例えば、法律、会計、人事、医療などの事務職で扱う文書画像のサンプル114を取得する。
図4(a)は、文書の一例を示す図である。例えば、図4(a)のような契約書の文書401などの法律系の事務職の分野で扱う文書のように特定の業務分野で扱う文書の画像のみが文書画像のサンプルとして取得されてもよい。あるいは、法律、会計、人事、医療の業務分野全般で扱う文書の画像のように複数の異なる業務分野で扱う文書の画像が文書画像のサンプル114として取得されてもよい。
S702において学習データ生成部121は、S701で取得した文書画像のサンプルに含まれる文字列に、対応する固有表現ラベルを正解ラベルとして付与して、学習データを生成する。例えば、次の手順で学習データは生成される。学習データ生成部121は、はじめに、図6(a)のように、文書画像のサンプルから文字列を抽出して、抽出された文字列を特徴ベクトルに変換する。そして、特徴ベクトルに基づき、図6(b)のように文書画像のサンプルから抽出された文字列群を、氏名、住所、日付、会社名、金額などの項目名(固有表現)にグループ分けする。グループ分けされた文字列群に、その項目名を示す固有表現ラベルを自動判別し、正解ラベルとして固有表現ラベルを付与して学習データを生成する。
学習データは、抽出された文字列に正解ラベルをエンジニアが手動で付与して生成されてもよい。
また、学習データは、図5のようなデータベースに基づき自動生成されてもよい。例えば、図4(a)の文書401に含まれる「山田太郎」の文字列402のような「人名」の項目名の項目値を、図5の「人名」に対応する項目値のいずれかと置き換えるようにして図5のデータベースを更新することで学習データが生成されてもよい。同様に、抽出対象の住所、日付、会社名、金額などの他の項目名についても、文書画像のサンプルから得られた文字列を、図5のそれぞれの項目名に対する項目値のいずれかと置き換えることで、学習データが自動生成されてもよい。
学習データとして取得する方法は、他にも、予め与えられた各種データベースを利用する方法でもよい。例えば、人名データベースに登録された人名の文字列を、個人情報保護の観点から、姓・名をランダムに組み合わせて匿名化された人名の文字列を生成して、生成された文字列に「人名」の正解ラベルを付与することで学習データが生成されてもよい。同様に、地名データベースや組織名データベースに登録された文字列の取り込むことで学習データが生成されてもよい。同様に、金額や日付など、数字と記号の組み合わせの表記パターンが複数存在する場合に、取りうる数値の範囲内でこれらの表記パターンと組み合わせた文字列をランダムに生成した疑似生成データを利用して学習データが生成されてもよい。
S703において学習部122は、S702で生成した学習データに基づき文字列抽出器115を生成する。S703で生成される文字列抽出器115は、一般に、NER(Named Entity Recognition)と呼ばれる分野の分類タスクとして扱われるものであって、画像および自然言語の特徴量を用いた機械学習によって実現されるものである。
機械学習によって文字列抽出器115を生成する方法として、例えば、文書画像全体の文字列の特徴量を入力すると、文書画像内の夫々の文字列の項目名が出力される学習モデルを用意する。教師データは、学習データの項目名(正解ラベル)とする。そして、文書画像内の文字列の特徴量が入力されると、抽出対象の文字列については項目名(固有表現ラベル)を出力し、抽出対象外の文字列には項目名を出力しないように、用意した学習モデルを学習させる。これによって、文書画像内の文字列の特徴量を入力すると、文書画像内の各文字列に対応する項目名(固有表現ラベル)が出力される文字列抽出器として動作する学習済みモデルを生成することがでる。
なお、文字列抽出器115は、機械学習以外の方法で生成されてもよい。例えば、文字列抽出器に、予め算出された項目名(固有表現ラベル)毎の文字列群の特徴ベクトルの重心ベクトルを保持させておく。そして、任意の文字列の特徴ベクトルと、項目名毎の重心ベクトルとをそれぞれ比較して、類似する重心ベクトルに対応する項目名を、任意の文字列の項目名として決定するように構成された文字列抽出器でもよい。類似するかの判定方法は、例えば、コサイン類似度比較などの方法を用いればよい。
S704において学習部122は、S703で生成した文字列抽出器115を、情報処理装置130に送信する。
[文字列抽出器を用いた墨消し処理]
図8は、図3の(c)の点線内におけるS309~313の詳細を説明するフローチャートである。図8のフローチャートで示される一連の処理は、情報処理装置130のCPU261がROM262またはストレージ265に記憶されているプログラムコードをRAM264に展開し実行することにより行われる。また、図8におけるステップの一部または全部の機能をASICまたは電子回路等のハードウェアで実現してもよい。
図8は、図3の(c)の点線内におけるS309~313の詳細を説明するフローチャートである。図8のフローチャートで示される一連の処理は、情報処理装置130のCPU261がROM262またはストレージ265に記憶されているプログラムコードをRAM264に展開し実行することにより行われる。また、図8におけるステップの一部または全部の機能をASICまたは電子回路等のハードウェアで実現してもよい。
S801において文字認識部132は、図3のS307で画像形成装置110から送信された文書画像を取得する。
S802において文字認識部132は、S801で取得した文書画像に含まれる文字列領域を抽出する。そして、抽出された文字列領域に対して、文字認識処理(OCR処理)を実行して、文書画像に含まれる文字列のデータ(文字列データ)を取得する。
文字列領域は、ブロックセレクション(BS)処理を行うことで抽出される。ブロックセレクション(BS)処理では、文書画像をオブジェクト単位に分割して、文書画像内のブロック領域を抽出する処理が行われる。そして、抽出された各ブロック領域の属性を決定する処理が行われる。具体的には、例えば、文字、写真、図表などの属性を決定し、文書画像を、異なる属性を持つブロック領域に分割する。ブロックセレクション処理は、公知の領域判定技術を用いて実現できる。
OCR処理の結果得られる文字列データは、例えば、文書画像内で間隔を空けたり罫線で区切られたりすることで配置された文書画像内の単語区切りの文字列を、配置情報に基づく所定の読出し順序で連続的に読み出されて得られたデータでもよい。または、文字列データは、例えば、文書画像に含まれる文章に対して形態素解析の手法を用いて分割された単語区切りの文字列を、配置情報に基づく所定の読出し順序で連続的に読み出されて得られたデータでもよい。
S803において墨消し処理部133は、図3のS303で学習装置120から送信された文字列抽出器115を取得する。
S804において墨消し処理部133は、文字列抽出器115を用いて、S802で取得した文字列データから、墨消し対象となり得る項目名(固有表現)に対応する文字列を抽出する。本実施形態では、墨消し対象となり得る項目名は、「人名」「住所」「日付」「会社名」「金額」「文書番号」であるための、それらの項目名の文字列が抽出される。文字列の固有表現を認識して抽出する技術は、前述したように、一般に、NER(Named Entity Recognition)と呼ばれる分野の分類タスクとして扱われるものである。
S805において墨消し処理部133は、S308でユーザが設定画面410を操作して指示した墨消し処理の対象とする項目名を示す情報を取得する。
図4(b)の設定画面410において、例えば、ユーザが、「人名」の項目名に対応するチェックボックス420を選択した場合、S805では、「人名」の項目名が墨消し対象に選択されたことを示す情報が取得される。
S806において墨消し処理部133は、S801で取得された文書画像において、S805で取得された墨消し対象の項目名の文字列が含まれる領域を墨消し処理して得られた墨消し画像を生成する。そして生成した墨消し画像のプレビューを設定画面410のプレビュー表示領域411に表示する。
例えば、図4(a)に示す文書401がスキャンされて得られた文書画像が、S801において取得された文書画像とだとする。文書401には、人名である「山田太郎」の文字列402および「鈴木次郎」の文字列403が含まれる。このため、S804では、「山田太郎」の文字列402、および「鈴木次郎」の文字列403には、項目名が「人名」であることを示す固有表現ラベルが付与される。
そして、ユーザが「人名」の項目名を墨消し対象に選択してその情報がS805で取得されたとする。この場合、墨消し処理部133は、プレビュー表示領域411の中で、人名の文字列である「山田太郎」の文字列402および「鈴木次郎」の文字列403の文字列が配置されていた画像領域に、文字列の代わりに墨消し430、431を表示するように制御する。文書画像に含まれる別の人名を表す文字列が文書画像内にあった場合にも同様に、プレビュー表示領域411の中で、墨消し432を表示するように制御する。「終了」ボタン414が押下されると、墨消し設定を終了する。
S807において墨消し処理部133は、設定画面410において選択されている墨消し対象の項目名を確定させて保存するユーザの操作を受け付けたかを判定する。
ユーザは、設定画面410のプレビュー表示領域411に表示されている墨消し画像を目視でチェックして所望の画像が生成されていることが確認した場合、「設定を保存」のボタン413を押下する。その押下が受け付けられた場合、ユーザの保存の操作を受け付けたと判定される。ユーザの保存の指示が受け付けられたと墨消し処理部133が判定した場合(S807でYES)、S808に遷移する。
ユーザが設定画面410において何れかのチェックボックス420~424が押下されて、その操作が受け付けられた場合、墨消し処理の対象とする項目名が変更されたことになる。このように、ユーザから受け付けた指示が墨消し処理の対象とする項目名の変更の指示の場合(S807でNO)、S805に遷移して、S805~S806を繰り返す。
例えば、図4の設定画面410の状態において「住所」の項目名に対応するチェックボックス421が選択された場合、S805に戻る。そして、S805~S806が繰り返されることで、プレビュー表示領域411に「東京都千代田区大手町×丁目××番××号」の文字列433が配置されていた画像領域が墨消しされるように制御される。
S808において墨消し処理部133は、「設定を保存」のボタン413が押下された際に選択されていた項目名が墨消しされた文書画像である墨消し画像を保存する。
S809において墨消し処理部133は、直前のS805で取得した墨消し対象の項目名を示す固有表現ラベルを特定するための墨消し対象ラベルを保存する。例えば、墨消し対象の項目名に対応する固有表現ラベルが<ラベル:人名>であった場合、墨消し対象ラベルとして<ラベル:人名>が保存される。
[墨消し画像に対する音声変換処理]
図9は、図3の(d)の点線内におけるS314~316の詳細を説明するフローチャートである。図9のフローチャートで示される一連の処理は、情報処理装置130のCPU261がROM262またはストレージ265に記憶されているプログラムコードをRAM264に展開し実行することにより行われる。また、図9におけるステップの一部または全部の機能をASICまたは電子回路等のハードウェアで実現してもよい。
図9は、図3の(d)の点線内におけるS314~316の詳細を説明するフローチャートである。図9のフローチャートで示される一連の処理は、情報処理装置130のCPU261がROM262またはストレージ265に記憶されているプログラムコードをRAM264に展開し実行することにより行われる。また、図9におけるステップの一部または全部の機能をASICまたは電子回路等のハードウェアで実現してもよい。
S901において音声データ生成部134は、図3のS304で保存された音声変換器を取得する。
S902において音声データ生成部134は、図3のS309(図8のS802)で取得された文書画像の文字列のデータを取得する。
S903において音声データ生成部134は、S901で取得した音声変換器を用いて、文書画像内の文字列が読み上げられるように、S902で取得した文字列のデータを音声のデータに変換して、音声データを生成する。
S904において音声データ生成部134は、図3のS312(図8のS809)で保存された墨消し対象ラベルを取得する。
S905において音声データ生成部134は、図3のS305で保存された挿入用の音のデータのうち、S904で取得した墨消し対象ラベルが示す項目名に対応する音のデータを取得する。挿入用の音データについては後述する。
S906において音声データ生成部134は、S903で生成した音声データのうち、墨消し対象の項目名の文字列の音声の代わりに挿入用の音が再生されるように、データを合成することで新たな音声データを生成する。この結果、図3のS311(図8のS808)で保存された墨消し画像に対応する音声データが生成される。生成された音声データは、墨消し対象の項目名の文字列の部分については、墨消し対象の項目名の文字列が読み上げられる代わりにS905で取得した挿入用の音が再生される音声データとなる。また、墨消し対象の文字列以外の文字列が読み上げられる場合はS903で生成した音声データに基づく音声が再生される音声データとなる。
図10(a)は、S905で取得される挿入用の音のデータをユーザが選択するための音設定画面1000の一例を示す図である。音設定画面1000は、図3のS308で、ユーザが墨消し対象を指定して、かつ、音声変換を指示した場合に、表示される設定画面である。例えば、情報処理装置130の表示デバイス267に表示される。
本実施形態では、文書画像の文字列が音声変換される場合、墨消しされた文字列については、墨消しされた文字列の音声の代わりに挿入用の音が再生されるように音声データが生成される。挿入用の音には音声も含まれる。墨消しされた文字列の音声の代わりとなる挿入用の音は、墨消しされた文字列が特定できないような音または音声である。しかし、選択可能な挿入用の音には、墨消しされた文字列が特定できない音であるが、墨消しされた文字列の項目をユーザが識別できるような音または音声が含まれる。挿入用の音は、複数の音(音声)から選択可能なように構成されている。
音設定画面1000には、複数の音または音声から、挿入用の音を選択するための選択ボタン1001~1004が含まれる。
文書画像に含まれる「譲渡契約書 山田太郎 以下甲という、と、鈴木次郎以下、乙という、は、次の通り」という文章のうち、「山田太郎」および「鈴木次郎」の項目名が「人名」と抽出されたものとする。また、「人名」の項目名が墨消し対象に選択されて、墨消し処理されたもとする。この場合における、選択ボタン1001~1004それぞれが選択された場合にS906で生成される音声データについて説明する。
選択ボタン1001は、挿入用の音としてビープ音を選択するためのボタンである。ユーザからの操作入力1005によって、図10の選択ボタン1001が選択されたとする。この場合、墨消し処理された文字列「山田太郎」または「鈴木次郎」が読み上げられる代わりの音として、ビープ音が再生されるように、墨消し画像の音声データがS906で生成される。その結果、図10(b)に示すように、「譲渡契約書 [ビープ音] 以下甲という、と、[ビープ音] 以下、乙という、は、次の通り」という音声が再生される音声データがS906で生成される。
本実施形態では、項目名ごとに異なる音のビープ音が保存されていて、墨消された文字列の項目名に対応するビープ音の音データが取得される。このため、ユーザは、どの項目が墨消しされたかをビープ音を聞くことで識別することができる。
次に、ユーザからの操作入力1005によって、図10の選択ボタン1002が選択された場合について説明する。この場合は、墨消し対象の項目名を示す音声が、墨消された文字列の音声の代わりに再生されるように、S906で音声データが生成される。例えば、S905では、「人名はマスクされました」のように「人名」という墨消し対象の項目名の音声が含まれる音声のデータが挿入用の音のデータとして取得される。この結果、S906では、図10(c)に示すように「譲渡契約書 人名はマスクされました 以下甲という、と、人名はマスクされました 以下、乙という、は、次の通り」という音声が再生される音声データが生成される。
次に、ユーザからの操作入力1005によって、図10の選択ボタン1003が選択された場合について説明する。この場合は、墨消し対象となった項目名が墨消し対象となった理由の音声が墨消された文字列の代わりに再生されるように、S906で音声データが生成される。例えば、墨消し対象の項目名が個人情報のカテゴリである場合、S905では、「個人情報」のカテゴリに属することを示す挿入用の音のデータが取得される。本実施形態では、「個人情報のためマスクされました」と再生される音声データが取得される。
この結果、S906では、図10(d)に示すように、「譲渡契約書 個人情報のためマスクされました 以下甲という、と、個人情報のためマスクされました 以下、乙という、は、次の通り」という音声が再生される音声データが生成される。
個人情報保護の対象として定義されている項目名の固有表現ラベルには、「個人情報」のカテゴリが予め関連付けられているものとする。例えば、「人名」および「住所」の項目名の固有表現ラベルに対して予め「個人情報」であることを関連付けておく。他にも、会社ごとに社外に公開すべきでない情報として予め定義されている項目名の固有表現ラベルには「機密情報」のカテゴリを予め関連付けておく。例えば、「日付」、「会社名」、「金額」の項目名は、「機密情報」のカテゴリを関連付けることが考えられる。その場合、「機密情報」のカテゴリに属することを示す挿入用の音として「社内情報のためマスクされました」または「機密情報のためマスクされました」が保存される。
次に、ユーザからの操作入力1005によって、図10の選択ボタン1004が選択された場合について説明する。この場合は、S905では、挿入用の音のデータは取得されない。この結果、S906では、図10(e)に示すように、「譲渡契約書 以下甲という、と、以下、乙という、は、次の通り」というように墨消し対象の文字列の音声が含まれないような音声データが生成される。
このように本実施形態では、図10に示すように、墨消し対象の文字列が読み上げられる代わりに再生される音を、ユーザの選択に応じて、音声とするかビープ音とするか無音とするかを選択できることができる。
ユーザは音設定画面1000で、墨消し部分に対する所望の挿入用の音を選択した後、「設定を保存」ボタン1006を押下することで、選択された挿入用の音の情報が保存される。またユーザが「終了」ボタン1007を押下することで、墨消し設定は終了する。
なお、文書画像に含まれる文字列には、項目名を表す文字列が含まれている場合がある。例えば、図4(a)の文書401には、文書番号の項目値「000111」と文書番号の項目名を表す「文書番号」の文字列が含まれる。そして、設定画面410で「文書番号」の項目名を墨消し対象とするチェックボックス425にチェックされたとする。この場合、文書画像に含まれる「文書番号:000111」という文章のうち「000111」のみが文書番号の項目名の文字列として墨消し処理されることがある。この場合、図10(a)の選択ボタン1002が選択されると、S906では、「文書番号:000111」の「000111」が「文書番号が墨消しされました」に置きかえられた音声データが生成される。即ち、「文書番号、文書番号が墨消しされました」と再生される音声データが生成されてしまう。
このため、項目名を表す文字列の音声が繰り返し再生されるのを抑制する処理が行われてもよい。例えば、図10(a)の選択ボタン1002が選択された場合、項目名を示す文字列が項目値の隣にある場合は項目名と項目値とをまとめて墨消し処理されるようにしてもよい。即ち、「文書番号:000111」の全てを墨消し対象とすることで、項目名を示す文字列が繰り返し再生されてしまうことを抑制できる。
以上説明したように本実施形態によれば、墨消し対象の文字列を含む文書画像から音声データを生成する場合、何の項目が墨消しされたかを判別可能な音または音声が再生される音声データを生成できる。このため、文書画像において項目名を表す文字列(例えば、氏名)の記載がない項目値(例えば、山田太郎)が墨消しされた場合でも、墨消しされた項目値が、何の項目であったかを判別可能な音声データを生成できる。また、文書画像を目視確認できない状況で音声データを利用するユーザが、何の項目の項目値が墨消しされたかを判断可能な音声が再生される音声データを生成できる。
<その他の実施形態>
記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、上述した実施形態の開示は、以下の構成を含む。
(構成1)
文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得手段と、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、
前記生成手段は、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、
前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理装置。
文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得手段と、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、
前記生成手段は、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、
前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理装置。
(構成2)
前記第2の音声データは、前記所定の項目を示す音声を含む音声のデータである
ことを特徴とする構成1に記載の情報処理装置。
前記第2の音声データは、前記所定の項目を示す音声を含む音声のデータである
ことを特徴とする構成1に記載の情報処理装置。
(構成3)
前記第2の音声データは、前記所定の項目のカテゴリを示す音声を含む音声のデータである
ことを特徴とする構成1に記載の情報処理装置。
前記第2の音声データは、前記所定の項目のカテゴリを示す音声を含む音声のデータである
ことを特徴とする構成1に記載の情報処理装置。
(構成4)
前記第2の音声データは、個人情報であることを示す音声を含む音声のデータである
ことを特徴とする構成3に記載の情報処理装置。
前記第2の音声データは、個人情報であることを示す音声を含む音声のデータである
ことを特徴とする構成3に記載の情報処理装置。
(構成5)
前記第2の音声データは、機密情報であることを示す音声を含む音声のデータである
ことを特徴とする構成3に記載の情報処理装置。
前記第2の音声データは、機密情報であることを示す音声を含む音声のデータである
ことを特徴とする構成3に記載の情報処理装置。
(構成6)
前記第2の音声データは、前記所定の項目であることを示すビープ音のデータである
ことを特徴とする構成1に記載の情報処理装置。
前記第2の音声データは、前記所定の項目であることを示すビープ音のデータである
ことを特徴とする構成1に記載の情報処理装置。
(構成7)
前記取得手段は、
前記所定の項目をユーザに識別させるための複数の音のうちから選択された音のデータを、前記第2の音声データとして取得する
ことを特徴とする構成1から6のいずれか1項に記載の情報処理装置。
前記取得手段は、
前記所定の項目をユーザに識別させるための複数の音のうちから選択された音のデータを、前記第2の音声データとして取得する
ことを特徴とする構成1から6のいずれか1項に記載の情報処理装置。
(構成8)
前記複数の音のうちの何れかの音をユーザが選択するための第1の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記取得手段は、前記第1の設定画面を介して選択された音のデータを、前記第2の音声データとして取得する
ことを特徴とする構成7に記載の情報処理装置。
前記複数の音のうちの何れかの音をユーザが選択するための第1の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記取得手段は、前記第1の設定画面を介して選択された音のデータを、前記第2の音声データとして取得する
ことを特徴とする構成7に記載の情報処理装置。
(構成9)
前記墨消し処理の対象とする項目を選択するための第2の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記所定の項目は、前記第2の設定画面を介してユーザが選択した項目である
ことを特徴とする構成1から8のいずれか1項に記載の情報処理装置。
前記墨消し処理の対象とする項目を選択するための第2の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記所定の項目は、前記第2の設定画面を介してユーザが選択した項目である
ことを特徴とする構成1から8のいずれか1項に記載の情報処理装置。
(構成10)
前記文書画像に含まれる文字列を認識する認識手段と、
前記文書画像から認識された文字列から、前記所定の項目の文字列を抽出する抽出手段と、
前記抽出された文字列が前記文書画像に表示されないように、前記墨消し処理がされる前の前記文書画像に前記墨消し処理する処理手段と、
前記墨消し処理された前記文書画像を表示部に表示させる表示制御手段と、
をさらに有することを特徴とする構成1から9のいずれか1項に記載の情報処理装置。
前記文書画像に含まれる文字列を認識する認識手段と、
前記文書画像から認識された文字列から、前記所定の項目の文字列を抽出する抽出手段と、
前記抽出された文字列が前記文書画像に表示されないように、前記墨消し処理がされる前の前記文書画像に前記墨消し処理する処理手段と、
前記墨消し処理された前記文書画像を表示部に表示させる表示制御手段と、
をさらに有することを特徴とする構成1から9のいずれか1項に記載の情報処理装置。
(構成11)
前記抽出された文字列に、前記文字列が表す項目に応じたラベルを付与する付与手段をさらに有し、
前記取得手段は、前記ラベルに対応する音のデータを前記第2の音声データとして取得する
ことを特徴とする構成10に記載の情報処理装置。
前記抽出された文字列に、前記文字列が表す項目に応じたラベルを付与する付与手段をさらに有し、
前記取得手段は、前記ラベルに対応する音のデータを前記第2の音声データとして取得する
ことを特徴とする構成10に記載の情報処理装置。
(構成12)
文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得ステップと、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成ステップと、を有し、
前記生成ステップでは、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、
前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理方法。
文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得ステップと、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成ステップと、を有し、
前記生成ステップでは、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、
前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理方法。
(構成13)
コンピュータに、構成1から11のいずれか1項に記載の情報処理装置の各手段を実行させるためのプログラム。
コンピュータに、構成1から11のいずれか1項に記載の情報処理装置の各手段を実行させるためのプログラム。
130 情報処理装置
133 墨消し処理部
134 音声データ生成部
133 墨消し処理部
134 音声データ生成部
Claims (13)
- 文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得手段と、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成手段と、を有し、
前記生成手段は、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理装置。 - 前記第2の音声データは、前記所定の項目を示す音声を含む音声のデータである
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第2の音声データは、前記所定の項目のカテゴリを示す音声を含む音声のデータである
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第2の音声データは、個人情報であることを示す音声を含む音声のデータである
ことを特徴とする請求項3に記載の情報処理装置。 - 前記第2の音声データは、機密情報であることを示す音声を含む音声のデータである
ことを特徴とする請求項3に記載の情報処理装置。 - 前記第2の音声データは、前記所定の項目であることを示すビープ音のデータである
ことを特徴とする請求項1に記載の情報処理装置。 - 前記取得手段は、
前記所定の項目をユーザに識別させるための複数の音のうちから選択された音のデータを、前記第2の音声データとして取得する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記複数の音のうちの何れかの音をユーザが選択するための第1の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記取得手段は、前記第1の設定画面を介して選択された音のデータを、前記第2の音声データとして取得する
ことを特徴とする請求項7に記載の情報処理装置。 - 前記墨消し処理の対象とする項目を選択するための第2の設定画面を表示部に表示させる表示制御手段をさらに有し、
前記所定の項目は、前記第2の設定画面を介してユーザが選択した項目である
ことを特徴とする請求項1に記載の情報処理装置。 - 前記文書画像に含まれる文字列を認識する認識手段と、
前記文書画像から認識された文字列から、前記所定の項目の文字列を抽出する抽出手段と、
前記抽出された文字列が前記文書画像に表示されないように、前記墨消し処理がされる前の前記文書画像に前記墨消し処理する処理手段と、
前記墨消し処理された前記文書画像を表示部に表示させる表示制御手段と、
をさらに有することを特徴とする請求項1に記載の情報処理装置。 - 前記抽出された文字列に、前記文字列が表す項目に応じたラベルを付与する付与手段をさらに有し、
前記取得手段は、前記ラベルに対応する音のデータを前記第2の音声データとして取得する
ことを特徴とする請求項10に記載の情報処理装置。 - 文書画像における文字列を音声に変換して得られた第1の音声データと、前記文書画像における墨消し処理の対象となる所定の項目をユーザに識別させるための第2の音声データと、を取得する取得ステップと、
前記文書画像における文字列を読み上げる読み上げ音声データを生成する生成ステップと、を有し、
前記生成ステップでは、
前記文書画像における前記所定の項目の文字列に対応する部分については、前記所定の項目の文字列が読み上げられる代わりに前記第2の音声データに基づく音声が再生されるように、前記第1の音声データと前記第2の音声データとを用いて前記読み上げ音声データを生成する
ことを特徴とする情報処理方法。 - コンピュータに、請求項1から11のいずれか1項に記載の情報処理装置の各手段を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022182491A JP2024071951A (ja) | 2022-11-15 | 2022-11-15 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022182491A JP2024071951A (ja) | 2022-11-15 | 2022-11-15 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024071951A true JP2024071951A (ja) | 2024-05-27 |
Family
ID=91194058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022182491A Pending JP2024071951A (ja) | 2022-11-15 | 2022-11-15 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024071951A (ja) |
-
2022
- 2022-11-15 JP JP2022182491A patent/JP2024071951A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8179556B2 (en) | Masking of text in document reproduction | |
US8154769B2 (en) | Systems and methods for generating and processing evolutionary documents | |
US7088859B1 (en) | Apparatus for processing machine-readable code printed on print medium together with human-readable information | |
CN101998107B (zh) | 信息处理装置、会议系统和信息处理方法 | |
JP2006350664A (ja) | 文書処理装置 | |
KR20050086478A (ko) | 언어 변환 시스템 및 방법과 프로그램 저장 장치 | |
JP2006174462A (ja) | 情報処理方法及び情報処理装置 | |
US11243670B2 (en) | Information processing system, information processing apparatus, information processing method and non-transitory computer readable medium | |
JP2001265753A (ja) | 文書への注釈付与方法、システム及びコンピュータ読み取り可能な記録媒体 | |
JP2973913B2 (ja) | 入力シートシステム | |
US20130339002A1 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
WO2020243314A1 (en) | System and method of extracting information in an image containing file for enhanced utilization and presentation | |
JP2006065477A (ja) | 文字認識装置 | |
US20030200089A1 (en) | Speech recognition apparatus and method, and program | |
JP2007010754A (ja) | ユーザインターフェース装置及び方法 | |
JP2024071951A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2015194525A (ja) | 問題生成システム、処理サーバ、問題生成システムの制御方法、処理サーバの制御方法、問題生成システムのプログラム、処理サーバのプログラム、および記録媒体 | |
JP2005340956A (ja) | 文書処理装置、文書処理方法およびプログラム | |
JP7472506B2 (ja) | 特定装置、特定方法及びプログラム | |
JP2005100079A (ja) | 帳票データ入力装置およびプログラム | |
JP2024084452A (ja) | 情報処理装置とその制御方法、及びプログラム | |
JP7512748B2 (ja) | 知識データベース生成装置及びプログラム | |
JPH1091701A (ja) | フォーム文書システム | |
JP7383885B2 (ja) | 情報処理装置及びプログラム | |
JP2023091261A (ja) | 情報処理装置、情報処理方法、およびプログラム |