JP2020060963A - Apparatus and method for information processing, and program - Google Patents
Apparatus and method for information processing, and program Download PDFInfo
- Publication number
- JP2020060963A JP2020060963A JP2018191996A JP2018191996A JP2020060963A JP 2020060963 A JP2020060963 A JP 2020060963A JP 2018191996 A JP2018191996 A JP 2018191996A JP 2018191996 A JP2018191996 A JP 2018191996A JP 2020060963 A JP2020060963 A JP 2020060963A
- Authority
- JP
- Japan
- Prior art keywords
- information
- character string
- application
- target file
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Facsimiles In General (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
米国では電子・電気技術に対して、視覚障がい者にも使いやすくすることを義務づけられており、アクセシビリティを高めることが要望されてきている。また、日本でも同様に、アクセシビリティを高めることが要望されてきている。
これに対して、スクリーンリーダ機能が搭載されたスマートフォンが登場している。スクリーンリーダ機能とは、視覚障がい者が画面を操作するために、情報を音声で読み上げることによって操作を補助する機能である。例えば、iPhone(登録商標)には、VoiceOverというスクリーンリーダ機能が搭載されている。
図16は、スクリーンリーダ機能の設定画面の一例を示している。図16の例では、領域1601へのタップ操作を介して、スクリーンリーダ機能のON/OFFが設定される。
印刷やスキャンに関連するデバイスやアプリケーションにおいても、アクセシビリティを強化して、視覚障がい者でも印刷を可能にすることが求められている。これに対して、特許文献1には、複写機等の原稿読み取り装置において、スキャンした原稿の種別を音声で伝えることで、視覚障がい者でも原稿の概要を知ることを可能にする技術が開示されている。
In the United States, electronic and electrical technologies are obliged to make them easier to use for people with visual impairments, and there is a demand for improved accessibility. Similarly, in Japan, there is a demand for enhancing accessibility.
On the other hand, smartphones equipped with a screen reader function have appeared. The screen reader function is a function for assisting the operation by reading information by voice so that the visually impaired person can operate the screen. For example, iPhone (registered trademark) has a screen reader function called VoiceOver.
FIG. 16 shows an example of a screen for setting the screen reader function. In the example of FIG. 16, ON / OFF of the screen reader function is set through a tap operation on the
There is a demand for enhancing accessibility in devices and applications related to printing and scanning so that even visually impaired people can print. On the other hand, Patent Document 1 discloses a technique in which a document reading device such as a copying machine transmits the type of a scanned document by voice so that even a visually impaired person can know the outline of the document. ing.
視覚障がい者のユーザが印刷機能を利用する場合、スクリーンリーダ機能により読み上げられるファイル名称の音声情報等を元にファイルを選択していた。しかしながら、ファイル名だけでは印刷したいファイルが正しく選択されているか否かをユーザが判断できない場合がある。例えば、ファイル名が日付ベースでつけられる場合、「20180521113000.pdf」というファイル名のファイルが複数作成されることがある。この場合、ファイル名が読み上げられても、ユーザは、コンテンツの内容を把握できない可能性がある。また、印刷プレビューの画面が表示されたとしても、目視が困難なユーザは、確認できない恐れもある。
このように、視覚障がい者のユーザにとって、単にファイル名称を読み上げるだけでは、印刷するファイルが正しく選択されているか否かを判断することが困難な場合がある。
本発明は上述の問題点の少なくとも1つを鑑みなされたものである。本発明は、視覚障がい者のユーザにとっての利便性を向上させることを目的の1つとする。
When a user who is visually impaired uses the print function, he or she selects the file based on the voice information of the file name read by the screen reader function. However, the user may not be able to determine whether or not the file to be printed is correctly selected only by the file name. For example, when the file name is given on a date basis, a plurality of files with the file name “20120521113000.pdf” may be created. In this case, even if the file name is read aloud, the user may not be able to grasp the details of the content. Further, even if the print preview screen is displayed, there is a possibility that the user who has difficulty in visual confirmation cannot confirm the screen.
As described above, it may be difficult for the visually impaired user to determine whether or not the file to be printed is correctly selected by merely reading the file name.
The present invention has been made in view of at least one of the above problems. One of the objects of the present invention is to improve the convenience for the visually impaired user.
本発明の情報処理装置は、スクリーンリーダ機能が有効であり、印刷対象ファイルが指定された場合、前記印刷対象ファイルの解析情報を取得する取得手段と、前記取得手段により取得された前記解析情報を音声出力するよう制御する制御手段と、を有する。 In the information processing apparatus of the present invention, when the screen reader function is effective and a print target file is designated, an acquisition unit that acquires analysis information of the print target file and the analysis information acquired by the acquisition unit are displayed. And a control means for controlling the audio output.
本発明の1つの側面によれば、視覚障がい者のユーザにとっての利便性を向上させることができる。 According to one aspect of the present invention, it is possible to improve convenience for a visually impaired user.
以下に、本発明の実施の形態の一例を、図面に基づいて詳細に説明する。 Hereinafter, an example of an embodiment of the present invention will be described in detail with reference to the drawings.
<実施形態1>
図1は、本実施形態のデータ処理システムのシステム構成の一例を示す図である。図1の例では、データ処理システムは、データ処理装置101、無線LANターミナル102、印刷処理装置104、印刷処理装置105を含む。データ処理装置101、無線LANターミナル102、印刷処理装置104、印刷処理装置105は、LAN103を介して相互に通信可能に接続されている。
データ処理装置101は、印刷処理装置104又は105に対して印刷ジョブ送信の指示等を行う情報処理装置である。データ処理装置101は、例えば、スマートフォン、タブレット装置、パーソナルコンピュータ(PC)、ノートPC等である。本実施形態では、データ処理装置101は、モバイル形態の情報処理装置である。しかし、データ処理装置101は、モバイル形態でない情報処理装置であることとしてもよい。
印刷処理装置104は、プリンタ機能、コピー機能、スキャナ機能、ファクス送信機能等を備えるプリンタ、複合機等の印刷処理装置である。印刷処理装置105は、印刷処理装置104と同様に、プリンタ機能、コピー機能、スキャナ機能、ファクス送信機能等を備えるプリンタ、複合機等の印刷処理装置である。
<Embodiment 1>
FIG. 1 is a diagram showing an example of the system configuration of the data processing system of the present embodiment. In the example of FIG. 1, the data processing system includes a
The
The
LAN103は、データ処理システムの各装置が接続されているLANである。無線LANターミナル102は、ネットワーク・ルーター機能を有した無線LANの親機であって、LAN103の設置場所の中でWi−Fiを通じた無線LAN機能の実現のため用いられる。
また、データ処理装置101は、モバイル端末であることから、Wi−Fi機能を有効にすることで、無線LANターミナル102を介してLAN103に参加することができる。データ処理装置101は、無線LANターミナル102が提供する無線LANエリアに入ると、予め設定していた認証情報を利用してLAN103のネットワークに参加することができる。
無線信号106、107、108それぞれは、データ処理装置101と、印刷処理装置104又は105と、が送受信するBluetooth(登録商標) LE(Bluetooth Low Enegy)による無線信号である。この無線信号が到達し合う周辺のコンピューターデバイス間においては、WPAN(Wireless Personal Area Network)を形成し通信を行うことができる。
The
Since the
The
図2は、データ処理装置101のハードウェア構成の一例を示す図である。本実施形態では、データ処理装置101は、小型端末用のオペレーティングシステムや、通話、データ通信を制御するためのプログラムの実行を行う。
データ処理装置101は、CPU202、ROM203、RAM204、NetworkController205、音声制御部206、表示制御部207、入力制御部208、記憶装置209、位置検出制御部210を含む。各要素は、システムバス201を介して相互に通信可能に接続されている。
CPU(Central Processing Unit)202は、データ処理装置101を制御する中央演算装置である。ROM(Read Only Memory)203は、データ処理装置101のオペレーティングシステム、通話、データ通信等を制御するアプリケーションのプログラム等を記憶する記憶装置である。データ通信を制御するアプリケーションとは、例えば、印刷アプリケーション、Mailソフト、Webブラウザ等である。RAM(Random Access Memory)204は、CPU202のワークメモリやデータの一時的な記憶領域として機能する記憶装置である。CPU202は、実行対象のプログラムを実行する際に、そのプログラムをRAM204に展開する。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the
The
A CPU (Central Processing Unit) 202 is a central processing unit that controls the
NetworkController205は、外部の装置との間でのデータの通信に用いられるコントローラである。NetworkController205は、LAN通信部211と、電話データ通信部212と、BLE通信部213と、を含む。
LAN通信部211は、無線LANターミナル102を介して、LAN103のネットワークへの参加に用いられる。電話データ通信部212は、携帯キャリアの提供するネットワークへの参加に用いられる。BLE通信部213は、Bluetooth LEによる無線信号が到達し合う周辺のコンピューターデバイス間においてWPANを形成するために用いられる。
NetworkController205は、例えば、無線LANのネットワークに参加可能な場合、無線LANへの接続を優先する。そして、NetworkController205は、データ処理装置101が無線LANのネットワークエリアから外れた場合、携帯キャリアが提供する無線通信ネットワークへの参加を行うような排他制御を行う。しかし、NetworkController205は、Bluetooth LEの通信を行う場合、他の通信との間で、排他制御を行わない。
The
The
For example, when the
音声制御部206は、マイク・スピーカ214を介した音声データの入出力に用いられる制御部である。音声制御部206は、例えば、通話アプリケーションが起動しユーザが電話をしているときに用いられる。また、音声制御部206は、後述するスクリーンリーダ機能により出力された音声データをスピーカを介して出力する。
表示制御部207は、ディスプレイ215に出力される情報の制御を行う制御部である。入力制御部208は、データ処理装置101のボタンやタッチパネル216等の入力部を介してユーザにより入力された情報を受け付ける制御部である。
データ処理装置101上で実現されるアプリケーションは、音声制御部206、表示制御部207、入力制御部208を利用して、ネットワーク通信情報やデータ処理装置101のさまざまな情報をユーザに提供する。
The
The
The application implemented on the
記憶装置209は、不揮発性の記憶装置であり、データ処理装置101の再起動後も保持しておく必要のある各種動作モード設定や、稼働ログ、各種プログラム、各種設定情報等を記憶する。記憶装置209は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュメモリ等である。
位置検出制御部210は、GPSセンサー217を介してデータ処理装置101の位置情報を取得し、オペレーティングシステムに提供する制御部である。
これらのデータ処理装置101において、CPU202がROM203、記憶装置209等に記憶されたプログラムにしたがって処理を実行することで、図4で後述する機能、図9、11、14、15で後述するフローチャートの処理等が実現される。即ち、CPU202、ROM203、記憶装置209は、所謂コンピュータとして機能する。なお、複数のプロセッサ、メモリ、及びストレージを協働させ各処理を実行することもできる。また、一部の処理は、ASIC等のハードウェア回路を用いて実行することもできる。
The
The position
In these
図3は、印刷処理装置104のハードウェア構成の一例を示す図である。本実施形態では、印刷処理装置104は、スキャナ機能と、プリンタ機能を有する複合機(MFP(Multi Function Perpheral))を想定しているがこれに限定されるものではない。読取機能を有さないプリンタ等の印刷処理装置であってもよい。本実施例では、一例として印刷処理装置が以下に説明する各種構成要件を備えるものとする。
印刷処理装置104は、I/O301、I/F制御部302、RAM303、RAM制御部304、画像データ調歩回路305、プリンタエンジン306、エンジンI/F307、メインコントローラ308、を含む。また、印刷処理装置104は、スキャナコントローラ309、プリンタコントローラ310、ユーザインターフェース312、スキャナエンジン313を含む。
I/O301は、外部の装置との間の接続に用いられるインターフェースである。I/O301は、LAN通信部314、BLE通信部315を含む。LAN通信部314は、LAN103等の通信媒介を介して、データ処理装置101との間で通信を行う。BLE通信部315は、Bluetooth LEを用いたWPANの形成に用いられる。印刷処理装置104は、I/O301を通して、デバイスIDやスキャンイメージをデータ処理装置101に送信する。また、印刷処理装置104は、I/O301を通して、データ処理装置101から各種の制御コマンドを受信し、受信した制御コマンドに応じた処理を行う。
I/F制御部302は、印刷処理装置104に搭載されているスキャナ、プリンタ、ファクス等のデバイスに対してデバイスIDを発行する制御を行う制御部である。RAM303は、I/O301を介して取得された制御コマンド等の外部データや、スキャナエンジン313で読み取られたイメージのデータ等の一時的な記憶領域として機能する記憶装置である。また、RAM303は、プリンタコントローラ310で展開されたプリンタエンジン306に渡される前のイメージの記憶等に用いられる。RAM制御部304は、RAM303内の領域の割り当て管理を行う制御部である。
画像データ調歩回路305は、RAM制御部304によりRAM303に展開されたイメージをプリンタエンジン306の回転にあわせて出力する装置である。プリンタエンジン306は、紙等の出力メディアにイメージを現像する装置である。メインコントローラ308は、エンジンI/F307を介してプリンタエンジン306の各種制御を行うコントローラである。また、メインコントローラ308は、スキャナコントローラ309やプリンタコントローラ310に対して、I/O301経由でデータ処理装置101から受信した制御言語の適切な振り分け処理を行う。更に、メインコントローラ308は、それぞれのコントローラやユーザインターフェース312からの指示をうけてプリンタエンジン306やスキャナエンジン313の制御を行う。
スキャナコントローラ309は、データ処理装置101から送信されたスキャン制御コマンドをメインコントローラ308が解釈可能な内部実行命令に分解する。また、スキャナコントローラ309は、スキャナエンジン313で読み取られたイメージをスキャン制御コマンドに変更する。プリンタコントローラ310は、データ処理装置101から送信された印刷ジョブとして受けたPDL(Page Description Language)データを、メインコントローラ308が解釈可能な、展開イメージ等を含む内部実行命令に分解する。展開イメージは、プリンタエンジン306まで送信され、用紙等の出力メディアに印刷される。
本実施形態では、印刷処理装置105のハードウェア構成は、印刷処理装置104のハードウェア構成と同様である。
FIG. 3 is a diagram illustrating an example of the hardware configuration of the
The
The I /
The I /
The image data start /
The
In this embodiment, the hardware configuration of the
図4は、データ処理装置101の機能構成の一例を示す図である。データ処理装置101は、OS410、アプリケーション401、その他のアプリケーション408を含む。
OS410は、データ処理装置101の全体を制御するためのOS(Operating System)である。本実施形態のOS410は、操作画面に表示されている文字列等の情報を音声で読み上げることによって操作を補助するスクリーンリーダ機能を有している。OSとしてiOS(登録商標)を採用する場合、スクリーンリーダ機能は、アクセシビリティ向上のためにプリインストールされているVoiceOver(登録商標)機能によって提供される。また、OSとしてAndroid(登録商標)を採用する場合、スクリーンリーダ機能は、アクセシビリティ向上のためにプリインストールされているTalkBack機能によって提供される。これらのスクリーンリーダ機能は、図16に一例を示すOS410の設定画面から有効(ON)、無効(OFF)を切り替えることができる。これらのスクリーンリーダに関する設定は、記憶装置209に記憶される。スクリーンリーダ機能がONに設定されている場合、データ処理装置101は操作画面の読み上げを実行する。読み上げは、例えばユーザが表示オブジェクトや表示文字列をタップしたことに従って実行される。また、読み上げは、操作画面が遷移したことに従って実行される。
アプリケーション401は、印刷処理を制御するアプリケーションである。アプリケーション401は、UI部402、探索部403、印刷制御部404、解析部405、保存制御部406を含む。アプリケーション401は、アプリケーションストア等からユーザ操作を介してダウンロードされ、データ処理装置101にインストールされているものとする。
UI部402は、アプリケーション401への情報の入出力を制御するUI部であり、アプリケーション401内の設定を変更させるためのユーザインターフェースを提供する。探索部403は、データ処理装置101が参加するLAN103上において、データ処理装置101がSNMPで管理されるネットワーク機器を探索する。そして、探索部403は、探索したネットワーク機器の中から、印刷が実行可能な印刷処理装置を探索する。更に、探索部403は、BLEの送受信が可能なWPAN内において、印刷を実行可能な印刷処理装置を探索する。
印刷制御部404は、印刷処理装置に対して送信する印刷ジョブを生成し、生成した印刷ジョブを対応する印刷処理装置に送信する。また、解析部405は、画像やPDF等のファイルを解析する。保存制御部406は、解析部405による解析結果を、記憶装置209に記憶する。
FIG. 4 is a diagram illustrating an example of a functional configuration of the
The
The
The
The
図5は、アプリケーション401が起動された際に、アプリケーション401によりディスプレイ215に表示されるトップメニュー画面の一例を示す図である。トップメニュー画面は、ユーザからの各種入力操作の受け付けに利用されるユーザインターフェースの一例である。ボタン501は、印刷を実行する印刷処理装置を選択するための画面への遷移の指示に用いられるボタンである。アプリケーション401は、ボタン501の選択を検知すると、ディスプレイ215に、印刷を実行する印刷処理装置を選択するための画面を表示する。図5の例では、印刷処理を実行する印刷処理装置として、プリンタが選択されている。ボタン502は、印刷対象となるファイルの選択・印刷の実行の指示を行うための画面であるファイル選択画面601への遷移の指示に用いられるボタンである。アプリケーション401は、ボタン502の選択を検知すると、ディスプレイ215にファイル選択画面601を表示する。
図6は、ファイル選択画面601の一例を示す図である。図6の例ではファイル選択画面601内に、印刷されるファイルの候補となるファイル602〜604がリスト形式で表示されている。ユーザは、タッチパネル216を介して、ファイル602〜604の中から印刷したいファイルを指定する。アプリケーション401は、タッチパネル216、ファイル選択画面601を介して、ユーザから印刷対象のファイルの指定を受け付ける。以下では、印刷対象のファイルを、印刷対象ファイルとする。そして、アプリケーション401は、印刷対象ファイルの指定を受付けると、ディスプレイ215に印刷プレビュー画面701を表示する。印刷プレビューとは、印刷対象ファイルの内容の確認に用いられる情報である。印刷プレビュー画面とは、印刷対象ファイルの内容の確認に用いられる画面である。なお、スクリーンリーダ機能が有効な場合、アプリケーション401は、OS410が提供するスクリーンリーダ機能と協働しマイク・スピーカ214のスピーカを介して、ファイル602〜604のファイル名を順番に音声で出力する。ここで、スクリーンリーダ機能とは、情報を音声出力することで、ユーザの操作を補助する機能である。
FIG. 5 is a diagram showing an example of a top menu screen displayed on the
FIG. 6 is a diagram showing an example of the
図7は、ファイル選択画面601を介して印刷対象ファイルが指定された際にディスプレイ215に表示される印刷プレビュー画面701の一例を示す図である。
印刷プレビュー画面701には、印刷対象ファイルの内容が表示される。ボタン702は、印刷の指示に用いられるボタンである。また、ボタン703は、前のページに戻ることの指示に用いられるボタンである。アプリケーション401は、ボタン703の選択を検知すると、ディスプレイ215にファイル選択画面601を表示する。視覚が健常なユーザは、印刷プレビュー画面701を視認することで、印刷対象ファイルの内容を確認することができる。ユーザは、確認して問題なければ、ボタン702を選択して、印刷対象ファイルの印刷をデータ処理装置101に指示する。アプリケーション401は、ボタン702の選択を検知すると、印刷対象ファイルの印刷を行うよう制御する。
しかし、視覚障がい者は、印刷プレビュー画面を目視確認できない。そのため、印刷対象ファイルの内容を確認できない。
本実施形態では、データ処理装置101が、スクリーンリーダ機能が有効な場合に、印刷対象ファイルを解析して、印刷対象ファイルの印刷プレビューを取得し、取得した印刷プレビューを音声出力する処理について説明する。印刷対象ファイルの解析とは、印刷対象ファイルを調べることで印刷対象ファイルに関連する情報を取得することであり、例えば、印刷対象ファイルに含まれる情報を取得したり、印刷対象ファイルが示す画像の内容を示す情報を取得したりすることである。また、印刷対象ファイルの解析により取得される情報を、印刷対象ファイルの解析情報とする。
FIG. 7 is a diagram showing an example of the
The
However, visually impaired persons cannot visually confirm the print preview screen. Therefore, the contents of the print target file cannot be confirmed.
In the present embodiment, a process will be described in which the
図8は、本実施形態のデータ処理装置101の処理の一例を示すフローチャートの一例である。
S801において、アプリケーション401は、ユーザによるボタン502の選択を検知し、ディスプレイ215にファイル選択画面601を表示する。
S802において、アプリケーション401は、ファイル選択画面601を介して、ユーザから印刷対象ファイルの指定を受け付ける。
S803において、アプリケーション401は、ディスプレイ215に、S802で受け付けた指定が示す印刷対象ファイルの印刷プレビュー画面を表示する。
S804において、アプリケーション401は、スクリーンリーダ機能が有効か否かを判定する。本実施形態では、アプリケーション401は、スクリーンリーダ機能が有効が否かをOS410に問い合わせる。OS410は、記憶装置209に記憶されたスクリーンリーダ機能が有効か否かを示す情報に基づいて、スクリーンリーダ機能が有効か否かを判定する。アプリケーション401は、スクリーンリーダ機能が有効であると判定した場合、処理をS805に進め、スクリーンリーダ機能が無効であると判定した場合、図8の処理を終了する。
FIG. 8 is an example of a flowchart showing an example of processing of the
In step S801, the
In step S <b> 802, the
In step S <b> 803, the
In step S804, the
S805において、アプリケーション401は、解析部405を介して、S802で指定された印刷対象ファイルにアクセシビリティ情報が含まれるか否かを判定する。アクセシビリティ情報とは、ファイルへのアクセシビリティ向上のためにファイル内の予め定められた領域に組み込まれた情報である。
印刷対象ファイルがPDFファイルである場合、アプリケーション401は、印刷対象ファイル内にドキュメント構造タグ(StructTreeRoot)が含まれているか否かを判定する。ドキュメント構造タグは、PDFファイルに組み込まれた情報であり、文書の内容に関する構造を示す情報である。ドキュメント構造タグの情報には、例えば、章と節による文書の編成や、表、脚注を識別する情報等がある。アプリケーション401は、印刷対象ファイル内のドキュメント構造タグを解析することで、印刷対象ファイルのアクセシビリティ情報を取得することができる。
In step S805, the
When the print target file is a PDF file, the
PDFファイルの構造は、オブジェクトの階層構造とみなすことができる。図9を用いて、PDFファイルの構造の一例について説明する。ツリー901は、あるPDFファイルの構造を表現したツリーである。ドキュメント構造タグは、[文書ルートカタログ(Catalog)]―[StructTreeRoot]のオブジェクト(辞書)に相当する。
図9の例では、ドキュメント構造タグは、タグ903にあたる。
一方、印刷対象ファイルが画像ファイルである場合、アプリケーション401は、その画像ファイルのフォーマットの仕様にのっとって、印刷対象ファイルにアクセシビリティ情報が含まれるか否かを判定する。しかし、画像ファイルには、アクセシビリティ情報が含まれない場合がある。その場合、アプリケーション401は、印刷対象ファイルにアクセシビリティ情報が含まれないと判定する。
The structure of the PDF file can be regarded as a hierarchical structure of objects. An example of the structure of the PDF file will be described with reference to FIG. The
In the example of FIG. 9, the document structure tag corresponds to the
On the other hand, when the print target file is an image file, the
S806において、アプリケーション401は、解析部405を介して、印刷対象ファイルからアクセシビリティ情報を取得し、取得したアクセシビリティ情報の内容を示す文字列を取得する。アプリケーション401は、アクセシビリティ情報が文字列の情報である場合、アクセシビリティ情報が示す文字列を取得する。また、アプリケーション401は、アクセシビリティ情報が文字列と異なる情報(例えば、画像に対応する位置の情報、画像が撮影された時刻の情報等)である場合、以下のようにする。即ち、アプリケーション401は、アクセシビリティ情報が示す内容(例えば、画像に対応する位置の情報、画像が撮影された時刻の情報等)を示す文字列を取得する。そして、アプリケーション401は、OS410が提供するスクリーンリーダ機能と協働してマイク・スピーカ214のスピーカを介して、取得した文字列を、音声出力する。
印刷対象ファイルがPDFの場合、アプリケーション401は、PDFファイルのフォーマットのドキュメント構造タグ内の子要素である構造要素(StructElem)からアクセシビリティ情報を取得する。図9の例では、アプリケーション401は、構造要素904、905の情報を、アクセシビリティ情報として取得する。
In step S806, the
When the file to be printed is a PDF, the
S807において、アプリケーション401は、解析部405を介して、印刷対象ファイル内のコンテンツデータに文字列が含まれるか否かを判定する。ファイルのコンテンツデータとは、そのファイルが保存する対象の中身を示すデータであり、画像ファイルの場合は画像のデータであり、テキストファイルの場合はテキストデータである。
印刷対象ファイルがMicrosoft Word(登録商標)等のアプリケーションから作成されたPDFであるとすると、印刷対象ファイルは、コンテンツデータ内に文字コードを持つ文字列を含む場合がある。その場合、アプリケーション401は、印刷対象ファイルのコンテンツデータ内の文字列を検出して、印刷対象ファイル内のコンテンツデータに文字列が含まれると判定する。
一方、印刷対象ファイルが複写機で原稿をスキャンすることで作成されたPDFファイルであるとすると、印刷対象ファイルは、コンテンツとしてスキャン画像を含み、文字列を含まない場合がある。その場合、アプリケーション401は、印刷対象ファイルのコンテンツデータ内から文字列を検出できないため、印刷対象ファイル内のコンテンツデータに文字列が含まれないと判定する。
アプリケーション401は、印刷対象ファイル内のコンテンツデータに文字列が含まれると判定した場合、処理をS808に進め、含まれないと判定した場合、処理をS809に進める。
S808において、アプリケーション401は、印刷対象ファイル内のコンテンツデータから文字列を取得する。そして、アプリケーション401は、OS410が提供するスクリーンリーダ機能と協働してマイク・スピーカ214のスピーカを介して、取得した文字列を、音声出力する。
In step S <b> 807, the
If the print target file is a PDF created from an application such as Microsoft Word (registered trademark), the print target file may include a character string having a character code in the content data. In that case, the
On the other hand, if the print target file is a PDF file created by scanning an original with a copying machine, the print target file may include a scan image as content and not a character string. In that case, the
If the
In step S808, the
S809において、アプリケーション401は、解析部405を介して、印刷対象ファイルの印刷画像に対して、以下で説明する領域分割処理を行う。印刷画像とは、印刷対象ファイルが実際にどのように印刷されるかを示す画像である。本実施形態では、印刷対象ファイルの印刷画像は、S803で表示された印刷プレビュー画面の画像である
領域分割処理について説明する。
領域分割処理とは、画像内から文字列が存在する領域を分割する処理である。本実施形態では、文字列には、1つの文字も含むこととする。本実施形態では、アプリケーション401は、以下の(1)〜(5)の処理を行うことで、印刷対象ファイルに対して領域分割処理を実行する。
(1)二値化処理
アプリケーション401は、解析部405を介して、印刷対象ファイルの印刷画像に対して2値化を行うことにより、2値画像を取得する。この2値化により、印刷画像における予め定められた閾値より濃い色の画素は、黒画素となる。また、その閾値より薄い色の画素は、白画素となる。なお、本実施形態では、印刷画像が、100DPIであるとする。しかし、印刷画像は、この解像度に限定されず、200DPI等の他の解像度であってもよい。
In step S <b> 809, the
The area dividing process is a process of dividing an area in the image where a character string exists. In this embodiment, the character string includes one character. In the present embodiment, the
(1) Binarization Processing The
(2)黒画素塊検出処理
アプリケーション401は、解析部405を介して、(1)の処理で取得した2値画像に対して、8連結で繋がる黒画素の輪郭を追跡することにより、8方向の何れかの方向で連続して存在する黒画素の塊(黒画素塊)を検出する。ここで、8連結とは、ある画素を基準として、左上、左、左下、下、右下、右、右上、上の8つの方向のうちの何れかの方向で、その画素と同じ色(本実施形態では黒)の画素が連続しているという意味である。また、4連結とは、ある画素を基準として、左、下、右、上の4つの方向の何れかの方向で、その画素と同じ色の画素が連続しているという意味である。
アプリケーション401は、8方向に存在する8つの隣接画素の何れもが黒画素ではない単独の黒画素を検出しないこととなる。一方、8方向に存在する8つの隣接画素の何れか1つにでも黒画素が存在する黒画素は、その隣接する黒画素と共に、黒画素塊として検出されることになる。図10の黒画素塊1401は、解析部405を介して検出された黒画素塊の一例である。また、アプリケーション401は、解析部405を介して検出した黒画素塊の外接矩形の位置情報(四頂点のX、Y座標情報のこと)を取得する。なお、印刷画像内では、X軸は右方向に伸び、Y軸は下方向に伸びているものとする。外接矩形の幅は、X軸方向の長さ、外接矩形の高さは、Y軸方向の長さを示す。図10の矩形1402は、黒画素塊1401の外接矩形である。なお、本実施形態では、矩形とは、四辺の全てがX座標軸、Y座標軸の何れかと平行な矩形であり、斜め向きの矩形ではないとする。
(2) Black pixel block detection processing The
The
(3)表領域検出処理
アプリケーション401は、解析部405を介して、(2)の処理で検出した黒画素塊それぞれについて、以下の条件1〜3の全てに該当するか否かを判定する。そして、アプリケーション401は、条件1〜3の全てに該当する黒画素塊を、表の枠線を示す黒画素塊であると判断する。
条件1:黒画素塊の外接矩形の幅、高さが閾値(例えば、100画素、0.25cm等)以上である。
条件2:外接矩形の内部における黒画素塊が占める割合が予め定められた閾値(例えば、20パーセント)以下である。
条件3:黒画素塊の最大幅と外接矩形の幅との差が予め定められた閾値(例えば、10画素等)以下であり、かつ、黒画素塊の最大高さと外接矩形の高さとの差が予め定められた閾値(例えば、10画素等)以下である。
アプリケーション401は、表の枠線を構成すると判断した黒画素塊の外接矩形の位置情報を、保存制御部406を介して記憶装置209に記憶する。ここで記憶された位置情報を持つ外接矩形の領域を、以下では、表領域とする。なお、図10の例では、黒画素塊1401は、表の枠線を構成する黒画素塊と判定されたとする。そのため、矩形1402の領域は、表領域となる。
(3) Surface Area Detection Processing The
Condition 1: The width and height of the circumscribed rectangle of the black pixel block are equal to or more than a threshold value (for example, 100 pixels, 0.25 cm, etc.).
Condition 2: The proportion of black pixel blocks in the circumscribed rectangle is equal to or less than a predetermined threshold value (for example, 20%).
Condition 3: The difference between the maximum width of the black pixel block and the width of the circumscribing rectangle is less than or equal to a predetermined threshold (for example, 10 pixels), and the difference between the maximum height of the black pixel block and the height of the circumscribing rectangle. Is less than or equal to a predetermined threshold (for example, 10 pixels).
The
(4)認識セルの特定処理
アプリケーション401は、解析部405を介して、表領域から、認識対象の領域である認識セルを特定する。アプリケーション401は、認識セルを特定するために、表領域内部の白画素の輪郭を追跡することにより、白画素塊を検出する。アプリケーション401は、黒画素塊を求めた処理と同様の処理で白画素塊を検出する。アプリケーション401は、検出した白画素塊が予め定められた条件に合致する場合、その白画素塊の外接矩形の領域を認識セルとして特定する。この予め定められた条件は、以下の条件a〜cである。
条件a:白画素塊の外接矩形の幅、高さが予め定められた閾値(例えば、20画素等)以上である。
条件b:外接矩形の内部における黒画素塊の占める割合が予め定められた閾値(例えば、20%等)以下である。
条件c:白画素塊の最大幅と外接矩形の幅との差が予め定められた閾値(例えば、5画素等)以下であり、かつ、白画素塊の最大高さと外接矩形の高さとの差が予め定められた閾値(例えば、5画素等)以下である。
図13の例では、領域1403、1404が、解析部405を介して、認識セルとして特定される。アプリケーション401は、特定した認識セルの位置情報を、保存制御部406を介して、記憶装置209に記憶する。
(4) Recognition Cell Identification Processing The
Condition a: The width and height of the circumscribed rectangle of the white pixel block are equal to or larger than a predetermined threshold value (for example, 20 pixels).
Condition b: The ratio of black pixel blocks in the circumscribed rectangle is equal to or less than a predetermined threshold value (for example, 20%).
Condition c: the difference between the maximum width of the white pixel block and the width of the circumscribing rectangle is less than or equal to a predetermined threshold (for example, 5 pixels), and the difference between the maximum height of the white pixel block and the height of the circumscribing rectangle. Is less than or equal to a predetermined threshold value (for example, 5 pixels).
In the example of FIG. 13, the
(5)文字領域の特定処理
アプリケーション401は、解析部405を介して、(4)の処理で特定した表領域内の各認識セルの内部に、その各認識セルに内接する白画素塊によって囲まれた黒画素塊があるか否かを判定する。そして、アプリケーション401は、黒画素塊があると判定した場合、あると判定された全ての黒画素塊に外接矩形を設定する。
更に、解析部405は、一つの認識セルの中に複数の外接矩形を設定した場合、外接矩形同士の距離が予め定められた閾値(例えば、20画素、0.5cm等)以下であるか否かを判定する。より具体的には、アプリケーション401は、1つの認識セル内に含まれる外接矩形を一つ一つ選択し、選択された外接矩形からの距離が閾値以内である外接矩形を検出する。
そして、アプリケーション401は、閾値以下の距離だけ離れた外接矩形を検出した場合、閾値以下の距離だけ離れた外接矩形同士を統合して、新たな外接矩形を生成する。即ち、アプリケーション401は、両方の外接矩形に外接する新たな外接矩形を生成し、生成した外接矩形の情報を記憶装置209に記憶し、選択された外接矩形と検出された外接矩形との情報を記憶装置209から削除する。
(5) Character Area Identification Processing The
Furthermore, when a plurality of circumscribing rectangles are set in one recognition cell, the
When the
その後、アプリケーション401は、その認識セル内の外接矩形をまた初めから一つ一つ選択し、互いの間の距離が閾値以下である外接矩形同士を統合していく。アプリケーション401は、以上の処理を繰り返す。即ち、互いの間の距離が閾値以下である外接矩形が無くなるまで、外接矩形同士の統合が繰り返される。
このように、本実施形態では、アプリケーション401は、一つの認識セルの内部に存在する外接矩形同士の統合を行うが、認識セルをまたぐ外接矩形同士の統合を行わない。
以上の処理が完了した際に、記憶装置209に記憶されている外接矩形の情報は、文字列が存在する領域である文字領域を示す情報となる。解析部405は、認識セルの内部に存在する文字領域の位置情報を、対応する認識セルと関連付けて記憶装置209に記憶する。以上の処理により、アプリケーション401は、印刷画像内の表領域内に存在する文字領域を特定する。
図13の例では、領域1405、1406それぞれは、文字領域として特定された領域である。また、領域1405、1406それぞれの位置情報は、認識セルである領域1403の情報と関連付けられて、記憶装置209に記憶される。
また、アプリケーション401は、公知のOCR(Optical Character Recognition)の技術を用いて、印刷画像内の表領域以外の部分に存在する文字列が存在する文字領域を特定する。そして、アプリケーション401は、特定した文字領域の位置情報を、記憶装置209に記憶する。
アプリケーション401は、以上の(1)〜(5)の処理を実行することで、印刷画像から、文字列が存在する領域である文字領域を分割する。
After that, the
As described above, in this embodiment, the
When the above process is completed, the circumscribed rectangle information stored in the
In the example of FIG. 13,
Further, the
The
S810において、アプリケーション401は、解析部405を介して、印刷画像内に文字列が含まれるか否かを判定する。より具体的には、アプリケーション401は、S809で特定した文字領域が存在するか否かに基づいて、印刷画像内に文字列が含まれるか否かを判定する。アプリケーション401は、S809で特定した文字領域が存在する場合、印刷画像内に文字列が含まれると判定して、処理をS811に進め、S809で特定した文字領域が存在しない場合、印刷画像内に文字列が含まれないと判定して、処理をS812に進める。
S811において、アプリケーション401は、解析部405を介して、印刷画像におけるS809で特定した文字領域それぞれに対して文字認識を行い、文字列を取得する。そして、アプリケーション401は、マイク・スピーカ214のスピーカを介して、取得した文字列を音声出力する。
アプリケーション401は、文字認識により取得した文字列を、対応する文字領域と関連付けて記憶装置209に記憶する。それにより、文字領域が表領域内に存在する場合、文字列は、文字領域と予め関連付けられている認識セルとも関連付けられることになる。また、アプリケーション401は、文字認識に失敗した場合、文字領域に関連付けられる文字列を取得できないこととなる。
また、アプリケーション401は、文字認識を行う際に、更に、認識率を取得してもよい。認識率は、文字を正しく認識できたか否かを何かしらの数値で示した値である。その場合、アプリケーション401は、認識した文字列と関連付けて認識率についても、記憶装置に記憶することとしてもよい。
In step S810, the
In step S811, the
The
In addition, the
S812において、アプリケーション401は、解析部405を介して、外部の画像解析サービスを利用して、印刷画像がどのような画像であるかを認識する認識処理の結果の情報を取得する。本実施形態では、アプリケーション401は、Google Cloud Vision API(登録商標)等のクラウドコンピューティングを用いた画像解析のサービス(クラウドサービス)に印刷画像の認識処理を依頼することで、応答として印刷画像の認識処理の結果(認識結果)の情報を取得する。認識処理の結果の情報は、例えば、何等かのオブジェクト(例えば、人物、動物、風景等)の画像であることを示す情報等である。そして、アプリケーション401は、マイク・スピーカ214のスピーカを介して、取得した認識処理の結果の情報を音声出力する。
本実施形態では、アプリケーション401は、S812で、クラウドコンピューティングを用いた画像解析サービスを利用することとしたが、利用しないこととしてもよい。その場合、アプリケーション401は、例えば、画像内の被写体を検出するためのオフラインの推論エンジンを用いて、印刷画像に対する認識処理を実行し、認識処理の結果の情報を取得することとしてもよい。その場合、アプリケーション401は、例えば、OS410が提供するAPI等に印刷画像の認識処理を依頼し、応答として認識処理の結果の情報を取得する。続いて、OS410が提供するスクリーンリーダ機能と協働して取得した情報を音声出力する。
S806、S808、S811、S812それぞれで音声出力される情報(アクセシビリティ情報を示す文字列、印刷対象ファイルに含まれる文字列、印刷画像から認識された文字列、印刷画像に対する認識処理の結果の情報)それぞれは、解析情報の一例である。
In step S <b> 812, the
In the present embodiment, the
Information output by voice in each of S806, S808, S811, and S812 (character string indicating accessibility information, character string included in print target file, character string recognized from print image, information on result of recognition process for print image) Each is an example of analysis information.
なお、S806、S808、S811、S812の何れかの処理において、情報の音声出力が行われている最中に、ユーザが予め定められた操作を行った場合、アプリケーション401は、音声出力を途中で中止することとする。
図11を用いて、データ処理装置101が音声出力を中止する処理について説明する。
図11(a)、(b)の処理の開始の際には、S806、S808、S811、S812の何れかの処理で情報が音声出力されているとする。本実施形態では、アプリケーション401は、マルチスレッド処理により図8のフローチャートの処理と、図11(a)、(b)の何れかのフローチャートの処理と、を並列して実行することとする。
図11(a)のフローチャートの処理について説明する。
S1001において、アプリケーション401は、ボタン702が選択されたか否かを判定する。アプリケーション401は、ボタン702が選択されたと判定した場合、処理をS1002に進め、ボタン702が選択されていないと判定した場合、図11の処理を終了する。
S1002において、アプリケーション401は、S806、S808、S811、S812の何れかの処理で実行されている音声出力処理を中止するよう制御する。
S1003において、アプリケーション401は、印刷対象ファイルの印刷処理を実行するよう制御する。
Note that in any of the processes of S806, S808, S811, and S812, if the user performs a predetermined operation during the audio output of information, the
A process in which the
At the time of starting the processing of FIGS. 11A and 11B, it is assumed that information is output as voice by any of the processing of S806, S808, S811, and S812. In this embodiment, the
The process of the flowchart of FIG. 11A will be described.
In step S1001, the
In step S1002, the
In step S1003, the
図11(b)のフローチャートの処理について説明する。
S1004において、アプリケーション401は、ボタン703が選択されたか否かを判定する。アプリケーション401は、ボタン703が選択されたと判定した場合、処理をS1005に進め、ボタン703が選択されていないと判定した場合、図11(b)の処理を終了する。
S1005において、アプリケーション401は、S806、S808、S811、S812の何れかの処理で実行されている音声出力処理を中止するよう制御する。
S1006において、アプリケーション401は、ディスプレイ215に、ファイル選択画面601を表示する。
以上の図11の処理により、データ処理装置101は、音声出力処理をキャンセルして、別の処理に進むことができる。
なお、本実施形態では、アプリケーション401は、印刷プレビュー画面701に移動したタイミング以外に、タッチパネル216へのユーザによるタップ操作を検知した場合に、S803〜S812の処理を実行することとする。これにより、タッチパネル216へのタップ操作に応じて、再度、印刷対象ファイルの解析情報が音声出力される。そのため、ユーザが、解析情報を聞き返したい場合に聞き返すことができるようになる。
The process of the flowchart of FIG. 11B will be described.
In step S1004, the
In step S1005, the
In step S1006, the
Through the processing in FIG. 11 described above, the
In addition, in the present embodiment, the
以上、本実施形態の処理により、データ処理装置101は、印刷対象ファイルの解析情報を、音声出力することで、ユーザに提供できる。これにより、視覚障がい者のユーザが、印刷するファイルが正しく選択されているか否かをより容易に判断することができるようになる。困難な場合がある。即ち、データ処理装置101は、印刷の際の視覚障がい者のユーザにとっての利便性を向上できる。
As described above, according to the processing of the present embodiment, the
<実施形態2>
実施形態1では、データ処理装置101が、印刷対象ファイルを解析してから解析情報を取得して、取得した解析情報を音声出力する処理について説明した。しかし、印刷対象ファイルの解析情報に含まれる文字数によっては、解析情報の音声出力に時間がかかってしまう。例えば、図12のような請求書の文書ファイルの印刷画像から取得された文字列を音声出力すると時間がかかり、ユーザの混乱を招く可能性がある。
そこで、本実施形態では、データ処理装置101が、印刷対象ファイルから、特定の解析情報を取得し、取得した特定の解析情報を音声出力する処理について説明する。
本実施形態では、データ処理装置101が、印刷対象ファイルから、特定の解析情報として、文書のタイトルを取得し、音声出力する。
本実施形態のデータ処理システムのシステム構成は、実施形態1と同様である。また、データ処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態1と同様である。
<Embodiment 2>
In the first embodiment, the processing in which the
Therefore, in the present embodiment, a process in which the
In the present embodiment, the
The system configuration of the data processing system of this embodiment is the same as that of the first embodiment. Further, the hardware configuration and the functional configuration of each component of the data processing system are the same as in the first embodiment.
アプリケーション401は、解析部405を介して、印刷対象ファイルの印刷画像から文字属性情報1201を取得する。
図12の文書1101から取得される文字属性情報1201について説明する。図13は、文書1101から取得された文字属性情報1201の一例を示す図である。文字属性情報とは、文書内に含まれる文字列の属性を示す情報である。なお、図13の例では、文字属性情報1201は、XML形式となっているが、別の形式でもよい。例えば、文字属性情報1201は、解析部405内部でのみ使用される情報であるため、バイナリ形式でもよい。
例えば、文書1101内の文字列1102から、文字属性情報1201における要素1202の情報が取得される。
要素1202には、以下のように、「文字列(string)」、「文字サイズ(size)」、「文字位置(position)」、「タイプ(type)」の項目が含まれる。図13の例では、「文字列(string)」は、Invoiceである。また、「文字サイズ(size)」は、24である。また、「文字位置(position)」は、対応する文字列に外接する文字枠1103の左上の座標[20、10]と右下の座標[100、34]とである。また、「タイプ(type)」は、Textである。「タイプ(type)」の項目は、例えば、表内のデータである場合、Tableとなる。タイプは必要に応じて種類が増減されることとしてもよい。
The
The
For example, the information of the
The
以下では、文字属性情報1201を取得する処理について説明する。
(印刷対象ファイルが画像ファイル又は画像のみを含むPDFファイルである場合)
アプリケーション401は、印刷対象ファイルに対して、図8のS809で説明した領域分割処理を実行することで、印刷対象ファイルの印刷画像内の文字領域を特定する。そして、アプリケーション401は、特定した文字領域それぞれについて、文字領域が表領域内に存在する場合、対応する文字列のタイプをTableとして、文字領域が表領域内に存在しない場合、対応する文字列のタイプをTextとして、取得する。
そして、アプリケーション401は、印刷画像内の各文字領域に対して文字認識処理を実行することで、各文字領域に対応する文字列と文字サイズとを取得する。
アプリケーション401は、取得したタイプ、文字列、文字サイズ、及び文字領域の位置情報を用いて、印刷対象ファイルの文字属性情報1201を作成する。アプリケーション401は、作成した文字属性情報1201を、記憶装置209に記憶する。しかし、アプリケーション401は、作成した文字属性情報1201を、記憶装置209に記憶せずに、RAM204に記憶してもよい。
The process of acquiring the
(When the file to be printed is an image file or a PDF file containing only images)
The
Then, the
The
(印刷対象ファイルが文字コードを含むPDFファイルである場合)
印刷対象ファイルが、文字コードを含むPDFの場合、印刷対象ファイル内に文字列、文字サイズ、文字位置の情報が含まれている。そのため、アプリケーション401は、印刷対象ファイルから、それらの情報を取得する。
PDFフォーマットの仕様では、表というオブジェクトの定義は無い。そのため、PDFファイル内のある文字列が、表内の文字列か否かを、単純にPDFファイル内の情報から判断できない。ただし、ドキュメント構造タグにより、表内の文字列が定義されていれば、アプリケーション401は、このドキュメント構造タグから、PDFファイル内の文字列が、表内の文字列か否かを判定できる。そして、アプリケーション401は、判定結果に基づいて、印刷画像内の文字列のタイプを取得する。
また、ドキュメント構造タグにより、表内の文字列が定義されていない場合、アプリケーション401は、印刷対象ファイルを一旦画像に変換して、変換後の画像に対して領域分割処理を行うことで、印刷画像内の各文字列が表内の文字列か否かを判定する。そして、アプリケーション401は、判定結果に基づいて、印刷画像内の文字列のタイプを取得する。
(When the file to be printed is a PDF file containing a character code)
When the print target file is a PDF including a character code, the print target file includes information about a character string, a character size, and a character position. Therefore, the
The PDF format specification does not define a table object. Therefore, it cannot be simply determined from the information in the PDF file whether a certain character string in the PDF file is a character string in the table. However, if the character string in the table is defined by the document structure tag, the
Further, when the character string in the table is not defined by the document structure tag, the
以上の処理により、アプリケーション401は、解析部405を介して、印刷対象ファイルの文字属性情報1201を作成する。
続いて、文字属性情報1201の情報を元に、文書のタイトルを示す文字列を取得し、取得した文字列を音声出力する処理について説明する。
処理の概要として、アプリケーション401が文字属性情報1201内の複数の<data>要素の中から、以下の条件α、βを満たす文字列情報を探索する処理である。
条件α:印刷画像内で、相対的に上側、左側に位置する文字列である。
条件β:印刷画像内で、相対的にフォントサイズが大きい文字列である。
条件α、βは、文書内のタイトルは、文書内で上側、左側に位置し、かつ、フォントサイズも他の文字列よりも大きい、との仮定に基づく条件である。
Through the above processing, the
Next, a process of acquiring the character string indicating the title of the document based on the information of the
The outline of the process is a process in which the
Condition α: a character string located relatively on the upper side and the left side in the print image.
Condition β: a character string having a relatively large font size in the print image.
The conditions α and β are conditions based on the assumption that the title in the document is located on the upper side and the left side in the document and the font size is larger than that of other character strings.
図14は、本実施形態のデータ処理装置101の処理の一例を示すフローチャートである。図14を用いて、データ処理装置101が、文字属性情報1201の情報を元に、文書のタイトルを示す文字列を取得し、取得した文字列を音声出力する処理について説明する。
S1301において、アプリケーション401は、解析部405を介して、PDFファイルである印刷対象ファイル内に、タイトルの情報が含まれているか否かを判定する。印刷対象ファイル内にアクセシビリティ情報として、タイトルが定義された情報が含まれる場合がある。そこで、アプリケーション401は、解析部405を介して、印刷対象ファイルのドキュメント構造タグ(StructTreeRoot)内から、タイトルとして定義されている構造要素を探索する。アプリケーション401は、探索できた場合、処理をS1302に進め、探索できなかった場合、処理をS1303に進める。
本実施形態では、アプリケーション401は、印刷対象ファイルのドキュメント構造タグ(StructTreeRoot)内から、タイトルとして定義されている構造要素を探索することで、タイトルの情報を探索することとした。しかし、アプリケーション401は、印刷対象ファイルのドキュメント構造タグ(StructTreeRoot)内から、タイトルとして定義されている構造要素を探索しないこととしてもよい。例えば、印刷対象ファイル内にメタデータとして、タイトルの情報が含まれる場合がある。そこで、アプリケーション401は、印刷対象ファイルのメタデータから、タイトルを示すメタデータを探索することとしてもよい。
FIG. 14 is a flowchart showing an example of processing of the
In step S1301, the
In the present embodiment, the
S1302において、アプリケーション401は、OS410が提供するスクリーンリーダ機能と協働してS1301で探索したタイトルの情報を、マイク・スピーカ214のスピーカを介して、音声出力する。
S1303において、アプリケーション401は、解析部405を介して、印刷対象ファイルから文字属性情報1201を作成する。
S1304において、アプリケーション401は、解析部405を介して、S1303で作成した文字属性情報1201内の<data>要素のうち、文書内における上側の領域として予め定められた領域内に存在する<data>要素を抽出する。本実施形態では、印刷画像に表される文書の領域をy方向に3分割した場合の最上部の領域を、文書内における上側の領域として予め定められた領域とする。また、文書内における上側の領域として予め定められた領域は、文書の領域をy方向に3分割した場合の最上部の領域に限定されない。例えば、文書内における上側の領域として予め定められた領域は、文書の領域をy方向に5分割した場合の最上部の領域であってもよい。
例えば、文書の下側にロゴがあり、ロゴの形によっては、サイズの大きい文字列と判定されてしまう場合がある。このような文字列を、文書のタイトルとして取得しないようにするために、アプリケーション401は、S1304の処理を行う。
In step S1302, the
In step S1303, the
In step S1304, the
For example, there is a logo on the lower side of the document, and it may be determined that the character string has a large size depending on the shape of the logo. In order not to acquire such a character string as the title of the document, the
S1305において、アプリケーション401は、解析部405を介して、S1304で抽出した<data>要素のうち、フォントサイズが最も大きい<data>要素を全て抽出する。
S1306において、アプリケーション401は、解析部405を介して、S1304で抽出した<data>要素のうち、以下のような<data>要素を抽出する。即ち、アプリケーション401は、S1305で抽出した<data>要素に対応するフォントサイズとのサイズ差が、予め定められた閾値(例えば、0.5p、1p等)以下であるフォントサイズの<data>要素を全て抽出する。
文字認識によるフォントサイズの特定処理は、精度が100%ではない場合がある。そのため、フォントサイズが実際のサイズと比べて、0.5〜1.0pほどずれて特定される場合が生じうる。そこで、アプリケーション401は、そのような場合に対応して、S1306の処理を実行する。
In step S1305, the
In step S1306, the
The accuracy of the font size specifying process by character recognition may not be 100%. Therefore, the font size may be specified by being displaced by 0.5 to 1.0 p from the actual size. Therefore, the
S1307において、アプリケーション401は、解析部405を介して、S1305とS1306とで抽出した<data>要素中から、もっとも左上に位置する<data>要素の文字列を、タイトルを示す文字列として取得する。より具体的には、アプリケーション401は、各<data>要素の「文字位置(position)」が示す文字枠の左上の座標値を取得する。そして、アプリケーション401は、取得した座標値のうち、対応するx座標値とy座標値との和が最も小さい座標値を特定する。アプリケーション401は、特定した座標値に対応する<data>要素を、最も左上に存在する文字列を示す<data>要素として特定する。アプリケーション401は、特定した<data>要素に対応する文字列を、タイトルを示す文字列として取得する。
S1308において、アプリケーション401は、OS410が提供するスクリーンリーダ機能と協働してS1307で取得した文字列を、マイク・スピーカ214のスピーカを介して音声出力する。
In step S1307, the
In step S1308, the
なお、本実施形態では、アプリケーション401は、印刷対象ファイルに対応する文書のタイトルを示す文字列を1つだけ取得することとした。しかし、タイトルの候補が複数ある場合に対応するため、アプリケーション401は、印刷対象ファイルに対応する文書のタイトルを示す文字列を複数取得してもよい。その場合、アプリケーション401は、S1307で、S1305とS1306とで抽出した<data>要素中から、各<data>要素の「文字位置(position)」が示す文字枠の左上の座標値を取得する。そして、アプリケーション401は、取得した座標値のうち、対応するx座標値とy座標値との和が、予め定められた閾値以下の座標値を複数特定する。アプリケーション401は、特定した座標値それぞれに対応する<data>要素を、タイトルを示す文字列を示す<data>要素として特定する。アプリケーション401は、特定した複数の<data>要素に対応する複数の文字列を、タイトルを示す文字列として取得することとなる。そして、アプリケーション401は、OS410が提供するスクリーンリーダ機能と協働して特定した複数の文字列を音声出力する。
また、本実施形態では、アプリケーション401は、タイトルに相当する文字列を、音声出力の対象となる特定の文字列として取得した。しかし、アプリケーション401は、他の種類の文字列を音声出力の対象となる文字列として取得してもよい。例えば、アプリケーション401は、印刷画像から抽出した文字列に基づき要約を作成し、作成した要約を、音声出力の対象となる文字列として取得してもよい。なお、アプリケーション401は、公知の要約アルゴリズムを用いることで、印刷画像から抽出した文字列から要約を作成できる。アプリケーション401は、例えば、各文のグラフ表現におけるベクトルの類似度に基づき重要な文を抽出するLexRank等のアルゴリズムを用いることができる。また、アプリケーション401は、外部のクラウドサーバ等と連携して要約を作成することとしてもよい。
In this embodiment, the
Further, in the present embodiment, the
以上、本実施形態の処理により、データ処理装置101は、印刷対象ファイルが指定された際に、印刷画像に対応する文書に関する特定の情報のみ音声出力できる。これにより、視覚障がい者のユーザは、より容易に、印刷対象ファイルの内容を確認することができる。
As described above, according to the processing of the present embodiment, when the file to be printed is designated, the
<実施形態3>
数値のみの文字列と表内の文字列とについては、音声で読み上げられても分かりづらく、かえって混乱を招く可能性があった。
そこで、本実施形態では、データ処理装置101が数値のみの文字列と表内の文字列とを、音声出力させないように制御する処理について説明する。
本実施形態のデータ処理システムのシステム構成は、実施形態1と同様である。また、データ処理システムの各構成要素のハードウェア構成及び機能構成についても、実施形態1と同様である。
<Embodiment 3>
As for the character strings containing only numerical values and the character strings in the table, it was difficult to understand even when read aloud, and there was a possibility of causing confusion.
Therefore, in the present embodiment, a process will be described in which the
The system configuration of the data processing system of this embodiment is the same as that of the first embodiment. Further, the hardware configuration and the functional configuration of each component of the data processing system are the same as in the first embodiment.
図15は、本実施形態のデータ処理装置101の処理の一例を示すフローチャートである。本実施形態では、印刷対象ファイルは、文書の画像を示す画像ファイルであるとする。
本実施形態では、データ処理装置101は、図14のフローチャートのS1301〜S1303と同様の処理を実行する。データ処理装置101は、S1303の処理を実行した後に、図15の処理を実行する。
S1501において、アプリケーション401は、解析部405を介して、S1303で作成した文字属性情報1201に含まれる<data>要素の中で、タイプがTableのものを削除する。
S1502において、アプリケーション401は、解析部405を介して、文字属性情報1201に含まれる<data>要素の中で、予め定められた種類の文字を含まない文字列をもつ<data>要素を削除する。本実施形態では、予め定められた種類の文字は、ひらがな、カタカナ、漢数字を除く漢字、アルファベットであるとする。これにより、アプリケーション401は、アラビア数字、漢数字等の数値のみで構成されるような文字列をもつ<data>要素を削除できる。
S1503において、アプリケーション401は、マイク・スピーカ214のスピーカを介して、文字属性情報1201に残っている<data>要素の文字列を音声出力する。
FIG. 15 is a flowchart showing an example of processing of the
In the present embodiment, the
In step S1501, the
In step S1502, the
In step S1503, the
本実施形態では、印刷対象ファイルは、文書の画像を示す画像ファイルであるとした。しかし、印刷対象ファイルは、文書の画像をコンテンツとして含むPDFファイルであるとしてもよい。その場合、データ処理装置101は、印刷対象ファイルは、文書の画像を示す画像ファイルである場合と同様の処理を実行する。
また、印刷対象ファイルは、文字列をコンテンツとして含むPDFファイルであるとしてもよい。その場合、データ処理装置101は、印刷対象ファイルにコンテンツとして含まれる文字列を取得し、取得した文字列から、表に格納される文字列と、予め定められた種類の文字を含まない文字列と、を除いた文字列を音声出力する。
In the present embodiment, the print target file is an image file showing an image of a document. However, the print target file may be a PDF file including the image of the document as content. In that case, the
Further, the print target file may be a PDF file including a character string as content. In that case, the
以上、本実施形態では、データ処理装置101は、表に含まれている文字列、又は、数値のみで構成されているような文字列を音声出力しないように制御した。これにより、ユーザが混乱してしまう可能性を低減できる。
As described above, in the present embodiment, the
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other embodiments>
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program. It can also be realized by the processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
例えば、上述したデータ処理システムの機能構成の一部又は全てをハードウェアとしてデータ処理装置101等に実装してもよい。
以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。例えば、上述した各実施形態を任意に組み合わせる等してもよい。
For example, part or all of the functional configuration of the data processing system described above may be implemented as hardware in the
Although one example of the embodiment of the present invention has been described in detail above, the present invention is not limited to the specific embodiment. For example, the above-described embodiments may be arbitrarily combined.
101 データ処理システム
202 CPU
101
Claims (15)
前記取得手段により取得された前記解析情報を音声出力するよう制御する制御手段と、
を有する情報処理装置。 An acquisition means for acquiring analysis information of the print target file when the screen reader function is enabled and the print target file is designated;
Control means for controlling to output the analysis information acquired by the acquisition means by voice;
Information processing device having a.
前記取得手段は、前記依頼の応答として得られた認識処理の結果を示す情報を、前記解析情報として取得する請求項1又は2記載の情報処理装置。 Further comprising requesting means for requesting the recognition of the file to be printed to the operating system or cloud service of the information processing device,
The information processing apparatus according to claim 1, wherein the acquisition unit acquires, as the analysis information, information indicating a result of recognition processing obtained as a response to the request.
スクリーンリーダ機能が有効に設定され、かつ、印刷対象ファイルが指定された場合、前記印刷対象ファイルの解析情報を取得する取得ステップと、
前記取得ステップで取得された前記解析情報を音声出力するよう制御する制御ステップと、
を含む情報処理方法。 An information processing method executed by an information processing device, comprising:
An acquisition step of acquiring analysis information of the print target file when the screen reader function is enabled and a print target file is designated;
A control step of controlling to output the analysis information acquired in the acquisition step by voice;
Information processing method including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018191996A JP2020060963A (en) | 2018-10-10 | 2018-10-10 | Apparatus and method for information processing, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018191996A JP2020060963A (en) | 2018-10-10 | 2018-10-10 | Apparatus and method for information processing, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020060963A true JP2020060963A (en) | 2020-04-16 |
Family
ID=70220052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018191996A Pending JP2020060963A (en) | 2018-10-10 | 2018-10-10 | Apparatus and method for information processing, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020060963A (en) |
-
2018
- 2018-10-10 JP JP2018191996A patent/JP2020060963A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3024213B1 (en) | Image scanning apparatus and method for controlling the same | |
US8726178B2 (en) | Device, method, and computer program product for information retrieval | |
JP5733907B2 (en) | Image processing apparatus, image processing method, and computer program | |
US10270934B2 (en) | Image processing apparatus and image forming apparatus | |
JP4502385B2 (en) | Image processing apparatus and control method thereof | |
JP2008052372A (en) | Image processor, handwritten information recognition method and handwritten information recognition program | |
JP7262993B2 (en) | Image processing system, image processing method, image processing apparatus | |
US9614984B2 (en) | Electronic document generation system and recording medium | |
KR20240020719A (en) | Information processing apparatus, storage medium, and storing method | |
US11132122B2 (en) | Handwriting input apparatus, handwriting input method, and non-transitory recording medium | |
US8355577B2 (en) | Image processing apparatus and method | |
JP2006093917A (en) | Image reading apparatus and image processor, and image forming apparatus | |
US10638001B2 (en) | Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data | |
JP6358471B2 (en) | Image forming apparatus | |
JP6601143B2 (en) | Printing device | |
JP2020060963A (en) | Apparatus and method for information processing, and program | |
JP2014211747A (en) | Image processing apparatus, terminal device, and information processing method and program | |
JP6205973B2 (en) | Change history output device, program | |
JP2018036794A (en) | Image processing device and program | |
US20150363679A1 (en) | Information processing apparatus and computer-readable non-transitory recording medium with image processing program stored thereon | |
JP6827839B2 (en) | Image forming apparatus, control method of image forming apparatus, and program | |
JP2010105191A (en) | Image processing apparatus | |
JP2016192060A (en) | Server program, information management method, and server device | |
JP2020025218A (en) | Image processing apparatus and image processing program | |
KR20130020072A (en) | Image forming apparatus and control method thereof |