JP5120148B2

JP5120148B2 - 確認支援装置、確認支援方法、およびコンピュータプログラム

Info

Publication number: JP5120148B2
Application number: JP2008218296A
Authority: JP
Inventors: 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2013-01-16
Anticipated expiration: 2028-08-27
Also published as: JP2010055289A

Description

本発明は、テキストを合成音声などによって出力する装置および方法などに関する。

紙などの原本に記載された情報を人間が手作業でコンピュータに入力することによって電子データ化することがある。そして、その電子データに基づいて、入力された情報を別の用紙に印刷しまたはディスプレイに表示し、原本に記載された情報と比較することによって、誤入力がないかどうかを確認する作業を行う。

この際に、用紙またはディスプレイに出力（印刷、表示）された情報を１人が読み上げて別のもう１人がそれを聞きながら原本の情報と比較すると、つまり、読合せを行うと、スムーズに確認の作業を進めることができる。また、特許文献１に記載されるように情報の読上げを音声合成技術によってコンピュータに行わせれば、１人でも読合せを行うことができる。
特開昭６２−１１９６５号公報

ところが、誤入力の箇所があるにも係わらず、比較を行う者がそれを見落としてしまうことがある。人間が作業を行う以上、見落としを１００％なくすことは、困難である。

そこで、読合せの結果の信頼性が有用である。なぜなら、読合せの結果の信頼性が分かれば、原本に記載された情報の入力の作業または入力された情報の読合せの作業をもう一度やり直すべきか否かを容易に判断することができるからである。

例えば、読合せの結果の信頼性が高いことが分かりかつ多くの誤入力が見つかった場合は、入力の作業をやり直すべきであると、判断できる。または、読合せの結果の信頼性が低いことが分かりかつ誤入力がほとんど見つからなかった場合は、読合せの作業をやり直すべきであると、判断できる。

また、読合せの作業者が熟練者であれば信頼性は経験的に分かるが、初心者であれば信頼性はほとんど分からない。

本発明は、このような問題点に鑑み、確認作業の結果の信頼性を従来よりも確実に求めることを、目的とする。

本発明の一実施形態に係る確認対象となる情報である対象情報を入力するための対象情報入力手段と、入力された前記対象情報を、当該対象情報に含まれる語句である含有語句のうちの１つまたは複数を他の語句に置換しながら出力する、対象情報出力手段と、前記他の語句が出力されたことに気付いた旨を示す検知信号を検査者に入力させるための検知信号入力手段と、前記含有語句が前記他の語句に置換された置換回数と前記検知信号が入力された検知回数とに基づいて前記検査者による確認の信頼度を算出する信頼度算出手段と、算出された前記信頼度を出力する信頼度出力手段と、を有する。

好ましくは、前記対象情報の中から、前記他の語句に置換されるべき前記含有語句を選出する、被置換語句選出手段と、選出された前記含有語句ごとに、当該含有語句と置換すべき前記他の語句を決定する、代替語句決定手段と、を有し、前記対象情報出力手段は、選出された前記含有語句を、当該含有語句について前記代替語句決定手段が決定した前記他の語句と置換して出力する。

前記代替語句決定手段は、前記含有語句と置換する前記他の語句として、当該含有語句との類似性が一定以上である語句を選出する。

前記対象情報出力手段は、前記対象情報を、音声ボードなどによって音声を合成することによって出力する。または、対象情報を表わす文字をディスプレイに表示することによって出力する。

本発明によると、読合せの結果の信頼性を従来よりも確実に求めることができる。

図１は読合せ支援装置１の外観の例を示す図、図２は読合せ支援装置１のハードウェア構成の例を示す図、図３は読合せ支援装置１の機能的構成の例を示す図である。

図１に示す読合せ支援装置１は、用紙に印刷されている文書などの情報に基づいて入力され電子化された情報、例えば用紙に印刷されている文書に基づいて手入力され電子化された情報やＯＣＲにより入力され電子化された情報を合成音声によって読み上げ、正しく情報が電子化されているか否かを、検査者であるユーザにチェック（読合せ）させるための装置である。特に、用紙に手書きで書かれた情報をパーソナルコンピュータまたはワークステーションなどで人間が正しく入力したか否かをチェックするために好適に用いられる。

読合せ支援装置１は、図２に示すように、ＣＰＵ（Central Processing Unit）１０ａ、ＲＡＭ（Random Access Memory）１０ｂ、ＲＯＭ（Read Only Memory）１０ｃ、ハードディスク１０ｄ、液晶ディスプレイ１０ｅ、キーボード１０ｆ、ポインティングデバイス１０ｇ、ＵＳＢ（Universal Serial Bus）ポート１０ｈ、サウンドボード１０ｉ、スピーカ１０ｊ、およびネットワークポート１０ｋなどを有する。

液晶ディスプレイ１０ｅは、後述する読合せの信頼性および警告のメッセージなどを表示する。

キーボード１０ｆおよびポインティングデバイス１０ｇは、ユーザが読合せ支援装置１に対してコマンド、修正内容および処理条件などの入力に用いることができる。キーボード１０ｆのキーが押されたり、ポインティングデバイス１０ｇのボタンが押されたり、またはタブレットが操作されたりすると、信号がＣＰＵ１０ａに送られる。

ＵＳＢポート１０ｈには、ＵＳＢタイプのスキャナ２が接続される。スキャナ２によって読み取られた画像のデータがＵＳＢポート１０ｈを介して読合せ支援装置１に入力される。この画像の中の文字、数字、および記号などのキャラクタは、ＯＣＲ（Optical Character Reader）処理によってテキストデータ化される。

ネットワークポート１０ｋには、ネットワークケーブルを介してサーバ３が接続されている。サーバ３には既に電子化された未チェックのデータが格納されている。

サウンドボード１０ｉは、テキストデータに基づいてキャラクタを音声合成処理によって音声化する。スピーカ１０ｊは、その音声を出力する。

ＲＯＭ１０ｃおよびハードディスク１０ｄには、図３に示すような読上データ取得制御部１０１、難易度算出部１０２、テキスト置換指令部１０３、検査用単語決定部１０４、テキスト置換部１０５、音声合成制御部１０６、修正箇所データ取得部１２１、信頼度分析部１２２、分析結果出力部１２３、類似度データ記憶部１３１、非類似テキストデータベース１３２、単語辞書データベース１３３、および検査結果等記憶部１３４などの機能を実現するためのプログラムおよびデータが記憶されている。これらのプログラムおよびデータは必要に応じてＲＡＭ１０ｂにロードされ、ＣＰＵ１０ａによってプログラムが実行される。

読合せ支援装置１として、パーソナルコンピュータまたはワークステーションなどが用いられる。

図４は類似度データ７Ａ〜７Ｃの例を示す図、図５は表形式の読上げ対象情報の例を示す図、図６は修正用画面ＨＧ１の例を示す図、図７は修正箇所データ８Ａおよび未修正箇所データ８Ｂの例を示す図、図８は信頼度の集計の結果の例を示す図である。次に、図３に示す読合せ支援装置１の各部の処理内容などについて詳細に説明する。

図３において、類似度データ記憶部１３１は、２つの音節（モーラ）またはキャラクタ同士の類似の度合い（類似度）を示す類似度データ７Ａ、７Ｂ、および７Ｃを記憶する。

類似度データ７Ａには、図４（ａ）のように、２つの音節同士の音の類似度が示されている。この類似度データ７Ａによると、次のように類似度が求められる。

例えば、音節「さ（ＳＡ）」および音節「し（ＳＨＩ）」は、ともに無声摩擦音の子音を有するが母音は相違する。よって、両音節の類似度は「５」である。または、音節「ば（ＢＡ）」および音節「ぱ（ＰＡ）」は、いずれか一方の子音が「ｐ」であり他方の子音が「ｂ」でありかつ母音が同じである。よって、両音節の類似度は「９」である。または、音節「さ（ＳＡ）」および音節「さ（ＳＡ）」は、同一の母音および同一の子音を有するので、両音節の類似度は「１０」である。

類似度データ７Ｂには、図４（ｂ）のように、２つの数字同士の見た目（外観）または読み（称呼）の類似度が示されている。

類似度データ７Ｃには、図４（ｃ）のように、２つの数値の桁数同士の類似度が示されている。

図３に戻って、非類似テキストデータベース１３２には、単語ごとに、その単語と似ていない他の単語（つまり、非類似の単語）を示す非類似単語データ７Ｄが格納されている。具体的には、非類似単語データ７Ｄには、その単語との類似度が所定の値未満である他の単語が示されている。単語同士の類似度については、後述する。

単語辞書データベース１３３には、様々な分野の様々な単語の、読み、アクセント、および品詞などを示すデータが記憶されている。このデータは、音声合成のほか、後述する単語の置換のために用いる。

検査結果等記憶部１３４には、修正箇所データ取得部１２１によって取得された修正箇所データのほか、読上データ取得制御部１０１によって取得された読上データおよび信頼度分析部１２２によって求められた信頼度を示す信頼度データなどが記憶される。これらのデータについては、後に順次説明する。

読上データ取得制御部１０１は、ＵＳＢポート１０ｈを介してスキャナ２を制御することによって、用紙に印刷されている、読合せチェックの対象である情報（以下、「読上げ対象情報」と記載する。）が記された画像を読み取らせ、その画像のデータを取得する。そして、その画像にＯＣＲ処理を施すことによって、読上げ対象情報をテキストデータ化する。このようにして、読上データ取得制御部１０１は、読上げ対象情報のテキストデータを取得する。

また、読上データ取得制御部１０１は、ネットワークポート１０ｋを介して、サーバ３に蓄えられたスキャン画像や、既にテキスト化された電子化データを取得する。以下、読上データ取得制御部１０１によって取得されたテキストデータを「読上データ６」と記載する。

取得された読上データ６は、検査結果等記憶部１３４に記憶される。そして、読合せチェックを開始する際に、検査結果等記憶部１３４からＲＡＭ１０ｂなどに呼び出されて使用される。

なお、図５のような、表形式で表されている読上げ対象情報を読み取った場合は、項目（フィールド）ごとにカンマまたはタブで区切りかつレコードごとに改行コードで区切った形式、例えば、ＣＳＶ（Comma Separated Value）形式のテキストデータ（読上データ６）に変換すればよい。

また、スキャナ２に読上げ対象情報の画像をスキャンさせることによって読上データ６を取得する代わりに、フラッシュメモリ、ハードディスク、ＣＤ−ＲＯＭ、またはＤＶＤなどに記録されているテキストデータなどを、読上データ６として取得してもよい。

難易度算出部１０２は、検査結果等記憶部１３４から読上データ６を呼び出し、この読上データ６に基づいて、読合せチェックの対象である情報のチェックの難易度を算出する。一般に、その情報の中に似ている単語が多く含まれているほど、チェックは難しい。

そこで、難易度算出部１０２は、その情報に含まれる単語同士の類似度を算出し、その類似度に対応した難易度を算出する。図５のような表形式の情報の場合は、単語を項目ごとにグループ化し、グループごとに、類似度を算出し最も高い類似度をその情報の難易度として選出する。類似度は、類似度データ７Ａ、７Ｂ、または７Ｃに基づいて求められる。

例えば、図５に示す「品目」のグループ（項目）の単語同士の類似度は、次のように算出される。このグループには、「米」、「牛肉」、「りんご」、および「ほたて」という４つの異なる単語が含まれている。

「米」は「ＫＯ、ＭＥ」という２つの音節からなり、「牛肉」は「ＧＹＵ、Ｕ、ＮＩ、ＫＵ」という４つの音節からなる。このように音節の数が相違する場合は、両単語は非類似であると、判別する。よって、「米」と「牛肉」とは非類似であり、両者の類似度は「０」である。

「りんご」と「ほたて」とは、それぞれ、「ＲＩ、Ｎ、ＧＯ」および「ＨＯ、ＴＡ、ＴＥ」の音節からなる。つまり、両単語ともに３音節である。そこで、１番目の音節から順に、両単語の音節同士を比較する。つまり、「ＲＩ」と「ＨＯ」とを比較し、「Ｎ」と「ＴＡ」とを比較し、「ＧＯ」と「ＴＥ」とを比較する。そして、図４（ａ）の類似度データ７Ａに基づいて、両音節の類似度を求め、その平均値を求める。すると、いずれの組合せも類似度は「０」であるので、その平均値つまり両単語の類似度は「０」である。

同様に、「米」および「りんご」など、他の２つの単語同士の組合せについても、類似度を求める。そして、最も高い類似度を、この項目つまり「品目」の類似度とする。図５の例によると、「品目」の類似度は「０」である。

「生産地」のグループ（項目）の類似度も同様の方法で求められる。このグループには、「滋賀県」、「佐賀県」、および「北海道」という３つの異なる単語が含まれている。

「滋賀県」は「ＳＨＩ、ＧＡ、ＫＥ、Ｎ」という４つの音節からなり、「佐賀県」は「ＳＡ、ＧＡ、ＫＥ、Ｎ」という４つの音節からなる。１番目の音節から順に、両単語の音節同士を比較すると、２〜４番目の両音節は一致する。よって、２〜４番目の類似度は「１０」である。１番目の両音節は、子音は相違するものの無声摩擦音という点で共通し、母音は相違する。よって、類似度は「５」である。したがって、これらの平均値、つまり、「滋賀県」と「佐賀県」との類似度は、
（５＋１０＋１０＋１０）／４＝８．７５
となる。

「滋賀県」と「北海道」との類似度および「佐賀県」と「北海道」との類似度は、ともに、「０」である。

したがって、「生産地」の類似度として、「滋賀県」と「佐賀県」との類似度である「８．７５」が採用される。

単語に数字が含まれる場合は、両単語に含まれる数字同士が比較され、図４（ｂ）の類似度データ７Ｂに基づいて両単語の類似度が求められる。例えば、一方の単語に「３」が含まれ他方の単語に「８」が含まれる場合は、両単語の類似度は「７」となる。

また、両単語が数値を表す場合は、それぞれの桁数も考慮され、図４（ｃ）の類似度データ７Ｃに基づいて両数値の類似度が求められる。例えば、一方の数値の桁数が３桁であり他方の数値の桁数が４桁である場合（つまり、一方の数値が百の位まであり、他方の数値が千の位まである場合）は、両数値の類似度は「８」である。

なお、数字からなる単語の場合は文字からなる単語の場合よりも類似度が高くなるように類似度データを設定しておくのが好ましい。

図３に戻って、テキスト置換指令部１０３は、読上げ対象情報に含まれる単語を他の単語に置換するタイミングを判定し、後述する検査用単語決定部１０４およびテキスト置換部１０５に対して、単語の置換のための処理を行うように指令する。タイミングの判定の方法については、後に詳細に説明する。

検査用単語決定部１０４は、読上げ対象情報の中の単語の置換の指令がテキスト置換指令部１０３からなされた場合に、その単語と置換するのに好適な他の単語を決定する処理を行う。決定の方法については、後に詳細に説明する。

テキスト置換部１０５は、読上げ対象情報の中の特定の単語の置換の指令がテキスト置換指令部１０３からなされた場合に、その特定の単語を、検査用単語決定部１０４によって決定された他の単語に置換する。

音声合成制御部１０６は、通常は読み上げデータ取得制御部１０１で取得された読み上げデータを読み上げる音声が合成されるようにサウンドボード１０ｉを制御し、テキスト置換指令部１０３が置換処理を指令した場合にのみ、テキスト置換部１０５によって適宜単語の置換が行われた読上データ６に基づいて、読上げ対象情報を読み上げる音声が合成されるようにサウンドボード１０ｉを制御する。そして、この音声をスピーカ１０ｊから出力させる。

ユーザは、スピーカ１０ｊから出力される音声を聴きながら、手書きの原稿が正しく入力されているか否かをチェックする。そして、手書きの原稿の中の単語と聴いた単語とが一致しないことに気付いたら、キーボード１０ｆまたはポインティングデバイス１０ｇを用いて所定の操作を行う。例えば、デスクトップ上の所定のウィンドウ内の所定のボタンをクリックする。または、デスクトップ上の所定のウィンドウをアクティブにした状態でキーボード１０ｆの所定のキーを押す。

すると、修正箇所データ取得部１２１は、音声の出力を停止し、図６のような、正しい単語に修正するための修正用画面ＨＧ１を液晶ディスプレイ１０ｅに表示させる。ここで、ユーザは、正しい単語を入力することによって、読上げ対象情報を修正する。すると、修正箇所データ取得部１２１は、正しい単語の入力を受け付ける。

入力された単語を示すデータは、図７のように、誤りの単語（つまり、読み上げられた単語）を示すデータおよび読上げ対象情報におけるその誤りの単語が配置された位置を示すデータとともに、修正箇所データ８Ａとして検査結果等記憶部１３４に記憶される。

そのほか、修正箇所データ８Ａには、読上げ対象情報全体の読上げを開始してからその単語が読み上げられるまでに経過した時間（経過時間）、入力された単語の属するグループおよびその難易度、および修正があった旨などが示される。さらに、置換を行った場合は、置換前の単語も示される。

正しい単語の受付後、未だ読み上げられていない単語が読上げ対象情報に残っている場合は、読上げの処理が再開される。

テキスト置換部１０５によって単語の置換を行うことによって誤りを発生させたにも関わらず、ユーザがそれに気付かない（見落とす）場合がある。検査結果等記憶部１３４は、図７のように、このような、読上げ対象情報の中の誤りに気付かれなかった置換された単語を示すデータを、読上げ対象情報におけるその単語の位置を示すデータとともに、未修正箇所データ８Ｂとして記憶する。未修正箇所データ８Ｂは、その単語が読み上げられた後所定の時間（例えば、数秒）が経過してから生成されるようにすればよい。

そのほか、未修正箇所データ８Ｂには、読上げ対象情報全体の読上げを開始してからその単語が読み上げられるまでに経過した時間（経過時間）、置換前の単語、置換前の単語の属するグループおよびその難易度、および修正がなされなかった旨などが示される。

このように、読上げ対象情報の読上げを行いユーザによる修正を適宜受け付けることによって、検査結果等記憶部１３４には、図７に示すように修正箇所データ８Ａおよび未修正箇所データ８Ｂが蓄積される。

なお、修正箇所データ８Ａおよび未修正箇所データ８Ｂに示される経過時間には、修正などのために読上げを一時停止した時間は含まれない。

信頼度分析部１２２は、修正箇所データ８Ａおよび未修正箇所データ８Ｂに基づいて、ユーザによるチェックの信頼度を分析する処理を行う。

例えば、図８（ａ）に示すように、難易度と経過時間との時間帯の組合せごとに、信頼度を算出する。信頼度は、
信頼度＝（ユーザが修正した回数／置換の回数）×１００［％］
によって算出することができる。

または、図８（ｂ）に示すように、項目（グループ）と経過時間との時間帯の組合せごとに、信頼度を算出してもよい。

分析結果出力部１２３は、信頼度分析部１２２による分析の結果を液晶ディスプレイ１０ｅに表示させるなどして出力する。

図９はテキスト置換指令部１０３の例を示す図、図１０はタイミング判定処理の第一の例を示すフローチャート、図１１はタイミング判定処理の第二の例を示すフローチャート、図１２はタイミング判定処理の第三の例を示すフローチャート、図１３はタイミング判定処理の第四の例を示すフローチャート、図１４はタイミング判定処理の第五の例を示すフローチャートである。

次に、テキスト置換指令部１０３および検査用単語決定部１０４の処理を詳細に説明する。

テキスト置換指令部１０３を、図９（ａ）に示すように、時間計測部１４１および置換実行判定部１４２によって構成する。

時間計測部１４１は、時間の計測を行う。置換実行判定部１４２は、時間計測部１４１によって計測される時間に基づいて、単語の置換のタイミングを判別する。そして、そのタイミングが訪れたら、検査用単語決定部１０４およびテキスト置換部１０５に対して置換の処理を行うように指令する。具体的には、時間計測部１４１および置換実行判定部１４２は、図１０のフローチャートに示す手順で処理を行う。

時間計測部１４１は、タイマを予め０秒にリセットし（図１０の＃３０１）、読合せチェックの開始に合わせて時間の計測を開始する（＃３０２）。予め設定された所定の時間が経過したら（＃３０４でＹｅｓ）、置換実行判定部１４２は、置換のタイミングが訪れたと判別し、検査用単語決定部１０４およびテキスト置換部１０５に対して置換の処理を行うように指令する（＃３０５）。すると、読上げ対象情報の中の次に出力されるべき単語が検査用単語決定部１０４およびテキスト置換部１０５によって別の単語に置換され、音声合成制御部１０６によってその音声が出力される。そして、時間計測部１４１は、タイマを０秒にリセットし（＃３０６）、再び時間の計測を開始する。

一方、所定の時間が経過するまでにユーザが修正の操作を行った場合は（＃３０７でＹｅｓ）、時間計測部１４１は、タイマを０秒にリセットする（＃３０８）。そして、再び時間の計測を開始する。

または、置換のタイミングがランダムになるようにテキスト置換指令部１０３を次のように構成してもよい。

テキスト置換指令部１０３を、図９（ｂ）に示すように、時間計測部１５１、置換実行判定部１５２、および時間間隔値生成部１５３によって構成する。時間間隔値生成部１５３は、擬似ランダム関数などを用いて所定の範囲（例えば、１分〜１０分）でランダムな時間（以下、「ランダム時間」と記載する。）の値を生成する。

そして、テキスト置換指令部１０３の各部は、図１１のフローチャートに示す手順で処理を行う。

ステップ＃３０３〜＃３０８の処理は、読上げ対象情報の読上げを完了するまで適宜実行される。

時間計測部１５１は、タイマを予め０秒にリセットし（図１１の＃３１１）、読合せチェックの開始に合わせて時間の計測を開始する（＃３１２）。時間間隔値生成部１５３は、ランダム時間を生成する（＃３１３）。ランダム時間が経過したら（＃３１５でＹｅｓ）、置換実行判定部１５２は、置換のタイミングが訪れたと判別し、検査用単語決定部１０４およびテキスト置換部１０５に対して置換の処理を行うように指令する（＃３１６）。すると、読上げ対象情報の中の次に出力されるべき単語が検査用単語決定部１０４およびテキスト置換部１０５によって別の単語に置換され、音声合成制御部１０６によってその音声が出力される。そして、時間計測部１５１は、タイマを０秒にリセットし（＃３１７）、再び時間の計測を開始する。また、時間間隔値生成部１５３は、タイマのリセットの際に、ランダム時間を新たに生成する（＃３１３）。

一方、ランダム時間が経過するまでにユーザが修正の操作を行った場合は（＃３１８でＹｅｓ）、時間計測部１５１は、タイマを０秒にリセットし（＃３１９）、再び時間の計測を開始する。また、時間間隔値生成部１５３は、タイマのリセットの際に、ランダム時間を新たに生成する（＃３１３）。

ステップ＃３１３〜＃３１９の処理は、読上げ対象情報の読上げを完了するまで適宜実行される。

時間の経過に応じてタイミングを判断する代わりに、読み上げた単語の数に応じてタイミングを判断してもよい。この場合、テキスト置換指令部１０３は、図９（ｃ）に示すように、処理テキスト集計部１６１、テキスト間隔値生成部１６２、および置換実行判定部１６３を有する。

処理テキスト集計部１６１は、読上げ対象情報の読合せチェックを開始してから、合成音声によって出力した単語の個数をカウント（集計）する。テキスト間隔値生成部１６２は、擬似ランダム関数などを用いて所定の範囲（例えば、１〜１００）でランダムな自然数（以下、「ランダム数」と記載する。）を生成する。置換実行判定部１６３は、処理テキスト集計部１６１によって集計された単語の個数およびテキスト間隔値生成部１６２によって生成されたランダム数に基づいて、単語の置換のタイミングを判別する。そして、そのタイミングが訪れたら、検査用単語決定部１０４およびテキスト置換部１０５に対して置換の処理を行うように指令する。具体的には、処理テキスト集計部１６１、テキスト間隔値生成部１６２、および置換実行判定部１６３は、図１２のフローチャートに示す手順で処理を行う。

処理テキスト集計部１６１は、カウンタを予め「０」にリセットし（図１２の＃３２１）、読合せチェックの開始に合わせて、出力した単語のカウントを開始する（＃３２２）。テキスト間隔値生成部１６２は、ランダム数を生成する（＃３２３）。処理テキスト集計部１６１のカウンタの値がランダム数に達したら（＃３２５でＹｅｓ）、置換実行判定部１６３は、置換のタイミングが訪れたと判別し、検査用単語決定部１０４およびテキスト置換部１０５に対して置換の処理を行うように指令する（＃３２６）。すると、読上げ対象情報の中の次に出力されるべき単語が検査用単語決定部１０４およびテキスト置換部１０５によって別の単語に置換され、音声合成制御部１０６によってその音声が出力される。そして、処理テキスト集計部１６１は、カウンタを「０」にリセットし（＃３２７）、再び単語のカウントを開始する。また、テキスト間隔値生成部１６２は、カウンタのリセットの際に、ランダム数を新たに生成する（＃３２３）。

一方、ランダム数に達するまでにユーザが修正の操作を行った場合は（＃３２８でＹｅｓ）、処理テキスト集計部１６１は、カウンタを「０」にリセットし（＃３２９）、再び単語のカウントを開始する。また、テキスト間隔値生成部１６２は、カウンタのリセットの際に、ランダム数を新たに生成する（＃３２３）。

ステップ＃３２３〜＃３２９の処理は、読上げ対象情報の読上げを完了するまで適宜実行される。

なお、テキスト間隔値生成部１６２に生成させたランダム数の間隔で置換する代わりに、一定の個数の間隔で置換してもよい。

または、読上げ対象情報の中の置換する単語の個数を予め決めておき、その個数の単語だけランダムに置換してもよい。

この場合、テキスト置換指令部１０３は、図１３に示すように、残読上データ取得部１７１、残再生時間算出部１７２、置換回数決定部１７３、再生時間分割部１７４、経過時間計測部１７５、および置換実行判定部１７６を有する。そして、各部は、図１４に示す手順で処理を実行する。

残読上データ取得部１７１は、読上げ対象情報の読上データ６のうちの、これから読み上げる対象となる残りの分のデータを取得する（図１４の＃３３１）。残再生時間算出部１７２は、残読上データ取得部１７１によって取得されたデータに基づいて、これから読み上げる対象となる残りの分のデータに対する再生時間を算出する（＃３３２）。この再生時間は、そのデータに示される単語の個数または音節の個数、および、１つの単語当りの再生時間または１つの音節当たりの再生時間に基づいて算出することができる。例えば、取得されたデータに示される単語の個数と１つの単語当りの再生時間とを乗算することにより読み上げ対象の再生時間を得る。

置換回数決定部１７３は、単語を置換する回数を決定する（＃３３３）。回数は、ステップ＃３３２で算出した再生時間の長さに応じて決定してもよいし、擬似ランダム関数によってランダムに決定してもよい。または、ユーザに指定させてもよい。

再生時間分割部１７４は、ステップ＃３３２で算出した再生時間を、ステップ＃３３３で決定した数（回数）の時間（以下、「分割時間」と記載する。）に分割する（＃３３４）。等分してもよいし、不規則な長さに分けてもよい。例えば、算出した再生時間が１０分であり決定した回数が４回である場合は、２分３０秒ずつの分割時間に等分してもよいし、２分、４分、３分、および１分のように不規則な長さの分割時間に分けてもよい。

経過時間計測部１７５は、読上げ対象情報全体の読上げが開始されたら、タイマを０秒にリセットし（＃３３７）、経過時間の計測を開始する（＃３３８）。置換実行判定部１７６は、１番目の分割時間が経過するまでの特定の時点（例えば、分割時間の１０分の９が過ぎた時点またはランダムに決定した時点）が過ぎたら、置換のタイミングが訪れたと判別し、検査用単語決定部１０４およびテキスト置換部１０５に対して置換の処理を行うように指令する（＃３３９）。すると、読上げ対象情報の中の次に出力されるべき単語が検査用単語決定部１０４およびテキスト置換部１０５によって別の単語に置換され、音声合成制御部１０６によってその音声が出力される。

そして、１番目の分割時間が経過したら（＃３４０でＹｅｓ）、経過時間計測部１７５および置換実行判定部１７６は、次の分割時間に基づいて同様の処理を実行する（＃３３７〜＃３３９）。

または、読上げ対象情報の残りの再生時間を分割するのではなく、読上げの順に単語を複数のグループにグループ化し、グループ内の所定の位置（例えば、先頭）の単語を置換してもよい。

図１５〜図１７は検査用単語決定処理の流れの例を説明するフローチャートである。上述の通り、読上げ対象情報の中の単語を置換するタイミングを判断は、テキスト置換指令部１０３が行う。検査用単語決定部１０４は、その単語をどの別の単語に置換するのかを決定する処理を行う。

ここで、検査用単語決定部１０４の処理を、図１５〜図１７に示すフローチャートなどを参照して説明する。以下、元の読上げ対象情報の中の、置換するタイミングに当たった単語を「被置換単語」と記載する。また、その被置換単語と置換されて読み上げられる単語を、信頼性の検査のために用いられる意味から、「検査用単語」と記載する。

読合せ支援装置１には、難易度が比較的低いか否かを区別するための第一の閾値、難易度が極めて低いか否かを区別するための第二の閾値、難易度が比較的高いか否かを区別するための第三の閾値、および難易度が極めて高いか否かを区別するための第四の閾値が予め設定されている。ただし、第二の閾値＜第一の閾値＜第三の閾値＜第四の閾値、である。

検査用単語決定部１０４は、難易度算出部１０２によって算出された、被置換単語の難易度に応じて、検査用単語を決定する。

被置換単語の難易度が第一の閾値以下でありかつ第二の閾値以下である場合は（図１５の＃３５１でＹｅｓ、＃３５２でＹｅｓ）、検査用単語決定部１０４は、非類似テキストデータベース１３２または単語辞書データベース１３３の中から、被置換単語と同じグループ（項目）に含まれず、被置換単語を構成する文字と同じ文字が含まれない任意の文字列（単語）を検索する（＃３５３）。ただし、被置換単語と検索した文字列との、類似度データ記憶部１３１に記憶されている類似度データ７Ａ〜７Ｃに基づいて求められる類似度が、所定の値（例えば、「１」）以上である場合、つまり、両者がある程度類似する場合は、別の文字列を検索し直す。

そのような文字列が見つかった場合は（＃３５４でＹｅｓ）、検査用単語決定部１０４は、見つかった文字列を検査用単語に決定する（＃３５５）。

そのような文字列が見つからなかった場合は（＃３５４でＮｏ）、検査用単語決定部１０４は、そのような造語（文字列）を生成し、それを検査用単語に決定する（＃３５６）。例えば、被置換単語が「りんご」である場合は、「り」、「ん」、および「ご」のいずれも含まない、３文字からなり、かつ、被置換単語と同じグループ（項目）に含まれない文字列を任意に生成する。ただし、検査用単語との類似度が所定の値（例えば、「１」）未満になるように生成する。

または、被置換単語の難易度が第一の閾値以下でありかつ第二の閾値を超える場合は（＃３５１でＹｅｓ、＃３５２でＮｏ）、被置換単語と同じグループ（項目）に属するが被置換単語とは非類似である単語を、非類似テキストデータベース１３２の中から検索する（＃３５７）。

そのような単語が見つかった場合は（＃３５８でＹｅｓ）、検査用単語決定部１０４は、見つかった単語を検査用単語に決定する（＃３５９）。

そのような単語が見つからなかった場合は（＃３５８でＮｏ）、被置換単語と同じグループ（項目）に属するが、被置換単語には含まれない文字からなる造語をステップ＃３５６と同様に生成し、これを検査用単語に決定する（＃３６０）。

または、被置換単語の難易度が第一の閾値を超える場合は（＃３５１でＹｅｓ）、検査用単語決定部１０４は、図１６および図１７に進んで、次のように難易度を第三の閾値および第四の閾値と比較し検査用単語を決定する。

被置換単語の難易度が第三の閾値以下である場合は（図１６の＃３６１でＮｏ）、検査用単語決定部１０４は、類似度データ記憶部１３１、非類似テキストデータベース１３２、および読上げ対象情報（読上データ６）の中から、被置換単語との類似度が「０」ではないが所定の値（例えば、「４」）未満である単語を検索する（＃３６２）。例えば、被置換単語と一部の文字が一致または類似する程度で、その他の文字は非類似であるような類似性を有する単語を検索すればよい。

そのような単語が見つかった場合は（＃３６３でＹｅｓ）、検査用単語決定部１０４は、見つかった単語を検査用単語に決定する（＃３６４）。

そのような単語が見つからなかった場合は（＃３６３でＮｏ）、検査用単語決定部１０４は、被置換単語の各文字を別の文字に置き換えかつ被置換単語との類似度が上記の範囲（例えば、１以上４未満）である単語を、類似度データ記憶部１３１、非類似テキストデータベース１３２、および読上げ対象情報の中から検索する（＃３６５）。

そのような単語が見つかった場合は（＃３６６でＹｅｓ）、検査用単語決定部１０４は、見つかった単語を検査用単語に決定する（＃３６７）。

そのような単語が見つからなかった場合は（＃３６６でＮｏ）、そのような単語（造語）を生成し、それを検査用単語に決定する（＃３６８）。

被置換単語の難易度が第三の閾値を超えるが第四の閾値以下である場合は（＃３６１でＹｅｓ、図１７の＃３６９でＮｏ）、検査用単語決定部１０４は、類似度データ記憶部１３１および非類似テキストデータベース１３２の中から、被置換単語と同じグループ（項目）に含まれず、かつ、被置換単語との類似度がある程度ある所定の値（例えば、「４〜６」）である単語を検索する（＃３７０）。例えば、被置換単語と一部の文字が一致し、その他の文字は類似している単語を検索すればよい。

そのような単語が見つかった場合は（＃３７１でＹｅｓ）、検査用単語決定部１０４は、見つかった単語を検査用単語に決定する（＃３７２）。

そのような単語が見つからなかった場合は（＃３７１でＮｏ）、そのような単語（造語）を生成し、それを検査用単語に決定する（＃３７３）。

被置換単語の難易度が第四の閾値をも超える場合は（＃３６９でＹｅｓ）、検査用単語決定部１０４は、被置換単語と同じグループ（項目）に属し、かつ被置換単語との類似度が所定の値（例えば、「７」）以上である単語を単語辞書データベース１３３および読上げ対象情報の中から検索する（＃３７４）。

そのような単語が見つかった場合は（＃３７５でＹｅｓ）、検査用単語決定部１０４は、見つかった単語を検査用単語に決定する（＃３７６）。

そのような単語が見つからなかった場合は（＃３７５でＮｏ）、そのような単語（造語）を生成し、それを検査用単語に決定する（＃３７７）。

そして、テキスト置換部１０５は、被置換単語を、検査用単語決定部１０４によって決定された検査用単語に置換する。

図１８は読合せ支援装置１の全体的な処理の流れの例を説明するフローチャートである。

次に、読合せ支援装置１による読合せのための全体的な処理の手順を、図１８のフローチャートを参照しながら説明する。

図１８において、読合せ支援装置１は、サーバ３からテキストデータを取得したり、スキャナ２などから読上げ対象情報の画像データを受信しＯＣＲ処理を施すなどして、読上データ６を取得する（＃１１）。

読合せ支援装置１は、読上げ対象情報に含まれている単語ごとの難易度を算出する（＃１２）。読上げ対象情報が表形式のものである場合など、単語をグループ化できる場合は、グループごとに難易度を算出してもよい。

読合せ支援装置１は、読上げ対象情報に含まれる単語の読上げを先頭の単語から順に開始する。読上げの開始と同時に、図１０などで説明したタイミング判定処理も並行して開始する。

読合せ支援装置１は、次に読み上げる単語を呼び出す（＃１４）。置換のタイミングである場合は（＃１５でＹｅｓ）、呼び出した単語（被置換単語）を別の単語（検査用単語）に置換する処理を実行し（＃１６）、被置換単語の代わりに検査用単語を音声合成し出力する（＃１７）。置換の処理の詳細は、前に図１５〜図１７で説明した通りである。置換のタイミングでない場合は、呼び出した単語を他の単語に置換することなく音声合成し出力する（＃１８）。

ユーザが誤りの修正の操作を行った場合は（＃１９でＹｅｓ）、読合せ支援装置１は、その修正の内容などを示す修正箇所データ８Ａを生成し記録する（＃２０）。また、置換したにも関わらずユーザが気付かなかった箇所の未修正箇所データ８Ｂも適宜生成し記録する。

読合せ支援装置１は、ステップ＃１４〜＃２０の処理を、読上げ対象情報の中の最後の単語まで適宜実行する。

最後の単語まで処理が終わったら（＃１３でＹｅｓ）、読合せ支援装置１は、修正箇所データ８Ａおよび未修正箇所データ８Ｂなどに基づいてそのユーザによる読合せチェックの信頼度を算出し（＃２１）、それを液晶ディスプレイ１０ｅに表示するなどして出力する（＃２２）。

本実施形態によると、用紙に書かれている情報と、それが手入力やＯＣＲによって電子化された情報との読合せの結果の信頼性を従来よりも確実に求めることができる。

図１９は読合せ支援装置１の機能的構成の変形例を示す図である。本実施形態では、読合せ支援装置１を、読合せのチェックの信頼性（正確性）を求めるために用いたが、検査者に対して警告するために用いてもよい。

この場合は、図１９に示すように、読合せ支援装置１に警告メッセージ出力部１０７を設ける。そして、警告メッセージ出力部１０７および信頼度分析部１２２は、次のように処理を行う。

信頼度分析部１２２は、読上げ対象情報のすべての単語の読上げが終わった後に信頼度を求めるのではなく、定期的に（例えば、数秒ごとに、または、数個の単語が読み上げられるごとに）、読上げの開始時からその時点までに蓄積された修正箇所データ８Ａおよび未修正箇所データ８Ｂ（図７参照）に基づいて信頼度を算出すればよい。項目または難易度ごとの信頼度を求めてもよいし、項目および難易度を問わず全体の信頼度を求めてもよい。また、直前の所定の時間（例えば、直前の５分間）の信頼度を求めてもよいし、読上げの開始時からその時点までの期間全体の信頼度を求めてもよい。

警告メッセージ出力部１０７は、信頼度分析部１２２によって算出した信頼度が閾値を下回ったら、注意してチェックを行うように警告するメッセージを液晶ディスプレイ１０ｅに表示させまたはスピーカ１０ｊから音声で出力させる。難易度に応じて閾値を設定しておいてもよい。すなわち、難易度が高い場合は類似する単語が出現する可能性が高いので、閾値を高めに設定しておいてもよい。

または、読上げ対象情報のすべての読上げが終わった後、信頼度分析部１２２によって求められる信頼度が閾値を下回った場合に、メッセージを出力するようにしてもよい。または、信頼度分析部１２２の結果に関わらず、置換された単語の見落としがあったら、メッセージを出力するようにしてもよい。

また、読上げ対象情報の読合せが終わった後の信頼度が閾値よりも低い場合に、検査者に読合せチェックをやり直させてもよい。ただし、やり直しの作業の効率化のため、図１９に示すように読合せ支援装置１に再チェック制御部１０８を設ける。再チェック制御部１０８は、次のように処理を実行する。

再チェック制御部１０８は、読上げ対象情報の読合せが終わった後の信頼度が閾値よりも低い項目を選出し、その項目名とともに、その項目についてのみ読合せをやり直す旨のメッセージを液晶ディスプレイ１０ｅに表示しまたは音声でスピーカ１０ｊで出力する。そして、その項目の単語のみを順次、音声で出力する。

再チェック制御部１０８によると、再チェックを効率的に行うことができるだけでなく、元々入力ミスがあった単語が偶然に正しい単語に置換されて読み上げられ、検査者が入力ミスを見過ごしてしまう、という不具合を防止することができる。

本実施形態では、単語の単位で類似度の算出および他の単語への置換を行ったが、それ以外の単位で行ってもよい。例えば、文節の単位で行ってもよい。または、読点で区切られた文の単位で行ってもよいし、センテンスの単位で行ってもよいし、段落の単位で行ってもよい。

単語同士の類似度の判別は、称呼だけでなく、意味（観念）をも考慮するようにしてもよい。例えば、「色々な」と「様々な」とは、称呼は５文節目の「な」しか一致しないが、意味が似ているので、一定の類似度があるものとして取り扱ってもよい。

単語ごとに、検査用単語を難易度のレベルに応じて予め用意しておき、それを用いて置換を行ってもよい。例えば、「インターネット」という単語の検査用単語として、難易度が高い順に「イントラネット」、「インターフェイス」、「インターセプト」、「セフティーネット」、および「プロフェッショナル」という単語を用意しておいてもよい。

本実施形態では、確認対象のテキストを合成音声によって出力したが、ディスプレイに文字を表示することによって出力してもよい。

その他、読合せ支援装置１の全体または各部の構成、処理内容、処理順序、データの構成などは、本発明の趣旨に沿って適宜変更することができる。

上に述べた実施例には、以下に述べるような付記も開示されている。
（付記１）
確認対象となる情報である対象情報を入力するための対象情報入力手段と、
入力された前記対象情報を、当該対象情報に含まれる語句である含有語句のうちの１つまたは複数を他の語句に置換しながら出力する、対象情報出力手段と、
前記他の語句が出力されたことに気付いた旨を示す検知信号を検査者に入力させるための検知信号入力手段と、
前記含有語句が前記他の語句に置換された置換回数と前記検知信号が入力された検知回数とに基づいて前記検査者による確認の信頼度を算出する信頼度算出手段と、
算出された前記信頼度を出力する信頼度出力手段と、
を有する確認支援装置。
（付記２）
前記対象情報の中から、前記他の語句に置換されるべき前記含有語句を選出する、被置換語句選出手段と、
選出された前記含有語句ごとに、当該含有語句と置換すべき前記他の語句を決定する、代替語句決定手段と、を有し、
前記対象情報出力手段は、選出された前記含有語句を、当該含有語句について前記代替語句決定手段が決定した前記他の語句と置換して出力する、
付記１記載の確認支援装置。
（付記３）
前記代替語句決定手段は、前記含有語句と置換する前記他の語句として、当該含有語句との類似性が一定以上である語句を選出する、
付記２記載の確認支援装置。
（付記４）
前記対象情報を人間が正確に読み合わせることの難しさの度合いを示す難易度を、前記含有語句同士の類似の度合いに基づいて判定する、難易度判定手段、を有し、
前記代替語句決定手段は、前記含有語句と置換する前記他の語句として、前記難易度が高いほど当該含有語句との類似の度合いが高い語句を選出する、
付記２記載の確認支援装置。
（付記５）
前記難易度判定手段は、前記含有語句を１つまたは複数ごとにグループ化したグループごとに前記難易度を判定する、
付記４記載の確認支援装置。
（付記６）
前記被置換語句選出手段は、所定の間隔で前記他の語句に置換されるように前記含有語句を選出する、
付記２ないし付記４のいずれかに記載の確認支援装置。
（付記７）
前記被置換語句選出手段は、不規則な間隔で前記他の語句に置換されるように前記含有語句を選出する、
付記２ないし付記４のいずれかに記載の確認支援装置。
（付記８）
前記被置換語句選出手段は、前記検知信号入力手段から前記検知信号が入力された後所定の時間が経過したときに前記他の語句に置換されるように前記含有語句を選出する、
付記２ないし付記４のいずれかに記載の確認支援装置。
（付記９）
前記信頼度算出手段によって算出された前記信頼度が所定の値を下回ったときに警告の合図を出力する警告手段、を有する、
付記１ないし付記８のいずれかに記載の確認支援装置。
（付記１０）
コンピュータに、
確認対象となる情報である対象情報を取得させ、
取得させた前記対象情報を、当該対象情報に含まれる語句である含有語句のうちの１つまたは複数を他の語句に置換しながら出力させ、
前記他の語句に置換した回数である置換回数をカウントさせ、
前記他の語句が出力されたことに気付いた旨を示す検知信号が入力された回数である検知回数をカウントさせ、
前記置換回数と前記検知回数とに基づいて前記検査者による確認の信頼度を算出させ、
算出された前記信頼度を出力させる、
ことを有する確認支援方法。
（付記１１）
コンピュータに、
確認対象となる情報である対象情報を取得する処理と、
取得した前記対象情報を、当該対象情報に含まれる語句である含有語句のうちの１つまたは複数を他の語句に置換しながら出力する処理と、
前記他の語句に置換した回数である置換回数をカウントする処理と、
前記他の語句が出力されたことに気付いた旨を示す検知信号が入力された回数である検知回数をカウントする処理と、
前記置換回数と前記検知回数とに基づいて前記検査者による確認の信頼度を算出する処理と、
算出した前記信頼度を出力する処理と、
を実行させるコンピュータプログラム。

読合せ支援装置の外観の例を示す図である。読合せ支援装置のハードウェア構成の例を示す図である。読合せ支援装置の機能的構成の例を示す図である。類似度データの例を示す図である。表形式の読上げ対象情報の例を示す図である。修正用画面の例を示す図である。修正箇所データおよび未修正箇所データの例を示す図である。信頼度の集計の結果の例を示す図である。テキスト置換指令部の例を示す図である。タイミング判定処理の第一の例を示すフローチャートである。タイミング判定処理の第二の例を示すフローチャートである。タイミング判定処理の第三の例を示すフローチャートである。タイミング判定処理の第四の例を示すフローチャートである。タイミング判定処理の第五の例を示すフローチャートである。検査用単語決定処理の流れの例を説明するフローチャートである。検査用単語決定処理の流れの例を説明するフローチャートである。検査用単語決定処理の流れの例を説明するフローチャートである。読合せ支援装置の全体的な処理の流れの例を説明するフローチャートである。読合せ支援装置の機能的構成の変形例を示す図である。

符号の説明

１読合せ支援装置
１０１読上データ取得制御部（対象情報入力手段）
１０３テキスト置換指令部（被置換語句選出手段）
１０４検査用単語決定部（代替語句決定手段）
１０５テキスト置換部（対象情報出力手段）
１０６音声合成制御部（対象情報出力手段）
１０ｆキーボード（検知信号入力手段）
１０ｇポインティングデバイス（検知信号入力手段）
１０ｉサウンドボード（対象情報出力手段）
１０ｊスピーカ（対象情報出力手段）
１２１修正箇所データ取得部（検知信号入力手段）
１２２信頼度分析部（信頼度算出手段）
１２３分析結果出力部（信頼度出力手段）
６読上データ

Claims

確認対象となる情報である対象情報を入力するための対象情報入力手段と、
入力された前記対象情報を、当該対象情報に含まれる語句である含有語句のうちの１つまたは複数を他の語句に置換しながら出力する、対象情報出力手段と、
前記他の語句が出力されたことに気付いた旨を示す検知信号を検査者に入力させるための検知信号入力手段と、
前記含有語句が前記他の語句に置換された置換回数と前記検知信号が入力された検知回数とに基づいて前記検査者による確認の信頼度を算出する信頼度算出手段と、
算出された前記信頼度を出力する信頼度出力手段と、
を有する確認支援装置。
前記対象情報の中から、前記他の語句に置換されるべき前記含有語句を選出する、被置換語句選出手段と、
選出された前記含有語句ごとに、当該含有語句と置換すべき前記他の語句を決定する、代替語句決定手段と、を有し、
前記対象情報出力手段は、選出された前記含有語句を、当該含有語句について前記代替語句決定手段が決定した前記他の語句と置換して出力する、
請求項１記載の確認支援装置。
前記代替語句決定手段は、前記含有語句と置換する前記他の語句として、当該含有語句との類似性が一定以上である語句を選出する、
請求項２記載の確認支援装置。
コンピュータに、
確認対象となる情報である対象情報を取得させ、
取得させた前記対象情報を、当該対象情報に含まれる語句である含有語句のうちの１つまたは複数を他の語句に置換しながら出力させ、
前記他の語句に置換した回数である置換回数をカウントさせ、
前記他の語句が出力されたことに気付いた旨を示す検知信号が入力された回数である検知回数をカウントさせ、
前記置換回数と前記検知回数とに基づいて前記検査者による確認の信頼度を算出させ、
算出された前記信頼度を出力させる、
ことを有する確認支援方法。
コンピュータに、
確認対象となる情報である対象情報を取得する処理と、
取得した前記対象情報を、当該対象情報に含まれる語句である含有語句のうちの１つまたは複数を他の語句に置換しながら出力する処理と、
前記他の語句に置換した回数である置換回数をカウントする処理と、
前記他の語句が出力されたことに気付いた旨を示す検知信号が入力された回数である検知回数をカウントする処理と、
前記置換回数と前記検知回数とに基づいて前記検査者による確認の信頼度を算出する処理と、
算出した前記信頼度を出力する処理と、
を実行させるコンピュータプログラム。