JP7344649B2

JP7344649B2 - 情報端末装置およびプログラム

Info

Publication number: JP7344649B2
Application number: JP2019031667A
Authority: JP
Inventors: 慎二宅野; 剛毅本村; 一平久冨
Original assignee: Benesse Corp
Current assignee: Benesse Corp
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2023-09-14
Anticipated expiration: 2039-02-25
Also published as: JP2020135725A

Description

本発明は、音声入力部を備えた情報端末装置およびプログラムに関する。

音声を録音する録音再生装置において、生成した音声データをバックアップする方法が知られている。特許文献１には、入力されたオーディオ信号を記録媒体に記録して録音するとともに、これと並行して、記録媒体に記録されたオーディオ信号をストリーミング再生し、Ｗｉ－Ｆｉ接続を介してスマートフォンに送信する録音再生装置が記載されている。スマートフォンでの録音は、録音再生装置における録音のバックアップ録音として位置付けられる。

特開２０１６－１１４８３８号公報

上記のような録音再生装置では、音声を録音するためのマイクに不具合が生じた場合、録音再生装置における録音とバックアップ録音の両方において、音声が録音されないとの問題が生じる。たとえば、このような装置が外国語の模擬試験などで用いられ、受験者の発声したスピーキングの音声が解答として録音されるような場合、音声が録音されていない事態は致命的な問題となる。

かかる課題に鑑み、本発明は、音声が録音されていない事態を回避できる情報端末装置およびプログラムを提供することを目的とする。

本発明の第１の態様は、情報端末装置に関する。第１の態様に係る情報端末装置は、複数の音声入力部と、記憶部と、前記複数の音声入力部を介して音声の入力を並行して受け付け、受け付けた前記音声に基づいて前記複数の音声入力部ごとに音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、を備える。前記複数の音声入力部は、第１音声入力部および第２音声入力部により構成される。前記制御部は、前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子を付与する。前記識別子は、前記複数の音声入力部のいずれにより取得された前記音声データであるかを示す音声である。

第１の態様に係る情報端末装置によれば、受け付けられた音声に基づいて複数の音声入力部ごとに音声データが生成され、生成された音声データが記憶部に記憶される。これにより、一の音声入力部に不具合が生じたとしても、他の音声入力部により受け付けられた音声に基づいて音声データが生成されているため、音声が録音されていない事態を回避できる。たとえば、情報端末装置が外国語の模擬試験において用いられ、音声入力部がスピーキングの音声の入力を受け付ける場合、受験者が発した音声に基づく音声データが複数の音声入力部ごとに記憶される。これにより、一の音声入力部に不具合が生じた場合でも、音声データを一切取得できないといった最悪の事態を回避できる。音声データが少なくとも１つ取得されれば、取得できた音声データを用いて採点処理を行うことができる。
また、前記制御部は、前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子を付与するため、いずれの音声入力部に基づく音声データかを円滑に把握して、音声データを用いた採点等のその後の処理を行うことができる。
さらに、前記識別子は、前記複数の音声入力部のいずれにより取得された前記音声データであるかを示す音声であるため、音声データを再生することにより、いずれの音声入力部に基づく音声データかを円滑に把握して、音声データを用いた採点等のその後の処理を行うことができる。

本発明の第２の態様は、情報端末装置に関する。第２の態様に係る情報端末装置は、第１音声入力部と、第２音声入力部と、記憶部と、前記第１音声入力部および前記第２音声入力部を介して音声の入力を並行して受け付け、前記第１音声入力部を介した前記音声の受け付けに異常が生じていない場合、前記第１音声入力部を介して受け付けた前記音声に基づいて音声データを生成し、前記第１音声入力部を介した前記音声の受け付けに異常が生じている場合、前記第２音声入力部を介して受け付けた前記音声に基づいて音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、を備える。前記制御部は、前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子を付与する。前記識別子は、前記複数の音声入力部のいずれにより取得された前記音声データであるかを示す音声である。

第２の態様に係る情報端末装置によれば、第１音声入力部を介した音声の受け付けに異常が生じた場合、第２音声入力を介して受け付けた音声に基づいて音声データが生成され記憶される。これにより、音声が録音されていない事態を回避できる。また、第２の態様に係る情報端末装置によれば、第１音声入力部と第２音声入力部のいずれか一方に基づいて音声データが生成される。これにより、第１音声入力部に基づく音声データと、第２音声入力部に基づく音声データのいずれを使うべきかを判断する必要がなく、生成された音声データを用いて、その後の処理を円滑に進めることができる。また、第１音声入力部に基づく音声データと第２音声入力部に基づく音声データのいずれか一方が記憶されるため、記憶部に記憶されるデータ容量を小さくできる。これにより、制御部や記憶部への処理負荷を小さくできるため、情報端末装置のハードウェア構成にかかる制約と、情報端末装置にかかるコストとを抑制できる。
また、前記制御部は、前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子を付与するため、いずれの音声入力部に基づく音声データかを円滑に把握して、音声データを用いた採点等のその後の処理を行うことができる。
さらに、前記識別子は、前記複数の音声入力部のいずれにより取得された前記音声データであるかを示す音声であるため、音声データを再生することにより、いずれの音声入力部に基づく音声データかを円滑に把握して、音声データを用いた採点等のその後の処理を行うことができる。

第１および第２の態様に係る情報端末装置において、前記第１音声入力部は、前記情報端末装置の本体に接続された外部マイクであり、前記第２音声入力部は、前記情報端末装置の本体の内蔵マイクであるよう構成され得る。

外部マイクが用いられる場合、外部マイクを音声の発生源、たとえば口元に近付けることにより、内蔵マイクに比べて高音質な音声データを生成できる。その一方で、外部マイクが情報端末装置の本体から意図せず外れるといった事態や、外部マイクのケーブルが意図せず断線するといった事態が起こり得る。これに対し、第１の態様に係る情報端末装置によれば、外部マイクと内蔵マイクのそれぞれにより生成された音声データが記憶部に記憶され、第２の態様に係る情報端末装置によれば、外部マイクに異常が生じている場合、内蔵マイクにより生成された音声データが記憶部に記憶される。これにより、外部マイクに上記のようなトラブルが生じたとしても、内蔵マイクにより取得された音声データを用いてその後の処理を行うことができる。

本発明の第３の態様に係る情報端末装置は、複数の音声入力部と、記憶部と、前記複数の音声入力部を介して音声の入力を並行して受け付け、受け付けた前記音声に基づいて前記複数の音声入力部ごとに音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、表示部とを備える。前記複数の音声入力部は、第１音声入力部および第２音声入力部により構成される。前記制御部は、前記第１音声入力部を介した前記音声の受け付けに異常が生じていない場合、前記第１音声入力部を介して受け付けた前記音声の音量を示す第１インジケータを前記表示部に表示させ、前記第１音声入力部を介した前記音声の受け付けに異常が生じている場合、前記第２音声入力部を介して受け付けた前記音声の音量を示す第２インジケータを前記第１インジケータに代えて前記表示部に表示させる。
たとえば、第１インジケータのみが表示される場合、ヘッドセットマイクを介した音声の受け付けに異常が生じると、第１インジケータの目盛が極端に小さい値、極端に大きな値、または変則的な値を示すようになる。このように第１インジケータの目盛が不自然になると、ユーザーは正しく音声が録音されているか不安を感じてしまう。これに対し、第３の態様に係る情報端末装置によれば、ヘッドセットマイクを介した音声の受け付けに異常が生じると、第１インジケータに代えて第２インジケータが表示されるため、ユーザーの心理的な不安を抑制できる。

この場合に、前記第１インジケータと前記第２インジケータの表示形態は、互いに異なるよう構成され得る。たとえば、目盛の色、アイコン、文字列などの表示形態が互いに異なるよう第１インジケータと第２インジケータが構成される。これにより、受験者は、ヘッドセットマイクを介した音声の受け付けに異常が生じていることを把握できる。

第１ないし第３の態様に係る情報端末装置において、前記制御部は、前記第１音声入力部および前記第２音声入力部を介して受け付けた前記音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定し、前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知するよう構成され得る。こうすると、情報端末装置のユーザーは、第１音声入力部を介した音声の受け付けの異常により、第１音声入力部に基づく録音が行われないことを把握できる。たとえば、情報端末装置が模擬試験において用いられる場合、情報端末装置を使用する受験者は、異常があることを迅速に把握できるため、試験会場において情報端末装置の交換等の措置を迅速に進めることができる。

第４の態様に係る情報端末装置は、複数の音声入力部と、記憶部と、前記複数の音声入力部を介して音声の入力を並行して受け付け、受け付けた前記音声に基づいて前記複数の音声入力部ごとに音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、撮像部とを備える。前記複数の音声入力部は、第１音声入力部および第２音声入力部により構成される。前記制御部は、前記撮像部により撮像された映像および第１音声入力部を介して受け付けた前記音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定し、前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知する。
本態様に係る情報端末装置によれば、情報端末装置のユーザーは、第１音声入力部を介した音声の受け付けの異常により、第１音声入力部に基づく録音が行われないことを把握できる。たとえば、情報端末装置が模擬試験において用いられる場合、情報端末装置を使用する受験者は、異常があることを迅速に把握できるため、試験会場において情報端末装置の交換等の措置を迅速に進めることができる。

本発明の第５の態様は、情報端末装置に関する。第５の態様に係る情報端末装置は、第１音声入力部と、第２音声入力部と、撮像部と、制御部と、を備える。前記制御部は、前記撮像部により撮像された映像および前記第１音声入力部を介して受け付けた音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定し、前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知する。

第５の態様に係る情報端末装置によれば、情報端末装置のユーザーは、第１音声入力部を介した音声の受け付けに異常が生じている場合、第１音声入力部に基づく録音が行われないことを把握できる。たとえば、情報端末装置が模擬試験において用いられる場合、情報端末装置を使用する受験者は、ヘッドセット等が備える第１音声入力部に異常があることを迅速に把握できるため、試験会場において情報端末装置の交換等の措置を迅速に進めることができる。

本発明の第６の態様は、プログラムに関する。第６の態様に係るプログラムは、第１音声入力部と第２音声入力部とを備える情報端末装置の制御部に、前記第１音声入力部および前記第２音声入力部を介して並行して受け付けた音声に基づいて前記第１音声入力部および前記第２音声入力部ごとに音声データを生成する機能と、生成した前記音声データを記憶部に記憶させる機能と、前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子として、前記第１音声入力部および前記第２音声入力部のいずれにより取得された前記音声データであるかを示す音声を付与機能と、を実行させる。

第６の態様に係るプログラムによれば、第１の態様に係る情報端末装置と同様の効果が奏される。

本発明の第７の態様は、プログラムに関する。第７の態様に係るプログラムは、第１音声入力部、第２音声入力部および撮像部を備える情報端末装置の制御部に、前記撮像部により撮像された映像および前記第１音声入力部を介して受け付けた音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定する機能と、前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知する機能と、を実行させる。

第７の態様に係るプログラムによれば、第５の態様に係る情報端末装置と同様の効果が奏される。

以上のとおり、本発明によれば、音声が録音されていない事態を回避できる。

本発明の効果ないし意義は、以下に示す実施形態の説明により更に明らかとなろう。ただし、以下に示す実施形態は、あくまでも、本発明を実施化する際の一つの例示であって、本発明は、以下の実施形態に記載されたものに何ら制限されるものではない。

図１は、実施形態１に係る情報端末装置の構成を示す模式図である。図２は、実施形態１に係る情報端末装置の構成を示すブロック図である。図３は、実施形態１に係る受験者が発した音声が音声データとして記憶部に記憶されるまでの流れを示す模式図である。図４（ａ）は、実施形態１に係る設問ごとに保存された２つのモノラル音声データを示す模式図である。図４（ｂ）は、実施形態１に係る採点者が音声データのファイルを再生するための画面を示す模式図である。図５は、実施形態２に係る受験者が発した音声が音声データとして記憶部に記憶されるまでの流れを示す模式図である。図６（ａ）は、実施形態２に係る設問ごとに保存された１つのモノラル音声データを示す模式図である。図６（ｂ）は、実施形態２に係る採点者が音声データのファイルを再生するための画面を示す模式図である。図７（ａ）は、実施形態２に係るヘッドセットマイクの異常検知に関する処理を示すフローチャートである。図７（ｂ）は、実施形態２に係るヘッドセットマイクを介した音声の受け付けに異常が生じていることを報知するための画面を示す模式図である。図８は、実施形態２に係るヘッドセットマイクの異常検知に関する処理を示すフローチャートである。図９（ａ）は、実施形態２に係る第１解析を示すフローチャートである。図９（ｂ）は、実施形態２に係る第２解析を示すフローチャートである。図１０は、実施形態２に係る第１フラグおよび第２フラグに基づいてヘッドセットマイクと内蔵マイクのいずれか一方に基づく音声を録音する処理を示すフローチャートである。図１１（ａ）は、実施形態２に係る表示入力部の表示領域に第１インジケータが表示された状態を示す模式図である。図１１（ｂ）は、実施形態２に係る表示入力部の表示領域に第２インジケータが表示された状態を示す模式図である。図１２（ａ）、（ｂ）は、変更例に係る内蔵マイクに基づく人間の音声の有無およびヘッドセットマイクに基づく人間の音声の有無を模式的に示すグラフである。

以下の実施形態は、情報端末装置の一種であるタブレット端末に本発明を適用したものである。なお、本発明は、タブレット端末に限らず、携帯電話機、携帯用ゲーム機、ノートパソコン等、他の種類の情報端末装置に適用されてもよい。

＜実施形態１＞
図１は、情報端末装置１の構成を示す模式図である。情報端末装置１は、本体１０とヘッドセット２０を備える。図１には、本体１０を正面から見た状態が示されている。

本体１０は、筐体１０ａと、内蔵マイク１１と、内蔵スピーカー１２と、撮像部１３と、表示入力部１４と、接続端子１５と、を備える。

内蔵マイク１１は、本体１０の近傍の音声を録音するためのマイクである。内蔵スピーカー１２は、本体１０から音声を出力するためのスピーカーである。撮像部１３は、筐体１０ａの正面に位置する被写体を撮影し、撮像画像および撮像映像を取得するためのカメラである。表示入力部１４は、画像を表示するとともに、ユーザーからの入力を受付可能に構成されている。具体的には、表示入力部１４は、タッチパネルである。表示入力部１４は、筐体１０ａの前面に設けられている。表示入力部１４の表示領域１４ａは、筐体１０ａの前面中央に位置付けられている。表示入力部１４は、表示領域１４ａにおいて画像を表示するとともに、表示領域１４ａにおいてタッチ入力を受け付ける。接続端子１５は、ヘッドセット２０の接続端子２５を接続するための端子である。

ヘッドセット２０は、ヘッドセットマイク２１と、２つのヘッドセットスピーカー２２と、バンド２３と、ケーブル２４と、接続端子２５と、を備える。

ヘッドセットマイク２１は、円弧状のバンド２３の端部に、アーム２３ａを介して設置されている。ヘッドセットマイク２１は、ヘッドセット２０を装着したユーザーの発した音声を録音するためのマイクである。２つのヘッドセットスピーカー２２は、バンド２３の両端にそれぞれ設置されている。ヘッドセットスピーカー２２は、ヘッドセット２０を装着したユーザーに音声を出力するためのスピーカーである。ケーブル２４は、バンド２３の端部と接続端子２５とを接続する。ケーブル２４のバンド２３側の端部は、図示しないケーブルにより、ヘッドセットマイク２１と２つのヘッドセットスピーカー２２とに接続されている。接続端子２５は、本体１０の接続端子１５に接続される。

ヘッドセットマイク２１と２つのヘッドセットスピーカー２２は、ケーブル２４と接続端子２５を介して、本体１０と信号の送受信を行う。ヘッドセットマイク２１から入力された音声に基づく音声信号は、ケーブル２４と接続端子２５を介して、本体１０に送信される。本体１０から出力された音声信号は、ケーブル２４と接続端子２５を介して、２つのヘッドセットスピーカー２２に送信され、２つのヘッドセットスピーカー２２から音声が出力される。情報端末装置１を利用するユーザーは、ヘッドセット２０を頭部に装着し、ヘッドセットマイク２１を介して本体１０に対して音声を入力し、ヘッドセットスピーカー２２を介して本体１０から出力された音声を聞く。

図２は、情報端末装置１の構成を示すブロック図である。

本体１０は、図１に示した内蔵マイク１１と、内蔵スピーカー１２と、撮像部１３と、表示入力部１４と、接続端子１５とに加え、制御部１６と記憶部１７を備える。制御部１６と記憶部１７は、図１に示した筐体１０ａ内に収容されている。

表示入力部１４は、図示しない平坦かつ透明なカバーと、液晶表示部１４ｂと、タッチパッド１４ｃとが、表示領域１４ａに垂直な方向に重ねられた構成となっている。液晶表示部１４ｂは、液晶パネルと、液晶パネルを照明するＬＥＤバックライトとを含み、各種の画像を表示する。なお、本体１０は、液晶表示部１４ｂに代えて、たとえば、有機ＥＬタイプの表示部を備えてもよい。タッチパッド１４ｃは、透明であり、液晶表示部１４ｂの表示面上に配され、表示領域１４ａを介してタッチ入力を受け付ける。タッチパッド１４ｃは、静電容量式のタッチパッドである。タッチパッド１４ｃは、タッチ入力が行われると、静電容量の変化に基づいてタッチ入力を検出し、検出信号を出力する。

制御部１６は、ＣＰＵ等の演算処理回路により構成される。制御部１６は、本体１０の各部から信号を受信し、記憶部１７に記憶されたプログラム１７ａに従って、本体１０の各部を制御する。記憶部１７は、ＲＯＭ、ＲＡＭ、フラッシュメモリ、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）などにより構成される。記憶部１７は、制御部１６によって実行されるプログラム１７ａを記憶している。プログラム１７ａは、オペレーティングシステムと、各種のアプリケーションを実行するためのプログラムと、を含んでいる。プログラム１７ａに含まれるオペレーティングシステムは、たとえば、Ａｎｄｒｏｉｄ（登録商標）である。

一般的なオペレーティングシステムは、内蔵マイク１１からの音声入力とヘッドセットマイク２１からの音声入力のいずれか一方のみを受け付けるように構成されている。すなわち、一般的なオペレーティングシステムは、本体１０の接続端子１５にヘッドセット２０の接続端子２５が接続されると、内蔵マイク１１からの音声入力をオフに設定して、ヘッドセットマイク２１からの音声入力のみを受け付ける。これに対し、実施形態１のオペレーティングシステムは、本体１０の接続端子１５にヘッドセット２０の接続端子２５が接続された場合でも、内蔵マイク１１からの音声入力とヘッドセットマイク２１からの音声入力の両方を受け付けるように構成されている。

ここで、情報端末装置１の具体的な使用形態について説明する。

実施形態１において、情報端末装置１は、外国語のスピーキングに関する模擬試験において用いられ、試験会場において受験者ごとに１台ずつ貸し出される。試験会場で配布される全ての情報端末装置１の記憶部１７には、処理センターにおいて、あらかじめ模擬試験を実行するためのアプリケーションと、模擬試験の設問データとが書き込まれている。模擬試験が開始すると、受験者は、ヘッドセット２０を頭部に装着し、表示入力部１４に表示される設問文を参照し、または、ヘッドセットスピーカー２２から出力される設問の音声を聞いて、解答を発声する。受験者が発した音声は、ヘッドセットマイク２１を介して音声信号として本体１０に取り込まれ、取り込まれた音声信号は、設問ごとに音声データとして記憶部１７に記憶される。

模擬試験が終了すると、受験者に貸し出された情報端末装置１は回収され、処理センターに運ばれる。処理センターにおいて、情報端末装置１の記憶部１７に記憶された解答に関する音声データは、処理センターのサーバに集約される。採点者は、解答に関する音声データを聞き取って、各受験者の解答の採点を行う。こうして、模擬試験の採点が行われ、受験者の模擬試験の結果として点数が取得される。

図３は、受験者が発した音声が、音声データとして記憶部１７に記憶されるまでの流れを示す模式図である。

試験会場において受験者に配布される情報端末装置１の記憶部１７には、あらかじめ模擬試験を実行するためのアプリケーションがインストールされている。このアプリケーションは、記憶部１７に記憶されたオペレーティングシステム上で、制御部１６により動作するように構成されている。模擬試験のためのアプリケーションは、模擬試験前にあらかじめ実行される。模擬試験が開始すると、受験者は、開始ボタン等を操作して模擬試験の解答を開始する。受験者は、所定の操作により設問を１問ずつ進める。そして、受験者は、設問ごとに解答を声に出して発声し、発声した音声を情報端末装置１に入力する。このとき、受験者によって発声された音声は、ヘッドセットマイク２１と内蔵マイク１１の両方に入力され、音声信号に変換される。すなわち、制御部１６は、ヘッドセットマイク２１と内蔵マイク１１を介して音声の入力を並行して受け付ける。

模擬試験のアプリケーションは、オペレーティングシステムのＡＰＩ（Application Programming Interface）を介して、２つの音声信号に基づいてステレオ音声データを一時的に生成する。このとき生成されるステレオ音声データの２つのチャンネルには、それぞれ、ヘッドセットマイク２１に基づく音声信号と、内蔵マイク１１に基づく音声信号とが設定される。続いて、模擬試験のアプリケーションは、一時的に生成されたステレオ音声データから、ヘッドセットマイク２１に基づくモノラル音声データと、内蔵マイク１１に基づくモノラル音声データとを取り出し、それぞれのモノラル音声データを記憶部１７に記憶させる。２つのモノラル音声データが記憶されると、一時的に生成されたステレオ音声データは消去される。

図４（ａ）は、設問ごとに保存された２つのモノラル音声データを示す模式図である。

情報端末装置１の記憶部１７には、設問に対する解答ごとにフォルダが生成されており、各フォルダには２つのモノラル音声データが保存される。モノラル音声データのファイル名には、解答の番号と、ヘッドセットマイク２１と内蔵マイク１１のいずれに基づいて生成された音声データかを示す文字列と、が付されている。具体的には、設問の番号をＮとすると、設問Ｎに対する解答番号のフォルダには、「解答Ｎ－ヘッドセットマイク.wav」と「解答Ｎ－内蔵マイク.wav」が保存される。また、ヘッドセットマイク２１に基づく音声データの冒頭には、「ヘッドセットマイクに基づく音声です」との音声データが付され、内蔵マイク１１に基づく音声データには、「内蔵マイクに基づく音声です」との音声データが付される。

採点者は、このような音声データのファイル群に基づいて、図４（ｂ）に示すような画面１００を用いて採点処理を行う。

図４（ｂ）は、採点者が音声データのファイルを再生するための画面１００を示す模式図である。採点者は、採点用の端末において、採点用のアプリケーションを起動し、画面１００を表示させる。

画面１００は、表示領域１１０と、ボタン１２１、１２２、１３１、１３２と、を備える。表示領域１１０は、再生する音声データの解答番号を表示する。ボタン１２１は、該当する解答番号のフォルダ内にあるヘッドセットマイク２１に基づくモノラル音声データを再生するためのボタンである。ボタン１２２は、該当する解答番号のフォルダ内にある内蔵マイク１１に基づくモノラル音声データを再生するためのボタンである。ボタン１３１は、再生対象の音声データを次の解答番号に移行するためのボタンである。ボタン１３２は、再生対象の音声データを前の解答番号に移行するためのボタンである。

採点者は、画面１００を表示させた状態で、通常はボタン１２１を操作して、ヘッドセットマイク２１に基づく音声データを再生する。このとき、ヘッドセットマイク２１に基づく音声データに不具合がある場合、採点者は、ボタン１２２を操作して、内蔵マイク１１に基づく音声データを再生する。採点者は、対象となる解答に対する採点を終えると、ボタン１３１を押して、再生対象を進める。こうして、採点者は、全ての設問の解答に対する採点を行う。

＜実施形態１の効果＞
実施形態１によれば、以下の効果が奏される。

制御部１６は、ヘッドセットマイク２１および内蔵マイク１１を介して受験者が発した音声の入力を並行して受け付ける。そして、制御部１６は、受け付けた音声に基づいてヘッドセットマイク２１および内蔵マイク１１ごとにモノラル音声データを生成し、生成した２つのモノラル音声データを記憶部１７に記憶させる。これにより、ヘッドセットマイク２１および内蔵マイク１１の一方に不具合が生じたとしても、他方により受け付けられた音声に基づいてモノラル音声データが生成されているため、音声が録音されていない事態を回避できる。

実施形態１のように、情報端末装置１が外国語の模擬試験において用いられ、ヘッドセットマイク２１がスピーキングの音声の入力を受け付ける場合、受験者が発した音声に基づく音声データが、ヘッドセットマイク２１と内蔵マイク１１の両方に基づいて記憶される。これにより、ヘッドセットマイク２１に不具合が生じた場合でも、音声データを一切取得できないといった最悪の事態を回避できる。音声データが少なくとも１つ取得されれば、取得できた音声データを用いて採点処理を行うことができる。

また、録音に不具合が生じた場合、録音された音声データを再生して初めて録音に不具合があったことが判明する。このように、録音の不具合は情報端末装置１の起動不具合などとは異なり、リアルタイムで不具合に気付くことができないため、不具合を解消するための措置を迅速に行うことができない。このため、録音の処理が終了した後で、音声データが一切取得されていないといった致命的な問題が判明することになる。しかしながら、実施形態１によれば、リアルタイムで録音の不具合が判明しなかったとしても、ヘッドセットマイク２１に基づく音声データと内蔵マイク１１に基づく音声データの両方が生成されるため、音声データを一切取得できないといった最悪の事態を回避できる。

ヘッドセットマイク２１は、情報端末装置１の本体１０に接続された外部マイクであり、内蔵マイク１１は、情報端末装置１の本体１０に内蔵されたマイクである。ヘッドセットマイク２１が用いられる場合、ヘッドセットマイク２１を音声の発生源、たとえば口元に近付けることにより、本体１０に内蔵マイク１１に比べて高音質な音声データを生成できる。その一方で、ヘッドセット２０の接続端子２５が本体１０の接続端子１５から外れる事態や、ヘッドセット２０のケーブル２４が断線する事態などが不具合として意図せず起こり得る。これに対し、実施形態１によれば、ヘッドセットマイク２１および内蔵マイク１１の両方に基づく音声データがそれぞれ録音されている。したがって、ヘッドセットマイク２１に不具合が生じた場合でも、音声が一切録音されていないといった最悪の事態を回避でき、内蔵マイク１１により取得された音声データを用いてその後の採点処理を行うことができる。

図４（ａ）に示したように、ヘッドセットマイク２１に基づく音声データのファイル名には、「ヘッドセットマイク」の文字列が付され、内蔵マイク１１に基づく音声データのファイル名には、「内蔵マイク」の文字列が付される。また、ヘッドセットマイク２１に基づく音声データには、「ヘッドセットマイクに基づく音声です」との音声データが付され、内蔵マイク１１に基づく音声データには、「内蔵マイクに基づく音声です」との音声データが付される。これにより、音声データのファイル名を参照することにより、または、音声データを再生することにより、ヘッドセットマイク２１と内蔵マイク１１のどちらに基づく音声データかを円滑に把握して、音声データを用いた採点等のその後の処理を行うことができる。

このように、生成される音声データには、ヘッドセットマイク２１および内蔵マイク１１のいずれに基づいて生成された音声データであるかを識別可能な識別子が付与される。これにより、採点者は、ヘッドセットマイク２１と内蔵マイク１１のどちらに基づく音声データかを円滑に把握して、音声データを用いた採点処理を行うことができる。

＜実施形態２＞
図５に示すように、実施形態２のオペレーティングシステムは、実施形態１と同様に構成されており、制御部１６は、実施形態１と同様、ヘッドセットマイク２１と内蔵マイク１１を介して音声の入力を並行して受け付け、ステレオ音声データを生成する。実施形態２では、制御部１６は、ステレオ音声データから、ヘッドセットマイク２１に基づくモノラル音声データと、内蔵マイク１１に基づくモノラル音声データの両方を生成するのではなく、いずれか一方のモノラル音声データを生成する。ヘッドセットマイク２１と内蔵マイク１１のどちらに基づく音声データが生成されるかは、ヘッドセットマイク２１を介した音声の受け付けに異常が生じているか否かに基づいて決定される。このような処理は、追って図７（ａ）～図１０を参照して説明する。実施形態２のその他の構成は、図１、２を参照して説明した実施形態１と同様である。

図６（ａ）は、設問ごとに保存されたモノラル音声データを模式的に示す図である。

実施形態２では、実施形態１と異なり、ヘッドセットマイク２１に基づく音声データファイルと、内蔵マイク１１に基づく音声データファイルのいずれかが保存される。この場合、設問に対する解答ごとのフォルダに、１つのモノラル音声データのファイルが保存される。図６（ａ）に示す例では、解答１、２のフォルダには、ヘッドセットマイク２１に基づく音声データファイルのみが保存され、解答３のフォルダには、内蔵マイク１１に基づく音声データファイルのみが保存されている。また、実施形態１と同様、音声データのファイル名には、ヘッドセットマイク２１と内蔵マイク１１のどちらに基づく音声データかを文字列が付され、音声データには、どちらに基づく音声データかを示す音声データが付される。

図６（ｂ）は、採点者が音声データのファイルを再生するための画面１００を示す模式図である。図６（ｂ）に示す画面１００は、図４（ｂ）に示した画面１００と同様に構成されている。ただし、実施形態２では、解答ごとにヘッドセットマイク２１と内蔵マイク１１のいずれか一方の音声データのみが記憶されている。したがって、図６（ｂ）に示すように、ボタン１２１、１２２のうち、生成されている音声データに対応するボタンが、実線で示すように有効とされ、生成されていない音声データに対応するボタンは、破線で示すように無効とされる。図６（ｂ）に示す例では、解答１についてはヘッドセットマイク２１に基づく音声データファイルのみが保存されているため、ボタン１２１が有効とされ、ボタン１２２が無効とされている。

図７（ａ）は、ヘッドセットマイク２１の異常検知に関する処理を示すフローチャートである。制御部１６は、図７（ａ）の処理を、プログラム１７ａに含まれる模擬試験のアプリケーションを実行することにより行って、模擬試験が終了するまで繰り返し行う。

制御部１６は、模擬試験のアプリケーションが実行されると、第１フラグをＯＮに設定する。第１フラグは、記憶部１７に記憶された変数である。たとえば、第１フラグがＯＮのとき変数の値が１に設定され、第１フラグがＯＦＦのとき変数の値が０に設定される。

制御部１６は、ヘッドセットマイク２１が接続されているか否か、すなわち、本体１０の接続端子１５にヘッドセット２０の接続端子２５が接続されているか否かを判定する（Ｓ１１）。ヘッドセットマイク２１が接続されている場合（Ｓ１１：ＹＥＳ）、制御部１６は、第１フラグをＯＮに設定する（Ｓ１２）。

他方、ヘッドセットマイク２１が接続されていない場合（Ｓ１１：ＮＯ）、制御部１６は、第１フラグがＯＮに設定されているか否かを判定する（Ｓ１３）。第１フラグがＯＮに設定されている場合（Ｓ１３：ＹＥＳ）、制御部１６は、第１フラグをＯＦＦに設定し（Ｓ１４）、ヘッドセットマイク２１に関する異常を報知する（Ｓ１５）。具体的には、Ｓ１５において、制御部１６は、図７（ｂ）に示す画面を表示入力部１４に表示する。図７（ｂ）に示す画面には、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていることを示すメッセージが表示される。なお、Ｓ１５において、「ヘッドセットマイクが正しく接続されているか確認して下さい」などの確認を促すメッセージが表示されてもよい。

図８は、ヘッドセットマイク２１の異常検知に関する処理を示すフローチャートである。制御部１６は、図８の処理を、プログラム１７ａに含まれる模擬試験のアプリケーションを実行することにより行って、模擬試験が終了するまで図７（ａ）の処理と並行して繰り返し行う。具体的には、制御部１６は、図８のＳ２１～Ｓ２６の処理を、模擬試験の設問ごとに実行し、同じ設問中で繰り返し実行する。

制御部１６は、模擬試験のアプリケーションが実行されると、第２フラグをＯＮに設定する。第２フラグも、第１フラグと同様、記憶部１７に記憶された変数である。

制御部１６は、図９（ａ）の第１解析および図９（ｂ）の第２解析を行って、ヘッドセットマイク２１を介した音声の受け付けが正常か否かを判定する（Ｓ２１）。制御部１６は、図９（ａ）、（ｂ）の処理を、プログラム１７ａに含まれる模擬試験のアプリケーションを実行することにより行う。

図９（ａ）は、第１解析を示すフローチャートである。

制御部１６は、内蔵マイク１１からの音声データに基づいて、受験者が音声を発しているか否かを解析する（Ｓ１０１）。具体的には、制御部１６は、内蔵マイク１１に基づく音声データにおいて、人間の声の周波数帯に閾値以上の振幅レベルを有する音声が存在する場合に、受験者が音声を発していると判定する。続いて、制御部１６は、ヘッドセットマイク２１からの音声データに基づいて、受験者が音声を発しているか否かを解析する（Ｓ１０２）。具体的には、制御部１６は、ヘッドセットマイク２１に基づく音声データにおいて、人間の声の周波数帯に閾値以上の振幅レベルを有する音声が存在する場合に、受験者が音声を発していると判定する。

続いて、制御部１６は、内蔵マイク１１およびヘッドセットマイク２１に基づいて、受験者の発声状態が重複しているか否かを判定する（Ｓ１０３）。具体的には、Ｓ１０３において、制御部１６は、Ｓ１０１において内蔵マイク１１に基づいて受験者の音声が発せられていると判定し、かつ、Ｓ１０２においてヘッドセットマイク２１に基づいて受験者の音声が発せられていると判定した場合、受験者の発声状態が重複していると判定する。

なお、Ｓ１０３において、制御部１６は、Ｓ１０１において内蔵マイク１１に基づいて受験者の音声が発せられていないと判定し、かつ、Ｓ１０２においてヘッドセットマイク２１に基づいて受験者の音声が発せられていないと判定した場合も、受験者がスピーキングの解答を実際に発声していない場合が想定されるため、受験者の発声状態が重複していると判定する。

受験者の発声状態が重複している場合（Ｓ１０３：ＹＥＳ）、制御部１６は、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていない、すなわちヘッドセットマイク２１を介した音声の受け付けが正常であると判定する（Ｓ１０４）。他方、受験者の発声状態が重複していない場合（Ｓ１０３：ＮＯ）、制御部１６は、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていると判定する（Ｓ１０５）。

図９（ｂ）は、第２解析を示すフローチャートである。

制御部１６は、撮像部１３により撮像された映像に基づいて、受験者が音声を発しているか否かを解析する（Ｓ１１１）。具体的には、制御部１６は、撮像部１３により撮像された映像において受験者の顔を認識し、顔領域内にある受験者の口が動いている場合に、受験者が音声を発していると判定する。続いて、制御部１６は、図９（ａ）のＳ１０２と同様に、ヘッドセットマイク２１からの音声データに基づいて、受験者が音声を発しているか否かを解析する（Ｓ１１２）。

続いて、制御部１６は、撮像部１３およびヘッドセットマイク２１に基づいて受験者の発声状態が重複しているか否かを判定する（Ｓ１１３）。具体的には、Ｓ１１３において、制御部１６は、Ｓ１１１において撮像部１３に基づいて受験者の音声が発せられていると判定し、かつ、Ｓ１１２においてヘッドセットマイク２１に基づいて受験者の音声が発せられていると判定した場合、受験者の発声状態が重複していると判定する。

なお、Ｓ１１３において、制御部１６は、Ｓ１１１において撮像部１３に基づいて受験者の音声が発せられていないと判定し、かつ、Ｓ１１２においてヘッドセットマイク２１に基づいて受験者の音声が発せられていないと判定した場合も、受験者がスピーキングの解答を実際に発声していない場合が想定されるため、受験者の発声状態が重複していると判定する。

受験者の発声状態が重複している場合（Ｓ１１３：ＹＥＳ）、制御部１６は、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていない、すなわちヘッドセットマイク２１を介した音声の受け付けが正常であると判定する（Ｓ１１４）。他方、受験者の発声状態が重複していない場合（Ｓ１１３：ＮＯ）、制御部１６は、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていると判定する（Ｓ１１５）。

図８に戻り、Ｓ２１において、制御部１６は、ヘッドセットマイク２１を介した音声の受け付けが正常か否かを判定する。具体的には、制御部１６は、第１解析および第２解析の両方において、ヘッドセットマイク２１を介した音声の受け付けが正常であると判定した場合に、Ｓ２１においてヘッドセットマイク２１が正常であると判定する。

ヘッドセットマイク２１が正常である場合（Ｓ２１：ＹＥＳ）、制御部１６は、第２フラグをＯＮに設定する（Ｓ２２）。他方、ヘッドセットマイク２１に異常が生じている場合（Ｓ２１：ＮＯ）、制御部１６は、第２フラグがＯＮに設定されているか否かを判定する（Ｓ２３）。第２フラグがＯＮに設定されている場合（Ｓ２３：ＹＥＳ）、制御部１６は、第２フラグをＯＦＦに設定し（Ｓ２４）、図７（ａ）のＳ１５と同様、図７（ｂ）に示すようにヘッドセットマイク２１に関する異常を報知する（Ｓ２５）。なお、Ｓ２５において、「ヘッドセットマイクのケーブルに異常がないか確認して下さい」などの確認を促すメッセージが表示されてもよい。

続いて、制御部１６は、模擬試験の設問に対する解答の録音が終了したか否かを判定する（Ｓ２６）。録音が終了していない場合（Ｓ２６：ＮＯ）、処理がＳ２１に戻される。こうして、解答の録音が終了するまで、Ｓ２１～Ｓ２６の処理が所定の時間間隔で繰り返し行われる。他方、録音が終了すると（Ｓ２６：ＹＥＳ）、図８の処理が終了する。

図１０は、第１フラグおよび第２フラグに基づいてヘッドセットマイク２１と内蔵マイク１１のいずれか一方に基づく音声を録音する処理を示すフローチャートである。制御部１６は、図１０の処理を、プログラム１７ａに含まれる模擬試験のアプリケーションを実行することにより行って、模擬試験が終了するまで図７（ａ）～図９（ｂ）の処理と並行して繰り返し行う。具体的には、制御部１６は、図１０のＳ３１～Ｓ３８の処理を、模擬試験の設問ごとに実行する。

制御部１６は、第１フラグおよび第２フラグの両方がＯＮに設定されているか否かを判定する（Ｓ３１）。第１フラグおよび第２フラグの両方がＯＮに設定されていると（Ｓ３１：ＹＥＳ）、制御部１６は、ヘッドセットマイク２１に基づく音声を録音する（Ｓ３２）。すなわち、制御部１６は、ヘッドセットマイク２１を介して受け付けた音声に基づいてモノラル音声データを生成する（Ｓ３２）。そして、制御部１６は、ヘッドセットマイク２１を介して受け付けた音声の音量を示す第１インジケータ２１０を表示入力部１４に表示させる（Ｓ３３）。

図１１（ａ）は、表示入力部１４の表示領域１４ａに第１インジケータ２１０が表示された状態を示す模式図である。

第１インジケータ２１０は、色が付いた目盛が右方向に並んでいる個数で音量を示すメーターを備える。第１インジケータ２１０の目盛の色は、ヘッドセットマイク２１を介して正常に音声が受け付けられていることを示す色である。第１インジケータ２１０は、ヘッドセットマイク２１を介して正常に音声が受け付けられていることを示すアイコン２１１およびラベル２１２を含む。アイコン２１１は、ヘッドセット２０を模した形状を有しており、ラベル２１２は、「ヘッドセットマイク」の文字列を含む。

図１０に戻り、他方、第１フラグまたは第２フラグがＯＦＦに設定されていると（Ｓ３１：ＮＯ）、制御部１６は、内蔵マイク１１に基づく音声を録音する（Ｓ３４）。すなわち、制御部１６は、内蔵マイク１１を介して受け付けた音声に基づいてモノラル音声データを生成する（Ｓ３４）。そして、制御部１６は、内蔵マイク１１を介して受け付けた音声の音量を示す第２インジケータ２２０を表示入力部１４に表示させる（Ｓ３５）。

図１１（ｂ）は、表示入力部１４の表示領域１４ａに第２インジケータ２２０が表示された状態を示す模式図である。

第２インジケータ２２０は、色が付いた目盛が右方向に並んでいる個数で音量を示すメーターである。第２インジケータ２２０の目盛の色は、ヘッドセットマイク２１に代えて内蔵マイク１１を介して音声が受け付けられていることを示す色であり、第１インジケータ２１０の目盛の色と異なっている。第２インジケータ２２０は、ヘッドセットマイク２１に代えて内蔵マイク１１を介して音声が受け付けられていることを示すアイコン２２１およびラベル２２２を含む。アイコン２２１は、本体１０に設けられた内蔵マイク１１を模した形状を有しており、ラベル２１２は、「内蔵マイク」の文字列を含む。

図１０に戻り、制御部１６は、模擬試験の設問に対する解答の録音が終了したか否かを判定する（Ｓ３６）。録音が終了していない場合（Ｓ３６：ＮＯ）、処理がＳ３１に戻され、解答の録音が終了するまで、Ｓ３１～Ｓ３６の処理が所定の時間間隔で繰り返し行われる。他方、録音が終了すると（Ｓ３６：ＹＥＳ）、処理がＳ３７に進められる。

制御部１６は、Ｓ３１～Ｓ３６の処理により生成した音声データのファイル名に、ヘッドセットマイク２１と内蔵マイク１１のどちらに基づいてモノラル音声データが生成されたかを示す文字列を識別子として付する（Ｓ３７）。続いて、制御部１６は、Ｓ３１～Ｓ３６の処理により生成した音声データの冒頭に、ヘッドセットマイク２１と内蔵マイク１１のどちらに基づいてモノラル音声データが生成されたかを示す音声データを識別子として付する（Ｓ３８）。こうして、図１０の処理が終了する。

なお、Ｓ３１～Ｓ３６の処理が繰り返し行われている間に、Ｓ３１の判定が切り替わると、録音の途中で、最終的に生成されるモノラル音声データの元となる音声入力部が、ヘッドセットマイク２１と内蔵マイク１１との間で切り替わることになる。すなわち、生成される１つのモノラル音声データにおいて、ヘッドセットマイク２１に基づく音声データと、内蔵マイク１１に基づく音声データとが混在することになる。この場合、Ｓ３７において、ファイル名に識別子として、「ヘッドセットマイクおよび内蔵マイク」の文字列が付される。また、Ｓ３８において、音声データに識別子として、「ヘッドセットマイクおよび内蔵マイクに基づく音声です」との音声データが付される。

１つのモノラル音声データにおいて、ヘッドセットマイク２１に基づく音声データと、内蔵マイク１１に基づく音声データとが混在する場合、採点者が音声データのファイルを再生するための画面１００において、ボタン１２１、１２２が無効とされ、さらに別のボタンが表示される。この場合に表示されるボタンには、「ヘッドセットマイクおよび内蔵マイク」の文字列が表示される。２種類の音声データが混在する場合、採点者は、「ヘッドセットマイクおよび内蔵マイク」の文字列が表示されたボタンを操作して、対象となる解答の音声データを再生する。

＜実施形態２の効果＞
実施形態２によれば、以下の効果が奏される。

制御部１６は、ヘッドセットマイク２１と内蔵マイク１１を介して音声の入力を並行して受け付ける。そして、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていない場合、制御部１６は、ヘッドセットマイク２１を介して受け付けた音声に基づいてモノラル音声データを生成する。他方、ヘッドセットマイク２１を介した音声の受け付けに異常が生じている場合、制御部１６は、内蔵マイク１１を介して受け付けた音声に基づいてモノラル音声データを生成する。このように、１つのモノラル音声データが生成されると、ヘッドセットマイク２１に基づくモノラル音声データと、内蔵マイク１１に基づくモノラル音声データのいずれを使うべきかを判断する必要がない。したがって、生成された音声データを用いて、採点処理等のその後の処理を円滑に進めることができる。

また、ヘッドセットマイク２１を介した音声の受け付けに異常が生じている場合、内蔵マイク１１を介して受け付けた音声に基づいて音声データが生成されるため、実施形態１と同様、音声データが一切録音されていないといった最悪の事態を回避できる。

また、ヘッドセットマイク２１に基づく音声データと内蔵マイク１１に基づく音声データのいずれか一方が記憶部１７に記憶されるため、記憶部１７に記憶されるデータ容量を小さくできる。これにより、制御部１６や記憶部１７への処理負荷を小さくできるため、情報端末装置１のハードウェア構成にかかる制約と、情報端末装置１にかかるコストとを抑制できる。

また、一般的に、内蔵マイク１１に基づく音声データの音声品質は、ヘッドセットマイク２１に基づく音声データの音声品質に比べて劣る。しかしながら、実施形態２によれば、主としてヘッドセットマイク２１に基づく音声データが取得され、ヘッドセットマイク２１を介して音声の受け付けに異常が生じた場合に限り、内蔵マイク１１に基づく音声データが取得される。これにより、音声データを一切取得できないといった最悪の事態を回避しつつ、高品質な音声データを取得できる。

また、制御部１６は、ヘッドセットマイク２１と内蔵マイク１１を介して音声の入力を並行して受け付けているため、ヘッドセットマイク２１に基づくモノラル音声データの生成と、内蔵マイク１１に基づくモノラル音声データの生成とを、迅速に切り替えることができる。これにより、受験者の発した音声が途切れることなく、モノラル音声データを生成できる。

ヘッドセットマイク２１を介した音声の受け付けに異常が生じていない場合、ヘッドセットマイク２１を介して受け付けた音声の音量を示す第１インジケータ２１０が表示入力部１４に表示される。また、ヘッドセットマイク２１を介した音声の受け付けに異常が生じている場合、内蔵マイク１１を介して受け付けた音声の音量を示す第２インジケータ２２０が表示入力部１４に表示される。

たとえば、常に第１インジケータ２１０のみが表示される場合、ヘッドセットマイク２１を介した音声の受け付けに異常が生じると、第１インジケータ２１０の目盛が極端に小さい値、極端に大きな値、または変則的な値を示すようになる。このように第１インジケータ２１０の目盛が不自然になると、受験者は正しく音声が録音されているか不安を感じてしまう。これに対して実施形態２では、ヘッドセットマイク２１を介した音声の受け付けに異常が生じると、第１インジケータ２１０に代えて第２インジケータ２２０が表示されるため、受験者の心理的な不安を抑制できる。

また、第１インジケータ２１０と第２インジケータ２２０の表示形態は、互いに異なっている。具体的には、第１インジケータ２１０と第２インジケータ２２０の目盛の色は互いに異なっており、アイコン２１１とアイコン２２１の形状は互いに異なっており、ラベル２１２とラベル２２２の文字列は互いに異なっている。これにより、受験者は、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていることを把握できる。

制御部１６は、図８のＳ２１で第１解析および第２解析を行って、ヘッドセットマイク２１および内蔵マイク１１を介して受け付けた音声をリアルタイムで解析し、撮像部１３により撮像された映像およびヘッドセットマイク２１を介して受け付けた音声をリアルタイムで解析して、ヘッドセットマイク２１を介した音声の受け付けに異常が生じているか否かを判定する。そして、制御部１６は、ヘッドセットマイク２１を介した音声の受け付けに異常が生じている場合、図８のＳ２５においてヘッドセットマイク２１に関する異常を報知する。これにより、情報端末装置１のユーザーは、ヘッドセットマイク２１を介した音声の受け付けの異常により、ヘッドセットマイク２１に基づく録音が行われないことを把握できる。たとえば、情報端末装置１が模擬試験において用いられる場合、情報端末装置１を使用する受験者は、異常があることを迅速に把握できるため、試験会場において情報端末装置１の交換等の措置を迅速に進めることができる。

また、制御部１６は、図７（ａ）のＳ１１でヘッドセットマイク２１が接続されているか否かを判定し、ヘッドセットマイク２１が接続されていない場合、図７（ａ）のＳ１５においてヘッドセットマイク２１に関する異常を報知する。これにより、情報端末装置１のユーザーは、ヘッドセットマイク２１を介した音声の受け付けの異常により、ヘッドセットマイク２１に基づく録音が行われないことを把握できる。たとえば、情報端末装置１が模擬試験において用いられる場合、情報端末装置１を使用する受験者は、異常があることを迅速に把握できるため、試験会場において情報端末装置１の交換等の措置を迅速に進めることができる。

このように、ヘッドセットマイク２１を介した音声の受け付けに異常が生じている場合に、試験会場において情報端末装置１の交換が迅速に行われると、どの受験者においても高品質なヘッドセットマイク２１の音声データを録音できる。これにより、受験者ごとに音声データの品質が異なるといった不公平な状況を抑制して、受験者間の公平性を実現できる。

なお、実施形態２の第１解析では、図９（ａ）のＳ１０３において発声状態が重複していない場合、図９（ａ）のＳ１０５においてヘッドセットマイク２１を介した音声の受け付けに異常が生じていると判定された。しかしながら、実際には、ヘッドセットマイク２１を介した音声の受け付けが正常で、内蔵マイク１１を介した音声の受け付けに異常が生じている場合も、受験者の発声状態は重複しない。したがって、実施形態２において、制御部１６は、内蔵マイク１１に基づいて受験者の音声が発せられていないと判定し、ヘッドセットマイク２１に基づいて受験者の音声が発せられていると判定した場合、内蔵マイク１１を介した音声の受け付けに異常が生じていると判定してもよい。この場合、制御部１６は、内蔵マイク１１に関する異常を報知してもよい。

＜変更例＞
以上、本発明の実施形態について説明したが、本発明は上記実施形態に何ら制限されるものではない。

たとえば、実施形態１、２では、情報端末装置１は、外国語のスピーキングに関する模擬試験において用いられたが、これに限らず、大学や高校などの教育機関の入学試験や資格試験のような各種試験などで、スピーキングに関する設問の解答に用いられてもよい。

また、実施形態１では、ヘッドセットマイク２１と内蔵マイク１１に基づいて一時的にステレオデータを作成し、ステレオデータに基づいて、ヘッドセットマイク２１と内蔵マイク１１に基づいて２つのモノラル音声データが生成された。しかしながら、これに限らず、ヘッドセットマイク２１に基づく音声データと内蔵マイク１１に基づく音声データとを含むステレオ音声データが、解答ごとにファイルとして生成されてもよい。この場合も、ヘッドセットマイク２１と内蔵マイク１１に基づく音声ごとに音声データ生成されているため、音声データが一切録音されていない最悪の事態を回避できる。なお、解答ごとにステレオ音声データのファイルが生成される場合、たとえば、採点処理などの後の処理において、ステレオ音声データが２つのモノラル音声データに分割され再生される。

また、実施形態１、２では、情報端末装置１は、１つのヘッドセットマイク２１と、１つの内蔵マイク１１とを備え、受験者は主としてヘッドセットマイク２１を用いて音声を入力し、内蔵マイク１１は、ヘッドセットマイク２１のバックアップとして用いられた。しかしながら、これに限らず、情報端末装置１は、２つのヘッドセットマイク２１を備えてもよく、あるいは２つの内蔵マイク１１を備えてもよい。この場合も、受験者は主としていずれか一方のマイクを用いて音声を入力し、他方がバックアップとして用いられる。

このように、情報端末装置１が２つの音声入力部を備え、２つの音声入力部を介して音声の入力が並行して受け付けられ、受け付けられた音声に基づいて音声入力部ごとに音声データが生成されると、１つの音声入力部だけに基づいて音声データが生成される場合に比べて、音声データを一切取得できないといった最悪の事態を抑制できる。なお、情報端末装置１が備える音声入力部は、実施形態１、２のように２つに限らず、３つ以上でもよい。この場合、３つ以上の音声入力部のうち、受験者は主としていずれか１つの音声入力部を用いて音声を入力し、それ以外の音声入力部がバックアップとして用いられる。

また、実施形態１、２では、ヘッドセットマイク２１に基づく音声データのファイル名には「ヘッドセットマイク」の文字列が付され、内蔵マイク１１に基づく音声データのファイル名には「内蔵マイク」の文字列が付された。しかしながら、これに限らず、ヘッドセットマイク２１と内蔵マイク１１のいずれに基づく音声データであるかを識別可能であれば、ファイル名に付される文字列は、記号や数字であってもよい。

また、実施形態１、２では、ヘッドセットマイク２１に基づく音声データには、「ヘッドセットマイクに基づく音声です」との音声データが付され、内蔵マイク１１に基づく音声データには、「内蔵マイクに基づく音声です」との音声データが付された。しかしながら、これに限らず、ヘッドセットマイク２１と内蔵マイク１１のいずれに基づく音声データであるかを識別可能であれば、識別用の音声データは、アラーム音声やメロディ音声であってもよい。

また、実施形態１、２では、モノラル音声データのファイル形式は、図４（ａ）および図６（ａ）に示したようにWAVであったが、これに限らず、MP3など他のファイル形式でもよい。モノラル音声データが容量を圧縮可能なファイル形式で保存されれば、記憶部１７に記憶されるデータ容量を小さくできる。

また、実施形態２において、第１インジケータ２１０のメーターと第２インジケータ２２０のメーターとは、同じ位置に表示された同じメーターであったが、これに限らず、上下に隣り合うように並んでもよい。また、第１インジケータ２１０と第２インジケータ２２０とが、上下に隣り合うように並んでもよい。こうすると、ヘッドセットマイク２１を介して受け付けた音声の音量と、内蔵マイク１１を介して受け付けた音声の音量とを同時に確認できる。

また、実施形態２では、第１インジケータ２１０において、アイコン２１１およびラベル２１２の両方が表示されたが、いずれか一方のみが表示されてもよい。第２インジケータ２２０において、アイコン２２１およびラベル２２２の両方が表示されたが、いずれか一方のみが表示されてもよい。

また、実施形態２では、ヘッドセットマイク２１を介した音声の受け付けに異常が生じているか否かに応じて、第１インジケータ２１０と第２インジケータ２２０の表示が切り替えられたが、実施形態１においても、第１インジケータ２１０と第２インジケータ２２０の表示が切り替えられてもよい。たとえば、実施形態１において、制御部１６は、ヘッドセットマイク２１を介した音声の受け付けに異常が生じているか否かを判定し、判定結果に応じて実施形態２と同様、第１インジケータ２１０と第２インジケータ２２０の表示を切り替える。この場合、制御部１６は、判定結果にかかわらず、ヘッドセットマイク２１に基づくモノラル音声データと内蔵マイク１１に基づくモノラル音声データの両方を記憶部１７に記憶させる。

また、実施形態２では、ヘッドセットマイク２１に関する異常を報知する処理（図７（ａ）のＳ１５および図８のＳ２５）において、図７（ｂ）に示す画面が表示入力部１４に表示された。しかしながら、これに限らず、ヘッドセットマイク２１に関する異常を報知するための、メッセージ音声、アラーム音声、メロディ音声などが、内蔵スピーカー１２およびヘッドセットスピーカー２２から出力されてもよい。

また、実施形態２では、Ｓ２１において第１解析および第２解析が実行されたが、これに限らず、第１解析および第２解析のいずれか一方が実行されてもよい。また、第１解析および第２解析において、受験者の音声が発せられているか否かの解析は、上述した手法に限らない。たとえば、制御部１６は、ヘッドセットマイク２１に基づく音声に、人間の声の周波数帯以外の周波数帯に閾値以上の振幅レベルを有する音声が存在する場合に、ヘッドセットマイク２１を介した音声の受け付けに異常が生じていると判定してもよい。

また、ヘッドセット２０の本体１０に対する接続が不十分な場合、ヘッドセットマイク２１と本体１０との間の接続状態が、接続と非接続との間で繰り返し切り替えられることがある。この場合、たとえば、図１２（ａ）の上段に示すように内蔵マイク１１に基づいて人間の音声の有無が検出された場合、図１２（ａ）の下段に示すようにヘッドセットマイク２１に基づいて人間の音声の有無が検出されることになる。このとき、内蔵マイク１１に基づく音声データとヘッドセットマイク２１に基づく音声データとが、頻繁に切り替えられて録音される。こうなると、生成された音声データにおいて、高品質な音声データ部分と低品質な音声データ部分とが混在することになるため、採点者は、音声データを用いた採点等を円滑に進めにくくなる。このような問題は、以下のような処理によって解決できる。

図１２（ａ）、（ｂ）に示すように、所定期間ΔＴごとに、内蔵マイク１１に基づく人間の音声の有無の波形と、ヘッドセットマイク２１に基づく人間の音声の有無の波形とが比較される。図１２（ａ）の場合には、２つの波形は不一致と判定され、図１２（ｂ）の場合には、２つの波形は一致すると判定される。図１２（ａ）の場合は、ΔＴが経過したタイミングで、録音に用いる音声入力部が内蔵マイク１１に切り替えられる。その後、所定のタイミングで、図１２（ｂ）に示すように２つの波形が一致すると、録音に用いる音声入力部がヘッドセットマイク２１に戻される。

なお、図１２（ａ）、（ｂ）において、ヘッドセットマイク２１に基づく音声の有無の波形と比較される波形は、撮像部１３に基づく音声の有無の波形であってもよい。

このように２つの波形を比較して録音に用いる音声入力部が切り替えられると、ヘッドセットマイク２１の接続が不十分な場合でも、録音に用いる音声入力部の頻繁な切り替えを抑制でき、生成された音声データの録音品質が頻繁に変わることを抑制できる。したがって、採点者は生成された音声データを用いて、採点処理等のその後の処理を進めやすくなる。

また、図１２（ａ）、（ｂ）を参照して説明した変更例において、内蔵マイク１１に基づく人間の音声の有無とヘッドセットマイク２１に基づく人間の音声の有無とが一致しない場合、録音に用いる音声入力部がヘッドセットマイク２１から内蔵マイク１１に切り替えられてもよい。この場合、図１２（ｂ）に示すように、その後の所定のタイミングで２つの波形が一致する場合に、録音に用いる音声入力部がヘッドセットマイク２１に戻される。

同様に、撮像部１３に基づく音声の有無とヘッドセットマイク２１に基づく人間の音声の有無とが一致しない場合、録音に用いる音声入力部が内蔵マイク１１に切り替えられ、その後の所定のタイミングで撮像部１３に基づく波形とヘッドセットマイク２１に基づく波形とが一致する場合に、録音に用いる音声入力部がヘッドセットに戻されてもよい。

また、実施形態２において、１つの設問についてＳ２１～Ｓ２６の処理が実行される間、第１解析または第２解析において発声状態が重複していないと判定された場合、その後Ｓ２１～Ｓ２６の処理が終了するまで、録音に用いる音声入力部が内蔵マイク１１に固定されてもよい。

また、実施形態１、２では、採点者は、採点用の端末において採点用のアプリケーションを起動し、それぞれ、図４（ｂ）および図６（ｂ）の画面１００を表示させた。しかしながら、これに限らず、プログラム１７ａが採点用のアプリケーションを含み、採点者は、情報端末装置１において採点用のアプリケーションを起動する指示を入力し、制御部１６が画面１００を表示入力部１４に表示させてもよい。

この他、本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。

１情報端末装置
１１内蔵マイク（音声入力部、第２音声入力部）
１３撮像部
１４表示入力部（表示部）
１６制御部
１７記憶部
１７ａプログラム
２１ヘッドセットマイク（音声入力部、第１音声入力部、外部マイク）
２１０第１インジケータ
２２０第２インジケータ

Claims

複数の音声入力部と、
記憶部と、
前記複数の音声入力部を介して音声の入力を並行して受け付け、受け付けた前記音声に基づいて前記複数の音声入力部ごとに音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、を備え、
前記複数の音声入力部は、第１音声入力部および第２音声入力部により構成され、
前記制御部は、前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子を付与し、
前記識別子は、前記複数の音声入力部のいずれにより取得された前記音声データであるかを示す音声である、
情報端末装置。
第１音声入力部と、
第２音声入力部と、
記憶部と、
前記第１音声入力部および前記第２音声入力部を介して音声の入力を並行して受け付け、前記第１音声入力部を介した前記音声の受け付けに異常が生じていない場合、前記第１音声入力部を介して受け付けた前記音声に基づいて音声データを生成し、前記第１音声入力部を介した前記音声の受け付けに異常が生じている場合、前記第２音声入力部を介して受け付けた前記音声に基づいて音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、を備え、
前記制御部は、前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子を付与し、
前記識別子は、前記複数の音声入力部のいずれにより取得された前記音声データであるかを示す音声である、
情報端末装置。
前記第１音声入力部は、前記情報端末装置の本体に接続された外部マイクであり、
前記第２音声入力部は、前記情報端末装置の本体の内蔵マイクである、
請求項１または２に記載の情報端末装置。
複数の音声入力部と、
記憶部と、
前記複数の音声入力部を介して音声の入力を並行して受け付け、受け付けた前記音声に基づいて前記複数の音声入力部ごとに音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、
表示部と、を備え、
前記複数の音声入力部は、第１音声入力部および第２音声入力部により構成され、
前記制御部は、
前記第１音声入力部を介した前記音声の受け付けに異常が生じていない場合、前記第１音声入力部を介して受け付けた前記音声の音量を示す第１インジケータを前記表示部に表示させ、
前記第１音声入力部を介した前記音声の受け付けに異常が生じている場合、前記第２音声入力部を介して受け付けた前記音声の音量を示す第２インジケータを前記第１インジケータに代えて前記表示部に表示させる、
情報端末装置。
前記第１インジケータと前記第２インジケータの表示形態は、互いに異なる、
請求項４に記載の情報端末装置。
前記制御部は、
前記第１音声入力部および前記第２音声入力部を介して受け付けた前記音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定し、
前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知する、
請求項１ないし５の何れか一項に記載の情報端末装置。
複数の音声入力部と、
記憶部と、
前記複数の音声入力部を介して音声の入力を並行して受け付け、受け付けた前記音声に基づいて前記複数の音声入力部ごとに音声データを生成し、生成した前記音声データを前記記憶部に記憶させる制御部と、
撮像部と、を備え、
前記複数の音声入力部は、第１音声入力部および第２音声入力部により構成され、
前記制御部は、
前記撮像部により撮像された映像および第１音声入力部を介して受け付けた前記音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定し、
前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知する、
情報端末装置。
第１音声入力部と、
第２音声入力部と、
撮像部と、
制御部と、を備え、
前記制御部は、
前記撮像部により撮像された映像および前記第１音声入力部を介して受け付けた音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定し、
前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知する、
情報端末装置。
第１音声入力部と第２音声入力部とを備える情報端末装置の制御部に、
前記第１音声入力部および前記第２音声入力部を介して並行して受け付けた音声に基づいて前記第１音声入力部および前記第２音声入力部ごとに音声データを生成する機能と、
生成した前記音声データを記憶部に記憶させる機能と、
前記記憶部に記憶させる前記音声データに、前記第１音声入力部および前記第２音声入力部のいずれに基づいて生成された前記音声データであるかを識別可能な識別子として、前記第１音声入力部および前記第２音声入力部のいずれにより取得された前記音声データであるかを示す音声を付与機能と、を実行させる、
プログラム。
第１音声入力部、第２音声入力部および撮像部を備える情報端末装置の制御部に、
前記撮像部により撮像された映像および前記第１音声入力部を介して受け付けた音声をリアルタイムで解析して、前記第１音声入力部を介した前記音声の受け付けに異常が生じているか否かを判定する機能と、
前記第１音声入力部を介した前記音声の受け付けに異常が生じていると判定した場合に、前記第１音声入力部を介した前記音声の受け付けに異常が生じていることを報知する機能と、を実行させる、
プログラム。