JP6801539B2

JP6801539B2 - 情報処理システム、情報処理装置、情報処理プログラム及び情報処理方法

Info

Publication number: JP6801539B2
Application number: JP2017053016A
Authority: JP
Inventors: 拓郎真野
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2020-12-16
Anticipated expiration: 2037-03-17
Also published as: US20180268822A1; JP2018156424A; US10535353B2

Description

本発明は、情報処理システム、情報処理装置、情報処理プログラム及び情報処理方法に関する。

近年では、自然言語の音声認識技術の発展や、人工知能と呼ばれるサービスの向上等により、発話によって機器の操作を行う音声操作が利用されつつある。この音声操作では、操作対象の機器において音声認識が行われてコマンドが実行される場合と、操作対象の機器からクラウドサービスに発話データが送信され、クラウドサービスで行われた音声認識の結果であるコマンドを機器が実行する場合と、が知られている。

クラウドサービスでは、機器により集音された発話データをインターネット経由で受信し音声認識によって認識されたコマンドを機器に返す。このため、操作対象となる機器において、発話データを取得してからコマンドが実行されるまでの時間は、ネットワークの帯域に大きく依存する。

このような通信システムでは、通信状況に応じて、単位時間あたりのデータ転送量を変化させる工夫等が行われている（特許文献１）。

ネットワークを経由して送受信されるデータは、発話データだけではなく、画像データ、音声データ、動画データ、ドキュメントといったコンテンツが含まれる。

このため、従来の技術では、発話よって機器を操作する音声操作においては、音声データ以外のコンテンツの送受信にネットワーク帯域を奪われ、その応答性が低下する可能性がある。

開示の技術は、上記事情に鑑みてなされたものであり、音声操作に対する応答性を向上させることを目的としている。

開示の技術は、音声データを含むコンテンツデータの送受信を行う複数の装置を有する情報処理システムであって、前記複数の装置の間の通信にかかる通信遅延時間に基づき、前記コンテンツデータのデータ量を変更するか否かを判定する通信状態判定部と、前記通信遅延時間に基づき、前記コンテンツデータのうち、前記音声データ以外のデータのデータ量を調整するコンテンツ変換部と、前記音声データを音声認識装置に送信し、前記音声認識装置から、前記音声データに対する音声認識結果であるテキストデータを受信する送受信部と、前記音声データに特定のワードが含まれるか否かを判定する特定ワード検出部と、を有し、前記特定ワード検出部は、前記ワードを含む所定の長さの音声データを前記送受信部によって、前記音声認識装置に送信する。

音声操作に対する応答性を向上させることができる。

第一の実施形態の情報処理システムのシステム構成の一例を示す図である。第一の実施形態の電子黒板のハードウェア構成の一例を示す図である。第一の実施形態のサーバ装置のハードウェア構成の一例を示す図である。第一の実施形態の情報処理システムの有する各装置の機能を説明する図である。第一の実施形態のコマンドデータベースの一例を示す図である。第一の実施形態のパラメータテーブルを説明する図である。第一の実施形態の情報処理システムの動作を説明するシーケンス図である。第二の実施形態の情報処理システムの有する各装置の機能を説明する図である。第二の実施形態の情報処理システムの動作を説明するシーケンス図である。第三の実施形態の情報処理システムの各装置が有する機能を説明する図である。第三の実施形態の情報処理システムの動作を説明するシーケンス図である。

（第一の実施形態）
以下に図面を参照して、第一の実施形態について説明する。図１は、第一の実施形態の情報処理システムのシステム構成の一例を示す図である。

本実施形態の情報処理システム１００は、電子黒板２００と、サーバ装置３００と、を有する。情報処理システム１００において、電子黒板２００とサーバ装置３００とは、ネットワークＮを介して接続される。また、本実施形態の情報処理システム１００は、ネットワークＮを介して、音声データをテキストデータに変換する音声認識装置４００と接続される。

本実施形態の情報処理システム１００において、電子黒板２００は、手書き入力された文字や画像等を示すストローク情報、電子黒板２００の画面をキャプチャした画像データ等を、サーバ装置３００に送信する。また、本実施形態の電子黒板２００は、マイク等の集音装置を有しており、集音装置によって集音された音声データを、サーバ装置３００と、音声認識装置４００とに送信する。

本実施形態の音声認識装置４００は、例えば、人工知能により提供されるサービスである。音声認識装置４００は、受信した音声データを音声認識機能によりテキストデータとし、サーバ装置３００へ送信する。

尚、本実施形態の音声データは、電子黒板２００の周辺で発話した人の声や、人の声以外の様々な音等、集音装置が集音した全ての音の音声データである。したがって、本実施形態では、電子黒板２００の周辺で発話した人の声を示す発話データは、音声データの一部である。

また、本実施形態の電子黒板２００は、音声認識装置４００による音声認識機能を用いて、発話データに基づく操作指示（コマンド）を受け付けることができる。つまり、本実施形態の電子黒板２００は、音声操作を行うことができる。

本実施形態のサーバ装置３００は、受信したストローク情報や画像データ、音声データ等を格納する。また、本実施形態のサーバ装置３００は、音声認識装置４００から送信されたテキストデータを、音声データと対応付けて格納する。

尚、サーバ装置３００は、例えば、ある会議において電子黒板２００が使用された場合、会議名と、会議中に取得したスクロール情報と、画像データと、音声データとが対応付けられて格納されても良い。言い換えれば、サーバ装置３００では、電子黒板２００から取得した各種の情報が、会議毎に格納されても良い。

さらに、本実施形態のサーバ装置３００は、ネットワークＮの混雑具合いを判定し、ネットワークＮが混雑している場合には、電子黒板２００から音声認識装置４００への音声データの送信を、他のコンテンツの送信よりも優先させる。

本実施形態では、このように、ネットワークＮが混雑している場合には、電子黒板２００において集音された音声データを、優先的に音声認識装置４００へ送信させることで、発話による操作指示に対する電子黒板２００の応答性を向上させる。

尚、図１では、音声操作の対象となる機器を電子黒板２００としているが、これに限定されない。本実施形態の情報処理システム１００において、音声操作の対象となる機器は、集音装置を有しており、且つ、音声認識装置４００と通信を行うことができる機器であれば良い。具体的には、本実施形態における音声操作の対象となる機器は、例えば、一般的なコンピュータ、タブレット型端末、スマートフォン等がある。また、その他にも、各種の電子機器に本実施形態を適用することができる。

また、以下の説明では、電子黒板２００からサーバ装置３００に送信される各種のデータをコンテンツデータと呼ぶ。したがって、本実施形態のコンテンツデータは、音声データ、画像データ、動画データ、ストローク情報等を含む。

次に、本実施形態の情報処理システム１００の有する各装置について説明する。図２は、第一の実施形態の電子黒板のハードウェア構成の一例を示す図である。

本実施形態の電子黒板２００は、入力装置２１と、表示装置２２と、外部Ｉ／Ｆ２３と、通信Ｉ／Ｆ２４と、ＲＯＭ２５（Read Only Memory）とを有する。また、本実施形態の電子黒板２００は、ＲＡＭ（Random Access Memory）２６と、ＣＰＵ（Central Processing Unit）２７と、ＨＤＤ（Hard Disk Drive）２８と、集音装置２９と、撮像装置３０と、を有する。これらの各ハードウェアは、それぞれがバスＢ１で接続されている。

入力装置２１は、タッチパネル等であり、ユーザによる各種操作（例えば、音声テキスト変換（日本語）や音声テキスト変換（英語）等の機能の選択操作）を入力するのに用いられる。表示装置２２は、ディスプレイ等であり、各種情報（例えば、音声テキスト変換（日本語）による変換結果を示すテキスト等）を表示する。尚、本実施形態では、タッチパネルが、入力装置と２１と表示装置２２の両方を兼ねていても良い。

外部Ｉ／Ｆ２３は、外部装置とのインターフェースである。外部装置には、記録媒体２３ａ等がある。これにより、電子黒板２００は、外部Ｉ／Ｆ２３を介して、記録媒体２３ａ等の読み取りや書き込みを行うことができる。なお、記録媒体２３ａには、例えば、ＵＳＢメモリやＣＤ、ＤＶＤ、ＳＤメモリカード等がある。

通信Ｉ／Ｆ２４は、電子黒板２００をネットワークＮ１等に接続するためのインターフェースである。これにより、電子黒板２００は、通信Ｉ／Ｆ２４を介して、他の装置（と通信を行うことができる。

ＨＤＤ２８は、プログラムやデータを格納している不揮発性の記憶装置である。ＨＤＤ２８に格納されるプログラムやデータには、電子黒板２００全体を制御する基本ソフトウェアであるＯＳ（Operating System）、ＯＳ上において各種機能を提供するアプリケーションプログラム等がある。

また、ＨＤＤ２８は、格納しているプログラムやデータを所定のファイルシステム及び／又はＤＢ（データベース）により管理している。なお、電子黒板２００は、ＨＤＤ２８に代えて、記録媒体としてフラッシュメモリを用いるドライブ装置（例えばソリッドステートドライブ：ＳＳＤ）を有していても良い。

ＲＯＭ２５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ２５には、電子黒板２００の起動時に実行されるＢＩＯＳ（Basic Input/Output System）、ＯＳ設定、及びネットワーク設定等のプログラムやデータが格納されている。ＲＡＭ２６は、プログラムやデータを一時保持する揮発性の半導体メモリである。

ＣＰＵ２７は、ＲＯＭ２５やＨＤＤ２８等の記憶装置からプログラムやデータをＲＡＭ２６上に読み出し、処理を実行することで、電子黒板２００全体の制御や機能を実現する演算装置である。

集音装置２９は、例えばマイクロフォン（マイク）等であり、電子黒板２００の周囲の音を集音する。

撮像装置３０は、例えばカメラ等であり、電子黒板２００の周辺の画像を撮像する。具体的には、例えば、撮像装置３０は、電子黒板２００を用いて会議等を行っている様子等を撮像する。

本実施形態の電子黒板２００は、図２に示すハードウェア構成を有することにより、後述するような各種処理を実現できる。

次に、図３を参照して、本実施形態のサーバ装置３００のハードウェア構成について説明する。図３は、第一の実施形態のサーバ装置のハードウェア構成の一例を示す図である。

本実施形態のサーバ装置３００は、一般の情報処理装置であり、それぞれバスＢで相互に接続されている入力装置３１、出力装置３２、ドライブ装置３３、補助記憶装置３４、メモリ装置３５、演算処理装置３６及びインターフェース装置３７を有する。

入力装置３１は、例えばマウスやキーボードであり、各種の情報を入力するために用いられる。出力装置３２は、例えばディスプレイ等であり、各種信号の表示（出力）に用いられる。インターフェース装置３７は、モデム，ＬＡＮカード等を含み、ネットワークに接続する為に用いられる。

情報処理プログラムは、サーバ装置３００を制御する各種プログラムの少なくとも一部である。情報処理プログラムは例えば記録媒体３８の配布やネットワークからのダウンロードなどによって提供される。情報処理プログラムを記録した記録媒体３８は、ＣＤ−ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的，電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

また、情報処理プログラムを記録した記録媒体３８がドライブ装置３３にセットされると、情報処理プログラムは記録媒体３８からドライブ装置３３を介して補助記憶装置３４にインストールされる。ネットワークからダウンロードされた通信プログラムは、インターフェース装置３７を介して補助記憶装置３４にインストールされる。

補助記憶装置３４は、インストールされた情報処理プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置３５は、コンピュータの起動時に補助記憶装置３４から情報処理プログラムを読み出して格納する。そして、演算処理装置３６はメモリ装置３５に格納された各プログラムに従って、後述するような各種処理を実現している。

次に、図４を参照して、情報処理システム１００の有する各装置の機能について説明する。図４は、第一の実施形態の情報処理システムの有する各装置の機能を説明する図である。

始めに、電子黒板２００の機能について説明する。本実施形態の電子黒板２００は、集音部２１０、入力部２２０、コンテンツ変換部２３０、送受信部２４０、コマンド実行部２５０を有する。

集音部２１０は、集音装置２９に入力された音声を音声データとして取得する。

入力部２２０は、電子黒板２００の有するタッチパネル（入力装置２１、表示装置２２）に対して手書き入力された文字や画像を示すストローク情報や、タッチパネルに表示された画像の画像データ等を取得する。尚、本実施形態のストローク情報とは、タッチパネルに対して手書き入力が行われた場合の、利用者による一画毎の軌跡を示す点群の座標報である。また、入力部２２０は、撮像装置３０により撮影された動画データ等を取得する。

コンテンツ変換部２３０は、音声データ、画像データ、動画データを、サーバ装置３００に保存できる形式に変換する。具体的には、コンテンツ変換部２３０は、音声データは、ＡＡＣ（Advanced Audio Coding）形式等とし、画像データや動画データはＪＰＥＧ形式等とする。本実施形態のコンテンツ変換部２３０は、このように、各種のデータを圧縮することで、ネットワークＮを介して送受信しやすく、且つ、サーバ装置３００のメモリ容量を圧迫しないようにしている。また、本実施形態では、動画データは、画像データに含まれるものである。

また、本実施形態のコンテンツ変換部２３０は、後述するサーバ装置３００からの通知に基づき、画像データの圧縮率や解像度、動画データのフレームレート等を変更する。より具体的には、コンテンツ変換部２３０は、画像データの圧縮率や解像度、動画データのフレームレートのうちの少なくとも何れか１つを変更して、サーバ装置３００に送信される、音声データ以外のコンテンツデータのデータ量を調整する。

言い換えれば、コンテンツ変換部２３０は、サーバ装置３００の通知を受けて、音声データ以外のコンテンツデータのデータ量を増減することで、ネットワークＮに対する負荷を調整している。

尚、以下の説明では、ここでは、画像データの圧縮率や解像度、動画データのフレームレート等をパラメータと呼ぶ。本実施形態のパラメータとは、入力部２２０により入力されたコンテンツを、サーバ装置３００に格納する形式に変換するときに参照される値である。本実施形態では、このパラメータの値を変更することで、サーバ装置３００に送信する音声データ以外のコンテンツデータのデータ量を調整する。コンテンツ変換部２３０による処理の詳細は後述する。

送受信部２４０は、集音部２１０により取得された音声データをサーバ装置３００と音声認識装置４００とに送信する。また、送受信部２４０は、入力部２２０により取得された画像データ、動画データ等をサーバ装置３００に送信する。また、送受信部２４０は、サーバ装置３００から、電子黒板２００に対する操作内容を示すコマンドや、コンテンツ変換部２３０におけるデータの変換に関する通知等を受信する。

コマンド実行部２５０は、送受信部２４０がサーバ装置３００から受信したコマンドに基づき、コマンドが示す操作を実行する。

次に、サーバ装置３００の機能について説明する。本実施形態のサーバ装置３００は、送受信部３３０、コンテンツ格納部３４０、コマンド抽出部３５０、通信状態判定部３６０を有する。ここで上述した各部は、演算処理装置３６がメモリ装置３５から情報処理プログラムを読み出して実行することで実現される。

また、本実施形態のサーバ装置３００は、記憶部５００を有する。記憶部５００には、コンテンツデータベース３１０と、コマンドデータベース３２０とが設けられている。記憶部５００は、例えば、サーバ装置３００の補助記憶装置３４等に設けられていても良い。

また、本実施形態の記憶部５００は、メモリ上の記憶領域を示すものであり、記憶部５００は、複数のメモリによって実現されても良い。

コンテンツデータベース３１０は、電子黒板２００から受信した各種のデータ（コンテンツ）が格納される。本実施形態のコンテンツとは、音声データ、画像データ、動画データ、ストローク情報を含む。

コマンドデータベース３２０は、音声データの認識結果と、電子黒板２００の操作内容とが対応付けられて格納される。コマンドデータベース３２０の詳細は後述する。

本実施形態の送受信部３３０は、電子黒板２００と間の情報の送受信と、音声認識装置４００からの情報の受信を行う。

コンテンツ格納部３４０は、電子黒板２００から受信したコンテンツをコンテンツデータベース３１０へ格納する。

コマンド抽出部３５０は、音声認識装置４００から受信したテキストデータと、コマンドデータベース３２０とか、音声データに含まれる電子黒板２００に対するコマンドを抽出する。

通信状態判定部３６０は、送受信部３３０による情報の送受信のタイミングから、ネットワークＮの混雑具合を判定する。また、本実施形態の通信状態判定部３６０は、パラメータテーブル３６１を有し、ネットワークＮが混雑している場合には、パラメータテーブル３６１を参照し、音声データ以外のコンテンツデータのデータ量を減らすように、電子黒板２００のコンテンツ変換部２３０へ通知する。パラメータテーブル３６１の詳細は後述する。

次に、図５を参照して、本実施形態のコマンドデータベース３２０について説明する。図５は、第一の実施形態のコマンドデータベースの一例を示す図である。

本実施形態のコマンドデータベース３２０では、例えば、操作内容を示す１つのワードに対し、関連する複数のワードが対応付けられたツリー状の構造となっている。

図５の例では、例えば、「ペン」というワードに、「色」、「太さ」と言うワードが対応付けられており、「色」には、「赤」、「青」等の線の色を示すワードが対応付けられている。また、「太さ」には、「１．０ポイント」、「５．０ポイント」といった、線の太さを示すワードが対応付けられている。

次に、図６を参照して、パラメータテーブル３６１について説明する。図６は、第一の実施形態のパラメータテーブルを説明する図である。

図６の例では、パラメータをフレームレートとし、音声データ以外のコンテンツデータのデータ量を減らす方法として、動画データのフレームレートを変更する場合のパラメータテーブル３６１を示している。

図６に示すパラメータテーブル３６１では、情報の項目として、通信遅延時間と、フレームレートとを有し、両者は対応付けられている。

項目「通信遅延時間」の値は、例えば、サーバ装置３００が電子黒板２００から、コンテンツデータのうち、音声データを受信したタイミングから、音声認識装置４００からテキストデータを受信したタイミングまでの時間を示す。尚、項目「通信遅延時間」の値は、サーバ装置３００と電子黒板２００又は音声認識装置４００との通信にかかる時間を示す値であれば、どのタイミングからどのタイミングまでであっても良い。

項目「フレームレート」の値は、電子黒板２００において、動画データをサーバ装置３００に送信する際のフレームレートの値を示す。

図６では、通信遅延時間が１秒を超えた場合には、フレームレートは５ｆｐｓとなり、通信遅延時間が１秒を超えることが１０秒間以上続く場合には、フレームレートは３ｆｐｓとなることがわかる。また、図６では、通信遅延時間が５秒を超えた場合には、フレームレートは１ｆｐｓとなり、通信遅延時間が１秒以下となることが１０秒間続く場合には、フレームレートは初期値の２０ｆｐｓとなる。

したがって、図６から、通信遅延時間が長くなるほど、フレームレートが下がることがわかる。

尚、図６のパラメータテーブル３６１では、通信遅延時間とフレームレートとが対応付けられるものとしたが、これに限定されない。パラメータテーブル３６１では、通信遅延時間と、画像データ及び動画データの圧縮率や解像度が対応付けられても良い。本実施形態では、例えば、通信遅延時間が長くなるほど、圧縮率を高くして、データ量が削減されるようにしても良い。また、本実施形態では、例えば、通信遅延時間が長くなるほど、解像度を低くして、データ量が削減されるようにしても良い。

本実施形態のパラメータテーブル３６１では、通信遅延時間と、通信遅延時間に対応したデータ量の調整の仕方（増減のさせ方）と、が対応付けられていれば良い。

また、図６に示す通信遅延時間の設定の仕方は、一例であって、これに限定されない。例えば、パラメータテーブル３６１では、通信遅延時間が２秒を超えた場合にフレームレートを１ｆｐｓにしても良い。通信遅延時間と、フレームレートとの関係は、情報処理システム１００の管理者によって任意に設定されて良い。

次に、図７を参照して、本実施形態の情報処理システム１００の動作を説明する。図７は、第一の実施形態の情報処理システムの動作を説明するシーケンス図である。

本実施形態の情報処理システム１００において、集音部２１０は、音声データを取得すると、コンテンツ変換部２３０へ渡す（ステップＳ７０１）。また、入力部２２０とは、画像データや動画データを取得すると、コンテンツ変換部２３０へ渡す（ステップＳ７０２）。

コンテンツ変換部２３０は、これらのデータに対して、設定されたパラメータに応じてデータ形式の変換を行い（ステップＳ７０３）、送受信部２４０へ渡す（ステップＳ７０４）。

送受信部２４０は、画像データ、動画データ、音声データを含むコンテンツデータをサーバ装置３００へ送信する（ステップＳ７０５）。サーバ装置３００において、送受信部３３０は、コンテンツデータを受信すると、通信状態判定部３６０に対して、電子黒板２００からコンテンツデータを受信したことを通知する（ステップＳ７０６）。

また、送受信部２４０は、音声データを音声認識装置４００へ送信する（ステップＳ７０７）。

サーバ装置３００は、送受信部３３０がコンテンツデータを受信すると、コンテンツ格納部３４０へ渡し（ステップＳ７０８）、コンテンツデータベース３１０へ受信したコンテンツデータへ格納する（ステップＳ７０９）。

また、送受信部３３０は、音声認識装置４００から、音声データの認識結果のテキストデータを受信すると（ステップＳ７１０）、テキストデータをコンテンツ格納部３４０へ渡す（ステップＳ７１１）。コンテンツ格納部３４０は、このテキストデータをステップＳ７０５で受信したコンテンツデータと対応付けてコンテンツデータベース３１０へ格納する（ステップＳ７１２）。

また、コンテンツ格納部３４０は、音声認識装置４００からテキストデータを受信したことを通信状態判定部３６０へ通知する（ステップＳ７１３）。

通信状態判定部３６０は、ステップＳ７０６で通知を受けたタイミングから、ステップＳ７１３で通知を受けたタイミングまでの通信遅延時間を算出し、パラメータの値を変更するか否かを判定する（ステップＳ７１４）。

具体的には、通信状態判定部３６０は、コンテンツ変換部２３０において設定されているパラメータの値と、パラメータテーブル３６１において、通信遅延時間と対応するパラメータの値とが一致しない場合に、パラメータの値を変更するものと判定する。

パラメータの値が変更される場合とは、通信遅延時間が長くなり、ネットワークＮが混雑していると判定される場合や、通信遅延時間が短くなり、ネットワークＮの混雑が解消された場合等である。つまり、本実施形態のコンテンツ変換部２３０は、通信遅延時間に応じて、音声データ以外のコンテンツデータのデータ量を増減させる。

ステップＳ７１４において、パラメータの値を変更しない場合には、通信状態判定部３６０は、処理を終了する。また、パラメータの変更の値を変更する場合には、後述するステップＳ７２２へ処理に進む。

次に、コンテンツ格納部３４０は、音声認識装置４００からテキストデータを取得すると、コマンド抽出部３５０へテキストデータを渡す（ステップＳ７１５）。コマンド抽出部３５０は、テキストデータを受けて、コマンドデータベース３２０を参照し、テキストデータに電子黒板２００に対するコマンドが含まれるか否かを判定する（ステップＳ７１６）。

ステップＳ７１６でコマンドが含まれない場合には、コマンド抽出部３５０は、処理を終了する。

ステップＳ７１６でコマンドが含まれる場合、コマンド抽出部３５０は、コマンドを抽出し（ステップＳ７１７）、送受信部３３０へ渡す（ステップＳ７１８）。送受信部３３０は、電子黒板２００に対し、コマンドを送信する（ステップＳ７１９）。

電子黒板２００は、送受信部２４０によりコマンドを受信すると、送受信部２４０は、受信したコマンドをコマンド実行部２５０へ渡す（ステップＳ７２０）。コマンド実行部２５０は、コマンドを受けて、このコマンドが示す操作を実行し（ステップＳ７２１）、処理を終了する。

また、通信状態判定部３６０において、パラメータの値を変更するものと判定された場合、通信状態判定部３６０は、パラメータテーブル３６１を参照し、通信遅延時間と対応するパラメータの値を送受信部３３０へ渡す（ステップＳ７２２）。送受信部３３０は、このパラメータの値を、電子黒板２００へ送信する（ステップＳ７２３）。言い換えれば、本実施形態の送受信部３３０は、電子黒板２００に対し、音声データ以外のコンテンツデータのデータ量の調整指示を送信する。

電子黒板２００では、送受信部２４０は、パラメータの値を受信すると、コンテンツ変換部２３０に対してこのパラメータの値を渡す（ステップＳ７２４）。コンテンツ変換部２３０は、画像データ及び動画データの形式の変換の際に参照するパラメータの値を、送受信部２４０から渡されたパラメータの値に変更し（ステップＳ７２５）、処理を終了する。

尚、図７では、コマンド抽出部３５０の処理と、通信状態判定部３６０の処理とが、前後して行われるように記載されているが、これに限定されない。コマンド抽出部３５０の処理と、通信状態判定部３６０の処理とは、並行して実行されても良い。

以上のように、本実施形態では、通信遅延時間に応じて、電子黒板２００からサーバ装置３００に送信する音声データ以外のコンテンツデータのデータ量を調整することで、ネットワークＮの負荷を軽減させることができる。

言い換えれば、本実施形態によれば、通信遅延時間に応じて、電子黒板２００からサーバ装置３００に送信されるコンテンツデータのうち、音声データ以外のデータのデータ量を増減させる。

このため、本実施形態によれば、音声データを優先的に音声認識装置４００へ送信し、コマンドの抽出を行うことができ、音声操作に対する応答性を向上させることができる。

（第二の実施形態）
以下に、図面を参照して第二の実施形態について説明する。第二の実施形態では、通信状態判定部が電子黒板２００に設けられた点のみ、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

図８は、第二の実施形態の情報処理システムの有する各装置の機能を説明する図である。

本実施形態の情報処理システム１００Ａは、電子黒板２００Ａとサーバ装置３００Ａとを有する。

電子黒板２００Ａは、第一の実施形態の電子黒板２００の有する各部に加え、コマンドデータベース３２０、コマンド抽出部３５０、通信状態判定部３６０を有する。

また、本実施形態のサーバ装置３００Ａは、コンテンツデータベース３１０、送受信部３３０、コンテンツ格納部３４０を有する。

本実施形態の情報処理システム１００Ａでは、電子黒板２００Ａにおいて、音声データの音声認識結果であるテキストデータにおけるコマンドの有無を判定し、コマンドが存在する場合にはコマンドを抽出して実行する。

また、本実施形態の通信状態判定部３６０は、電子黒板２００Ａから音声認識装置４００へ音声データが送信されてから、音声認識結果のテキストデータを受信するまでの時間を通信遅延時間としても良い。

また、本維持の通信状態判定部３６０は、電子黒板２００Ａからサーバ装置３００Ａにコンテンツデータを送信し、サーバ装置３００Ａから格納が完了したことを示す通知を受信するまでの時間を通信遅延時間としても良い。

また、本実施形態の通信状態判定部３６０は、これらの時間の平均等を通信遅延時間としても良い。

以下に、図９を参照して、第二の実施形態の情報処理システム１００Ａの動作について説明する。図９は、第二の実施形態の情報処理システムの動作を説明するシーケンス図である。

図９のステップＳ９０１からステップＳ９０５までの処理は、図７のステップＳ７０１からステップＳ７０５までの処理と同様であるから、説明を省略する。

ステップＳ９０５に続いて、サーバ装置３００Ａは、送受信部３３０がコンテンツデータを受信すると、受信したコンテンツデータをコンテンツ格納部３４０へ渡す（ステップＳ９０６）。コンテンツ格納部３４０は、コンテンツデータを受けて、コンテンツデータベース３１０にコンテンツデータを格納し（ステップＳ９０７）、格納が完了したことを送受信部３３０へ通知する（ステップＳ９０８）。送受信部３３０は、この通知を電子黒板２００Ａに送信する（ステップＳ９０９）。

また、電子黒板２００Ａは、送受信部２４０により、集音部２１０が取得した音声データを音声認識装置４００へ送信する（ステップＳ９１０）。音声認識装置４００は、音声データを受信すると、音声認識を行い（ステップＳ９１１）、その結果のテキストデータを電子黒板２００Ａへ送信する（ステップＳ９１２）。

また、音声認識装置４００は、音声認識結果のテキストデータを、サーバ装置３００Ａに送信する（ステップＳ９１３）。サーバ装置３００Ａにおいて、送受信部３３０は、テキストデータを受信すると、受信したテキストデータをコンテンツ格納部３４０へ渡す（ステップＳ９１４）。コンテンツ格納部３４０は、このテキストデータをステップＳ９０７で格納されたコンテンツデータと対応付けて格納する（ステップＳ９１５）。

また、電子黒板２００Ａにおいて、送受信部２４０は、テキストデータを受信すると、受信したテキストデータをコマンド抽出部３５０へ渡す（ステップＳ９１６）。

コマンド抽出部３５０は、テキストデータを受け取ると、コマンドデータベース３２０を参照し、テキストデータに電子黒板２００Ａに対するコマンドが含まれるか否かを判定する（ステップＳ９１７）。コマンド抽出部３５０は、コマンドが含まれない場合は、処理を終了する。

コマンド抽出部３５０は、コマンドが含まれる場合には、コマンドを抽出し（ステップＳ９１８）、コマンド実行部２５０に渡す（ステップＳ９１９）。コマンド実行部２５０は、コマンドを受けて、このコマンドが示す操作内容を実行する（ステップＳ９２０）。

また、通信状態判定部３６０は、ステップＳ９０６におけるコンテンツデータの送信の通知から、ステップＳ９１０のコンテンツデータの格納の完了の通知を受けるまでの時間を通信遅延時間とし、パラメータの値を変更するか否かを判定する（ステップＳ９２１）尚、本実施形態では、送受信部２４０が音声データを音声認識装置４００に送信してから、テキストデータを受信するまでの時間を通信遅延時間としても良い。

ステップＳ９２１において、パラメータの値を変更しないと判定された場合には、通信状態判定部３６０は、処理を終了する。

ステップＳ９２１において、パラメータの値を変更すると判定された場合、通信状態判定部３６０は、パラメータテーブル３６１において、通信遅延時間と対応するパラメータの値をコンテンツ変換部２３０へ渡す（ステップＳ９２２）。コンテンツ変換部２３０は、通信状態判定部３６０から受けた値をパラメータの値を変更し（ステップＳ９２３）、処理を終了する。

以上のように、本実施形態では、電子黒板２００Ａに、コマンド抽出部３５０と通信状態判定部３６０を設けた。したがって、本実施形態によれは、サーバ装置３００Ａでは、コンテンツデータの格納のみを行えば良く、サーバ装置３００を単なる記憶装置とすることもできる。

（第三の実施形態）
以下に図面を参照して第三の実施形態について説明する。第三の実施形態は、電子黒板の集音部が集音した音声データにおいて、特定のワードが検出された場合には、そのワードを含む音声データを音声認識装置４００に送信する点が、第二の実施形態と相違する。よって、以下の第三の実施形態の説明では、第二の実施形態と同様の機能構成を有するものには、第二の実施形態の説明で用いた符号と同様の符号を付与しその説明を省略する。

図１０は、第三の実施形態の情報処理システムの各装置が有する機能を説明する図である。

本実施形態の情報処理システム１００Ｂは、電子黒板２００Ｂと、サーバ装置３００Ａと、を有する。本実施形態の電子黒板２００Ｂは、第二の実施形態の電子黒板２００Ａの有する各部に加え、特定ワード検出部２６０を有する。

本実施形態の特定ワード検出部２６０は、集音部２１０が集音した音声データに、特定のワードが含まれるか否かを検出する。

具体的には、本実施形態の特定ワード検出部２６０は、例えば、音声認識機能を有しており、音声認識機能によって、音声データから特定のワードを検出しても良い。また、本実施形態の特定ワード検出部２６０き、例えば、特定のワードを発音したときの波形データを保持しておき、集音部２１０が集音した音声データが示す波形データの中に、特定のワードと対応する波形が存在するか否かによって、特定のワードを検出しても良い。

本実施形態の特定のワードとは、例えば、電子黒板２００Ｂを示すワード等であり、音声操作が行われる合図として発せられる単語等である。したがって、本実施形態では、特定にワードが含まれる音声データには、電子黒板２００Ｂに対するコマンドが含まれる可能性が高くなる。

本実施形態では、音声データから特定のワードが検出されると、このワードを含む１文を示す音声データを、コンテンツデータに先立って、音声認識装置４００に送信し、コマンドが含まれるか否かを判定する。

以下に、図１１を参照して、本実施形態の情報処理システム１００Ｂの動作を説明する。図１１は、第三の実施形態の情報処理システムの動作を説明するシーケンス図である。

図１１のステップＳ１１０１からステップＳ１１０３までの処理は、図９のステップＳ９０１からステップＳ９０３までの処理と同様であるから、説明を省略する。

電子黒板２００Ｂにおいて、コンテンツ変換部２３０は、ステップＳ１１０３に続いて、音声データを特定ワード検出部２６０へ渡す（ステップＳ１１０４）。特定ワード検出部２６０は、音声データに、特定のワードか含まれるか否かを判定する（ステップＳ１１０５）。ステップＳ１１０５において、特定のワードが検出されない場合、特定ワード検出部２６０は、処理を終了し、電子黒板２００Ｂは、後述するステップＳ１１１０へ進む。

ステップＳ１１０５において、特定のワードが検出された場合、特定ワード検出部２６０は、特定のワードを含む一文と対応する音声データを送受信部２４０へ渡す（ステップＳ１１０６）。尚、このとき、特定ワード検出部２６０が送受信部２４０に渡す音声データは、一文に対応するものに限定されない。例えば、特定ワード検出部２６０は、特定のワードを含む一文と対応する音声データ前後の数秒文の音声データを送受信部２４０に渡しても良い。

送受信部２４０は、音声データを受け付けると、音声認識装置４００へ送信する（ステップＳ１１０７）。音声認識装置４００は、この音声データに対する音声認識を行い（ステップＳ１１０８）、その結果であるテキストデータを電子黒板２００Ｂへ送信する（ステップＳ１１０９）。

図１１のステップＳ１１１０からステップＳ１１２９までの処理は、図９のステップＳ９０４からステップＳ９２３までの処理と同様であるから、説明を省略する。

以上のように、本実施形態によれば、音声データに、音声操作を行う合図となる特定のワードが含まれる場合に、この特定のワードを含む一文と対応する音声データに音声認識を先に行う。本実施形態では、この処理により、電子黒板２００Ｂに対するコマンドが含まれる可能性が高い音声データを優先的に音声認識装置４００に送信し、音声認識を行うことができる。

また、本実施形態では、会話を示す音声データの一部として、特定のワードを含む音声データを抽出し、音声認識装置４００へ送信するため、データ量を削減することができ、ネットワークに対する負荷を削減できる。よって、本実施形態によれば、音声操作に対する応答性を向上させることができる。尚、本実施形態、第一の実施形態と組み合わせることも可能である。

以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。

１００、１００Ａ、１００Ｂ情報処理システム
２００、２００Ａ、２００Ｂ電子黒板
２１０集音部
２２０入力部
２３０コンテンツ変換部
２４０送受信部
２５０コマンド実行部
２６０特定ワード検出部
３００、３００Ａサーバ装置
３１０コンテンツデータベース
３２０コマンドデータベース
３３０送受信部
３４０コンテンツ格納部
３５０コマンド抽出部
３６０通信状態判定部
３６１パラメータテーブル
５００記憶部

特開２０１４−２９９２２号公報

Claims

音声データを含むコンテンツデータの送受信を行う複数の装置を有する情報処理システムであって、
前記複数の装置の間の通信にかかる通信遅延時間に基づき、前記コンテンツデータのデータ量を変更するか否かを判定する通信状態判定部と、
前記通信遅延時間に基づき、前記コンテンツデータのうち、前記音声データ以外のデータのデータ量を調整するコンテンツ変換部と、
前記音声データを音声認識装置に送信し、前記音声認識装置から、前記音声データに対する音声認識結果であるテキストデータを受信する送受信部と、
前記音声データに特定のワードが含まれるか否かを判定する特定ワード検出部と、を有し、
前記特定ワード検出部は、
前記ワードを含む所定の長さの音声データを前記送受信部によって、前記音声認識装置に送信する、情報処理システム。
前記音声データ以外のデータは、動画データを含む画像データであって、
前記コンテンツ変換部は、
前記動画データのフレームレート、解像度、圧縮率の少なくとも何れか１つを変更して、前記データ量を調整する、請求項１記載の情報処理システム。
前記音声データを前記音声認識装置に送信し、前記音声認識装置から、前記音声データに対する音声認識結果であるテキストデータを受信する送受信部と、
前記複数の装置のうち、一の装置に対するコマンドが格納された記憶部を参照し、前記テキストデータから、前記一の装置に対する操作内容を含むコマンドを抽出するコマンド抽出部と、
前記コマンドを前記一の装置に実行させるコマンド実行部と、を有する、請求項１又は２記載の情報処理システム。
前記通信状態判定部は、
前記通信遅延時間と、前記データ量の変更の仕方と、を対応付けたテーブルを有し、
前記テーブルを参照して、前記コンテンツ変換部に対して前記データ量を調整させる、請求項３記載の情報処理システム。
前記特定のワードは、
前記複数の装置のうち、一の装置に対するコマンドの送信の合図として予め決められたワードである、請求項１乃至４の何れか一項に記載の情報処理システム。
集音装置を有する外部装置と、前記集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置であって、
前記外部装置との通信にかかる通信遅延時間に基づき、前記コンテンツデータのデータ量を変更するか否かを判定する通信状態判定部と、
前記通信遅延時間に基づき、前記コンテンツデータのうち、前記音声データ以外のデータのデータ量の調整指示を前記集音装置に送信する送受信部と、を有し、
前記通信遅延時間は、
前記外部装置が特定のワードを含む所定の長さの音声データを音声認識装置に送信してから、前記外部装置が前記音声認識装置からテキストデータを受信するまでの時間である、情報処理装置。
集音装置を有し、前記集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置であって、
外部装置との通信にかかる通信遅延時間に基づき、前記コンテンツデータのデータ量を変更するか否かを判定する通信状態判定部と、
前記通信遅延時間に基づき、前記コンテンツデータのうち、前記音声データ以外のデータのデータ量の調整を行うコンテンツ変換部と、
前記音声データを音声認識装置に送信し、前記音声認識装置から、前記音声データに対する音声認識結果であるテキストデータを受信する送受信部と、
前記音声データに特定のワードが含まれるか否かを判定する特定ワード検出部と、を有し、
前記特定ワード検出部は、
前記ワードを含む所定の長さの音声データを前記送受信部によって、前記音声認識装置に送信する、情報処理装置。
集音装置を有する外部装置と、前記集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置により実行される情報処理プログラムであって、
前記外部装置との通信にかかる通信遅延時間に基づき、前記コンテンツデータのデータ量を変更するか否かを判定する処理と、
前記通信遅延時間に基づき、前記コンテンツデータのうち、前記音声データ以外のデータのデータ量の調整指示を前記集音装置に送信する処理と、を前記情報処理装置に実行させ、
前記通信遅延時間は、
前記外部装置が特定のワードを含む所定の長さの音声データを音声認識装置に送信してから、前記外部装置が前記音声認識装置からテキストデータを受信するまでの時間である、情報処理プログラム。
集音装置を有し、前記集音装置により集音した音声データを含むコンテンツデータの送受信を行う情報処理装置により実行される情報処理プログラムであって、
外部装置との通信にかかる通信遅延時間に基づき、前記コンテンツデータのデータ量を変更するか否かを判定する処理と、
前記通信遅延時間に基づき、前記コンテンツデータのうち、前記音声データ以外のデータのデータ量の調整を行う処理と、
前記音声データを音声認識装置に送信し、前記音声認識装置から、前記音声データに対する音声認識結果であるテキストデータを受信する送受信処理と、
前記音声データに特定のワードが含まれるか否かを判定する処理と、を前記情報処理装置に実行させ、
前記送受信処理は、
前記ワードを含む所定の長さの音声データを、前記音声認識装置に送信する、情報処理プログラム。
音声データを含むコンテンツデータの送受信を行う複数の装置を有する情報処理システムによる情報処理方法であって、
前記複数の装置の間の通信にかかる通信遅延時間に基づき、前記コンテンツデータのデータ量を変更するか否かを判定する手順と、
前記通信遅延時間に基づき、前記コンテンツデータのうち、前記音声データ以外のデータのデータ量を調整する手順と、
送受信部により、前記音声データを音声認識装置に送信し、前記音声認識装置から、前記音声データに対する音声認識結果であるテキストデータを受信する手順と、
前記音声データに特定のワードが含まれるか否かを判定する手順と、を有し、
前記ワードを含む所定の長さの音声データを前記送受信部によって、前記音声認識装置に送信する、情報処理方法。