JP6556473B2

JP6556473B2 - 送信装置、音声認識システム、送信方法、およびプログラム

Info

Publication number: JP6556473B2
Application number: JP2015049866A
Authority: JP
Inventors: 上野　晃嗣; 晃嗣上野; 翔子宮森; 舘森　三慶; 三慶舘森
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2019-08-07
Anticipated expiration: 2035-03-12
Also published as: JP2016170272A; US20160267918A1

Description

本発明の実施形態は、送信装置、音声認識システム、送信方法、およびプログラムに関する。

マイクなどから入力された音データを、ネットワークを介して音声認識装置へ送信する送信装置が知られている。音声認識装置側でリアルタイムに音声認識を行うために、送信装置から音声認識装置へリアルタイムに音データを送信する技術が開示されている。

例えば、特許文献１には、最初の発話を転送した際におこなわれた帯域制御上の情報を用いて、二回目以降の発話の符号化ビットレートを変更する技術が開示されている。この技術によれば、二回目以降の発話のリアルタイム転送を実現することができる。また、特許文献２には、ネットワークの帯域や輻輳状態に応じて、音声符号化方式のビットレートを高ビットレートから低ビットレートなどに切り替える技術が開示されている。

特開２００３−１９５８８０号公報特開２００２−２９０４３６号公報

しかしながら、特許文献１の技術では、１回目の発話などの音データを音声認識装置へリアルタイムに送信することができなかった。また、特許文献２の技術では、ネットワークの帯域に応じてビットレートを低下させるため、高精度に音声認識可能な音データを送信することは出来なかった。すなわち、従来では、高精度に音声認識可能な音データをリアルタイムに音声認識装置へ送信することは困難であった。

本発明が解決しようとする課題は、高精度に音声認識可能な音データをリアルタイムに音声認識装置へ送信することができる、送信装置、音声認識システム、送信方法、およびプログラムを提供することである。

実施の形態の送信装置は、取得部と、第１符号化部と、第２符号化部と、第１判断部と、第１制御部と、第１送信部と、を備える。取得部は、音データを取得する。第１符号化部は、前記音データを第１のビットレートで符号化可能である。第２符号化部は、前記音データを、前記第１のビットレートより低い第２のビットレートで符号化可能である。第１判断部は、輻輳制御されたネットワークの帯域が前記第１のビットレートを超えたか否かを判断する。第１制御部は、前記ネットワークの帯域が前記第１のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第２符号化部から前記第１符号化部に切替える。第１送信部は、前記第１符号化部または前記第２符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する。前記第１制御部は、取得した前記音データの出力先を前記第２符号化部から前記第１符号化部に切替えた後に、前記ネットワークの帯域が前記第１のビットレート以下と判断された場合、該出力先を前記第１符号化部に切替えた状態で維持する。

送信装置の一例を示すブロック図。フレームの一例を示す図。送信処理の手順の一例を示すフローチャート。送信装置の一例を示すブロック図。送信処理の手順の一例を示すフローチャート。送信装置の一例を示すブロック図。音声認識システムの一例を示すブロック図。音データのデータ構成の一例を示す図。フレームの一例を示す図。割り込み処理の手順の一例を示すフローチャート。音声認識処理の手順の一例を示すフローチャート。ハードウェア構成例を示すブロック図。

以下に添付図面を参照して、送信装置、音声認識システム、送信方法、およびプログラムの実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、本実施の形態の送信装置１０の一例を示すブロック図である。

送信装置１０は、音声認識装置１２にネットワーク４０を介して接続されている。ネットワーク４０は、輻輳制御されたネットワークである。ネットワーク４０は、輻輳制御アルゴリズムを含む通信プロトコルを用いる。この通信プロトコルは、例えば、ＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）である。

送信装置１０は、符号化した音データを、ネットワーク４０を介して音声認識装置１２へ送信する。音声認識装置１２は、受信した音データを符号化し、音データに含まれる音声の認識（音声認識）を行う。音声認識装置１２は、音声認識を行う公知の装置であればよい。

送信装置１０は、入力部１４と、ＵＩ部１６と、制御部１８と、を備える。制御部１８と、入力部１４およびＵＩ部１６と、はデータや信号授受可能に接続されている。

入力部１４は、外部から音を受け付けて音データに変換し、制御部１８へ出力する。入力部１４は、例えば、マイクロホンである。

本実施の形態では、送信装置１０が携帯端末であると仮定して説明する。この場合、入力部１４は、携帯端末である送信装置１０に付属のマイクロホンであってもよい。なお、入力部１４は、受付けた音を音データに変換する機能を有するハードウェアまたはソフトウェアであればよく、マイクロホンに限定されない。

本実施の形態では、音は、音声を含む。すなわち、入力部１４は、音声データを含む音データを、制御部１８へ出力する。

ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）部１６は、表示部１６Ａと、操作部１６Ｂと、を含む。表示部１６Ａは、各種画像を表示する装置である。表示部１６Ａは、液晶や有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）等の公知の表示装置である。

操作部１６Ｂは、ユーザからの各種操作を受け付ける。操作部１６Ｂは、例えば、マウス、ボタン、リモコン、およびキーボードの１または複数を組み合せたものである。操作部１６Ｂは、ユーザからの各種操作を受け付けると、受け付けた各種操作に応じた指示信号を制御部１８へ出力する。

表示部１６Ａおよび操作部１６Ｂは、一体的に構成されていてもよい。具体的には、表示部１６Ａおよび操作部１６Ｂは、操作受付機能、および表示機能の双方を備えたＵＩ部１６として構成されていてもよい。ＵＩ部１６には、タッチパネル付ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などがある。

制御部１８は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などを含んで構成されるコンピュータであり、送信装置１０全体を制御する。なお、制御部１８は、ＣＰＵに限定されず、回路などで構成してもよい。

制御部１８は、取得部１８Ａと、第１切替部１８Ｂと、第１制御部１８Ｃと、第１符号化部１８Ｄと、第２符号化部１８Ｅと、第１送信部１８Ｆと、第１判断部１８Ｇと、を備える。取得部１８Ａ、第１切替部１８Ｂ、第１制御部１８Ｃ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部１８Ｆ、および第１判断部１８Ｇの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

取得部１８Ａは、入力部１４から音データを取得する。入力部１４は、音が入力されると、音の音データを順次取得部１８Ａへ出力する。取得部１８Ａは、入力部１４から、音データを取得する。

第１符号化部１８Ｄは、音データを第１のビットレートで符号化可能である。第１のビットレートは、符号化された音データの送信先である音声認識装置１２で、高精度に音声認識可能なビットレート以上の値であればよい。このため、第１のビットレートの値は、送信先の音声認識装置１２の音声認識性能などに応じて、予め定めればよい。

第１符号化部１８Ｄは、公知の符号化アルゴリズムを用いて、音データを符号化する。具体的には、第１符号化部１８Ｄは、音データを、音声認識装置１２側で高精度に音声認識可能な形式に符号化する。

例えば、第１符号化部１８Ｄは、可逆圧縮アルゴリズムや、低圧縮の不可逆圧縮アルゴリズムなどを用いて、音データを符号化する。可逆圧縮アルゴリズムは、例えば、ＦＬＡＣ（ＦｒｅｅＬｏｓｓｌｅｓｓＡｕｄｉｏＣｏｄｅｃ）などであるが、これに限定されない。なお、第１符号化部１８Ｄは、音データを無圧縮で（符号化せずに）そのままの形式で、符号化した音データとして出力してもよい。

また、第１符号化部１８Ｄは、音データに含まれる特徴量の全てを符号化してもよい。本実施の形態では、特徴量は、音声認識装置１２で音声認識に用いる特徴量である。具体的には、特徴量とは、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）などを示す。

本実施の形態では、一例として、第１のビットレートは、２５６ｋｂｐｓである場合を説明する。なお、第１のビットレートは、この値に限定されない。

第２符号化部１８Ｅは、音データを、第１のビットレートより低い第２のビットレートで符号化可能である。

第２のビットレートは、第１のビットレートより低い値であればよい。なお、第２のビットレートは、ＴＣＰにおけるスロースタート段階のウィンドウサイズ以下であることが好ましい。すなわち、第２符号化部１８Ｅは、スロースタートのような輻輳制御がかかっている状態であっても、音声認識装置１２へリアルタイム転送可能なビットレートに音データを符号化する。

第２符号化部１８Ｅは、例えば、Ｓｐｅｅｘアルゴリズムなどを用いて、音データを第２のビットレートに符号化する。

また、第２符号化部１８Ｅは、音データを、音声認識装置１２における音声認識に必要な特徴量の一部に符号化してもよい。特徴量は、上述したため、ここでは説明を省略する。

なお、第２のビットレートは、固定値であってもよいし、可変であってもよい。第２のビットレートが可変である場合、第２符号化部１８Ｅは、可変ビットレート形式で符号化を行えばよい。この場合、ネットワーク４０の帯域が第１のビットレートを超えるまでの期間、第２のビットレートを連続的または段階的に増加させてもよい。

本実施の形態では、一例として、第２のビットレートは、８ｋｂｐｓである場合を説明する。なお、第２のビットレートは、この値に限定されない。

第１送信部１８Ｆは、第１符号化部１８Ｄまたは第２符号化部１８Ｅによって符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。第１送信部１８Ｆは、符号化された音データを、適切な転送単位ごとに音声認識装置１２へ送信する。転送単位は、フレームと称される場合がある。

図２は、フレームの一例を示す図である。例えば、図２に示すように、フレームは、フレームサイズの値と、ビットレートの値と、音データと、を含む。フレームサイズの値は、固定長で表される。ビットレートの値も、固定長で表される。音データは、可変長である。フレームに含まれるビットレートの値は、対応する音データの符号化後のビットレートの値を示す。

図１に戻り、第１判断部１８Ｇは、ネットワーク４０の帯域が第１のビットレートを超えたか否かを判断する。すなわち、第１判断部１８Ｇは、現在のネットワーク４０の帯域が、第１のビットレートを超えたか否かを判断する。

第１判断部１８Ｇは、例えば、第１送信部１８Ｆが音声認識装置１２へ送信する単位時間（１秒）当たりの送信データ量が、第１のビットレートを超えたか否かを判別する。この判別により、第１判断部１８Ｇは、現在のネットワーク４０の帯域が第１のビットレートを超えたか否かを判断する。

本実施の形態では、一例として、第１のビットレートが２５６ｋｂｐｓである場合を想定している。このため、第１判断部１８Ｇは、第１送信部１８Ｆによる、現在の単位時間当たりの送信データ量が２５６ｋｂｐｓを超えたか否かを判別することで、ネットワーク４０の帯域が第１のビットレートを超えたか否かを判断する。

なお、第１判断部１８Ｇは、他の方法を用いて、ネットワーク４０の帯域が第１のビットレートを超えたか否かを判断してもよい。

例えば、第１判断部１８Ｇは、第１送信部１８Ｆが行うネットワーク通信から、現在のネットワーク４０の帯域を取得する。そして、第１判断部１８Ｇは、取得した、現在のネットワーク４０の帯域が第１のビットレートを超えたか否かを判断してもよい。なお、現在のネットワーク４０の帯域は、例えば、ＴＣＰにおいては、現在のウィンドウサイズと、往復遅延時間（ＲＴＴ：ＲｏｕｎｄＴｒｉｐＴｉｍｅ）と、から公知の手法により計算可能である。

第１切替部１８Ｂは、取得部１８Ａの出力先を、第１符号化部１８Ｄまたは第２符号化部１８Ｅに切替えるスイッチである。第１切替部１８Ｂは、第１制御部１８Ｃによって制御される。

第１制御部１８Ｃは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合に、取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える。

具体的には、第１制御部１８Ｃは、初期状態では、取得部１８Ａの音データの出力先を第２符号化部１８Ｅに切替えるように第１切替部１８Ｂを制御する。初期状態とは、制御部１８で符号化データの送信処理を実行するためのアプリケーションを起動した直後の状態である。

このため、起動してから、第１判断部１８Ｇによってネットワーク４０の帯域が第１のビットレートを超えたと判断されるまでの期間（以下、第１期間とする）、第１切替部１８Ｂは、取得部１８Ａの出力先を第２符号化部１８Ｅとした状態となっている。すなわち、この第１期間は、第１送信部１８Ｆは、第２符号化部１８Ｅによって符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

そして、第１制御部１８Ｃは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合に、取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える。このため、ネットワーク４０の帯域が第１のビットレートを超えた後は、第１送信部１８Ｆは、第１符号化部１８Ｄによって符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

なお、取得部１８Ａで取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替えた後に、ネットワーク４０の帯域が第１のビットレート以下と判断される場合がある。この場合であっても、第１制御部１８Ｃは、取得部１８Ａの出力先を第１符号化部１８Ｄに切替えた状態で維持することが好ましい。

すなわち、第１制御部１８Ｃは、当該送信装置１０が起動してからネットワーク４０の帯域が第１のビットレートを超えたと判断されるまでの第１期間に取得した音データの出力先を、第２符号化部１８Ｅとした状態を維持する。そして、第１制御部１８Ｃは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された後の第２期間に取得した音データの出力先を、第１符号化部１８Ｄとした状態を維持する。

次に、送信装置１０で実行する送信処理の手順を説明する。図３は、送信装置１０が実行する送信処理の手順の一例を示すフローチャートである。

まず、ユーザによるＵＩ部１６の操作により、音データの送信処理を実行するための送信プログラムの実行が指示される。ＣＰＵがＲＯＭなどの記憶媒体から送信処理を実行するためのプログラムを読み出して実行することにより、取得部１８Ａ、第１切替部１８Ｂ、第１制御部１８Ｃ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部１８Ｆ、および第１判断部１８Ｇが主記憶装置上にロードされる。

まず、第１制御部１８Ｃが、取得部１８Ａの出力先を第２符号化部１８Ｅに切替える（ステップＳ１００）。なお、起動時に、取得部１８Ａの出力先が第２符号化部１８Ｅに切替えられていた場合、ステップＳ１００の処理を省略することができる。

次に、取得部１８Ａが、入力部１４から音データの取得を開始する（ステップＳ１０２）。具体的には、入力部１４が、入力された音データを取得部１８Ａへ出力する。取得部１８Ａは、入力部１４から音データを取得する。上記ステップＳ１００の処理によって、取得部１８Ａの出力先は第２符号化部１８Ｅに切替えられている。このため、取得部１８Ａは、取得した音データを第２符号化部１８Ｅへ出力する。

次に、第２符号化部１８Ｅが、取得部１８Ａから取得した音データを符号化する（ステップＳ１０４）。第１送信部１８Ｆは、第２符号化部１８Ｅで符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する（ステップＳ１０６）。

次に、第１判断部１８Ｇが、ネットワーク４０の帯域が第１のビットレートを超えたか否かを判断する（ステップＳ１０８）。帯域が第１のビットレート以下である場合（ステップＳ１０８：Ｎｏ）、上記ステップＳ１０４へ戻る。

一方、第１判断部１８Ｇが、ネットワーク４０の帯域が第１のビットレートを超えたと判断すると（ステップＳ１０８：Ｙｅｓ）、ステップＳ１１０へ進む。

ステップＳ１１０では、第１制御部１８Ｃが、取得部１８Ａの取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える（ステップＳ１１０）。ステップＳ１１０の処理によって、取得部１８Ａの出力先は、第１符号化部１８Ｄに切替えられる。このため、ステップＳ１１０以降では、取得部１８Ａは、第１符号化部１８Ｄに音データを出力する。

第１符号化部１８Ｄは、取得部１８Ａから取得した音データを符号化する（ステップＳ１１２）。第１送信部１８Ｆは、第１符号化部１８Ｄで符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する（ステップＳ１１４）。

次に、制御部１８は、送信処理を終了するか否かを判断する（ステップＳ１１６）。例えば、制御部１８は、ＵＩ部１６から送信処理の終了を示す終了信号を受け付けたか否かを判別することで、ステップＳ１１６の判断を行う。ＵＩ部１６は、ユーザによるＵＩ部１６の操作指示によって、送信処理の終了を示す操作指示を受付けたときに、終了信号を制御部１８へ出力すればよい。

制御部１８が、送信処理を終了しないと判断すると（ステップＳ１１６：Ｎｏ）、上記ステップＳ１１２へ戻る。一方、制御部１８が、送信処理を終了すると判断すると（ステップＳ１１６：Ｙｅｓ）、本ルーチンを終了する。

以上説明したように、本実施の形態の送信装置１０は、取得部１８Ａと、第１符号化部１８Ｄと、第２符号化部１８Ｅと、第１送信部１８Ｆと、第１判断部１８Ｇと、第１制御部１８Ｃと、を備える。

取得部１８Ａは、音データを取得する。第１符号化部１８Ｄは、音データを第１のビットレートで符号化可能である。第２符号化部１８Ｅは、音データを、第１のビットレートより低い第２のビットレートで符号化可能である。第１判断部１８Ｇは、輻輳制御されたネットワーク４０の帯域が第１のビットレートを超えたか否かを判断する。第１制御部１８Ｃは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合に、取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える。第１送信部１８Ｆは、第１符号化部１８Ｄまたは第２符号化部１８Ｅによって符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

このように、本実施の形態では、送信装置１０は、第１符号化部１８Ｄより低い第２のビットレートで符号化可能な第２符号化部１８Ｅで符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。そして、送信装置１０は、ネットワーク４０の帯域が第１のビットレートを超えたと判断した場合に、第２符号化部１８Ｅより高い第１のビットレートで符号化可能な第１符号化部１８Ｄで符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

このため、取得部１８Ａが取得する音データに、音声の音声データが含まれていない場合であっても、符号化された音データの音声認識装置１２への送信が開始される。

ここで、ユーザによるＵＩ部１６の操作指示により、制御部１８における送信処理プログラムが起動し、ユーザが「はい」という発声を行う場合を考える。この場合、例えば、送信処理プログラムを実行することにより、制御部１８は、ＵＩ部１６に「これで宜しいですか？」といった問いかけの文章を表示する。ユーザは、この問いかけに対して、「はい」という発声を行う場合を考える。

この場合、ユーザが「はい」という発声を行う前のタイミングであっても、送信装置１０は、第２符号化部１８Ｅで符号化された音データを、ネットワーク４０へ介して音声認識装置１２へ送信する。すなわち、送信装置１０は、ユーザによる発声を待たずに、符号化された音データの音声認識装置１２への送信を開始する。

そして、送信装置１０は、ネットワーク４０の帯域が第１のビットレートを超えたときに、第１のビットレートで符号化可能な第１符号化部１８Ｄで符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

このため、本実施の形態の送信装置１０では、ユーザの音声が入力部１４に入力されるまでの間に、ネットワーク４０の帯域を、音声認識装置１２側で高精度に音声認識を行うために必要なビットレート（第１のビットレート）以上とすることができる。

すなわち、本実施の形態の送信装置１０では、送信装置１０で送信処理プログラムを起動した後に、ユーザが最初に発した音声を含む音データであって、且つ、高精度に音声認識可能な音データを、リアルタイムに音声認識装置１２へ送信することができる。

従って、本実施の形態の送信装置１０は、高精度に音声認識可能な音データをリアルタイムに音声認識装置１２へ送信することができる。

なお、本実施の形態では、リアルタイムに送信、とは、送信する音データのデータレートが、ネットワーク４０の帯域未満であることを示す。

具体的には、ネットワーク４０の帯域を超えるデータレートで音データを送信すると、帯域を超えた分の音データは、送信装置１０側のバッファに溜まっていくこととなる。例えば、ネットワーク４０の帯域が６４ｋｂｐｓであるときに、１２８ｋｂｐｓの音データを送信すると、差分である６４キロビットのデータが毎秒バッファに残る。この状態では、経過時間に応じて遅延が増加する。この状態が１０秒続くと、６４０キロビットのデータがバッファに残ることとなる。これは、５秒分の遅延が発生していることを示す（６４０／１２８＝５（秒））。一方、リアルタイムの送信が実現されている状態では、音声認識装置１２では、リアルタイムな音声認識が可能となる。

（第２の実施の形態）
本実施の形態では、音データから、音声区間の開始を判断する第２判断部を更に備えた構成を説明する。

図４は、本実施の形態の送信装置１０Ａの一例を示すブロック図である。

送信装置１０Ａは、音声認識装置１２にネットワーク４０を介して接続されている。音声認識装置１２およびネットワーク４０は、第１の実施の形態と同様である。

送信装置１０Ａは、符号化した音データを、ネットワーク４０を介して音声認識装置１２へ送信する。送信装置１０Ａは、入力部１４と、ＵＩ部１６と、制御部２０と、を備える。制御部２０と、入力部１４およびＵＩ部１６と、はデータや信号授受可能に接続されている。入力部１４およびＵＩ部１６は、第１の実施の形態と同様である。

制御部２０は、ＣＰＵなどを含んで構成されるコンピュータであり、送信装置１０Ａ全体を制御する。なお、制御部２０は、ＣＰＵに限定されず、回路などで構成してもよい。

制御部２０は、取得部１８Ａと、第１切替部１８Ｂと、第２判断部２０Ｂと、第１制御部２０Ｃと、第１符号化部１８Ｄと、第２符号化部１８Ｅと、第１送信部１８Ｆと、第１判断部１８Ｇと、を備える。取得部１８Ａ、第１切替部１８Ｂ、第２判断部２０Ｂ、第１制御部２０Ｃ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部１８Ｆ、および第１判断部１８Ｇの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

取得部１８Ａ、第１切替部１８Ｂ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部１８Ｆ、および第１判断部１８Ｇは、第１の実施の形態と同様である。

第２判断部２０Ｂは、取得部１８Ａが取得した音データから、音声区間の開始を判断する。第２判断部２０Ｂは、公知の方法を用いて、音データに含まれる、音声区間の開始を判断すればよい。なお、第２判断部２０Ｂは、音声区間の開始の判断方法として知られている様々な方法のうち、処理負荷が比較的低い方法を採用することが好ましい。

例えば、第２判断部２０Ｂは、入力信号のパワーを閾値と比較することで音声区間の開始を検出する方法、などを用いる。詳細には、第２判断部２０Ｂは、ユーザによる音声の値を音圧とし、既定圧以上の音圧が入力部１４に入力されたときを、音声区間の開始とする。規定圧は、例えば、送信装置１０Ａの入力部１４にユーザが口を近づけた状態で、通常の声量で発声した場合の、音圧とすればよい。

本実施の形態では、第１の実施の形態の第１制御部１８Ｃに代えて、第１制御部２０Ｃを備える。第１制御部２０Ｃは、第１切替部１８Ｂの切替えを制御する。

具体的には、第１制御部２０Ｃは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得部１８Ａで取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える。

具体的には、第１制御部２０Ｃは、初期状態では、取得部１８Ａの音データの出力先を第２符号化部１８Ｅに切替えるように第１切替部１８Ｂを制御する。初期状態の定義は、第１の実施の形態と同様である。

このため、起動してから、第１判断部１８Ｇによってネットワーク４０の帯域が第１のビットレートを超えたと判断されるまで、または、第２判断部２０Ｂによって音声区間が開始したと判断されるまでの期間（以下、第２期間とする）、第１切替部１８Ｂは、取得部１８Ａの出力先を第２符号化部１８Ｅとした状態となっている。すなわち、この第２期間は、第１送信部１８Ｆは、第２符号化部１８Ｅによって符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

そして、第１制御部２０Ｃは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える。

このため、ネットワーク４０の帯域が第１のビットレートを超えた後、または、取得部１８Ａで取得した音データから音声区間の開始が判断された後は、第１送信部１８Ｆは、第１符号化部１８Ｄによって符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

なお、取得部１８Ａで取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替えた後に、ネットワーク４０の帯域が第１のビットレート以下と判断される場合がある。この場合であっても、第１制御部２０Ｃは、取得部１８Ａの出力先を第１符号化部１８Ｄに切替えた状態で維持することが好ましい。

また、取得部１８Ａで取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替えた後に、音声区間の終端が判断、または次の新たな音声区間の開始が判断される場合がある。この場合であっても、第１制御部２０Ｃは、取得部１８Ａの出力先を第１符号化部１８Ｄに切替えた状態で維持することが好ましい。

次に、本実施の形態の送信装置１０Ａで実行する送信処理の手順を説明する。図５は、本実施の形態の送信装置１０Ａで実行する送信処理の手順の一例を示す、フローチャートである。

まず、ユーザによるＵＩ部１６の操作により、音データの送信処理を実行するための送信プログラムの実行が指示される。ＣＰＵがＲＯＭなどの記憶媒体から送信処理を実行するためのプログラムを読み出して実行することにより、取得部１８Ａ、第１切替部１８Ｂ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部１８Ｆ、第１判断部１８Ｇ、第２判断部２０Ｂ、および第１制御部２０Ｃが主記憶装置上にロードされる。

まず、第１制御部２０Ｃが、取得部１８Ａの出力先を第２符号化部１８Ｅに切替える（ステップＳ２００）。なお、起動時に、取得部１８Ａの出力先が第２符号化部１８Ｅに切替えられていた場合、ステップＳ２００の処理を省略することができる。

次に、取得部１８Ａが、入力部１４から音データの取得を開始する（ステップＳ２０２）。上記ステップＳ２００の処理によって、取得部１８Ａの出力先は第２符号化部１８Ｅに切替えられている。このため、取得部１８Ａは、取得した音データを第２符号化部１８Ｅへ出力する。

次に、第２符号化部１８Ｅが、取得部１８Ａから取得した音データを符号化する（ステップＳ２０４）。第１送信部１８Ｆは、第２符号化部１８Ｅで符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する（ステップＳ２０６）。

次に、第１判断部１８Ｇおよび第２判断部２０Ｂの各々が、ネットワーク４０の帯域が第１のビットレートを超えたか、または、音声区間の開始を判断したか、を判断する（ステップＳ２０８）。

ネットワーク４０の帯域が第１のビットレート以下であり、且つ、音声区間の開始が判断されない場合（ステップＳ２０８：Ｎｏ）、上記ステップＳ２０４へ戻る。

一方、ネットワーク４０の帯域が第１のビットレートを超えた場合、または、音声区間の開始を判断した場合（ステップＳ２０８：Ｙｅｓ）、ステップＳ２１０へ進む。

ステップＳ２１０では、第１制御部２０Ｃが、取得部１８Ａの取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える（ステップＳ２１０）。ステップＳ２１０の処理によって、取得部１８Ａの出力先は、第１符号化部１８Ｄに切替えられる。このため、ステップＳ２１０以降では、取得部１８Ａは、第１符号化部１８Ｄに音データを出力する。

第１符号化部１８Ｄは、取得部１８Ａから取得した音データを符号化する（ステップＳ２１２）。第１送信部１８Ｆは、第１符号化部１８Ｄで符号化された音データを、ネットワーク４０を介して音声認識装置１２へ送信する（ステップＳ２１４）。

次に、制御部２０は、送信処理を終了するか否かを判断する（ステップＳ２１６）。ステップＳ２１６の判断は、第１の実施の形態のステップＳ１１６と同様にすればよい。

制御部２０が、送信処理を終了しないと判断すると（ステップＳ２１６：Ｎｏ）、上記ステップＳ２１２へ戻る。一方、制御部２０が、送信処理を終了すると判断すると（ステップＳ２１６：Ｙｅｓ）、本ルーチンを終了する。

以上説明したように、本実施の形態の送信装置１０Ａは、取得部１８Ａと、第１符号化部１８Ｄと、第２符号化部１８Ｅと、第１送信部１８Ｆと、第１判断部１８Ｇと、第１制御部２０Ｃと、第２判断部２０Ｂと、を備える。

第２判断部２０Ｂは、取得部１８Ａが取得した音データから、音声区間の開始を判断する。第１制御部２０Ｃは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える。

このように、本実施の形態の送信装置１０Ａでは、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得した音データの出力先を第２符号化部１８Ｅから第１符号化部１８Ｄに切替える。

このように、本実施の形態の送信装置１０Ａでは、ネットワーク４０の帯域が第１のビットレート以下である場合であっても、音声区間の開始が判断された場合には、第１符号化部１８Ｄで音データの符号化を行う。そして、送信装置１０Ａでは、第１符号化部１８Ｄで符号化した音データを、ネットワーク４０を介して音声認識装置１２へ送信する。

このため、本実施の形態の送信装置１０Ａでは、ネットワーク４０の帯域が第１のビットレートに到達する前に、ユーザによる発声が開始された場合であっても、該発声の音声データを含む音データを、高精度に音声認識を行うことの可能な形式で音声認識装置１２へ送信することができる。また、本実施の形態の送信装置１０Ａでは、ユーザによる発声と同時にネットワーク転送を開始する場合に比べて、ネットワーク４０の帯域が拡大されている。このため、音声認識装置１２への送信の遅延を抑制することができる。

従って、本実施の形態の送信装置１０Ａでは、第１の実施の形態の送信装置１０で得られる効果に加えて、更に、送信処理プログラム起動後のユーザによる最初の発声による音声データを含む音データを、高精度に音声認識を行うことの可能な形式で、音声認識装置１２へ送信することができる。このため、本実施の形態の送信装置１０Ａは、更に高精度に、音声認識可能な音データを音声認識装置１２へ送信することができる。

（第３の実施の形態）
本実施の形態では、第２制御部を更に備えた構成を説明する。

図６は、本実施の形態の送信装置１０Ｂの一例を示すブロック図である。

送信装置１０Ｂは、音声認識装置１２にネットワーク４０を介して接続されている。音声認識装置１２およびネットワーク４０は、第１の実施の形態と同様である。

送信装置１０Ｂは、符号化した音データを、ネットワーク４０を介して音声認識装置１２へ送信する。送信装置１０Ｂは、入力部１４と、ＵＩ部１６と、制御部２２と、を備える。制御部２２と、入力部１４およびＵＩ部１６と、はデータや信号授受可能に接続されている。入力部１４およびＵＩ部１６は、第１の実施の形態と同様である。

制御部２２は、ＣＰＵなどを含んで構成されるコンピュータであり、送信装置１０Ｂ全体を制御する。なお、制御部２２は、ＣＰＵに限定されず、回路などで構成してもよい。

制御部２２は、取得部１８Ａと、第１切替部１８Ｂと、第２判断部２２Ｂと、第１制御部２０Ｃと、第１符号化部１８Ｄと、第２符号化部１８Ｅと、第１送信部１８Ｆと、第１判断部１８Ｇと、第２制御部２２Ｄと、を備える。取得部１８Ａ、第１切替部１８Ｂ、第２判断部２２Ｂ、第１制御部２０Ｃ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部１８Ｆ、第１判断部１８Ｇ、および第２制御部２２Ｄの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

取得部１８Ａ、第１切替部１８Ｂ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部１８Ｆ、および第１判断部１８Ｇは、第１の実施の形態と同様である。第１制御部２０Ｃは、第２の実施の形態と同様である。

第２判断部２２Ｂは、第２の実施の形態の第２判断部２０Ｂと同様に、取得部１８Ａが取得した音データから、音声区間の開始を判断する。

本実施の形態では、第２判断部２２Ｂは、第２制御部２２Ｄによって制御される。第２制御部２２Ｄは、入力部１４に音声が入力される期間を推測し、該期間（以下、第３期間とする）に取得した音データから音声区間の開始を判断するように、第２判断部２２Ｂを制御する。

例えば、制御部２２が送信プログラムを起動することによって、ＵＩ部１６に、対話形式の文字画像を表示する。例えば、制御部２２は、文字画像「これでよろしいですか？」をＵＩ部１６に表示する。なお、制御部２２は、図示を省略するスピーカーから、「これでよろしいですか？」の音を出力してもよい。すると、ユーザは、該問いかけに対する返答、例えば、「はい」を発声する。入力部１４は、ユーザによる発声「はい」を示す音データを、取得部１８Ａへ出力する。

この場合、第２制御部２２Ｄは、問いかけを示す文字画像を表示後、または問いかけを示す音を出力した後を開始時間とし、該開始時間から、ユーザによる返答の音声が発せられて該音声が終わるまでの期間を、入力部１４に音声が入力される第３期間として推測する。該開始時間から音声が終わるまでの第３期間の長さは、次のように推測すればよい。例えば、第２制御部２２Ｄは、問いかけに対する返答パターンを複数種類予め用意し、問いかけに対応する複数種類の返答パターンの内、最も長い（発声時間の長い）返答パターンの音声の時間を、該第３期間の長さとして推測すればよい。

そして、第２制御部２２Ｄは、推測した開始時間から上記長さの第３期間に取得した音データから、音声区間の開始を判断するように、第２判断部２２Ｂを制御すればよい。

なお、送信装置１０Ｂの実行する送信処理の手順は、第２判断部２２Ｂ（第２判断部２０Ｂ）による音声区間の開始の判断が、第２制御部２２Ｄによって制御された第３期間に限定される以外は、第２の実施の形態と同様である。

以上説明したように、本実施の形態の送信装置１０Ｂは、第２の実施の形態の構成に加えて、第２制御部２２Ｄを備える。また、第２の実施の形態における第２判断部２０Ｂに代えて、第２判断部２２Ｂを備える。第２判断部２２Ｂは、第２制御部２２Ｄによって制御される。そして、第２制御部２２Ｄは、音声が入力される第３期間を推測し、該第３期間に取得した音データから音声区間の開始を判断するように、第２判断部２２Ｂを制御する。

このため、本実施の形態の送信装置１０Ｂでは、送信装置１０Ｂから発せられた音（例えば、問いかけを示す音）の音データから、音声区間の開始が判断されることが抑制される。

従って、本実施の形態の送信装置１０Ｂは、上記第１の実施の形態および第２の実施の形態の効果に加えて、更に、音声区間の開始を精度良く判断することができる。

（第４の実施の形態）
本実施の形態では、送信装置と、音声認識装置１２と、を備えた音声認識システムを説明する。

図７は、本実施の形態の音声認識システム１１の一例を示すブロック図である。

音声認識システム１１は、送信装置１０Ｃと、音声認識装置１２Ａと、を備える。送信装置１０Ｃと、音声認識装置１２Ａと、は、ネットワーク４０を介して接続されている。ネットワーク４０は、第１の実施の形態と同様である。

送信装置１０Ｃは、符号化した音データを、ネットワーク４０を介して音声認識装置１２Ａへ送信する。

送信装置１０Ｃは、例えば、携帯端末などに適用される。音声認識装置１２Ａは、例えば、サーバ装置などに適用される。なお、音声認識装置１２Ａは、送信装置１０Ｃに比べて高い計算性能を有し、より高度なアルゴリズムを実行可能である。

送信装置１０Ｃは、入力部１４と、記憶部１５と、ＵＩ部１６と、制御部２４と、を備える。制御部２４と、入力部１４、記憶部１５、およびＵＩ部１６と、は、データや信号授受可能に接続されている。入力部１４およびＵＩ部１６は、第１の実施の形態と同様である。

記憶部１５は、各種データを記憶する。記憶部１５は、例えば、ＨＤＤ（ハードディスクドライブ）である。なお、記憶部１５を制御部２４内に備えた構成とし、内部メモリ（バッファ）としてもよい。

本実施の形態では、記憶部１５は、入力部１４から制御部２４に出力された音データと、該音データの入力時刻を示す時刻情報と、を対応づけて記憶する。音データの入力時刻とは、対応する音データの音が、入力部１４に入力された（すなわち、マイクによって音データに変換された）ときの時刻である。

図８は、記憶部１５に記憶される音データのデータ構成の一例を示す図である。図８に示すように、記憶部１５は、入力時刻を示す時刻情報と、音データと、を対応づけて記憶する。すなわち、記憶部１５に記憶される音データは、第１符号化部１８Ｄや第２符号化部１８Ｅによって符号化されていない音データであって、入力部１４から取得した音データそのもの（生データ（ＲＡＷデータ））である。入力部１４に入力された音は、記憶部１５の音データとして逐次追記されることとなる。

図７に戻り、制御部２４は、ＣＰＵなどを含んで構成されるコンピュータであり、送信装置１０Ｃ全体を制御する。なお、制御部２４は、ＣＰＵに限定されず、回路などで構成してもよい。

制御部２４は、取得部２４Ａと、第２切替部２４Ｂと、第１切替部１８Ｂと、第２判断部２０Ｂと、第１制御部２０Ｃと、第１符号化部１８Ｄと、第２符号化部１８Ｅと、第１送信部２４Ｆと、第１判断部１８Ｇと、第３制御部２４Ｃと、第１受信部２４Ｄと、を備える。取得部２４Ａ、第２切替部２４Ｂ、第１切替部１８Ｂ、第２判断部２０Ｂ、第１制御部２０Ｃ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、第１送信部２４Ｆ、第１判断部１８Ｇ、第３制御部２４Ｃ、および第１受信部２４Ｄの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

第１切替部１８Ｂ、第１符号化部１８Ｄ、第２符号化部１８Ｅ、および第１判断部１８Ｇは、第１の実施の形態と同様である。第２判断部２０Ｂおよび第１制御部２０Ｃは、第２の実施の形態と同様である。

取得部２４Ａは、入力部１４から音データを取得する。入力部１４は、音が入力されると、音の音データを順次取得部２４Ａへ出力する。取得部２４Ａは、入力部１４から、音データを取得する。取得部２４Ａは、取得した音データを、順次記憶部１５に記憶する。取得部２４Ａは、入力部１４から取得部２４Ａに出力された音データと、該音データの入力時刻を示す時刻情報と、を対応づけて記憶部１５に順次記憶する。

第２切替部２４Ｂは、第１符号化部１８Ｄまたは第２符号化部１８Ｅへの音データの出力元を、取得部２４Ａまたは記憶部１５に切替える。第２切替部２４Ｂの切替は、第３制御部２４Ｃによって制御される。

第１受信部２４Ｄは、音声認識装置１２Ａから、音声区間の開始時刻を受信する。第３制御部２４Ｃは、開始時刻を受信した場合に、第１符号化部１８Ｄまたは第２符号化部１８Ｅへ出力する音データを、取得部２４Ａが入力部１４から取得した音データから、記憶部１５に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える。

このため、第１符号化部１８Ｄおよび第２符号化部１８Ｅは、音声認識装置１２Ａから音声区間の開始時刻を受信するまでは、取得部２４Ａが入力部１４から取得した音データを符号化する。一方、第１符号化部１８Ｄおよび第２符号化部１８Ｅは、音声認識装置１２Ａから音声区間の開始時刻を受信した後は、記憶部１５に記憶された音データの内、受信した開始時刻以降の時刻情報に対応づけられた音データを符号化する。

また、上記第２の実施の形態で説明したように、ネットワーク４０の帯域が第１のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、第１符号化部１８Ｄが、音データを符号化する。また、起動から、ネットワーク４０の帯域が第１のビットレートを超えず、且つ、音声区間の開始が判断されない期間は、第２符号化部１８Ｅが、音データを符号化する。

第１送信部２４Ｆは、第１符号化部１８Ｄまたは第２符号化部１８Ｅで符号化された音データを、ネットワーク４０を介して音声認識装置１２Ａへ送信する。本実施の形態では、第１送信部２４Ｆは、符号化された音声データと、該音データに対応する時刻情報と、を送信する。

図９は、フレームの一例を示す図である。第１送信部２４Ｆが送信するフレームは、例えば、図９に示すように、フレームサイズと、時刻情報と、ビットレートと、音データと、を含む。フレームサイズ、時刻情報、およびビットレートは、固定長である。音データは、可変長である。フレームに含まれるビットレートは、符号化された音データのビットレートを示す。

音声認識装置１２Ａは、符号化された音データを受信し、音声認識を行う。

音声認識装置１２Ａは、制御部１３を備える。制御部１３は、ＣＰＵなどを含んで構成されるコンピュータであり、音声認識装置１２Ａ全体を制御する。なお、制御部１３は、ＣＰＵに限定されず、回路などで構成してもよい。

制御部１３は、第２受信部１３Ａと、復号部１３Ｂと、第３判断部１３Ｃと、第２送信部１３Ｄと、を備える。第２受信部１３Ａ、復号部１３Ｂ、第３判断部１３Ｃ、および第２送信部１３Ｄの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

第２受信部１３Ａは、符号化された音データを、ネットワーク４０を介して送信装置１０Ｃから受信する。本実施の形態では、第２受信部１３Ａは、符号化された音データと、時刻情報と、を受信する。

復号部１３Ｂは、符号化された音データを復号する。これにより、復号部１３Ｂは、復号した音データと、該音データに対応する時刻情報と、を得る。

第３判断部１３Ｃは、復号部１３Ｂで復号された音データに基づいて、音声区間の開始を判断する。第３判断部１３Ｃは、第２判断部２０Ｂと同様にして、音データから、音声区間の開始を判断する。

但し、音声認識装置１２Ａに設けられた第３判断部１３Ｃは、送信装置１０Ｃに設けられた第２判断部２０Ｂに比べて、より大きな計算機性能を要求する高精度な音声区間の開始時刻の判断が可能である。すなわち、第３判断部１３Ｃは、第２判断部２０Ｂより高精度に、音声区間の開始を判断する。

このため、第３判断部１３Ｃは、第２のビットレートで符号化された音データを受信した場合であっても、より高い第１のビットレートで符号化された音データと略同様の高精度で、音声区間の開始を判断することができる。

第２送信部１３Ｄは、第３判断部１３Ｃによって判断された音声区間の開始された開始時刻を、送信装置１０Ｃへ送信する。

第２の実施の形態と同様に、送信装置１０Ｃでは、送信装置１０Ｃが送信処理プログラムを起動してから、ネットワーク４０の帯域が第１のビットレートを超えず、且つ、音声区間の開始が判断されない場合、第１符号化部１８Ｄが符号化した音データが、音声認識装置１２Ａへ送信される。そして、本実施の形態の送信装置１０Ｃの第１受信部２４Ｄでは、より高精度に音声区間の開始を判断可能な音声認識装置１２Ａから開始時刻を受信すると、第３制御部２４Ｃが、第１符号化部１８Ｄまたは第２符号化部１８Ｅに出力する音データを、記憶部１５に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える。

このため、第１送信部２４Ｆが音声認識装置１２Ａに送信した音データの少なくとも一部が、音声認識装置１２Ａに再送信され、記憶部１５から読み出し、符号化した音データが音声認識装置１２Ａに送信されることとなる。

次に、送信装置１０Ｃで実行する送信処理の手順を説明する。送信装置１０Ｃでは、第２の実施の形態の送信装置１０Ａと同様の送信処理を実行する（図５参照）。そして、本実施の形態の送信装置１０Ｃでは、図５に示す送信処理を示すフローチャートに、図１０に示す割り込み処理を実行する。

図１０は、送信装置１０Ｃが行う割り込み処理の手順を示すフローチャートである。

第１受信部２４Ｄは、音声認識装置１２Ａから音声区間の開始時刻を受信したか否かを判断する（ステップＳ３００）。ステップＳ３００で否定判断すると（ステップＳ３００：Ｎｏ）、本ルーチンを終了する。一方、ステップＳ３００で肯定判断すると（ステップＳ３００：Ｙｅｓ）、ステップＳ３０２へ進む。

ステップＳ３０２では、第３制御部２４Ｃが、第１符号化部１８Ｄまたは第２符号化部１８Ｅへ出力する音データを、取得部２４Ａが入力部１４から取得した音データから、記憶部１５に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える（ステップＳ３０２）。そして、本ルーチンを終了する。

次に、音声認識装置１２Ａで実行する音声認識処理の手順を説明する。図１１は、音声認識装置１２Ａで実行する音声認識処理の手順を示すフローチャートである。

まず、第２受信部１３Ａが、符号化された音データと時刻情報とを、送信装置１０Ｃから受信する（ステップＳ４００）。

次に、復号部１３Ｂが、ステップＳ４００で受信した、符号化された音データを復号する（ステップＳ４０２）。次に、第３判断部１３Ｃが、ステップＳ４０２で復号された音データに基づいて、音声区間の開始時刻を判断する（ステップＳ４０４）。次に、第２送信部１３Ｄが、ステップＳ４０４で判断された音声区間の開始時刻を、送信装置１０Ｃへ送信する（ステップＳ４０６）。そして、本ルーチンを終了する。

以上説明したように、本実施の形態では、音声認識装置１２Ａは、第３判断部１３Ｃを備える。第３判断部１３Ｃは、音データから、音声区間の開始を前記第２判断部より高精度に判断する。そして、本実施の形態の送信装置１０Ｃの第１受信部２４Ｄでは、より高精度に音声区間の開始を判断可能な音声認識装置１２Ａから開始時刻を受信すると、第３制御部２４Ｃが、第１符号化部１８Ｄまたは第２符号化部１８Ｅに出力する音データを、記憶部１５に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える。

ここで、本実施の形態の送信装置１０Ｃでは、第２の実施の形態と同様に、送信装置１０Ｃが送信処理プログラムを起動してから、ネットワーク４０の帯域が第１のビットレートを超えず、且つ、音声区間の開始が判断されない場合、第１符号化部１８Ｄが符号化した音データが、音声認識装置１２Ａへ送信される。そして、第１判断部１８Ｇおよび第２判断部２０Ｂが、各々、ネットワーク４０の帯域が第１のビットレートを超えたと判断、または、音声区間の開始が判断された場合に、音データの出力先が第２符号化部１８Ｅから第１符号化部１８Ｄに切替えられる。

このため、第１送信部２４Ｆが音声認識装置１２Ａに送信した、より低い第２のビットレートで符号化可能な第２符号化部１８Ｅで符号化された音データの少なくとも一部が、記憶部１５から読み出され、第１符号化部１８Ｄによって符号化された後に、音声認識装置１２Ａに再度送信されることとなる。

このように、本実施の形態の音声認識システム１１では、第２符号化部１８Ｅで符号化された音データを有効に活用し、音声区間の開始を高精度に判断する第３判断部１３Ｃを用いて音声区間を判断し、音データの再送信の制御に用いる。

従って、本実施の形態の音声認識システム１１では、上記実施の形態の効果に加えて、ユーザの音声を精度良く認識することができると共に、音声の誤認識を抑制することができる。

（第５の実施の形態）
次に、上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａのハードウェア構成を説明する。図１２は、上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａのハードウェア構成例を示すブロック図である。

上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａのハードウェアは、Ｉ／Ｆ４８、ＣＰＵ４０、ＲＯＭ４２、ＲＡＭ４４、およびＨＤＤ４６などがバス５０により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ４０は、上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａの各々の全体の処理を制御する演算装置である。ＲＡＭ４４は、ＣＰＵ４０による各種処理に必要なデータを記憶する。ＲＯＭ４２は、ＣＰＵ４０による各種処理を実現するプログラム等を記憶する。ＨＤＤ４６は、上述した記憶部１５などに格納されるデータを記憶する。Ｉ／Ｆ４８は、外部装置や外部端末に通信回線等を介して接続し、接続した外部装置や外部端末との間でデータを送受信するためのインタフェースである。

上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａで実行される送信処理および音声認識処理を実行するためのプログラムは、ＲＯＭ４２等に予め組み込んで提供される。

なお、上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａで実行される送信処理および音声認識処理を実行するためのプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

また、上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａで実行される送信処理および音声認識処理を実行するためのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に記憶し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａで実行される送信処理および音声認識処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。

上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａで実行される送信処理および音声認識処理を実行するためのプログラムは、上述した各部を含むモジュール構成となっている。実際のハードウェアとしてはＣＰＵ４０がＲＯＭ４２等の記憶媒体から、上記処理を実行するためのプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上記各部が主記憶装置上に生成されるようになっている。

なお、上記実施の形態の送信装置１０、１０Ａ、１０Ｂ、１０Ｃ、音声認識装置１２、１２Ａの各機能的な構成要素は、プログラム（ソフトウェア）により実現するだけでなく、その一部または全部を、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの専用のハードウェアにより実現することもできる。

なお、上記には、本発明の実施の形態を説明したが、上記実施の形態は、一例として提示したものであり、発明の範囲を限定することは意図していない。この新規な上記実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施の形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０、１０Ａ、１０Ｂ、１０Ｃ送信装置
１１音声認識システム
１２、１２Ａ音声認識装置
１３Ａ第２受信部
１３Ｂ復号部
１３Ｃ第３判断部
１３Ｄ第２送信部
１５記憶部
１８Ａ、２４Ａ取得部
１８Ｃ、２０Ｃ第１制御部
１８Ｄ第１符号化部
１８Ｅ第２符号化部
１８Ｆ、２４Ｆ第１送信部
１８Ｇ第１判断部
２０Ｂ、２２Ｂ第２判断部
２２Ｄ第２制御部
２４Ｃ第３制御部
２４Ｄ第１受信部

Claims

音データを取得する取得部と、
前記音データを第１のビットレートで符号化可能な第１符号化部と、
前記音データを、前記第１のビットレートより低い第２のビットレートで符号化可能な第２符号化部と、
輻輳制御されたネットワークの帯域が前記第１のビットレートを超えたか否かを判断する第１判断部と、
前記ネットワークの帯域が前記第１のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第２符号化部から前記第１符号化部に切替える第１制御部と、
前記第１符号化部または前記第２符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第１送信部と、
を備え、
前記第１制御部は、
取得した前記音データの出力先を前記第２符号化部から前記第１符号化部に切替えた後に、前記ネットワークの帯域が前記第１のビットレート以下と判断された場合、該出力先を前記第１符号化部に切替えた状態で維持する、
送信装置。
前記第１制御部は、
当該送信装置が起動してから前記ネットワークの帯域が前記第１のビットレートを超えたと判断されるまでの第１期間に取得した前記音データの出力先を、前記第２符号化部とした状態を維持し、
前記ネットワークの帯域が前記第１のビットレートを超えたと判断された後の第２期間に取得した前記音データの出力先を、前記第１符号化部とする、
請求項１に記載の送信装置。
音データを取得する取得部と、
取得した前記音データから、音声区間の開始を判断する第２判断部と、
前記音データを第１のビットレートで符号化可能な第１符号化部と、
前記音データを、前記第１のビットレートより低い第２のビットレートで符号化可能な第２符号化部と、
輻輳制御されたネットワークの帯域が前記第１のビットレートを超えたか否かを判断する第１判断部と、
前記ネットワークの帯域が前記第１のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第２符号化部から前記第１符号化部に切替える第１制御部と、
音声が入力される期間を推測し、該期間に取得した前記音データから前記音声区間の開始を判断するように、前記第２判断部を制御する第２制御部と、
前記第１符号化部または前記第２符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第１送信部と、
を備え、
前記第１制御部は、
前記ネットワークの帯域が前記第１のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第２符号化部から前記第１符号化部に切替える、
送信装置。
送信装置と、輻輳制御されたネットワークを介して前記送信装置に接続された音声認識装置と、を備えた音声認識システムであって、
前記送信装置は、
音を入力する入力部から、音データを取得する取得部と、
前記音データと、前記音データの入力時刻を示す時刻情報と、を対応づけて記憶する記憶部と、
取得した前記音データから、音声区間の開始を判断する第２判断部と、
前記音データを第１のビットレートで符号化可能な第１符号化部と、
前記音データを、前記第１のビットレートより低い第２のビットレートで符号化可能な第２符号化部と、
前記ネットワークの帯域が前記第１のビットレートを超えたか否かを判断する第１判断部と、
前記ネットワークの帯域が前記第１のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第２符号化部から前記第１符号化部に切替える第１制御部と、
前記第１符号化部または前記第２符号化部によって符号化された前記音データを、前記ネットワークを介して前記音声認識装置へ送信する第１送信部と、
前記音声認識装置から、音声区間の開始時刻を受信する第１受信部と、
前記開始時刻を受信した場合に、前記第１符号化部または前記第２符号化部へ出力する前記音データを、前記取得部が前記入力部から取得した前記音データから、前記記憶部に記憶されている、受信した前記開始時刻以降の前記時刻情報に対応付けられた前記音データに切替える第３制御部と、
を備え、
前記音声認識装置は、
符号化された前記音データを前記送信装置から受信する第２受信部と、
符号化された前記音データを復号する復号部と、
復号された前記音データに基づいて、音声区間の開始を前記第２判断部より高精度に判断する第３判断部と、
判断された前記音声区間の開始された開始時刻を、前記送信装置へ送信する第２送信部と、
を備える、
音声認識システム。
音データを取得する取得ステップと、
前記音データを第１のビットレートで符号化する第１符号化ステップと、
前記音データを、前記第１のビットレートより低い第２のビットレートで符号化する第２符号化ステップと、
輻輳制御されたネットワークの帯域が前記第１のビットレートを超えたか否かを判断する第１判断ステップと、
前記ネットワークの帯域が前記第１のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第２符号化ステップから前記第１符号化ステップに切替える第１制御ステップと、
前記第１符号化ステップまたは前記第２符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第１送信ステップと、
を含み、
前記第１制御ステップは、
取得した前記音データの出力先を、前記第２符号化ステップを実行する第２符号化部から前記第１符号化ステップを実行する第１符号化部に切替えた後に、前記ネットワークの帯域が前記第１のビットレート以下と判断された場合、該出力先を前記第１符号化部に切替えた状態で維持する、
送信方法。
音データを取得する取得ステップと、
前記音データを第１のビットレートで符号化する第１符号化ステップと、
前記音データを、前記第１のビットレートより低い第２のビットレートで符号化する第２符号化ステップと、
輻輳制御されたネットワークの帯域が前記第１のビットレートを超えたか否かを判断する第１判断ステップと、
前記ネットワークの帯域が前記第１のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第２符号化ステップから前記第１符号化ステップに切替える第１制御ステップと、
前記第１符号化ステップまたは前記第２符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第１送信ステップと、
をコンピュータに実行させ、
を含み、
前記第１制御ステップは、
取得した前記音データの出力先を、前記第２符号化ステップを実行する第２符号化部から前記第１符号化ステップを実行する第１符号化部に切替えた後に、前記ネットワークの帯域が前記第１のビットレート以下と判断された場合、該出力先を前記第１符号化部に切替えた状態で維持する、
プログラム。