JP6556473B2 - 送信装置、音声認識システム、送信方法、およびプログラム - Google Patents

送信装置、音声認識システム、送信方法、およびプログラム Download PDF

Info

Publication number
JP6556473B2
JP6556473B2 JP2015049866A JP2015049866A JP6556473B2 JP 6556473 B2 JP6556473 B2 JP 6556473B2 JP 2015049866 A JP2015049866 A JP 2015049866A JP 2015049866 A JP2015049866 A JP 2015049866A JP 6556473 B2 JP6556473 B2 JP 6556473B2
Authority
JP
Japan
Prior art keywords
unit
sound data
encoding
bit rate
encoding unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015049866A
Other languages
English (en)
Other versions
JP2016170272A (ja
Inventor
上野 晃嗣
晃嗣 上野
翔子 宮森
翔子 宮森
舘森 三慶
三慶 舘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015049866A priority Critical patent/JP6556473B2/ja
Priority to US15/065,000 priority patent/US20160267918A1/en
Publication of JP2016170272A publication Critical patent/JP2016170272A/ja
Application granted granted Critical
Publication of JP6556473B2 publication Critical patent/JP6556473B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Description

本発明の実施形態は、送信装置、音声認識システム、送信方法、およびプログラムに関する。
マイクなどから入力された音データを、ネットワークを介して音声認識装置へ送信する送信装置が知られている。音声認識装置側でリアルタイムに音声認識を行うために、送信装置から音声認識装置へリアルタイムに音データを送信する技術が開示されている。
例えば、特許文献1には、最初の発話を転送した際におこなわれた帯域制御上の情報を用いて、二回目以降の発話の符号化ビットレートを変更する技術が開示されている。この技術によれば、二回目以降の発話のリアルタイム転送を実現することができる。また、特許文献2には、ネットワークの帯域や輻輳状態に応じて、音声符号化方式のビットレートを高ビットレートから低ビットレートなどに切り替える技術が開示されている。
特開2003−195880号公報 特開2002−290436号公報
しかしながら、特許文献1の技術では、1回目の発話などの音データを音声認識装置へリアルタイムに送信することができなかった。また、特許文献2の技術では、ネットワークの帯域に応じてビットレートを低下させるため、高精度に音声認識可能な音データを送信することは出来なかった。すなわち、従来では、高精度に音声認識可能な音データをリアルタイムに音声認識装置へ送信することは困難であった。
本発明が解決しようとする課題は、高精度に音声認識可能な音データをリアルタイムに音声認識装置へ送信することができる、送信装置、音声認識システム、送信方法、およびプログラムを提供することである。
実施の形態の送信装置は、取得部と、第1符号化部と、第2符号化部と、第1判断部と、第1制御部と、第1送信部と、を備える。取得部は、音データを取得する。第1符号化部は、前記音データを第1のビットレートで符号化可能である。第2符号化部は、前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能である。第1判断部は、輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する。第1制御部は、前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える。第1送信部は、前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する。前記第1制御部は、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する。
送信装置の一例を示すブロック図。 フレームの一例を示す図。 送信処理の手順の一例を示すフローチャート。 送信装置の一例を示すブロック図。 送信処理の手順の一例を示すフローチャート。 送信装置の一例を示すブロック図。 音声認識システムの一例を示すブロック図。 音データのデータ構成の一例を示す図。 フレームの一例を示す図。 割り込み処理の手順の一例を示すフローチャート。 音声認識処理の手順の一例を示すフローチャート。 ハードウェア構成例を示すブロック図。
以下に添付図面を参照して、送信装置、音声認識システム、送信方法、およびプログラムの実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、本実施の形態の送信装置10の一例を示すブロック図である。
送信装置10は、音声認識装置12にネットワーク40を介して接続されている。ネットワーク40は、輻輳制御されたネットワークである。ネットワーク40は、輻輳制御アルゴリズムを含む通信プロトコルを用いる。この通信プロトコルは、例えば、TCP(Transmission Control Protocol)である。
送信装置10は、符号化した音データを、ネットワーク40を介して音声認識装置12へ送信する。音声認識装置12は、受信した音データを符号化し、音データに含まれる音声の認識(音声認識)を行う。音声認識装置12は、音声認識を行う公知の装置であればよい。
送信装置10は、入力部14と、UI部16と、制御部18と、を備える。制御部18と、入力部14およびUI部16と、はデータや信号授受可能に接続されている。
入力部14は、外部から音を受け付けて音データに変換し、制御部18へ出力する。入力部14は、例えば、マイクロホンである。
本実施の形態では、送信装置10が携帯端末であると仮定して説明する。この場合、入力部14は、携帯端末である送信装置10に付属のマイクロホンであってもよい。なお、入力部14は、受付けた音を音データに変換する機能を有するハードウェアまたはソフトウェアであればよく、マイクロホンに限定されない。
本実施の形態では、音は、音声を含む。すなわち、入力部14は、音声データを含む音データを、制御部18へ出力する。
UI(User Interface)部16は、表示部16Aと、操作部16Bと、を含む。表示部16Aは、各種画像を表示する装置である。表示部16Aは、液晶や有機EL(Electro Luminescence)等の公知の表示装置である。
操作部16Bは、ユーザからの各種操作を受け付ける。操作部16Bは、例えば、マウス、ボタン、リモコン、およびキーボードの1または複数を組み合せたものである。操作部16Bは、ユーザからの各種操作を受け付けると、受け付けた各種操作に応じた指示信号を制御部18へ出力する。
表示部16Aおよび操作部16Bは、一体的に構成されていてもよい。具体的には、表示部16Aおよび操作部16Bは、操作受付機能、および表示機能の双方を備えたUI部16として構成されていてもよい。UI部16には、タッチパネル付LCD(Liquid Crystal Display)などがある。
制御部18は、CPU(Central Processing Unit)などを含んで構成されるコンピュータであり、送信装置10全体を制御する。なお、制御部18は、CPUに限定されず、回路などで構成してもよい。
制御部18は、取得部18Aと、第1切替部18Bと、第1制御部18Cと、第1符号化部18Dと、第2符号化部18Eと、第1送信部18Fと、第1判断部18Gと、を備える。取得部18A、第1切替部18B、第1制御部18C、第1符号化部18D、第2符号化部18E、第1送信部18F、および第1判断部18Gの一部またはすべては、例えば、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
取得部18Aは、入力部14から音データを取得する。入力部14は、音が入力されると、音の音データを順次取得部18Aへ出力する。取得部18Aは、入力部14から、音データを取得する。
第1符号化部18Dは、音データを第1のビットレートで符号化可能である。第1のビットレートは、符号化された音データの送信先である音声認識装置12で、高精度に音声認識可能なビットレート以上の値であればよい。このため、第1のビットレートの値は、送信先の音声認識装置12の音声認識性能などに応じて、予め定めればよい。
第1符号化部18Dは、公知の符号化アルゴリズムを用いて、音データを符号化する。具体的には、第1符号化部18Dは、音データを、音声認識装置12側で高精度に音声認識可能な形式に符号化する。
例えば、第1符号化部18Dは、可逆圧縮アルゴリズムや、低圧縮の不可逆圧縮アルゴリズムなどを用いて、音データを符号化する。可逆圧縮アルゴリズムは、例えば、FLAC(Free Lossless Audio Codec)などであるが、これに限定されない。なお、第1符号化部18Dは、音データを無圧縮で(符号化せずに)そのままの形式で、符号化した音データとして出力してもよい。
また、第1符号化部18Dは、音データに含まれる特徴量の全てを符号化してもよい。本実施の形態では、特徴量は、音声認識装置12で音声認識に用いる特徴量である。具体的には、特徴量とは、MFCC(Mel−Frequency Cepstral Coefficient)などを示す。
本実施の形態では、一例として、第1のビットレートは、256kbpsである場合を説明する。なお、第1のビットレートは、この値に限定されない。
第2符号化部18Eは、音データを、第1のビットレートより低い第2のビットレートで符号化可能である。
第2のビットレートは、第1のビットレートより低い値であればよい。なお、第2のビットレートは、TCPにおけるスロースタート段階のウィンドウサイズ以下であることが好ましい。すなわち、第2符号化部18Eは、スロースタートのような輻輳制御がかかっている状態であっても、音声認識装置12へリアルタイム転送可能なビットレートに音データを符号化する。
第2符号化部18Eは、例えば、Speexアルゴリズムなどを用いて、音データを第2のビットレートに符号化する。
また、第2符号化部18Eは、音データを、音声認識装置12における音声認識に必要な特徴量の一部に符号化してもよい。特徴量は、上述したため、ここでは説明を省略する。
なお、第2のビットレートは、固定値であってもよいし、可変であってもよい。第2のビットレートが可変である場合、第2符号化部18Eは、可変ビットレート形式で符号化を行えばよい。この場合、ネットワーク40の帯域が第1のビットレートを超えるまでの期間、第2のビットレートを連続的または段階的に増加させてもよい。
本実施の形態では、一例として、第2のビットレートは、8kbpsである場合を説明する。なお、第2のビットレートは、この値に限定されない。
第1送信部18Fは、第1符号化部18Dまたは第2符号化部18Eによって符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。第1送信部18Fは、符号化された音データを、適切な転送単位ごとに音声認識装置12へ送信する。転送単位は、フレームと称される場合がある。
図2は、フレームの一例を示す図である。例えば、図2に示すように、フレームは、フレームサイズの値と、ビットレートの値と、音データと、を含む。フレームサイズの値は、固定長で表される。ビットレートの値も、固定長で表される。音データは、可変長である。フレームに含まれるビットレートの値は、対応する音データの符号化後のビットレートの値を示す。
図1に戻り、第1判断部18Gは、ネットワーク40の帯域が第1のビットレートを超えたか否かを判断する。すなわち、第1判断部18Gは、現在のネットワーク40の帯域が、第1のビットレートを超えたか否かを判断する。
第1判断部18Gは、例えば、第1送信部18Fが音声認識装置12へ送信する単位時間(1秒)当たりの送信データ量が、第1のビットレートを超えたか否かを判別する。この判別により、第1判断部18Gは、現在のネットワーク40の帯域が第1のビットレートを超えたか否かを判断する。
本実施の形態では、一例として、第1のビットレートが256kbpsである場合を想定している。このため、第1判断部18Gは、第1送信部18Fによる、現在の単位時間当たりの送信データ量が256kbpsを超えたか否かを判別することで、ネットワーク40の帯域が第1のビットレートを超えたか否かを判断する。
なお、第1判断部18Gは、他の方法を用いて、ネットワーク40の帯域が第1のビットレートを超えたか否かを判断してもよい。
例えば、第1判断部18Gは、第1送信部18Fが行うネットワーク通信から、現在のネットワーク40の帯域を取得する。そして、第1判断部18Gは、取得した、現在のネットワーク40の帯域が第1のビットレートを超えたか否かを判断してもよい。なお、現在のネットワーク40の帯域は、例えば、TCPにおいては、現在のウィンドウサイズと、往復遅延時間(RTT:Round Trip Time)と、から公知の手法により計算可能である。
第1切替部18Bは、取得部18Aの出力先を、第1符号化部18Dまたは第2符号化部18Eに切替えるスイッチである。第1切替部18Bは、第1制御部18Cによって制御される。
第1制御部18Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合に、取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。
具体的には、第1制御部18Cは、初期状態では、取得部18Aの音データの出力先を第2符号化部18Eに切替えるように第1切替部18Bを制御する。初期状態とは、制御部18で符号化データの送信処理を実行するためのアプリケーションを起動した直後の状態である。
このため、起動してから、第1判断部18Gによってネットワーク40の帯域が第1のビットレートを超えたと判断されるまでの期間(以下、第1期間とする)、第1切替部18Bは、取得部18Aの出力先を第2符号化部18Eとした状態となっている。すなわち、この第1期間は、第1送信部18Fは、第2符号化部18Eによって符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
そして、第1制御部18Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合に、取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。このため、ネットワーク40の帯域が第1のビットレートを超えた後は、第1送信部18Fは、第1符号化部18Dによって符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
なお、取得部18Aで取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替えた後に、ネットワーク40の帯域が第1のビットレート以下と判断される場合がある。この場合であっても、第1制御部18Cは、取得部18Aの出力先を第1符号化部18Dに切替えた状態で維持することが好ましい。
すなわち、第1制御部18Cは、当該送信装置10が起動してからネットワーク40の帯域が第1のビットレートを超えたと判断されるまでの第1期間に取得した音データの出力先を、第2符号化部18Eとした状態を維持する。そして、第1制御部18Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された後の第2期間に取得した音データの出力先を、第1符号化部18Dとした状態を維持する。
次に、送信装置10で実行する送信処理の手順を説明する。図3は、送信装置10が実行する送信処理の手順の一例を示すフローチャートである。
まず、ユーザによるUI部16の操作により、音データの送信処理を実行するための送信プログラムの実行が指示される。CPUがROMなどの記憶媒体から送信処理を実行するためのプログラムを読み出して実行することにより、取得部18A、第1切替部18B、第1制御部18C、第1符号化部18D、第2符号化部18E、第1送信部18F、および第1判断部18Gが主記憶装置上にロードされる。
まず、第1制御部18Cが、取得部18Aの出力先を第2符号化部18Eに切替える(ステップS100)。なお、起動時に、取得部18Aの出力先が第2符号化部18Eに切替えられていた場合、ステップS100の処理を省略することができる。
次に、取得部18Aが、入力部14から音データの取得を開始する(ステップS102)。具体的には、入力部14が、入力された音データを取得部18Aへ出力する。取得部18Aは、入力部14から音データを取得する。上記ステップS100の処理によって、取得部18Aの出力先は第2符号化部18Eに切替えられている。このため、取得部18Aは、取得した音データを第2符号化部18Eへ出力する。
次に、第2符号化部18Eが、取得部18Aから取得した音データを符号化する(ステップS104)。第1送信部18Fは、第2符号化部18Eで符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する(ステップS106)。
次に、第1判断部18Gが、ネットワーク40の帯域が第1のビットレートを超えたか否かを判断する(ステップS108)。帯域が第1のビットレート以下である場合(ステップS108:No)、上記ステップS104へ戻る。
一方、第1判断部18Gが、ネットワーク40の帯域が第1のビットレートを超えたと判断すると(ステップS108:Yes)、ステップS110へ進む。
ステップS110では、第1制御部18Cが、取得部18Aの取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える(ステップS110)。ステップS110の処理によって、取得部18Aの出力先は、第1符号化部18Dに切替えられる。このため、ステップS110以降では、取得部18Aは、第1符号化部18Dに音データを出力する。
第1符号化部18Dは、取得部18Aから取得した音データを符号化する(ステップS112)。第1送信部18Fは、第1符号化部18Dで符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する(ステップS114)。
次に、制御部18は、送信処理を終了するか否かを判断する(ステップS116)。例えば、制御部18は、UI部16から送信処理の終了を示す終了信号を受け付けたか否かを判別することで、ステップS116の判断を行う。UI部16は、ユーザによるUI部16の操作指示によって、送信処理の終了を示す操作指示を受付けたときに、終了信号を制御部18へ出力すればよい。
制御部18が、送信処理を終了しないと判断すると(ステップS116:No)、上記ステップS112へ戻る。一方、制御部18が、送信処理を終了すると判断すると(ステップS116:Yes)、本ルーチンを終了する。
以上説明したように、本実施の形態の送信装置10は、取得部18Aと、第1符号化部18Dと、第2符号化部18Eと、第1送信部18Fと、第1判断部18Gと、第1制御部18Cと、を備える。
取得部18Aは、音データを取得する。第1符号化部18Dは、音データを第1のビットレートで符号化可能である。第2符号化部18Eは、音データを、第1のビットレートより低い第2のビットレートで符号化可能である。第1判断部18Gは、輻輳制御されたネットワーク40の帯域が第1のビットレートを超えたか否かを判断する。第1制御部18Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合に、取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。第1送信部18Fは、第1符号化部18Dまたは第2符号化部18Eによって符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
このように、本実施の形態では、送信装置10は、第1符号化部18Dより低い第2のビットレートで符号化可能な第2符号化部18Eで符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。そして、送信装置10は、ネットワーク40の帯域が第1のビットレートを超えたと判断した場合に、第2符号化部18Eより高い第1のビットレートで符号化可能な第1符号化部18Dで符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
このため、取得部18Aが取得する音データに、音声の音声データが含まれていない場合であっても、符号化された音データの音声認識装置12への送信が開始される。
ここで、ユーザによるUI部16の操作指示により、制御部18における送信処理プログラムが起動し、ユーザが「はい」という発声を行う場合を考える。この場合、例えば、送信処理プログラムを実行することにより、制御部18は、UI部16に「これで宜しいですか?」といった問いかけの文章を表示する。ユーザは、この問いかけに対して、「はい」という発声を行う場合を考える。
この場合、ユーザが「はい」という発声を行う前のタイミングであっても、送信装置10は、第2符号化部18Eで符号化された音データを、ネットワーク40へ介して音声認識装置12へ送信する。すなわち、送信装置10は、ユーザによる発声を待たずに、符号化された音データの音声認識装置12への送信を開始する。
そして、送信装置10は、ネットワーク40の帯域が第1のビットレートを超えたときに、第1のビットレートで符号化可能な第1符号化部18Dで符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
このため、本実施の形態の送信装置10では、ユーザの音声が入力部14に入力されるまでの間に、ネットワーク40の帯域を、音声認識装置12側で高精度に音声認識を行うために必要なビットレート(第1のビットレート)以上とすることができる。
すなわち、本実施の形態の送信装置10では、送信装置10で送信処理プログラムを起動した後に、ユーザが最初に発した音声を含む音データであって、且つ、高精度に音声認識可能な音データを、リアルタイムに音声認識装置12へ送信することができる。
従って、本実施の形態の送信装置10は、高精度に音声認識可能な音データをリアルタイムに音声認識装置12へ送信することができる。
なお、本実施の形態では、リアルタイムに送信、とは、送信する音データのデータレートが、ネットワーク40の帯域未満であることを示す。
具体的には、ネットワーク40の帯域を超えるデータレートで音データを送信すると、帯域を超えた分の音データは、送信装置10側のバッファに溜まっていくこととなる。例えば、ネットワーク40の帯域が64kbpsであるときに、128kbpsの音データを送信すると、差分である64キロビットのデータが毎秒バッファに残る。この状態では、経過時間に応じて遅延が増加する。この状態が10秒続くと、640キロビットのデータがバッファに残ることとなる。これは、5秒分の遅延が発生していることを示す(640/128=5(秒))。一方、リアルタイムの送信が実現されている状態では、音声認識装置12では、リアルタイムな音声認識が可能となる。
(第2の実施の形態)
本実施の形態では、音データから、音声区間の開始を判断する第2判断部を更に備えた構成を説明する。
図4は、本実施の形態の送信装置10Aの一例を示すブロック図である。
送信装置10Aは、音声認識装置12にネットワーク40を介して接続されている。音声認識装置12およびネットワーク40は、第1の実施の形態と同様である。
送信装置10Aは、符号化した音データを、ネットワーク40を介して音声認識装置12へ送信する。送信装置10Aは、入力部14と、UI部16と、制御部20と、を備える。制御部20と、入力部14およびUI部16と、はデータや信号授受可能に接続されている。入力部14およびUI部16は、第1の実施の形態と同様である。
制御部20は、CPUなどを含んで構成されるコンピュータであり、送信装置10A全体を制御する。なお、制御部20は、CPUに限定されず、回路などで構成してもよい。
制御部20は、取得部18Aと、第1切替部18Bと、第2判断部20Bと、第1制御部20Cと、第1符号化部18Dと、第2符号化部18Eと、第1送信部18Fと、第1判断部18Gと、を備える。取得部18A、第1切替部18B、第2判断部20B、第1制御部20C、第1符号化部18D、第2符号化部18E、第1送信部18F、および第1判断部18Gの一部またはすべては、例えば、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ICなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
取得部18A、第1切替部18B、第1符号化部18D、第2符号化部18E、第1送信部18F、および第1判断部18Gは、第1の実施の形態と同様である。
第2判断部20Bは、取得部18Aが取得した音データから、音声区間の開始を判断する。第2判断部20Bは、公知の方法を用いて、音データに含まれる、音声区間の開始を判断すればよい。なお、第2判断部20Bは、音声区間の開始の判断方法として知られている様々な方法のうち、処理負荷が比較的低い方法を採用することが好ましい。
例えば、第2判断部20Bは、入力信号のパワーを閾値と比較することで音声区間の開始を検出する方法、などを用いる。詳細には、第2判断部20Bは、ユーザによる音声の値を音圧とし、既定圧以上の音圧が入力部14に入力されたときを、音声区間の開始とする。規定圧は、例えば、送信装置10Aの入力部14にユーザが口を近づけた状態で、通常の声量で発声した場合の、音圧とすればよい。
本実施の形態では、第1の実施の形態の第1制御部18Cに代えて、第1制御部20Cを備える。第1制御部20Cは、第1切替部18Bの切替えを制御する。
具体的には、第1制御部20Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得部18Aで取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。
具体的には、第1制御部20Cは、初期状態では、取得部18Aの音データの出力先を第2符号化部18Eに切替えるように第1切替部18Bを制御する。初期状態の定義は、第1の実施の形態と同様である。
このため、起動してから、第1判断部18Gによってネットワーク40の帯域が第1のビットレートを超えたと判断されるまで、または、第2判断部20Bによって音声区間が開始したと判断されるまでの期間(以下、第2期間とする)、第1切替部18Bは、取得部18Aの出力先を第2符号化部18Eとした状態となっている。すなわち、この第2期間は、第1送信部18Fは、第2符号化部18Eによって符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
そして、第1制御部20Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。
このため、ネットワーク40の帯域が第1のビットレートを超えた後、または、取得部18Aで取得した音データから音声区間の開始が判断された後は、第1送信部18Fは、第1符号化部18Dによって符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
なお、取得部18Aで取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替えた後に、ネットワーク40の帯域が第1のビットレート以下と判断される場合がある。この場合であっても、第1制御部20Cは、取得部18Aの出力先を第1符号化部18Dに切替えた状態で維持することが好ましい。
また、取得部18Aで取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替えた後に、音声区間の終端が判断、または次の新たな音声区間の開始が判断される場合がある。この場合であっても、第1制御部20Cは、取得部18Aの出力先を第1符号化部18Dに切替えた状態で維持することが好ましい。
次に、本実施の形態の送信装置10Aで実行する送信処理の手順を説明する。図5は、本実施の形態の送信装置10Aで実行する送信処理の手順の一例を示す、フローチャートである。
まず、ユーザによるUI部16の操作により、音データの送信処理を実行するための送信プログラムの実行が指示される。CPUがROMなどの記憶媒体から送信処理を実行するためのプログラムを読み出して実行することにより、取得部18A、第1切替部18B、第1符号化部18D、第2符号化部18E、第1送信部18F、第1判断部18G、第2判断部20B、および第1制御部20Cが主記憶装置上にロードされる。
まず、第1制御部20Cが、取得部18Aの出力先を第2符号化部18Eに切替える(ステップS200)。なお、起動時に、取得部18Aの出力先が第2符号化部18Eに切替えられていた場合、ステップS200の処理を省略することができる。
次に、取得部18Aが、入力部14から音データの取得を開始する(ステップS202)。上記ステップS200の処理によって、取得部18Aの出力先は第2符号化部18Eに切替えられている。このため、取得部18Aは、取得した音データを第2符号化部18Eへ出力する。
次に、第2符号化部18Eが、取得部18Aから取得した音データを符号化する(ステップS204)。第1送信部18Fは、第2符号化部18Eで符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する(ステップS206)。
次に、第1判断部18Gおよび第2判断部20Bの各々が、ネットワーク40の帯域が第1のビットレートを超えたか、または、音声区間の開始を判断したか、を判断する(ステップS208)。
ネットワーク40の帯域が第1のビットレート以下であり、且つ、音声区間の開始が判断されない場合(ステップS208:No)、上記ステップS204へ戻る。
一方、ネットワーク40の帯域が第1のビットレートを超えた場合、または、音声区間の開始を判断した場合(ステップS208:Yes)、ステップS210へ進む。
ステップS210では、第1制御部20Cが、取得部18Aの取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える(ステップS210)。ステップS210の処理によって、取得部18Aの出力先は、第1符号化部18Dに切替えられる。このため、ステップS210以降では、取得部18Aは、第1符号化部18Dに音データを出力する。
第1符号化部18Dは、取得部18Aから取得した音データを符号化する(ステップS212)。第1送信部18Fは、第1符号化部18Dで符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する(ステップS214)。
次に、制御部20は、送信処理を終了するか否かを判断する(ステップS216)。ステップS216の判断は、第1の実施の形態のステップS116と同様にすればよい。
制御部20が、送信処理を終了しないと判断すると(ステップS216:No)、上記ステップS212へ戻る。一方、制御部20が、送信処理を終了すると判断すると(ステップS216:Yes)、本ルーチンを終了する。
以上説明したように、本実施の形態の送信装置10Aは、取得部18Aと、第1符号化部18Dと、第2符号化部18Eと、第1送信部18Fと、第1判断部18Gと、第1制御部20Cと、第2判断部20Bと、を備える。
第2判断部20Bは、取得部18Aが取得した音データから、音声区間の開始を判断する。第1制御部20Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。
このように、本実施の形態の送信装置10Aでは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。
このように、本実施の形態の送信装置10Aでは、ネットワーク40の帯域が第1のビットレート以下である場合であっても、音声区間の開始が判断された場合には、第1符号化部18Dで音データの符号化を行う。そして、送信装置10Aでは、第1符号化部18Dで符号化した音データを、ネットワーク40を介して音声認識装置12へ送信する。
このため、本実施の形態の送信装置10Aでは、ネットワーク40の帯域が第1のビットレートに到達する前に、ユーザによる発声が開始された場合であっても、該発声の音声データを含む音データを、高精度に音声認識を行うことの可能な形式で音声認識装置12へ送信することができる。また、本実施の形態の送信装置10Aでは、ユーザによる発声と同時にネットワーク転送を開始する場合に比べて、ネットワーク40の帯域が拡大されている。このため、音声認識装置12への送信の遅延を抑制することができる。
従って、本実施の形態の送信装置10Aでは、第1の実施の形態の送信装置10で得られる効果に加えて、更に、送信処理プログラム起動後のユーザによる最初の発声による音声データを含む音データを、高精度に音声認識を行うことの可能な形式で、音声認識装置12へ送信することができる。このため、本実施の形態の送信装置10Aは、更に高精度に、音声認識可能な音データを音声認識装置12へ送信することができる。
(第3の実施の形態)
本実施の形態では、第2制御部を更に備えた構成を説明する。
図6は、本実施の形態の送信装置10Bの一例を示すブロック図である。
送信装置10Bは、音声認識装置12にネットワーク40を介して接続されている。音声認識装置12およびネットワーク40は、第1の実施の形態と同様である。
送信装置10Bは、符号化した音データを、ネットワーク40を介して音声認識装置12へ送信する。送信装置10Bは、入力部14と、UI部16と、制御部22と、を備える。制御部22と、入力部14およびUI部16と、はデータや信号授受可能に接続されている。入力部14およびUI部16は、第1の実施の形態と同様である。
制御部22は、CPUなどを含んで構成されるコンピュータであり、送信装置10B全体を制御する。なお、制御部22は、CPUに限定されず、回路などで構成してもよい。
制御部22は、取得部18Aと、第1切替部18Bと、第2判断部22Bと、第1制御部20Cと、第1符号化部18Dと、第2符号化部18Eと、第1送信部18Fと、第1判断部18Gと、第2制御部22Dと、を備える。取得部18A、第1切替部18B、第2判断部22B、第1制御部20C、第1符号化部18D、第2符号化部18E、第1送信部18F、第1判断部18G、および第2制御部22Dの一部またはすべては、例えば、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ICなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
取得部18A、第1切替部18B、第1符号化部18D、第2符号化部18E、第1送信部18F、および第1判断部18Gは、第1の実施の形態と同様である。第1制御部20Cは、第2の実施の形態と同様である。
第2判断部22Bは、第2の実施の形態の第2判断部20Bと同様に、取得部18Aが取得した音データから、音声区間の開始を判断する。
本実施の形態では、第2判断部22Bは、第2制御部22Dによって制御される。第2制御部22Dは、入力部14に音声が入力される期間を推測し、該期間(以下、第3期間とする)に取得した音データから音声区間の開始を判断するように、第2判断部22Bを制御する。
例えば、制御部22が送信プログラムを起動することによって、UI部16に、対話形式の文字画像を表示する。例えば、制御部22は、文字画像「これでよろしいですか?」をUI部16に表示する。なお、制御部22は、図示を省略するスピーカーから、「これでよろしいですか?」の音を出力してもよい。すると、ユーザは、該問いかけに対する返答、例えば、「はい」を発声する。入力部14は、ユーザによる発声「はい」を示す音データを、取得部18Aへ出力する。
この場合、第2制御部22Dは、問いかけを示す文字画像を表示後、または問いかけを示す音を出力した後を開始時間とし、該開始時間から、ユーザによる返答の音声が発せられて該音声が終わるまでの期間を、入力部14に音声が入力される第3期間として推測する。該開始時間から音声が終わるまでの第3期間の長さは、次のように推測すればよい。例えば、第2制御部22Dは、問いかけに対する返答パターンを複数種類予め用意し、問いかけに対応する複数種類の返答パターンの内、最も長い(発声時間の長い)返答パターンの音声の時間を、該第3期間の長さとして推測すればよい。
そして、第2制御部22Dは、推測した開始時間から上記長さの第3期間に取得した音データから、音声区間の開始を判断するように、第2判断部22Bを制御すればよい。
なお、送信装置10Bの実行する送信処理の手順は、第2判断部22B(第2判断部20B)による音声区間の開始の判断が、第2制御部22Dによって制御された第3期間に限定される以外は、第2の実施の形態と同様である。
以上説明したように、本実施の形態の送信装置10Bは、第2の実施の形態の構成に加えて、第2制御部22Dを備える。また、第2の実施の形態における第2判断部20Bに代えて、第2判断部22Bを備える。第2判断部22Bは、第2制御部22Dによって制御される。そして、第2制御部22Dは、音声が入力される第3期間を推測し、該第3期間に取得した音データから音声区間の開始を判断するように、第2判断部22Bを制御する。
このため、本実施の形態の送信装置10Bでは、送信装置10Bから発せられた音(例えば、問いかけを示す音)の音データから、音声区間の開始が判断されることが抑制される。
従って、本実施の形態の送信装置10Bは、上記第1の実施の形態および第2の実施の形態の効果に加えて、更に、音声区間の開始を精度良く判断することができる。
(第4の実施の形態)
本実施の形態では、送信装置と、音声認識装置12と、を備えた音声認識システムを説明する。
図7は、本実施の形態の音声認識システム11の一例を示すブロック図である。
音声認識システム11は、送信装置10Cと、音声認識装置12Aと、を備える。送信装置10Cと、音声認識装置12Aと、は、ネットワーク40を介して接続されている。ネットワーク40は、第1の実施の形態と同様である。
送信装置10Cは、符号化した音データを、ネットワーク40を介して音声認識装置12Aへ送信する。
送信装置10Cは、例えば、携帯端末などに適用される。音声認識装置12Aは、例えば、サーバ装置などに適用される。なお、音声認識装置12Aは、送信装置10Cに比べて高い計算性能を有し、より高度なアルゴリズムを実行可能である。
送信装置10Cは、入力部14と、記憶部15と、UI部16と、制御部24と、を備える。制御部24と、入力部14、記憶部15、およびUI部16と、は、データや信号授受可能に接続されている。入力部14およびUI部16は、第1の実施の形態と同様である。
記憶部15は、各種データを記憶する。記憶部15は、例えば、HDD(ハードディスクドライブ)である。なお、記憶部15を制御部24内に備えた構成とし、内部メモリ(バッファ)としてもよい。
本実施の形態では、記憶部15は、入力部14から制御部24に出力された音データと、該音データの入力時刻を示す時刻情報と、を対応づけて記憶する。音データの入力時刻とは、対応する音データの音が、入力部14に入力された(すなわち、マイクによって音データに変換された)ときの時刻である。
図8は、記憶部15に記憶される音データのデータ構成の一例を示す図である。図8に示すように、記憶部15は、入力時刻を示す時刻情報と、音データと、を対応づけて記憶する。すなわち、記憶部15に記憶される音データは、第1符号化部18Dや第2符号化部18Eによって符号化されていない音データであって、入力部14から取得した音データそのもの(生データ(RAWデータ))である。入力部14に入力された音は、記憶部15の音データとして逐次追記されることとなる。
図7に戻り、制御部24は、CPUなどを含んで構成されるコンピュータであり、送信装置10C全体を制御する。なお、制御部24は、CPUに限定されず、回路などで構成してもよい。
制御部24は、取得部24Aと、第2切替部24Bと、第1切替部18Bと、第2判断部20Bと、第1制御部20Cと、第1符号化部18Dと、第2符号化部18Eと、第1送信部24Fと、第1判断部18Gと、第3制御部24Cと、第1受信部24Dと、を備える。取得部24A、第2切替部24B、第1切替部18B、第2判断部20B、第1制御部20C、第1符号化部18D、第2符号化部18E、第1送信部24F、第1判断部18G、第3制御部24C、および第1受信部24Dの一部またはすべては、例えば、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ICなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
第1切替部18B、第1符号化部18D、第2符号化部18E、および第1判断部18Gは、第1の実施の形態と同様である。第2判断部20Bおよび第1制御部20Cは、第2の実施の形態と同様である。
取得部24Aは、入力部14から音データを取得する。入力部14は、音が入力されると、音の音データを順次取得部24Aへ出力する。取得部24Aは、入力部14から、音データを取得する。取得部24Aは、取得した音データを、順次記憶部15に記憶する。取得部24Aは、入力部14から取得部24Aに出力された音データと、該音データの入力時刻を示す時刻情報と、を対応づけて記憶部15に順次記憶する。
第2切替部24Bは、第1符号化部18Dまたは第2符号化部18Eへの音データの出力元を、取得部24Aまたは記憶部15に切替える。第2切替部24Bの切替は、第3制御部24Cによって制御される。
第1受信部24Dは、音声認識装置12Aから、音声区間の開始時刻を受信する。第3制御部24Cは、開始時刻を受信した場合に、第1符号化部18Dまたは第2符号化部18Eへ出力する音データを、取得部24Aが入力部14から取得した音データから、記憶部15に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える。
このため、第1符号化部18Dおよび第2符号化部18Eは、音声認識装置12Aから音声区間の開始時刻を受信するまでは、取得部24Aが入力部14から取得した音データを符号化する。一方、第1符号化部18Dおよび第2符号化部18Eは、音声認識装置12Aから音声区間の開始時刻を受信した後は、記憶部15に記憶された音データの内、受信した開始時刻以降の時刻情報に対応づけられた音データを符号化する。
また、上記第2の実施の形態で説明したように、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合、または、音声区間の開始が判断された場合に、第1符号化部18Dが、音データを符号化する。また、起動から、ネットワーク40の帯域が第1のビットレートを超えず、且つ、音声区間の開始が判断されない期間は、第2符号化部18Eが、音データを符号化する。
第1送信部24Fは、第1符号化部18Dまたは第2符号化部18Eで符号化された音データを、ネットワーク40を介して音声認識装置12Aへ送信する。本実施の形態では、第1送信部24Fは、符号化された音声データと、該音データに対応する時刻情報と、を送信する。
図9は、フレームの一例を示す図である。第1送信部24Fが送信するフレームは、例えば、図9に示すように、フレームサイズと、時刻情報と、ビットレートと、音データと、を含む。フレームサイズ、時刻情報、およびビットレートは、固定長である。音データは、可変長である。フレームに含まれるビットレートは、符号化された音データのビットレートを示す。
音声認識装置12Aは、符号化された音データを受信し、音声認識を行う。
音声認識装置12Aは、制御部13を備える。制御部13は、CPUなどを含んで構成されるコンピュータであり、音声認識装置12A全体を制御する。なお、制御部13は、CPUに限定されず、回路などで構成してもよい。
制御部13は、第2受信部13Aと、復号部13Bと、第3判断部13Cと、第2送信部13Dと、を備える。第2受信部13A、復号部13B、第3判断部13C、および第2送信部13Dの一部またはすべては、例えば、CPUなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ICなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
第2受信部13Aは、符号化された音データを、ネットワーク40を介して送信装置10Cから受信する。本実施の形態では、第2受信部13Aは、符号化された音データと、時刻情報と、を受信する。
復号部13Bは、符号化された音データを復号する。これにより、復号部13Bは、復号した音データと、該音データに対応する時刻情報と、を得る。
第3判断部13Cは、復号部13Bで復号された音データに基づいて、音声区間の開始を判断する。第3判断部13Cは、第2判断部20Bと同様にして、音データから、音声区間の開始を判断する。
但し、音声認識装置12Aに設けられた第3判断部13Cは、送信装置10Cに設けられた第2判断部20Bに比べて、より大きな計算機性能を要求する高精度な音声区間の開始時刻の判断が可能である。すなわち、第3判断部13Cは、第2判断部20Bより高精度に、音声区間の開始を判断する。
このため、第3判断部13Cは、第2のビットレートで符号化された音データを受信した場合であっても、より高い第1のビットレートで符号化された音データと略同様の高精度で、音声区間の開始を判断することができる。
第2送信部13Dは、第3判断部13Cによって判断された音声区間の開始された開始時刻を、送信装置10Cへ送信する。
第2の実施の形態と同様に、送信装置10Cでは、送信装置10Cが送信処理プログラムを起動してから、ネットワーク40の帯域が第1のビットレートを超えず、且つ、音声区間の開始が判断されない場合、第1符号化部18Dが符号化した音データが、音声認識装置12Aへ送信される。そして、本実施の形態の送信装置10Cの第1受信部24Dでは、より高精度に音声区間の開始を判断可能な音声認識装置12Aから開始時刻を受信すると、第3制御部24Cが、第1符号化部18Dまたは第2符号化部18Eに出力する音データを、記憶部15に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える。
このため、第1送信部24Fが音声認識装置12Aに送信した音データの少なくとも一部が、音声認識装置12Aに再送信され、記憶部15から読み出し、符号化した音データが音声認識装置12Aに送信されることとなる。
次に、送信装置10Cで実行する送信処理の手順を説明する。送信装置10Cでは、第2の実施の形態の送信装置10Aと同様の送信処理を実行する(図5参照)。そして、本実施の形態の送信装置10Cでは、図5に示す送信処理を示すフローチャートに、図10に示す割り込み処理を実行する。
図10は、送信装置10Cが行う割り込み処理の手順を示すフローチャートである。
第1受信部24Dは、音声認識装置12Aから音声区間の開始時刻を受信したか否かを判断する(ステップS300)。ステップS300で否定判断すると(ステップS300:No)、本ルーチンを終了する。一方、ステップS300で肯定判断すると(ステップS300:Yes)、ステップS302へ進む。
ステップS302では、第3制御部24Cが、第1符号化部18Dまたは第2符号化部18Eへ出力する音データを、取得部24Aが入力部14から取得した音データから、記憶部15に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える(ステップS302)。そして、本ルーチンを終了する。
次に、音声認識装置12Aで実行する音声認識処理の手順を説明する。図11は、音声認識装置12Aで実行する音声認識処理の手順を示すフローチャートである。
まず、第2受信部13Aが、符号化された音データと時刻情報とを、送信装置10Cから受信する(ステップS400)。
次に、復号部13Bが、ステップS400で受信した、符号化された音データを復号する(ステップS402)。次に、第3判断部13Cが、ステップS402で復号された音データに基づいて、音声区間の開始時刻を判断する(ステップS404)。次に、第2送信部13Dが、ステップS404で判断された音声区間の開始時刻を、送信装置10Cへ送信する(ステップS406)。そして、本ルーチンを終了する。
以上説明したように、本実施の形態では、音声認識装置12Aは、第3判断部13Cを備える。第3判断部13Cは、音データから、音声区間の開始を前記第2判断部より高精度に判断する。そして、本実施の形態の送信装置10Cの第1受信部24Dでは、より高精度に音声区間の開始を判断可能な音声認識装置12Aから開始時刻を受信すると、第3制御部24Cが、第1符号化部18Dまたは第2符号化部18Eに出力する音データを、記憶部15に記憶されている、受信した開始時刻以降の時刻情報に対応付けられた音データに切替える。
ここで、本実施の形態の送信装置10Cでは、第2の実施の形態と同様に、送信装置10Cが送信処理プログラムを起動してから、ネットワーク40の帯域が第1のビットレートを超えず、且つ、音声区間の開始が判断されない場合、第1符号化部18Dが符号化した音データが、音声認識装置12Aへ送信される。そして、第1判断部18Gおよび第2判断部20Bが、各々、ネットワーク40の帯域が第1のビットレートを超えたと判断、または、音声区間の開始が判断された場合に、音データの出力先が第2符号化部18Eから第1符号化部18Dに切替えられる。
このため、第1送信部24Fが音声認識装置12Aに送信した、より低い第2のビットレートで符号化可能な第2符号化部18Eで符号化された音データの少なくとも一部が、記憶部15から読み出され、第1符号化部18Dによって符号化された後に、音声認識装置12Aに再度送信されることとなる。
このように、本実施の形態の音声認識システム11では、第2符号化部18Eで符号化された音データを有効に活用し、音声区間の開始を高精度に判断する第3判断部13Cを用いて音声区間を判断し、音データの再送信の制御に用いる。
従って、本実施の形態の音声認識システム11では、上記実施の形態の効果に加えて、ユーザの音声を精度良く認識することができると共に、音声の誤認識を抑制することができる。
(第5の実施の形態)
次に、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aのハードウェア構成を説明する。図12は、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aのハードウェア構成例を示すブロック図である。
上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aのハードウェアは、I/F48、CPU40、ROM42、RAM44、およびHDD46などがバス50により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。
CPU40は、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aの各々の全体の処理を制御する演算装置である。RAM44は、CPU40による各種処理に必要なデータを記憶する。ROM42は、CPU40による各種処理を実現するプログラム等を記憶する。HDD46は、上述した記憶部15などに格納されるデータを記憶する。I/F48は、外部装置や外部端末に通信回線等を介して接続し、接続した外部装置や外部端末との間でデータを送受信するためのインタフェースである。
上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aで実行される送信処理および音声認識処理を実行するためのプログラムは、ROM42等に予め組み込んで提供される。
なお、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aで実行される送信処理および音声認識処理を実行するためのプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。
また、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aで実行される送信処理および音声認識処理を実行するためのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に記憶し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aで実行される送信処理および音声認識処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。
上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aで実行される送信処理および音声認識処理を実行するためのプログラムは、上述した各部を含むモジュール構成となっている。実際のハードウェアとしてはCPU40がROM42等の記憶媒体から、上記処理を実行するためのプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上記各部が主記憶装置上に生成されるようになっている。
なお、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aの各機能的な構成要素は、プログラム(ソフトウェア)により実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
なお、上記には、本発明の実施の形態を説明したが、上記実施の形態は、一例として提示したものであり、発明の範囲を限定することは意図していない。この新規な上記実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施の形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10、10A、10B、10C 送信装置
11 音声認識システム
12、12A 音声認識装置
13A 第2受信部
13B 復号部
13C 第3判断部
13D 第2送信部
15 記憶部
18A、24A 取得部
18C、20C 第1制御部
18D 第1符号化部
18E 第2符号化部
18F、24F 第1送信部
18G 第1判断部
20B、22B 第2判断部
22D 第2制御部
24C 第3制御部
24D 第1受信部

Claims (6)

  1. 音データを取得する取得部と、
    前記音データを第1のビットレートで符号化可能な第1符号化部と、
    前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
    輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
    前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
    前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信部と、
    を備え
    前記第1制御部は、
    取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する、
    送信装置。
  2. 前記第1制御部は、
    当該送信装置が起動してから前記ネットワークの帯域が前記第1のビットレートを超えたと判断されるまでの第1期間に取得した前記音データの出力先を、前記第2符号化部とした状態を維持し、
    前記ネットワークの帯域が前記第1のビットレートを超えたと判断された後の第2期間に取得した前記音データの出力先を、前記第1符号化部とする、
    請求項1に記載の送信装置。
  3. 音データを取得する取得部と、
    取得した前記音データから、音声区間の開始を判断する第2判断部と、
    前記音データを第1のビットレートで符号化可能な第1符号化部と、
    前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
    輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
    前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
    音声が入力される期間を推測し、該期間に取得した前記音データから前記音声区間の開始を判断するように、前記第2判断部を制御する第2制御部と、
    前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信部と、
    を備え、
    前記第1制御部は、
    前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える、
    送信装置。
  4. 送信装置と、輻輳制御されたネットワークを介して前記送信装置に接続された音声認識装置と、を備えた音声認識システムであって、
    前記送信装置は、
    音を入力する入力部から、音データを取得する取得部と、
    前記音データと、前記音データの入力時刻を示す時刻情報と、を対応づけて記憶する記憶部と、
    取得した前記音データから、音声区間の開始を判断する第2判断部と、
    前記音データを第1のビットレートで符号化可能な第1符号化部と、
    前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
    前記ネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
    前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
    前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して前記音声認識装置へ送信する第1送信部と、
    前記音声認識装置から、音声区間の開始時刻を受信する第1受信部と、
    前記開始時刻を受信した場合に、前記第1符号化部または前記第2符号化部へ出力する前記音データを、前記取得部が前記入力部から取得した前記音データから、前記記憶部に記憶されている、受信した前記開始時刻以降の前記時刻情報に対応付けられた前記音データに切替える第3制御部と、
    を備え、
    前記音声認識装置は、
    符号化された前記音データを前記送信装置から受信する第2受信部と、
    符号化された前記音データを復号する復号部と、
    復号された前記音データに基づいて、音声区間の開始を前記第2判断部より高精度に判断する第3判断部と、
    判断された前記音声区間の開始された開始時刻を、前記送信装置へ送信する第2送信部と、
    を備える、
    音声認識システム。
  5. 音データを取得する取得ステップと、
    前記音データを第1のビットレートで符号化する第1符号化ステップと、
    前記音データを、前記第1のビットレートより低い第2のビットレートで符号化する第2符号化ステップと、
    輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断ステップと、
    前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化ステップから前記第1符号化ステップに切替える第1制御ステップと、
    前記第1符号化ステップまたは前記第2符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信ステップと、
    を含み、
    前記第1制御ステップは、
    取得した前記音データの出力先を、前記第2符号化ステップを実行する第2符号化部から前記第1符号化ステップを実行する第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する、
    送信方法。
  6. 音データを取得する取得ステップと、
    前記音データを第1のビットレートで符号化する第1符号化ステップと、
    前記音データを、前記第1のビットレートより低い第2のビットレートで符号化する第2符号化ステップと、
    輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断ステップと、
    前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化ステップから前記第1符号化ステップに切替える第1制御ステップと、
    前記第1符号化ステップまたは前記第2符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信ステップと、
    をコンピュータに実行させ
    を含み、
    前記第1制御ステップは、
    取得した前記音データの出力先を、前記第2符号化ステップを実行する第2符号化部から前記第1符号化ステップを実行する第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する、
    プログラム。
JP2015049866A 2015-03-12 2015-03-12 送信装置、音声認識システム、送信方法、およびプログラム Active JP6556473B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015049866A JP6556473B2 (ja) 2015-03-12 2015-03-12 送信装置、音声認識システム、送信方法、およびプログラム
US15/065,000 US20160267918A1 (en) 2015-03-12 2016-03-09 Transmission device, voice recognition system, transmission method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015049866A JP6556473B2 (ja) 2015-03-12 2015-03-12 送信装置、音声認識システム、送信方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016170272A JP2016170272A (ja) 2016-09-23
JP6556473B2 true JP6556473B2 (ja) 2019-08-07

Family

ID=56886786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015049866A Active JP6556473B2 (ja) 2015-03-12 2015-03-12 送信装置、音声認識システム、送信方法、およびプログラム

Country Status (2)

Country Link
US (1) US20160267918A1 (ja)
JP (1) JP6556473B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808054B (zh) * 2019-11-04 2022-05-06 思必驰科技股份有限公司 多路音频的压缩与解压缩方法及系统
CN114627876B (zh) * 2022-05-09 2022-08-26 杭州海康威视数字技术股份有限公司 基于音频动态调节的智能语音识别安全防御方法及装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US7499453B2 (en) * 2000-05-19 2009-03-03 Cisco Technology, Inc. Apparatus and methods for incorporating bandwidth forecasting and dynamic bandwidth allocation into a broadband communication system
JP2002290436A (ja) * 2001-03-28 2002-10-04 Ricoh Co Ltd 音声通信装置、その方法及びプログラムを記録した記録媒体
US7855966B2 (en) * 2001-07-16 2010-12-21 International Business Machines Corporation Network congestion detection and automatic fallback: methods, systems and program products
US7023498B2 (en) * 2001-11-19 2006-04-04 Matsushita Electric Industrial Co. Ltd. Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus
JP2003195880A (ja) * 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置
US7313520B2 (en) * 2002-03-20 2007-12-25 The Directv Group, Inc. Adaptive variable bit rate audio compression encoding
GB0213073D0 (en) * 2002-06-07 2002-07-17 Hewlett Packard Co Method of maintaining availability of requested network resources
US7643414B1 (en) * 2004-02-10 2010-01-05 Avaya Inc. WAN keeper efficient bandwidth management
US20060031564A1 (en) * 2004-05-24 2006-02-09 Brassil John T Methods and systems for streaming data at increasing transmission rates
JP4406382B2 (ja) * 2005-05-13 2010-01-27 日本電信電話株式会社 音声符号化選択制御方法
JP2007143076A (ja) * 2005-11-22 2007-06-07 Ntt Electornics Corp コーデック切り替え装置
US8411571B2 (en) * 2006-12-13 2013-04-02 Viasat, Inc. Video and data network load balancing with video drop
JP5139747B2 (ja) * 2007-08-17 2013-02-06 株式会社ユニバーサルエンターテインメント 電話端末装置及びこれを用いた音声認識システム
JP5151763B2 (ja) * 2008-07-22 2013-02-27 日本電気株式会社 映像配信システム、映像配信装置、映像受信装置、映像配信方法、映像受信方法及びプログラム
US8184529B2 (en) * 2008-10-17 2012-05-22 Brother Kogyo Kabushiki Kaisha Communication apparatus, method, and program for transmitting and receiving packet data
JP5058280B2 (ja) * 2010-03-12 2012-10-24 シャープ株式会社 翻訳装置、翻訳方法及びコンピュータプログラム
US8666753B2 (en) * 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US10708335B2 (en) * 2012-11-16 2020-07-07 Time Warner Cable Enterprises Llc Situation-dependent dynamic bit rate encoding and distribution of content
US9800638B2 (en) * 2013-11-04 2017-10-24 At&T Intellectual Property I, L.P. Downstream bandwidth aware adaptive bit rate selection
JP6341023B2 (ja) * 2014-09-16 2018-06-13 株式会社リコー 端末装置、データ送信方法およびプログラム

Also Published As

Publication number Publication date
JP2016170272A (ja) 2016-09-23
US20160267918A1 (en) 2016-09-15

Similar Documents

Publication Publication Date Title
US7848314B2 (en) VOIP barge-in support for half-duplex DSR client on a full-duplex network
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP6416376B2 (ja) 冗長性に基づくパケット送信エラー回復のシステムおよび方法
JP6520100B2 (ja) 電子機器制御システム、端末装置、及び、サーバー
US9245529B2 (en) Adaptive encoding of a digital signal with one or more missing values
EP2140637B1 (en) Method of transmitting data in a communication system
JPWO2010140546A1 (ja) 符号化方法、符号化装置、符号化プログラム及びこの記録媒体
JP6556473B2 (ja) 送信装置、音声認識システム、送信方法、およびプログラム
JP3211771B2 (ja) 音声送受信装置
JPH10190498A (ja) 不連続伝送中に快適雑音を発生させる改善された方法
KR101516113B1 (ko) 음성 복호 장치
US11087778B2 (en) Speech-to-text conversion based on quality metric
JP5212208B2 (ja) 受信装置、方法及びプログラム
JP2004020613A5 (ja)
JP6011188B2 (ja) エコー経路遅延測定装置、方法及びプログラム
JP4406382B2 (ja) 音声符号化選択制御方法
JP6972576B2 (ja) 通信装置、通信システム、通信方法及びプログラム
JP5135001B2 (ja) 無線通信装置、無線通信方法および無線通信システム
JP4973376B2 (ja) 音声の基本周期を検出する装置およびその基本周期を用いて話速変換を行う装置
JPWO2010103855A1 (ja) 音声復号装置及び音声復号方法
JP5806719B2 (ja) 音声パケット再生装置とその方法とプログラム
JP6092251B2 (ja) オーバーフローを検出するための装置、デバイス、方法及びコンピュータプログラム
JP2002196795A (ja) 音声復号装置及び音声符号化・復号装置
JP2005173215A (ja) 音声認識システム
JP2016158133A (ja) 通信装置、遅延回復方法および遅延回復プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190710

R151 Written notification of patent or utility model registration

Ref document number: 6556473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151