JP6556473B2 - 送信装置、音声認識システム、送信方法、およびプログラム - Google Patents
送信装置、音声認識システム、送信方法、およびプログラム Download PDFInfo
- Publication number
- JP6556473B2 JP6556473B2 JP2015049866A JP2015049866A JP6556473B2 JP 6556473 B2 JP6556473 B2 JP 6556473B2 JP 2015049866 A JP2015049866 A JP 2015049866A JP 2015049866 A JP2015049866 A JP 2015049866A JP 6556473 B2 JP6556473 B2 JP 6556473B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound data
- encoding
- bit rate
- encoding unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Description
図1は、本実施の形態の送信装置10の一例を示すブロック図である。
本実施の形態では、音データから、音声区間の開始を判断する第2判断部を更に備えた構成を説明する。
本実施の形態では、第2制御部を更に備えた構成を説明する。
本実施の形態では、送信装置と、音声認識装置12と、を備えた音声認識システムを説明する。
次に、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aのハードウェア構成を説明する。図12は、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aのハードウェア構成例を示すブロック図である。
11 音声認識システム
12、12A 音声認識装置
13A 第2受信部
13B 復号部
13C 第3判断部
13D 第2送信部
15 記憶部
18A、24A 取得部
18C、20C 第1制御部
18D 第1符号化部
18E 第2符号化部
18F、24F 第1送信部
18G 第1判断部
20B、22B 第2判断部
22D 第2制御部
24C 第3制御部
24D 第1受信部
Claims (6)
- 音データを取得する取得部と、
前記音データを第1のビットレートで符号化可能な第1符号化部と、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信部と、
を備え、
前記第1制御部は、
取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する、
送信装置。 - 前記第1制御部は、
当該送信装置が起動してから前記ネットワークの帯域が前記第1のビットレートを超えたと判断されるまでの第1期間に取得した前記音データの出力先を、前記第2符号化部とした状態を維持し、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された後の第2期間に取得した前記音データの出力先を、前記第1符号化部とする、
請求項1に記載の送信装置。 - 音データを取得する取得部と、
取得した前記音データから、音声区間の開始を判断する第2判断部と、
前記音データを第1のビットレートで符号化可能な第1符号化部と、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
音声が入力される期間を推測し、該期間に取得した前記音データから前記音声区間の開始を判断するように、前記第2判断部を制御する第2制御部と、
前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信部と、
を備え、
前記第1制御部は、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える、
送信装置。 - 送信装置と、輻輳制御されたネットワークを介して前記送信装置に接続された音声認識装置と、を備えた音声認識システムであって、
前記送信装置は、
音を入力する入力部から、音データを取得する取得部と、
前記音データと、前記音データの入力時刻を示す時刻情報と、を対応づけて記憶する記憶部と、
取得した前記音データから、音声区間の開始を判断する第2判断部と、
前記音データを第1のビットレートで符号化可能な第1符号化部と、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
前記ネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して前記音声認識装置へ送信する第1送信部と、
前記音声認識装置から、音声区間の開始時刻を受信する第1受信部と、
前記開始時刻を受信した場合に、前記第1符号化部または前記第2符号化部へ出力する前記音データを、前記取得部が前記入力部から取得した前記音データから、前記記憶部に記憶されている、受信した前記開始時刻以降の前記時刻情報に対応付けられた前記音データに切替える第3制御部と、
を備え、
前記音声認識装置は、
符号化された前記音データを前記送信装置から受信する第2受信部と、
符号化された前記音データを復号する復号部と、
復号された前記音データに基づいて、音声区間の開始を前記第2判断部より高精度に判断する第3判断部と、
判断された前記音声区間の開始された開始時刻を、前記送信装置へ送信する第2送信部と、
を備える、
音声認識システム。 - 音データを取得する取得ステップと、
前記音データを第1のビットレートで符号化する第1符号化ステップと、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化する第2符号化ステップと、
輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断ステップと、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化ステップから前記第1符号化ステップに切替える第1制御ステップと、
前記第1符号化ステップまたは前記第2符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信ステップと、
を含み、
前記第1制御ステップは、
取得した前記音データの出力先を、前記第2符号化ステップを実行する第2符号化部から前記第1符号化ステップを実行する第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する、
送信方法。 - 音データを取得する取得ステップと、
前記音データを第1のビットレートで符号化する第1符号化ステップと、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化する第2符号化ステップと、
輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断ステップと、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化ステップから前記第1符号化ステップに切替える第1制御ステップと、
前記第1符号化ステップまたは前記第2符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信ステップと、
をコンピュータに実行させ、
を含み、
前記第1制御ステップは、
取得した前記音データの出力先を、前記第2符号化ステップを実行する第2符号化部から前記第1符号化ステップを実行する第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する、
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015049866A JP6556473B2 (ja) | 2015-03-12 | 2015-03-12 | 送信装置、音声認識システム、送信方法、およびプログラム |
US15/065,000 US20160267918A1 (en) | 2015-03-12 | 2016-03-09 | Transmission device, voice recognition system, transmission method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015049866A JP6556473B2 (ja) | 2015-03-12 | 2015-03-12 | 送信装置、音声認識システム、送信方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016170272A JP2016170272A (ja) | 2016-09-23 |
JP6556473B2 true JP6556473B2 (ja) | 2019-08-07 |
Family
ID=56886786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015049866A Active JP6556473B2 (ja) | 2015-03-12 | 2015-03-12 | 送信装置、音声認識システム、送信方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20160267918A1 (ja) |
JP (1) | JP6556473B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808054B (zh) * | 2019-11-04 | 2022-05-06 | 思必驰科技股份有限公司 | 多路音频的压缩与解压缩方法及系统 |
CN114627876B (zh) * | 2022-05-09 | 2022-08-26 | 杭州海康威视数字技术股份有限公司 | 基于音频动态调节的智能语音识别安全防御方法及装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3157116B2 (ja) * | 1996-03-29 | 2001-04-16 | 三菱電機株式会社 | 音声符号化伝送システム |
US7499453B2 (en) * | 2000-05-19 | 2009-03-03 | Cisco Technology, Inc. | Apparatus and methods for incorporating bandwidth forecasting and dynamic bandwidth allocation into a broadband communication system |
JP2002290436A (ja) * | 2001-03-28 | 2002-10-04 | Ricoh Co Ltd | 音声通信装置、その方法及びプログラムを記録した記録媒体 |
US7855966B2 (en) * | 2001-07-16 | 2010-12-21 | International Business Machines Corporation | Network congestion detection and automatic fallback: methods, systems and program products |
US7023498B2 (en) * | 2001-11-19 | 2006-04-04 | Matsushita Electric Industrial Co. Ltd. | Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus |
JP2003195880A (ja) * | 2001-12-28 | 2003-07-09 | Nec Corp | サーバ・クライアント型音声認識装置 |
US7313520B2 (en) * | 2002-03-20 | 2007-12-25 | The Directv Group, Inc. | Adaptive variable bit rate audio compression encoding |
GB0213073D0 (en) * | 2002-06-07 | 2002-07-17 | Hewlett Packard Co | Method of maintaining availability of requested network resources |
US7643414B1 (en) * | 2004-02-10 | 2010-01-05 | Avaya Inc. | WAN keeper efficient bandwidth management |
US20060031564A1 (en) * | 2004-05-24 | 2006-02-09 | Brassil John T | Methods and systems for streaming data at increasing transmission rates |
JP4406382B2 (ja) * | 2005-05-13 | 2010-01-27 | 日本電信電話株式会社 | 音声符号化選択制御方法 |
JP2007143076A (ja) * | 2005-11-22 | 2007-06-07 | Ntt Electornics Corp | コーデック切り替え装置 |
US8411571B2 (en) * | 2006-12-13 | 2013-04-02 | Viasat, Inc. | Video and data network load balancing with video drop |
JP5139747B2 (ja) * | 2007-08-17 | 2013-02-06 | 株式会社ユニバーサルエンターテインメント | 電話端末装置及びこれを用いた音声認識システム |
JP5151763B2 (ja) * | 2008-07-22 | 2013-02-27 | 日本電気株式会社 | 映像配信システム、映像配信装置、映像受信装置、映像配信方法、映像受信方法及びプログラム |
US8184529B2 (en) * | 2008-10-17 | 2012-05-22 | Brother Kogyo Kabushiki Kaisha | Communication apparatus, method, and program for transmitting and receiving packet data |
JP5058280B2 (ja) * | 2010-03-12 | 2012-10-24 | シャープ株式会社 | 翻訳装置、翻訳方法及びコンピュータプログラム |
US8666753B2 (en) * | 2011-12-12 | 2014-03-04 | Motorola Mobility Llc | Apparatus and method for audio encoding |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US10708335B2 (en) * | 2012-11-16 | 2020-07-07 | Time Warner Cable Enterprises Llc | Situation-dependent dynamic bit rate encoding and distribution of content |
US9800638B2 (en) * | 2013-11-04 | 2017-10-24 | At&T Intellectual Property I, L.P. | Downstream bandwidth aware adaptive bit rate selection |
JP6341023B2 (ja) * | 2014-09-16 | 2018-06-13 | 株式会社リコー | 端末装置、データ送信方法およびプログラム |
-
2015
- 2015-03-12 JP JP2015049866A patent/JP6556473B2/ja active Active
-
2016
- 2016-03-09 US US15/065,000 patent/US20160267918A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2016170272A (ja) | 2016-09-23 |
US20160267918A1 (en) | 2016-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7848314B2 (en) | VOIP barge-in support for half-duplex DSR client on a full-duplex network | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
JP6416376B2 (ja) | 冗長性に基づくパケット送信エラー回復のシステムおよび方法 | |
JP6520100B2 (ja) | 電子機器制御システム、端末装置、及び、サーバー | |
US9245529B2 (en) | Adaptive encoding of a digital signal with one or more missing values | |
EP2140637B1 (en) | Method of transmitting data in a communication system | |
JPWO2010140546A1 (ja) | 符号化方法、符号化装置、符号化プログラム及びこの記録媒体 | |
JP6556473B2 (ja) | 送信装置、音声認識システム、送信方法、およびプログラム | |
JP3211771B2 (ja) | 音声送受信装置 | |
JPH10190498A (ja) | 不連続伝送中に快適雑音を発生させる改善された方法 | |
KR101516113B1 (ko) | 음성 복호 장치 | |
US11087778B2 (en) | Speech-to-text conversion based on quality metric | |
JP5212208B2 (ja) | 受信装置、方法及びプログラム | |
JP2004020613A5 (ja) | ||
JP6011188B2 (ja) | エコー経路遅延測定装置、方法及びプログラム | |
JP4406382B2 (ja) | 音声符号化選択制御方法 | |
JP6972576B2 (ja) | 通信装置、通信システム、通信方法及びプログラム | |
JP5135001B2 (ja) | 無線通信装置、無線通信方法および無線通信システム | |
JP4973376B2 (ja) | 音声の基本周期を検出する装置およびその基本周期を用いて話速変換を行う装置 | |
JPWO2010103855A1 (ja) | 音声復号装置及び音声復号方法 | |
JP5806719B2 (ja) | 音声パケット再生装置とその方法とプログラム | |
JP6092251B2 (ja) | オーバーフローを検出するための装置、デバイス、方法及びコンピュータプログラム | |
JP2002196795A (ja) | 音声復号装置及び音声符号化・復号装置 | |
JP2005173215A (ja) | 音声認識システム | |
JP2016158133A (ja) | 通信装置、遅延回復方法および遅延回復プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190710 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6556473 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |