JP2016170272A - 送信装置、音声認識システム、送信方法、およびプログラム - Google Patents
送信装置、音声認識システム、送信方法、およびプログラム Download PDFInfo
- Publication number
- JP2016170272A JP2016170272A JP2015049866A JP2015049866A JP2016170272A JP 2016170272 A JP2016170272 A JP 2016170272A JP 2015049866 A JP2015049866 A JP 2015049866A JP 2015049866 A JP2015049866 A JP 2015049866A JP 2016170272 A JP2016170272 A JP 2016170272A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound data
- encoding
- bit rate
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 181
- 238000000034 method Methods 0.000 title claims description 52
- 238000010586 diagram Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
【解決手段】送信装置10の取得部18Aは、音データを取得する。第1符号化部18Dは、音データを第1のビットレートで符号化可能である。第2符号化部18Eは、音データを、第1のビットレートより低い第2のビットレートで符号化可能である。第1判断部18Gは、輻輳制御されたネットワーク40の帯域が第1のビットレートを超えたか否かを判断する。第1制御部18Cは、ネットワーク40の帯域が第1のビットレートを超えたと判断された場合に、取得した音データの出力先を第2符号化部18Eから第1符号化部18Dに切替える。第1送信部18Fは、第1符号化部18Dまたは第2符号化部18Eによって符号化された音データを、ネットワーク40を介して音声認識装置12へ送信する。
【選択図】図1
Description
図1は、本実施の形態の送信装置10の一例を示すブロック図である。
本実施の形態では、音データから、音声区間の開始を判断する第2判断部を更に備えた構成を説明する。
本実施の形態では、第2制御部を更に備えた構成を説明する。
本実施の形態では、送信装置と、音声認識装置12と、を備えた音声認識システムを説明する。
次に、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aのハードウェア構成を説明する。図12は、上記実施の形態の送信装置10、10A、10B、10C、音声認識装置12、12Aのハードウェア構成例を示すブロック図である。
11 音声認識システム
12、12A 音声認識装置
13A 第2受信部
13B 復号部
13C 第3判断部
13D 第2送信部
15 記憶部
18A、24A 取得部
18C、20C 第1制御部
18D 第1符号化部
18E 第2符号化部
18F、24F 第1送信部
18G 第1判断部
20B、22B 第2判断部
22D 第2制御部
24C 第3制御部
24D 第1受信部
Claims (8)
- 音データを取得する取得部と、
前記音データを第1のビットレートで符号化可能な第1符号化部と、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信部と、
を備える送信装置。 - 前記第1制御部は、
取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替えた後に、前記ネットワークの帯域が前記第1のビットレート以下と判断された場合、該出力先を前記第1符号化部に切替えた状態で維持する、請求項1に記載の送信装置。 - 前記第1制御部は、
当該送信装置が起動してから前記ネットワークの帯域が前記第1のビットレートを超えたと判断されるまでの第1期間に取得した前記音データの出力先を、前記第2符号化部とした状態を維持し、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された後の第2期間に取得した前記音データの出力先を、前記第1符号化部とする、
請求項1に記載の送信装置。 - 取得した前記音データから、音声区間の開始を判断する第2判断部を更に備え、
前記第1制御部は、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える、
請求項1に記載の送信装置。 - 音声が入力される期間を推測し、該期間に取得した前記音データから前記音声区間の開始を判断するように、前記第2判断部を制御する第2制御部を更に備えた、請求項4に記載の送信装置。
- 送信装置と、輻輳制御されたネットワークを介して前記送信装置に接続された音声認識装置と、を備えた音声認識システムであって、
前記送信装置は、
音を入力する入力部から、音データを取得する取得部と、
前記音データと、前記音データの入力時刻を示す時刻情報と、を対応づけて記憶する記憶部と、
取得した前記音データから、音声区間の開始を判断する第2判断部と、
前記音データを第1のビットレートで符号化可能な第1符号化部と、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化可能な第2符号化部と、
前記ネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断部と、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合、または、前記音声区間の開始が判断された場合に、取得した前記音データの出力先を前記第2符号化部から前記第1符号化部に切替える第1制御部と、
前記第1符号化部または前記第2符号化部によって符号化された前記音データを、前記ネットワークを介して前記音声認識装置へ送信する第1送信部と、
前記音声認識装置から、音声区間の開始時刻を受信する第1受信部と、
前記開始時刻を受信した場合に、前記第1符号化部または前記第2符号化部へ出力する前記音データを、前記取得部が前記入力部から取得した前記音データから、前記記憶部に記憶されている、受信した前記開始時刻以降の前記時刻情報に対応付けられた前記音データに切替える第3制御部と、
を備え、
前記音声認識装置は、
符号化された前記音データを前記送信装置から受信する第2受信部と、
符号化された前記音データを復号する復号部と、
復号された前記音データに基づいて、音声区間の開始を前記第2判断部より高精度に判断する第3判断部と、
判断された前記音声区間の開始された開始時刻を、前記送信装置へ送信する第2送信部と、
を備える、
音声認識システム。 - 音データを取得する取得ステップと、
前記音データを第1のビットレートで符号化する第1符号化ステップと、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化する第2符号化ステップと、
輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断ステップと、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化ステップから前記第1符号化ステップに切替える第1制御ステップと、
前記第1符号化ステップまたは前記第2符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信ステップと、
を含む、送信方法。 - 音データを取得する取得ステップと、
前記音データを第1のビットレートで符号化する第1符号化ステップと、
前記音データを、前記第1のビットレートより低い第2のビットレートで符号化する第2符号化ステップと、
輻輳制御されたネットワークの帯域が前記第1のビットレートを超えたか否かを判断する第1判断ステップと、
前記ネットワークの帯域が前記第1のビットレートを超えたと判断された場合に、取得した前記音データの出力先を前記第2符号化ステップから前記第1符号化ステップに切替える第1制御ステップと、
前記第1符号化ステップまたは前記第2符号化ステップによって符号化された前記音データを、前記ネットワークを介して音声認識装置へ送信する第1送信ステップと、
をコンピュータに実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015049866A JP6556473B2 (ja) | 2015-03-12 | 2015-03-12 | 送信装置、音声認識システム、送信方法、およびプログラム |
US15/065,000 US20160267918A1 (en) | 2015-03-12 | 2016-03-09 | Transmission device, voice recognition system, transmission method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015049866A JP6556473B2 (ja) | 2015-03-12 | 2015-03-12 | 送信装置、音声認識システム、送信方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016170272A true JP2016170272A (ja) | 2016-09-23 |
JP6556473B2 JP6556473B2 (ja) | 2019-08-07 |
Family
ID=56886786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015049866A Active JP6556473B2 (ja) | 2015-03-12 | 2015-03-12 | 送信装置、音声認識システム、送信方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20160267918A1 (ja) |
JP (1) | JP6556473B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627876A (zh) * | 2022-05-09 | 2022-06-14 | 杭州海康威视数字技术股份有限公司 | 基于音频动态调节的智能语音识别安全防御方法及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808054B (zh) * | 2019-11-04 | 2022-05-06 | 思必驰科技股份有限公司 | 多路音频的压缩与解压缩方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002290436A (ja) * | 2001-03-28 | 2002-10-04 | Ricoh Co Ltd | 音声通信装置、その方法及びプログラムを記録した記録媒体 |
JP2003195880A (ja) * | 2001-12-28 | 2003-07-09 | Nec Corp | サーバ・クライアント型音声認識装置 |
JP2006319685A (ja) * | 2005-05-13 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化選択制御方法、音声パケット送信装置、音声パケット受信装置、プログラム、記録媒体 |
JP2007143076A (ja) * | 2005-11-22 | 2007-06-07 | Ntt Electornics Corp | コーデック切り替え装置 |
JP2009049653A (ja) * | 2007-08-17 | 2009-03-05 | Mobi Techno:Kk | 電話端末装置及びこれを用いた音声認識システム |
JP2010028516A (ja) * | 2008-07-22 | 2010-02-04 | Nec Corp | 映像配信システム、映像配信装置、映像受信装置、映像配信方法、映像受信方法及びプログラム |
JP2015505991A (ja) * | 2011-12-12 | 2015-02-26 | モトローラ モビリティ エルエルシーMotorola Mobility Llc | オーディオ符号化のための方法および装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3157116B2 (ja) * | 1996-03-29 | 2001-04-16 | 三菱電機株式会社 | 音声符号化伝送システム |
US7499453B2 (en) * | 2000-05-19 | 2009-03-03 | Cisco Technology, Inc. | Apparatus and methods for incorporating bandwidth forecasting and dynamic bandwidth allocation into a broadband communication system |
US7855966B2 (en) * | 2001-07-16 | 2010-12-21 | International Business Machines Corporation | Network congestion detection and automatic fallback: methods, systems and program products |
US7023498B2 (en) * | 2001-11-19 | 2006-04-04 | Matsushita Electric Industrial Co. Ltd. | Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus |
US7313520B2 (en) * | 2002-03-20 | 2007-12-25 | The Directv Group, Inc. | Adaptive variable bit rate audio compression encoding |
GB0213073D0 (en) * | 2002-06-07 | 2002-07-17 | Hewlett Packard Co | Method of maintaining availability of requested network resources |
US7643414B1 (en) * | 2004-02-10 | 2010-01-05 | Avaya Inc. | WAN keeper efficient bandwidth management |
US20060031564A1 (en) * | 2004-05-24 | 2006-02-09 | Brassil John T | Methods and systems for streaming data at increasing transmission rates |
US8411571B2 (en) * | 2006-12-13 | 2013-04-02 | Viasat, Inc. | Video and data network load balancing with video drop |
US8184529B2 (en) * | 2008-10-17 | 2012-05-22 | Brother Kogyo Kabushiki Kaisha | Communication apparatus, method, and program for transmitting and receiving packet data |
JP5058280B2 (ja) * | 2010-03-12 | 2012-10-24 | シャープ株式会社 | 翻訳装置、翻訳方法及びコンピュータプログラム |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US10708335B2 (en) * | 2012-11-16 | 2020-07-07 | Time Warner Cable Enterprises Llc | Situation-dependent dynamic bit rate encoding and distribution of content |
US9800638B2 (en) * | 2013-11-04 | 2017-10-24 | At&T Intellectual Property I, L.P. | Downstream bandwidth aware adaptive bit rate selection |
JP6341023B2 (ja) * | 2014-09-16 | 2018-06-13 | 株式会社リコー | 端末装置、データ送信方法およびプログラム |
-
2015
- 2015-03-12 JP JP2015049866A patent/JP6556473B2/ja active Active
-
2016
- 2016-03-09 US US15/065,000 patent/US20160267918A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002290436A (ja) * | 2001-03-28 | 2002-10-04 | Ricoh Co Ltd | 音声通信装置、その方法及びプログラムを記録した記録媒体 |
JP2003195880A (ja) * | 2001-12-28 | 2003-07-09 | Nec Corp | サーバ・クライアント型音声認識装置 |
JP2006319685A (ja) * | 2005-05-13 | 2006-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化選択制御方法、音声パケット送信装置、音声パケット受信装置、プログラム、記録媒体 |
JP2007143076A (ja) * | 2005-11-22 | 2007-06-07 | Ntt Electornics Corp | コーデック切り替え装置 |
JP2009049653A (ja) * | 2007-08-17 | 2009-03-05 | Mobi Techno:Kk | 電話端末装置及びこれを用いた音声認識システム |
JP2010028516A (ja) * | 2008-07-22 | 2010-02-04 | Nec Corp | 映像配信システム、映像配信装置、映像受信装置、映像配信方法、映像受信方法及びプログラム |
JP2015505991A (ja) * | 2011-12-12 | 2015-02-26 | モトローラ モビリティ エルエルシーMotorola Mobility Llc | オーディオ符号化のための方法および装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627876A (zh) * | 2022-05-09 | 2022-06-14 | 杭州海康威视数字技术股份有限公司 | 基于音频动态调节的智能语音识别安全防御方法及装置 |
CN114627876B (zh) * | 2022-05-09 | 2022-08-26 | 杭州海康威视数字技术股份有限公司 | 基于音频动态调节的智能语音识别安全防御方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6556473B2 (ja) | 2019-08-07 |
US20160267918A1 (en) | 2016-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7848314B2 (en) | VOIP barge-in support for half-duplex DSR client on a full-duplex network | |
JP6416376B2 (ja) | 冗長性に基づくパケット送信エラー回復のシステムおよび方法 | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
WO2011148594A1 (ja) | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム | |
US9245529B2 (en) | Adaptive encoding of a digital signal with one or more missing values | |
JPWO2010140546A1 (ja) | 符号化方法、符号化装置、符号化プログラム及びこの記録媒体 | |
KR102710600B1 (ko) | 실시간 비트레이트 제어 방법 및 이를 위한 전자 장치 | |
JP6556473B2 (ja) | 送信装置、音声認識システム、送信方法、およびプログラム | |
JP6549009B2 (ja) | 通信端末及び音声認識システム | |
KR20110051385A (ko) | 통신 단말기 및 그의 통신 방법 | |
JPH10190498A (ja) | 不連続伝送中に快適雑音を発生させる改善された方法 | |
KR101516113B1 (ko) | 음성 복호 장치 | |
WO2023236961A1 (zh) | 音频信号恢复方法、装置、电子设备及介质 | |
US20200265856A1 (en) | Speech-to-text conversion based on quality metric | |
JP5212208B2 (ja) | 受信装置、方法及びプログラム | |
JP4437011B2 (ja) | 音声符号化装置 | |
JP6972576B2 (ja) | 通信装置、通信システム、通信方法及びプログラム | |
JP2004020613A5 (ja) | ||
JP5135001B2 (ja) | 無線通信装置、無線通信方法および無線通信システム | |
JP6092251B2 (ja) | オーバーフローを検出するための装置、デバイス、方法及びコンピュータプログラム | |
JP4973376B2 (ja) | 音声の基本周期を検出する装置およびその基本周期を用いて話速変換を行う装置 | |
JP2014060597A (ja) | エコー経路遅延測定装置、方法及びプログラム | |
JP4731457B2 (ja) | 通信装置 | |
JP5806719B2 (ja) | 音声パケット再生装置とその方法とプログラム | |
JP2006319685A (ja) | 音声符号化選択制御方法、音声パケット送信装置、音声パケット受信装置、プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190710 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6556473 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |