JP2011203480A - 音声認識装置、及びコンテンツ再生装置 - Google Patents
音声認識装置、及びコンテンツ再生装置 Download PDFInfo
- Publication number
- JP2011203480A JP2011203480A JP2010070581A JP2010070581A JP2011203480A JP 2011203480 A JP2011203480 A JP 2011203480A JP 2010070581 A JP2010070581 A JP 2010070581A JP 2010070581 A JP2010070581 A JP 2010070581A JP 2011203480 A JP2011203480 A JP 2011203480A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech recognition
- recognition processing
- input signal
- limit frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力信号について音声認識処理を実行する音声認識処理部4を具備する音声認識装置101を次のように構成する。すなわち、前記入力信号の音質を推定する音質推定部2と、前記音質推定部2による推定結果に基づいて前記音声認識処理部4による音声認識処理を制御する処理制御部3と、を音声認識装置101に具備させる。
【選択図】図1
Description
入力信号について音声認識処理を実行する音声認識処理部を具備する音声認識装置であって、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
を具備することを特徴とする。
入力された映像データを、動画像データとオーディオデータとに分離する分離デコーダ部と、
前記オーディオデータについて音声認識処理を実行してテキストデータを生成する音声認識処理部と、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
前記動画像データに対して前記テキストデータを付加する字幕付加部と、
を具備することを特徴とする。
有音・無音判定部21により無音であると判定されている時間帯においては、音声認識処理部4に音声認識処理を行わせない制御。
無音区間が一定時間継続した場合には、当該文章の終わりが到来したことを音声認識処理部4に通知する制御。
上限周波数検出部23から出力される上限周波数[kHz]と、特徴量抽出部44の上限周波数(特徴量抽出部44のサンプリング周波数÷2で表される)と、が一番近い値となる音響モデル辞書を読み込む。
SNR推定部24から出力されたSNRに基づいて、雑音が大きい場合には当該雑音に対してよりロバストになるように、雑音モデルが合成された音響モデル辞書を読み込む。
残響度合推定部25から出力された残響度合に基づいて、残響が大きい場合には、当該残響に対してよりロバストな音響モデル辞書を読み込む。
以下、本第1変形例に係る音声認識装置/コンテンツ再生装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点(音声認識処理部4の構成)を説明する。
以下、第2変形例に係る音声認識装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点(音声認識処理部4の構成)を説明する。
以下、第2実施形態に係るコンテンツ再生装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点を説明する。
前記音源位置推定部205は、入力された動画像信号と複数チャネルのオーディオ信号とに基づいて、音源の位置を推定する。具体的には、この音源位置推定部205は、動画像信号に基づいて顔認識処理を行ったり、複数チャネルのオーディオ信号に基づいて左右のバランスを評価したりすることで、音源の位置を推定する。
前記余白位置検出部206は、入力された動画像信号に基づいて、当該動画像信号が再生された際に余白部位(或いは重要度が低い部位)となる範囲を検出する。
以下、第3実施形態に係る音声認識装置及びコンテンツ再生装置について説明する。説明の重複を避ける為、前記第1実施形態に係る音声認識装置/コンテンツ再生装置との相違点を説明する。
Claims (12)
- 入力信号について音声認識処理を実行する音声認識処理部を具備する音声認識装置であって、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
を具備することを特徴とする音声認識装置。 - 前記音質推定部は、前記入力信号の制限周波数を検出する制限周波数検出部を有し、
前記制御部は、前記制限周波数検出部により検出された前記制限周波数までの帯域についてのみ、前記音声認識処理部に音声認識処理させる制御を行う
ことを特徴とする請求項1に記載の音声認識装置。 - 前記制限周波数検出部は、前記入力信号について間欠的にパワースペクトルを算出し、該パワースペクトルを解析することにより前記制限周波数を検出する
ことを特徴とする請求項2に記載の音声認識装置。 - 前記音質推定部は、前記入力信号に対して既に信号帯域拡張処理が施されているか否かを検出する信号帯域拡張処理検出部を有し、
前記制限周波数検出部は、前記音質推定部によって信号帯域拡張処理が施されていないとされた場合に、前記入力信号の前記制限周波数を検出する
ことを特徴とする請求項3に記載の音声認識装置。 - 前信号帯域拡張処理検出部は、前記入力信号についてパワースペクトルを算出し、該パワースペクトルにおける特定周波数近傍の帯域成分が欠落しているか否かを検出することにより、前記入力信号に対して既に帯域拡張処理が施されているか否かを検出する
ことを特徴とする請求項4に記載の音声認識装置。 - 当該音声認識装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、
前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される音響モデル辞書を、前記音響モデル部が保持する音響モデル辞書の中から選択する
ことを特徴とする請求項2に記載の音声認識装置。 - 当該音声認識装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
前記入力信号の周波数帯域を帯域拡張処理して前記特徴量抽出部に出力する帯域拡張処理部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記特徴量抽出部の出力と前記音響モデル部の出力とを周波数帯域について整合させるように前記帯域拡張処理部を制御する
ことを特徴とする請求項2に記載の音声認識装置。 - 当該音声認識装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を前記入力信号から抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された前記特徴量の周波数帯域を帯域拡張処理する帯域拡張処理部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、
前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される前記特徴量と前記音響モデル辞書とを周波数帯域について整合させるように前記帯域拡張処理部を制御する
ことを特徴とする請求項2に記載の音声認識装置。 - 前記入力信号とは、複数の入力信号チャネルから当該音声認識装置に入力された複数の入力信号に互いに共通する共通成分信号である
ことを特徴とする請求項1乃至請求項8のうち何れか一つに記載の音声認識装置。 - 入力された映像データを、動画像データとオーディオデータとに分離する分離デコーダ部と、
前記オーディオデータについて音声認識処理を実行してテキストデータを生成する音声認識処理部と、
前記入力信号の音質を推定する音質推定部と、
前記音質推定部による推定結果に基づいて、前記音声認識処理部による音声認識処理を制御する制御部と、
前記動画像データに対して前記テキストデータを付加する字幕付加部と、
を具備することを特徴とするコンテンツ再生装置。 - 前記音質推定部は、前記入力信号について制限周波数を検出する制限周波数検出部を有し、
前記制御部は、前記制限周波数検出部により検出された前記制限周波数までの帯域についてのみ、前記音声認識処理部に音声認識処理させる制御を行う
ことを特徴とする請求項10に記載のコンテンツ再生装置。 - 当該コンテンツ再生装置は、
前記音声認識処理部による音声認識処理に供される前記入力信号の特徴量を、前記入力信号から抽出する特徴量抽出部と、
前記音声認識処理部による音声認識処理に供される複数の音響モデル辞書を保持する音響モデル部と、
を備え、
前記制御部は、
前記制限周波数検出部によって検出された前記制限周波数に基づいて、前記特徴量抽出部を制御し、且つ、前記音声認識処理部による音声認識処理に供される音響モデル辞書を、前記音響モデル部が保持する音響モデル辞書の中から選択する
ことを特徴とする請求項11に記載のコンテンツ再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010070581A JP5166470B2 (ja) | 2010-03-25 | 2010-03-25 | 音声認識装置、及びコンテンツ再生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010070581A JP5166470B2 (ja) | 2010-03-25 | 2010-03-25 | 音声認識装置、及びコンテンツ再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011203480A true JP2011203480A (ja) | 2011-10-13 |
JP5166470B2 JP5166470B2 (ja) | 2013-03-21 |
Family
ID=44880178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010070581A Expired - Fee Related JP5166470B2 (ja) | 2010-03-25 | 2010-03-25 | 音声認識装置、及びコンテンツ再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5166470B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015145660A1 (ja) * | 2014-03-27 | 2015-10-01 | パイオニア株式会社 | 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置 |
WO2017099092A1 (ja) * | 2015-12-08 | 2017-06-15 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
JP2019016206A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社富士通ソーシアルサイエンスラボラトリ | 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法 |
JP2019219468A (ja) * | 2018-06-18 | 2019-12-26 | Zホールディングス株式会社 | 生成装置、生成方法及び生成プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268698A (ja) * | 2001-03-08 | 2002-09-20 | Nec Corp | 音声認識装置と標準パターン作成装置及び方法並びにプログラム |
JP2007017462A (ja) * | 2005-07-05 | 2007-01-25 | Advanced Telecommunication Research Institute International | データ作成装置及びコンピュータプログラム |
-
2010
- 2010-03-25 JP JP2010070581A patent/JP5166470B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268698A (ja) * | 2001-03-08 | 2002-09-20 | Nec Corp | 音声認識装置と標準パターン作成装置及び方法並びにプログラム |
JP2007017462A (ja) * | 2005-07-05 | 2007-01-25 | Advanced Telecommunication Research Institute International | データ作成装置及びコンピュータプログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015145660A1 (ja) * | 2014-03-27 | 2015-10-01 | パイオニア株式会社 | 音響装置、欠落帯域推定装置、信号処理方法及び周波数帯域推定装置 |
JPWO2015145660A1 (ja) * | 2014-03-27 | 2017-04-13 | パイオニア株式会社 | 音響装置、欠落帯域推定装置及び信号処理方法 |
US10839824B2 (en) | 2014-03-27 | 2020-11-17 | Pioneer Corporation | Audio device, missing band estimation device, signal processing method, and frequency band estimation device |
WO2017099092A1 (ja) * | 2015-12-08 | 2017-06-15 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
JPWO2017099092A1 (ja) * | 2015-12-08 | 2018-09-27 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
US10614823B2 (en) | 2015-12-08 | 2020-04-07 | Sony Corporation | Transmitting apparatus, transmitting method, receiving apparatus, and receiving method |
JP2019016206A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社富士通ソーシアルサイエンスラボラトリ | 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法 |
JP2019219468A (ja) * | 2018-06-18 | 2019-12-26 | Zホールディングス株式会社 | 生成装置、生成方法及び生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5166470B2 (ja) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887578B2 (en) | Automatic dubbing method and apparatus | |
US9196247B2 (en) | Voice recognition method and voice recognition apparatus | |
US7953590B2 (en) | Using separate recording channels for speech-to-speech translation systems | |
US8442833B2 (en) | Speech processing with source location estimation using signals from two or more microphones | |
JPH06332492A (ja) | 音声検出方法および検出装置 | |
CN101359473A (zh) | 自动进行语音转换的方法和装置 | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
JP5411807B2 (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
JP2011250100A (ja) | 画像処理装置および方法、並びにプログラム | |
Dekens et al. | Improved speech recognition in noisy environments by using a throat microphone for accurate voicing detection | |
JP5166470B2 (ja) | 音声認識装置、及びコンテンツ再生装置 | |
Tavi et al. | Recognition of Creaky Voice from Emergency Calls. | |
JP5647455B2 (ja) | 音声に含まれる吸気音を検出する装置、方法、及びプログラム | |
Kitaoka et al. | Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance | |
JP2007233148A (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP2008310138A (ja) | シーン分類装置 | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
JP2006154531A (ja) | 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム | |
Weber et al. | Constructing a dataset of speech recordings with lombard effect | |
JP2011013383A (ja) | オーディオ信号補正装置及びオーディオ信号補正方法 | |
Kubala et al. | Broadcast news transcription | |
JP4143487B2 (ja) | 時系列情報制御システム及びその方法並びに時系列情報制御プログラム | |
JP4313724B2 (ja) | 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体 | |
JP2003259311A (ja) | 映像再生方法、映像再生装置、映像再生プログラム | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120508 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121220 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |