JP6487650B2 - 音声認識装置及びプログラム - Google Patents
音声認識装置及びプログラム Download PDFInfo
- Publication number
- JP6487650B2 JP6487650B2 JP2014166016A JP2014166016A JP6487650B2 JP 6487650 B2 JP6487650 B2 JP 6487650B2 JP 2014166016 A JP2014166016 A JP 2014166016A JP 2014166016 A JP2014166016 A JP 2014166016A JP 6487650 B2 JP6487650 B2 JP 6487650B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- specific
- specific utterance
- signal
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 claims description 94
- 238000000926 separation method Methods 0.000 claims description 60
- 238000001228 spectrum Methods 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 46
- 230000005236 sound signal Effects 0.000 claims description 41
- 230000010354 integration Effects 0.000 claims description 32
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
まず、本発明の実施形態による音声認識装置の全体構成について説明する。図1は、音声認識装置の全体構成を示すブロック図である。この音声認識装置1は、学習部10、検出除去部20及び認識統合部30を備えている。
次に、図1に示した音声認識装置1の学習部10について説明する。図1を参照して、学習部10は、音声資源データ14が格納された記憶部11、モデル学習部12、並びに検出用モデル15及び分離用モデル16が格納された記憶部13を備えている。
次に、図1に示した音声認識装置1の検出除去部20について説明する。図1を参照して、検出除去部20は、特定発話区間検出部21及び話者分離計算部22を備えている。
特定発話区間検出部21の処理について、実施例1,2を挙げて詳細に説明する。実施例1は、特定話者による特定発話の音声信号を含む対談音声信号について、確率の最も高い最適パスを求め、最適パスに基づいて特定発話区間を検出するものである。また、実施例2は、特定話者による特定発話の音声信号を含む対談音声信号について、確率の高いパスをN個求め、N個のパスに基づいて特定発話区間を検出するものである。Nは2以上の整数である。
まず、実施例1について説明する。実施例1は、対談音声信号について、後述する音響モデル36の音素ネットワーク及び検出用モデル15を用いて確率の最も高い最適パスを求め、最適パスに基づいて特定発話区間候補を抽出し、検出用モデル15を用いて特定発話区間候補の尤度を求め、しきい値処理により特定発話区間を検出するものである。
次に、実施例2について説明する。実施例2は、対談音声信号について、後述する音響モデル36の音素ネットワークを用いて確率の高いN個のパスを求め、N個のパスに基づいて候補となり得る特定話者の音素列区間の頻度を計算し、しきい値処理により特定発話区間候補を抽出し、検出用モデル15を用いて特定発話区間候補の尤度を求め、しきい値処理により特定発話区間を検出するものである。
図1に戻って、検出除去部20の話者分離計算部22は、特定発話区間検出部21から特定発話区間の情報等を入力し、特定発話区間の音声信号について、学習部10の記憶部13に格納された分離用モデル16を用いて推定スペクトルを生成すると共に、対談音声信号から特定話者による特定発話の音声信号を周波数領域において分離して主音声スペクトルを生成し、主音声スペクトルを認識統合部30に出力する。
次に、図1に示した音声認識装置1の認識統合部30について説明する。図1を参照して、認識統合部30は、言語モデル35及び音響モデル36が格納された記憶部31、音響特徴量計算部32、主音声認識部33、並びに統合部34を備えている。
統合部34は、主音声認識部33から主音声認識結果のテキスト(主音声のテキスト)等を入力すると共に、検出除去部20の特定発話区間検出部21から特定発話区間のテキスト(特定話者による特定発話のテキスト)等を入力する。そして、統合部34は、両テキストの前後配置を考慮して統合する(両テキストを合成する)ことで、特定話者による特定発話を主音声内の適切な箇所に挿入したテキストを生成し、対談音声認識結果のテキストとして出力する。これにより、特定話者による相づち等の特定発話が主音声内の適切な箇所に挿入されたテキストの文章が生成され出力される。
10 学習部
11,13,31 記憶部
12 モデル学習部
14 音声資源データ
15 検出用モデル
16 分離用モデル
20 検出除去部
21 特定発話区間検出部
22 話者分離計算部
30 認識統合部
32 音響特徴量計算部
33 主音声認識部
34 統合部
35 言語モデル
36 音響モデル
101,102 マイクロフォン
103 周波数分析部
104 到達位相差・到達レベル差算出部
105 判定部
106 信号合成部
Claims (7)
- 複数話者のシングルチャンネルの混合音声から特定話者による特定発話を分離し、前記特定発話が分離された主音声を認識する音声認識装置であって、
予め収録された前記特定話者による前記特定発話の音声信号を周波数分析して特徴量を計算し、前記特定発話の音声信号の特徴量に基づいて発話モデルを学習するモデル学習部と、
前記混合音声の信号を周波数分析して特徴量を計算し、前記混合音声の信号の特徴量と前記発話モデルにおける前記特定発話の音声信号の特徴量とに基づいて、前記混合音声の信号と前記特定発話の音声信号とのマッチングを行い、前記混合音声から、前記特定発話の音声信号を含む特定発話区間を検出する特定発話区間検出部と、
前記発話モデルを用いて、前記特定発話区間検出部により検出された特定発話区間における前記特定発話の音声信号の推定スペクトルを生成すると共に、前記混合音声の信号を周波数分析してスペクトルを生成し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとに基づいて、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する話者分離計算部と、を備え、
前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記特定発話区間検出部は、
それぞれの音素の特徴量に基づいて学習された音響モデル及び前記モデル学習部により学習された発話モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の最も高い最適パスを求め、
前記最適パス内に前記特定発話のパスが存在する時間区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、
前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、
前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記特定発話区間検出部は、
それぞれの音素の特徴量に基づいて学習された音響モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の高い音素列からなるパスを複数求め、
前記混合音声の始端から終端までの間の所定区間毎に、前記複数のパスについて前記特定発話が現れる頻度を計算し、
前記所定区間毎の頻度に対するしきい値処理により、前記所定区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、
前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、
前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする音声認識装置。 - 請求項1から3までのいずれか一項に記載の音声認識装置において、
前記話者分離計算部は、
前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとをビン毎に比較し、
前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワー以上であると判定した場合、前記ビンの重みを0または0に近い所定値に設定し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワーよりも小さいと判定した場合、前記ビンの重みを1に設定し、
前記特定発話区間の音声信号のスペクトルに対し、前記ビン毎に設定した重みを乗算することで、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする音声認識装置。 - 請求項1から4までのいずれか一項に記載の音声認識装置において、
さらに、前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識して前記主音声の文字列を生成し、前記主音声の文字列に含まれる単語の境界を検出し、
前記特定発話区間検出部により検出された特定発話区間における特定発話の文字列を、前記主音声の文字列に含まれる単語の境界に挿入することで、前記主音声の文字列と前記特定発話の文字列とを統合する認識統合部を備えたことを特徴とする音声認識装置。 - 請求項1から5までのいずれか一項に記載の音声認識装置において、
前記モデル学習部は、
前記特定発話の音声信号をFFTし、前記FFTの結果からMFCC(メル周波数ケプストラム係数)を計算し、前記MFCCを含む前記特定発話の音声信号の特徴量に基づいて検出用モデルを生成すると共に、前記FFTの結果を含む前記特定発話の音声信号の特徴量に基づいて分離用モデルを生成し、
前記特定発話区間検出部は、
前記モデル学習部により生成された検出用モデルを用いて、前記特定発話の音声信号を含む特定発話区間を検出し、
前記話者分離計算部は、
前記モデル学習部により生成された分離用モデルを用いて、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする音声認識装置。 - コンピュータを、請求項1から6までのいずれか一項に記載の音声認識装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014166016A JP6487650B2 (ja) | 2014-08-18 | 2014-08-18 | 音声認識装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014166016A JP6487650B2 (ja) | 2014-08-18 | 2014-08-18 | 音声認識装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016042152A JP2016042152A (ja) | 2016-03-31 |
JP6487650B2 true JP6487650B2 (ja) | 2019-03-20 |
Family
ID=55591926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014166016A Active JP6487650B2 (ja) | 2014-08-18 | 2014-08-18 | 音声認識装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6487650B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6677614B2 (ja) | 2016-09-16 | 2020-04-08 | 株式会社東芝 | 会議支援システム、会議支援方法及びプログラム |
WO2019079972A1 (zh) * | 2017-10-24 | 2019-05-02 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
US10529349B2 (en) * | 2018-04-16 | 2020-01-07 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction |
CN111508498B (zh) * | 2020-04-09 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4322785B2 (ja) * | 2004-11-24 | 2009-09-02 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
WO2006128107A2 (en) * | 2005-05-27 | 2006-11-30 | Audience, Inc. | Systems and methods for audio signal analysis and modification |
JP2009086132A (ja) * | 2007-09-28 | 2009-04-23 | Pioneer Electronic Corp | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体 |
JP2011081324A (ja) * | 2009-10-09 | 2011-04-21 | National Institute Of Advanced Industrial Science & Technology | ピッチ・クラスター・マップを用いた音声認識方法 |
JP5988077B2 (ja) * | 2012-03-02 | 2016-09-07 | 国立研究開発法人情報通信研究機構 | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム |
-
2014
- 2014-08-18 JP JP2014166016A patent/JP6487650B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016042152A (ja) | 2016-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10923111B1 (en) | Speech detection and speech recognition | |
US7664643B2 (en) | System and method for speech separation and multi-talker speech recognition | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
KR100391123B1 (ko) | 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP7222828B2 (ja) | 音声認識装置、音声認識方法及び記憶媒体 | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JP3457578B2 (ja) | 音声合成を用いた音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6487650 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |