JP2018087935A - 音声言語識別装置、その方法、及びプログラム - Google Patents
音声言語識別装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP2018087935A JP2018087935A JP2016231976A JP2016231976A JP2018087935A JP 2018087935 A JP2018087935 A JP 2018087935A JP 2016231976 A JP2016231976 A JP 2016231976A JP 2016231976 A JP2016231976 A JP 2016231976A JP 2018087935 A JP2018087935 A JP 2018087935A
- Authority
- JP
- Japan
- Prior art keywords
- bottleneck
- language
- feature quantity
- language identification
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本実施形態では、音韻情報を捉えるための部位を言語識別部の前段に設置し、捉えた音韻情報も含めたニューラルネットワーク音声言語識別を実施する。
図1は第一実施形態に係る音声言語識別装置100の機能ブロック図を、図2はその処理フローを示す。
音響モデル削除部110は、S個の音声認識用NN音響モデルFsを入力とし、予め定めたボトルネック層ksよりも後段の中間層及び出力層を削除し、削除後のS個の音声認識用NN音響モデルFs,k_sを出力する。なお、上付き添え字k_sは、ksを意味する。
(参考文献1)Geoffrey Hinton, etc., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups", IEEE Signal Processing Magazine, Volume: 29, Issue: 6, Pages: 82 - 97, Nov. 2012.
なお、音声認識用NN音響モデルFsを学習する際には、中間層及び出力層を削除することはできないので、学習が済んでから削除し、音声言語識別時に利用する。
ボトルネック特徴量計算部120は、対象となる音声データから得られるフレーム単位の音響特徴量系列X={x1,x2,…,xT}を入力とし、音声認識用NN音響モデルFs,k_sを用いて、音響特徴量系列X={x1,x2,…,xT}からボトルネック特徴量系列Vs={v1 s,v2 s,…,vT s}を計算し(S120)、出力する。ボトルネック特徴量vt sは、前述のボトルネック層ksの出力値(音声認識用NN音響モデルFsのks番目の中間層の出力値)であり、音韻情報を陽に表す数値ベクトルである。
vt=f(xt)
ここで、f()は音声認識用NN音響モデルFs,k_sによるボトルネック層までの計算を表す。同様に、vtはtフレーム目のボトルネック特徴量のベクトルを表す。つまり、ボトルネック特徴量の計算はフレーム単位で実施され、長さTの音響特徴量系列Xに対して、長さTのボトルネック特徴量系列Vsを得る。
パラレルボトルネック特徴量構成部130は、S個のボトルネック特徴量系列V1,V2,…,VSと、音響特徴量系列Xとを入力とし、これらの情報を含むパラレルボトルネック特徴量系列Pを構成し(S130)、出力する。
pt=[{vt 1}T,{vt 2}T,…,{vt S}T,xt T]T
として構成する。ただし、上付き添え字Tは転置を示す。つまり、元の音響特徴量xtと複数のボトルネック特徴量vt 1,vt 2,…,vt Sの各要素とを並べたベクトルを構成する。最終的な、パラレルボトルネック特徴量系列は、P=p1,p2,…,pTとして構成される。
言語識別部140は、パラレルボトルネック特徴量系列Pと音声言語識別用ニューラルネットワークFとを入力とし、これらの値を用いて、対象となる音声データが何れの言語によるものかを識別し(S140)、識別結果である言語ラベルLを出力する。
以上の構成により、従来よりも頑強に捉えた音韻情報を利用して音声言語識別を行うことができる。前述の通り、音声言語識別では、音韻の並びが重要とされているため、より頑強に捉えた音韻情報を利用して音声言語識別を行うことで、音声言語識別の性能を大きく向上することができ、従来よりも高精度化が期待できる。
なお、ボトルネック特徴量計算部120で用いる音響モデルの言語と、最終的な音声言語識別で対象とする言語は全く独立の存在であり、音声言語識別で扱わない言語の音響モデルを利用してもよい。要は、ある言語Aで発せられた音声データの音響特徴量系列Xからボトルネック特徴量(音韻情報を陽に表す数値ベクトル)を計算することができればよい。例えば、ある言語Aに類似する音韻を持つ他の言語BのNN音響モデルをある言語AのNN音響モデルに流用したり、ある言語Aに含まれる音韻の大部分を含む他の言語BのNN音響モデルをある言語AのNN音響モデルに流用する方法などが考えられる。例えば、言語Bに含まれる音韻の種類は、日本語の音韻の種類よりも多く、日本語の音韻の種類を全て包含する場合には、言語BのNN音響モデルを用いて、日本語の音声データから得られる音響特徴量系列Xからボトルネック特徴量系列Vを計算してもよく、さらに、最終的な音声言語識別で対象とする言語の中に言語Bが含まれなくともよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (5)
- s=1,2,…,Sとし、Sを1以上の整数の何れかとし、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算部と、
S個のボトルネック特徴量系列と、前記音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成部と、
前記パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別部とを含み、
前記ボトルネック特徴量は、前記ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である、
音声言語識別装置。 - 請求項1の音声言語識別装置であって、
前記音声言語識別用ニューラルネットワークは、学習用の音声データから得られるフレーム単位のパラレルボトルネック特徴量系列と、学習用の音声データの言語を示す言語ラベルとを用いて学習される、
音声言語識別装置。 - s=1,2,…,Sとし、Sを1以上の整数の何れかとし、ボトルネック特徴量計算部が、音声データから得られるフレーム単位の音響特徴量を入力とし、その音声データに対する所定の言語sの音韻情報をフレーム単位で出力するニューラルネットワーク音響モデルを用いて、対象となる音声データから得られるフレーム単位の音響特徴量系列Xからボトルネック特徴量系列を計算するボトルネック特徴量計算ステップと、
パラレルボトルネック特徴量構成部が、S個のボトルネック特徴量系列と、前記音響特徴量系列Xとを含むパラレルボトルネック特徴量系列を構成するパラレルボトルネック特徴量構成ステップと、
言語識別部が、前記パラレルボトルネック特徴量系列を音声言語識別用ニューラルネットワークの入力として、対象となる音声データが何れの言語によるものかを識別する言語識別ステップとを含み、
前記ボトルネック特徴量は、前記ニューラルネットワーク音響モデルの中間層または出力層の何れかであるボトルネック層の出力値である、
音声言語識別方法。 - 請求項3の音声言語識別方法であって、
前記音声言語識別用ニューラルネットワークは、学習用の音声データから得られるフレーム単位のパラレルボトルネック特徴量系列と、学習用の音声データの言語を示す言語ラベルとを用いて学習される、
音声言語識別方法。 - 請求項1または請求項2の音声言語識別装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016231976A JP6615736B2 (ja) | 2016-11-30 | 2016-11-30 | 音声言語識別装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016231976A JP6615736B2 (ja) | 2016-11-30 | 2016-11-30 | 音声言語識別装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018087935A true JP2018087935A (ja) | 2018-06-07 |
JP6615736B2 JP6615736B2 (ja) | 2019-12-04 |
Family
ID=62493023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016231976A Active JP6615736B2 (ja) | 2016-11-30 | 2016-11-30 | 音声言語識別装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6615736B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110610720A (zh) * | 2019-09-19 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110930978A (zh) * | 2019-11-08 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语种识别方法、装置和用于语种识别的装置 |
WO2020195897A1 (ja) * | 2019-03-28 | 2020-10-01 | 国立研究開発法人情報通信研究機構 | 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置 |
WO2021179701A1 (zh) * | 2020-10-19 | 2021-09-16 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
JP2022537011A (ja) * | 2019-08-29 | 2022-08-23 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム |
CN116825108A (zh) * | 2023-08-25 | 2023-09-29 | 深圳市友杰智新科技有限公司 | 语音命令词识别方法、装置、设备和介质 |
-
2016
- 2016-11-30 JP JP2016231976A patent/JP6615736B2/ja active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
CN110491382A (zh) * | 2019-03-11 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
WO2020195897A1 (ja) * | 2019-03-28 | 2020-10-01 | 国立研究開発法人情報通信研究機構 | 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置 |
JP2020160374A (ja) * | 2019-03-28 | 2020-10-01 | 国立研究開発法人情報通信研究機構 | 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置 |
JP7332132B2 (ja) | 2019-03-28 | 2023-08-23 | 国立研究開発法人情報通信研究機構 | 言語識別装置及びそのためのコンピュータプログラム |
JP2022537011A (ja) * | 2019-08-29 | 2022-08-23 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム |
JP7312853B2 (ja) | 2019-08-29 | 2023-07-21 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム |
CN110610720A (zh) * | 2019-09-19 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110930978A (zh) * | 2019-11-08 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语种识别方法、装置和用于语种识别的装置 |
WO2021179701A1 (zh) * | 2020-10-19 | 2021-09-16 | 平安科技(深圳)有限公司 | 多语种语音识别方法、装置及电子设备 |
CN116825108A (zh) * | 2023-08-25 | 2023-09-29 | 深圳市友杰智新科技有限公司 | 语音命令词识别方法、装置、设备和介质 |
CN116825108B (zh) * | 2023-08-25 | 2023-12-08 | 深圳市友杰智新科技有限公司 | 语音命令词识别方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6615736B2 (ja) | 2019-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6615736B2 (ja) | 音声言語識別装置、その方法、及びプログラム | |
US11664020B2 (en) | Speech recognition method and apparatus | |
Shi et al. | Sentiment adaptive end-to-end dialog systems | |
JP6980119B2 (ja) | 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
US10657962B2 (en) | Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach | |
JP2017228160A (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
US11164562B2 (en) | Entity-level clarification in conversation services | |
US20180130460A1 (en) | Splitting utterances for quick responses | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
WO2020110815A1 (ja) | キーワード抽出装置、キーワード抽出方法、およびプログラム | |
CN112860871B (zh) | 自然语言理解模型训练方法、自然语言理解方法及装置 | |
KR102183284B1 (ko) | 교차언어 환경에서의 대화 상태 추적 방법 및 시스템 | |
US20220270637A1 (en) | Utterance section detection device, utterance section detection method, and program | |
KR102559849B1 (ko) | 악플 필터 장치 및 방법 | |
JP6389776B2 (ja) | 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
WO2021171552A1 (ja) | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム | |
KR20230156425A (ko) | 자체 정렬을 통한 스트리밍 asr 모델 지연 감소 | |
JP2015141368A (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
WO2020162240A1 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
JP6992725B2 (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム | |
JP6699945B2 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
JP7411149B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム | |
Yu et al. | An end-to-end neural network approach to story segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6615736 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |