JP6389776B2 - 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム - Google Patents
言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム Download PDFInfo
- Publication number
- JP6389776B2 JP6389776B2 JP2015032887A JP2015032887A JP6389776B2 JP 6389776 B2 JP6389776 B2 JP 6389776B2 JP 2015032887 A JP2015032887 A JP 2015032887A JP 2015032887 A JP2015032887 A JP 2015032887A JP 6389776 B2 JP6389776 B2 JP 6389776B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- data
- input
- language identification
- speech data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
実施形態の言語識別モデル学習装置は、図1に示すように、学習データ記憶部1、変換モデル学習部2、変換モデル記憶部3、離散記号系列変換部4、言語識別モデル学習部5、および言語識別モデル記憶部6を例えば含む。変換モデル学習部2は、図2に示すように、ニューラルネットワーク学習部21およびセントロイド生成部22を例えば含む。言語識別モデル学習部5は、図3に示すように、学習データ分割部51およびモデル学習部52を例えば含む。
実施形態の言語識別装置は、図5に示すように、変換モデル記憶部3、離散記号系列変換部4、言語識別モデル記憶部6、および言語識別部7を例えば含む。変換モデル記憶部3、離散記号系列変換部4、および言語識別モデル記憶部6は、言語識別モデル学習装置が備える各構成部と同じものである。変換モデル記憶部3には、言語識別モデル学習装置により生成された離散記号系列変換モデルが記憶されている。言語識別モデル記憶部6は、言語識別モデル学習装置により生成された言語識別モデルが記憶されている。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
2 変換モデル学習部
21 ニューラルネットワーク学習部
22 セントロイド生成部
3 変換モデル記憶部
4 離散記号系列変換部
5 言語識別モデル学習部
51 学習データ分割部
52 モデル学習部
6 言語識別モデル記憶部
Claims (6)
- 音声データを入力とし、当該音声データの言語らしさの情報を出力するように学習された系列変換モデルを用いて、入力音声データをフレームごとに当該入力音声データの言語らしさの情報に変換することで、当該入力音声データの言語らしさの系列情報を出力する系列変換部と、
音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力するように学習された言語識別モデルを用いて、上記入力音声データの言語らしさの系列情報を当該入力音声データの言語ラベルごとの生成確率に変換した結果に基づき、当該入力音声データの言語を表す言語ラベルを出力する言語識別部と、
を含む言語識別装置。 - 請求項1に記載の言語識別装置であって、
上記系列変換部は、上記入力音声データをフレームごとに上記系列変換モデルにより当該入力音声データの当該フレームに対応する言語ラベルの事後確率分布を離散化した離散記号に変換するものであり、
上記入力音声データの言語らしさの系列情報は、上記系列変換部で得られたフレームごとの離散記号を時系列に並べたものである、
言語識別装置。 - 請求項2に記載の言語識別装置であって、
上記系列変換部は、学習用に与えられた複数の音声データについて、各音声データを上記系列変換モデルにより変換して得た言語ラベルの事後確率分布を複数のクラスタにクラスタリングしたときの各クラスタのセントロイドと、上記入力音声データに対応する言語ラベルの事後確率分布との距離に基づいて、当該距離が近いクラスタを特定する離散記号を、当該入力音声データに対応する言語ラベルの事後確率分布に対応する離散記号として求めるものである、
言語識別装置。 - 複数の言語による音声データと各音声データの言語を表す言語ラベルとを組とした複数の学習データを記憶する学習データ記憶部と、
上記学習データを用いて、音声データを入力とし、当該音声データの言語らしさの情報を出力する系列変換モデルを学習する変換モデル学習部と、
上記系列変換モデルを用いて、上記学習データの音声データをフレームごとに当該音声データの言語らしさの情報に変換することで、当該音声データの言語らしさの系列情報に変換する系列変換部と、
上記学習データの音声データの言語らしさの系列情報および当該音声データに対応する言語ラベルを用いて、音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力する言語識別モデルを学習する言語識別モデル学習部と、
を含む言語識別モデル学習装置。 - 系列変換部が、音声データを入力とし、当該音声データの言語らしさの情報を出力するように学習された系列変換モデルを用いて、入力音声データをフレームごとに当該入力音声データの言語らしさの情報に変換することで、当該入力音声データの言語らしさの系列情報を出力する系列変換ステップと、
言語識別部が、音声データの言語らしさの系列情報を入力とし、当該音声データの言語ラベルごとの生成確率を出力するように学習された言語識別モデルを用いて、上記入力音声データの言語らしさの系列情報を当該入力音声データの言語ラベルごとの生成確率に変換した結果に基づき、当該入力音声データの言語を表す言語ラベルを出力する言語識別ステップと、
を含む言語識別方法。 - 請求項1から3のいずれかに記載の言語識別装置もしくは請求項4に記載の言語識別モデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015032887A JP6389776B2 (ja) | 2015-02-23 | 2015-02-23 | 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015032887A JP6389776B2 (ja) | 2015-02-23 | 2015-02-23 | 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016156870A JP2016156870A (ja) | 2016-09-01 |
JP6389776B2 true JP6389776B2 (ja) | 2018-09-12 |
Family
ID=56825900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015032887A Active JP6389776B2 (ja) | 2015-02-23 | 2015-02-23 | 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6389776B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493846B (zh) * | 2018-11-18 | 2021-06-08 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
JP7454857B2 (ja) * | 2019-03-28 | 2024-03-25 | 国立研究開発法人情報通信研究機構 | 言語識別装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3427500B2 (ja) * | 1994-08-09 | 2003-07-14 | 松下電器産業株式会社 | 帰属度算出装置およびhmm装置 |
JP2996926B2 (ja) * | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
JP2004053742A (ja) * | 2002-07-17 | 2004-02-19 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP5672487B2 (ja) * | 2010-11-11 | 2015-02-18 | 株式会社国際電気通信基礎技術研究所 | 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム |
JP6164639B2 (ja) * | 2013-05-23 | 2017-07-19 | 国立研究開発法人情報通信研究機構 | ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム |
-
2015
- 2015-02-23 JP JP2015032887A patent/JP6389776B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016156870A (ja) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
JP6686154B2 (ja) | 発話認識方法及び装置 | |
TWI530940B (zh) | 聲學模型訓練方法和裝置 | |
JP6615736B2 (ja) | 音声言語識別装置、その方法、及びプログラム | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
WO2021023440A1 (en) | Fine-tuning language models for supervised learning tasks via dataset preprocessing | |
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
JP5717794B2 (ja) | 対話装置、対話方法および対話プログラム | |
CN112825249A (zh) | 语音处理方法和设备 | |
JP2010181884A (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
WO2018232591A1 (en) | SEQUENCE RECOGNITION PROCESSING | |
JP6230987B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体 | |
WO2020110815A1 (ja) | キーワード抽出装置、キーワード抽出方法、およびプログラム | |
JP6556381B2 (ja) | モデル学習装置及びモデル学習方法 | |
JP6389776B2 (ja) | 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム | |
JP5740368B2 (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP6244297B2 (ja) | 音響スコア算出装置、その方法及びプログラム | |
JP6577900B2 (ja) | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP5980142B2 (ja) | 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム | |
JP6612277B2 (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
US20210201913A1 (en) | Method of and system for translating speech to text | |
JP5679345B2 (ja) | 音声認識精度推定装置、音声認識精度推定方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6389776 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |