JP2018072697A - 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム - Google Patents
音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム Download PDFInfo
- Publication number
- JP2018072697A JP2018072697A JP2016214874A JP2016214874A JP2018072697A JP 2018072697 A JP2018072697 A JP 2018072697A JP 2016214874 A JP2016214874 A JP 2016214874A JP 2016214874 A JP2016214874 A JP 2016214874A JP 2018072697 A JP2018072697 A JP 2018072697A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- learning
- label
- collapse
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
(参考非特許文献1)浅見太一,野田喜昭,高橋敏,“ピットフォールエラーに着目した音声認識誤りの分析”,日本音響学会講演論文集2008年3月,1-10-18,pp.53-54,2008.
以下、各実施形態で用いる用語について説明する。
音声データとは、学習(具体的には、音素崩れ決定木の学習)や音声認識に用いるため、あらかじめ収録しておく音声データのことである。音声データは、話者が発話した文章の音声であり、例えばサンプリング周波数16kHzで離散値化されたデジタルデータである。
音素区間情報系列とは、音声データに対して付与される音素に関する情報(以下、音素区間情報という)の系列のことである。音声データに一つの音素区間情報系列が付与されている。
以下、図3〜図7を参照して音素崩れ検出モデル学習装置100について説明する。
図3に示すように音素崩れ検出モデル学習装置100は、学習用音素情報抽出部110、音素崩れ決定木学習部130、記録部190を含む。記録部190は、音素崩れ検出モデル学習装置100の処理に必要な情報を適宜記録する構成部である。音素崩れ検出モデル学習装置100は、学習用音声データ、学習用音素区間情報系列を入力として、音素崩れ検出モデルである音素崩れ決定木を学習し、出力する。
図8に示すように音素崩れ区間検出装置200は、音声特徴量生成部210、音声認識部230、音素照合部250、音素崩れ区間検出部270、記録部290を含む。記録部290は、音素崩れ区間検出装置200の処理に必要な情報を適宜記録する構成部である。音素崩れ区間検出装置200は、認識用音声データを入力として、音素崩れ検出モデル学習装置100が学習した音素崩れ決定木を用いて、音素崩れ区間付き最尤音素系列を生成し、出力する。音素崩れ区間付き最尤音素系列は、音声認識部230による認識結果である最尤音素系列に音素が崩れている区間(音素崩れ区間)の情報を付したものである。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (5)
- 学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、
前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出部と、
前記学習用音素ラベルと前記学習用音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習部と
を含む音素崩れ検出モデル学習装置。 - 認識用音声データから、音声特徴量を生成する音声特徴量生成部と、
前記音声特徴量を用いて、前記認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、前記最尤音素系列に含まれる各音素の発話区間に対応する音声特徴量の系列である音声特徴量系列を生成する音声認識部と、
請求項1に記載の音素崩れ検出モデル学習装置が学習した音素崩れ決定木を用いて、前記最尤音素系列と前記音声特徴量系列から、前記最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成する音素照合部と、
前記音素崩れラベル付き最尤音素系列から、前記音素崩れラベルが付与された2つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成する音素崩れ区間検出部と
を含む音素崩れ区間検出装置。 - 学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、
音素崩れ区間検出装置が、前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習用音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出ステップと、
前記音素崩れ区間検出装置が、前記学習用音素ラベルと前記学習音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習ステップと
を含む音素崩れ検出モデル学習方法。 - 音素崩れ区間検出装置が、認識用音声データから、音声特徴量を生成する音声特徴量生成ステップと、
前記音素崩れ区間検出装置が、前記音声特徴量を用いて、前記認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、前記最尤音素系列に含まれる各音素の発話区間に対応する音声特徴量の系列である音声特徴量系列を生成する音声認識ステップと、
前記音素崩れ区間検出装置が、請求項3に記載の音素崩れ検出モデル学習方法により学習した音素崩れ決定木を用いて、前記最尤音素系列と前記音声特徴量系列から、前記最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成する音素照合ステップと、
前記音素崩れ区間検出装置が、前記音素崩れラベル付き最尤音素系列から、前記音素崩れラベルが付与された2つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成する音素崩れ区間検出ステップと
を含む音素崩れ区間検出方法。 - 請求項1に記載の音素崩れ検出モデル学習装置または請求項2に記載の音素崩れ区間検出装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016214874A JP6622681B2 (ja) | 2016-11-02 | 2016-11-02 | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016214874A JP6622681B2 (ja) | 2016-11-02 | 2016-11-02 | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018072697A true JP2018072697A (ja) | 2018-05-10 |
JP6622681B2 JP6622681B2 (ja) | 2019-12-18 |
Family
ID=62115442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016214874A Active JP6622681B2 (ja) | 2016-11-02 | 2016-11-02 | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6622681B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020035999A1 (ja) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法、及びプログラム |
CN112331229A (zh) * | 2020-10-23 | 2021-02-05 | 网易有道信息技术(北京)有限公司 | 语音检测方法、装置、介质和计算设备 |
CN112700781A (zh) * | 2020-12-24 | 2021-04-23 | 江西台德智慧科技有限公司 | 一种基于人工智能的语音交互系统 |
WO2021240780A1 (ja) * | 2020-05-29 | 2021-12-02 | 日本電信電話株式会社 | ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム |
WO2022105861A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 用于识别语音的方法、装置、电子设备和介质 |
CN114724544A (zh) * | 2022-04-13 | 2022-07-08 | 北京百度网讯科技有限公司 | 语音芯片、语音识别方法、装置、设备及智能汽车 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0358099A (ja) * | 1989-07-27 | 1991-03-13 | Nec Corp | 発声変形検出装置 |
JP2004325635A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 |
-
2016
- 2016-11-02 JP JP2016214874A patent/JP6622681B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0358099A (ja) * | 1989-07-27 | 1991-03-13 | Nec Corp | 発声変形検出装置 |
JP2004325635A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020035999A1 (ja) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法、及びプログラム |
JP2020027211A (ja) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法、及びプログラム |
WO2021240780A1 (ja) * | 2020-05-29 | 2021-12-02 | 日本電信電話株式会社 | ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム |
JP7364068B2 (ja) | 2020-05-29 | 2023-10-18 | 日本電信電話株式会社 | ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム |
CN112331229A (zh) * | 2020-10-23 | 2021-02-05 | 网易有道信息技术(北京)有限公司 | 语音检测方法、装置、介质和计算设备 |
CN112331229B (zh) * | 2020-10-23 | 2024-03-12 | 网易有道信息技术(北京)有限公司 | 语音检测方法、装置、介质和计算设备 |
WO2022105861A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 用于识别语音的方法、装置、电子设备和介质 |
CN112700781A (zh) * | 2020-12-24 | 2021-04-23 | 江西台德智慧科技有限公司 | 一种基于人工智能的语音交互系统 |
CN112700781B (zh) * | 2020-12-24 | 2022-11-11 | 江西台德智慧科技有限公司 | 一种基于人工智能的语音交互系统 |
CN114724544A (zh) * | 2022-04-13 | 2022-07-08 | 北京百度网讯科技有限公司 | 语音芯片、语音识别方法、装置、设备及智能汽车 |
CN114724544B (zh) * | 2022-04-13 | 2022-12-06 | 北京百度网讯科技有限公司 | 语音芯片、语音识别方法、装置、设备及智能汽车 |
Also Published As
Publication number | Publication date |
---|---|
JP6622681B2 (ja) | 2019-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11664020B2 (en) | Speech recognition method and apparatus | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
JP6370749B2 (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
US20090240499A1 (en) | Large vocabulary quick learning speech recognition system | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
US11341986B2 (en) | Emotion detection in audio interactions | |
JP6585022B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
JP4499389B2 (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
Meinedo et al. | Age and gender detection in the I-DASH project | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
US20140142925A1 (en) | Self-organizing unit recognition for speech and other data series | |
McInnes et al. | Unsupervised extraction of recurring words from infant-directed speech | |
Biswas et al. | Speech Recognition using Weighted Finite-State Transducers | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
Shukla | Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition | |
Dharmani et al. | Performance evaluation of ASR for isolated words in Sindhi Language | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP6370732B2 (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
JP2014095851A (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP2013160930A (ja) | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム | |
Chauhan et al. | Speech Recognition System-Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6622681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |