JP2018072697A - 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム - Google Patents

音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム Download PDF

Info

Publication number
JP2018072697A
JP2018072697A JP2016214874A JP2016214874A JP2018072697A JP 2018072697 A JP2018072697 A JP 2018072697A JP 2016214874 A JP2016214874 A JP 2016214874A JP 2016214874 A JP2016214874 A JP 2016214874A JP 2018072697 A JP2018072697 A JP 2018072697A
Authority
JP
Japan
Prior art keywords
phoneme
learning
label
collapse
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016214874A
Other languages
English (en)
Other versions
JP6622681B2 (ja
Inventor
清彰 松井
Kiyoaki Matsui
清彰 松井
岡本 学
Manabu Okamoto
学 岡本
隆朗 福冨
Takaaki Fukutomi
隆朗 福冨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016214874A priority Critical patent/JP6622681B2/ja
Publication of JP2018072697A publication Critical patent/JP2018072697A/ja
Application granted granted Critical
Publication of JP6622681B2 publication Critical patent/JP6622681B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】1つの音素崩れに起因して連鎖的に誤認識が生じてしまう音素崩れ区間を検出することができる音素崩れ区間検出技術を提供する。【解決手段】学習用音声データと学習用音素区間情報系列から、学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習用音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出部110と、学習用音素ラベルと学習音素ラベルの音素崩れフラグと学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習部130とを含む。【選択図】図3

Description

本発明は、音声認識技術に関し、特に不明瞭な発音に起因し発生した音素崩れ区間を検出する技術に関する。
自然発話に関する音声認識技術は、コールセンタでの対話分析、会議における議事録作成、人間とロボットの雑談対話など様々な用途で幅広く用いられている。
これまでの音声認識にはいくつかの方法がある。例えば、あらかじめ大量に用意した音声データを学習データとして各音素のテンプレートを生成し、認識対象となる音声データにテンプレートを順に当てはめていくことにより、最尤音素系列を生成する方法がある(非特許文献1)。
また、DNN(Deep Neural Networks)を用いた方法もある(非特許文献2)。この方法は、音声特徴量を入力として音素を出力するDNNを学習することにより、認識対象となる音声データの音声特徴量から直接音素へ変換し、音素系列を生成するものであり、学習データを大量に用意することで非常によい音声認識率が得られるものである。
その他、アテトーゼ型脳性麻痺による構音障害者の発話を認識するために、CNN(Convolutional Neural Networks)を用いた特徴量抽出を行い、スペクトログラムの揺らぎを緩和させる方法もある(非特許文献3)。
F. Jelinek, "Continuous speech recognition by statistical methods", Proceedings of the IEEE, Vol.64, No.4, pp.532-556, 1976. G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE Signal Processing Magazine Vol.29, Issue 6, pp.82-97, 2012. 高島悠樹,中鹿亘,滝口哲也,有木康雄,"構音障害者音声認識のための混合正規分布に基づく音素ラベリングの検討",電子情報通信学会,信学技報,vol. 115,no.100,pp.71-76,2015.
いずれの方法においても誤認識が生じることがあるが、その中でも特に問題となるのが、音声認識率が著しく低下してしまう場合である。その要因としていくつか考えられる。
現在の音声認識技術では、予め用意された学習用音声データから学習した音声の特徴を知識として音声認識に用いるため、雑音環境や話者の話し方が平均的なものから大きく逸脱した場合、音声認識率は著しく低下する。平均的なものから大きく逸脱する場合の例として、雑音環境の側面では学習用音声データにない新たな雑音環境にさらされる場合や非定常性の強い突発的な雑音が発生する場合などがあり、話者の話し方の側面では話者が強い感情をこめて発話する場合や声量が極端に大きい(極端に小さい)場合などがある。このようなケースが劣化要因となり、発話の一部あるいは全部で発生すると音声認識率が著しく低下してしまう。
また、現在の音声認識技術には、現在着目している語の前にどのような語が続いているかという情報を利用しているものもあり、このため、不明瞭な発音である音素崩れにより誤認識をいったん起こしてしまうと後続の語についても連鎖的に誤認識していまうという現象(ピットフォールエラー)が発生することがある(参考非特許文献1)。このピットフォールエラーも音声認識率を著しく低下させてしまう。
(参考非特許文献1)浅見太一,野田喜昭,高橋敏,“ピットフォールエラーに着目した音声認識誤りの分析”,日本音響学会講演論文集2008年3月,1-10-18,pp.53-54,2008.
そこで本発明は、1つの音素崩れに起因して連鎖的に誤認識が生じてしまう音素崩れ区間を検出することができる音素崩れ区間検出技術を提供することを目的とする。
本発明の一態様は、学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習用音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出部と、前記学習用音素ラベルと前記学習音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習部とを含む。
本発明によれば、音声認識時に母音の音素崩れを検出するためのモデルである音素崩れ決定木を学習することができる。
音素区間情報系列の一例を示す図。 学習用音素区間情報系列の一例を示す図。 音素崩れ検出モデル学習装置100の構成の一例を示す図。 音素崩れ検出モデル学習装置100の動作の一例を示す図。 学習用音素情報抽出部110の構成の一例を示す図。 学習用音素情報抽出部110の動作の一例を示す図。 音素崩れ検出モデルである音素崩れ決定木の一例を示す図。 音素崩れ区間検出装置200の構成の一例を示す図。 音素崩れ区間検出装置200の動作の一例を示す図。 音声認識部230による認識結果の一例を示す図。 音声認識部230の構成の一例を示す図。 音素照合部250の構成の一例を示す図。 音素照合部250の動作の一例を示す図。 推定音素系列生成部241の動作の一例を示す図。 音素系列比較部243の動作の一例を示す図。 音素照合部250による照合結果の一例を示す図。 音素崩れ区間検出部270による検出結果の一例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<定義>
以下、各実施形態で用いる用語について説明する。
[音声データ]
音声データとは、学習(具体的には、音素崩れ決定木の学習)や音声認識に用いるため、あらかじめ収録しておく音声データのことである。音声データは、話者が発話した文章の音声であり、例えばサンプリング周波数16kHzで離散値化されたデジタルデータである。
[音素区間情報系列]
音素区間情報系列とは、音声データに対して付与される音素に関する情報(以下、音素区間情報という)の系列のことである。音声データに一つの音素区間情報系列が付与されている。
音素区間情報には、少なくとも音素を表す音素ラベル、音素の発話開始時間と発話終了時間の情報が含まれる。ここでいう発話開始時間・発話終了時間は、各発話の始点を0[秒]としたときの経過時間のことである。音素区間情報系列の一例を図1に示す。
また、音素崩れ決定木の学習に用いる学習データは、学習用音声データと学習用音素区間情報系列の組である。ここで、学習用音素区間情報は、音素区間情報に対して、人手により音素崩れを起こしている音素(不明瞭な発音となっている音素)にそのことを示す専用ラベル(以下、音素崩れラベルという)を対応付けたものである。学習用音素区間情報系列の一例を図2に示す。音素崩れラベルは、図2に示すように音素ラベルとは異なるラベルを付与する形としてもよいし、音素崩れを起こしている音素ラベルを音素崩れラベルで上書きする形としてもよい。この例では、記号”*”を付することにより、表の上から2行目、3行目、6行目、8行目の音素“a”、音素“r”、音素“u”、音素“u”が音素崩れを起こしていることを示している。なお、音素崩れを起こしていない音素に対して何も記号を付けない代わりに、音素が崩れていないことを示すnilなどの特別な記号を付してもよい。
以下では、各音素に対して、音素崩れラベルか、音素崩れを起こしていないことを示すラベルのいずれかが音素崩れの有無を示す音素崩れフラグとして対応づけられているものとする。
音素区間情報系列から学習用音素区間情報系列を生成する作業には、多少の主観が伴ってしまうが、例えば、音声認識処理の結果大きく認識誤りを起こしている箇所に作業範囲を限定して作業をすることで、作業者による音素崩れラベルの付与のばらつきをある程度抑制することができる。
<第一実施形態>
以下、図3〜図7を参照して音素崩れ検出モデル学習装置100について説明する。
[音素崩れ検出モデル学習装置100]
図3に示すように音素崩れ検出モデル学習装置100は、学習用音素情報抽出部110、音素崩れ決定木学習部130、記録部190を含む。記録部190は、音素崩れ検出モデル学習装置100の処理に必要な情報を適宜記録する構成部である。音素崩れ検出モデル学習装置100は、学習用音声データ、学習用音素区間情報系列を入力として、音素崩れ検出モデルである音素崩れ決定木を学習し、出力する。
図4に従い音素崩れ検出モデル学習装置100の動作について説明する。学習用音素情報抽出部110は、学習用音声データ、学習用音素区間情報系列を入力として、学習用音素区間情報に含まれる母音音素を示す母音音素ラベル、半母音音素を示す半母音音素ラベル、促音音素を示す促音音素ラベル、音素崩れラベルと対応付けられている音素ラベル(以下、これらを学習用音素ラベルという)を抽出、当該学習用音素ラベルの音素に対応する発話区間(つまり、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間)に対応するフレームから音声特徴量(以下、学習用音素区間音声特徴量という)を抽出、学習用音素ラベルと当該学習音素ラベルの音素崩れフラグ、学習用音素区間音声特徴量の組を出力する(S110)。
ここで、音素崩れの大部分は、母音、半母音、促音のように語末に出現する音素がきちんと発音されないことに起因することが多いため、音素崩れラベルと対応付けられている音素に加えて、母音音素ラベル、半母音音素ラベル、促音音素ラベルの音素についても学習用音素ラベルの音素として選択することとした。したがって、日本語の場合、”a(あ)”、”i(い)”、”u(う)”、”e(え)”、”o(お)”、”ng(ん)”、”q(っ)”の7種の音素と音素崩れラベルが対応付けられた音素のラベルが抽出されることとなる。
図2の例でいえば、表の上から2行目、3行目、6行目、8行目の音素“a”、音素“r”、音素“u”、音素“u”が音素崩れラベルを付与されているため、学習用音素ラベルとなる。また、表の上から4行目の音素“a”が母音音素ラベルであるため、学習用音素ラベルとなる。
したがって、母音音素ラベルの音素、半母音音素ラベルの音素、促音音素ラベルの音素、音素崩れを起こしている音素を用いて音素崩れ決定木を学習することになる。
なお、母音音素ラベルの音素と音素崩れを起こしている音素のみを用いて音素崩れ決定木を学習してもよい。音素崩れが、母音がきちんと発音されないことに起因することが特に多いためである。
音素崩れ決定木学習部130は、学習用音素ラベルと学習音素ラベルの音素崩れフラグ、学習用音素区間音声特徴量を入力として、音素崩れ決定木を学習し、出力する(S130)。
以下、学習用音素情報抽出部110、音素崩れ決定木学習部130の構成、動作について詳細に説明していく。
まず、図5〜図6を参照して学習用音素情報抽出部110について説明する。図5に示すように学習用音素情報抽出部110は、音声特徴量生成部101、学習用音素選択部103を含む。図6に従い学習用音素情報抽出部110の動作について説明する。
音声特徴量生成部101は、学習用音声データをフレームに分割し、音声特徴量を生成し、各学習用音素区間情報の音素に対応する発話区間(つまり、当該音素の発話開始時間から発話終了時間までの区間)に対応するフレームの音声特徴量(以下、音素区間音声特徴量という)と当該音素の音素ラベルと音素崩れフラグの組を生成し、音素ラベルと音素崩れフラグと音素区間音声特徴量を出力する(S101)。音声特徴量としては、例えば、MFCC(Mel-Frequency Cepstrum Coefficients;メル周波数ケプストラム係数)、FBANK(対数メルフィルタバンク)を用いればよい。一般に、Nを1以上の整数として、各音素の発話区間はNフレームと対応するため、1つの音素ラベルにN個の音声特徴量が対応付けられることになる。
学習用音素選択部103は、音素ラベル、音素崩れフラグ、音素区間音声特徴量を入力として、当該音素ラベルが母音、半母音、促音のいずれかを示すものである場合、または、当該音素ラベルに音素崩れラベルが付されている(つまり、音声崩れフラグが記号”*”である)場合は、入力された音素ラベルと音素崩れフラグと音素区間音声特徴量を学習用音素ラベルと音素崩れフラグと学習用音素区間音声特徴量としてそのまま出力する。一方、それ以外の場合(つまり、音素ラベルが母音、半母音、促音のいずれを示すものでなく、音素崩れラベルも付されていない場合)は、入力された音素ラベル等はそのまま破棄し、出力しない(S103)。
次に、音素崩れ決定木学習部130について説明する。音素崩れ決定木学習部130は、学習用音素ラベルと音素崩れフラグと学習用音素区間音声特徴量を入力として、音素崩れ決定木を学習する(S130)。音素崩れ決定木は、図7に示すように、最上層の根ノードに入ってきた学習用音素区間音声特徴量に対して、Yes-Noクエスチョンを繰り返しながら(ここでは、学習用音素区間音声特徴量に関する属性についての質問とその答えを用いて)最下層の葉ノードまで到達し、到達した葉ノードに付与された学習用音素ラベルと音素崩れフラグを出力するものである。以下、音素崩れフラグが記号”*”である、つまり音素崩れが起きている葉ノードのことを音素崩れノードという。
一般に、決定木の学習では、各学習データをクラスタリングするために複数の属性と値のペアが必要になる。属性の数と種類は任意に決定することができるが、一般的に学習データは大量になるため、属性とその値は一定の手順に従い自動的に決定されるものが望ましい。例えば、音素区間の長さを属性とすることができる。この属性は、学習データである学習用音素区間音声特徴量の数から計算することができる。また、音の高さを表す特徴量であるF0の平均値を属性とすることができる。音素区間音声特徴量から計算で求めることができるからである。音素崩れは、口の動きの物理的制約により前後の音素を引きずってしまう音韻のなまけ現象が主要因となる。また、早口である人ほど音素崩れの傾向は強い。したがって、時間変化量に関する属性とその値、音素継続長に関する属性とその値を用いると音素崩れ決定木の学習が効率的に進む。
また、音素崩れ決定木の学習には、エントロピーを用いた学習法を適用することができる。エントロピーを用いた学習法は、音素崩れ決定木の構成に用いる属性の重要度を客観的に評価するためことができ、重要度の高い属性を根ノードに近づけることにより、よりコンパクトな決定木を構成することができる。以下、エントロピーを用いた学習法について簡単に説明する。決定木をT、m番目のノードをRm、ノードRm中の例題数(決定木Tに従い、クラスタリングしてきた際にノードRmに割り当てられる学習データの数)をnmとする。このとき、ノードRmにおいてラベルがgになる確率P^m,gは、式(1)のようになる。
Figure 2018072697
ここで、I[]は個々の学習データ、yiは学習データIのラベルであり、Σを足し合わせる範囲はノードRmに割り当てられる学習データが1からnmまででナンバリングされているものとして、すべての学習データについてである。
ノードRmにおけるラベルの予測値y^(m)は、確率が最大となるラベルであるから、
Figure 2018072697
となる。エントロピーに基づく学習では、ノードRmのコストQm(T)を式(3)で定義する。
Figure 2018072697
すなわち、ノードRmにおけるエントロピー(各ラベルのエントロピーの総和)の符号を反転させたものが、ノードRmにおけるコストQm(T)になる(Qm(T)≦0)。
ここで、着目している属性が音素崩れの判別に有用であるならば、その属性がとる値と音素崩れのラベルの有無には大きな関連性が見られるはずである。すなわち、有用な属性に対しては、エントロピーは小さくなる(つまり、コストは大きくなる)。実際、式(3)において、p^m,g=1、すなわち、100%の確率でラベルgを与えるような属性が存在する場合、そのエントロピーは0(コストも0)となり、純度が最大となる。つまり、コストの大きさが属性の重要度を示す。このため、コストが大きいノードをより上に(根ノードの近く)に配置することにより、よりコンパクトで、判定性能の高い決定木を構成することが可能となる。
その他、エントロピーに基づく決定木の学習には、下に続く枝の本数が二本以上でもよい、構成した木から不要な枝を削除する枝刈りが容易である等、多くのメリットがある。
以下、図8〜図17を参照して音素崩れ区間検出装置200について説明する。
[音素崩れ区間検出装置200]
図8に示すように音素崩れ区間検出装置200は、音声特徴量生成部210、音声認識部230、音素照合部250、音素崩れ区間検出部270、記録部290を含む。記録部290は、音素崩れ区間検出装置200の処理に必要な情報を適宜記録する構成部である。音素崩れ区間検出装置200は、認識用音声データを入力として、音素崩れ検出モデル学習装置100が学習した音素崩れ決定木を用いて、音素崩れ区間付き最尤音素系列を生成し、出力する。音素崩れ区間付き最尤音素系列は、音声認識部230による認識結果である最尤音素系列に音素が崩れている区間(音素崩れ区間)の情報を付したものである。
図9に従い音素崩れ区間検出装置200の動作について説明する。音声特徴量生成部210は、認識用音声データをフレームに分割し、音声特徴量を生成し、出力する(S210)。音声特徴量生成部210は、音声特徴量生成部101における音声特徴量の生成と同一条件にて音声特徴量を生成する。
音声認識部230は、S210で生成した音声特徴量を入力として、認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、最尤音素系列の各音素の発話区間に対応するフレームの音声特徴量の系列である音声特徴量系列を生成し、最尤音素系列と音声特徴量系列を認識結果として出力する(S230)。認識結果の一例を図10に示す。音声認識部230の構成の一例を図11に示す。当該構成では、デコーダ221が各モデル(音響モデル225、言語モデル227、辞書229)を用いて入力となる音声特徴量から最尤音素系列を含む認識結果を生成する。音声認識部230の構成にはDNNを用いればよい。
音素照合部250は、S230で生成した最尤音素系列と音声特徴量系列を入力として、音素崩れ検出モデル学習装置100が学習した音素崩れ決定木を用いて、最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成し、出力する(S250)。図12〜図16を参照して音素照合部250について詳しく説明する。図12に示すように音素照合部250は、推定音素系列生成部241、音素系列比較部243を含む。図13に従い音素照合部250の動作について説明する。
推定音素系列生成部241は、最尤音素系列、音声特徴量系列を入力として、音素崩れ決定木を用いて、推定音素系列を生成する(S241)。推定音素系列生成部241の動作について詳細に説明する(図14参照)。図14は、最尤音素系列をa1…aK、音声特徴量系列をb1…bKを入力として推定音素系列をc1…cKを出力する推定音素系列生成部241の動作を説明するフローチャートである(ただし、Kは系列の長さ(つまり、最尤音素系列に含まれる音素の数))。
推定音素系列生成部241は、最尤音素系列中の音素ラベルが母音を示すものである場合は、音素崩れ決定木を用いて、音声特徴量系列中の当該母音に対応する音声特徴量から決定される音素を推定音素として生成する(S241−4a)。一方、最尤音素系列中の音素ラベルが子音等母音以外の音素を示すものである場合は、当該音素を推定音素として生成する(S241−4b)。これらの推定音素を順に結合することで推定音素系列を生成する(S241−7)。
音素系列比較部243は、最尤音素系列、S241で生成した推定音素系列を入力として、音素崩れラベル付き最尤音素系列を生成する(S243)。音素系列比較部243の動作について詳細に説明する(図15参照)。図15は、最尤音素系列をa1…aK、推定音素系列をc1…cKを入力として音素崩れラベル付き最尤音素系列をd1…dKを出力する音素系列比較部243の動作を説明するフローチャートである。
音素系列比較部243は、S241で生成した推定音素系列の各音素ラベルと最尤音素系列の各音素ラベルを順に比較していき(S243−3)、一致する場合は最尤音素系列の音素ラベルのみを音素単位照合結果として生成する(S243−4a)。一方、一致しない場合は最尤音素系列の音素ラベルと音素崩れラベルの組を音素単位照合結果として生成する(S241−4b)。これらの音素単位照合結果を順に結合することで音素崩れラベル付き最尤音素系列を照合結果として生成し、出力する(S243−7)。照合結果の一例を図16に示す。
音素崩れ区間検出部270は、S250で生成した音素崩れラベル付き最尤音素系列を入力として、音素崩れラベルが付与された2つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成し、出力する(S270)。具体的には以下のようにして音素崩れ区間付き最尤音素系列を生成する。音素崩れラベル付き最尤音素系列を先頭から順に見ていき、音素崩れラベルが付与されている母音音素ラベル(母音音素ラベル1)を見つけ出す。見つけたら、その次に出現する母音音素ラベル(母音音素ラベル2)を見つけ出し、音素崩れラベルが付与されているか否かを確認する。音素崩れラベルが付与されている場合は、その間にあるすべての子音等の音素ラベルに対して音素崩れラベルを付与する(つまり、母音音素ラベル1から母音音素ラベル2までのすべての音素ラベルに音素崩れラベルを付与する)。一方、音素崩れラベルが付与されていない場合は、見つけ出した音素崩れラベルが付与されている母音音素ラベル(母音音素ラベル1)から音素崩れラベルを削除する。この手続きを繰り返すことにより、音素崩れラベルが付与された2つ以上の連接する音素群からなる音素崩れ区間が生成され、音素崩れ区間付き最尤音素系列が生成される。したがって、最尤音素系列の中で母音音素ラベルのみをみたとき隣り合う3つの母音音素ラベルすべてに音素崩れラベルが付与されている場合は、前から1番目の母音音素ラベルから3番目の母音音素ラベルまでのすべての音素ラベルに音素崩れラベルを付与することになる。検出結果の一例を図17に示す。
本実施形態の発明によれば、音声認識時に母音の音素崩れを検出するためのモデルである音素崩れ決定木を学習することができる。また、音素崩れ決定木を用いて、母音の音素崩れのみを判定することにより音素崩れを迅速に検出することができる。さらに、音声認識率を著しく低下させる、音素崩れが2つ以上の音素で連続的に生じている音素崩れ区間を検出することができる。
<変形例>
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、
    前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出部と、
    前記学習用音素ラベルと前記学習用音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習部と
    を含む音素崩れ検出モデル学習装置。
  2. 認識用音声データから、音声特徴量を生成する音声特徴量生成部と、
    前記音声特徴量を用いて、前記認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、前記最尤音素系列に含まれる各音素の発話区間に対応する音声特徴量の系列である音声特徴量系列を生成する音声認識部と、
    請求項1に記載の音素崩れ検出モデル学習装置が学習した音素崩れ決定木を用いて、前記最尤音素系列と前記音声特徴量系列から、前記最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成する音素照合部と、
    前記音素崩れラベル付き最尤音素系列から、前記音素崩れラベルが付与された2つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成する音素崩れ区間検出部と
    を含む音素崩れ区間検出装置。
  3. 学習用音素区間情報系列を、学習用音声データに付与される、音素を示す音素ラベル、当該音素の発話開始時間と発話終了時間、当該音素が不明瞭であることを示す音素崩れラベルかそれ以外であることを示すラベルのいずれかである音素崩れフラグを含む学習用音素区間情報の系列とし、
    音素崩れ区間検出装置が、前記学習用音声データと前記学習用音素区間情報系列から、前記学習用音素区間情報に含まれる母音音素を示す母音音素ラベルまたは音素崩れラベルと対応付けられている音素ラベルである学習用音素ラベルと、当該学習用音素ラベルの音素崩れフラグと、当該学習用音素ラベルの音素の発話開始時間から発話終了時間までの区間に対応する音声特徴量である学習用音素区間音声特徴量を抽出する学習用音素情報抽出ステップと、
    前記音素崩れ区間検出装置が、前記学習用音素ラベルと前記学習音素ラベルの音素崩れフラグと前記学習用音素区間音声特徴量から、音素の音素崩れを検出するためのモデルである音素崩れ決定木を学習する音素崩れ決定木学習ステップと
    を含む音素崩れ検出モデル学習方法。
  4. 音素崩れ区間検出装置が、認識用音声データから、音声特徴量を生成する音声特徴量生成ステップと、
    前記音素崩れ区間検出装置が、前記音声特徴量を用いて、前記認識用音声データの一番尤もらしい音素の系列である最尤音素系列と、前記最尤音素系列に含まれる各音素の発話区間に対応する音声特徴量の系列である音声特徴量系列を生成する音声認識ステップと、
    前記音素崩れ区間検出装置が、請求項3に記載の音素崩れ検出モデル学習方法により学習した音素崩れ決定木を用いて、前記最尤音素系列と前記音声特徴量系列から、前記最尤音素系列に含まれる、音素崩れを起こしている母音音素を示す母音音素ラベルに音素崩れラベルを付した音素単位照合結果の系列である音素崩れラベル付き最尤音素系列を生成する音素照合ステップと、
    前記音素崩れ区間検出装置が、前記音素崩れラベル付き最尤音素系列から、前記音素崩れラベルが付与された2つ以上の連接する音素群からなる音素崩れ区間を付与した音素崩れ区間付き最尤音素系列を生成する音素崩れ区間検出ステップと
    を含む音素崩れ区間検出方法。
  5. 請求項1に記載の音素崩れ検出モデル学習装置または請求項2に記載の音素崩れ区間検出装置としてコンピュータを機能させるためのプログラム。
JP2016214874A 2016-11-02 2016-11-02 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム Active JP6622681B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016214874A JP6622681B2 (ja) 2016-11-02 2016-11-02 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016214874A JP6622681B2 (ja) 2016-11-02 2016-11-02 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018072697A true JP2018072697A (ja) 2018-05-10
JP6622681B2 JP6622681B2 (ja) 2019-12-18

Family

ID=62115442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016214874A Active JP6622681B2 (ja) 2016-11-02 2016-11-02 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Country Status (1)

Country Link
JP (1) JP6622681B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035999A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
CN112331229A (zh) * 2020-10-23 2021-02-05 网易有道信息技术(北京)有限公司 语音检测方法、装置、介质和计算设备
CN112700781A (zh) * 2020-12-24 2021-04-23 江西台德智慧科技有限公司 一种基于人工智能的语音交互系统
WO2021240780A1 (ja) * 2020-05-29 2021-12-02 日本電信電話株式会社 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质
CN114724544A (zh) * 2022-04-13 2022-07-08 北京百度网讯科技有限公司 语音芯片、语音识别方法、装置、设备及智能汽车

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0358099A (ja) * 1989-07-27 1991-03-13 Nec Corp 発声変形検出装置
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0358099A (ja) * 1989-07-27 1991-03-13 Nec Corp 発声変形検出装置
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035999A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
JP2020027211A (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法、及びプログラム
WO2021240780A1 (ja) * 2020-05-29 2021-12-02 日本電信電話株式会社 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
JP7364068B2 (ja) 2020-05-29 2023-10-18 日本電信電話株式会社 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
CN112331229A (zh) * 2020-10-23 2021-02-05 网易有道信息技术(北京)有限公司 语音检测方法、装置、介质和计算设备
CN112331229B (zh) * 2020-10-23 2024-03-12 网易有道信息技术(北京)有限公司 语音检测方法、装置、介质和计算设备
WO2022105861A1 (zh) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质
CN112700781A (zh) * 2020-12-24 2021-04-23 江西台德智慧科技有限公司 一种基于人工智能的语音交互系统
CN112700781B (zh) * 2020-12-24 2022-11-11 江西台德智慧科技有限公司 一种基于人工智能的语音交互系统
CN114724544A (zh) * 2022-04-13 2022-07-08 北京百度网讯科技有限公司 语音芯片、语音识别方法、装置、设备及智能汽车
CN114724544B (zh) * 2022-04-13 2022-12-06 北京百度网讯科技有限公司 语音芯片、语音识别方法、装置、设备及智能汽车

Also Published As

Publication number Publication date
JP6622681B2 (ja) 2019-12-18

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
WO2018192186A1 (zh) 语音识别方法及装置
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
KR102094935B1 (ko) 음성 인식 시스템 및 방법
US11341986B2 (en) Emotion detection in audio interactions
JP6585022B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
Meinedo et al. Age and gender detection in the I-DASH project
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
McInnes et al. Unsupervised extraction of recurring words from infant-directed speech
Biswas et al. Speech Recognition using Weighted Finite-State Transducers
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
Shukla Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition
Dharmani et al. Performance evaluation of ASR for isolated words in Sindhi Language
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP2014095851A (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP2013160930A (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
Chauhan et al. Speech Recognition System-Review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191122

R150 Certificate of patent or registration of utility model

Ref document number: 6622681

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150