JP5812936B2 - アクセント句境界推定装置、アクセント句境界推定方法及びプログラム - Google Patents

アクセント句境界推定装置、アクセント句境界推定方法及びプログラム Download PDF

Info

Publication number
JP5812936B2
JP5812936B2 JP2012118229A JP2012118229A JP5812936B2 JP 5812936 B2 JP5812936 B2 JP 5812936B2 JP 2012118229 A JP2012118229 A JP 2012118229A JP 2012118229 A JP2012118229 A JP 2012118229A JP 5812936 B2 JP5812936 B2 JP 5812936B2
Authority
JP
Japan
Prior art keywords
boundary
speaker
dependent
phrase
phrase boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012118229A
Other languages
English (en)
Other versions
JP2013246224A (ja
Inventor
博子 村上
博子 村上
光昭 磯貝
光昭 磯貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012118229A priority Critical patent/JP5812936B2/ja
Publication of JP2013246224A publication Critical patent/JP2013246224A/ja
Application granted granted Critical
Publication of JP5812936B2 publication Critical patent/JP5812936B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成等において用いられる音声データベースを構成する音声データの単語境界がアクセント句境界であるか否かを推定する技術に関する。
従来、統計的手法による音声合成技術において、正しく韻律情報が生成された自然な合成音声を得るためには、韻律情報について高精度にラベルリングをされた大規模な音声データベースが必要となる。しかし、人手による韻律ラベリング作業には非常に大きなコストがかかる点が課題となっている。この課題を解決するために、人手によって行っている韻律ラベリング作業を自動的に行う手法(自動セグメンテーション)が提案されている。発話内容と音素ラベルが既知の条件のもと、基本周波数(以下「F0」ともいう)モデルと言語モデルに基づき、アクセント句境界の推定を行う従来技術として、非特許文献1及び非特許文献2が知られている。なお、一つの文章は一つ以上のアクセント句から構成され、各アクセント句は一つ以上の単語から構成され、単語境界をアクセント句境界の候補と考える。
山本,趙,山下,"言語情報とF0情報を利用したアクセント句境界の自動推定",IEICE Technical Report,2010,SP2010-109, pp37-42 R.Tachibana, T.Nagano, G.Kurata, M.Nishimura and N. Babagushi, "Automatic Prosody Labeling Using Multiple Models for Japanese", IEICE Trans. Inf & Syst., 2007, E90-D, 11, pp1805-1812
しかしながら、アクセント句境界の置き方は、話者により特徴があるため、従来技術において、話者独立言語モデルを用いてアクセント句境界の推定を行うと、話者依存言語モデルを用いてアクセント句境界の推定を行う場合と比べ、アクセント句境界の推定精度が低下する。なお、話者独立言語モデルとはアクセント句境界の推定の対象となる音声データの話者と異なる話者(不特定話者)の音声データ(話者独立音声データ)に基づき学習した言語モデルであり、話者依存言語モデルとは同じ話者の音声データ(話者依存音声データ)に基づき学習した言語モデルである。
しかし、統計的に十分信頼できる量の句境界ラベル有話者依存音声データを新規に用意し、話者依存言語モデルを構築するのはコストがかかる。
本発明は、従来技術と比べて少量の句境界ラベル有話者依存音声データを用いて、大量の句境界ラベル無話者依存音声データに対してアクセント句境界を精度よく推定できるアクセント句境界推定技術を提供することを目的とする。
上記の課題を解決するために、本発明の第一の態様によれば、句境界基本周波数モデル学習部が、単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習し、尤度算出部が、句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し、尤度差算出部が、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出し、仮句境界ラベル付与部が、句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与し、言語素性抽出部が、句境界ラベル無話者依存音声データの単語境界に対して、句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出し、話者依存言語素性データベース構築部が、尤度差の絶対値が閾値より大きい単語境界に対応する言語素性と仮句境界ラベルとを用いて、話者依存言語素性データベースを構築し、話者依存句境界言語モデル生成部が、話者依存言語素性データベースを学習データとして、仮句境界ラベルと言語素性との関係をモデル化した話者依存句境界言語モデルを生成する。
大量の句境界ラベル無話者依存音声データから信頼度の高いデータを選択して句境界言語モデルの学習に用いることで、句境界ラベルを手動で付与した大量の話者依存音声データを用意することなく、話者依存句境界言語モデルを構築することができるという効果を奏する。
図1Aは句境界ラベル有話者依存音声データの例を、図1Bは句境界ラベル無話者依存音声データの例を示す図。 第一実施形態に係るアクセント句境界推定装置の機能ブロック図。 第一実施形態に係るアクセント句境界推定装置の処理フローを示す図。 基本周波数に関する特徴を説明するための図。 話者依存言語素性データベースの例を示す図。 第一実施形態に係る句境界言語モデル学習部の機能ブロック図。 第一実施形態に係る句境界言語モデル学習部の処理フローを示す図。 第一実施形態の変形例に係る句境界言語モデル学習部の機能ブロック図。 第一実施形態の変形例に係る句境界言語モデル学習部の処理フローを示す図。 第一実施形態の変形例に係る句境界言語モデル学習部の機能ブロック図。 第一実施形態の変形例に係る句境界言語モデル学習部の処理フローを示す図。 第二実施形態に係る句境界言語モデル学習部の機能ブロック図。 第二実施形態に係る句境界言語モデル学習部の処理フローを示す図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
本実施形態では、まず、少量(例えば15分程度)の、句境界ラベルが付与された話者依存の音声データ(以下「句境界ラベル有話者依存音声データ」ともいう)を用いて、単語境界における音響特徴を学習した、話者依存句境界F0モデルを構築する。なお、句境界ラベルとは、音声データの単語境界に対して付与され、その単語境界がアクセント句境界であるか否かを表すラベルである。句境界ラベル有話者依存音声データとは、句境界ラベルが付与されている、話者依存の音声データである。図1Aに句境界ラベル有話者依存音声データに付与される句境界ラベル及び言語情報を例示する。本実施形態では、言語情報として、音声データに対応する発話内容、品詞、音素系列、音素継続時間長及びF0値が含まれる。発話内容は既知であり、形態素解析により、品詞情報等の言語素性のラベルが高精度で付与されているものとする。また、自動音素ラベリングにより、音素ラベル及び音素の継続時間長が付与されているものとする。分析フレーム毎に抽出したF0パラメータに対し、無声音区間の直線補完、及びスムージング処理が行われ、フレーム毎に連続したF0値が与えられる。また、単語境界に対して句境界ラベルが手動で付与されている。ただし、図中は、対象となる単語境界の直前の単語に対して、句境界ラベルが付与されている。該当単語境界がアクセント句境界である場合は1が、アクセント句境界でない場合は0が、句境界ラベルとして付与されている。話者依存句境界F0モデルとは、句境界ラベル有話者依存音声データにおける、単語境界のF0に関する特徴(以下「F0特徴」ともいい、その詳細は後述する)と句境界ラベルとを学習データとして、アクセント句境界におけるF0特徴をモデル化した、アクセント句境界判定モデルのことである。
次に、話者依存句境界F0モデルを用いて、大量(例えば3時間程度)の、句境界ラベルが付与されていない話者依存の音声データ(以下「句境界ラベル無話者依存音声データ」ともいう)の単語境界に、仮の句境界ラベル(以下「仮句境界ラベル」ともいう。後述するアクセント句境界推定部130で推定して最終的に付与する句境界ラベルに対して、仮に付与するものであることを意味する)を付与し、仮句境界ラベルが付与された単語境界の中から信頼度が高い単語境界を選択する。言い換えると、話者依存句境界F0モデルから算出される、単語境界がアクセント句境界である場合の尤度とない場合の尤度との対数尤度差が一定値以上となる、単語境界のみを選択する。選択された単語境界の言語素性を句境界言語モデルの学習データとして用いることで、話者依存句境界言語モデルを構築する。なお、句境界ラベル無話者依存音声データとは、句境界ラベルが付与されていない、話者依存の音声データである。図1Bに句境界ラベル無話者依存音声データに付与される言語情報を例示する。句境界ラベル無話者依存音声データは、大量に用意されていることを前提とし、句境界ラベル無話者依存音声データには句境界ラベル有話者依存音声データと同様の言語情報が付与されているものとする。話者依存句境界言語モデルとは、句境界言語モデル学習部120から出力されるものであり、話者依存言語素性データベース(詳細は後述する)を学習データとして、単語境界の仮の句境界ラベルと言語素性との関係をモデル化したものであり、アクセント句境界判定モデルである。
これにより、句境界ラベル無話者依存音声データに手動で句境界ラベルを付与することなく、話者依存句境界言語モデルを構築することができるため、話者依存言語モデル構築にかかるコストを低減できる。
図2は第一実施形態に係るアクセント句境界推定装置100の機能ブロック図を、図3はその処理フローを示す。アクセント句境界推定装置100は、句境界F0モデル学習部110、句境界言語モデル学習部120及びアクセント句境界推定部130を含む。
句境界F0モデル学習部110は、少量の句境界ラベル有話者依存音声データを用いて、話者依存句境界F0モデルを学習する(s1)。
句境界言語モデル学習部120は、話者依存句境界F0モデルと、大量の句境界ラベル無話者依存音声データとを用いて、話者依存句境界言語モデルを学習する(s2)。
アクセント句境界推定部130で、話者依存句境界F0モデルと話者依存句境界言語モデルとを用いて、句境界ラベル無話者依存音声データの単語境界について句境界ラベルを推定し(s3)、推定した句境界ラベルが付与された話者依存音声データを出力する。なお、推定した句境界ラベルのみを出力する構成としてもよい。
以下、各部の詳細を説明する。
<句境界F0モデル学習部110>
句境界F0モデル学習部110は、句境界ラベル有話者依存音声データを受け取り、句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界におけるF0特徴と句境界ラベルの関係をモデル化して、話者依存句境界F0モデルを学習し、句境界言語モデル学習部120及びアクセント句境界推定部130に出力する。例えば、句境界ラベル有話者依存音声データの単語境界のF0特徴をGMM(Gaussian mixture model;混合ガウス分布モデル)でモデル化する。この場合、句境界ラベル有話者依存音声データから抽出したフレーム毎に連続したF0値から、単語境界について、F0特徴を抽出する。F0特徴として、例えば、単語境界前後1モーラ長(例えば160ms)におけるF0値の変化を2本の直線で近似したときの3つの端点のF0値v、v、vからなる特徴ベクトルf=(v,v,v)を用いる(図4、非特許文献1及び非特許文献2参照)。
<句境界言語モデル学習部120>
句境界言語モデル学習部120は、話者依存句境界F0モデル及び大量の句境界ラベル無話者依存音声データを受け取り、話者依存句境界F0モデルを用いて、大量の句境界ラベル無話者依存音声データから、仮句境界ラベルの自動付与結果の信頼度が高い単語境界群を選択し、それらの単語境界の言語素性と仮句境界ラベルとを抽出した話者依存言語素性データベースを構築する。そして、話者依存言語素性データベースを学習データとして、話者依存句境界言語モデルを構築する。なお、話者依存言語素性データベースは、句境界言語モデル学習用の言語素性データベースであり(図5参照)、単語境界についての、仮句境界ラベル、及び、句境界前後の単語の品詞等の言語素性の情報をもつ。
以下、詳細を説明する。図6は句境界言語モデル学習部120の機能ブロック図を、図7はその処理フローを示す。
句境界言語モデル学習部120は、尤度算出部121と言語素性抽出部122と仮句境界ラベル付与部123と尤度差算出部124と話者依存言語素性データベース構築部125と話者依存句境界言語モデル生成部127とを含む。
(言語素性抽出部122)
言語素性抽出部122は、句境界ラベル無話者依存音声データを受け取り、句境界ラベル無話者依存音声データの単語境界に対して、句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出し(s22)、その言語素性を話者依存言語素性データベース構築部125に出力する。本実施形態では、言語素性として、単語境界直前及び直後の単語の品詞情報のペア(例えば{名詞,助詞})を用いる。ここで抽出した言語素性は、後述する閾値Tの設計、及び句境界言語モデル構築のための話者依存言語素性データベースの構築の際に使用される。
(仮句境界ラベル付与部123)
仮句境界ラベル付与部123は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルとを受け取る。大量の句境界ラベル無話者依存音声データの単語境界の系列について、話者依存句境界F0モデルを用いて句境界認識を行い、仮句境界ラベルを求め、付与する(s23)。
句境界認識は、句境界ラベル無話者依存音声データの単語境界付近で観測されるF0特徴の系列を入力とし、GMMによってモデル化された話者依存句境界F0モデルから算出される尤度を最大とする、仮句境界ラベルの系列を出力することにより行う(非特許文献1及び非特許文献2参照)。仮句境界ラベルの系列を句境界ラベル無話者依存音声データに付与し、話者依存言語素性データベース構築部125に出力する。
例えば、文がN個の単語からなるとき、i番目の単語境界(i番目の単語とi+1番目の単語の境界)に対する句境界ラベルをbと表すと、句境界ラベルの系列はB=(b,b,…,bN−1)となる。b=1はi番目の単語境界がアクセント句であることを、b=0はi番目の単語境界がアクセント句でないことを示す。i番目の単語境界におけるF0特徴をfと表すと、F0特徴の系列はF=(f,f,…,fN−1)となる。尤度を最大とする仮句境界ラベルの系列B^は、
Figure 0005812936
と表すことができる。p(f|b)は、GMMによってモデル化された話者依存句境界F0モデルから算出される尤度を表す。
(尤度算出部121)
尤度算出部121は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルとを受け取る。句境界ラベル無話者依存音声データの単語境界におけるF0特徴を入力として、話者依存句境界F0モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し(s21)、尤度差算出部124に出力する。
例えば、大量の句境界ラベル無話者依存音声データの、i番目の単語境界付近で観測されるF0特徴fを入力とし、GMMによってモデル化された話者依存句境界F0モデルから算出される対数尤度logp(f|b=1)及びlogp(f|b=0)を算出する。
(尤度差算出部124)
尤度差算出部124は、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを受け取り、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出し(s24)、尤度差を話者依存言語素性データベース構築部125に出力する。例えば、対数尤度差logp(f|b=1)−logp(f|b=0)を算出し、出力する。
なお、尤度算出部121を設けずに、仮句境界ラベル付与部123において、句境界認識の際にGMMから算出される、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを用いてもよい。
(話者依存言語素性データベース構築部125)
話者依存言語素性データベース構築部125は、単語境界についての言語素性、仮句境界ラベル及び尤度差を受け取り、尤度差の絶対値が閾値Tより大きい単語境界に対応する言語素性と仮句境界ラベルとを用いて、話者依存言語素性データベースを構築し(s25)、話者依存句境界言語モデル生成部127に出力する。
例えば、算出した対数尤度差と閾値Tとを比較する。対数尤度差が閾値Tより大きい(または、閾値T以上である)単語境界については、その単語境界にアクセント句境界が存在する可能性が高い、または、アクセント句境界が存在しない可能性が高い、と判断し、後述する話者依存句境界言語モデルのための学習データとして選択する。(1)尤度差の絶対値が閾値Tより大きい場合であって(|logp(f|b=1)−logp(f|b=0)|>T)、かつ、(2)アクセント句境界である場合の尤度がアクセント句境界でない場合の尤度よりも大きい(logp(f|b=1)>logp(f|b=0))場合には単語境界にアクセント句境界が存在する可能性が高いと判断し、また、アクセント句境界である場合の尤度がアクセント句境界でない場合の尤度よりも小さい(logp(f|b=1)<logp(f|b=0))場合には単語境界にアクセント句境界が存在しない可能性が高いと判断する。
ここで、閾値Tは、選択される単語境界の言語素性が偏らないよう、言語素性抽出部122で抽出した言語素性の頻度に基づき、比較対象となる単語境界の言語素性によって異なる値となるように設計する。つまり、比較対象となる単語境界の言語素性の種類によって、異なる閾値Tが設定されるということである。例えば、単語境界の前後の単語の品詞のペアを言語素性とし、品詞の種類を10種類とすると、言語素性の種類は10×10で100種類となるので、各種類にそれぞれ対応する100個の異なる閾値Tが設定される。出現する確率が低い言語素性(例えば{動詞,名詞})に対しては閾値Tとして小さな値を設計することで、選択されやすくする。一方、出現する確率が高い言語素性(例えば{名詞,助詞})に対しては閾値Tとして大きな値を設計し、選択されにくくなるように設計する。例えば、閾値の初期値をt(定数)、言語素性抽出部122で抽出した言語素性の総数(=単語境界の総数)をN−1とし、そのうち、ある種類の言語素性の総数をAとすると、その種類の言語素性に対する閾値TはT=t+w×A/(N−1)となるよう設計することができる。ただし、wは重みであり、tに対するA/(N−1)の重みを調整するために用いられるパラメータである。
さらに、話者依存言語素性データベース構築部125は、選択した単語境界について、言語素性抽出部122で抽出した言語素性と、仮句境界ラベル付与部123で付与した仮句境界ラベルとから、句境界言語モデル学習用の話者依存言語素性データベースを構築する(図5参照)。
(話者依存句境界言語モデル生成部127)
話者依存句境界言語モデル生成部127は、話者依存言語素性データベースを受け取り、受け取った話者依存言語素性データベースを学習データとして、仮句境界ラベルと言語素性との関係をモデル化した話者依存句境界言語モデルを生成し(s27)、アクセント句境界推定部130に出力する。
例えば、モデル学習にはCRF(conditional random field:条件付き確率場)を用いてもよい(非特許文献1参照)。CRFでは、入力ラベルx=(x,x,…,x)、x∈Σに対する出力ラベルをy=(y,y,…,y)、y∈Σとするとき、xからyを予測するための確率分布p(y|x)は、
Figure 0005812936
によって、与えられる。ここで、jは(x,y)内での変数の組の関係についての独立した素性であり、各素性jの重要度をθ、(x,y)内で素性jが満たされている数をφ(x,y)とする。重要度θは正解データを与えたときの確率ができるだけ大きくなるように学習によって決定する。i番目の単語境界の言語素性をwとし、N個の単語からなる文の言語素性の系列をW=(w,w,…,wN−1)とし、入力ラベルxを言語素性の系列Wとし、出力ラベルyを仮句境界ラベルの系列Bとして、CRFを用いてモデル学習を行う。この他に、決定木やSVM(Support vector machine)を用いて学習する手法等も考えられる。
<アクセント句境界推定部130>
アクセント句境界推定部130は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルと話者依存句境界言語モデルとを受け取り、句境界ラベル無話者依存音声データの単語境界におけるF0特徴と言語素性とを入力として、話者依存句境界F0モデルと話者依存句境界言語モデルとから算出される尤度に基づき句境界認識を行い、その単語境界に句境界ラベルを付与し、推定句境界ラベル有話者依存音声データを、アクセント句境界推定装置100の出力値として出力する。句境界ラベルは、単語境界のF0特徴の系列F及び言語素性の系列Wを用いて、話者依存句境界F0モデル及び話者依存句境界言語モデルから算出される尤度に基づいて、推定される(非特許文献1及び非特許文献2参照)。例えば、推定される句境界ラベルをB^とすると、以下の式により求めることができる。
Figure 0005812936
ただし、βはp(F|B)に対する重み係数である。
<効果>
大量の句境界ラベル無話者依存音声データから信頼度の高いデータを選択して句境界言語モデルの学習に用いることで、句境界ラベルを手動で付与した大量の話者依存音声データを用意することなく、話者依存の句境界言語モデルを構築することができる。また、話者依存句境界言語モデルを学習し、アクセント句境界推定部130において用いることにより、句境界ラベル無話者依存音声データに対するアクセント句境界の検出性能が向上するという効果を奏する。
<変形例>
仮句境界ラベル付与部123は、尤度算出部121の出力値である、単語境界がアクセント句境界である場合の尤度p(f|b=1)と、単語境界がアクセント句境界でない場合の尤度p(f|b=0)とを受け取り、これを利用して各単語境界に対して仮句境界ラベルを付与してもよい。この場合の句境界言語モデル学習部の機能ブロック図を図8に、その処理フローを図9に示す。この場合、仮句境界ラベル付与部123は、単語境界がアクセント句境界である場合の尤度p(f|b=1)が、単語境界がアクセント句境界でない場合の尤度p(f|b=0)よりも大きい場合(p(f|b=1)>p(f|b=0))には、その単語境界がアクセント句境界で有ることを表す仮句境界ラベルb=1を付与し、単語境界がアクセント句境界である場合の尤度p(f|b=1)が、単語境界がアクセント句境界でない場合の尤度p(f|b=0)よりも小さい場合(p(f|b=1)<p(f|b=0))には、その単語境界がアクセント句境界で無いことを表す仮句境界ラベルb=0を付与し(s23)、仮句境界ラベルbを話者依存言語素性データベース構築部125に出力する。このような構成により、仮句境界ラベル付与部123は、各F0特徴fに対してそれぞれ尤度の大きい仮句境界ラベルbを付与することができ、結果として、句境界ラベル無話者依存音声データの単語境界におけるF0特徴の系列Fを入力として、話者依存句境界F0モデルから算出される尤度を最大とする仮句境界ラベルの系列Bを求めることができる。
また、先に尤度差算出部124において尤度差を算出し、その尤度差と閾値Tとを比較する構成としてもよい(図10及び図11参照)。尤度差算出部124は、各単語境界の比較結果を言語素性抽出部122と仮句境界ラベル付与部123とに出力する。単語境界にアクセント句境界が存在する可能性が高い、または、単語境界にアクセント句境界が存在しない可能性が高いことを表す比較結果に対応する単語境界についてのみ、言語素性抽出部122及び仮句境界ラベル付与部123が、それぞれ言語素性と仮句境界ラベルとを話者依存言語素性データベース構築部125に出力する。話者依存言語素性データベース構築部125では、尤度差と閾値Tとの比較せずに、受け取った言語素性と仮句境界ラベルとから話者依存言語素性データベースを構築すればよい。
<第二実施形態>
第一実施形態と異なる部分についてのみ説明する。本実施形態では、話者依存句境界F0モデルと学習データ選択(話者依存言語素性データベース構築)後に構築する話者依存句境界言語モデルとを用いて、学習データを再選択(話者依存言語素性データベースを再構築)する。これは、話者依存句境界F0モデルと話者依存句境界言語モデルから算出される対数尤度差を、学習データ選択(話者依存言語素性データベース構築)の基準とすることで、より仮句境界ラベルの信頼度の高い学習データを選択(話者依存言語素性データベースを構築)することができるためである。この学習データ再選択処理(話者依存言語素性データベース再構築処理)を、学習データが収束(話者依存言語素性データベースの更新が収束)するまで繰返し行う。そして、最終的に選択された仮句境界ラベルの信頼度の高い学習データ(話者依存言語素性データベース)を用いて、話者依存句境界言語モデルを構築することで、よりアクセント句境界検出性能の高い句境界言語モデルを構築することができる。
よって、第二実施形態では、第一実施形態の句境界言語モデル学習部120において、第一実施形態の処理を繰り返し行うことで、より句境界認識精度の高い句境界言語モデルを構築する手法について説明する。
第一実施形態の句境界言語モデル学習部120(の仮句境界ラベル付与部123)では、学習データ選択(話者依存言語素性データベース構築)の基準となるアクセント句境界判定モデルとして、話者依存句境界F0モデルのみを用いた。しかし、句境界言語モデル学習部120(の話者依存句境界言語モデル生成部127)で構築した話者依存句境界言語モデルと句境界F0モデル学習部110で構築した話者依存句境界F0モデルの両方を学習データ選択(話者依存言語素性データベース構築)基準として用いることで、より信頼度の高い言語素性データベースを構築することができると考えられる。この処理を、言語素性データベース内のデータが収束するまで繰り返し行う。
第一実施形態との差分は、以下の2点である。(1)言語素性データベースの構築後に収束判定を行い、収束していない場合は、第一実施形態の処理を繰り返す。(2)繰り返し二回目以降の、対数尤度差の計算には、話者依存句境界F0モデルだけでなく、話者依存句境界言語モデルも用いる。
第二実施形態の句境界言語モデル学習部120の機能ブロック図を図12に、その処理フローを図13に示す。仮句境界ラベル付与部123及び尤度算出部121における二回目以降の処理が第一実施形態とは異なるので、二回目以降の処理について説明する。また、収束判定部126の処理内容について説明する。なお、仮句境界ラベル付与部123及び尤度算出部121における一回目の処理は第一実施形態と同じである。
(仮句境界ラベル付与部123)
仮句境界ラベル付与部123は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルと話者依存句境界言語モデルとを受け取る。大量の句境界ラベル無話者依存音声データの単語境界の系列について、話者依存句境界F0モデルと話者依存句境界言語モデルとを用いて句境界認識を行い、仮句境界ラベルを求め、付与する。
句境界認識は、句境界ラベル無話者依存音声データの単語境界付近で観測されるF0特徴の系列と言語素性(例えば単語境界の前後の単語の品詞)の系列を入力とし、GMMによってモデル化された話者依存句境界F0モデルと話者依存句境界言語モデルとから算出される尤度を最大とする、仮句境界ラベルの系列を出力することにより行う(非特許文献1及び非特許文献2参照)。仮句境界ラベルの系列を句境界ラベル無話者依存音声データに付与し(s28)、話者依存言語素性データベース構築部125に出力する。例えば、仮句境界ラベルをB^とすると、以下の式により求める。
Figure 0005812936
(尤度算出部121)
尤度算出部121は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルと話者依存句境界言語モデルとを受け取る。句境界ラベル無話者依存音声データの単語境界におけるF0特徴と言語素性を入力として、話者依存句境界F0モデルと話者依存句境界言語モデルとから、アクセント句境界である場合の尤度p(f|w,b=1)と、アクセント句境界でない場合の尤度p(f|w,b=0)とを算出し(s28)、尤度差算出部124に出力する。
(収束判定部126)
収束判定部126は、話者依存言語素性データベースの更新が収束したか否かを判定し(s26)、判定結果を話者依存句境界言語モデル生成部127に出力する。例えば、言語素性データベースを、更新前の言語素性データベースと比較し、更新が収束しているか否かを判定する。
なお、話者依存句境界言語モデル生成部127は、収束しているとの判定結果を受け取った場合には、話者依存句境界言語モデルを生成し(s27a)、アクセント句境界推定部130に出力する。一方、収束していないとの判定結果を受け取った場合には、話者依存句境界言語モデルを生成し(s27b)、尤度算出部121及び仮句境界ラベル付与部123に出力する。なお、初回は、比較するための言語素性データベースが存在しないため、収束判定部126は、判定処理を行わずに、収束していないとの判定結果を出力する。
<収束判定>
以下に収束判定の処理を示す。
言語素性データベースの各構成要素について、仮句境界ラベル及び言語素性の組合せ(例えば、{1,名詞,助詞})毎に出現数をカウントし、頻度分布を算出する。次に、更新前の言語素性データベースの頻度分布と距離計算を行う。距離尺度として、カルバック・ライブラー距離を用いる。算出された距離値をdとする。
算出された距離値dを閾値Sと比較する。閾値Sの初期値は、100のような充分大きな値を設定しておく。d<Sの場合は、言語素性データベースが収束していないとみなして、閾値Sを更新し(S=dとする)、句境界言語モデルを学習して、第一実施形態の処理に戻る。逆に、d>Sとなった場合は言語素性データベースが収束しているとみなして、句境界言語モデルを学習して処理を終了する。
第二実施形態における理想的な収束基準は、距離値dによって繰り返し更新される閾値Sが最小の値となった時である。しかし、そのためには、閾値Sが最小となるまで、第一実施形態の処理(句境界言語モデル構築や言語素性データベースの構築等)を繰り返し行う必要がある。利用するデータの規模や、計算機スペックにも依存するが、もし、第一実施形態の処理に長時間を要する場合は、閾値Sと距離値dの差が一定値以下となった時に、処理を終了する方法で対応する事が望ましい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述したアクセント句境界推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
100 アクセント句境界推定装置
110 モデル学習部
120 句境界言語モデル学習部
121 尤度算出部
122 言語素性抽出部
123 仮句境界ラベル付与部
124 尤度差算出部
125 話者依存言語素性データベース構築部
126 収束判定部
127 話者依存句境界言語モデル生成部
130 アクセント句境界推定部

Claims (5)

  1. 単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習する句境界基本周波数モデル学習部と、
    句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出する尤度算出部と、
    前記単語境界がアクセント句境界である場合の尤度と、前記単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出する尤度差算出部と、
    前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与する仮句境界ラベル付与部と、
    前記句境界ラベル無話者依存音声データの単語境界に対して、前記句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出する言語素性抽出部と、
    前記尤度差の絶対値が閾値より大きい単語境界に対応する前記言語素性と前記仮句境界ラベルとを用いて、話者依存言語素性データベースを構築する話者依存言語素性データベース構築部と、
    前記話者依存言語素性データベースを学習データとして、前記仮句境界ラベルと前記言語素性との関係をモデル化した話者依存句境界言語モデルを生成する話者依存句境界言語モデル生成部と、を含む、
    アクセント句境界推定装置。
  2. 請求項1記載のアクセント句境界推定装置であって、
    前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと前記話者依存句境界言語モデルとから算出される尤度に基づき、その単語境界に句境界ラベルを付与するアクセント句境界推定部を、さらに含む、
    アクセント句境界推定装置。
  3. 請求項1または請求項2記載のアクセント句境界推定装置であって、
    前記尤度算出部と前記尤度差算出部と前記仮句境界ラベル付与部と前記話者依存言語素性データベース構築部と前記話者依存句境界言語モデル生成部は、前記話者依存言語素性データベースの更新が収束するまで、その処理を繰返し、二回目以降の繰返し処理において、
    前記尤度算出部は、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと、前記話者依存句境界言語モデルとから、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し、
    前記仮句境界ラベル付与部は、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと、前記話者依存句境界言語モデルとから算出される尤度を最大とする仮句境界ラベルを求め、付与する、
    アクセント句境界推定装置。
  4. 句境界基本周波数モデル学習部が、単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習する句境界基本周波数モデル学習ステップと、
    尤度算出部が、句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出する尤度算出ステップと、
    尤度差算出部が、前記単語境界がアクセント句境界である場合の尤度と、前記単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出する尤度差算出ステップと、
    仮句境界ラベル付与部が、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与する仮句境界ラベル付与ステップと、
    言語素性抽出部が、前記句境界ラベル無話者依存音声データの単語境界に対して、前記句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出する言語素性抽出ステップと、
    話者依存言語素性データベース構築部が、前記尤度差の絶対値が閾値より大きい単語境界に対応する前記言語素性と前記仮句境界ラベルとを用いて、話者依存言語素性データベースを構築する話者依存言語素性データベース構築ステップと、
    話者依存句境界言語モデル生成部が、前記話者依存言語素性データベースを学習データとして、前記仮句境界ラベルと前記言語素性との関係をモデル化した話者依存句境界言語モデルを生成する話者依存句境界言語モデル生成ステップと、を含む、
    アクセント句境界推定方法。
  5. 請求項1から請求項3の何れかに記載のアクセント句境界推定装置の各部として、コンピュータを機能させるためのプログラム。
JP2012118229A 2012-05-24 2012-05-24 アクセント句境界推定装置、アクセント句境界推定方法及びプログラム Expired - Fee Related JP5812936B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012118229A JP5812936B2 (ja) 2012-05-24 2012-05-24 アクセント句境界推定装置、アクセント句境界推定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012118229A JP5812936B2 (ja) 2012-05-24 2012-05-24 アクセント句境界推定装置、アクセント句境界推定方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013246224A JP2013246224A (ja) 2013-12-09
JP5812936B2 true JP5812936B2 (ja) 2015-11-17

Family

ID=49846060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012118229A Expired - Fee Related JP5812936B2 (ja) 2012-05-24 2012-05-24 アクセント句境界推定装置、アクセント句境界推定方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5812936B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2952836A1 (en) * 2014-07-24 2016-01-28 Harman International Industries, Incorporated Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
JP5437204B2 (ja) * 2010-09-03 2014-03-12 日本放送協会 言語モデル処理装置および音声認識装置、ならびにプログラム

Also Published As

Publication number Publication date
JP2013246224A (ja) 2013-12-09

Similar Documents

Publication Publication Date Title
US10741170B2 (en) Speech recognition method and apparatus
US11551708B2 (en) Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium
JP5223673B2 (ja) 音声処理装置およびプログラム、並びに、音声処理方法
JP2018081298A (ja) 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
CN111179916A (zh) 重打分模型训练方法、语音识别方法及相关装置
US20170004823A1 (en) Testing words in a pronunciation lexicon
CN110930993A (zh) 特定领域语言模型生成方法及语音数据标注系统
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP2004310098A (ja) スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN112348073A (zh) 一种多音字识别方法、装置、电子设备及存储介质
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Ling et al. Minimum Kullback–Leibler divergence parameter generation for HMM-based speech synthesis
JP5812936B2 (ja) アクセント句境界推定装置、アクセント句境界推定方法及びプログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP2010230913A (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150915

R150 Certificate of patent or registration of utility model

Ref document number: 5812936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees