JP5812936B2 - アクセント句境界推定装置、アクセント句境界推定方法及びプログラム - Google Patents
アクセント句境界推定装置、アクセント句境界推定方法及びプログラム Download PDFInfo
- Publication number
- JP5812936B2 JP5812936B2 JP2012118229A JP2012118229A JP5812936B2 JP 5812936 B2 JP5812936 B2 JP 5812936B2 JP 2012118229 A JP2012118229 A JP 2012118229A JP 2012118229 A JP2012118229 A JP 2012118229A JP 5812936 B2 JP5812936 B2 JP 5812936B2
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- speaker
- dependent
- phrase
- phrase boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本実施形態では、まず、少量(例えば15分程度)の、句境界ラベルが付与された話者依存の音声データ(以下「句境界ラベル有話者依存音声データ」ともいう)を用いて、単語境界における音響特徴を学習した、話者依存句境界F0モデルを構築する。なお、句境界ラベルとは、音声データの単語境界に対して付与され、その単語境界がアクセント句境界であるか否かを表すラベルである。句境界ラベル有話者依存音声データとは、句境界ラベルが付与されている、話者依存の音声データである。図1Aに句境界ラベル有話者依存音声データに付与される句境界ラベル及び言語情報を例示する。本実施形態では、言語情報として、音声データに対応する発話内容、品詞、音素系列、音素継続時間長及びF0値が含まれる。発話内容は既知であり、形態素解析により、品詞情報等の言語素性のラベルが高精度で付与されているものとする。また、自動音素ラベリングにより、音素ラベル及び音素の継続時間長が付与されているものとする。分析フレーム毎に抽出したF0パラメータに対し、無声音区間の直線補完、及びスムージング処理が行われ、フレーム毎に連続したF0値が与えられる。また、単語境界に対して句境界ラベルが手動で付与されている。ただし、図中は、対象となる単語境界の直前の単語に対して、句境界ラベルが付与されている。該当単語境界がアクセント句境界である場合は1が、アクセント句境界でない場合は0が、句境界ラベルとして付与されている。話者依存句境界F0モデルとは、句境界ラベル有話者依存音声データにおける、単語境界のF0に関する特徴(以下「F0特徴」ともいい、その詳細は後述する)と句境界ラベルとを学習データとして、アクセント句境界におけるF0特徴をモデル化した、アクセント句境界判定モデルのことである。
句境界F0モデル学習部110は、句境界ラベル有話者依存音声データを受け取り、句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界におけるF0特徴と句境界ラベルの関係をモデル化して、話者依存句境界F0モデルを学習し、句境界言語モデル学習部120及びアクセント句境界推定部130に出力する。例えば、句境界ラベル有話者依存音声データの単語境界のF0特徴をGMM(Gaussian mixture model;混合ガウス分布モデル)でモデル化する。この場合、句境界ラベル有話者依存音声データから抽出したフレーム毎に連続したF0値から、単語境界について、F0特徴を抽出する。F0特徴として、例えば、単語境界前後1モーラ長(例えば160ms)におけるF0値の変化を2本の直線で近似したときの3つの端点のF0値v1、v2、v3からなる特徴ベクトルfi=(v1,v2,v3)を用いる(図4、非特許文献1及び非特許文献2参照)。
句境界言語モデル学習部120は、話者依存句境界F0モデル及び大量の句境界ラベル無話者依存音声データを受け取り、話者依存句境界F0モデルを用いて、大量の句境界ラベル無話者依存音声データから、仮句境界ラベルの自動付与結果の信頼度が高い単語境界群を選択し、それらの単語境界の言語素性と仮句境界ラベルとを抽出した話者依存言語素性データベースを構築する。そして、話者依存言語素性データベースを学習データとして、話者依存句境界言語モデルを構築する。なお、話者依存言語素性データベースは、句境界言語モデル学習用の言語素性データベースであり(図5参照)、単語境界についての、仮句境界ラベル、及び、句境界前後の単語の品詞等の言語素性の情報をもつ。
言語素性抽出部122は、句境界ラベル無話者依存音声データを受け取り、句境界ラベル無話者依存音声データの単語境界に対して、句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出し(s22)、その言語素性を話者依存言語素性データベース構築部125に出力する。本実施形態では、言語素性として、単語境界直前及び直後の単語の品詞情報のペア(例えば{名詞,助詞})を用いる。ここで抽出した言語素性は、後述する閾値Tの設計、及び句境界言語モデル構築のための話者依存言語素性データベースの構築の際に使用される。
仮句境界ラベル付与部123は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルとを受け取る。大量の句境界ラベル無話者依存音声データの単語境界の系列について、話者依存句境界F0モデルを用いて句境界認識を行い、仮句境界ラベルを求め、付与する(s23)。
尤度算出部121は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルとを受け取る。句境界ラベル無話者依存音声データの単語境界におけるF0特徴を入力として、話者依存句境界F0モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し(s21)、尤度差算出部124に出力する。
尤度差算出部124は、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを受け取り、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出し(s24)、尤度差を話者依存言語素性データベース構築部125に出力する。例えば、対数尤度差logp(fi|bi=1)−logp(fi|bi=0)を算出し、出力する。
話者依存言語素性データベース構築部125は、単語境界についての言語素性、仮句境界ラベル及び尤度差を受け取り、尤度差の絶対値が閾値Tより大きい単語境界に対応する言語素性と仮句境界ラベルとを用いて、話者依存言語素性データベースを構築し(s25)、話者依存句境界言語モデル生成部127に出力する。
話者依存句境界言語モデル生成部127は、話者依存言語素性データベースを受け取り、受け取った話者依存言語素性データベースを学習データとして、仮句境界ラベルと言語素性との関係をモデル化した話者依存句境界言語モデルを生成し(s27)、アクセント句境界推定部130に出力する。
アクセント句境界推定部130は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルと話者依存句境界言語モデルとを受け取り、句境界ラベル無話者依存音声データの単語境界におけるF0特徴と言語素性とを入力として、話者依存句境界F0モデルと話者依存句境界言語モデルとから算出される尤度に基づき句境界認識を行い、その単語境界に句境界ラベルを付与し、推定句境界ラベル有話者依存音声データを、アクセント句境界推定装置100の出力値として出力する。句境界ラベルは、単語境界のF0特徴の系列F及び言語素性の系列Wを用いて、話者依存句境界F0モデル及び話者依存句境界言語モデルから算出される尤度に基づいて、推定される(非特許文献1及び非特許文献2参照)。例えば、推定される句境界ラベルをB^とすると、以下の式により求めることができる。
大量の句境界ラベル無話者依存音声データから信頼度の高いデータを選択して句境界言語モデルの学習に用いることで、句境界ラベルを手動で付与した大量の話者依存音声データを用意することなく、話者依存の句境界言語モデルを構築することができる。また、話者依存句境界言語モデルを学習し、アクセント句境界推定部130において用いることにより、句境界ラベル無話者依存音声データに対するアクセント句境界の検出性能が向上するという効果を奏する。
仮句境界ラベル付与部123は、尤度算出部121の出力値である、単語境界がアクセント句境界である場合の尤度p(fi|bi=1)と、単語境界がアクセント句境界でない場合の尤度p(fi|bi=0)とを受け取り、これを利用して各単語境界に対して仮句境界ラベルを付与してもよい。この場合の句境界言語モデル学習部の機能ブロック図を図8に、その処理フローを図9に示す。この場合、仮句境界ラベル付与部123は、単語境界がアクセント句境界である場合の尤度p(fi|bi=1)が、単語境界がアクセント句境界でない場合の尤度p(fi|bi=0)よりも大きい場合(p(fi|bi=1)>p(fi|bi=0))には、その単語境界がアクセント句境界で有ることを表す仮句境界ラベルbi=1を付与し、単語境界がアクセント句境界である場合の尤度p(fi|bi=1)が、単語境界がアクセント句境界でない場合の尤度p(fi|bi=0)よりも小さい場合(p(fi|bi=1)<p(fi|bi=0))には、その単語境界がアクセント句境界で無いことを表す仮句境界ラベルbi=0を付与し(s23)、仮句境界ラベルbiを話者依存言語素性データベース構築部125に出力する。このような構成により、仮句境界ラベル付与部123は、各F0特徴fiに対してそれぞれ尤度の大きい仮句境界ラベルbiを付与することができ、結果として、句境界ラベル無話者依存音声データの単語境界におけるF0特徴の系列Fを入力として、話者依存句境界F0モデルから算出される尤度を最大とする仮句境界ラベルの系列Bを求めることができる。
第一実施形態と異なる部分についてのみ説明する。本実施形態では、話者依存句境界F0モデルと学習データ選択(話者依存言語素性データベース構築)後に構築する話者依存句境界言語モデルとを用いて、学習データを再選択(話者依存言語素性データベースを再構築)する。これは、話者依存句境界F0モデルと話者依存句境界言語モデルから算出される対数尤度差を、学習データ選択(話者依存言語素性データベース構築)の基準とすることで、より仮句境界ラベルの信頼度の高い学習データを選択(話者依存言語素性データベースを構築)することができるためである。この学習データ再選択処理(話者依存言語素性データベース再構築処理)を、学習データが収束(話者依存言語素性データベースの更新が収束)するまで繰返し行う。そして、最終的に選択された仮句境界ラベルの信頼度の高い学習データ(話者依存言語素性データベース)を用いて、話者依存句境界言語モデルを構築することで、よりアクセント句境界検出性能の高い句境界言語モデルを構築することができる。
仮句境界ラベル付与部123は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルと話者依存句境界言語モデルとを受け取る。大量の句境界ラベル無話者依存音声データの単語境界の系列について、話者依存句境界F0モデルと話者依存句境界言語モデルとを用いて句境界認識を行い、仮句境界ラベルを求め、付与する。
尤度算出部121は、大量の句境界ラベル無話者依存音声データと話者依存句境界F0モデルと話者依存句境界言語モデルとを受け取る。句境界ラベル無話者依存音声データの単語境界におけるF0特徴と言語素性を入力として、話者依存句境界F0モデルと話者依存句境界言語モデルとから、アクセント句境界である場合の尤度p(fi|wi,bi=1)と、アクセント句境界でない場合の尤度p(fi|wi,bi=0)とを算出し(s28)、尤度差算出部124に出力する。
収束判定部126は、話者依存言語素性データベースの更新が収束したか否かを判定し(s26)、判定結果を話者依存句境界言語モデル生成部127に出力する。例えば、言語素性データベースを、更新前の言語素性データベースと比較し、更新が収束しているか否かを判定する。
以下に収束判定の処理を示す。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
上述したアクセント句境界推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
110 モデル学習部
120 句境界言語モデル学習部
121 尤度算出部
122 言語素性抽出部
123 仮句境界ラベル付与部
124 尤度差算出部
125 話者依存言語素性データベース構築部
126 収束判定部
127 話者依存句境界言語モデル生成部
130 アクセント句境界推定部
Claims (5)
- 単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習する句境界基本周波数モデル学習部と、
句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出する尤度算出部と、
前記単語境界がアクセント句境界である場合の尤度と、前記単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出する尤度差算出部と、
前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与する仮句境界ラベル付与部と、
前記句境界ラベル無話者依存音声データの単語境界に対して、前記句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出する言語素性抽出部と、
前記尤度差の絶対値が閾値より大きい単語境界に対応する前記言語素性と前記仮句境界ラベルとを用いて、話者依存言語素性データベースを構築する話者依存言語素性データベース構築部と、
前記話者依存言語素性データベースを学習データとして、前記仮句境界ラベルと前記言語素性との関係をモデル化した話者依存句境界言語モデルを生成する話者依存句境界言語モデル生成部と、を含む、
アクセント句境界推定装置。 - 請求項1記載のアクセント句境界推定装置であって、
前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと前記話者依存句境界言語モデルとから算出される尤度に基づき、その単語境界に句境界ラベルを付与するアクセント句境界推定部を、さらに含む、
アクセント句境界推定装置。 - 請求項1または請求項2記載のアクセント句境界推定装置であって、
前記尤度算出部と前記尤度差算出部と前記仮句境界ラベル付与部と前記話者依存言語素性データベース構築部と前記話者依存句境界言語モデル生成部は、前記話者依存言語素性データベースの更新が収束するまで、その処理を繰返し、二回目以降の繰返し処理において、
前記尤度算出部は、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと、前記話者依存句境界言語モデルとから、単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出し、
前記仮句境界ラベル付与部は、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴と言語素性とを入力として、前記話者依存句境界基本周波数モデルと、前記話者依存句境界言語モデルとから算出される尤度を最大とする仮句境界ラベルを求め、付与する、
アクセント句境界推定装置。 - 句境界基本周波数モデル学習部が、単語境界がアクセント句境界であるか否かを表す句境界ラベルが付与され、単語について言語情報が付与され、話者依存の音声データである句境界ラベル有話者依存音声データを用いて、その句境界ラベル有話者依存音声データの単語境界における基本周波数に関する特徴をモデル化し、話者依存句境界基本周波数モデルを学習する句境界基本周波数モデル学習ステップと、
尤度算出部が、句境界ラベルが付与されていない、単語について言語情報が付与され、話者依存の音声データである句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから単語境界がアクセント句境界である場合の尤度と、単語境界がアクセント句境界でない場合の尤度とを算出する尤度算出ステップと、
尤度差算出部が、前記単語境界がアクセント句境界である場合の尤度と、前記単語境界がアクセント句境界でない場合の尤度との差である尤度差を算出する尤度差算出ステップと、
仮句境界ラベル付与部が、前記句境界ラベル無話者依存音声データの単語境界における基本周波数に関する特徴を入力として、前記話者依存句境界基本周波数モデルから算出される尤度を最大とする仮句境界ラベルを求め、付与する仮句境界ラベル付与ステップと、
言語素性抽出部が、前記句境界ラベル無話者依存音声データの単語境界に対して、前記句境界ラベル無話者依存音声データの単語に付与された言語情報から言語素性を抽出する言語素性抽出ステップと、
話者依存言語素性データベース構築部が、前記尤度差の絶対値が閾値より大きい単語境界に対応する前記言語素性と前記仮句境界ラベルとを用いて、話者依存言語素性データベースを構築する話者依存言語素性データベース構築ステップと、
話者依存句境界言語モデル生成部が、前記話者依存言語素性データベースを学習データとして、前記仮句境界ラベルと前記言語素性との関係をモデル化した話者依存句境界言語モデルを生成する話者依存句境界言語モデル生成ステップと、を含む、
アクセント句境界推定方法。 - 請求項1から請求項3の何れかに記載のアクセント句境界推定装置の各部として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012118229A JP5812936B2 (ja) | 2012-05-24 | 2012-05-24 | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012118229A JP5812936B2 (ja) | 2012-05-24 | 2012-05-24 | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013246224A JP2013246224A (ja) | 2013-12-09 |
JP5812936B2 true JP5812936B2 (ja) | 2015-11-17 |
Family
ID=49846060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012118229A Expired - Fee Related JP5812936B2 (ja) | 2012-05-24 | 2012-05-24 | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5812936B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2952836A1 (en) * | 2014-07-24 | 2016-01-28 | Harman International Industries, Incorporated | Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
JP5437204B2 (ja) * | 2010-09-03 | 2014-03-12 | 日本放送協会 | 言語モデル処理装置および音声認識装置、ならびにプログラム |
-
2012
- 2012-05-24 JP JP2012118229A patent/JP5812936B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013246224A (ja) | 2013-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10741170B2 (en) | Speech recognition method and apparatus | |
US11551708B2 (en) | Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium | |
JP5223673B2 (ja) | 音声処理装置およびプログラム、並びに、音声処理方法 | |
JP2018081298A (ja) | 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置 | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
CN111179916A (zh) | 重打分模型训练方法、语音识别方法及相关装置 | |
US20170004823A1 (en) | Testing words in a pronunciation lexicon | |
CN110930993A (zh) | 特定领域语言模型生成方法及语音数据标注系统 | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
JP2013148697A (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JP2004310098A (ja) | スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法 | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
CN112348073A (zh) | 一种多音字识别方法、装置、电子设备及存储介质 | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Ling et al. | Minimum Kullback–Leibler divergence parameter generation for HMM-based speech synthesis | |
JP5812936B2 (ja) | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP2010230913A (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150915 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5812936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |