JP6121313B2 - ポーズ推定装置、方法、プログラム - Google Patents
ポーズ推定装置、方法、プログラム Download PDFInfo
- Publication number
- JP6121313B2 JP6121313B2 JP2013238797A JP2013238797A JP6121313B2 JP 6121313 B2 JP6121313 B2 JP 6121313B2 JP 2013238797 A JP2013238797 A JP 2013238797A JP 2013238797 A JP2013238797 A JP 2013238797A JP 6121313 B2 JP6121313 B2 JP 6121313B2
- Authority
- JP
- Japan
- Prior art keywords
- pose
- length
- estimation
- estimated
- deletion target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000012217 deletion Methods 0.000 claims description 81
- 230000037430 deletion Effects 0.000 claims description 81
- 238000012545 processing Methods 0.000 claims description 45
- 230000010354 integration Effects 0.000 claims description 20
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010048865 Hypoacusis Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
(参考文献1)中村章、清山信正、池沢龍、都木徹、宮坂栄一、"リアルタイム話速変換型受聴システム"、日本音響学会誌 50(7)、pp.509-520、1994.
ポーズ長推定部120は、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズごとに、例えばポーズ長推定モデル190を用いた上記非特許文献3のような統計的方法によってポーズ長推定結果125を推定する。ただし、このポーズ長推定方法としては特段の限定は無く、統計的な方法であってもよいし、規則に基づく方法であってもよい。
ポーズ長変更部130は、与えられた話速情報107に基づいてポーズ長推定結果125に含まれる各ポーズ長を一律に変更して変更後ポーズ長135aを得る。例えば話速を2倍にするのであれば、各ポーズ長を1/2にして得られるそれぞれのポーズ長を変更後ポーズ長とする。
削除ポーズ選択部140は、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、の観点から、削除すべきポーズ145(以下、「削除対象ポーズ」と呼称する)を選択する。この処理では、例えば、変更後ポーズ長があらかじめ決められた値以下、かつ、ポーズ確度値があらかじめ決められた値以下、を満たすポーズを削除対象ポーズとして選択する。
ポーズ統合処理部150は、削除対象ポーズ145の変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、削除対象ポーズ145をポーズ配置推定結果115aから除外する。
以下に各部の処理の具体例を説明する。
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果、ポーズ確度値
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出されたポーズ確度値を出力する。
なお、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズの総数が0である場合、以降の処理は不要であり、ポーズ推定装置100は、このポーズ配置推定結果115aを最終的な推定結果として出力する。このため、以下の説明ではK≧1とする。
入力: 入力テキスト、ポーズ配置推定結果、ポーズ長推定モデル
出力: ポーズ長推定結果
処理: 機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとのポーズ長推定結果を出力する。
入力: ポーズ長推定結果、話速情報
出力: 変更後ポーズ長
処理: 話速情報に基づいてポーズ長推定結果に含まれる各ポーズ長を変更して変更後ポーズ長を求める。
例えば話速情報107が合成音声の話速を変更しないか上げる、つまり標準話速のα倍(α≧1)にすることを指示する情報であれば、各ポーズ長Lk (k=1,…,K)を1/αにして得られるポーズ長Lk/α (k=1,…,K)を変更後ポーズ長Mk (k=1,…,K)とする。つまり、Mk=Lk/α (k=1,…,K)である。ポーズ長変更処理の結果の例を図5に示す。
また、例えば話速情報107が合成音声の話速を下げる、つまり標準話速のα倍(α<1)にすることを指示する情報であれば、ポーズ推定装置100は、ポーズ配置推定結果115a並びに、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応する各ポーズの変更後のポーズ長Mk (k=1,…,K)からなる組(つまり「変更後ポーズ長推定結果」)を最終的な推定結果135bとして出力する。
入力: ポーズ確度値、変更後ポーズ長
出力: 削除対象ポーズ
処理: ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、ポーズ確度値及び変更後ポーズ長に基づいて削除対象ポーズを選択する。
例えば、K=6とし、Mk≦δ AND Hk≦ε (k=1,…,6)の判定によって削除対象ポーズとしてG2, G3, G4, G5が選択されたとして、削除対象ポーズG2, G3, G4, G5のポーズ確度値をH2=0.18, H3=0.07, H4=0.12, H5=0.13とすると、削除ポーズ選択部140は、まず、選択対象ポーズG2について削除対象指定を解除し、次に、選択対象ポーズG5について削除対象指定を解除し、次に、選択対象ポーズG4について削除対象指定を解除する。したがって、最終的な削除対象ポーズはG3になる。
換言すれば、削除ポーズ選択部140は、削除対象ポーズが2つ以上連続する場合、その中でポーズ確度値が最も小さい削除対象ポーズ以外の削除対象ポーズについて削除対象の指定を解除する。もし、同じポーズ確度値を持つ削除対象ポーズが2つ以上連続する場合には、削除ポーズ選択部140は、予め定めておいた削除対象指定解除規則に基づいて削除対象指定の解除を行い、削除対象ポーズが連続しないようにする。
なお、T=0である場合、以降の処理は不要であり、ポーズ推定装置100は、ポーズ配置推定結果115a並びに、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応する各ポーズの変更後のポーズ長Mk (k=1,…,K)からなる組(つまり「変更後ポーズ長推定結果」)を最終的な推定結果135bとして出力する。このため、以下の説明ではT≧1とする。
入力: ポーズ配置推定結果、削除対象ポーズ、ポーズ確度値、変更後ポーズ長、話速情報
出力: ポーズ配置、ポーズ長
処理: 削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズをポーズ配置推定結果から除外する。
ポーズ推定装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit)(キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (8)
- 所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標(以下、ポーズ確度値と呼称する)と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、
入力された話速情報に基づいて、上記ポーズ長推定結果に含まれる各上記ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得るポーズ長変更部と、
上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ(以下、削除対象ポーズと呼称する)を選択する削除ポーズ選択部と、
上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズを上記ポーズ配置推定結果から除外するポーズ統合処理部と
を含むポーズ推定装置。 - 請求項1に記載のポーズ推定装置であって、
上記削除ポーズ選択部は、
上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、変更後ポーズ長が予め定められた閾値に対する大小関係の条件を満たし、かつ、ポーズ確度値が予め定められた閾値に対する大小関係を満たす、ポーズを削除対象ポーズとして選択する
ことを特徴とするポーズ推定装置。 - 請求項1または請求項2に記載のポーズ推定装置であって、
上記削除ポーズ選択部は、
削除対象ポーズが2つ以上連続する場合、その中でポーズ確度値が最も小さい削除対象ポーズ以外の削除対象ポーズについて削除対象の指定を解除する
ことを特徴とするポーズ推定装置。 - 請求項1から請求項3のいずれかに記載のポーズ推定装置であって、
上記ポーズ統合処理部は、
上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前に位置するポーズまたは後に位置するポーズのうち、ポーズ確度値がより高い方またはポーズ長がより短い方のポーズの変更後ポーズ長に加算する
ことを特徴とするポーズ推定装置。 - 請求項1から請求項3のいずれかに記載のポーズ推定装置であって、
上記ポーズ統合処理部は、
上記削除対象ポーズの変更後ポーズ長を当該削除対象ポーズの推定位置の前後に位置するポーズのポーズ確度値に応じて按分して得られる時間長を、削除対象ポーズの推定位置の前後に位置する各ポーズのポーズ長に加算する
ことを特徴とするポーズ推定装置。 - 請求項1から請求項5のいずれかに記載のポーズ推定装置であって、
上記ポーズ長変更部は、
上記話速情報が話速増大を指示する情報である
ことを特徴とするポーズ推定装置。 - 所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標(以下、ポーズ確度値と呼称する)と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、
ポーズ長変更部が、入力された話速情報に基づいて、上記ポーズ長推定結果に含まれる各上記ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得るポーズ長変更ステップと、
削除ポーズ選択部が、上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ(以下、削除対象ポーズと呼称する)を選択する削除ポーズ選択ステップと、
ポーズ統合処理部が、上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズを上記ポーズ配置推定結果から除外するポーズ統合処理ステップと
を有するポーズ推定方法。 - 請求項1から請求項6のいずれかに記載のポーズ推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013238797A JP6121313B2 (ja) | 2013-11-19 | 2013-11-19 | ポーズ推定装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013238797A JP6121313B2 (ja) | 2013-11-19 | 2013-11-19 | ポーズ推定装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015099252A JP2015099252A (ja) | 2015-05-28 |
JP6121313B2 true JP6121313B2 (ja) | 2017-04-26 |
Family
ID=53375899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013238797A Expired - Fee Related JP6121313B2 (ja) | 2013-11-19 | 2013-11-19 | ポーズ推定装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6121313B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022091422A1 (ja) * | 2020-11-02 | 2022-05-05 | 日本電信電話株式会社 | 推定装置、推定方法、および、推定プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0876782A (ja) * | 1994-09-02 | 1996-03-22 | Toshiba Corp | 音声合成装置 |
JP5029168B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP5998500B2 (ja) * | 2012-02-07 | 2016-09-28 | 三菱電機株式会社 | 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法 |
-
2013
- 2013-11-19 JP JP2013238797A patent/JP6121313B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015099252A (ja) | 2015-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106816148B (zh) | 语音识别设备和方法 | |
JP6448765B2 (ja) | 対話装置、方法及びプログラム | |
JP5212910B2 (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
WO2018159402A1 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JPWO2016151700A1 (ja) | 意図理解装置、方法およびプログラム | |
JP2005208648A (ja) | スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 | |
CN107610693B (zh) | 文本语料库的构建方法和装置 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4594885B2 (ja) | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 | |
US11682318B2 (en) | Methods and systems for assisting pronunciation correction | |
JP4298672B2 (ja) | 混合分布hmmの状態の出力確率計算方法および装置 | |
JP6121313B2 (ja) | ポーズ推定装置、方法、プログラム | |
JP5961532B2 (ja) | 辞書・言語モデル圧縮方法とその装置とプログラム | |
JP2008129527A (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP2007163896A (ja) | 音声認識装置および方法 | |
US12057105B2 (en) | Speech recognition device, speech recognition method, and program | |
JP7088796B2 (ja) | 音声合成に用いる統計モデルを学習する学習装置及びプログラム | |
JP5967578B2 (ja) | 局所韻律コンテキスト付与装置、局所韻律コンテキスト付与方法、およびプログラム | |
JP6002598B2 (ja) | 強調位置予測装置、その方法、およびプログラム | |
JP6000153B2 (ja) | フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP6193737B2 (ja) | ポーズ推定装置、方法、プログラム | |
JP5980143B2 (ja) | ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170329 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6121313 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |