JP2005221679A - 発話スタイル評価装置及び発話スタイル分類装置 - Google Patents
発話スタイル評価装置及び発話スタイル分類装置 Download PDFInfo
- Publication number
- JP2005221679A JP2005221679A JP2004028543A JP2004028543A JP2005221679A JP 2005221679 A JP2005221679 A JP 2005221679A JP 2004028543 A JP2004028543 A JP 2004028543A JP 2004028543 A JP2004028543 A JP 2004028543A JP 2005221679 A JP2005221679 A JP 2005221679A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- utterances
- category
- style
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】 発話スタイル評価装置100は、自然発話音響モデル162及び朗読発話音響モデル164を記憶する記憶装置124と、発話の各々の特徴量を抽出する特徴量抽出部130と、発話の各々について最尤の音響モデルを選択する最尤モデル選択部132と、選択された最尤の音響モデルに対応する発話スタイルのカテゴリを決定する判定部134と、複数の発話に対して決定されたカテゴリを統計処理する統計処理部136と、統計処理部136による統計処理の結果を表示する表示部138とを含む。
【選択図】 図2
Description
本願発明者は、環境により発話スタイルがどのように変化するか、及び発話スタイルによって単語認識誤り率がどのように変化するかを知るために、以下のような実験を行なった。
日本人話者同士の非対面模擬旅行対話音声である。分析対象となる発話セットは話者42名による計551発話である。
通訳者を介した非対面模擬旅行対話音声である。分析対象は、日本人話者23名による計330発話である。
日本人の海外渡航者向けの例文集にあるような旅行会話文の日英対訳の一部の日本語文を、男女各20名が読んだ音声である。この発話セットは発話者1人当たり約100発話、計4072発話を含む。
翻訳システムを介した対面型の模擬旅行対話音声である。この発話セットは、日本人話者12名による計502発話を含む。
図2は、本願発明の一実施の形態に係る発話スタイル評価装置のブロック図である。図2を参照して、発話スタイル評価装置100は、スピーカ102、マイクロフォン104、及び表示装置106とともに使用する装置である。発話スタイル評価装置100は、自然発話音響モデル162、朗読発話音響モデル164、及び発話スタイルの学習に用いる発話テキスト160を格納した記憶装置124を含む。音響モデル162及び164は、いずれもHMM(隠れマルコフモデル)を用いたものであり、その音響特徴量としてはMFCC(メル周波数ケプストラム係数)を用いている。
[コンピュータによる実現および動作]
この実施の形態の発話スタイル評価装置100は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図3は、この発話スタイル評価装置100を実現するためのコンピュータシステム330の外観を示す図である。図4はコンピュータシステム330の内部構成を示す。
図2〜図5に示す装置は以下のように動作する。繰返し制御部126は、最初に第1のカウンタ140の値C1及び第2のカウンタ142の値C2の値をいずれも0に初期化する。次に繰返し制御部126は、1番目の発話テキストを選択し、それを示す信号を発話選択部122に与える。発話選択部122は、この信号に応答して発話テキスト160のうちの1番目のテキストを選択し、音声合成部120に与える。音声合成部120はこの発話テキストに基づいて音声合成を行ない、スピーカ102を駆動して音声を発生し被験者に提示する。
上記した実施の形態では、発話スタイルのカテゴリとして自然発話と朗読発話との二つを用いている。カテゴリとしてはこの他にも種々考えられる。例えば、アナウンサーなどに望まれる明瞭な話し方ができているか否か、大きな劇場などで、スピーカを使わず多数の聴衆に明瞭に聞こえるような話し方ができているか否か、等々、音声の音響特徴量の違いとして捕らえることが可能なカテゴリ分類にしたがい、目標となるカテゴリに属する話し方を身に付ける訓練を行なうことが可能になる。
Claims (6)
- 第1のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第1の音響モデル、及び第2のカテゴリに属する発話スタイルの発話の音声認識のために最適化された第2の音響モデルを記憶するための音響モデル記憶手段と、
与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、
前記複数の発話の各々について、前記特徴量抽出手段により抽出された特徴量に対する最尤の音響モデルを前記第1及び第2の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、
前記最尤モデル選択手段により選択されたモデルの各々が属する音響モデルに対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、
前記カテゴリ決定手段により決定されたカテゴリを、前記複数の発話に対して統計処理するための統計処理手段と、
前記統計処理手段による統計処理の結果を出力するための出力手段とを含む、発話スタイル評価装置。 - 前記統計処理手段は、前記複数の発話の合計数に対する、前記第2のカテゴリに属すると前記決定手段により決定された発話数の割合を算出するための手段を含む、請求項1に記載の発話スタイル評価装置。
- さらに、前記複数の発話のテキストを記憶するための発話テキスト記憶手段と、
前記発話テキスト記憶手段に記憶された前記複数の発話のテキストを所定の方法により決定される順番で選択し、被験者に提示するための発話テキスト提示手段と、
前記発話テキスト提示手段により被験者に発話のテキストが提示されるごとに、前記特徴量抽出手段、前記最尤モデル選択手段、及び前記カテゴリ決定手段を制御して、前記被験者の発話の属する発話カテゴリを決定するための制御手段とをさらに含む、請求項1又は請求項2に記載の発話スタイル評価装置。 - 前記第1のカテゴリは自然発話である、請求項1〜請求項3のいずれかに記載の発話スタイル評価装置。
- 第2のカテゴリは朗読発話である、請求項1〜請求項4のいずれかに記載の発話スタイル評価装置。
- それぞれ異なるカテゴリに属する発話スタイルの発話の音声認識のためにそれぞれ最適化された複数の音響モデルを記憶するための音響モデル記憶手段と、
与えられる複数の発話の各々について、所定の特徴量を抽出するための特徴量抽出手段と、
前記複数の発話の各々について、前記特徴量抽出手段により抽出された特徴量に対する最尤のモデルを前記複数の音響モデルに含まれるモデルの中から選択するための最尤モデル選択手段と、
前記最尤モデル選択手段により選択されたモデルの各々が属する音響モデルに対応する発話スタイルのカテゴリを決定するためのカテゴリ決定手段と、
前記カテゴリ決定手段により決定されたカテゴリを、前記複数の発話に対して統計処理することにより、前記複数の発話の発話カテゴリを分類するためのカテゴリ分類手段とを含む、発話カテゴリ分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004028543A JP2005221679A (ja) | 2004-02-04 | 2004-02-04 | 発話スタイル評価装置及び発話スタイル分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004028543A JP2005221679A (ja) | 2004-02-04 | 2004-02-04 | 発話スタイル評価装置及び発話スタイル分類装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005221679A true JP2005221679A (ja) | 2005-08-18 |
JP2005221679A5 JP2005221679A5 (ja) | 2005-09-29 |
JP2005221679A6 JP2005221679A6 (ja) | 2006-04-13 |
Family
ID=34997371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004028543A Pending JP2005221679A (ja) | 2004-02-04 | 2004-02-04 | 発話スタイル評価装置及び発話スタイル分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005221679A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015230455A (ja) * | 2014-06-06 | 2015-12-21 | 日本電信電話株式会社 | 音声分類装置、音声分類方法、プログラム |
KR20190129731A (ko) * | 2018-05-11 | 2019-11-20 | 도요타 지도샤(주) | 음성대화 시스템, 음성대화 방법 및 프로그램 |
-
2004
- 2004-02-04 JP JP2004028543A patent/JP2005221679A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015230455A (ja) * | 2014-06-06 | 2015-12-21 | 日本電信電話株式会社 | 音声分類装置、音声分類方法、プログラム |
KR20190129731A (ko) * | 2018-05-11 | 2019-11-20 | 도요타 지도샤(주) | 음성대화 시스템, 음성대화 방법 및 프로그램 |
KR102217917B1 (ko) | 2018-05-11 | 2021-02-19 | 도요타 지도샤(주) | 음성대화 시스템, 음성대화 방법 및 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7540080B2 (ja) | 声変換および音声認識モデルを使用した合成データ拡大 | |
US20180349495A1 (en) | Audio data processing method and apparatus, and computer storage medium | |
JP4125362B2 (ja) | 音声合成装置 | |
JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
EP3061086B1 (en) | Text-to-speech performance evaluation | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
US11145222B2 (en) | Language learning system, language learning support server, and computer program product | |
Raitio et al. | Synthesis and perception of breathy, normal, and lombard speech in the presence of noise | |
Yin et al. | Automatic cognitive load detection from speech features | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
JP5105943B2 (ja) | 発話評価装置及び発話評価プログラム | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
Přibil et al. | GMM-based speaker gender and age classification after voice conversion | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
JP2002515136A (ja) | 言語命令のための発音をテキスト独立自動グレード付けする方法及びシステム | |
JP4753412B2 (ja) | 発音評定装置、およびプログラム | |
Cen et al. | Generating emotional speech from neutral speech | |
Valentini-Botinhao et al. | Intelligibility of time-compressed synthetic speech: Compression method and speaking style | |
Hsu et al. | Speaker-dependent model interpolation for statistical emotional speech synthesis | |
JP2005221679A (ja) | 発話スタイル評価装置及び発話スタイル分類装置 | |
JP2005221679A6 (ja) | 発話スタイル評価装置及び発話スタイル分類装置 | |
Matsumoto et al. | Speech-like emotional sound generation using wavenet | |
JP4793776B2 (ja) | イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム | |
Furui | Toward the ultimate synthesis/recognition system | |
Zain et al. | A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050729 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080701 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081209 |