JP2006098993A - 音声処理装置およびそのためのコンピュータプログラム - Google Patents

音声処理装置およびそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2006098993A
JP2006098993A JP2004287943A JP2004287943A JP2006098993A JP 2006098993 A JP2006098993 A JP 2006098993A JP 2004287943 A JP2004287943 A JP 2004287943A JP 2004287943 A JP2004287943 A JP 2004287943A JP 2006098993 A JP2006098993 A JP 2006098993A
Authority
JP
Japan
Prior art keywords
speech
information
utterance
learning
acoustic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004287943A
Other languages
English (en)
Other versions
JP4478939B2 (ja
JP2006098993A5 (ja
Inventor
Campbell Nick
ニック・キャンベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004287943A priority Critical patent/JP4478939B2/ja
Priority to US11/238,044 priority patent/US20060080098A1/en
Publication of JP2006098993A publication Critical patent/JP2006098993A/ja
Publication of JP2006098993A5 publication Critical patent/JP2006098993A5/ja
Application granted granted Critical
Publication of JP4478939B2 publication Critical patent/JP4478939B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】パラ言語情報を適切に処理できる音声処理装置を提供する。
【解決手段】音声処理装置である決定木学習部36は、学習用音声コーパス30と、学習用音声コーパス30に含まれる発話単位ごとに音響特徴量を抽出する音響分析部74と、所定の発話単位ごとに、再生時に聴者が知覚するパラ言語情報に関する統計情報を収集する統計処理部78と、音響分析部74により抽出された音響特徴量を入力データ、統計処理部78により収集された統計情報を正解データとして、機械学習により、音響特徴量に対して最適化された統計情報を出力する学習を決定木群38に対して行なう学習処理部76とを含む。
【選択図】 図2

Description

この発明は音声認識、音声合成などの音声処理技術に関し、特に、韻律以外のパラ言語情報を適切に処理できる音声処理技術に関する。
人間は、様々な方法により感情を表現する。音声では、情報を伝えるのと同時に、発話スタイル、音声の調子、およびイントネーションなどの変化により個人的な感情を表すことが多い。コンピュータを用いた音声処理技術では、そのような感情をいかにして表したり、理解したりするかが問題となる。
非特許文献1、2、3においては、音声を自動的に分析する上で、発話を二つの主要なタイプに分類することが提案されている。すなわち、IタイプとAタイプとである。Iタイプの発話は主として情報を伝達するために用いられる。Aタイプの発話は主として感情を表現するために用いられる。Iタイプはその発話内容をテキスト情報のみでほぼ正確に表現できるが、Aタイプはその意味内容は曖昧であって、その意味を解釈しようとすれば、発話の韻律に関する知識が必要になる。
例えば、非特許文献1、4は「(英語における)Eh」という発話に注目し、会話の文脈に関する情報なしでこの間投発話のみを聞かされた者が、ほぼ例外無しに情緒的な、談話に関連した機能を持つ、というラベルをこの発話に付すことを明らかにしている。実際に選択されたラベルが厳密に一致しているわけではないが、知覚結果は概略において一致している。ある日本語の発話に対して、韓国語を母語とする話者、および米国語を母語とする話者の双方が割当てる意味がほぼ一致していることから、こうした能力は言語や文化とは無関係であるように思われる。
N.キャンベル、「行間を聞く:音調により伝達されるパラ言語情報に関する研究」、言語のトーンに関する局面についての国際シンポジウムTAL2004予稿集、pp.13−16、2004年(N. Campbell, "Listening between the lines: a study of paralinguistic information carried by tone-of-voice", in Proc. International Symposium on Tonal Aspects of Languages, TAL2004, pp. 13-16, 2004) N.キャンベル、「事柄の本質に到達する」、言語資源および評価会議キーノートスピーチ、2004年(N. Campbell, "Getting to the heart of the matter", Keynote speech in Proc. Language Resources and Evaluation Conference (LREC-04), 2004, http://feast.his.atr.jp/nick/pubs/lrec-keynote.pdf) N.キャンベル、「意味外のプロトコル:対話合成のための入力要件」、情緒的対話システム、E.アンドレ他編、シュプリンガー・フェアラーク社刊、2004年(N. Campbell, "Extra-Semantic Protocols: Input Requirements for the Synthesis of Dialogue Speech" in Affective Dialogue Systems, Eds. Andre, E., Dybkjaer, L., Minker, W., & Heisterkamp, P., Springer Verlag, 2004) N.キャンベル他、「人は何を聞くのか?対話音声内の非言語・情緒的情報の知覚に関する研究」、日本音声学会誌、第7巻、第4号、2004年(N. Campbell & D. Erickson, "What do people hear? A study of the perception of non-verbal affective information in conversational speech", in Journal of the Phonetic Society of Japan, vol. 7, no. 4, 2004)
しかし、たとえば発話に付随するパラ言語情報をコンピュータを用いた自然言語処理で処理しようとすると、大きな困難にぶつかる。たとえばテキストとしてみると同一の発話であっても、それが使われる状況によって全く意味が異なったり、全く異なる感情を同時に表現したりすることがある。そうした場合、発話の音響的な特徴のみからパラ言語情報を取出すことは極めて困難である。
そうした問題を解決する一つの手法は、聴者に発話を聞かせ、その発話からその聴者が感じ取ったパラ言語的な情報に基づき、その発話にラベルを付することである。
しかし、発話内容の理解は人によって異なり、ある特定の話者のみによるラベル付けでは信頼性が期待できないという問題がある。
したがって本発明の目的は、パラ言語情報を適切に処理できる音声処理装置を提供することである。
本発明の他の目的は、パラ言語情報を適切に処理できるようにすることで、音声処理の適用範囲を広げることができる音声処理装置を提供することである。
本発明の第1の局面によれば、音声処理装置は、学習用音声コーパスを記憶するための学習用音声コーパス記憶手段と、学習用音声コーパスに含まれる音声の所定の発話単位ごとに音響特徴量を抽出するための特徴量抽出手段と、所定の発話単位ごとに、再生時に聴者が知覚するパラ言語情報に関する統計情報を収集するための統計収集手段と、特徴量抽出手段により抽出された音響特徴量を入力データ、統計収集手段により収集された統計情報を正解データとして、機械学習により、音響特徴量に対して最適化された統計情報を出力する学習を行なうための学習手段とを含む。
発話単位を再生したときに聴者がどのようなパラ言語情報を知覚するかに関する統計を収集する。学習手段は、収集された統計に基づいた機械学習により、音響特徴量が与えられると、学習に用いたデータを一般化して得られる、もっともらしい統計情報を出力する。音声に対してパラ言語情報を統計的情報として付することが可能になり、パラ言語情報を適切に処理することが可能になる。
好ましくは、統計収集手段は、所定の発話単位ごとに、パラ言語情報を表す所定の複数通りのラベル中から聴者が選択する確率をラベルごとに算出するための手段を含む。
さらに好ましくは、学習手段は複数通りのラベルに対応してそれぞれ設けられた複数個のラベル統計学習手段を含み、複数個のラベル統計学習手段の各々は、特徴量抽出手段により抽出された音響特徴量を入力データ、統計収集手段により当該ラベル統計学習手段に対応するラベルに対し算出された確率を正解データとして、機械学習により、音響特徴量に対して当該ラベルが聴者により選択される確率を出力するように学習する。
発話単位に対するパラ言語情報として、予め定められた複数通りのラベルの各々が聴者により選択される確率が得られる。種々の聴者に対する学習の結果として、聴者が知覚するパラ言語情報を数量化でき、音声処理の際のパラ言語情報の再現および解釈の精度が向上する。
本発明の第2の局面によれば、音声処理装置は、発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、パラ言語情報ラベルに対する確率の形で出力するパラ言語情報出力手段と、入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、音響特徴量抽出手段が抽出した音響特徴量をパラ言語情報出力手段に与え、応答してパラ言語情報出力手段により返されるパラ言語情報ラベルごとの確率と、音響特徴量とに基づいて、発話単位に関する発話者の発話意図を推定するための発話意図推定手段とを含む。
入力発話に付随するパラ言語情報を、聴者により複数のパラ言語情報がそれぞれ知覚される確率として獲得することができる。それらパラ言語情報確率の集まりに基づき、発話の意味を精度よく推定できる。
本発明の第3の局面によれば、音声処理装置は、発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、複数通りのパラ言語情報ラベルにそれぞれ対応する複数の確率の形で出力するパラ言語情報出力手段と、入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、所定の音声コーパスに含まれる発話単位データごとに、音響特徴量抽出手段により抽出された音響特徴量に対してパラ言語情報出力手段から出力される複数の確率をパラ言語情報ベクトルとして付することにより、パラ言語情報ベクトル付音声コーパスを生成するための手段とを含む。
音声コーパスに含まれる各発話単位データに対し、複数通りのパラ言語情報について聴者がそれぞれ知覚する確率という形でパラ言語情報ベクトルを作成し付することができる。このように作成されたパラ言語情報ベクトル付音声コーパスを用いることにより、音声理解、音声合成などにおいてパラ言語情報をより精度よく利用することが可能になる。
本発明の第4の局面によれば、音声処理装置は、パラ言語情報ベクトルが各々に付され、かつ音素ラベルを含む所定の音響特徴量が各々に付された複数の音声波形データを含む音声コーパスと、音声合成の目標となるテキストと、当該テキストの発話意図を表す発話意図情報とが与えられると、音声合成の韻律合成目標と、発話意図に対応するパラ言語情報目標ベクトルとを作成するための合成目標作成手段と、合成目標作成手段により作成された韻律合成目標およびパラ言語情報目標ベクトルに対し所定の条件を充足する音響特徴量およびパラ言語情報ベクトルを有する音声波形データを音声コーパス内に含まれる音声波形データから選択するための波形選択手段と、波形選択手段により選択された音声波形データを接続することにより、音声波形を出力するための波形接続手段とを含む。
この音声処理装置によれば、テキストと発話意図情報とが与えられると、テキストに合致した音響的特徴を持ち、かつ発話意図情報に合致したパラ言語情報ベクトルを持つ波形データを精度よく選択できる。その結果、テキスト内容だけではなく、パラ言語情報として発話の内容を精度よく聴者に伝達する音声を合成することができる。
本発明の第5の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの音声処理装置として当該コンピュータを動作させる。
本発明の第6の局面に係る記録媒体は、音声波形データを対応する音素情報とともに保持する音声コーパスを記録した記録媒体であって、音声コーパスは、複数の発話単位の各々に対して音声波形データと音素情報とを含み、複数の発話単位の各々にはさらに、当該発話単位の再生時に聴者が知覚するパラ言語情報に関する統計情報が付されている。
好ましくは、パラ言語情報に関する統計情報は、予め定められた複数種類のパラ言語情報の各々について、対応する発話単位の再生時に聴者が当該パラ言語情報を知覚する確率を含んでいる。
[概略]
音声における感情に関する情報についてのラベリングでは、ラベリングをする人が異なればその結果も異なる。また、例えば疑問文があいづちを意味したり、ときには笑いが、驚きとともに聴者も話者と同じく幸せを感じていることを表したりする、ということがあることも分かっている。幸福を感じている人が、自分とは直接関係を持たない何か悲しいことを話しているときには、幸福と不幸という、一見したところ互いに矛盾する感情が音声によって表されることもある。
こうした状況を考えると、音声に対して一つのラベルに限定してラベリングをするよりも、複数のラベルを用いて音声のラベリングをすることの方が合理的である。したがって以下に説明する実施の形態では、予め複数通りのラベルを定め、音声の各発話単位に対して統計的にどれほどの割合の人がそれらラベルをそれぞれ選択したかを表す数値を要素とするベクトルによって、各音声のラベリングを行なう。このベクトルを、以下「パラ言語情報ベクトル」と呼ぶことにする。
[第1の実施の形態]
−構成−
図1は、本発明の第1の実施の形態に係る音声理解システム20のブロック図である。図1を参照して、音声理解システム20は、発話の音響情報が与えられると、前述したパラ言語情報ベクトルの各要素に対応するラベルが当該発話に付される確率を要素ごとに決定する決定木群38を用いる点に特徴がある。すなわち、決定木群38はパラ言語情報を構成する要素に対応する数だけの決定木を含んでいる。第1の決定木は1番目の要素のラベルが付される確率を出力し、第2の決定木は2番目の要素のラベルが付される確率を出力し、以下同様である。パラ言語情報ベクトルの各要素の値は、0〜1の範囲に正規化されているものとする。
図1を参照して、この音声理解システム20は、学習用音声コーパス30と、スピーカ32および入力装置34に接続され、学習用音声コーパス30内の音声の各音素に対し、所定数の被験者によってどのようなラベルが付されたかという統計的データを収集し、収集されたデータに基づいて決定木群38内の各決定木の学習を行なわせるための決定木学習部36とを含む。この決定木学習部36による学習によって、決定木群38の各決定木は、音響情報が与えられると、前述した所定数の被験者の中のどの程度の割合のものが各要素に対応するラベリングをするか、という確率を出力するように設定される。
音声理解システム20はさらに、入力音声データ50が与えられると、入力音声データ50に対する音声認識を行なうとともに、決定木群38を用いて入力音声データ50が表す感情についてまで含めた音声理解を行ない、認識テキストと入力音声データ50の発話者の意図を表す発話意図情報とからなる音声解釈結果58を出力するための音声認識装置40とを含む。
図2を参照して、決定木学習部36は、学習用音声コーパス30の音声に対し被験者が割当てたラベルを、対応する音声データとともに学習用の統計情報として収集する処理を行なうためのラベル付け処理部70を含む。学習用音声コーパス30の音声はスピーカ32により再生される。被験者はこの音声に対してラベルを割当て、入力装置34を用いて決定木学習部36に与える。
決定木学習部36はさらに、ラベル付け処理部70により蓄積された学習データを記憶するための学習データ記憶部72と、学習データ記憶部72に記憶された学習データの中の発話音声データに対する音響分析を行なって所定の音響特徴量を出力するための音響分析部74と、学習データ記憶部72に記憶された学習データ中で、ある音素に対しどの程度の割合の被験者がどのラベルを割当てたかを統計処理し、その結果をラベルごとに出力するための統計処理部78とを含む。
決定木学習部36はさらに、音響分析部74から与えられた音響特徴量を学習データ、その音声に対し決定木群38内の各決定木に対応する特定のラベルが割当てられた確率を正解データとして決定木群38内の各決定木の学習を機械学習により行なうための学習処理部76を含む。決定木学習部36の学習により、決定木群38は、与えられた音響特徴量に対して最適化された統計情報を出力するようになる。すなわち決定木群38は、ある音声についての音響特徴量が与えられると、その音声について前述した各ラベルが被験者によって割当てられる確率としてもっともらしい値を推定し出力するようになる。
決定木学習部36は、図では決定木群38に対し一つのみ示されているが、決定木群38に含まれる決定木ごとに、対応のラベルが聴者により選択される確率を統計情報に基づいて推定するような、ラベル統計による学習を行なうための機能部を決定木の数と等しい数だけ含んでいる。
図3を参照して、音声認識装置40は、入力音声データ50に対し音響分析部74と同様の音響分析を行ない音響特徴量を出力するための音響分析部52と、音響分析部52の出力する音響特徴量を決定木群38の各決定木に与え、応答して各決定木から返される確率をラベルごとに所定の順序で並べることにより、入力音声データ50の発話者の意図を推定し、発話者の意図(発話の意味)を表す発話意図ベクトルを生成するための発話意図ベクトル生成部54と、発話意図ベクトル生成部54から与えられる発話意図ベクトルと、音響分析部52からの音響特徴量とを入力として音声認識とその意味的な理解とを行ない、音声解釈結果58を出力するための音声理解部56とを含む。音声理解部56は、予め学習用音声コーパスと、学習用音声コーパスの各発話に対するパラ言語情報ベクトルと、その発話に対する被験者の意味的理解の結果とを入力として学習しておいた意味理解モデルを用いて実現できる。
−動作−
音声理解システム20の動作には二つのフェーズが存在する。第1のフェーズは決定木学習部36による決定木群38の学習フェーズである。第2のフェーズは、このようにして学習の終了した決定木群38を用い、音声認識装置40が入力音声データ50に対する意味理解を行なう動作フェーズとである。以下、順に説明する。
・学習フェーズ
学習フェーズに先立ち、学習用音声コーパス30が予め準備されているものとする。所定数(例えば100名)の被験者が予め選抜され、学習用データとして所定数(例えば100個)の発話が定められているものとする。
図2に示すラベル付け処理部70は、第1の被験者に対し、学習用音声コーパス30から第1の発話を取出してスピーカ32を用いて再生する。被験者は、再生された音声に対し感じ取ったパラ言語的な情報を、予め定められた複数通りのラベルのうちのいずれかに割当て、入力装置34を介してラベル付け処理部70に与える。ラベル付け処理部70は、1番目の発話に対して1番目の被験者が割当てたラベルを当該音声データを特定する情報とともに学習データ記憶部72に蓄積する。
ラベル付け処理部70はさらに、学習用音声コーパス30から次の発話を読出し、上記処理と同様の処理を第1番目の被験者に対して行なう。以下同様である。
第1番目の被験者に対し全ての学習用発話を用いて上記した処理を行なうことにより、この第1番目の被験者が各学習用発話に対しどのラベルを割当てたか、という情報が蓄積される。
こうした処理を全ての被験者に対し繰返し行なうことにより、各学習用発話に対し、どのラベルがどれだけの回数割当てられたか、という情報が蓄積される。
全ての被験者に対して上記した処理が終了すると、決定木群38の学習が以下のように行なわれる。全ての発話について、音響分析部74が音響分析を行ない、音響特徴量を学習処理部76に与える。統計処理部78は、全ての発話に対し、どのラベルがどの程度の確率で割当てられたか、という統計的処理を行ない、その結果を学習処理部76に与える。
学習処理部76は、決定木群38に含まれる各決定木に対し学習を行なう。この際の学習データとしては、音響分析部74から与えられる各発話の音響特徴量が用いられる。正解データとしては、その発話について当該決定木に対応するラベルが割当てられた確率が用いられる。この確率は統計処理部78から与えられる。全ての発話についてこの学習処理が完了すると、音声認識装置40による音声理解が可能になる。
・動作フェーズ
動作フェーズでは、入力音声データ50が与えられると音響分析部52がその発話に対する音響分析を行ない、音響特徴量を抽出して発話意図ベクトル生成部54および音声理解部56に与える。発話意図ベクトル生成部54は、決定木群38の各決定木に対し、音響分析部52から与えられた音響特徴量を与える。決定木群38の各決定木は、それぞれに対応するラベルがその発話に割当てられる確率を発話意図ベクトル生成部54に返す。
発話意図ベクトル生成部54は、ラベルごとに受取った確率を所定の順番で要素とする発話意図ベクトルを生成し、音声理解部56に与える。
音声理解部56は、音響分析部52から与えられる音響特徴量と、発話意図ベクトル生成部54から与えられる発話意図ベクトルとに基づいて、入力音声データ50の音声認識結果のテキストと、入力音声データ50の発話者の意図を表す発話意図情報との組合せとして確率の高い上位所定個数の音声解釈結果58を出力する。
以上のようにして、本実施の形態に係る音声理解システム20によれば、単に入力音声データに対する音声認識を行なうだけではなく、入力音声データの背後にある発話者の意図まで含めた、発話の意味的な理解を行なうことが可能となる。
なお、本実施の形態では、学習用音声コーパス30からの学習に決定木を用いている。しかし本発明はそのような実施の形態には限定されない。決定木に代えて、ニューラルネットワーク、隠れマルコフモデル(HMM)など、任意の機械学習手段を用いてもよい。これは、後に説明する第2の実施の形態以下でも同様である。
[第2の実施の形態]
第1の実施の形態に係るシステムは、入力音声データ50に対する意味的な理解を可能とするものであった。決定木群38と、このシステムの動作原理を利用すると、音声コーパスに含まれる各発話に対し、意味的な情報を表す発話意図ベクトルでラベリングをすることができる。図4にそのための音声コーパスラベリング装置80の概略構成を示す。
図4を参照して、音声コーパスラベリング装置80は、第1の実施の形態で用いたものと同じ決定木群38と、ラベリング対象となる音声コーパス90から音声データを読出すための音声データ読出部92と、音声データ読出部92により読出された音声データに対する音響分析を行ない、音響特徴量を出力するための音響分析部94と、音響分析部94から与えられる音響特徴量を決定木群38の各決定木に与え、各決定木から返される確率を所定の順番で並べて要素とする発話意図ベクトルを生成するための発話意図ベクトル生成部96と、発話意図ベクトル生成部96により生成された発話意図ベクトルで音声コーパス90内の対応する発話に対するラベリングを行なうためのラベリング処理部98とを含む。
図5に、音声コーパス90に含まれる音声データ110の構成を示す。図5を参照して、音声データ110は、音声の波形データ112を含む。波形データ112は複数個の発話波形データ114,116,180,…,120,…を含む。
各発話、例えば発話波形データ118には、韻律情報130が付されている。韻律情報130は、発話波形データ118の表す音韻、波形データ112の先頭から測定した発話波形データ118の開始時間および終了時間、音響特徴量等に加え、図4に示す発話意図ベクトル生成部96により付された発話意図ベクトルがパラ言語情報ベクトルとして含まれている。
このように音声コーパス90の各発話にパラ言語情報ベクトルを付しておくことで、音声コーパス90はパラ言語情報ベクトル付音声コーパスとなる。パラ言語情報ベクトル付音声コーパス90を用いることで、例えば音声合成において、単にテキストに対応し、かつ音韻的に自然な音声にとどまらず、所望の発話意図に沿ったパラ言語情報を持った音声を合成することが可能になる。
[第3の実施の形態]
−構成−
第3の実施の形態は、第2の実施の形態の音声コーパスラベリング装置80によりラベリングされた後の音声コーパス90と同様の音声コーパスを用いた音声合成装置に関する。図6に第3の実施の形態に係る音声合成装置142のブロック図を示す。この音声合成装置142は、発話条件情報が付された入力テキスト140を受け、入力テキストに応じた自然な音声であって、かつ発話条件情報に合致したパラ言語的な情報(感情)を表す出力音声波形144を合成する機能を持つ、いわゆる波形接続型音声合成装置である。
図6を参照して、音声合成装置142は、入力テキスト140の入力テキストから韻律合成目標を作成するための韻律合成目標作成部156と、入力テキスト140に含まれる発話条件情報から、パラ言語情報目標ベクトルを作成するためのパラ言語情報目標ベクトル作成部158と、音声コーパスラベリング装置80によりパラ言語情報ベクトルが付された音声コーパス90と同様のパラ言語情報ベクトル付音声コーパス150と、パラ言語情報ベクトル付音声コーパス150から韻律合成目標作成部156の出力に応じた複数の波形候補を選択し、その音響特徴量を読出すための音響特徴量読出部152と、音響特徴量読出部152と同じ波形候補のパラ言語情報ベクトルを読出すためのパラ言語情報読出部154とを含む。
音声合成装置142はさらに、音響特徴量読出部152が読出した各波形候補の音響特徴量およびパラ言語情報読出部154が読出した各波形候補の音響特徴量と、韻律合成目標作成部156の作成した韻律合成目標およびパラ言語情報目標ベクトル作成部158の作成したパラ言語情報目標ベクトルとの間で、韻律合成目標とどの程度異なった音声か、隣接する音声の間の接続がどの程度不連続か、および目標となるパラ言語情報ベクトルと波形候補のパラ言語情報ベクトルとがどの程度相違しているか、を示す尺度となるコストを予め定められた算出式にしたがって算出するためのコスト算出部160と、コスト算出部160が算出した各波形候補のコストに基づき最小コストとなるいくつかの波形候補を選択するための波形選択部162と、波形選択部162により選択された波形候補に対応する波形データをパラ言語情報ベクトル付音声コーパス150から読出して接続することにより、出力音声波形144を出力するための波形接続部164とを含む。
−動作−
この第3の実施の形態に係る音声合成装置142は以下のように動作する。入力テキスト140が与えられると、韻律合成目標作成部156が入力テキストに対するテキスト処理を行ない、韻律合成目標を作成し音響特徴量読出部152、パラ言語情報読出部154およびコスト算出部160に与える。パラ言語情報目標ベクトル作成部158は、入力テキスト140から発話条件情報を抽出し、抽出された発話条件情報に基づいてパラ言語目標ベクトルを作成しコスト算出部160に与える。
音響特徴量読出部152は、韻律合成目標作成部156から与えられた韻律合成目標に基づき、パラ言語情報ベクトル付音声コーパス150から複数の波形候補を選択しコスト算出部160に与える。パラ言語情報読出部154も同様に、音響特徴量読出部152が読出したものと同じ波形候補のパラ言語情報ベクトルを読出し、コスト算出部160に与える。
コスト算出部160は、韻律合成目標作成部156からの韻律合成目標およびパラ言語情報目標ベクトル作成部158からのパラ言語情報目標ベクトルと、音響特徴量読出部152から与えられた各波形候補の音響特徴量およびパラ言語情報読出部154から与えられた各波形のパラ言語情報ベクトルとの間で所定のコスト演算を行ない、その結果を波形候補ごとに波形選択部162に対し出力する。
波形選択部162は、コスト算出部160から与えられたコストに基づき、コスト最小の所定個数の波形候補を選択し、当該波形候補のパラ言語情報ベクトル付音声コーパス150内の位置を表す情報を波形接続部164に与える。
波形接続部164は、波形選択部162から与えられた情報に基づき、パラ言語情報ベクトル付音声コーパス150から波形候補を読出し、直前に選択された波形の直後に接続する。複数候補が選択されているため、波形接続部164の処理によって出力音声波形144の候補が複数個作成されるが、所定のタイミングでその中で累積コストが最小のものが選択され出力音声波形144として出力される。
以上のとおり本実施の形態に係る音声合成装置142によれば、単に入力テキストにより指定される音韻と合致するだけでなく、入力テキスト140に含まれる発話条件情報に合致したパラ言語情報を伝えることができるような波形候補が選択され、出力音声波形144の生成に用いられる。その結果、入力テキスト140の発話条件情報で指定された発話条件に合致し、所望の感情に関する情報をパラ言語情報として伝達することができる。パラ言語情報ベクトル付音声コーパス150の各波形には、パラ言語情報としてベクトルが付されており、パラ言語情報間のコスト計算がベクトル計算として行われるため、互いに相反した感情を伝達したり、入力テキストの内容とは一見無関係な情報をパラ言語情報として伝達したりすることが可能になる。
[コンピュータによる実現]
上述した第1の実施の形態に係る音声理解システム20、第2の実施の形態に係る音声コーパスラベリング装置80、および第3の実施の形態に係る音声合成装置142は、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図7はこのコンピュータシステム250の外観を示す。
図7を参照して、このコンピュータシステム250は、FD(フレキシブルディスク)ドライブ272およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ270を有するコンピュータ260と、キーボード266と、マウス268と、モニタ262と、スピーカ278およびマイクロフォン264とを含む。スピーカ278は図1などに示すスピーカ32として利用される。キーボード266およびマウス268は、図1などに示す入力装置34として利用される。
図8を参照して、コンピュータ260は、FDドライブ272およびCD−ROMドライブ270に加えて、CPU(中央処理装置)340と、CPU340、FDドライブ272およびCD−ROMドライブ270に接続されたバス342と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)344と、バス342に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)346とを含む。コンピュータシステム250はさらに、図示しないプリンタを含んでもよい。
コンピュータ260はさらに、バス342に接続され、スピーカ278およびマイクロフォン264が接続されるサウンドボード350と、バス342に接続された大容量の外部記憶装置であるハードディスク348と、バス342を介してローカルエリアネットワーク(LAN)への接続をCPU340に提供するネットワークボード352を含む。
コンピュータシステム250に上記した音声理解システム20等としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ270またはFDドライブ272に挿入されるCD−ROM360またはFD362に記憶され、さらにハードディスク348に転送される。または、プログラムはネットワークおよびネットワークボード352を通じてコンピュータ260に送信されハードディスク348に記憶されてもよい。プログラムは実行の際にRAM346にロードされる。CD−ROM360から、FD362から、またはネットワークを介して、直接にRAM346にプログラムをロードしてもよい。
このプログラムは、コンピュータ260に音声理解システム20等として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ260上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ260にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した音声理解システム20、音声コーパスラベリング装置80または音声合成装置142としての動作を実行する命令のみを含んでいればよい。コンピュータシステム250の一般的な動作は周知であるので、ここでは繰返さない。
なお、上記した実施の形態の決定木群38の各決定木は、コンピュータ上で並列に動作する複数のデーモンとして実現可能である。また、プロセッサを複数個搭載したコンピュータであれば決定木群38の各決定木を複数のプロセッサに分散させるようにしてもよい。ネットワーク接続された複数のコンピュータを用いる場合も同様で、複数のコンピュータに1または複数の決定木として動作するプログラムを実行させればよい。図6に示す音声合成装置142において、コスト算出部160を複数のデーモンで実現したり、複数のプロセッサにより実行されるプログラムにより実現したりすることもできる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る音声理解システム20のブロック図である。 図1に示す決定木学習部36のブロック図である。 図1に示す音声認識装置40のブロック図である。 本発明の第2の実施の形態に係る音声コーパスラベリング装置80のブロック図である。 音声コーパス90内の音声データ110の構成を模式的に示す図である。 本発明の第3の実施の形態に係る音声合成装置142のブロック図である。 本発明の一実施の形態に係る音声理解システム20などを実現するコンピュータシステム250の外観図である。 図7に示すコンピュータ260のブロック図である。
符号の説明
20 音声理解システム、30 学習用音声コーパス、32 スピーカ、34 入力装置、36 決定木学習部、38 決定木群、40 音声認識装置、50 入力音声データ、52 音響分析部、54 発話意図ベクトル生成部、56 音声理解部、58 音声解釈結果、70 ラベル付け処理部、72 学習データ記憶部、74 音響分析部、76 学習処理部、78 統計処理部、80 音声コーパスラベリング装置、90 音声コーパス、92 音声データ読出部、94 音響分析部、96 発話意図ベクトル生成部、140 入力テキスト、142 音声合成装置、144 出力音声波形、150 パラ言語情報ベクトル付音声コーパス、152 音響特徴量読出部、154 パラ言語情報読出部、156 韻律合成目標作成部、158 パラ言語情報目標ベクトル作成部、160 コスト算出部、162 波形選択部、164 波形接続部

Claims (5)

  1. 学習用音声コーパスを記憶するための学習用音声コーパス記憶手段と、
    前記学習用音声コーパスに含まれる音声の所定の発話単位ごとに音響特徴量を抽出するための特徴量抽出手段と、
    前記所定の発話単位ごとに、再生時に聴者が知覚するパラ言語的情報に関する統計情報を収集するための統計収集手段と、
    前記特徴量抽出手段により抽出された音響特徴量を入力データ、前記統計収集手段により収集された統計情報を正解データとして、機械学習により、音響特徴量に対して最適化された統計情報を出力する学習を行なうための学習手段とを含む、音声処理装置。
  2. 発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、前記パラ言語情報ラベルに対する確率の形で出力するパラ言語情報出力手段と、
    入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、
    前記音響特徴量抽出手段が抽出した音響特徴量を前記パラ言語情報出力手段に与え、応答して前記パラ言語情報出力手段により返される前記パラ言語情報ラベルごとの確率と、前記音響特徴量とに基づいて、前記発話単位に関する発話者の発話意図を推定するための発話意図推定手段とを含む、音声処理装置。
  3. 発話単位データに関する音響特徴量が与えられると、当該発話単位の再生時に聴者が所定の複数通りのパラ言語情報ラベルのいずれを選択するかを、前記複数通りのパラ言語情報ラベルにそれぞれ対応する複数の確率の形で出力するパラ言語情報出力手段と、
    入力音声データの発話単位から音響特徴量を抽出するための音響特徴量抽出手段と、
    所定の音声コーパスに含まれる発話単位データごとに、前記音響特徴量抽出手段により抽出された音響特徴量に対して前記パラ言語情報出力手段から出力される前記複数の確率をパラ言語情報ベクトルとして付することにより、パラ言語情報ベクトル付音声コーパスを生成するための手段とを含む、音声処理装置。
  4. パラ言語情報ベクトルが各々に付され、かつ音素ラベルを含む所定の音響特徴量が各々に付された複数の音声波形データを含む音声コーパスと、
    音声合成の目標となるテキストと、当該テキストの発話意図を表す発話意図情報とが与えられると、音声合成の韻律合成目標と、発話意図に対応するパラ言語情報目標ベクトルとを作成するための合成目標作成手段と、
    前記合成目標作成手段により作成された前記韻律合成目標および前記パラ言語情報目標ベクトルに対し所定の条件を充足する音響特徴量およびパラ言語情報ベクトルを有する音声波形データを前記音声コーパス内に含まれる音声波形データから選択するための波形選択手段と、
    前記波形選択手段により選択された音声波形データを接続することにより、音声波形を出力するための波形接続手段とを含む、音声処理装置。
  5. コンピュータにより実行されると、請求項1〜請求項4のいずれかに記載の音声処理装置として当該コンピュータを動作させる、コンピュータプログラム。
JP2004287943A 2004-09-30 2004-09-30 音声処理装置およびそのためのコンピュータプログラム Active JP4478939B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004287943A JP4478939B2 (ja) 2004-09-30 2004-09-30 音声処理装置およびそのためのコンピュータプログラム
US11/238,044 US20060080098A1 (en) 2004-09-30 2005-09-29 Apparatus and method for speech processing using paralinguistic information in vector form

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004287943A JP4478939B2 (ja) 2004-09-30 2004-09-30 音声処理装置およびそのためのコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2006098993A true JP2006098993A (ja) 2006-04-13
JP2006098993A5 JP2006098993A5 (ja) 2006-06-08
JP4478939B2 JP4478939B2 (ja) 2010-06-09

Family

ID=36146468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004287943A Active JP4478939B2 (ja) 2004-09-30 2004-09-30 音声処理装置およびそのためのコンピュータプログラム

Country Status (2)

Country Link
US (1) US20060080098A1 (ja)
JP (1) JP4478939B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173430A (ja) * 2015-03-17 2016-09-29 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP2017032738A (ja) * 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
CN111970186A (zh) * 2016-01-01 2020-11-20 谷歌有限责任公司 确定电子通信回复中包括的非文本回复内容的方法和装置
JP2021051391A (ja) * 2019-09-20 2021-04-01 ヤフー株式会社 学習装置、学習方法、および学習プログラム
JP2023171101A (ja) * 2022-05-20 2023-12-01 エヌ・ティ・ティ レゾナント株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム

Families Citing this family (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9620117B1 (en) * 2006-06-27 2017-04-11 At&T Intellectual Property Ii, L.P. Learning from interactions for a spoken dialog system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130073286A1 (en) * 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN110096712B (zh) * 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10535344B2 (en) * 2017-06-08 2020-01-14 Microsoft Technology Licensing, Llc Conversational system user experience
WO2020036195A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
KR102271068B1 (ko) * 2019-05-29 2021-06-30 주식회사 카카오 입력 발화의 의도를 추정하는 모델의 학습을 제어하는 방법 및 장치
CN112037758A (zh) * 2020-06-19 2020-12-04 四川长虹电器股份有限公司 一种语音合成方法及装置
CN111883101B (zh) * 2020-07-13 2024-02-23 北京百度网讯科技有限公司 一种模型训练及语音合成方法、装置、设备和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173430A (ja) * 2015-03-17 2016-09-29 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP2017032738A (ja) * 2015-07-31 2017-02-09 日本電信電話株式会社 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
CN111970186A (zh) * 2016-01-01 2020-11-20 谷歌有限责任公司 确定电子通信回复中包括的非文本回复内容的方法和装置
CN111970186B (zh) * 2016-01-01 2022-10-11 谷歌有限责任公司 确定电子通信回复中包括的非文本回复内容的方法和装置
US11575628B2 (en) 2016-01-01 2023-02-07 Google Llc Methods and apparatus for determining non-textual reply content for inclusion in a reply to an electronic communication
JP2017194510A (ja) * 2016-04-18 2017-10-26 日本電信電話株式会社 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2021051391A (ja) * 2019-09-20 2021-04-01 ヤフー株式会社 学習装置、学習方法、および学習プログラム
JP6998349B2 (ja) 2019-09-20 2022-01-18 ヤフー株式会社 学習装置、学習方法、および学習プログラム
JP2023171101A (ja) * 2022-05-20 2023-12-01 エヌ・ティ・ティ レゾナント株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム
JP7419615B2 (ja) 2022-05-20 2024-01-23 株式会社Nttドコモ 学習装置、推定装置、学習方法、推定方法及びプログラム

Also Published As

Publication number Publication date
JP4478939B2 (ja) 2010-06-09
US20060080098A1 (en) 2006-04-13

Similar Documents

Publication Publication Date Title
JP4478939B2 (ja) 音声処理装置およびそのためのコンピュータプログラム
US7472065B2 (en) Generating paralinguistic phenomena via markup in text-to-speech synthesis
JP6846237B2 (ja) 音声合成装置及びプログラム
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
JPWO2003019528A1 (ja) イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
Cooper Text-to-speech synthesis using found data for low-resource languages
Pouget et al. HMM training strategy for incremental speech synthesis
JP2009251199A (ja) 音声合成装置、方法及びプログラム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP6806619B2 (ja) 音声合成システム、音声合成方法、及び音声合成プログラム
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JPH10173769A (ja) 音声メッセージ検索装置
JP2003099089A (ja) 音声認識・合成装置および方法
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
JP4758931B2 (ja) 音声合成装置、方法、プログラム及びその記録媒体
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
Tsiakoulis et al. Dialogue context sensitive speech synthesis using factorized decision trees.
JP2003280680A (ja) 音声合成装置およびその方法およびそのプログラムならびに記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060414

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150