JP2020129099A - 推定装置、推定方法、及びプログラム - Google Patents

推定装置、推定方法、及びプログラム Download PDF

Info

Publication number
JP2020129099A
JP2020129099A JP2019022596A JP2019022596A JP2020129099A JP 2020129099 A JP2020129099 A JP 2020129099A JP 2019022596 A JP2019022596 A JP 2019022596A JP 2019022596 A JP2019022596 A JP 2019022596A JP 2020129099 A JP2020129099 A JP 2020129099A
Authority
JP
Japan
Prior art keywords
estimation
utterance
data
learning
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019022596A
Other languages
English (en)
Other versions
JP7197786B2 (ja
Inventor
勇祐 井島
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019022596A priority Critical patent/JP7197786B2/ja
Priority to PCT/JP2020/003480 priority patent/WO2020166359A1/ja
Priority to US17/429,617 priority patent/US11915688B2/en
Publication of JP2020129099A publication Critical patent/JP2020129099A/ja
Application granted granted Critical
Publication of JP7197786B2 publication Critical patent/JP7197786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】所定の音声区間の継続時間長を高精度に推定する推定装置を提供する。【解決手段】推定装置100は、音声区間の継続時間長を推定する推定装置であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部11と、複数の学習用発話情報及び複数の数値表現データを用いて、推定用データを生成する推定用データ生成部12と、推定用データ及び複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部13と、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部20と、を備える。【選択図】図1

Description

本発明は、音声区間の継続時間長を推定する推定装置、推定方法、及びプログラムに関する。
例えば、音声対話システムにおいて、ユーザとのより自然な対話を実現するために、合成音声の品質を高める技術の開発が進められている。合成音声を生成する要素技術の一つとして、テキストなどの情報に基づいて、音声区間(例えば、音素、モーラ、文節、単語)の継続時間長を推定する技術が挙げられる。
例えば、非特許文献1、及び非特許文献2では、対話行為情報(ユーザの意図に相当する情報)などのタグ情報を、合成音声の生成対象となる1つの文章に対して付与し、タグ情報に基づいて、音声区間の継続時間長を推定している。例えば、非特許文献3では、所定の音声区間の継続時間長を、人手により変更している。
Tsiakoulis, Pirros, et al. "Dialogue context sensitive HMM-based speech synthesis." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014. 北条伸克, 井島勇祐, 杉山弘晃, 「対話行為情報を表現可能な音声合成の検討」, 人工知能学会全国大会, 2O4-OS-23a-4, June 2016. Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka. "Prosodic Variation Enhancement Using Unsupervised Context Labeling for HMM-based Expressive Speech Synthesis", Speech Communication, Elsevier, Vol. 57, No. 3, pp. 144-154, Feb. 2014. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, "Efficient estimation of word representations in vector space", 2013, ICLR
しかしながら、従来の技術では、所定の音声区間の継続時間長を高精度に推定することが困難であった。このため、例えば、音声対話システムにおいて、生成される合成音声の品質が低く、ユーザとの自然な対話を実現し難いという問題があった。
上記のような問題点に鑑みてなされた本発明の目的は、所定の音声区間の継続時間長を高精度に推定する推定装置、推定方法、及びプログラムを提供することにある。
上記課題を解決するため、本発明に係る推定装置は、音声区間の継続時間長を推定する推定装置であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成する推定用データ生成部と、前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部と、前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部と、を備えることを特徴とする。
また、上記課題を解決するため、本発明に係る推定方法は、音声区間の継続時間長を推定する推定装置による推定方法であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成するステップと、前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習するステップと、前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定するステップと、を含むことを特徴とする。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の推定装置として機能させることを特徴とする。
本発明によれば、所定の音声区間の継続時間長を高精度に推定可能となる。
本実施形態に係る推定装置の構成の一例を示す図である。 本実施形態に係る推定方法の一例を示すフローチャートである。 本実施形態に係る音声データの一例を示す図である。 本実施形態に係る単語セグメンテーション情報の一例を示す図である。
以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。
<第1実施形態>
図1乃至図4を参照して、本実施形態に係る推定装置100の構成及び推定方法について説明する。
図1に示すように、推定装置100は、学習部10と、推定部20と、を備える。学習部10は、表現変換部11と、推定用データ生成部12と、推定モデル学習部13と、を備える。
推定装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに所定のプログラムが読み込まれて構成された装置である。推定装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。推定装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。推定装置100の各処理部は、少なくとも一部が集積回路などのハードウェアによって構成されていてもよい。推定装置100が備える各記憶部は、例えば、RAMなどの主記憶装置、または、リレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも推定装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリのような半導体メモリ素子により構成される補助記憶装置により構成し、推定装置100の外部に備える構成としてもよい。
推定装置100は、推定モデルを用いて、ユーザ(例えば、音声対話システムの対話相手)の発話情報に基づいて、所定の音声区間(例えば、合成音声の生成対象となる1つの文章に含まれる重要な単語)の継続時間長を推定する。推定モデルは、学習データ(例えば、学習用音声データ、学習用発話情報)から構築されるデータ(例えば、ベクトル)を、推定された音声区間の継続時間長に変換するニューラルネットワークである。ニューラルネットワークとしては、例えば、MLP(Multilayer perceptron)、RNN(Recurrent Neural Network)、RNN-LSTM(Recurrent Neural Network-Long Short Term Memory)、CNN(Convolutional Neural Network)、などが挙げられる。なお、音声区間としては、例えば、単語、音素、モーラ、文節、などが挙げられるが、本明細書では、音声区間に「単語」を適用する場合を一例に挙げて説明する。
音声データは、複数の発話、複数の発話の順序、などを含むデータである。音声データは、例えば、基本周波数などの音高パラメータ、ケプストラム或いはメルケプストラムなどのスペクトルパラメータ、などの音響特徴量であってよい。
図3は、音声データの一例を示す図である。図3に示すように、音声データは、例えば、話者1の発話1〜発話N、話者2の発話1〜発話N、話者1の発話1〜発話N及び話者2の発話1〜発話Nの順序、などを含む。
発話情報は、音声データに含まれる発話(例えば、発話1:「今日の天気は?」)に関する情報であり、例えば、発話に含まれる単語(例えば、発話1に含まれる3番目の単語:「天気」)、発話に含まれる単語の発話開始時間及び発話終了時間、発話に含まれる音素、発話に含まれるモーラ、発話に含まれる文節、発話に関する音声、発話に関する文章、などを含む情報である。
図4は、発話に含まれる単語の発話開始時間及び発話終了時間の情報(単語セグメンテーション情報)の一例を示す図である。図4に示すように、単語セグメンテーション情報は、例えば、単語が「今日」である場合、発話開始時間が0[ms]、発話終了時間が350[ms]となる。また、単語セグメンテーション情報は、例えば、単語が「の」である場合、発話開始時間は350[ms]、発話終了時間は600[ms]となる。単語セグメンテーション情報は、例えば、単語が「天気」である場合、発話開始時間が600[ms]、発話終了時間は680[ms]となる。単語セグメンテーション情報は、例えば、単語が「は」である場合、発話開始時間が680[ms]、発話終了時間が830[ms]となる。なお、単語セグメンテーション情報は、人手により付与されてもよいし、音声認識器などを用いて自動で付与されてもよい。
以下、各部の詳細について説明する。
表現変換部11は、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する(図2に示すステップS201参照)。表現変換部11は、表現変換した複数の数値表現データを、推定用データ生成部12へと出力する。
例えば、表現変換部11は、Word2Vec(例えば、非特許文献4参照)における単語−ベクトル変換モデルを用いて、学習用発話情報に含まれる複数の単語を、複数のベクトルwsn(t)に表現変換する。ベクトルwsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に含まれるt番目(1≦t≦Tsn)の単語が表現変換されたベクトルを示している。Nは発話の数、Tsnは話者sのn番目の発話に含まれる単語の数、を示している。例えば、ベクトルw11(t)は、話者1の1番目の発話1に含まれるt番目の単語が表現変換されたベクトルを示している。例えば、ベクトルw22(t)は、話者2の発話2に含まれるt番目の単語が表現変換されたベクトルを示している。
推定用データ生成部12は、複数の学習用発話情報及び表現変換部11から入力される複数の数値表現データを用いて、推定用データを生成する(図2に示すステップS202参照)。推定用データ生成部12は、生成した推定用データを、推定モデル学習部13へと出力する。
具体的には、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)より過去の発話(例えば、話者1の発話1〜発話5、話者2の発話1〜発話4)の学習用発話情報に含まれる複数の単語が表現変換された複数のベクトルを用いて、過去の発話に関するベクトルvpsn(t)(第1データ)を取得する。ベクトルvpsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に関するベクトルを示している。例えば、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)の直前の発話(例えば、話者1の発話5)の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの統計量(平均、分散、など)を用いて、過去の発話に関するベクトルを取得する。
なお、推定用データ生成部12は、過去の発話を任意に選択して、過去の発話に関するベクトルを取得することが可能である。例えば、推定用データ生成部12は、推定対象となる発話の直前の発話のみを選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部12は、推定対象となる発話に時間的に近い過去の発話を複数選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部12は、推定対象となる発話より過去の発話を全て選択して、過去の発話に関するベクトルを取得してもよい。
そして、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)の学習用発話情報に含まれる推定対象となる単語(例えば、話者2の発話5に含まれる3番目の単語)が表現変換されたベクトルを用いて、推定対象となる発話に関するベクトルvcsn(t)(第2データ)を取得する。ベクトルvcsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に関するベクトルを示している。
なお、推定用データ生成部12は、推定対象となる発話(例えば、話者2の発話5)の学習用発話情報に含まれる推定対象となる単語が表現変換されたベクトルの他、推定対象となる単語に含まれる音素、推定対象となる単語に含まれるモーラ、などの継続時間長に関する情報を用いて、推定対象となる発話に関するベクトルを取得してもよい。
そして、推定用データ生成部12は、過去の発話に関するベクトルvpsn(t)と、推定対象となる発話に関するベクトルvcsn(t)と、を連結して、推定用ベクトルvsn(t)を生成する。ベクトルvsn(t)は、話者s(1≦s≦2)のn番目(1≦n≦N)の発話に含まれるt番目(1≦t≦Tsn)の単語の継続時間長を推定するためのベクトルを示している。
推定用データ生成部12が、推定対象となる発話に関するベクトルvcsn(t)のみならず、過去の発話に関するベクトルvpsn(t)を含めて推定用ベクトルvsn(t)を生成することで、推定対象となる単語の継続時間長の推定精度を高めることができる。
推定モデル学習部13は、推定用データ及び学習用発話情報に含まれる複数の単語の継続時間長を用いて、推定モデルを学習する(図2に示すステップS203参照)。例えば、推定モデル学習部13は、過去の発話に関するベクトルvpsn(t)と推定対象となる発話に関するベクトルvcsn(t)とを連結した推定用ベクトルvsn(t)、及び単語セグメンテーション情報(図4参照)を用いて、推定モデルを学習する。推定モデルは、例えば、次式(1)のように表すことができる。
Figure 2020129099
ここで、dは、単語の継続時間長を示している。
Figure 2020129099
は、推定された単語の継続時間長を示している。
推定モデルは、例えば、Multilayer perceptron、Recurrent Neural Network、Recurrent Neural Network-Long Short Term Memory、Convolutional Neural Network、などのニューラルネットワーク、或いは、これらを組み合わせたニューラルネットワークである。例えば、推定モデルが、Recurrent Neural Network、Recurrent Neural Network-Long Short Term Memory、などのような時系列を考慮したニューラルネットワークである場合、推定モデル学習部13は、過去の発話を考慮した学習を行い易くなるため、推定対象となる単語の継続時間長の推定精度を高めることができる。
推定モデル学習部13は、例えば、図4に示すような単語セグメンテーション情報に基づいて、学習用発話情報に含まれる複数の単語の継続時間長dを取得する。例えば、単語が「今日」であれば、「今日」の継続時間長dは、350[ms]である。また、例えば、単語が「の」であれば、「の」の継続時間長dは、250[ms]である。また、例えば、単語が「天気」であれば、「天気」の継続時間長dは、80[ms]である。また、例えば、単語が「は」であれば、「は」の継続時間長dは、150[ms]である。
推定部20は、学習部10が学習した推定モデルを用いて、ユーザの発話情報に基づいて、所定の単語の継続時間長を推定する(図2に示すステップS204参照)。そして、推定部20は、推定した所定の単語の継続時間長を、音声合成部(不図示)へと出力する。所定の単語とは、音声合成部が合成音声を生成する際、合成音声の生成対象となる1つの文章に含まれる単語であればよく、例えば、重要な単語、繰り返される単語、などである。なお、音声合成部の構成は、特に限定されるものではない。
第1実施形態に係る推定装置100によれば、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する。これにより、所定の音声区間の継続時間長を高精度に推定することができる。
また、第1実施形態に係る推定装置100によれば、推定用データ生成部12が、過去の発話などを考慮して、推定用データを生成する。これにより、重要な情報を繰り返す復唱などの事象に対しても、所定の音声区間の継続時間長を高精度に推定することができる。
また、第1実施形態に係る推定装置100を、音声対話システムに適用することで、例えば、重要な単語を強調した合成音声、重要な単語の発話速度を遅くした合成音声、など適切な音声区間の継続時間長を有する合成音声(高品質な合成音声)を生成することができる。これにより、ユーザとの自然な対話をリアルタイムで行い、音声対話の自然性を向上させた音声対話システムを実現できる。
<第2実施形態>
次に、第2実施形態に係る推定装置100Aについて説明する。
第2実施形態に係る推定装置100Aが、第1実施形態に係る推定装置100と異なる点は、第1実施形態に係る推定装置100における推定用データ生成部12が、過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データを用いて、過去の発話に関するベクトルを取得するのに対して、第2実施形態に係る推定装置100Aにおける推定用データ生成部12Aは、過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの中から最適な数値表現データを選択し、選択した数値表現データを用いて、過去の発話に関するベクトルを取得する点である。なお、その他の構成は、第1実施形態に係る推定装置100と同じであるため、重複した説明を省略する。
推定用データ生成部12Aは、複数の学習用発話情報及び表現変換部11から入力される複数の数値表現データを用いて、推定用データを生成する。推定用データ生成部12Aは、生成した推定用データを、推定モデル学習部13へと出力する。
具体的には、推定用データ生成部12Aは、推定対象となる発話(例えば、話者2の発話5)より過去の発話(例えば、話者1の発話1〜発話5、話者2の発話1〜発話4)の学習用発話情報に含まれる複数の単語が表現変換された複数のベクトルを用いて、過去の発話に関するベクトルvpsn(t)(第1データ)を取得する。例えば、推定用データ生成部12Aは、推定対象となる発話(例えば、話者2の発話5)の直前の発話(例えば、話者1の発話5)の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中から、推定対象となる単語(例えば、話者2の発話5に含まれる3番目の単語)が表現変換されたベクトルと最も類似するベクトルを選択し、選択したベクトルを用いて、過去の発話に関するベクトルを取得する。過去の発話に関するベクトルvpsn(t)は、例えば、次式(2)のように表すことができる。
Figure 2020129099
ここで、Uは、推定対象となる発話の直前の発話に含まれる単語の数を示している。関数distは、2つのベクトル間の距離を示しており、例えば、ユークリッド距離、コサイン距離、などを用いることができる。
なお、推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中に、推定対象となる単語が表現変換されたベクトルに類似するベクトルが複数存在する場合には、推定用データ生成部12Aは、推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中から、複数のベクトルを選択することも可能である。
そして、推定用データ生成部12Aは、推定対象となる発話(例えば、話者2の発話5)の学習用発話情報に含まれる推定対象となる単語(例えば、話者2の発話5に含まれる3番目の単語)が表現変換されたベクトルを用いて、推定対象となる発話に関するベクトルvcsn(t)(第2データ)を取得する。
そして、推定用データ生成部12Aは、過去の発話に関するベクトルvpsn(t)と、推定対象となる発話に関するベクトルvcsn(t)と、を連結して、推定用ベクトルvsn(t)を生成する。
推定用データ生成部12Aが、推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換されたベクトルの中から、最適なベクトルを選択し、当該最適なベクトルを用いることで、無駄な情報を省いて、過去の発話に関するベクトルを取得することができる。これにより、推定対象となる単語の継続時間長の推定精度を更に高めることができる。
第2実施形態に係る推定装置100Aによれば、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する。これにより、所定の音声区間の継続時間長を高精度に推定することができる。
また、第2実施形態に係る推定装置100Aによれば、推定用データ生成部12Aが、推定対象となる発話より過去の発話に含まれる単語の中から、最適な単語を選択して、推定用データを生成する。これにより、重要な情報を繰り返す復唱などの事象に対しても、所定の音声区間の継続時間長を更に高精度に推定することができる。
<変形例>
第1実施形態では、図1に示す推定装置100においては、学習部10と推定部20とを分けて記載しているが、学習部10と推定部20とは一体的に形成されていてもよい。従って、推定部20が、学習部10が備える各部を備えていてもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
10 学習部
11 表現変換部
12,12A 推定用データ生成部
13 推定モデル学習部
20 推定部
100,100A 推定装置

Claims (6)

  1. 音声区間の継続時間長を推定する推定装置であって、
    学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、
    複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成する推定用データ生成部と、
    前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部と、
    前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部と、
    を備える、推定装置。
  2. 前記推定用データ生成部は、
    推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語が表現変換された複数の数値表現データを用いて、前記過去の発話に関する第1データを取得し、
    前記推定対象となる発話の学習用発話情報に含まれる推定対象となる単語が表現変換された数値表現データを用いて、前記推定対象となる発話に関する第2データを取得し、
    前記第1データ及び前記第2データに基づいて、前記推定用データを生成する、
    請求項1に記載の推定装置。
  3. 前記推定用データ生成部は、
    前記推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの統計量を用いて、前記第1データを取得する、
    請求項2に記載の推定装置。
  4. 前記推定用データ生成部は、
    前記推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの中から、前記推定対象となる単語が表現変換された数値表現データと最も類似する数値表現データを選択し、選択した数値表現データを用いて、前記第1データを取得する、
    請求項2に記載の推定装置。
  5. 音声区間の継続時間長を推定する推定装置による推定方法であって、
    学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、
    複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成するステップと、
    前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習するステップと、
    前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定するステップと、
    を含む、推定方法。
  6. コンピュータを、請求項1から4のいずれか一項に記載の推定装置として機能させるプログラム。

JP2019022596A 2019-02-12 2019-02-12 推定装置、推定方法、及びプログラム Active JP7197786B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019022596A JP7197786B2 (ja) 2019-02-12 2019-02-12 推定装置、推定方法、及びプログラム
PCT/JP2020/003480 WO2020166359A1 (ja) 2019-02-12 2020-01-30 推定装置、推定方法、及びプログラム
US17/429,617 US11915688B2 (en) 2019-02-12 2020-01-30 Prediction device, prediction method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019022596A JP7197786B2 (ja) 2019-02-12 2019-02-12 推定装置、推定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020129099A true JP2020129099A (ja) 2020-08-27
JP7197786B2 JP7197786B2 (ja) 2022-12-28

Family

ID=72044670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019022596A Active JP7197786B2 (ja) 2019-02-12 2019-02-12 推定装置、推定方法、及びプログラム

Country Status (3)

Country Link
US (1) US11915688B2 (ja)
JP (1) JP7197786B2 (ja)
WO (1) WO2020166359A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854564B1 (en) * 2020-06-16 2023-12-26 Amazon Technologies, Inc. Autonomously motile device with noise suppression

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP2001350491A (ja) * 2000-06-07 2001-12-21 Canon Inc 音声処理方法および装置
JP2007011042A (ja) * 2005-06-30 2007-01-18 Mitsubishi Electric Corp 韻律生成装置及び音声合成装置
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697820B2 (en) * 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN107704482A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 方法、装置以及程序
US11501769B2 (en) * 2018-08-31 2022-11-15 Google Llc Dynamic adjustment of story time special effects based on contextual data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP2001350491A (ja) * 2000-06-07 2001-12-21 Canon Inc 音声処理方法および装置
JP2007011042A (ja) * 2005-06-30 2007-01-18 Mitsubishi Electric Corp 韻律生成装置及び音声合成装置
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

Also Published As

Publication number Publication date
US20220139381A1 (en) 2022-05-05
JP7197786B2 (ja) 2022-12-28
US11915688B2 (en) 2024-02-27
WO2020166359A1 (ja) 2020-08-20

Similar Documents

Publication Publication Date Title
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
CN108573693B (zh) 文本到语音系统和方法以及其存储介质
CN106971709B (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
WO2018151125A1 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2017032839A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20230343319A1 (en) speech processing system and a method of processing a speech signal
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN110930975A (zh) 用于输出信息的方法和装置
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP2018004947A (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
US20240119922A1 (en) Text to speech synthesis without using parallel text-audio data
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
CN112489646B (zh) 语音识别方法及其装置
KR102277205B1 (ko) 오디오 변환 장치 및 방법
JP5268731B2 (ja) 音声合成装置、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221128

R150 Certificate of patent or registration of utility model

Ref document number: 7197786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150