JP7279800B2 - 学習装置、推定装置、それらの方法、およびプログラム - Google Patents

学習装置、推定装置、それらの方法、およびプログラム Download PDF

Info

Publication number
JP7279800B2
JP7279800B2 JP2021543909A JP2021543909A JP7279800B2 JP 7279800 B2 JP7279800 B2 JP 7279800B2 JP 2021543909 A JP2021543909 A JP 2021543909A JP 2021543909 A JP2021543909 A JP 2021543909A JP 7279800 B2 JP7279800 B2 JP 7279800B2
Authority
JP
Japan
Prior art keywords
feature
speech
value
learning
value label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021543909A
Other languages
English (en)
Other versions
JPWO2021044606A1 (ja
Inventor
孝典 芦原
雄介 篠原
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021044606A1 publication Critical patent/JPWO2021044606A1/ja
Application granted granted Critical
Publication of JP7279800B2 publication Critical patent/JP7279800B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

本発明は、ある特徴を有する発話音声と、ある特徴とは異なる特徴を有する発話音声とを識別するモデルを学習する学習装置、学習したモデルを用いた推定装置、それらの方法、およびプログラムに関する。
ささやいたとき見られる特徴を有する発話音声(以下、「ささやき発話音声」ともいう)と、それ以外の発話音声(以下、「通常発話音声」ともいう)を識別するモデルを学習する従来技術として非特許文献1が知られている。ささやき発話音声とは、励振音源が完全に無声音となるような発話音声を指す。このようなモデルを学習する際は、予めささやき発話音声と通常発話音声を収集し、その音声にラベル付けし教師データとすることで、所望の学習データとする。
Z. Raeesy, K. Gillespie, C. Ma, T. Drugman, J. Gu, R. Maas, A. Rastrow, B. Hoffmeister, "LSTM-based whisper detection" , SLT, 2018.
しかしながら、教師データとしてささやき発話音声のデータ数は少ない。一般的に、音声認識等で用いられるような統計モデルは、実際に利用されるシーンの実データを用いて学習することで、その利用シーンにおける精度が改善する。したがって、ささやき発話音声と通常発話音声とを識別するモデルであっても同様に実際に利用されるシーンの実データが入手出来る場合は、そのデータを学習に組み込む事で精度の改善が見込める。しかしながら、先述の通り、実際にはささやき発話音声のような無声音の学習データは少ないため、モデルの精度を改善させることは困難である。
本発明は、二値分類することを目的とした機械学習アルゴリズムにおいて、学習データ量に偏りがあることに起因して十分な性能が担保出来ないような場合において、モデルの識別精度を向上させることができる学習装置、学習したモデルを用いた推定装置、それらの方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、学習装置は、第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを学習する学習部を備える。
上記の課題を解決するために、本発明の他の態様によれば、推定装置は、第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、学習した、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを用いて、推定用入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定する推定部を備える。
本発明によれば、実利用シーンにおいて相対的にささやき発話音声より出現頻度が高いソフト発話音声を両発話音声(ささやき発話音声と通常発話音声)の中間の属性(ソフトラベル)をもつデータとして学習データに加えて、ささやき発話音声と通常発話音声を識別するモデルの学習を行うことで、学習したモデルの識別精度を向上させることができるという効果を奏する。なお、ソフト発話音声とは、有声音と無声音が混じり合うような音圧の低いボソボソとした発話音声である。
第一実施形態に係る推定システムの概要を示すための図 第一実施形態に係る学習装置の機能ブロック図。 第一実施形態に係る学習装置の処理フローの例を示す図。 第一実施形態に係る推定装置の機能ブロック図。 第一実施形態に係る推定装置の処理フローの例を示す図。 本手法を適用するコンピュータの構成例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態では、二値分類を目的としたモデルの学習において、各分類の教師データのデータ量に偏りがある場合に、分類対象の中間の特性(特徴量)をもつデータに両分類の中間の分類の属性(ソフトラベル)を付与して学習データに加えて学習することで、モデルの識別精度を向上させる。
例えば、通常発話音声と通常発話音声よりも出現頻度の低いささやき発話音声を高精度に識別するモデルを学習させる目的で、実利用シーンでささやき発話音声より相対的に出現頻度の高く、通常発話音声とささやき発話音声の中間の特性をもつソフト発話音声に、ささやき発話音声と通常発話音声の中間の属性(ソフトラベル)を付与して学習データに加えて、ささやき発話音声と通常発話音声を識別するモデルの学習を行う。
例えば、参考文献1では、5種類の発話モード(Whispered/Soft/Normal/Loud/Shouted)を定義し、その音響特性の解析やその識別を可能にするモデルを学習し、音声認識対象の音声データを5種類の発話モードに識別することが記載されている。
(参考文献1) P. Zelinka, M. Sigmund, J. Schimmel, "Impact of vocal effort variability on automatic speech recognition", Speech Communication, 2012.
一般的に実利用シーン、例えばスマートホン等を介した音声認識サービスを電車やカフェ等のオープンスペースで利用する際に発せられるようなプライバシーを意識した発話音声は、完全に無声音となるささやき発話音声より、ささやき発話音声と通常発話との中間に位置するようなソフト発話音声であることが多い。そのため、ささやき発話音声よりソフト発話音声のほうがデータ収集を行いやすい。なお、ソフト発話音声の音響特性(音圧など)は、ささやき発話音声の音響特性と通常発話音声の音響特性の中間にあたる。
この点に着目し、本実施形態では、2値分類において、両分類の中間の特性(特徴量)をもつデータに両分類の中間の属性(ソフトラベル)を付与する。つまり、ささやき発話音声データと通常発話音声データに加え、音響的に両音声データの中間的位置に存在するソフト発話音声データにソフトラベルを付与したデータを学習に用いることで、より一層の精度改善を実現する。
なお、画像認識等で用いられる識別モデルにおいては、その学習時にソフトラベルを用いる事で精度改善することが分かっている。参考文献2では、2つの画像をある重みに基づいて重畳し、その重みを学習する際の教師ソフトラベルとして学習する(例えば、猫と犬の画像を0.5ずつの割合で混ぜ込み、その教師ラベルは、それぞれ猫=0.5、犬=0.5として学習する)、Mixupと呼ばれる手法を提案し精度改善が認められている。
(参考文献2)H. Zhang, M. Cisse, Y. N. Dauphin, D. Lopez-Paz, "mixup: Beyond Empirical Risk Minimization", ICLR (2018)
したがって、本実施形態では、ソフト発話音声がその音響特性上、ささやき発話音声と通常発話音声の中間に位置すると考えられるため、ソフト発話音声の教師ラベルをささやき発話音声の教師ラベルと通常発話音声の教師ラベルとの中間値として学習することで、精度改善させることができる。本実施形態では、そのような中間値ラベルを付与することができる「音声ラベル付与部」を「識別モデル学習部」より前に具備する。
第一実施形態において、ソフト発話音声を用いた、ささやき発話音声と通常発話音声の識別モデル学習およびそのモデルを用いた推定について説明する。
<第一実施形態>
図1は第一実施形態に係る推定システムの概要を示すための図である。推定システムは、学習装置100と推定装置200とを含む。
学習装置100は、学習用の音声信号と音声信号に対応するラベルとを入力とし、識別モデルを学習し、学習済みのモデルを出力する。
推定装置200は、学習済みのモデルを推定処理に先立ち受け取り、推定対象の音声信号を入力とし、学習済みのモデルを用いて、推定対象の音声信号が通常発話音声かささやき発話音声かを推定し、推定結果を出力する。
学習装置および推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および推定装置の外部に備える構成としてもよい。
まず、学習装置100が、ソフト発話音声を用いて、ささやき発話音声と通常発話音声の識別モデルを学習する方法について、説明する。図2は第一実施形態に係る学習装置の機能ブロック図を、図3はその処理フローを示す。
学習装置100は、AD変換部110、音声デジタル信号蓄積部120、特徴量分析部130、特徴量蓄積部140、音声ラベル付与部150、識別モデル学習部160を含む。
以下、各部について説明する。
<AD変換部110>
入力:学習用の音声信号s(L)(t)
出力:学習用の音声デジタル信号s(L)(i)
処理:AD変換部110は、アナログの音声信号s(L)(t)をデジタルの音声デジタル信号s(L)(i)に変換する(S110)。なお、tは時刻を示すインデックスであり、iはサンプル番号(サンプル時刻)を示すインデックスである。
<音声デジタル信号蓄積部120>
入力:学習用の音声デジタル信号s(L)(i)
処理:音声デジタル信号蓄積部120は、音声デジタル信号の系列s(L)(i),s(L)(i-1),…を蓄積する。
<特徴量分析部130>
入力:学習用の音声デジタル信号s(L)(i)
出力:学習用の特徴量S(L)(n)
処理:特徴量分析部130は、音声デジタル信号蓄積部120から音声デジタル信号s(L)(i)を取り出し、特徴量分析を行い(S130)、(音響)特徴量S(L)(n)を抽出する。
抽出する特徴量としては、例えば、音声信号の短時間フレーム分析に基づくMFCC(Mel-Frequenct Cepstrum Coefficient)の1~12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはCMN(ケプストラム平均正規化)処理を行っても良い。特徴量は、MFCCやパワーに限定したものでは無く、ささやき発話音声の識別に用いられるパラメータ(例えば、自己相関ピーク値や群遅延など)を用いても良い。
例えば、フレーム単位で分析する場合には、特徴量分析部130は、シフト幅毎に音声デジタル信号蓄積部120からフレーム単位の音声デジタル信号s(L)(i),s(L)(i-1),…,s(L)(i-T+1)を取り出し、フレーム単位で特徴量分析を行い(S130)、(音響)特徴量S(L)(n)を抽出する。なお、Tは1つのフレームに含まれるサンプル数であり、nはフレーム番号を示すインデックスである。
<特徴量蓄積部140>
入力: 学習用の特徴量S(L)(n)
処理:特徴量蓄積部140は、特徴量の系列S(L)(n),S(L)(n-1),…を蓄積する。
<音声ラベル付与部150>
入力:学習用の特徴量の系列S(L)(n),S(L)(n-1),…、学習用のラベル
出力:ラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…
処理:音声ラベル付与部150は、特徴量蓄積部140から特徴量の系列S(L)(n),S(L)(n-1),…を取り出し、特徴量の系列S(L)(n),S(L)(n-1),…に対し、対応するラベルr(L)(n),r(L)(n-1),…を付与し(S150)、ラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…を得る。例えば、通常発話についてはaを、ささやき発話についてはbを、ソフト発話音声についてはc(a<c<bまたはb<c<a)を、教師ラベルとして付与する。例えば、a=0,b=1またはa=1,b=0とする。なお、ラベルの付与は、所定の単位(音声ファイル単位、発話単位、単語単位、フレーム単位等)で人手により行う。
値cの決め方としては、aとbの平均値((a+b)/2)を用いてもよいし、aとbとの間の適切な値を人手により設定してもよいし、実験やシミュレーションにより求め設定してもよい。また、半教師ありアプローチをとっても良い。例えば、a=0,b=1またはa=1,b=0とし、一旦ささやき発話音声と通常発話音声だけで学習した識別モデルを用いて、ソフト発話音声をささやき発話音声か通常発話音声かに識別し、その結果得られる確率値をそのソフト発話音声の教師ラベルの値cとしてもよい。
<識別モデル学習部160>
入力:ラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…
出力:学習済み識別モデル
処理:識別モデル学習部160は、特徴量系列に対しラベル付与されたラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…を用いて、ささやき発話音声と通常発話音声とを識別するモデルを学習する(S160)。
本実施形態ではささやき発話音声と通常発話音声の2クラス分類になるため、その分類が可能となるモデルであれば良い。例えば、非特許文献1や参考文献1のようにGMMやDNNモデルなどがよく用いられる。学習時には、ささやき発話音声の教師ラベルをaとして、通常発話音声の教師ラベルをbとして、ソフト発話音声の教師ラベルを「ソフト発話音声ラベル付与部」で付与された値cとして、学習する。このモデルは、例えば、推定対象の音声信号がささやき発話音声である確率が高いほどaに近い値を出力し、通常発話音声である確率が高いほどbに近い値を出力する。
次に、推定装置200について説明する。図4は第一実施形態に係る推定装置の機能ブロック図を、図5その処理フローを示す。
推定装置200は、AD変換部210、音声デジタル信号蓄積部220、特徴量分析部230、特徴量蓄積部240、推定部260を含む。
AD変換部210、音声デジタル信号蓄積部220、特徴量分析部230、特徴量蓄積部240は、学習用の音声信号または学習用の音声信号に由来する信号に代えて、推定対象の音声信号または推定対象の音声信号に由来する信号に対して、処理S110~S140と同様の処理S210~S240を行う。
<推定部260>
入力:特徴量の系列S(n),S(n-1),…
出力:推定結果(ラベル)
処理:推定部260は、学習済みのモデルを推定処理に先立ち受け取る。
推定部260は、特徴量の系列S(n),S(n-1),…に対し、学習済みのモデル(ささやき発話音声と通常発話音声とを識別するモデル)を用いて、ささやき発話音声か通常発話音声かを推定し(S260)、ささやき発話音声または通常発話音声であることを示すラベルを推定結果として出力する。例えば、学習済みのモデルが、推定対象の音声信号がささやき発話音声である確率が高いほどaに近い値を出力し、通常発話音声である確率が高いほどbに近い値を出力するモデルの場合、推定部260は、モデルの出力値と閾値との大小関係に基づき、ささやき発話音声か通常発話音声かを判定し、判定結果に対応するラベルを推定結果として出力する。例えば、推定対象の音声信号がささやき発話音声である確率が高いほど1に近い値を出力し、通常発話音声である確率が高いほど0に近い値を出力するモデルの場合、推定部260は、モデルの出力値と閾値(この場合、0より大きく、1より小さい値であり、推定処理に先立ち実験やシミュレーション等により求めた値、例えば0.5)との大小関係に基づき、モデルの出力値が閾値より大きい場合には、ささやき発話音声発話であると判定し、モデルの出力値が閾値以下の場合には通常音声発話であると判定する。
<効果>
以上の構成により、ソフト発話音声を両発話音声の中間の属性をもつ教師データとして学習データに加えて、ささやき発話音声と通常発話音声を識別するモデルの学習を行うことで、学習したモデルの識別精度を向上させることができる。
<変形例>
本実施形態では、通常発話音声から抽出した特徴量とその教師ラベル(例えばa)と、ささやき発話音声から抽出した特徴量とその教師ラベル(例えばb)と、ソフト発話音声から抽出した特徴量(通常発話音声から抽出した特徴量とささやき発話音声から抽出した特徴量との中間の特徴量)とその教師ラベル(a<c<bまたはa>c>b)とを教師データとして、モデルを学習している。しかし、ある特徴(以下、第1の特徴ともいう)を有し、その第1の特徴に対応する第1の値ラベルを付与された第1特徴量と、第1の特徴とは異なる特徴(以下、第2の特徴ともいう)を有し、その第2の特徴に対応する第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴との中間の特徴(以下、第三の特徴ともいう)を有し、第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを学習する学習装置であれば、本発明を適用することができる。つまり、第1の特徴は通常発話音声の特徴に限るものではなく、第2の特徴はささやき発話音声の特徴に限るものではなく、第3の特徴はソフト発話音声に限るものではない。例えば、第2の特徴として、通常発話以外の発話である非通常発話の特徴を用いてもよく、第3の特徴は通常発話と非通常発話の中間の特徴を用いてもよい。より具体的には、第1の特徴を通常(normal)発話音声の特徴とし、第2の特徴を叫び(shouted)発話音声の特徴とし、第3の特徴を大声(Loud)発話音声の特徴として、本発明を適用してもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述の各種の処理は、図6に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴である第3の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを学習する学習部を備える、
    学習装置。
  2. 請求項1の学習装置であって、
    前記第1の特徴は通常発話の特徴であり、前記第2の特徴は非通常発話の特徴であり、前記第3の特徴は通常発話と非通常発話の中間の特徴である、
    学習装置。
  3. 請求項1の学習装置であって、
    前記第1の特徴は通常発話の特徴であり、前記第2の特徴はささやき発話の特徴であり、前記第3の特徴はソフト発話の特徴である、
    学習装置。
  4. 第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、学習した、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを用いて、推定用入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定する推定部を備える、
    推定装置。
  5. 学習装置が、第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを学習する学習ステップを備える、
    学習方法。
  6. 推定装置が、第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、学習した、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを用いて、推定用入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定する推定ステップを備える、
    推定方法。
  7. 請求項1から請求項3の何れかの学習装置、または、請求項4の推定装置としてコンピュータを機能させるためのプログラム。
JP2021543909A 2019-09-06 2019-09-06 学習装置、推定装置、それらの方法、およびプログラム Active JP7279800B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/035105 WO2021044606A1 (ja) 2019-09-06 2019-09-06 学習装置、推定装置、それらの方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021044606A1 JPWO2021044606A1 (ja) 2021-03-11
JP7279800B2 true JP7279800B2 (ja) 2023-05-23

Family

ID=74853094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021543909A Active JP7279800B2 (ja) 2019-09-06 2019-09-06 学習装置、推定装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220335927A1 (ja)
JP (1) JP7279800B2 (ja)
WO (1) WO2021044606A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114429766A (zh) * 2022-01-29 2022-05-03 北京百度网讯科技有限公司 调整播放音量的方法、装置、设备以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016186516A (ja) 2015-03-27 2016-10-27 日本電信電話株式会社 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016186516A (ja) 2015-03-27 2016-10-27 日本電信電話株式会社 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム

Also Published As

Publication number Publication date
US20220335927A1 (en) 2022-10-20
WO2021044606A1 (ja) 2021-03-11
JPWO2021044606A1 (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
US11900947B2 (en) Method and system for automatically diarising a sound recording
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
WO2018192186A1 (zh) 语音识别方法及装置
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP7332024B2 (ja) 認識装置、学習装置、それらの方法、およびプログラム
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP2018004947A (ja) テキスト補正装置、テキスト補正方法、およびプログラム
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
US20160300565A1 (en) Audio recording triage system
US20210398552A1 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
CN112837688B (zh) 语音转写方法、装置、相关系统及设备
JP7111017B2 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
JP2018132678A (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP7093081B2 (ja) 学習装置、推定装置、推定方法、およびプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230424

R150 Certificate of patent or registration of utility model

Ref document number: 7279800

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150