JP7141641B2 - Paralinguistic information estimation device, learning device, method thereof, and program - Google Patents

Paralinguistic information estimation device, learning device, method thereof, and program Download PDF

Info

Publication number
JP7141641B2
JP7141641B2 JP2019149021A JP2019149021A JP7141641B2 JP 7141641 B2 JP7141641 B2 JP 7141641B2 JP 2019149021 A JP2019149021 A JP 2019149021A JP 2019149021 A JP2019149021 A JP 2019149021A JP 7141641 B2 JP7141641 B2 JP 7141641B2
Authority
JP
Japan
Prior art keywords
model
speech
factor
estimating
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019149021A
Other languages
Japanese (ja)
Other versions
JP2021032920A (en
Inventor
厚志 安藤
歩相名 神山
哲 小橋川
智基 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokai National Higher Education and Research System NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019149021A priority Critical patent/JP7141641B2/en
Publication of JP2021032920A publication Critical patent/JP2021032920A/en
Application granted granted Critical
Publication of JP7141641B2 publication Critical patent/JP7141641B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

特許法第30条第2項適用 (1)ウェブサイトの掲載日 2019年2月19日 ウェブサイトのアドレス 一般社団法人日本音響学会 2019年春季研究発表会サイト http://www.asj.gr.jp/annualmeeting/index.html (2)開催日 2019年3月5日~3月7日(公知日:2019年3月6日) 集会名 一般社団法人日本音響学会 2019年春季研究発表会 開催場所 国立大学法人電気通信大学Application of Article 30, Paragraph 2 of the Patent Law (1) Date of posting on the website February 19, 2019 Website address Website of the 2019 Spring Research Presentation Meeting of the Acoustical Society of Japan http://www. asj. gr. jp/annualmeeting/index. html (2) Date March 5th to March 7th, 2019 (Publication date: March 6th, 2019) Assembly name The Acoustical Society of Japan 2019 Spring Research Presentation Venue The University of Electro-Communications

本発明は、音声からパラ言語情報を推定する技術に関する。 The present invention relates to technology for estimating paralinguistic information from speech.

発話された音声からパラ言語情報を推定する技術が知られている。パラ言語情報とは、発話者が聞き手に与える言語情報のうち、言語以外の周辺情報を意味する。例えば、発話者の喜び・悲しみ・怒り・平静などの感情、発話者の態度(丁寧、高圧的など)、発話者の意図(肯定的、否定的など)といった情報がパラ言語情報である。 Techniques for estimating paralinguistic information from uttered speech are known. Paralinguistic information means peripheral information other than the language among the linguistic information given to the listener by the speaker. For example, paralinguistic information includes the speaker's emotions such as joy, sadness, anger, and calmness, the speaker's attitude (polite, high-handed, etc.), and the speaker's intention (positive, negative, etc.).

例えば、非特許文献1には、表現学習に基づくパラ言語情報推定技術が開示されている。表現学習とは、データを表現する因子を自動抽出し、抽出した因子に基づいて推定問題を解く手法を指す。例えば、表現学習に基づくパラ言語情報の推定では、音声(音声データ)から音声を表現する複数の因子を抽出し、これらの因子を入力としてパラ言語情報を推定する。音声(音声データ)を表現する因子は、当該音声の各特徴を表す要素である。因子の例は、話した言葉の要素(音韻性)、話し手の要素(話者性)、話し方の要素(発話様式)、背景雑音の特性、残響の特性などである。 For example, Non-Patent Document 1 discloses a paralinguistic information estimation technique based on expression learning. Representation learning refers to a method of automatically extracting factors representing data and solving estimation problems based on the extracted factors. For example, in estimating paralinguistic information based on expression learning, a plurality of factors expressing speech are extracted from speech (speech data), and these factors are used as inputs to estimate paralinguistic information. A factor expressing speech (speech data) is an element expressing each feature of the speech. Examples of factors are elements of the spoken word (phonological), elements of the speaker (speakerness), elements of speaking style (speech style), characteristics of background noise, characteristics of reverberation, and the like.

表現学習では半教師あり学習が可能であり、教師ラベル付きデータは少ないが教師ラベル無しデータが大量にある場合において高精度なモデルを得ることができる。従来の半教師あり学習を用いた表現学習では、因子を抽出するための因子抽出モデルを大量の教師ラベル無しデータで学習し、その後に、因子から元データを再構成する再構成モデルを少量の教師ラベル付きデータで学習する。従来の因子抽出モデルの学習は、因子抽出モデルが抽出した因子からデータの再構成ができるかどうかを基準として行われるため、教師ラベル無しデータを学習に利用できる。また、再構成モデルは、データの再構成誤差を最小化する基準で学習するため、少量の教師ラベルからでも高精度な再構成モデルを得ることができる。パラ言語情報に関する音声を収集することは容易であり、非常に多くの教師ラベル無しデータを収集できる。一方、パラ言語情報の教師ラベル作成には複数人の聴取者が必要であり、少数の教師ラベル付きデータが少量しか得られないことが多い。そのため、表現学習はパラ言語情報推定に適した技術であるといえる。 Semi-supervised learning is possible in representation learning, and highly accurate models can be obtained when there is a small amount of supervised labeled data but a large amount of unsupervised unlabeled data. In representation learning using conventional semi-supervised learning, a factor extraction model for extracting factors is trained with a large amount of unsupervised unlabeled data, and then a reconstruction model that reconstructs the original data from the factors is trained with a small amount of data. Train with supervised labeled data. Since the learning of the conventional factor extraction model is based on whether or not data can be reconstructed from the factors extracted by the factor extraction model, unsupervised label data can be used for learning. In addition, since the reconstruction model learns on the basis of minimizing the data reconstruction error, it is possible to obtain a highly accurate reconstruction model even from a small amount of teacher labels. Collecting speech for paralinguistic information is easy, and a large amount of unsupervised unlabeled data can be collected. On the other hand, creating supervised labels for paralinguistic information requires multiple listeners, and often yields only a small amount of supervised labeled data. Therefore, it can be said that expression learning is a technique suitable for paralinguistic information estimation.

S. E. Eskimez, Z. Duan and W. Heinzelman, “Unsupervised Learning Approach to Feature Analysis for Automatic Speech Emotion Recognition,” in Proc. of ICASSP, 2018, pp. 5099 - 5103.S. E. Eskimez, Z. Duan and W. Heinzelman, “Unsupervised Learning Approach to Feature Analysis for Automatic Speech Emotion Recognition,” in Proc. of ICASSP, 2018, pp. 5099 - 5103.

しかしながら、従来の因子抽出モデルで抽出される因子系列は、パラ言語情報の推定に不要な因子を含んでいるおそれがある。例えば、話した言葉が同一であっても怒っているか喜んでいるかによって発話様式が異なることがある。従って、パラ言語情報として感情を推定する場合、発話様式の要素の必要性は高いが、音韻性の要素の必要性は低い可能性がある。しかし従来方法では、音声から抽出した全因子を用いてパラ言語情報を推定するため、本来、パラ言語情報の推定に不要な因子も用いてパラ言語推定が行われている可能性が高い。推定に不要な情報は雑音として働くことが多いため、従来方法ではパラ言語情報の推定精度が低下するおそれがある。 However, the factor series extracted by the conventional factor extraction model may contain unnecessary factors for estimating paralinguistic information. For example, even if the spoken words are the same, the utterance style may differ depending on whether the person is angry or happy. Therefore, when estimating emotions as paralinguistic information, there is a possibility that the elements of utterance patterns are highly necessary, but the elements of phonology are less necessary. However, in the conventional method, paralinguistic information is estimated using all the factors extracted from the speech, so there is a high possibility that the paralinguistic estimation is performed using factors that are essentially unnecessary for estimating the paralinguistic information. Since unnecessary information for estimation often works as noise, there is a risk that the accuracy of estimating paralinguistic information will decrease in the conventional method.

本発明は、このような点に鑑みてなされたものであり、表現学習に基づくパラ言語情報推定においてパラ言語情報の推定精度を向上させることを目的とする。 SUMMARY OF THE INVENTION The present invention has been made in view of these points, and an object of the present invention is to improve the accuracy of paralinguistic information estimation in paralinguistic information estimation based on expression learning.

上記の課題を解決するため、音声の音響特徴量を入力とし、音声を表す因子のうち音声のパラ言語情報の推定に必要な因子を抽出し、抽出された因子を入力として音声のパラ言語情報を推定して出力する。 In order to solve the above problems, we take the acoustic features of speech as an input, extract the factors necessary for estimating the paralinguistic information of the speech from among the factors representing the speech, and use the extracted factors as input to estimate the paralinguistic information of the speech. is estimated and output.

本発明では、パラ言語情報の推定に必要な因子を用いてパラ言語情報を推定するため、パラ言語情報の推定精度を向上できる。 In the present invention, since the paralinguistic information is estimated using factors necessary for estimating the paralinguistic information, the estimation accuracy of the paralinguistic information can be improved.

図1は、第1実施形態の学習装置の機能構成を例示したブロック図である。FIG. 1 is a block diagram illustrating the functional configuration of the learning device of the first embodiment. 図2は、第1,2実施形態のパラ言語情報推定装置の機能構成を例示したブロック図である。FIG. 2 is a block diagram illustrating the functional configuration of the paralinguistic information estimation device of the first and second embodiments. 図3は、第1実施形態の因子抽出モデル学習部の処理を説明するための概念図である。FIG. 3 is a conceptual diagram for explaining the processing of the factor extraction model learning unit of the first embodiment. 図4は、第2実施形態の学習装置の機能構成を例示したブロック図である。FIG. 4 is a block diagram illustrating the functional configuration of the learning device of the second embodiment. 図5は、第2実施形態の因子抽出モデル学習部の処理を説明するための概念図である。FIG. 5 is a conceptual diagram for explaining the processing of the factor extraction model learning unit of the second embodiment.

以下、本発明の実施形態を説明する。
[原理]
原理を説明する。各実施形態の表現学習に基づくパラ言語情報推定では、音声の音響特徴量から当該音声を表す因子のうち当該音声のパラ言語情報の推定に必要な因子を抽出し、抽出された因子から当該音声のパラ言語情報を推定して出力する。これにより、パラ言語情報の推定に不要な因子が取り除かれ、好ましくはパラ言語情報の推定に必要な因子のみを用いてパラ言語情報が推定されるため、パラ言語情報の推定精度が向上する。
Embodiments of the present invention will be described below.
[principle]
Explain the principle. In the paralinguistic information estimation based on expression learning of each embodiment, the factors necessary for estimating the paralinguistic information of the speech are extracted from the acoustic features of the speech, from among the factors representing the speech. Estimate and output the paralinguistic information of As a result, the factors unnecessary for estimating the paralinguistic information are removed, and preferably only the factors required for estimating the paralinguistic information are used to estimate the paralinguistic information, thereby improving the estimation accuracy of the paralinguistic information.

ここで、音声のパラ言語情報の推定に必要な因子の抽出には、音声の音響特徴量を入力とし、音声を表す因子のうち音声のパラ言語情報の推定に必要な因子を抽出して出力する因子抽出モデルを用いる。パラ言語情報の推定には、単数または複数の因子を入力とし、音声のパラ言語情報を推定して出力するパラ言語情報推定モデルが用いられる。これらの因子抽出モデルおよびパラ言語情報推定モデルは機械学習によって得られる。ポイントは、音声を表す因子のうち、表現学習に基づくパラ言語情報推定において不要であると考えられる、音韻性や話者性、背景雑音の特性、残響の特性などの要素を除去する因子抽出モデルを学習することである。 Here, to extract the factors necessary for estimating the paralinguistic information of the speech, the acoustic features of the speech are input, and the factors necessary for estimating the paralinguistic information of the speech are extracted and output from the factors representing the speech. Use a factor extraction model that A paralinguistic information estimation model is used for estimating paralinguistic information, which inputs one or more factors and estimates and outputs the paralinguistic information of speech. These factor extraction models and paralinguistic information estimation models are obtained by machine learning. The point is a factor extraction model that removes elements such as phonology, speaker characteristics, background noise characteristics, and reverberation characteristics that are considered unnecessary for paralinguistic information estimation based on expression learning among the factors representing speech. is to learn

しかし、非特許文献1のような従来技術によって、音響特徴量から音声を表す因子系列を抽出する場合、抽出された因子系列は単一の因子ベクトルとして表現されており、また、この因子ベクトルのどの次元の値がどの因子の値に該当するか(例えば、因子ベクトルの何次元目の要素が音韻性を表す因子を表しているか)を判断することはできない。そのため、従来技術によって抽出された因子系列から、単純にパラ言語情報の推定に必要な因子または不要な因子を選択することはできない。 However, when a factor sequence representing speech is extracted from acoustic features by a conventional technique such as Non-Patent Document 1, the extracted factor sequence is expressed as a single factor vector. It is not possible to determine which dimension value corresponds to which factor value (for example, which dimension element of the factor vector represents the phonological factor). Therefore, it is not possible to simply select necessary or unnecessary factors for estimating paralinguistic information from the factor series extracted by the conventional technique.

これに対し、各実施形態では、因子抽出モデルで抽出された因子系列から特定の因子を推定することが不可能になった場合、因子抽出モデルで抽出される因子系列から当該特定の因子が完全に除去されたとみなすことができると仮定する。例えば、因子抽出モデルで推定された因子系列から音韻性を推定することができなくなった場合、因子抽出モデルで推定された因子系列から音韻性が除去されたとみなすことができると仮定する。このような仮定の下、各実施形態では、因子抽出モデルで抽出された因子系列からパラ言語情報の推定に不要な特定の要素(以下「除去要素」)の推定が困難となるように(好ましくは、除去要素の推定ができなくなるように)因子抽出モデルを学習する。すなわち、実施形態の因子抽出モデル学習部は、学習用音声の音響特徴量と、学習用音声を表す因子のうち学習用音声のパラ言語情報の推定に不要な単数の因子である除去要素の正解ラベルまたは学習用音声を表す因子のうち学習用音声のパラ言語情報の推定に不要な複数の因子である複数の除去要素の正解ラベルと、を入力とし、(1)音声の音響特徴量を入力とし、音声を表す因子のうち音声のパラ言語情報の推定に必要な因子を抽出して出力する因子抽出モデルと、(2)因子抽出モデルから出力された因子と除去要素の正解ラベルとを入力とし、音声の音響特徴量を再構成する再構成モデルと、(3)因子抽出モデルから出力された因子を入力とし、音声を表す因子のうち音声のパラ言語情報の推定に不要な単数の因子である除去要素を推定する除去要素推定モデルまたは音声を表す因子のうち音声のパラ言語情報の推定に不要な複数の因子である複数の除去要素を推定する除去要素推定モデルと、を学習する。その際、因子抽出モデル学習部は、学習用音声の音響特徴量が因子抽出モデルに入力された際に除去要素推定モデルで推定される除去要素と正解ラベルとの間の誤差が大きくなるように因子抽出モデルを学習する。好ましくは、因子抽出モデル学習部は、学習用音声の音響特徴量が因子抽出モデルに入力された際に除去要素推定モデルで推定される除去要素と正解ラベルとの間の誤差を最大化するように因子抽出モデルを学習する。当該誤差が大きいということは因子抽出モデルで抽出される因子から除去要素の推定が困難ということであり、当該誤差を最大化することは因子抽出モデルで抽出される因子から除去要素の推定が最も困難(例えば、不可能)ということである。そのため、このような学習によって得られた因子抽出モデルは、音声を表す因子のうち音声のパラ言語情報の推定に必要な因子を抽出するものと推定される。 On the other hand, in each embodiment, when it becomes impossible to estimate a specific factor from the factor series extracted by the factor extraction model, the specific factor is completely extracted from the factor series extracted by the factor extraction model. can be considered to have been removed by For example, when it becomes impossible to estimate the phonology from the factor sequence estimated by the factor extraction model, it is assumed that the phonology can be considered to be removed from the factor sequence estimated by the factor extraction model. Under this assumption, in each embodiment, it is difficult to estimate a specific element (hereinafter "removed element") unnecessary for estimating paralinguistic information from the factor series extracted by the factor extraction model (preferably learns a factor extraction model so that the estimation of the removed component is not possible). That is, the factor extraction model learning unit of the embodiment corrects the acoustic feature amount of the training speech and the removal element, which is a single factor unnecessary for estimating the paralinguistic information of the training speech among the factors representing the training speech. (1) Acoustic features of speech are input. and input the factor extraction model that extracts and outputs the factors necessary for estimating the paralinguistic information of speech from among the factors representing speech, and (2) the correct labels of the factors and removed elements output from the factor extraction model. , a reconstruction model that reconstructs the acoustic features of speech, and (3) a single factor that is unnecessary for estimating paralinguistic information among the factors that represent speech, with the factors output from the factor extraction model as input. or a removal factor estimation model for estimating a plurality of factors that are unnecessary for estimating paralinguistic information of speech among factors representing speech. At that time, the factor extraction model learning unit increases the error between the removed element estimated by the removed element estimation model and the correct label when the acoustic feature amount of the training speech is input to the factor extraction model. Train a factor extraction model. Preferably, the factor extraction model learning unit maximizes the error between the removed element estimated by the removed element estimation model and the correct label when the acoustic feature amount of the training speech is input to the factor extraction model. to learn a factor extraction model. A large error means that it is difficult to estimate the removed elements from the factors extracted by the factor extraction model. Difficult (e.g., impossible). Therefore, the factor extraction model obtained by such learning is presumed to extract the factors necessary for estimating the paralinguistic information of speech from among the factors representing speech.

このように得られた因子抽出モデルに音声の音響特徴量を入力することで、当該音声を表す因子のうち当該音声のパラ言語情報の推定に必要な因子が抽出され、抽出された音声のパラ言語情報の推定に必要な因子をパラ言語情報推定モデルに入力することで、当該音声のパラ言語情報が推定される。 By inputting the acoustic features of the speech into the factor extraction model obtained in this way, the factors necessary for estimating the paralinguistic information of the speech are extracted from among the factors representing the speech. The paralinguistic information of the speech is estimated by inputting the factors necessary for estimating the linguistic information into the paralinguistic information estimation model.

[第1実施形態]
次に第1実施形態を説明する。本実施形態では、音声を表す因子のうちパラ言語情報の推定に不要な因子(除去要素)が単数である場合を例示する。
<構成>
図1に例示するように、本実施形態の学習装置11は、音響特徴抽出部111-1,111-2、因子抽出モデル学習部112、因子抽出モデル記憶部113、因子抽出部114、パラ言語情報推定モデル学習部115、およびパラ言語情報推定モデル記憶部116を有する。図2に例示するように、本実施形態のパラ言語情報推定装置12は、音響特徴抽出部121、因子抽出モデル記憶部123、因子抽出部124、パラ言語情報推定部125、およびパラ言語情報推定モデル記憶部126を有する。
[First embodiment]
Next, a first embodiment will be described. In the present embodiment, a single factor (removal element) unnecessary for estimating paralinguistic information among the factors representing speech is exemplified.
<Configuration>
As illustrated in FIG. 1, the learning device 11 of this embodiment includes acoustic feature extraction units 111-1 and 111-2, a factor extraction model learning unit 112, a factor extraction model storage unit 113, a factor extraction unit 114, a para language It has an information estimation model learning unit 115 and a paralinguistic information estimation model storage unit 116 . As illustrated in FIG. 2, the paralinguistic information estimation device 12 of this embodiment includes an acoustic feature extraction unit 121, a factor extraction model storage unit 123, a factor extraction unit 124, a paralinguistic information estimation unit 125, and a paralinguistic information estimation unit. It has a model storage unit 126 .

<学習処理>
次に、図1および図3を用い、本実施形態の学習処理を説明する。
≪学習データ≫
学習処理の前提として、学習用音声Vt1、除去要素の正解ラベルLAta、学習用音声Vt2、およびパラ言語情報の正解ラベルLAtpが準備される。学習用音声Vt1は発話された音声の時系列データであり、前述の因子抽出モデルMを学習するための教師ラベルなしデータである。除去要素の正解ラベルLAtaは、学習用音声Vt1を表す因子FAt1のうち学習用音声Vt1のパラ言語情報の推定に不要な単数の因子である除去要素の正解ラベルである。除去要素の例は、音韻性、話者性、背景雑音の特性、残響の特性などである。除去要素が音韻性の場合、例えば、学習用音声Vt1の各発話に対応する音素列を表す情報が正解ラベルLAtaである。除去要素が話者性の場合、例えば、学習用音声Vt1の各発話に対応する話者IDやインデックス、事前学習されたモデルを用いて推定された話者情報の連続表現(例えば、i-vector(参考文献1)など)が正解ラベルLAtaである。除去要素が背景雑音の特性の場合、例えば、学習用音声Vt1の背景雑音の種類の正解を表す背景雑音IDやインデックス(例えば、雑音なしなら0、車内雑音なら1、雑踏なら2、それ以外なら3など)が正解ラベルLAtaである。除去要素が残響の特性の場合、例えば、残響時間(RT60)の正解値(例えば、残響時間が500ms未満の短い残響なら0、500ms以上1000ms未満の一般的な残響なら1、1000ms以上の長い残響なら2など)が正解ラベルLAtaである。学習用音声Vt2は発話された音声の時系列データであり、パラ言語情報の正解ラベルLAtpは学習用音声Vt2の各発話のパラ言語情報を表す正解ラベルである。学習用音声Vt2は学習用音声Vt1と同一であってもよいし、学習用音声Vt1と相違していてもよい。
参考文献1:N. Dehak, P. J. Kenny, R. Dehak, P. Dumouchel, P. Ouellet, “Front-End Factor Analysis for Speaker Verification,” in IEEE Trans. on Audio, Speech, and Language Processing, vol. 19, no. 4, pp. 788 - 798, 2011.
<Learning processing>
Next, the learning process of this embodiment will be described with reference to FIGS. 1 and 3. FIG.
≪Learning data≫
As a premise of the learning process, a learning voice V t1 , a correct label LA ta of a removal element, a learning voice V t2 , and a correct label LA tp of paralinguistic information are prepared. The training speech Vt1 is time-series data of uttered speech, and is unsupervised label data for learning the factor extraction model Mf described above. The correct label LA ta of the removed element is the correct label of the removed element, which is a single factor unnecessary for estimating the paralinguistic information of the training speech V t1 among the factors FA t1 representing the training speech V t1 . Examples of removal factors are phonology, speaker characteristics, background noise characteristics, reverberation characteristics, and the like. When the element to be removed is phonological, for example, information representing the phoneme string corresponding to each utterance of the learning speech V t1 is the correct label LA ta . When the removal element is speaker characteristics, for example, a speaker ID or index corresponding to each utterance of the training speech V t1 , a continuous representation of speaker information estimated using a pre-trained model (for example, i- vector (reference document 1, etc.) is the correct label LA ta . If the element to be removed is the background noise characteristic, for example, the background noise ID or index representing the correct answer for the type of background noise of the learning speech Vt1 (for example, 0 for no noise, 1 for noise in the car, 2 for crowds, other If 3, etc.) is the correct label LA ta . If the removal element is the characteristic of reverberation, for example, the correct value of the reverberation time (RT60) (for example, 0 for short reverberation with a reverberation time of less than 500 ms, 1 for general reverberation with a reverberation time of 500 ms or more and less than 1000 ms, long reverberation of 1000 ms or more If 2, etc.) is the correct label LA ta . The training speech V t2 is time-series data of uttered speech, and the correct label LA tp of the paralinguistic information is the correct label representing the paralinguistic information of each utterance of the training speech V t2 . The learning voice V t2 may be the same as the learning voice V t1 or may be different from the learning voice V t1 .
Reference 1: N. Dehak, PJ Kenny, R. Dehak, P. Dumouchel, P. Ouellet, “Front-End Factor Analysis for Speaker Verification,” in IEEE Trans. on Audio, Speech, and Language Processing, vol. 19 , no. 4, pp. 788-798, 2011.

≪音響特徴抽出部111-1の処理≫
音響特徴抽出部111-1は、学習用音声Vt1を入力とし、学習用音声Vt1の音響特徴量の系列(例えば、時系列)である音響特徴ベクトル系列Ft1を抽出して出力する(ステップS111-1)。音響特徴ベクトル系列Ft1を構成する要素に限定はないが、例えば、音響特徴ベクトル系列Ft1は、音声を短時間ごとに分析して得られるMFCC(Mel-frequency Cepstral Coefficients)、対数メルフィルタバンク出力、基本周波数、短時間パワー、のいずれか一つ以上の音響特徴量を要素に含むベクトルの系列である。例えば、音響特徴ベクトル系列Ft1は除去要素の正解ラベルLAtaと同じ系列長を持つ。
<<Processing of Acoustic Feature Extraction Unit 111-1>>
Acoustic feature extraction unit 111-1 receives training speech V t1 as input, extracts and outputs acoustic feature vector sequence F t1 , which is a sequence (for example, time series) of acoustic features of learning speech V t1 ( Step S111-1). The elements that make up the acoustic feature vector sequence F t1 are not limited . It is a sequence of vectors whose elements include one or more acoustic features of output, fundamental frequency, and short-time power. For example, the acoustic feature vector sequence F t1 has the same sequence length as the correct label LA ta of the removed element.

≪因子抽出モデル学習部112の処理≫
本実施形態では深層学習に基づく枠組みを利用した処理を例示する。しかし、これは本発明を限定するものではない。因子抽出モデル学習部112は、入力された音声を表す全因子のうち当該音声のパラ言語情報の推定に不要と思われる特定の除去要素(例えば、音韻性、話者性、背景雑音の特性、または残響の特性の何れか)を1個除去した残りの因子(低次元ベクトル)を出力する因子抽出モデルMを学習する(ステップS112)。
<<Processing of Factor Extraction Model Learning Unit 112>>
In this embodiment, processing using a framework based on deep learning is exemplified. However, this is not a limitation of the invention. The factor extraction model learning unit 112 selects specific removal elements (for example, phonological characteristics, speaker characteristics, background noise characteristics, or one of the reverberation characteristics) is removed, and the factor extraction model Mf is learned to output the remaining factors (low-dimensional vectors) (step S112).

図3に例示するように、因子抽出モデル学習部112は、学習用音声Vt1の音響特徴ベクトル系列Ft1(音響特徴量)と、学習用音声Vt1を表す因子のうち学習用音声Vt1のパラ言語情報の推定に不要な単数の因子である除去要素の正解ラベルLAtaとを入力とし、(1)音声の音響特徴ベクトル系列(音響特徴量)を入力とし、音声を表す因子のうち音声のパラ言語情報の推定に必要な因子FAt1を抽出して出力する因子抽出モデルMと、(2)因子抽出モデルMから出力された因子FAt1と除去要素の正解ラベルとを入力とし、音声の音響特徴ベクトル系列(音響特徴量)を再構成する再構成モデルMと、(3)因子抽出モデルMから出力された因子FAt1を入力とし、音声を表す因子のうち音声のパラ言語情報の推定に不要な単数の因子である除去要素LAを推定する除去要素推定モデルMとを同時に学習する。例えば、因子抽出モデル学習部112は、学習用音声Vt1の音響特徴ベクトル系列Ft1(音響特徴量)が因子抽出モデルMに入力された際に因子抽出モデルMから出力される因子FAt1と除去要素の正解ラベルLAtaとが再構成モデルMに入力された際に再構成モデルMで再構成される音響特徴ベクトル系列(音響特徴量)と音響特徴ベクトル系列Ft1との誤差に対応する再構成モデルMの損失関数値Lと、学習用音声Vt1の音響特徴ベクトル系列Ft1が因子抽出モデルMに入力された際に因子抽出モデルMから出力される因子FAt1が除去要素推定モデルMに入力された際に除去要素推定モデルMで推定される除去要素LAと除去要素の正解ラベルLAtaとの誤差に対応する除去要素推定モデルMの損失関数値Lと、の重み付き和を全体の損失関数値Lとして、因子抽出モデルM、再構成モデルM、および除去要素推定モデルMを学習する。 As illustrated in FIG. 3, the factor extraction model learning unit 112 acquires the acoustic feature vector sequence F t1 (acoustic feature amount) of the learning voice V t1 and the learning voice V t1 among the factors representing the learning voice V t1 . (1) Acoustic feature vector sequence (acoustic feature quantity) of speech is input, and among the factors representing speech, Input the factor extraction model M f that extracts and outputs the factor FA t1 necessary for estimating the paralinguistic information of speech, and (2) the factor FA t1 output from the factor extraction model M f and the correct label of the removed element. A reconstruction model Mr for reconstructing an acoustic feature vector sequence (acoustic feature amount) of speech and a factor FA t1 output from (3) a factor extraction model Mf are input, and speech A removed element estimation model M a for estimating a removed element LA a , which is a single factor unnecessary for estimating the paralinguistic information, is learned at the same time. For example, the factor extraction model learning unit 112 uses the factor FA When t1 and the correct label LA ta of the removed element are input to the reconstruction model Mr , the acoustic feature vector sequence (acoustic feature quantity) reconstructed by the reconstruction model Mr and the acoustic feature vector sequence Ft1 Output from the factor extraction model M f when the loss function value L r of the reconstruction model M r corresponding to the error and the acoustic feature vector sequence F t1 of the learning speech V t1 are input to the factor extraction model M f The removed element estimation model M a corresponding to the error between the removed element LA a estimated by the removed element estimation model M a when the factor FA t1 is input to the removed element estimation model M a and the correct label LA ta of the removed element and the weighted sum of the total loss function value L, the factor extraction model M f , the reconstruction model M r , and the removed element estimation model M a are learned.

これらのモデルの学習には、例えば誤差逆伝搬法が用いられる。すなわち、因子抽出モデル学習部112は、音響特徴ベクトル系列Ft1を因子抽出モデルMおよび再構成モデルMの二つに順伝搬し、除去要素の正解ラベルLAtaを再構成モデルMに順伝搬して得られた再構成後の音響特徴ベクトル系列と音響特徴ベクトル系列Ft1との誤差に対応する値を再構成の損失関数値Lとし、音響特徴ベクトル系列Ft1を因子抽出モデルMおよび除去要素推定モデルMの二つに順伝搬し、除去要素の正解ラベルLAtaを除去要素推定モデルMに順伝搬して得られた除去要素LAと除去要素の正解ラベルLAtaとの誤差に対応する値を除去要素の損失関数値Lとし、これらの二つの損失関数値L,Lの重み付け和を全体の損失関数値Lとして3つのモデルの学習を行う。なお、除去要素の正解ラベルLAtaを再構成モデルMに順伝搬させるのは、理想的には因子抽出モデルMから出力される因子FAt1は除去要素を含まず、因子FAt1のみから音響特徴ベクトル系列を再構成することはできないからである。 For learning these models, for example, the error backpropagation method is used. That is, the factor extraction model learning unit 112 forward propagates the acoustic feature vector sequence Ft1 to the factor extraction model Mf and the reconstruction model Mr , and transfers the correct label LA ta of the removed element to the reconstruction model Mr. A value corresponding to the error between the reconstructed acoustic feature vector sequence obtained by forward propagation and the acoustic feature vector sequence Ft1 is set as the reconstruction loss function value Lr, and the acoustic feature vector sequence Ft1 is the factor extraction model. The removed element LA a and the correct label LA of the removed element obtained by forward propagation to Mf and the removed element estimation model M a , and forward propagating the correct label LA ta of the removed element to the removed element estimation model M a The value corresponding to the error from ta is set as the loss function value L a of the removed element, and the weighted sum of these two loss function values L r and L a is set as the overall loss function value L, and three models are learned. The correct label LA ta of the removed element is forward propagated to the reconstructed model M r because, ideally, the factor FA t1 output from the factor extraction model M f does not include the removed element, and only the factor FA t1 This is because the acoustic feature vector sequence cannot be reconstructed.

再構成モデルMで再構成される音響特徴ベクトル系列と音響特徴ベクトル系列Ft1との間の誤差の例は、これらの二乗誤差である。損失関数値Lの例は、再構成モデルMで再構成される音響特徴ベクトル系列と音響特徴ベクトル系列Ft1との二乗誤差である。除去要素推定モデルMで推定される除去要素LAと除去要素の正解ラベルLAtaとの間の誤差の例は、これらの交差エントロピーである。損失関数値Lの例は、除去要素推定モデルMで推定される除去要素LAと除去要素の正解ラベルLAtaとの交差エントロピーである。全体の損失関数値Lの例は、以下のように表される。
L=(1-α)L+αL (1)
ただし、αは損失重みであり、0≦α≦1を満たす定数である。
Examples of errors between the acoustic feature vector sequence reconstructed by the reconstruction model M r and the acoustic feature vector sequence F t1 are these squared errors. An example of the loss function value Lr is the squared error between the acoustic feature vector sequence reconstructed by the reconstruction model Mr and the acoustic feature vector sequence Ft1 . An example of the error between the removed element LA a estimated by the removed element estimation model M a and the correct label LA ta of the removed element is these cross-entropies. An example of the loss function value L a is the cross entropy between the removed element LA a estimated by the removed element estimation model M a and the correct label LA ta of the removed element. An example of the overall loss function value L is expressed as follows.
L=(1−α)L r +αL a (1)
where α is a loss weight and is a constant that satisfies 0≦α≦1.

ただし、因子抽出モデル学習部112は、学習用音声Vt1の音響特徴ベクトル系列Ft1(音響特徴量)が因子抽出モデルMに入力された際に除去要素推定モデルMで推定される除去要素LAと正解ラベルLAtaとの間の誤差(例えば、除去要素推定モデルMで推定される除去要素LAと正解ラベルLAtaとの交差エントロピー)が大きくなるように因子抽出モデルMを学習する。例えば、誤差逆伝搬法で学習が行われる場合、因子抽出モデルMと除去要素推定モデルMとの間に勾配反転層(Gradient Reversal Layer: GRL)が配置される。勾配反転層は、順伝搬の際には恒等変換をおこなう。すなわち、勾配反転層は、順伝搬された入力値をそのまま出力値として出力する。つまり、勾配反転層は、順伝搬時には何も行わない。しかし、勾配反転層は、誤差逆伝搬法での逆伝搬の際に入力値の勾配を反転させる。すなわち、勾配反転層は、入力された誤差に対応する偏微分値に負定数を乗じた値を出力する。つまり、誤差逆伝搬法での除去要素推定モデルMから因子抽出モデルMへの逆伝搬の際に、除去要素推定モデルMから出力される除去要素LAと正解ラベルLAtaとの間の誤差に対応する偏微分値(誤差の更新対象の重みやバイアスでの偏微分値)が除去要素推定モデルMから勾配反転層に逆伝搬され、この勾配反転層がこの偏微分値に負定数を乗じた値を因子抽出モデルMへ逆伝搬する。勾配反転層の詳細は、例えば、参考文献2に記載されている。この勾配反転層の働きにより、因子抽出モデルMで抽出された因子から除去要素の推定が困難になるように学習される(好ましくは、当該因子から除去要素の推定が出来なくなるように学習される)ため、3つのモデルの学習が進むことで、再構成モデルMによる音響特徴ベクトル系列の再構成は正しくできるが、除去要素推定モデルMによる除去要素の推定が困難となるような因子を抽出する因子抽出モデルMを得ることができる。すなわち、因子抽出モデル学習部112は、パラ言語情報推定に不要となる除去要素を取り除いた因子を抽出できる因子抽出モデルMを学習できる。
参考文献2:Yaroslav Ganin, Victor Lempitsky, “Unsupervised Domain Adaptation by Backpropagation,” Skolkovo Institute of Science and Technology (Skoltech), Moscow Region, Russia
However, the factor extraction model learning unit 112 performs the removal estimated by the removed element estimation model M a when the acoustic feature vector sequence F t1 (acoustic feature quantity) of the learning speech V t1 is input to the factor extraction model M f . The factor extraction model M f is used so that the error between the element LA a and the correct label LA ta (for example, the cross entropy between the removed element LA a estimated by the removed element estimation model M a and the correct label LA ta ) becomes large. to learn. For example, when learning is performed by the error backpropagation method, a gradient reversal layer (GRL) is arranged between the factor extraction model Mf and the removed element estimation model Ma. The gradient inversion layer performs identity transformation during forward propagation. That is, the gradient inversion layer directly outputs the forward propagated input value as the output value. That is, the gradient inversion layer does nothing during forward propagation. However, the gradient inversion layer inverts the gradient of the input value during backpropagation in the error backpropagation method. That is, the gradient inversion layer outputs a value obtained by multiplying the partial differential value corresponding to the input error by a negative constant. That is, during back propagation from the removed element estimation model M a to the factor extraction model M f in the error back propagation method, between the removed element LA a output from the removed element estimation model M a and the correct label LA ta The partial differential value corresponding to the error (the partial differential value at the weight or bias to be updated of the error) is back-propagated from the removed element estimation model Ma to the gradient inversion layer, and the gradient inversion layer negatively affects this partial differential value. The value multiplied by the constant is propagated back to the factor extraction model Mf . Details of gradient reversal layers are described, for example, in Reference 2. By the function of this gradient inversion layer, learning is performed so that it becomes difficult to estimate the removed element from the factor extracted by the factor extraction model Mf (preferably, the learning is performed so that the removed element cannot be estimated from the factor). Therefore, as the learning of the three models progresses, the acoustic feature vector sequence can be correctly reconstructed by the reconstruction model M r , but the factors that make it difficult to estimate the removed elements by the removed element estimation model M a A factor extraction model M f can be obtained that extracts That is, the factor extraction model learning unit 112 can learn the factor extraction model Mf capable of extracting factors from which removed elements unnecessary for paralinguistic information estimation are removed.
Reference 2: Yaroslav Ganin, Victor Lempitsky, “Unsupervised Domain Adaptation by Backpropagation,” Skolkovo Institute of Science and Technology (Skoltech), Moscow Region, Russia

因子抽出モデル学習部112による学習は、所定の終了条件を満たすまで繰り返される。例えば、因子抽出モデル学習部112は、入力されたエポック数(音響特徴ベクトル系列Fおよび正解ラベルLAtaの全てが学習に利用された回数)が一定値(例えば100回)に到達した場合、学習が完了したとみなして、その時点の因子抽出モデルMを出力する。因子抽出モデルMは因子抽出モデル記憶部113に格納される(ステップS113)。再構成モデルMおよび除去要素推定モデルMは以降の処理で利用されない。 Learning by the factor extraction model learning unit 112 is repeated until a predetermined end condition is satisfied. For example, when the input epoch number (the number of times the acoustic feature vector sequence F t and the correct label LA ta are all used for learning) reaches a certain value (for example, 100 times), Assuming that the learning is completed, the factor extraction model Mf at that time is output. The factor extraction model Mf is stored in the factor extraction model storage unit 113 (step S113). The reconstructed model M r and the removed element estimation model M a are not used in subsequent processing.

≪音響特徴抽出部111-2の処理≫
音響特徴抽出部111-2は、学習用音声Vt2を入力とし、学習用音声Vt2の音響特徴量の系列(例えば、時系列)である音響特徴ベクトル系列Ft2を抽出して出力する(ステップS111-2)。音響特徴抽出部111-2が学習用音声Vt2から音響特徴ベクトル系列Ft2を抽出するための演算の種別は、音響特徴抽出部111-1が学習用音声Vt1から音響特徴ベクトル系列Ft1を抽出するための演算の種別と同一である。すなわち、音響特徴ベクトル系列Ft2を構成する要素である音響特徴量の種別は、音響特徴ベクトル系列Ft1を構成する要素である音響特徴量の種別と同一である。例えば、音響特徴ベクトル系列Ft2は除去要素の正解ラベルLAtaと同じ系列長を持つ。音響特徴ベクトル系列Ft2および音響特徴ベクトル系列Ft1の長さは、互いに同一であってもよいし、同一でなくてもよい。
<<Processing of Acoustic Feature Extraction Unit 111-2>>
Acoustic feature extraction unit 111-2 receives training speech V t2 as input, extracts and outputs acoustic feature vector sequence F t2 , which is a sequence (for example, time series) of acoustic feature amounts of learning speech V t2 ( step S111-2). The type of computation for the acoustic feature extraction unit 111-2 to extract the acoustic feature vector sequence F t2 from the training speech V t2 is as follows . is the same as the type of operation for extracting In other words, the type of acoustic feature quantity that is the element that configures the acoustic feature vector sequence Ft2 is the same as the type of the acoustic feature quantity that is the element that configures the acoustic feature vector sequence Ft1 . For example, the acoustic feature vector sequence F t2 has the same sequence length as the correct label LA ta of the removed element. The acoustic feature vector sequence F t2 and the acoustic feature vector sequence F t1 may or may not have the same length.

≪因子抽出部114の処理≫
因子抽出部114には、音響特徴抽出部111-2から出力された音響特徴ベクトル系列Ft2と、因子抽出モデル記憶部113から読み出された因子抽出モデルMとが入力される。因子抽出部114は、音響特徴ベクトル系列Ft2を因子抽出モデルMに入力し、学習用音声Vt2を表す因子のうち学習用音声Vt2のパラ言語情報の推定に必要な因子系列(複数の因子の系列、例えば、各時点での因子を要素とする因子ベクトルの時系列)FAt2を抽出して出力する(ステップS114)。例えば、因子系列FAt2は、音響特徴ベクトル系列Ft2およびパラ言語情報の正解ラベルLAtpと同じ長さを持つ。
<<Processing of Factor Extraction Unit 114>>
The acoustic feature vector sequence Ft2 output from the acoustic feature extraction unit 111-2 and the factor extraction model Mf read from the factor extraction model storage unit 113 are input to the factor extraction unit 114. FIG. The factor extraction unit 114 inputs the acoustic feature vector sequence F t2 to the factor extraction model M f , and selects the factor sequence (a plurality of (for example, the time series of factor vectors whose elements are the factors at each point in time) FA t2 is extracted and output (step S114). For example, the factor sequence FA t2 has the same length as the acoustic feature vector sequence F t2 and the correct label LA tp of the paralinguistic information.

≪パラ言語情報推定モデル学習部115の処理≫
パラ言語情報推定モデル学習部115には、パラ言語情報の正解ラベルLAtpと、因子抽出部114から出力された因子系列FAt2とが入力される。パラ言語情報推定モデル学習部115は、各発話に対応する因子系列FAt2とパラ言語情報の正解ラベルLAtpとの組を用いてパラ言語情報推定モデルMを学習する(ステップS115)。パラ言語情報推定モデルMは、多クラス分類問題を扱うことができるモデルである。パラ言語情報推定モデルMの例は深層学習に基づくモデルである。しかし、これは本発明を限定するものではなく、パラ言語情報推定モデルMが多クラスロジスティック回帰などの別の多クラス分類モデルであってもよい。パラ言語情報推定モデルMが深層学習に基づくモデルを用いる場合、例えば再帰型ニューラルネットワークに基づくモデルに因子系列FAt2を入力し、当該モデルの最終出力とパラ言語情報の正解ラベルLAtpとの交差エントロピーを損失関数として誤差逆伝搬法によりモデル学習を行う。しかし、これは本発明を限定するものではない。パラ言語情報推定モデル学習部115は、学習によって得られたパラ言語情報推定モデルMを出力し、パラ言語情報推定モデル記憶部116に格納する(ステップS116)。
<<Processing of Paralinguistic Information Estimation Model Learning Unit 115>>
The correct label LA tp of the paralinguistic information and the factor sequence FA t2 output from the factor extracting unit 114 are input to the paralinguistic information estimation model learning unit 115 . The paralinguistic information estimation model learning unit 115 learns the paralinguistic information estimation model M p using a set of the factor sequence FA t2 corresponding to each utterance and the correct label LA tp of the paralinguistic information (step S115). The paralinguistic information estimation model Mp is a model that can handle multi-class classification problems. An example of the paralinguistic information estimation model M p is a model based on deep learning. However, this is not a limitation of the invention and the paralinguistic information estimation model M p may be another multi-class classification model such as multi-class logistic regression. When the paralinguistic information estimation model M p uses a model based on deep learning, for example, a factor sequence FA t2 is input to a model based on a recurrent neural network, and the final output of the model and the correct label LA tp of the paralinguistic information Model learning is performed by the error backpropagation method with the cross-entropy as the loss function. However, this is not a limitation of the invention. The paralinguistic information estimation model learning unit 115 outputs the paralinguistic information estimation model Mp obtained by learning, and stores it in the paralinguistic information estimation model storage unit 116 (step S116).

<パラ言語情報推定処理>
図2を用いて、本実施形態のパラ言語情報推定処理を説明する。
前処理として、学習装置11の因子抽出モデル記憶部113に格納された因子抽出モデルMがパラ言語情報推定装置12の因子抽出モデル記憶部123に格納され、パラ言語情報推定モデル記憶部116に格納されたパラ言語情報推定モデルMがパラ言語情報推定モデル記憶部126に格納される。
<Paralinguistic information estimation processing>
Paralinguistic information estimation processing according to this embodiment will be described with reference to FIG.
As preprocessing, the factor extraction model M f stored in the factor extraction model storage unit 113 of the learning device 11 is stored in the factor extraction model storage unit 123 of the paralinguistic information estimation device 12, and is stored in the paralinguistic information estimation model storage unit 116. The stored paralinguistic information estimation model M p is stored in the paralinguistic information estimation model storage unit 126 .

≪音響特徴抽出部121の処理≫
音響特徴抽出部121は、パラ言語情報の推定対象である音声Vinを入力とし、音声Vinの音響特徴量の系列(例えば、時系列)である音響特徴ベクトル系列Finを抽出して出力する(ステップS121)。音声Vinは発話された音声の時系列データである。また、音響特徴抽出部121が音声Vinから音響特徴ベクトル系列Finを抽出するための演算の種別は、音響特徴抽出部111-2が学習用音声Vt2から音響特徴ベクトル系列Ft2を抽出するための演算の種別と同一である。すなわち、音響特徴ベクトル系列Finを構成する要素である音響特徴量の種別は、音響特徴ベクトル系列Ft2を構成する要素である音響特徴量の種別と同一である。
<<Processing of Acoustic Feature Extraction Unit 121>>
Acoustic feature extraction unit 121 receives as input speech Vin , which is an object for estimating paralinguistic information, and extracts and outputs acoustic feature vector series Fin , which is a series (for example, time series) of acoustic features of speech Vin. (step S121). Voice Vin is time-series data of uttered voice. Further, the type of computation for the acoustic feature extraction unit 121 to extract the acoustic feature vector sequence F in from the voice V in is as follows: the acoustic feature extraction unit 111-2 extracts the acoustic feature vector sequence F t2 from the learning voice V t2 ; It is the same as the type of operation for That is, the type of the acoustic feature quantity that is the element forming the acoustic feature vector sequence F in is the same as the type of the acoustic feature quantity that is the element forming the acoustic feature vector sequence F t2 .

≪因子抽出部124の処理≫
因子抽出部124には、音響特徴抽出部121から出力された音響特徴ベクトル系列Finと、因子抽出モデル記憶部123から読み出された因子抽出モデルMとが入力される。因子抽出部124は、音響特徴ベクトル系列Finを因子抽出モデルMに入力し、学習用音声Vinを表す因子のうち音声Vinのパラ言語情報の推定に必要な因子系列FAinを抽出して出力する(ステップS124)。
<<Processing of factor extraction unit 124>>
The acoustic feature vector series F in output from the acoustic feature extraction unit 121 and the factor extraction model M f read from the factor extraction model storage unit 123 are input to the factor extraction unit 124 . The factor extraction unit 124 inputs the acoustic feature vector sequence F in to the factor extraction model M f , and extracts the factor sequence FA in necessary for estimating the paralinguistic information of the speech Vin from among the factors representing the training speech Vin. and output (step S124).

≪パラ言語情報推定部125の処理≫
パラ言語情報推定部125には、因子抽出部124から出力された因子系列FAinと、パラ言語情報推定モデル記憶部126から読み出されたパラ言語情報推定モデルMとが入力される。パラ言語情報推定部125は、因子系列FAinをパラ言語情報推定モデルMに入力し、音声Vinのパラ言語情報を推定してパラ言語情報推定結果Pとして出力する(ステップS125)。本実施形態のパラ言語情報推定モデルMは深層学習に基づくモデルであるため、パラ言語情報推定部125は、因子系列FAinをパラ言語情報推定モデルMに入力し、順伝搬させることで音声Vinのパラ言語情報推定結果Pを得て出力する。パラ言語情報推定モデルMの出力が各パラ言語情報クラスの確率として得られる場合、パラ言語情報推定部125は、例えば、パラ言語情報推定モデルMの出力が最大となるパラ言語情報クラスをパラ言語情報推定結果Pとして出力する。しかし、これは本発明を限定するものではなく、例えば、パラ言語情報推定部125がパラ言語情報推定モデルMから出力された各パラ言語情報クラスの確率を出力してもよい。
<<Processing of Paralinguistic Information Estimating Unit 125>>
Paralinguistic information estimation unit 125 receives factor sequence FA in output from factor extraction unit 124 and paralinguistic information estimation model M p read from paralinguistic information estimation model storage unit 126 . The paralinguistic information estimation unit 125 inputs the factor sequence FA in to the paralinguistic information estimation model M p , estimates the paralinguistic information of the speech Vin, and outputs it as a paralinguistic information estimation result P (step S125). Since the paralinguistic information estimation model M p of the present embodiment is a model based on deep learning, the paralinguistic information estimation unit 125 inputs the factor sequence FA in to the paralinguistic information estimation model M p and propagates it forward. A paralinguistic information estimation result P of the voice Vin is obtained and output. When the output of the paralinguistic information estimation model M p is obtained as the probability of each paralinguistic information class, the paralinguistic information estimation unit 125 selects, for example, the paralinguistic information class that maximizes the output of the paralinguistic information estimation model M p . Output as a paralinguistic information estimation result P. However, this does not limit the present invention. For example, the paralinguistic information estimation unit 125 may output the probability of each paralinguistic information class output from the paralinguistic information estimation model Mp .

[第2実施形態]
次に第2実施形態を説明する。本実施形態では、音声を表す因子のうちパラ言語情報の推定に不要な因子(除去要素)が複数である場合を例示する。なお、以下ではこれまで説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を用いて説明を簡略化する。
[Second embodiment]
Next, a second embodiment will be described. This embodiment exemplifies a case where there are a plurality of factors (removal elements) that are unnecessary for estimating paralinguistic information among factors representing speech. Note that the following description will focus on differences from the items that have been described so far, and the same reference numbers will be used for the items that have already been described to simplify the description.

<構成>
図4に例示するように、本実施形態の学習装置21は、音響特徴抽出部111-1,111-2、因子抽出モデル学習部212、因子抽出モデル記憶部113、因子抽出部114、パラ言語情報推定モデル学習部115、およびパラ言語情報推定モデル記憶部116を有する。本実施形態のパラ言語情報推定装置12は第1実施形態のものと同一である。
<Configuration>
As illustrated in FIG. 4, the learning device 21 of this embodiment includes acoustic feature extraction units 111-1 and 111-2, a factor extraction model learning unit 212, a factor extraction model storage unit 113, a factor extraction unit 114, a para language It has an information estimation model learning unit 115 and a paralinguistic information estimation model storage unit 116 . The paralinguistic information estimation device 12 of this embodiment is the same as that of the first embodiment.

<学習処理>
次に、図4および図5を用い、本実施形態の学習処理を説明する。
≪学習データ≫
本実施形態では、学習処理の前提として、学習用音声Vt1、複数の除去要素の正解ラベルLAta,1,…,LAta,N、学習用音声Vt2、およびパラ言語情報の正解ラベルLAtpが準備される。ただし、Nは2以上の整数であり、除去要素の個数を表す。また、n=1,…,Nとする。各除去要素の正解ラベルLAta,nは、それぞれ、学習用音声Vt1を表す因子FAt1のうち学習用音声Vt1のパラ言語情報の推定に不要な単数の因子である除去要素の正解ラベルである。除去要素の具体例は第1実施形態で例示した通りである。本実施形態では、例えば、音韻性、話者性、背景雑音の特性、残響の特性のうち2個以上の因子を除去要素とする。LAta,1,…,LAta,Nは少なくとも互いに相違する除去要素の正解ラベルを含む。例えば、LAta,1,…,LAta,Nはそれぞれ互いに相違する。
<Learning processing>
Next, the learning process of this embodiment will be described with reference to FIGS. 4 and 5. FIG.
≪Learning data≫
In this embodiment, as a premise of the learning process, the learning speech V t1 , the correct labels LA ta ,1 , . tp is prepared. However, N is an integer of 2 or more and represents the number of elements to be removed. Also, let n=1, . . . , N. The correct label LA ta,n of each removed element is the correct label of the removed element, which is a single factor unnecessary for estimating the paralinguistic information of the training speech V t1 among the factors FA t1 representing the training speech V t1 . is. Specific examples of removal elements are as illustrated in the first embodiment. In the present embodiment, for example, two or more factors out of phonological characteristics, speaker characteristics, background noise characteristics, and reverberation characteristics are used as removal factors. LA ta ,1 , . For example, LA ta,1 , . . . , LA ta,N are different from each other.

≪因子抽出モデル学習部212の処理≫
音響特徴抽出部111-1の処理、音響特徴抽出部111-2の処理、因子抽出部114の処理、パラ言語情報推定モデル学習部115の処理は第1実施形態で説明した通りである。以下では第1実施形態との相違点である因子抽出モデル学習部212の処理のみを説明する。
<<Processing of Factor Extraction Model Learning Unit 212>>
The processing of the acoustic feature extraction unit 111-1, the processing of the acoustic feature extraction unit 111-2, the processing of the factor extraction unit 114, and the processing of the paralinguistic information estimation model learning unit 115 are as described in the first embodiment. Only the processing of the factor extraction model learning unit 212, which is different from the first embodiment, will be described below.

本実施形態でも深層学習に基づく枠組みを利用した処理を例示する。しかし、これは本発明を限定するものではない。因子抽出モデル学習部212は、入力された音声を表す全因子のうち当該音声のパラ言語情報の推定に不要と思われる特定の除去要素(例えば、音韻性、話者性、背景雑音の特性、または残響の特性の何れか)を複数個除去した残りの因子を出力する因子抽出モデルMを学習する(ステップS212)。 This embodiment also exemplifies processing using a framework based on deep learning. However, this is not a limitation of the invention. The factor extraction model learning unit 212 selects specific removal elements (for example, phonological characteristics, speaker characteristics, background noise characteristics, or reverberation characteristics) is learned (step S212 ).

図5に例示するように、因子抽出モデル学習部212は、学習用音声Vt1の音響特徴ベクトル系列Ft1(音響特徴量)と、学習用音声Vt1を表す因子のうち学習用音声Vt1のパラ言語情報の推定に不要な複数の因子である複数の除去要素の正解ラベルLAta,1,…,LAta,Nとを入力とし、(1)因子抽出モデルMと、(2)再構成モデルMと、(3)複数の除去要素推定モデルMa,1,…,Ma,Nを学習する。ただし、各除去要素推定モデルMa,n(ただし、n=1,…,N)は、因子抽出モデルMから出力された因子FAt1を入力とし、音声を表す因子のうち音声のパラ言語情報の推定に不要な単数の因子である除去要素LAa,nを推定するモデルである。例えば、因子抽出モデル学習部112は、学習用音声Vt1の音響特徴ベクトル系列Ft1(音響特徴量)が因子抽出モデルMに入力された際に因子抽出モデルMから出力される因子FAt1と除去要素の正解ラベルLAta,1,…,LAta,Nとが再構成モデルMに入力された際に再構成モデルMで再構成される音響特徴ベクトル系列(音響特徴量)と音響特徴ベクトル系列Ft1との誤差に対応する再構成モデルMの損失関数値Lと、学習用音声Vt1の音響特徴ベクトル系列Ft1が因子抽出モデルMに入力された際に因子抽出モデルMから出力される因子FAt1が除去要素推定モデルMa,nに入力された際に除去要素推定モデルMa,nで推定される除去要素LAa,nと除去要素の正解ラベルLAta,nとの誤差に対応する除去要素推定モデルMa,nの損失関数値La,nと、の重み付き和を全体の損失関数値Lとして、因子抽出モデルM、再構成モデルM、および除去要素推定モデルMa,1,…,Ma,Nを学習する。 As illustrated in FIG. 5, the factor extraction model learning unit 212 acquires the acoustic feature vector sequence F t1 (acoustic feature amount) of the learning voice V t1 and the learning voice V t1 among the factors representing the learning voice V t1 . , LA ta ,N of a plurality of removed elements, which are a plurality of factors unnecessary for estimating paralinguistic information, are input, and (1) a factor extraction model M f and (2) The reconstruction model M r and (3) a plurality of removal element estimation models M a,1 , . . . , M a,N are learned. However, each removed element estimation model M a,n ( where n=1, . It is a model for estimating the removal factor LA a,n , which is a single factor unnecessary for estimating information. For example, the factor extraction model learning unit 112 uses the factor FA Acoustic feature vector sequences (acoustic features) reconstructed by the reconstruction model Mr when t1 and the correct labels LA ta ,1 , . and the acoustic feature vector sequence Ft1 . When the factor FA t1 output from the factor extraction model Mf is input to the removal element estimation model M a ,n , the removal element LA a,n estimated by the removal element estimation model M a,n and the correct answer of the removal element Using the weighted sum of the loss function value L a,n of the removed element estimation model M a,n corresponding to the error with the label LA ta,n as the overall loss function value L, the factor extraction model M f is reconstructed. , M a ,N are learned.

第1実施形態と同様、これらのモデルの学習には、例えば誤差逆伝搬法が用いられる。すなわち、因子抽出モデル学習部212は、音響特徴ベクトル系列Ft1を因子抽出モデルMおよび再構成モデルMの二つに順伝搬し、除去要素の正解ラベルLAtaを再構成モデルMに順伝搬して得られた再構成後の音響特徴ベクトル系列と音響特徴ベクトル系列Ft1との誤差に対応する値を再構成の損失関数値Lとし、音響特徴ベクトル系列Ft1を因子抽出モデルMおよび各除去要素推定モデルMa,nに順伝搬し、各除去要素の正解ラベルLAta,nを除去要素推定モデルMa,nに順伝搬して得られた各除去要素LAa,nと各除去要素の正解ラベルLAta,nとの誤差に対応する値を各除去要素の損失関数値La,nとし、これらの損失関数値L,La,1,…,La,Nの重み付け和を全体の損失関数値Lとして因子抽出モデルMと再構成モデルMと除去要素推定モデルMa,1,…,Ma,Nの学習を行う。 As in the first embodiment, for example, error backpropagation is used for learning these models. That is, the factor extraction model learning unit 212 forward propagates the acoustic feature vector sequence Ft1 to the factor extraction model Mf and the reconstruction model Mr , and transfers the correct label LA ta of the removed element to the reconstruction model Mr. A value corresponding to the error between the reconstructed acoustic feature vector sequence obtained by forward propagation and the acoustic feature vector sequence Ft1 is set as the reconstruction loss function value Lr, and the acoustic feature vector sequence Ft1 is the factor extraction model. Each removal element LA a, obtained by forward propagation to Mf and each removal element estimation model M a,n , and forward propagation of the correct label LA ta,n of each removal element to the removal element estimation model M a,n A value corresponding to the error between n and the correct label LA ta,n of each elimination element is defined as the loss function value L a,n of each elimination element, and these loss function values L r , L a, 1 , . . . , L a , N is the overall loss function value L, and the factor extraction model M f , the reconstruction model M r , and the removed element estimation model M a,1 , . . . , M a,N are learned.

各除去要素推定モデルMa,nで推定される各除去要素LAa,nと各除去要素の正解ラベルLAta,nとの間の誤差の例は、これらの交差エントロピーである。各損失関数値La,nの例は、各除去要素推定モデルMa,nで推定される各除去要素LAa,nと各除去要素の正解ラベルLAta,nとの交差エントロピーである。全体の損失関数値Lの例は、以下のように表される。

Figure 0007141641000001
ただし、αは損失重みであり、0≦α≦1を満たす定数である。βはn番目の除去要素LAa,nの除去要素重みであり、0≦β≦1および
Figure 0007141641000002
を満たす定数である。cは正定数であり、例えばc=1である。すなわち、因子抽出モデル学習部212は、例えば、再構成モデルMの損失関数値Lと、各除去要素LAa,nに対応する除去要素重みβと各除去要素LAa,nに対応する除去要素モデルの損失関数値La,nの積βa,nと、の重み付き和を全体の損失関数値La,nとして、因子抽出モデルMと、再構成モデルMと、複数の除去要素LAa,1,…,LAa,Nを推定する除去要素推定モデルMa,1,…,Ma,Nとを学習する。 An example of the error between each removed element LA a,n estimated by each removed element estimation model M a,n and the correct label LA ta,n of each removed element is these cross-entropies. An example of each loss function value L a,n is the cross entropy between each removal element LA a,n estimated by each removal element estimation model M a,n and the correct label LA ta,n of each removal element. An example of the overall loss function value L is expressed as follows.
Figure 0007141641000001
where α is a loss weight and is a constant that satisfies 0≦α≦1. β n is the removal factor weight of the nth removal factor LA a,n , 0≦β n ≦1 and
Figure 0007141641000002
is a constant that satisfies c is a positive constant, for example c=1. That is, the factor extraction model learning unit 212, for example, the loss function value L r of the reconstruction model Mr , the removal element weight β n corresponding to each removal element LA a , n , and the removal element LA a, n The weighted sum of the product β n L a,n of the loss function values L a,n of the removed element models is set as the overall loss function value L a,n , and the factor extraction model M f and the reconstruction model M r , and a removal element estimation model M a,1 , . . . , M a, N that estimates a plurality of removal elements LA a,1 , .

全ての除去要素重みβ,…,βを同じ値としてもよいが(例えば、β=…=β=1)、除去要素重みβの大きさを調整することにより、特定の除去要素を強く取り除く因子抽出モデルMを学習することもできる。すなわち、本実施形態で得られる因子抽出モデルMは、除去要素重みβが大きな損失関数値La,nに対応する除去要素ほど強く取り除いた因子系列を抽出する。 Although all removal factor weights β 1 , . . . , β N may have the same value ( eg, β 1 = . It is also possible to learn a factor extraction model Mf that strongly removes elements. That is, the factor extraction model M f obtained in the present embodiment extracts a factor series in which the removed element corresponding to the loss function value L a,n with the larger removed element weight β n is removed more strongly.

また、音声の音響特徴ベクトル系列(音響特徴量)から推定が困難な除去要素に対応する除去要素重みβほど値を大きくしてもよい。すなわち、複数の除去要素は、第1除去要素と、第1除去要素よりも音響特徴ベクトル系列から推定が容易な第2除去要素とを含み、第1除去要素に対応する除去要素重みの値は第2除去要素に対応する除去要素重みの値よりも大きくてもよい。これにより、音響特徴ベクトル系列から推定が困難で取り除きにくい除去要素を十分に取り除くことができる。除去要素の推定の容易性および困難性の基準を例示する。
基準1:クラスが少ない除去要素ほど推定が容易であり、クラスが多い除去要素ほど推定が困難である。すなわち、第1除去要素がCL1種類のクラスの何れかであり、第2除去要素がCL2種類のクラスの何れかであり、CL1>CL2である場合、第2除去要素の推定は第1除去要素の推定よりも容易である。
基準2:話者性の除去要素の推定は、音韻性の除去要素の推定よりも容易である。
基準3:実験的に除去要素の推定の容易性および困難性を定めてもよい。例えば、各n=1,…,Nについて、学習用音声Vt1、除去要素の正解ラベルLAta,n、学習用音声Vt2、およびパラ言語情報の正解ラベルLAtpを用い、LAta=LAta,nとして第1実施形態の学習装置11の音響特徴抽出部111-1および因子抽出モデル学習部112の処理を行い、(1)式の損失関数Lを求める。ここで、損失関数Lが小さいほど除去要素の推定が適切になされており、除去要素の推定が容易であると判断する。すなわち、第1除去要素に対応する損失関数がLn1(n1∈{1,…,N})であり、第2除去要素に対応する損失関数がLn2(n2∈{1,…,N},n1≠n2)であり、Ln1>Ln2である場合、第2除去要素の推定は第1除去要素の推定よりも容易である。
Also, the removal element weight βn corresponding to a removal element that is difficult to estimate from the acoustic feature vector sequence (acoustic feature amount) of the speech may be increased. That is, the plurality of removal elements includes a first removal element and a second removal element that is easier to estimate from the acoustic feature vector sequence than the first removal element, and the removal element weight value corresponding to the first removal element is It may be greater than the value of the removal factor weight corresponding to the second removal factor. This makes it possible to sufficiently remove removal elements that are difficult to estimate and remove from the acoustic feature vector sequence. The ease and difficulty criteria for estimating removal factors are illustrated.
Criterion 1: A removed element with fewer classes is easier to estimate, and a removed element with more classes is more difficult to estimate. That is, if the first removal factor is one of the CL1 classes, the second removal factor is one of the CL2 classes, and CL1>CL2, the estimation of the second removal factor is the first removal factor is easier than estimating
Criterion 2: Estimation of speaker-related elimination factors is easier than estimation of phonological elimination factors.
Criterion 3: The ease and difficulty of estimating removal factors may be determined experimentally. For each n =1, . . . , N , for each n = 1 , . As ta and n , the processing of the acoustic feature extraction unit 111-1 and the factor extraction model learning unit 112 of the learning device 11 of the first embodiment is performed to obtain the loss function L of equation (1). Here, it is judged that the smaller the loss function L is, the more appropriately the removal factor is estimated and the easier the estimation of the removal factor is. That is, the loss function corresponding to the first removal element is L n1 (n1 ∈ {1, ..., N}), and the loss function corresponding to the second removal element is L n2 (n2 ∈ {1, ..., N} , n1≠n2) and L n1 >L n2 , the estimation of the second removal factor is easier than the estimation of the first removal factor.

第1実施形態の因子抽出モデル学習部112と同様、因子抽出モデル学習部212は、学習用音声Vt1の音響特徴ベクトル系列Ft1(音響特徴量)が因子抽出モデルMに入力された際に除去要素推定モデルMa,nで推定される除去要素LAa,nと正解ラベルLAta,nとの間の誤差がそれぞれ大きくなるように因子抽出モデルMを学習する。すなわち、因子抽出モデルMで抽出された因子系列から各除去要素推定モデルMa,nが除去要素を推定することが困難となるように、因子抽出モデルMを学習する。例えば、誤差逆伝搬法で学習が行われる場合、第1実施形態で説明したように、因子抽出モデルMと除去要素推定モデルMa,nとの間に勾配反転層GRLがそれぞれ配置される。各勾配反転層GRLは第1実施形態で説明したものと同じである。 Similar to the factor extraction model learning unit 112 of the first embodiment, the factor extraction model learning unit 212 performs First, the factor extraction model Mf is learned so that the error between the removed element LA a,n estimated by the removed element estimation model M a, n and the correct label LA ta,n becomes large. That is, the factor extraction model Mf is learned so that it becomes difficult for each removal element estimation model M a,n to estimate the removal element from the factor series extracted by the factor extraction model Mf . For example, when learning is performed by the error backpropagation method, the gradient reversal layer GRL n is arranged between the factor extraction model M f and the removed element estimation model M a,n as described in the first embodiment. be. Each gradient reversal layer GRL n is the same as described in the first embodiment.

因子抽出モデル学習部212は、因子抽出モデルMおよび再構成モデルMとともに、N個の除去要素推定モデルMa,1,…,Ma,Nを同時にまとめて学習してもよいし、除去要素推定モデルMa,1,…,Ma,Nを段階的に学習してよい。すなわち、一度に複数の除去要素を取り除く除去要素推定モデルの学習を行うことが困難である可能性があるため、段階的に各除去要素を取り除く除去要素推定モデルを学習していってもよい。これによって各除去要素をうまく取り除くことができる因子抽出モデルMを学習でき、パラ言語情報推定精度が向上する可能性がある。この場合、例えば、Mを2以上の整数とし、m=1,…,Mとし、N個の除去要素推定モデルMa,1,…,Ma,Nを要素とする集合{Ma,1,…,Ma,N}の部分集合をSubset∈{Ma,1,…,Ma,N}とし、Subset⊂Subset⊂…⊂Subset={Ma,1,…,Ma,N}とする。因子抽出モデル学習部212は、まず、因子抽出モデルMおよび再構成モデルMとともにSubsetに属する除去要素推定モデルの学習を行い、次に因子抽出モデルMおよび再構成モデルMとともにSubsetに属する除去要素推定モデルの学習を行い・・・というように段階的に学習を行っていき、最後に因子抽出モデルMおよび再構成モデルMとともにSubsetに属する除去要素推定モデルMa,1,…,Ma,Nの学習を行う。因子抽出モデル学習部212がSubset={Ma,g(m,1),…,Ma,g(m,h(m))}に属する除去要素推定モデルMa,g(m,1),…,Ma,g(m,h(m))の学習を行うときは、これらに対応する損失関数値La,g(m,1),…,La,g(m,h(m))の除去要素重みβg(m,1),…,βg(m,h(m))の値を0よりも大きな値とし、その他の除去要素重みβを0として学習を行う。ここで、gおよびhは関数であり、g(m,1),…,g(m,h(m))は関数値であり、{g(m,1),…,g(m,h(m))}∈{1,…,N}を満たし、h(m)は1≦h(m)≦Nを満たす整数の関数値である。Subset,…,Subsetの選択の仕方、すなわち、除去要素推定モデルの学習順序に限定はないが、除去要素推定モデルMa,1,…,Ma,Nのうち、推定が容易な除去要素を推定する除去要素推定モデルから順番に学習を行うことが望ましい。例えば、Subsetνに属する何れかの除去要素推定モデルが行う除去要素の推定が、Subsetν+1で新たに学習対象に加わった除去要素推定モデルが行う除去要素の推定よりも容易であることが望ましい。これによって各除去要素をうまく取り除くことができる因子抽出モデルMを学習でき、パラ言語情報推定精度が向上する。なお、除去要素の推定の容易性および困難性の基準としては、例えば、前述の基準1~3を用いることができる。 The factor extraction model learning unit 212 may simultaneously learn the N removal element estimation models M a,1 , . The removed element estimation models M a,1 , . . . , M a,N may be learned step by step. That is, since it may be difficult to learn a removal element estimation model that removes a plurality of removal elements at once, the removal element estimation model that removes each removal element may be learned step by step. As a result, it is possible to learn a factor extraction model Mf that can successfully remove each removed element, and possibly improve the accuracy of estimating paralinguistic information. In this case, for example, M is an integer of 2 or more, m = 1, ..., M, and a set {M a , 1 . _ _ _ _ _ _ _ a, N }. The factor extraction model learning unit 212 first learns a removed element estimation model belonging to Subset 1 together with the factor extraction model Mf and the reconstruction model Mr r , and then learns the subset with the factor extraction model Mf and the reconstruction model Mr The removal element estimation model belonging to Subset M is learned step by step, and finally, the removal element estimation model M a belonging to Subset M together with the factor extraction model M f and the reconstruction model M r. , 1 , . . . , M a,N are learned. The factor extraction model learning unit 212 determines the removal element estimation model M a, g ( m ,1 ) , . _ (m)) , the values of the removal element weights β g(m, 1) , . conduct. where g and h are functions, g(m, 1), ..., g(m, h(m)) are function values, and {g(m, 1), ..., g(m, h (m))}ε{1,...,N}, and h(m) is an integer function value satisfying 1≤h(m)≤N. , Subset M , that is, the learning order of the removed element estimation models is not limited. It is desirable to learn sequentially from the removed element estimation model that estimates the elements. For example, it is desirable that the removal factor estimation performed by any removal element estimation model belonging to Subset ν is easier than the removal factor estimation performed by the removal element estimation model newly added to the learning target in Subset ν+1 . As a result, a factor extraction model Mf capable of successfully removing each removed element can be learned, and the accuracy of estimating paralinguistic information is improved. As the criteria for the easiness and difficulty of estimating the elements to be removed, for example, criteria 1 to 3 described above can be used.

因子抽出モデル学習部212による学習は、所定の終了条件を満たすまで繰り返される。例えば、因子抽出モデル学習部212は、入力されたエポック数(音響特徴ベクトル系列Fおよび正解ラベルLAta,1,…,LAta,Nの全てが学習に利用された回数)が一定値(例えば100回)に到達した場合、学習が完了したとみなして、その時点の因子抽出モデルMを出力する。因子抽出モデルMは因子抽出モデル記憶部113に格納される(ステップS113)。第1実施形態と同様、再構成モデルMおよび除去要素推定モデルMは以降の処理で利用されない。その他は第1実施形態と同じである。 Learning by the factor extraction model learning unit 212 is repeated until a predetermined end condition is satisfied. For example, the factor extraction model learning unit 212 sets the input number of epochs (the number of times all of the acoustic feature vector sequence F t and the correct label LA ta ,1 , . For example, 100 times), the learning is considered to be completed, and the factor extraction model Mf at that time is output. The factor extraction model Mf is stored in the factor extraction model storage unit 113 (step S113). As in the first embodiment, the reconstructed model Mr and the removed element estimation model M a are not used in subsequent processing. Others are the same as the first embodiment.

[各実施形態の特徴]
上述のように、各実施形態では、音声を表す因子のうち音声のパラ言語情報の推定に必要な因子を抽出し、抽出した因子を用いて音声のパラ言語情報を推定するため、パラ言語情報の推定に不要な因子が取り除かれ、従来よりも精度の高いパラ言語情報推定が可能となる。第2実施形態では、音声を表す因子からパラ言語情報の推定に不要な複数の除去要素を取り除いて得られる因子系列を用いて音声のパラ言語情報を推定するため、さらに精度の高いパラ言語情報推定が可能となる。
[Features of each embodiment]
As described above, in each embodiment, the factors necessary for estimating the paralinguistic information of speech are extracted from the factors representing speech, and the extracted factors are used to estimate the paralinguistic information of speech. Unnecessary factors for estimating are removed, making it possible to estimate paralinguistic information with higher accuracy than before. In the second embodiment, the paralinguistic information of speech is estimated using a factor sequence obtained by removing a plurality of removal elements unnecessary for estimating paralinguistic information from the factors representing speech. Estimation becomes possible.

また各実施形態では、因子抽出モデルで抽出された因子系列から特定の因子を推定することが不可能になった場合、因子抽出モデルで抽出される因子系列から当該特定の因子が完全に除去されたとみなすことができると仮定し、因子抽出モデルで抽出された因子系列からパラ言語情報の推定に不要な除去要素の推定が困難となるように因子抽出モデルを学習する。これにより、パラ言語情報の推定に必要な因子を抽出する因子抽出モデルを得ることができる。 Further, in each embodiment, when it becomes impossible to estimate a specific factor from the factor series extracted by the factor extraction model, the specific factor is completely removed from the factor series extracted by the factor extraction model. Then, the factor extraction model is learned so that it becomes difficult to estimate the removed elements unnecessary for estimating the paralinguistic information from the factor series extracted by the factor extraction model. This makes it possible to obtain a factor extraction model for extracting factors necessary for estimating paralinguistic information.

[その他の変形例等]
本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態では、因子抽出モデル、再構成モデル、および除去要素推定モデルとして、深層学習に基づくモデルを例示した。しかしながら、因子抽出モデル、再構成モデル、および除去要素推定モデルとして、その他の推定モデルが用いられてもよい。
[Other modifications, etc.]
The invention is not limited to the embodiments described above. For example, in the above-described embodiments, models based on deep learning were exemplified as the factor extraction model, the reconstruction model, and the removed element estimation model. However, other estimation models may be used as the factor extraction model, the reconstruction model, and the removed element estimation model.

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 The various types of processing described above may not only be executed in chronological order according to the description, but may also be executed in parallel or individually according to the processing capacity of the device that executes the processing or as necessary. In addition, it goes without saying that appropriate modifications are possible without departing from the gist of the present invention.

上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。 Each of the above devices is, for example, a general-purpose or dedicated computer equipped with a processor (hardware processor) such as a CPU (central processing unit) and memories such as RAM (random-access memory) and ROM (read-only memory) is configured by executing a predetermined program. This computer may have a single processor and memory, or may have multiple processors and memories. This program may be installed in the computer, or may be recorded in ROM or the like in advance. Also, some or all of the processing units are configured using an electronic circuit that realizes processing functions without using a program, rather than an electronic circuit that realizes a functional configuration by reading a program like a CPU. may An electronic circuit that constitutes one device may include a plurality of CPUs.

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。 When the above configuration is implemented by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. A program describing the contents of this processing can be recorded in a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such recording media are magnetic recording devices, optical discs, magneto-optical recording media, semiconductor memories, and the like.

このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The distribution of this program is carried out, for example, by selling, assigning, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded. Further, the program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to other computers via the network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。 A computer that executes such a program, for example, first stores the program recorded on a portable recording medium or the program transferred from the server computer once in its own storage device. When executing the process, this computer reads the program stored in its own storage device and executes the process according to the read program. As another form of execution of this program, the computer may directly read the program from a portable recording medium and execute processing according to the program. , may sequentially execute processing according to the received program. A configuration in which the above processing is executed by a so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer and realizes the processing function only by the execution instruction and result acquisition, is also possible. good.

コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。 At least a part of these processing functions may be realized by hardware instead of executing a predetermined program on a computer to realize the processing functions of the present apparatus.

本発明によって推定されるパラ言語情報は、例えば、音声対話における話し相手の感情を考慮した対話制御(相手が怒っていれば話題を変えるなど)や、音声を用いたメンタルヘルス診断(毎日の音声を収録し、悲しみや怒り音声の頻度からメンタルヘルス状況を予測するなど)に応用可能である。 The paralinguistic information estimated by the present invention can be used, for example, for dialogue control that takes into account the emotions of the other party in a spoken dialogue (such as changing the topic if the other party is angry), mental health diagnosis using speech (daily speech, etc.). recording and predicting mental health status from the frequency of sadness and anger voices).

11,21 学習装置
12 パラ言語情報推定装置
11, 21 learning device 12 paralinguistic information estimation device

Claims (11)

音声の音響特徴量を入力とし、前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に必要な因子を抽出して出力する因子抽出部と、
前記因子抽出部で抽出された前記因子を入力とし、前記音声のパラ言語情報を推定して出力するパラ言語情報推定部と、
を有するパラ言語情報推定装置。
a factor extracting unit that receives acoustic features of speech as an input, extracts and outputs factors necessary for estimating paralinguistic information of the speech from among factors that are elements representing each feature of the speech;
a paralinguistic information estimating unit that receives the factor extracted by the factor extracting unit as an input, estimates and outputs the paralinguistic information of the speech;
A paralinguistic information estimation device having
学習用音声の音響特徴量と、前記学習用音声の各特徴を表す要素である因子のうち前記学習用音声のパラ言語情報の推定に不要な単数の因子である除去要素の正解ラベルまたは前記学習用音声の各特徴を表す要素である因子のうち前記学習用音声のパラ言語情報の推定に不要な複数の因子である複数の除去要素の正解ラベルと、を入力とし、
(1)音声の音響特徴量を入力とし、前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に必要な因子を抽出して出力する因子抽出モデルと、(2)前記因子抽出モデルから出力された因子と前記除去要素の正解ラベルとを入力とし、前記音声の音響特徴量を再構成する再構成モデルと、(3)前記因子抽出モデルから出力された因子を入力とし、前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に不要な単数の因子である除去要素を推定する除去要素推定モデルまたは前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に不要な複数の因子である複数の除去要素を推定する除去要素推定モデルと、を学習する因子抽出モデル学習部を有し、
前記因子抽出モデル学習部は、
前記学習用音声の音響特徴量が前記因子抽出モデルに入力された際に前記除去要素推定モデルで推定される除去要素と前記正解ラベルとの間の誤差が大きくなるように前記因子抽出モデルを学習する、学習装置。
Acoustic features of the training speech, and the correct label of the removed element, which is a single factor unnecessary for estimating the paralinguistic information of the training speech among the factors representing each feature of the training speech, or the learning correct labels of a plurality of removed elements that are unnecessary for estimating the paralinguistic information of the training speech among the factors that are elements representing each feature of the training speech, and
(1) a factor extraction model that takes as input acoustic feature values of speech, extracts and outputs factors necessary for estimating paralinguistic information of the speech from factors that are elements representing each feature of the speech; ) a reconstruction model that receives the factors output from the factor extraction model and the correct labels of the removed elements as inputs and reconstructs the acoustic feature of the speech; and (3) the factors output from the factor extraction model. A removed element estimation model for estimating a removed element, which is a single factor unnecessary for estimating the paralinguistic information of the speech, or an element representing each feature of the speech. and a factor extraction model learning unit that learns a removed element estimation model that estimates a plurality of removed elements that are a plurality of factors that are unnecessary for estimating the paralinguistic information of the speech among the factors that are
The factor extraction model learning unit
The factor extraction model is learned so that an error between the removal element estimated by the removal element estimation model and the correct label increases when the acoustic feature amount of the training speech is input to the factor extraction model. A learning device.
請求項2の学習装置であって、
前記因子抽出モデル学習部は、
前記学習用音声の音響特徴量が前記因子抽出モデルに入力された際に前記因子抽出モデルから出力される因子と前記除去要素の正解ラベルとが前記再構成モデルに入力された際に前記再構成モデルで再構成される音響特徴量と前記学習用音声の音響特徴量との誤差に対応する再構成モデルの損失関数値と、前記学習用音声の音響特徴量が前記因子抽出モデルに入力された際に前記因子抽出モデルから出力される因子が前記除去要素推定モデルに入力された際に前記除去要素推定モデルで推定される除去要素と前記除去要素の正解ラベルとの誤差に対応する除去要素推定モデルの損失関数値と、の重み付き和を全体の損失関数値として、前記因子抽出モデル、前記再構成モデル、および前記除去要素推定モデルを学習する、学習装置。
The learning device of claim 2,
The factor extraction model learning unit
The reconstruction when the factors output from the factor extraction model when the acoustic features of the learning speech are input to the factor extraction model and the correct labels of the removed elements are input to the reconstruction model. The loss function value of the reconstruction model corresponding to the error between the acoustic feature quantity reconstructed by the model and the acoustic feature quantity of the training speech and the acoustic feature quantity of the training speech are input to the factor extraction model. removal element estimation corresponding to an error between the removal element estimated by the removal element estimation model and the correct label of the removal element when the factor output from the factor extraction model is input to the removal element estimation model when the factor is input to the removal element estimation model A learning device that learns the factor extraction model, the reconstruction model, and the removed element estimation model using a weighted sum of the loss function value of the model and the total loss function value.
請求項2または3の学習装置であって、
前記因子抽出モデル学習部は、誤差逆伝搬法を用いて前記因子抽出モデルおよび前記除去要素推定モデルを学習し、
前記誤差逆伝搬法での前記除去要素推定モデルから前記因子抽出モデルへの逆伝搬の際に、前記除去要素推定モデルから出力される除去要素と前記正解ラベルとの間の誤差に対応する偏微分値が前記除去要素推定モデルから勾配反転層に逆伝搬され、前記勾配反転層が前記偏微分値に負定数を乗じた値を前記因子抽出モデルへ逆伝搬する、学習装置。
The learning device according to claim 2 or 3,
The factor extraction model learning unit learns the factor extraction model and the removed element estimation model using an error back propagation method,
Partial differentiation corresponding to the error between the removed element output from the removed element estimation model and the correct label when backpropagating from the removed element estimation model to the factor extraction model in the error backpropagation method A learning device, wherein values are back-propagated from the removed element estimation model to a gradient inversion layer, and the gradient inversion layer back-propagates a value obtained by multiplying the partial differential value by a negative constant to the factor extraction model.
請求項2から4の何れかの学習装置であって、
前記因子抽出モデル学習部は、
前記学習用音声の音響特徴量と、前記複数の除去要素の正解ラベルと、を入力とし、前記因子抽出モデルと、前記再構成モデルと、前記複数の除去要素を推定する複数の除去要素推定モデルとを学習し、
前記複数の除去要素を推定する除去要素推定モデルのうち、推定が容易な除去要素を推定する除去要素推定モデルから順番に学習を行う、学習装置。
The learning device according to any one of claims 2 to 4,
The factor extraction model learning unit
The factor extraction model, the reconstruction model, and a plurality of removal element estimation models for estimating the plurality of removal elements, using as inputs the acoustic feature quantity of the training speech and the correct labels of the plurality of removal elements. and learn
A learning device that performs learning in order from a removed element estimation model for estimating a removed element that is easy to estimate among the removed element estimation models for estimating the plurality of removed elements.
請求項2から5の何れかの学習装置であって、
前記因子抽出モデル学習部は、
前記学習用音声の音響特徴量と、前記複数の除去要素の正解ラベルと、を入力とし、
前記再構成モデルの損失関数値と、各前記除去要素に対応する除去要素重みと各前記除去要素に対応する除去要素モデルの損失関数値の積と、の重み付き和を全体の損失関数値として、前記因子抽出モデルと、前記再構成モデルと、前記複数の除去要素を推定する除去要素推定モデルとを学習する、学習装置。
The learning device according to any one of claims 2 to 5,
The factor extraction model learning unit
Inputting the acoustic feature quantity of the training speech and the correct labels of the plurality of removal elements,
A weighted sum of the loss function value of the reconstructed model, the product of the removed element weight corresponding to each removed element and the loss function value of the removed element model corresponding to each removed element, as the overall loss function value , a learning device for learning the factor extraction model, the reconstruction model, and the removed element estimation model for estimating the plurality of removed elements.
請求項6の学習装置であって、
前記複数の除去要素は、第1除去要素と、前記第1除去要素よりも音声の音響特徴量から推定が容易な第2除去要素とを含み、
前記第1除去要素に対応する除去要素重みの値は前記第2除去要素に対応する除去要素重みの値よりも大きい、学習装置。
The learning device of claim 6,
The plurality of removal elements includes a first removal element and a second removal element that is easier to estimate from the acoustic feature amount of speech than the first removal element,
The learning device, wherein a removal factor weight value corresponding to the first removal factor is greater than a removal factor weight value corresponding to the second removal factor.
音声の音響特徴量を入力とし、前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に必要な因子を抽出して出力する因子抽出ステップと、
前記因子抽出ステップで抽出された前記因子を入力とし、前記音声のパラ言語情報を推定して出力するパラ言語情報推定ステップと、
を有するパラ言語情報推定方法。
a factor extraction step of extracting and outputting the factors necessary for estimating the paralinguistic information of the speech from among the factors representing the features of the speech, with the acoustic features of the speech as input;
a paralinguistic information estimating step of estimating and outputting the paralinguistic information of the speech using the factors extracted in the factor extracting step as input;
A method for estimating paralinguistic information.
学習用音声の音響特徴量と、前記学習用音声の各特徴を表す要素である因子のうち前記学習用音声のパラ言語情報の推定に不要な単数の因子である除去要素の正解ラベルまたは前記学習用音声の各特徴を表す要素である因子のうち前記学習用音声のパラ言語情報の推定に不要な複数の因子である複数の除去要素の正解ラベルと、を入力とし、
(1)音声の音響特徴量を入力とし、前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に必要な因子を抽出して出力する因子抽出モデルと、(2)前記因子抽出モデルから出力された因子と前記除去要素の正解ラベルとを入力とし、前記音声の音響特徴量を再構成する再構成モデルと、(3)前記因子抽出モデルから出力された因子を入力とし、前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に不要な単数の因子である除去要素を推定する除去要素推定モデルまたは前記音声の各特徴を表す要素である因子のうち前記音声のパラ言語情報の推定に不要な複数の因子である複数の除去要素を推定する除去要素推定モデルと、を学習する因子抽出モデル学習ステップを有し、
前記因子抽出モデル学習ステップは、
前記学習用音声の音響特徴量が前記因子抽出モデルに入力された際に前記除去要素推定モデルで推定される除去要素と前記正解ラベルとの間の誤差が大きくなるように前記因子抽出モデルを学習するステップを含む、学習方法。
Acoustic features of the training speech, and the correct label of the removed element, which is a single factor unnecessary for estimating the paralinguistic information of the training speech among the factors representing each feature of the training speech, or the learning correct labels of a plurality of removed elements that are unnecessary for estimating the paralinguistic information of the training speech among the factors that are elements representing each feature of the training speech, and
(1) a factor extraction model that takes as input acoustic feature values of speech, extracts and outputs factors necessary for estimating paralinguistic information of the speech from factors that are elements representing each feature of the speech; ) a reconstruction model that receives the factors output from the factor extraction model and the correct labels of the removed elements as inputs and reconstructs the acoustic feature of the speech; and (3) the factors output from the factor extraction model. A removed element estimation model for estimating a removed element, which is a single factor unnecessary for estimating the paralinguistic information of the speech, or an element representing each feature of the speech. and a factor extraction model learning step for learning a removed element estimation model for estimating a plurality of removed elements that are a plurality of factors unnecessary for estimating the paralinguistic information of the speech among the factors that are
The factor extraction model learning step includes:
The factor extraction model is learned so that an error between the removal element estimated by the removal element estimation model and the correct label increases when the acoustic feature amount of the training speech is input to the factor extraction model. A learning method that includes steps to
請求項1のパラ言語情報推定装置としてコンピュータを機能させるためのプログラム。 A program for causing a computer to function as the paralinguistic information estimation device according to claim 1 . 請求項2から7の何れかの学習装置としてコンピュータを機能させるためのプログラム。 A program for causing a computer to function as the learning device according to any one of claims 2 to 7.
JP2019149021A 2019-08-15 2019-08-15 Paralinguistic information estimation device, learning device, method thereof, and program Active JP7141641B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019149021A JP7141641B2 (en) 2019-08-15 2019-08-15 Paralinguistic information estimation device, learning device, method thereof, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019149021A JP7141641B2 (en) 2019-08-15 2019-08-15 Paralinguistic information estimation device, learning device, method thereof, and program

Publications (2)

Publication Number Publication Date
JP2021032920A JP2021032920A (en) 2021-03-01
JP7141641B2 true JP7141641B2 (en) 2022-09-26

Family

ID=74677517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019149021A Active JP7141641B2 (en) 2019-08-15 2019-08-15 Paralinguistic information estimation device, learning device, method thereof, and program

Country Status (1)

Country Link
JP (1) JP7141641B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007148493A1 (en) 2006-06-23 2007-12-27 Panasonic Corporation Emotion recognizer

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2874858B2 (en) * 1997-01-30 1999-03-24 株式会社エイ・ティ・アール知能映像通信研究所 Interactive movie system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007148493A1 (en) 2006-06-23 2007-12-27 Panasonic Corporation Emotion recognizer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赤木正人,"音声に含まれる感情情報の認識 -感情空間をどのように表現するか-",日本音響学会誌,Vol.66,No.8,2010年08月01日,pp.393-398

Also Published As

Publication number Publication date
JP2021032920A (en) 2021-03-01

Similar Documents

Publication Publication Date Title
JP6933264B2 (en) Label generators, model learning devices, emotion recognition devices, their methods, programs, and recording media
JP6671020B2 (en) Dialogue act estimation method, dialogue act estimation device and program
JP6876641B2 (en) Speech conversion learning device, speech conversion device, method, and program
US20160210551A1 (en) Method and apparatus for training language model, and method and apparatus for recognizing language
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
US20230306961A1 (en) Decoding method and apparatus in artificial neural network for speech recognition
JP2017228272A (en) Semantic generation method, semantic generation device, and program
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
Passricha et al. A comparative analysis of pooling strategies for convolutional neural network based Hindi ASR
JP7332024B2 (en) Recognition device, learning device, method thereof, and program
Chattopadhyay et al. Optimizing speech emotion recognition using manta-ray based feature selection
Chattopadhyay et al. A feature selection model for speech emotion recognition using clustering-based population generation with hybrid of equilibrium optimizer and atom search optimization algorithm
Rautela et al. Deep learning frameworks for wave propagation-based damage detection in 1d-waveguides
Mirhassani et al. Age estimation based on children’s voice: a fuzzy-based decision fusion strategy
Velichko et al. Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical Framework.
Dua et al. Optimizing integrated features for Hindi automatic speech recognition system
Perez et al. Aphasic speech recognition using a mixture of speech intelligibility experts
JP7141641B2 (en) Paralinguistic information estimation device, learning device, method thereof, and program
Zheng et al. Contrastive auto-encoder for phoneme recognition
AbdAlmisreb et al. Maxout based deep neural networks for Arabic phonemes recognition
Kilimci et al. Evaluating raw waveforms with deep learning frameworks for speech emotion recognition
JP6992725B2 (en) Para-language information estimation device, para-language information estimation method, and program
Andra et al. Contextual keyword spotting in lecture video with deep convolutional neural network
Sefara et al. Gender identification in Sepedi speech corpus
Jaid et al. End-to-End Speaker Profiling Using 1D CNN Architectures and Filter Bank Initialization.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190815

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220831

R150 Certificate of patent or registration of utility model

Ref document number: 7141641

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150