JP2023144953A

JP2023144953A - 発話評価装置及びプログラム

Info

Publication number: JP2023144953A
Application number: JP2022052179A
Authority: JP
Inventors: 清栗原; Kiyoshi Kurihara; 真由美水野; Mayumi Mizuno; 信正清山; Nobumasa Seiyama
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2023-10-11

Abstract

【課題】アクセントを含めて発話を評価する。【解決手段】発話評価装置は、音声認識部と、評価部とを備える。ラベリングモデルは、音声データを入力し、音声データが示す発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力する。音声認識部は、ラベリングモデルに、評価対象の発話の音声データである評価対象データを入力し、評価対象の発話のラベリング中間言語である評価対象中間言語を得る。評価部は、評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、評価対象中間言語との比較に基づいて評価対象の発話を評価する。【選択図】図１

Description

特許法第３０条第２項適用申請有り（１）発行日２０２１年８月２４日刊行物日本音響学会２０２１年秋季研究発表会講演論文集ＣＤ－ＲＯＭ一般社団法人日本音響学会＜資料＞講演論文集ＣＤ－ＲＯＭのラベル面のコピー及び奥付＜資料＞講演論文集掲載研究論文（２）開催日（公開日）２０２１年９月７日（会期：２０２１年９月７日～９日）集会名日本音響学会２０２１年秋季研究発表会Ｗｅｂ会議システム（Ｚｏｏｍ）を利用したオンライン開催＜資料＞日本音響学会２０２１年秋季研究発表会開催概要・プログラム

本発明は、発話評価装置及びプログラムに関する。

従来、日本語テキストの音声認識を用いて、発話の良し悪しを評価する技術があった（例えば、特許文献１参照）。

特開２００８－２６２１２０号公報

特許文献１の技術では、発話の音響や速度を評価する。しかしながら、日本語の発話において重要なアクセントの評価は行っていない。

本発明は、このような事情を考慮してなされたもので、アクセントを含めて発話を評価することができる発話評価装置及びプログラムを提供する。

［１］本発明の一態様は、発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力するラベリングモデルに、評価対象の発話の音声データである評価対象データを入力して前記評価対象の発話のラベリング中間言語である評価対象中間言語を得る音声認識部と、前記評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する評価部と、を備えることを特徴とする発話評価装置である。

［２］本発明の一態様は、上述の発話評価装置であって、前記評価対象中間言語に含まれる文字に重畳して又は対応付けて、当該評価対象中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理と、前記リファレンス中間言語に含まれる文字に重畳して又は対応付けて、当該リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理とを行う表示制御部をさらに備える、ことを特徴とする。

［３］本発明の一態様は、上述の発話評価装置であって、前記音声認識部は、前記ラベリングモデルを用いて推定されたラベリング中間言語を入力し、入力された前記ラベリング中間言語に含まれる音素の誤りを修正したラベリング中間言語を出力する修正モデルに、前記ラベリングモデルに前記評価対象データを入力して得られた前記評価対象中間言語を入力し、音素の誤りが修正された前記評価対象中間言語を取得し、前記評価部は、前記リファレンス中間言語と、音素の誤りが修正された前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する、ことを特徴とする。

［４］本発明の一態様は、上述の発話評価装置であって、学習用の音声データと正解のラベリング中間言語との対を用いて前記ラベリングモデルを学習する処理と、誤りが含まれる学習用のラベリング中間言語と正解のラベリング中間言語との対を用いて前記修正モデルを学習する処理とを行う学習部をさらに備える、ことを特徴とする。

［５］本発明の一態様は、上述の発話評価装置であって、前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベリング中間言語を出力するトランスフォーマーとを有し、前記修正モデルは、トランスフォーマーである、ことを特徴とする。

［６］本発明の一態様は、コンピュータを、上述したいずれかの発話評価装置として機能させるためのプログラムである。

本発明によれば、アクセントを含めて発話を評価することが可能となる。

本発明の実施形態による発話評価装置の機能ブロック図である。同実施形態によるラベリング中間言語の例を示す図である。同実施形態による韻律記号を示す図である。同実施形態による音声認識モデルを示す図である。同実施形態による音声認識モデルの学習を説明する図である。同実施形態による発話評価装置の学習処理を示すフロー図である。同実施形態による発話評価装置の発話評価処理を示すフロー図である。同実施形態による発話の評価を説明する図である。同実施形態による画面表示例を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図１は、本実施形態による発話評価装置１の構成を示すブロック図である。図１は、本実施形態と関係する機能ブロックのみを抽出したものである。発話評価装置１は、音声認識部２と、記憶部３と、学習データ取得部４と、評価対象データ取得部５と、評価部６と、出力部７と、表示部８と、入力部９とを備える。

音声認識部２は、音声認識モデルを用いて、音声データからラベリング中間言語を推定する。ラベリング中間言語は、音素を表すラベルである仮名と、アクセントなどの韻律を表すラベルである韻律記号とを用いて記述されたテキストデータである。音声認識部２は、学習部２１を有する。学習部２１は、学習データを用いて、音声認識モデルを学習する。学習データは、音声データと、音声データが示す発話の正解のラベリング中間言語との対である。

記憶部３は、各部の処理に用いられる各種データを記憶する。例えば、記憶部３は、リファレンス文章データ、リファレンス音声データ、リファレンス中間言語を記憶する。リファレンス文章データは、発話の評価のために被訓練者が読み上げるリファレンス文章のテキストデータである。リファレンス音声データは、リファレンス文章を読み上げたときのお手本の発話を示す。具体的には、リファレンス音声データは、日本語の標準語の発話など、発話訓練の目標となる発音及びアクセントの発話である。リファレンス中間言語は、リファレンス音声データが示す発話のラベリング中間言語である。つまり、リファレンス中間言語は、評価対象の発話と対比する発話のラベリング中間言語である。

学習データ取得部４は、音声認識モデルの学習データを取得する。学習データ取得部４は、例えば、発話評価装置１と接続される他の装置から学習データを受信してもよく、記録媒体から学習データを読み出してもよい。

評価対象データ取得部５は、評価対象データを取得する。評価対象データは、評価対象の発話の音声データである。例えば、評価対象データ取得部５は、マイクＭなどの収音装置により録音した被訓練者の発話の音声データを評価対象データとして取得する。マイクＭは、発話評価装置１に内蔵されてもよい。また、評価対象データ取得部５は、発話評価装置１と接続される他の装置から評価対象データを受信してもよく、記録媒体から評価対象データを読み出してもよい。

評価部６は、音声認識部２が評価対象データを学習済みの音声認識モデルに入力して得られたラベリング中間言語である評価対象中間言語を取得する。評価部６は、評価対象中間言語とリファレンス中間言語との比較に基づいて、評価対象の発話の評価結果を得る。

出力部７は、評価部６による評価結果及び評価対象中間言語を出力する。出力部７は、さらに、リファレンス文章データ、リファレンス中間言語などを出力してもよい。出力は、例えば、表示部８への表示である。この場合、出力部７は、表示部８へ表示を行う表示制御部として動作する。出力部７は、評価対象中間言語やリファレンス中間言語を表示部８へ表示する際に、アクセントをグラフィックによって表してもよい。例えば、出力部７は、評価対象中間言語に含まれる仮名に重畳して又は対応付けて、評価対象中間言語に含まれる韻律記号を表すオブジェクトを表示部８に表示する。同様に、出力部７は、リファレンス中間言語に含まれる仮名に重畳して又は対応付けて、リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する。

表示部８は、データを表示する。表示部８は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ等の画像表示装置である。表示部８は、ヘッドマウントディスプレイ、網膜投影ディスプレイなどでもよい。表示部８は、画像表示装置を発話評価装置１に接続するためのインタフェースであってもよい。この場合、表示部８は、データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。また、表示部８は、発話評価装置１と接続される情報処理装置にデータを表示してもよい。

入力部９は、ユーザの指示を入力する。入力部９は、キーボード、ポインティングデバイス（マウス、タブレット等）、ボタン、タッチパネル等の既存の入力装置を用いて構成される。入力部９は、ユーザの指示を発話評価装置１に入力する際にユーザによって操作される。また、入力部９は、音声認識によりユーザの指示を入力してもよい。入力部９は、入力装置を発話評価装置１に接続するためのインタフェースであってもよい。この場合、入力部９は、入力装置においてユーザの入力に応じて生成された入力信号を発話評価装置１に入力する。また、入力部９は、発話評価装置１と接続される情報処理装置からユーザが入力した指示を受信してもよい。

図２は、ラベリング中間言語の例を示す図である。ラベリング中間言語は、仮名と韻律記号とにより記述される。仮名は、読みを表す文字の一例であり、モーラに対応する。読みを表す仮名を読み仮名とも記載する。本実施形態では、仮名としてカタカナを用いる場合を記載するが、ひらがな、アルファベット、発音記号を用いてもよく、仮名に代えて音素を表す記号を用いてもよい。ラベリング中間言語に用いられる韻律記号は、韻律を表す文字又は記号である。以下では、仮名及び韻律記号を総称して文字とも記載する。

図３は、本実施形態のラベリング中間言語に用いられる韻律記号を示す図である。図３に示す韻律記号は、参考文献１に記載の韻律記号を改変し、さらに、参考文献２に記載のアクセントに関する記号を取り入れたものである。図３が示す韻律の情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定を表す韻律記号には、アクセント上昇記号（平板型）と、アクセント下降記号がある。アクセント上昇記号（平板型）は、音の下がり目がない平板型の場合に、語末につける記号である。アクセント下降記号は、音の下がり目の位置を示す記号である。すなわち、アクセント下降記号は、その記号の直後の仮名（モーラ）でアクセントが下降することを表す。句・フレーズの区切りの指定には、アクセント句の区切りを表す韻律記号が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号、体言止めの文末を表す韻律記号、及び、疑問の文末を表す韻律記号が用いられる。ポーズの指定には、ポーズを表す韻律記号が用いられる。

韻律記号は、第一韻律記号と、第二韻律記号とに分類される。第一韻律記号は、アクセントの位置を表す。アクセント上昇記号（平板型）及びアクセント下降記号は、第一韻律記号である。第二韻律記号は、アクセント句の区切り、文末、ポーズなどの読みの区切りを表す。アクセント句の区切りを表す韻律記号、通常の文末を表す韻律記号、体言止めの文末を表す韻律記号、疑問の文末を表す韻律記号及びポーズを表す韻律記号は、第二韻律記号である。第二韻律記号によって区切られた仮名及び第一韻律記号からなるラベリング中間言語を、アクセント句中間言語と記載する。アクセント句中間言語に含まれる読み仮名は、アクセント句に相当する。なお、これらの韻律記号は一例であり、他の記号を用いてもよい。

（参考文献１）音声入出力方式標準化専門委員会，「JEITA規格 IT-4006 日本語テキスト音声合成用記号」，社団法人電子情報技術産業協会，2010年，p.4-10

（参考文献２）NHK放送文化研究所，NHK日本語発音アクセント新辞典，NHK出版，2016年、p.8-17

図４は、音声認識部２が用いる音声認識モデルＷを示す図である。音声認識モデルＷは、ラベリングモデルＷ１と、修正モデルＷ２とからなる。ラベリングモデルＷ１は、例えば、参考文献３や参考文献４に記載のWav2vec2.0、あるいは、参考文献５に記載のsequence to sequence(Seq2seq）方式の音声認識手法である。図４に示すラベリングモデルＷ１は、Wav2vec2.0を用いた場合の例を示している。Wav2Vec2.0やSeq2seq方式の音声認識手法は、文字列として種類の少ない音素や韻律記号をベースとして学習をするため、多くの他の音声認識技術と比較して少量の学習データによって高い精度の音声認識が可能である。また、日本語を含め様々な言語で効果が示されている。

（参考文献３）Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli, "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations," 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.

（参考文献４）Wav2Vec2-XLSR-53, [online], <URL:https://huggingface.co/facebook/wav2vec2-large-xlsr-53>

（参考文献５）C. Chiu, et al., "State-of-the-Art Speech Recognition with Sequence-to-Sequence Models," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.

Wav2vec2.0を用いる場合のラベリングモデルＷ１は、生の音声波形Ｘを入力とし、ラベリング中間言語Ｙを出力するモデルである。音声認識部２に入力された音声データＶは、ラベリングモデルＷ１の音声波形Ｘとして用いられる。音声データＶは、音圧を表す。ラベリングモデルＷ１は、複数のＣＮＮ（Convolutional neural network；畳み込みニューラルネットワーク）と、トランスフォーマー（Transformer）とを有する。

複数のＣＮＮは、エンコーダに相当する。各ＣＮＮは、時間的な畳み込みの後に、レイヤの正規化やＧＥＬＵ（Gaussian error linear units）活性化関数を含むいくつかのブロックで構成される。各ＣＮＮが対応する時間区間は異なっており、各ＣＮＮには、そのＣＮＮが対応する時間区間の時系列の音声データが入力される。各ＣＮＮは、オーディオの特徴を表現した音響特徴量Ｚ（Latent speech representations）を出力する。音響特徴量Ｚは、オーディオの潜在空間表現である。潜在空間では、類似した特性を持つ波形のベクトル同士が近くなる。

トランスフォーマーは、デコーダに相当する。トランスフォーマーは、時系列の音響特徴量Ｚのコンテキスト表現Ｃ（Context representations）を出力するニューラルネットワークである。トランスフォーマーには、各ＣＮＮから出力された時系列の音響特徴量Ｚがマスクされて入力される。すなわち、時系列の音響特徴量Ｚのうち所定の割合が無作為に選択され、選択された音響特徴量から所定数の連続した音響特徴量がトレーニングされた特徴量と置き換えられた後に、トランスフォーマーに入力される。トランスフォーマーには、例えば、参考文献６に記載の技術が使用される。トランスフォーマーから出力されるコンテキスト表現Ｃは、読み仮名と韻律記号を用いたラベリング中間言語Ｙである。

（参考文献６）Ashish Vaswani, et al., "Attention is all you need," In Proc. of Neural Information Processing Systems(NIPS), 2017.

一般的な音声認識の音響モデルによる音素認識と同様に、ラベリングモデルＷ１により推定されたラベリング中間言語Ｙには音素誤りが含まれる。そこで、修正モデルＷ２により、ラベリング中間言語Ｙに含まれる音素誤りを修正する。修正モデルＷ２には、従来技術のトランスフォーマーを用いる（例えば、参考文献７参照）。このトランスフォーマーは、ニューラルネットワークを用いて実現され、エンコーダとデコーダとを含むように構成される。エンコーダは、ラベリング中間言語Ｙを入力データとして受け付け、エンコード処理の結果をデコーダに渡す。デコーダは、エンコーダから渡される情報に基づいて、ラベリング中間言語Ｙの誤りが修正されたラベリング中間言語Ｐを生成し、出力する。なお、デコーダは、エンコーダから渡される情報に加えて、前に出力したラベリング中間言語Ｐの右シフトを入力に用いる。

（参考文献７）Colin Raffel, et al., "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer", Journal of Machine Learning Research 21, 2020, p.1-67

図５は、音声認識モデルＷの学習を説明するための図である。音声認識部２の学習部２１は、まず、音声データＶ０と、その音声データＶ０の正解のラベリング中間言語Ｐ０とを用いてラベリングモデルＷ１を学習する。正解のラベリング中間言語Ｐ０は、音声データＶ０の発話どおりの音素及び韻律を表す。ラベリング中間言語Ｌ０は、手動で生成又は修正された読み仮名と韻律記号が記述されたラベリング中間言語である。すなわち、学習部２１は、音声認識モデル学習用の音声データＶ０を入力して得られたラベリング中間言語Ｙ＝（Ｙ１，Ｙ２，Ｙ３，…，ＹＮ）と、正解のラベリング中間言語Ｌ０との差分を表す損失Ｌが小さくなるように、ラベリングモデルＷ１の各パラメータの値である重みを更新する。Ｙ１～ＹＮは、仮名又は韻律記号である。損失Ｌは、Contrastive lossである。なお、損失Ｌの算出には、各ＣＮＮが算出した音響特徴量Ｚを離散化した値ｑからなる量子化表現（Quantized representations）Ｑも用いられる。

ラベリングモデルＷ１の学習後、学習部２１は、学習済みのラベリングモデルＷ１が音声データＶ０を入力して得られたラベリング中間言語Ｙを修正モデルＷ２に入力する。学習部２１は、修正モデルＷ２から出力されたラベリング中間言語Ｐ＝（Ｐ１，Ｐ２，Ｐ３，…，ＰＮ）と、音声データＶ０の正解のラベリング中間言語Ｌ０との差分が小さくなるように、修正モデルＷ２の各パラメータの値を更新する。Ｐ１～ＰＮは、仮名又は韻律記号である。

学習部２１は、ラベリング中間言語Ｙに変更を加えて修正モデルＷ２に入力してもよい。例えば、学習部２１は、エラー生成部２２を有する。エラー生成部２２は、ラベリングモデルＷ１が出力したラベリング中間言語Ｙの一部を変更して修正モデルＷ２に入力する。変更は、例えば、ランダムな文字の削除や、ランダムな文字の入れ替えである。変更の対象を読み仮名に限定してもよい。また、ラベリング中間言語Ｙを手動で修正して修正モデルＷ２に入力してもよい。学習部２１は、修正されたラベリング中間言語Ｙを修正モデルＷ２に入力し、修正モデルＷ２が出したラベリング中間言語Ｐと、正解のラベリング中間言語Ｌ０との差分が小さくなるように、修正モデルＷ２の各パラメータの値である重みを更新する。

音声認識部２は、発話の評価を行う場合、評価対象データ取得部５から評価対象データを受信する。音声認識部２は、評価対象データをラベリングモデルＷ１に入力してラベリング中間言語Ｙを得た後、ラベリング中間言語Ｙを修正モデルＷ２に入力してラベリング中間言語Ｐを得る。音声認識部２は、このラベリング中間言語Ｐを、評価対象データから推定された評価対象中間言語として評価部６に出力する。

なお、音声認識モデルＷは、修正モデルＷ２を有さなくてもよい。この場合、音声認識部２は、評価対象データをラベリングモデルＷ１に入力して得られたラベリング中間言語Ｙを、評価対象データから推定された評価対象中間言語として評価部６に出力する。ラベリングモデルＷ１から出力されたラベリング中間言語Ｙには音素誤りが比較的強く表れる。そのため、ラベリングモデルＷ１の出力に対して修正モデルＷ２を使用しない場合には、被訓練者の発音の誤りを重視した評価が行えると見込まれる。発音よりもアクセントを重視して評価する場合には、ラベリングモデルＷ１及び修正モデルＷ２を使用する。発話評価装置１は、例えば、入力部９により入力された指示に基づいて、修正モデルＷ２を使用するか否かを切替可能としてもよい。

図６は、発話評価装置１の音声認識モデル学習処理を示すフロー図である。発話評価装置１は、発話の音声データＶ０と、その発話の正解のラベリング中間言語Ｌ０とを対応づけた学習データを複数入力する（ステップＳ１１０）。

音声認識部２の学習部２１は、学習データを用いて、ラベリングモデルＷ１を学習する（ステップＳ１２０）。具体的には、学習部２１は、学習データから音声データＶ０と正解のラベリング中間言語Ｌ０との対を読み出す。音声認識部２は、学習部２１が読み出した音声データＶ０をラベリングモデルＷ１に入力してラベリング中間言語Ｐを得る。学習部２１は、音声認識部２が音声データＶ０を入力に用いて得たラベリング中間言語Ｐと、その音声データＶ０の正解のラベリング中間言語Ｌ０との差分が小さくなるように、ラベリングモデルＷ１のパラメータの値を更新する。学習部２１は、所定の学習終了条件となるまで、ラベリングモデルＷ１の学習を行う。学習終了条件は、例えば、入力された全ての音声データＶ０とラベリング中間言語Ｌ０の対について処理を終えた、ラベリングモデルＷ１を所定回更新した、差分が所定以下となった、などである。

なお、学習部２１は、音声データＶ０が示す発話を漢字仮名交じりの文章で表した原文データに形態素解析などを行って自動生成したラベリング中間言語Ｌ０を用いた大量の学習データによりラベリングモデルＷ１の事前学習を行った後、手動生成した誤りのないラベリング中間言語Ｌ０を用いた少量の学習データによりラベリングモデルＷ１のファインチューニングを行ってもよい。

続いて、学習部２１は、学習データを用いて、修正モデルＷ２を学習する（ステップＳ１３０）。具体的には、学習部２１は、学習データから音声データＶ０と正解のラベリング中間言語Ｌ０との対を読み出す。音声認識部２は、学習部２１が読み出した音声データＶ０をラベリングモデルＷ１に入力してラベリング中間言語Ｙを得る。さらに、音声認識部２は、得られたラベリング中間言語Ｙを修正モデルＷ２に入力して、ラベリング中間言語Ｙの音素誤りを修正したラベリング中間言語Ｐを得る。なお、音声認識部２は、エラー生成部２２又は手動によりランダムな文字の削除やランダムな子音の入れ替えを行ったラベリング中間言語Ｙを修正モデルＷ２に入力し、ラベリング中間言語Ｐを得てもよい。学習部２１は、ラベリング中間言語Ｐと、正解のラベリング中間言語Ｌ０との差分が小さくなるように、修正モデルＷ２のパラメータの値を更新する。例えば、学習部２１は、修正されたラベリング中間言語Ｙを用いて修正モデルＷ２の事前学習を行った後、修正を行わないラベリング中間言語Ｙを用いて修正モデルＷ２をファインチューニングしてもよい。学習部２１は、所定の学習終了条件となるまで、修正モデルＷ２の学習を行う。学習終了条件は、例えば、入力された全ての音声データＶ０とラベリング中間言語Ｌ０の対について処理を終えた、修正モデルＷ２を所定回更新した、差分が所定以下となった、などである。

図７は、発話評価装置１の評価処理を示すフロー図である。発話評価装置１の評価対象データ取得部５は、評価対象データを取得する（ステップＳ２１０）。音声認識部２は、評価対象データを音声認識モデルＷに入力して評価対象中間言語を取得し、評価部６に出力する（ステップＳ２２０）。評価部６は、記憶部３から読み出したリファレンス中間言語と、音声認識部２から出力された評価対象中間言語とを比較して、発話の評価を行う（ステップＳ２３０）。出力部７は、評価部６による評価結果を表示部８に表示する（ステップＳ２４０）。

図８は、評価部６による発話の評価を説明する図である。図８を用いて、図７のステップＳ２３０における評価部６の処理を説明する。図８（ａ）はアクセントスコアの算出を説明する図である。評価部６は、評価対象中間言語において、リファレンス中間言語と相違がある文字を誤りとして特定する。相違の検出には、例えば、ｄｉｆｆ関数などを用いることができる。評価部６は、リファレンス中間言語に対する誤りの文字の割合に基づいて、アクセントスコアを算出する。図８（ｂ）は読み仮名スコアの算出を説明する図である。評価部６は、リファレンス中間言語及び評価対象中間言語のそれぞれから、韻律記号を削除して読み仮名のみを残す。評価部６は、評価対象中間言語の読み仮名からなる文字列において、リファレンス中間言語の読み仮名からなる文字列と相違がある文字を誤りとして特定する。評価部６は、リファレンス中間言語の読み仮名からなる文字列に対する誤りの文字の割合に基づいて、読み仮名スコアを算出する。アクセントスコア及び読み仮名スコアの算出には、文字誤り率（Character Error Rate）などの文章類似度算出方法を用いることができる。

図９は、表示部８への画面表示例を示す図である。出力部７は、図９に示す画面Ｇを表示部８に表示する。画面Ｇは、録音開始ボタンＧ１と、リファレンス文章表示Ｇ２と、リファレンス中間言語表示Ｇ３と、リファレンス文章表示Ｇ４と、リファレンスアクセント表示Ｇ５と、評価対象中間言語表示Ｇ６と、発話文章表示Ｇ７と、発話アクセント表示Ｇ８と、スコア表示Ｇ９とを含む。録音開始ボタンＧ１と、リファレンス文章表示Ｇ２と、リファレンス中間言語表示Ｇ３と、リファレンス文章表示Ｇ４と、リファレンスアクセント表示Ｇ５とは、図７のステップＳ２１０の処理の前に表示される。評価対象中間言語表示Ｇ６と、発話文章表示Ｇ７と、発話アクセント表示Ｇ８と、スコア表示Ｇ９とは、図７のステップＳ２４０において追加で表示される。

録音開始ボタンＧ１は、被訓練者の発話の録音を指示するために使用する。被訓練者が録音開始ボタンＧ１を入力部９により押下することで、マイクＭによる録音が開始される。図７のステップＳ２１０において、評価対象データ取得部５は、マイクＭにより録音された発話の音声データを評価対象データとして取得する。あるいは、評価対象データ取得部５は、被訓練者が入力部９により入力した指示に従って、他の装置や記録媒体から評価対象データを取得してもよい。

リファレンス文章表示Ｇ２、Ｇ４は、出力部７が記憶部３から読み出したリファレンス文章を表示する。リファレンス中間言語表示Ｇ３は、出力部７が記憶部３から読み出したリファレンス中間言語を表示する。リファレンスアクセント表示Ｇ５は、リファレンス中間言語に含まれる読み仮名と、リファレンス中間言語に含まれる韻律記号を表すオブジェクトとを表示する。リファレンス中間言語として、例えば、アナウンサーがリファレンス文章を読んだときの発話など、お手本となる音声データを学習済みの音声認識モデルＷに入力して得られたラベリング中間言語、又は、そのラベリング中間言語を入力部９などから入力された指示に従って修正したラベリング中間言語を用いることができる。

評価対象中間言語表示Ｇ６は、図２のステップＳ２２０において得られた評価対象中間言語を表示する。発話文章表示Ｇ７は、被訓練者が発話したリファレンス文章を表示する。発話アクセント表示Ｇ８は、評価対象中間言語に含まれる読み仮名と、評価対象中間言語に含まれる韻律記号を表すオブジェクトとを表示する。さらに、出力部７は、評価部６が図７に示す評価を行った際に特定した評価対象中間言語における誤りの箇所を、誤りであることを表す態様で評価対象中間言語表示Ｇ６に表示する。例えば、出力部７は、誤りの文字Ｄ１及びＤ２に下線を表示してもよく、誤りの文字Ｄ１及びＤ２を四角で囲ってもよく、誤りの文字Ｄ１及びＤ２の文字色、オブジェクト色、背景色などを、誤りがない文字の文字色、オブジェクト色、背景色と変えて表示してもよい。また、出力部７は、評価対象中間言語における誤りの箇所を、誤りであることを表す態様で発話アクセント表示Ｇ８に表示してもよい。その場合、出力部７は、符号Ｄ３に示すように、後述する処理において判断したアクセントの高低がリファレンス中間言語と異なる文字を誤りの文字に含めてもよい。スコア表示Ｇ９は、図２のステップＳ２３０において評価部６が算出したアクセントスコア及び読み仮名スコアを表示する。これらのスコアを表示することにより、被訓練者は、上達を確認しやすくなり、モチベーションも向上する。

出力部７は、以下の処理によって、リファレンスアクセント表示Ｇ５にリファレンス中間言語を表示し、発話アクセント表示Ｇ８に発話対象中間言語を表示する。まず、出力部７は、アクセント句に分けてラベリング中間言語に含まれる読み仮名を表示するため、ラベリング中間言語を第二韻律記号により分割し、アクセント句中間言語を生成する。アクセント句中間言語には、読み仮名及び第一韻律データが含まれる。出力部７は、アクセント句中間言語から読み仮名を出現順に抽出してアクセント句を取得し、さらに、ラベリング中間言語からそのアクセント句中間言語の直後に設定されている第二韻律記号を取得する。出力部７は、アクセント句中間言語から取得したアクセント句と、そのアクセント句中間言語の直後に設定されている第二韻律記号を表す区切りオブジェクトとを、ラベリング中間言語における出現順に表示する。区切りオブジェクトは、読みを表す文字の仮名とは異なる文字でもよく、記号でもよく、図形でもよい。図９では、アクセント句「コレニ」の直後に、アクセント句の区切りを表す韻律記号に対応した区切りオブジェクトＢ１のスペース（空白）が表示されている。また、アクセント句「アワセテ」の直後に、ポーズを表す韻律記号に対応した区切りオブジェクトＢ２が表示されている。さらに、文章の最後には、文末（通常）を表す韻律記号に対応した区切りオブジェクトＢ３が表示されている。

さらに、出力部７は、各アクセント句のアクセント核を判断する。例えば、参考文献８及び参考文献９には、日本語の東京方言（標準語）の高低アクセントを特定できる原理が記載されている。この原理では、アクセント句内におけるいずれのモーラにアクセント核があるかによって、そのアクセント句のモーラ毎のアクセントの高低のパターンであるアクセント型が一意に特定されることを示している。これは、（１）アクセント句の最初のモーラと２番目のモーラとはアクセントの高低が異なること、（２）アクセント核のモーラはアクセントが高く、アクセント核の次のモーラでアクセントが低くなること、（３）アクセント句において一旦アクセントが低くなると、そのアクセント句においてアクセントは上昇しないこと、という規則による。つまり、モーラ数と同じ数だけアクセント型があり、アクセント核があるモーラの位置によって、アクセント型が一意に決定される。

具体的には、出力部７は、アクセント句中間言語の最初の読み仮名の直後にアクセント下降記号がある場合、最初の読み仮名がアクセント核であると判断し、最初の読み仮名は高いアクセント、次の読み仮名から最後の読み仮名までは低いアクセントと判断する。出力部７は、アクセント句中間言語の２番目以降の読み仮名の直後にアクセント下降記号がある場合、アクセント下降記号の直前の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、２番目からアクセント下降記号の直前の読み仮名までは高いアクセント、アクセント下降記号の次の読み仮名から最後の読み仮名までは低いアクセントと判断する。また、出力部７は、アクセント句中間言語にアクセント下降記号がない場合、アクセント句の最後の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、２番目から最後の読み仮名までは高いアクセントと判断する。

出力部７は、各アクセント句におけるアクセント核の文字に対応付けて、アクセント核表示オブジェクトＢ４を重畳して表示する。例えば、図９では、アクセント句「コレニ」におけるアクセント核「ニ」の上部に、アクセント核表示オブジェクトＢ４を表示している。さらに、出力部７は、各アクセント句の文字列に、アクセントの高低を表すアクセント表示オブジェクトＢ５を表示する。高いアクセントは、文字列の表示の中心の高さよりも高い位置の線で表され、低いアクセントは、文字列の表示の中心よりも低い位置の線で表される。アクセント表示オブジェクトＢ５は、それらの線をアクセント句の単位でつないだ線である。

（参考文献８）峯松信明，"OJADとそれを用いた音声指導"，[online]，<URL:https://www.gavo.t.u-tokyo.ac.jp/~mine/japanese/acoustics/OJAD_workshop_long.pdf>

（参考文献９）Hiroya Fujisaki and Keikichi Hirose，"Analysis of voice fundamental frequency contours for declarative sentences of Japanese"，1984年，[online]，<URL: https://www.jstage.jst.go.jp/article/ast1980/5/4/5_4_233/_pdf/-char/en>

また、画面Ｇにリファレンス音声データや評価対象データの再生を指示する再生指示ボタンを含めてもよい。被訓練者が入力部９により再生指示ボタンを押下した場合、出力部７は、図示しないスピーカーにより、再生指示ボタンにより指示されたリファレンス音声データ又は評価対象データを出力する。

なお、ラベリングモデルＷ１に代えて、参考文献５に記載のSeq2seqの音声認識モデルを用いる場合、音声認識部２は、音声データの音響特徴量を入力に用いる。特徴量は、例えば、所定幅のウインドウ（例えば、２５ｍｓ）のメルスペクトログラムを、ウインドウよりも小さい所定の時間幅（例えば、１０ｍｓ）毎にシフトさせたものである。音声認識部２は、所定フレーム分の特徴量をダウンサンプリングして音声認識モデルに入力する。

上述の発話評価装置１は、内部にコンピュータシステムを有している。そして、発話評価装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ（Central processing unit）及び各種メモリやＯＳ（Operation System）、周辺機器等のハードウェアを含むものである。また、発話評価装置１の機能の全て又は一部は、ＡＳＩＣ（Application specific integrated circuit）やＰＬＤ（Programmable logic device）やＦＰＧＡ（Field programmable gate array）等のハードウェアを用いて実現されてもよい。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ウェブページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

発話評価装置１は、例えば、１台以上のコンピュータ装置により実現することができる。発話評価装置１が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、同一の機能部を複数のコンピュータ装置により実現してもよい。例えば、発話評価装置１を、音声認識部２、記憶部３及び学習データ取得部４を有する第１のコンピュータ装置と、音声認識部２、記憶部３、評価対象データ取得部５、評価部６及び出力部７を有する第２のコンピュータ装置により実現してもよい。この場合、第２のコンピュータ装置の音声認識部２は学習部２１を有さず、第１のコンピュータ装置の学習部２１により学習済みの音声認識モデルを用いる。

以上説明した実施形態によれば、本実施形態の発話評価装置１は、発音だけでなく、アクセントを含めて被訓練者の発話を評価することが可能となる。例えば、標準語（東京方言）のリファレンス中間言語を用いることで、標準語のアクセントについての評価が可能となる。また、発話評価装置１は、被訓練者が発話した音声の「読み仮名とアクセント」を可視化する。例えば、発話評価装置１は、一般的に使用されているアクセント記号を用いて被訓練者の発話やお手本の発話を表示し、さらに、グラフィックによってそれらの発話におけるアクセントを表示する。よって、被訓練者は、お手本の発話と自分の発話との違いを分かり易く提示することが可能となる。よって、被訓練者は訓練の目標を設定しやすくなる。また、例えば、学習データに、アナウンサーの音声を用いた場合、アナウンサーの発話に類似しているほどアクセントスコア及び読み仮名スコアは高くなる。このような学習データを用いて音声認識モデルを学習することで、発話評価装置１は、日本語の標準語の発話を訓練したい地方出身者や外国の日本語学習者が、発話の訓練を行う場合に有用である。また、リファレンス中間言語には音素を表す文字を使用するため、発話評価装置１を日本語以外の言語に適用することも可能である。

以上説明した実施形態によれば、発話評価装置は、音声認識部と、評価部とを備える。ラベリングモデルは、発話の音声データ又は発話の音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力する。音声認識部は、ラベリングモデルに、評価対象の発話の音声データである評価対象データを入力して、評価対象の発話のラベリング中間言語である評価対象中間言語を得る。評価部は、評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、評価対象中間言語との比較に基づいて評価対象の発話を評価する。

発話評価装置は、表示制御部をさらに備えてもよい。表示制御部は、例えば、実施形態における出力部７である。表示制御部は、評価対象中間言語に含まれる文字に重畳して又は対応付けて、当該評価対象中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する。また、表示制御部は、リファレンス中間言語に含まれる文字に重畳して又は対応付けて、当該リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する。

修正モデルは、ラベリングモデルを用いて推定されたラベリング中間言語を入力し、入力されたラベリング中間言語に含まれる音素の誤りを修正したラベリング中間言語を出力する。音声認識部は、修正モデルに、ラベリングモデルに評価対象データを入力して得られた評価対象中間言語を入力し、音素の誤りが修正された評価対象中間言語を取得してもよい。評価部は、リファレンス中間言語と、音素の誤りが修正された評価対象中間言語との比較に基づいて評価対象の発話を評価する。

発話評価装置は、さらに学習部を備えてもよい。学習部は、学習用の音声データと正解のラベリング中間言語との対を用いてラベリングモデルを学習する。さらに、学習部は、誤りが含まれる学習用のラベリング中間言語と正解のラベリング中間言語との対を用いて修正モデルを学習する。

ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベリング中間言語を出力するトランスフォーマーとを有してもよい。修正モデルは、トランスフォーマーでもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…発話評価装置
２…音声認識部
３…記憶部
４…学習データ取得部
５…評価対象データ取得部
６…評価部
７…出力部
８…表示部
９…入力部
２１…学習部
２２…エラー生成部
Ｗ…音声認識モデル
Ｗ１…ラベリングモデル
Ｗ２…修正モデル

Claims

発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力するラベリングモデルに、評価対象の発話の音声データである評価対象データを入力して前記評価対象の発話のラベリング中間言語である評価対象中間言語を得る音声認識部と、
前記評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する評価部と、
を備えることを特徴とする発話評価装置。
前記評価対象中間言語に含まれる文字に重畳して又は対応付けて、当該評価対象中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理と、前記リファレンス中間言語に含まれる文字に重畳して又は対応付けて、当該リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理とを行う表示制御部をさらに備える、
ことを特徴とする請求項１に記載の発話評価装置。
前記音声認識部は、前記ラベリングモデルを用いて推定されたラベリング中間言語を入力し、入力された前記ラベリング中間言語に含まれる音素の誤りを修正したラベリング中間言語を出力する修正モデルに、前記ラベリングモデルに前記評価対象データを入力して得られた前記評価対象中間言語を入力し、音素の誤りが修正された前記評価対象中間言語を取得し、
前記評価部は、前記リファレンス中間言語と、音素の誤りが修正された前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する、
ことを特徴とする請求項１又は請求項２に記載の発話評価装置。
学習用の音声データと正解のラベリング中間言語との対を用いて前記ラベリングモデルを学習する処理と、誤りが含まれる学習用のラベリング中間言語と正解のラベリング中間言語との対を用いて前記修正モデルを学習する処理とを行う学習部をさらに備える、
ことを特徴とする請求項３に記載の発話評価装置。
前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベリング中間言語を出力するトランスフォーマーとを有し、
前記修正モデルは、トランスフォーマーである、
ことを特徴とする請求項３又は請求項４に記載の発話評価装置。
コンピュータを、
請求項１から請求項５のいずれか一項に記載の発話評価装置として機能させるためのプログラム。