JP2024000063A

JP2024000063A - アクセント位置推定装置、アクセント位置学習装置及びそれらのプログラム

Info

Publication number: JP2024000063A
Application number: JP2022098587A
Authority: JP
Inventors: 旭佐久間; Akira Sakuma
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2024-01-05

Abstract

【課題】アクセント位置の推定精度を向上させるアクセント位置推定装置を提供する。【解決手段】アクセント位置推定装置１は、日本語テキストを単語に分割する単語分割手段１０と、各単語の単語分散表現ベクトルを生成する単語分散表現ベクトル生成手段１１と、辞書を参照し、各単語の単語素性ベクトルを生成する単語素性ベクトル生成手段１２と、予め学習した深層学習モデルを用いて、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルから日本語テキストのアクセント位置を推定するアクセント位置推定手段と１３、を備える。【選択図】図１

Description

本発明は、日本語テキストのアクセント位置を推定するアクセント位置推定装置、アクセント位置推定装置及びそれらのプログラムに関する。

日本語テキストの音声合成において、アクセント位置を適切に推定することで、より高品質な音声出力が期待できる。そのためには、同じ単語でも意味に応じてアクセント位置が変化する現象や、文中の単語の連接に伴いアクセント位置が変化する現象（アクセント結合）に対応する必要がある。

非特許文献１には、旧来のルールベースに代わり、機械学習でアクセント位置を推定する手法が開示されている。この従来手法は、単語の品詞や、単独発話時のアクセントを元に、条件付き確率場(ＣＲＦ)により、アクセント位置を推定している。

非特許文献２には、テキストをＷｏｒｄ２Ｖｅｃによる意味を考慮した特徴量に変換し、深層学習モデルで処理し、文中のアクセント位置を推定する手法が開示されている。この非特許文献２に記載の手法では、王子（Prince）と王子（地名）のように、単語の意味に応じたアクセント位置の変化にも対応することができる。

印南圭祐、渡辺美知子、峯松信明、広瀬啓吉、"ＣＲＦを用いたアクセント変形予測モデルの規則処理に基づく改良"、第１５回言語処理学会年次大会発表論文集、ｐｐ．５７４－５７７、２００９角南陽友、齋藤大輔、峯松信明、"日本語アクセント結合推定におけるＬＳＴＭと単語埋め込み表現の利用"、研究報告音楽情報科学（ＭＵＳ）、ｖｏｌｄ.２０２１－ＭＵＳ－１３１、ｎｏ.４８、ｐｐ.１－６、２０２１

非特許文献１に記載の手法は、深層学習ではない機械学習を用いるので推定精度が低く、単語の意味に応じたアクセント位置の変化に対応が困難であるという問題がある。また、非特許文献２に記載の手法は、単語の意味しか考慮していないので、推定精度が低いという問題がある。

本発明は、前記した問題を解決し、アクセント位置の推定精度を向上させるアクセント位置推定装置、アクセント位置学習装置及びそれらのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係るアクセント位置推定装置は、日本語テキストのアクセント位置を推定するアクセント位置推定装置であって、単語分散表現ベクトル生成手段と、単語素性ベクトル生成手段と、アクセント位置推定手段と、を備える構成とした。

かかる構成によれば、単語分散表現ベクトル生成手段は、日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する。
単語素性ベクトル生成手段は、予め設定した辞書を参照し、少なくとも各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する。
アクセント位置推定手段は、予め学習した深層学習モデルを用いて、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルから日本語テキストのアクセント位置を推定する。

このように、アクセント位置推定装置は、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルが反映された深層学習モデルを用いることで、アクセント位置の推定精度を向上させることができる。

また、前記課題を解決するため、本発明に係るアクセント位置学習装置は、日本語テキストと日本語テキストのアクセント位置を表す正解ラベルとの組である教師データを用いて、日本語テキストのアクセント位置を推定するための深層学習モデルを学習するアクセント位置学習装置であって、単語分散表現ベクトル生成手段と、単語素性ベクトル生成手段と、アクセント位置学習手段と、を備える構成とした。

かかる構成によれば、単語分散表現ベクトル生成手段は、教師データに含まれる各単語の単語分散表現ベクトルを生成する。
単語素性ベクトル生成手段は、予め設定した辞書を参照し、少なくとも各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する。
アクセント位置学習手段は、正解ラベルと、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルとを用いて、深層学習モデルを学習する。

このように、アクセント位置学習装置は、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルを学習に使用することで、アクセント位置の推定精度が高い深層学習モデルを生成することができる。

なお、本発明は、コンピュータを前記したアクセント位置推定装置又はアクセント位置学習装置として機能させるためのプログラムで実現することもできる。

本発明によれば、アクセント位置の推定精度を向上させることができる。

実施形態に係るアクセント位置推定装置の構成を示すブロック図である。実施形態において、単語分散表現ベクトルの一例を示すテーブルである。実施形態において、単語素性ベクトルを構成する成分の一例を説明するテーブルである。実施形態において、単語素性ベクトルの品詞を説明するテーブルである。実施形態において、単語素性ベクトルの活用形を説明するテーブルである。実施形態において、深層学習モデルの学習を説明する説明図である。実施形態において、アクセント位置推定装置の推定モードの動作を示すフローチャートである。実施形態において、アクセント位置推定装置の学習モードの動作を示すフローチャートである。

以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。

（実施形態）
図１のアクセント位置推定装置１は、深層学習モデルによりアクセント位置を推定する推定モード、及び、深層学習モデルを学習する学習モードという２つの動作モードを有する。以下、アクセント位置推定装置１の構成を推定モードと学習モードの順で説明する。

［アクセント位置推定装置の構成：推定モード］
アクセント位置推定装置１は、日本語テキストのアクセント位置を推定するものである。図１に示すように、アクセント位置推定装置１は、単語分割手段１０と、単語分散表現ベクトル生成手段１１と、単語素性ベクトル生成手段１２と、アクセント位置推定手段１３とを備える。

推定モードでは、アクセント位置の推定対象となる日本語テキストがアクセント位置推定装置１に入力される。例えば、日本語テキストは、“犬が歩いている。”のような文単位の日本語のテキストデータである。

単語分割手段１０は、日本語テキストを各単語に分割するものである。本実施形態では、単語分割手段１０は、アクセント位置推定装置１に入力された日本語テキストに形態素解析を施して、日本語テキストを単語に分割する。例えば、単語分割手段１０は、“犬が歩いている。”という日本語テキストを、“犬／が／歩いて／いる／。”という単語に分割する（なお、／は単語の区切りを表す）。そして、単語分割手段１０は、日本語テキストの各単語を単語分散表現ベクトル生成手段１１及び単語素性ベクトル生成手段１２に出力する。

単語分散表現ベクトル生成手段１１は、日本語テキストに含まれる各単語の単語分散表現ベクトルを生成するものである。本実施形態では、単語分散表現ベクトル生成手段１１は、ｗｏｒｄ２ｖｅｃ、ＧｌｏＶｅ（Global Vectors for Word Representation）などの一般的な手法を用いて、単語分割手段１０が分割した各単語から単語分散表現ベクトルを生成する。そして、単語分散表現ベクトル生成手段１１は、生成した単語分散表現ベクトルをアクセント位置推定手段１３に出力する。

この単語分散表現ベクトルは、意味が近い単語を近いベクトルに対応させて、単語を有限の高次元（例えば、１００～３００次元）の数値ベクトルで表現したベクトルである。つまり、単語分散表現ベクトルは、単語の意味を捉えているような性質を有する。図２には、“犬／が／歩いて／いる／。”という単語に対応した単語分散表現ベクトルの一例を示した（例えば、３００次元）。

単語素性ベクトル生成手段１２は、予め設定した辞書を参照し、少なくとも各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成するものである。本実施形態では、単語素性ベクトル生成手段１２は、ＵｎｉＤｉｃなどの一般的な辞書を参照し、単語分割手段１０が分割した各単語に対する単語素性を取得し、単語素性ベクトルを生成する。そして、単語素性ベクトル生成手段１２は、生成した単語素性ベクトルをアクセント位置推定手段１３に出力する。

この単語素性ベクトルは、単独発話アクセント位置などの各単語の素性を表すベクトルである。さらに、単語素性ベクトルは、単語のモーラ数、品詞又は活用形の何れか１以上が含まれてもよい。本実施形態では、単語素性ベクトルは、各単語の素性として、各単語の品詞、活用形、モーラ数及び単独発話アクセント位置が含まれることとする。図３には、単語“仙台”についての単語素性ベクトルの一例を図示した。

ここで、単語素性ベクトルは、Ｏｎｅ－Ｈｏｔベクトル形式で記述することとする。このＯｎｅ－Ｈｏｔベクトルは、ベクトルの全成分のうち、１つの成分が１で、残りの成分が０となるベクトルである。このように、Ｏｎｅ－Ｈｏｔベクトルを用いることで、深層学習モデルの学習が容易になる。図４には、各単語の品詞をＯｎｅ－Ｈｏｔベクトル形式で記述した例を図示した。この品詞分類は、ＵｎｉＤｉｃに準拠し、小分類の属性を用いる。また、図５には、各単語の活用形をＯｎｅ－Ｈｏｔベクトル形式で記述した例を図示した。

図３に示すように、単語“仙台”の単語素性ベクトルについて考える。単語“仙台”の品詞が地名なので、図４の大分類－名詞、中分類－固有名詞、小分類－地名に該当する。従って、この単語素性ベクトルの品詞は、｛０，０，０，０，０，０，０，０，１，０，…｝というＯｎｅ－Ｈｏｔベクトルで記述する。

また、単語“仙台”の活用形が変換なしなので、図５の小分類“語幹”に該当する。従って、この単語素性ベクトルの活用形は、｛１，０，０，０，０，０，０，０｝というＯｎｅ－Ｈｏｔベクトルで記述する。

また、単語“仙台”が４モーラ単語なので、この単語素性ベクトルのモーラ数は、｛０，０，０，１，０，０，０，…，０｝というＯｎｅ－Ｈｏｔベクトルで記述する。このモーラ数を表すＯｎｅ－Ｈｏｔベクトルは、その単語のモーラ数に対応する成分が１、それ以外の成分が０となっている。

また、単語“仙台”のアクセント位置が１モーラ目なので、この単語素性ベクトルのモーラ数は、｛０，１，０，０，０，０，０，…，０｝というＯｎｅ－Ｈｏｔベクトルで記述する。このアクセント位置を表すＯｎｅ－Ｈｏｔベクトルは、その単語のアクセント位置に対応する成分が１、それ以外の成分が０となっている。なお、アクセント位置を表すＯｎｅ－Ｈｏｔベクトルは、単語にアクセントがない場合、先頭の成分が１となる。

ここで、品詞を表すＯｎｅ－Ｈｏｔベクトルが５２次元、活用形を表すＯｎｅ－Ｈｏｔベクトルが９次元、モーラ数及び単独発話アクセント位置を表すＯｎｅ－Ｈｏｔベクトルが３０次元である。従って、単語素性ベクトルは、これらを合計した１２１次元のＯｎｅ－Ｈｏｔベクトルとなる。

図１に戻り、アクセント位置推定装置１の構成について説明を続ける。
アクセント位置推定手段１３は、予め学習した深層学習モデルを用いて、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルから日本語テキストのアクセント位置を推定するものである。本実施形態では、深層学習モデルを、双方向ＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ）で生成したこととする。この他、深層学習モデルは、畳み込みニューラルネット（ＣＮＮ：Convolutional Neural Network）、Ｔｒａｎｓｆｏｒｍｅｒなどの一般的な深層学習で生成してもよい。

＜アクセント位置の推定＞
図６を参照し、アクセント位置推定手段１３によるアクセント位置の推定を説明する。
前記したように、単語分散表現ベクトル生成手段１１は、日本語テキストの単語系列から、３００次元×単語数の単語分散表現ベクトルＶ_Ｗを生成したこととする。また、単語素性ベクトル生成手段１２は、日本語テキストの単語系列から、１２１次元×単語数の単語素性ベクトルＶ_ｍｏｒａを生成したこととする。

まず、アクセント位置推定手段１３は、単語分散表現ベクトルＶ_Ｗと単語素性ベクトルＶ_ｍｏｒａを連結し、３００＋１２１次元×単語数の特徴ベクトルＶ_{Ｗ＋ｍｏｒａ}を生成する。次に、アクセント位置推定手段１３は、メモリ（不図示）に記憶されている深層学習モデル１３０に特徴ベクトルＶ_{Ｗ＋ｍｏｒａ}を入力する。すると、深層学習モデル１３０から位置ラベル１３１が得られるので、アクセント位置推定手段１３は、この位置ラベル１３１をアクセント位置の推定結果として出力する。この位置ラベル１３１は、各単語の何モーラ目にアクセント位置があるかを表すラベルであり、例えば、３０次元×単語数のラベルとなる。例えば、位置ラベル１３１は、白丸及び黒丸が各モーラに対応しており、白丸がアクセントでなく、黒丸がアクセントであることを表している。図６の位置ラベル１３１は、１単語目で３番目の要素が黒丸なので、アクセント位置が３モーラ目にあることを表している。

［アクセント位置推定装置の構成：学習モード］
図１に戻り、アクセント位置推定装置１の学習モードについて、推定モードと異なる点を説明する。
なお、学習モードで動作するアクセント位置推定装置１及びアクセント位置推定手段１３をそれぞれ、アクセント位置学習装置１Ｂ及びアクセント位置学習手段１３Ｂと呼ぶ場合がある。

学習モードでは、深層学習モデル１３０を学習するための教師データがアクセント位置推定装置１に入力される。この教師データは、文単位の日本語テキストと、日本語テキストのアクセント位置を表す正解ラベルとの組である。この正解ラベルは、日本語テキストを構成する各単語について、その単語の何モーラ目にアクセントがあるかを表すラベルである。

ここで、単語分割手段１０、単語分散表現ベクトル生成手段１１及び単語素性ベクトル生成手段１２は、教師データに含まれる日本語テキストを処理対象とする以外、推定モードと同様のため、詳細な説明を省略する。

アクセント位置推定手段１３は、正解ラベルと、単語分散表現ベクトルＶ_Ｗと単語素性ベクトルＶ_ｍｏｒａとを連結した特徴ベクトルＶ_{Ｗ＋ｍｏｒａ}とを用いて、深層学習モデル１３０を学習するものである。ここで、アクセント位置推定手段１３は、誤差伝搬法などの一般的な手法で深層学習モデル１３０を学習できる。具体的には、アクセント位置推定手段１３は、特徴ベクトルＶ_{Ｗ＋ｍｏｒａ}を深層学習モデル１３０に入力し、深層学習モデル１３０の推定結果と正解ラベルのアクセント位置との誤差が少なくなるように深層学習モデル１３０のパラメータを学習する。その後、アクセント位置推定手段１３は、学習した深層学習モデル１３０をメモリ（不図示）に記憶する。

［アクセント位置推定装置の動作：推定モード］
図７を参照し、アクセント位置推定装置１の推定モードの動作を説明する。
図７に示すように、ステップＳ１において、推定対象の日本語テキストをアクセント位置推定装置１に入力する。

ステップＳ２において、単語分割手段１０は、日本語テキストを各単語に分割する。また、単語分散表現ベクトル生成手段１１は、日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する。そして、単語素性ベクトル生成手段１２は、辞書を参照して、日本語テキストに含まれる各単語の単語素性ベクトルを生成する。さらに、アクセント位置推定手段１３は、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルを生成する。

ステップＳ３において、アクセント位置推定手段１３は、深層学習モデル１３０を用いて、特徴ベクトルから日本語テキストのアクセント位置を推定する。
ステップＳ４において、アクセント位置推定手段１３は、ステップＳ３の推定結果を出力する。

ステップＳ５において、アクセント位置推定装置１は、推定を終了するか否かを判定する。例えば、アクセント位置推定装置１は、日本語テキストに含まれる全単語のアクセント位置を推定した後、推定を終了すると判定する。

推定を終了する場合（ステップＳ５でＹｅｓ）、アクセント位置推定装置１は、推定モードを終了する。
推定を終了しない場合（ステップＳ５でＮｏ）、アクセント位置推定装置１は、ステップＳ１の処理に戻る。

［アクセント位置推定装置の動作：学習モード］
図８を参照し、アクセント位置推定装置１の学習モードの動作を説明する。
図８に示すように、ステップＳ１０において、教師データをアクセント位置推定装置１に入力する。

ステップＳ１１において、単語分割手段１０は、教師データの日本語テキストを各単語に分割する。また、単語分散表現ベクトル生成手段１１は、教師データの日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する。そして、単語素性ベクトル生成手段１２は、辞書を参照して、教師データの日本語テキストに含まれる各単語の単語素性ベクトルを生成する。さらに、アクセント位置推定手段１３は、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルを生成する。

ステップＳ１２において、アクセント位置推定手段１３は、特徴ベクトルを深層学習モデル１３０に入力し、深層学習モデル１３０から推定結果（アクセント位置）を取得する。

ステップＳ１３において、アクセント位置推定手段１３は、深層学習モデル１３０の推定結果と正解ラベルのアクセント位置との誤差が少なくなるように深層学習モデル１３０のパラメータを学習する。

ステップＳ１４において、アクセント位置推定装置１は、学習を終了するか否かを判定する。例えば、アクセント位置推定装置１は、深層学習モデル１３０のパラメータが更新されなくなった場合、学習を終了すると判定する。

学習を終了する場合（ステップＳ１４でＹｅｓ）、アクセント位置推定装置１は、ステップＳ１５の処理に進む。
学習を終了しない場合（ステップＳ１４でＮｏ）、アクセント位置推定装置１は、ステップＳ１０の処理に戻る。
ステップＳ１５において、アクセント位置推定装置１は、深層学習モデル１３０をメモリに記憶し、学習モードを終了する。

［作用・効果］
以上のように、アクセント位置推定装置１は、学習モードにおいて、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルを学習に使用する。これにより、アクセント位置推定装置１は、アクセント位置の推定精度が高い深層学習モデル１３０を生成できる。

さらに、アクセント位置推定装置１は、推定モードにおいて、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルが反映された深層学習モデル１３０を用いる。これにより、アクセント位置推定装置１は、アクセント位置の推定精度を向上させることができる。

例えば、アクセント位置推定装置１が高精度にアクセント位置を推定できるので、合成音声作成時におけるアクセントの誤りを容易に修正できるので、ニュース番組などのコンテンツ制作を省力化できる。

（変形例）
以上、実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

前記した実施形態では、アクセント位置推定装置とアクセント位置学習装置とが同一の装置であることとして説明したが、これに限定されない。つまり、アクセント位置推定装置とアクセント位置学習装置とが別々の装置であってもよい。

前記した実施形態では、アクセント位置推定装置及びアクセント位置学習装置に日本語テキスト（日本語文）が入力されることとして説明したが、日本語テキストを単語に分割した単語系列を入力してもよい。この場合、アクセント位置推定装置及びアクセント位置学習装置は、単語分割手段を備えずともよい。

前記した実施形態では、アクセント位置推定装置及びアクセント位置学習装置がハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記したアクセント位置推定装置又はアクセント位置学習装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、ＣＤ－ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

１アクセント位置推定装置
１Ｂアクセント位置学習装置
１０単語分割手段
１１単語分散表現ベクトル生成手段
１２単語素性ベクトル生成手段
１３アクセント位置推定手段
１３Ｂアクセント位置学習手段

本発明は、日本語テキストのアクセント位置を推定するアクセント位置推定装置、アクセント位置学習装置及びそれらのプログラムに関する。

Claims

日本語テキストのアクセント位置を推定するアクセント位置推定装置であって、
前記日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する単語分散表現ベクトル生成手段と、
予め設定した辞書を参照し、少なくとも前記各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する単語素性ベクトル生成手段と、
予め学習した深層学習モデルを用いて、前記単語分散表現ベクトルと前記単語素性ベクトルとを連結した特徴ベクトルから前記日本語テキストのアクセント位置を推定するアクセント位置推定手段と、
を備えることを特徴とするアクセント位置推定装置。
前記単語素性ベクトルは、さらに、前記各単語のモーラ数、品詞又は活用形の何れか１以上が含まれることを特徴とする請求項１に記載のアクセント位置推定装置。
前記日本語テキストを前記各単語に分割する単語分割手段、をさらに備え、
前記単語分散表現ベクトル生成手段は、前記単語分割手段が分割した各単語の単語分散表現ベクトルを生成することを特徴とする請求項１に記載のアクセント位置推定装置。
日本語テキストと前記日本語テキストのアクセント位置を表す正解ラベルとの組である教師データを用いて、前記日本語テキストのアクセント位置を推定するための深層学習モデルを学習するアクセント位置学習装置であって、
前記教師データに含まれる各単語の単語分散表現ベクトルを生成する単語分散表現ベクトル生成手段と、
予め設定した辞書を参照し、少なくとも前記各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する単語素性ベクトル生成手段と、
前記正解ラベルと、前記単語分散表現ベクトルと前記単語素性ベクトルとを連結した特徴ベクトルとを用いて、前記深層学習モデルを学習するアクセント位置学習手段と、
を備えることを特徴とするアクセント位置学習装置。
前記単語素性ベクトルは、さらに、前記各単語のモーラ数、品詞又は活用形の何れか１以上が含まれることを特徴とする請求項４に記載のアクセント位置学習装置。
前記日本語テキストを前記各単語に分割する単語分割手段、をさらに備え、
前記単語分散表現ベクトル生成手段は、前記単語分割手段が分割した各単語の単語分散表現ベクトルを生成することを特徴とする請求項４に記載のアクセント位置学習装置。
コンピュータを、請求項１から請求項３の何れか一項に記載のアクセント位置推定装置として機能させるためのプログラム。
コンピュータを、請求項４から請求項６の何れか一項に記載のアクセント位置学習装置として機能させるためのプログラム。