JP2020166224A

JP2020166224A - 構音障害の音声明瞭度の改善システム及びその方法

Info

Publication number: JP2020166224A
Application number: JP2019147606A
Authority: JP
Inventors: 泰吉林; Tay-Jyi Lin; 慶▲こう▼ 宋; Ching-Hau Sung; 哲嘉白; Che-Chia Pai; 經緯葉; Ching-Wei Yeh
Original assignee: National Chung Cheng University
Current assignee: National Chung Cheng University
Priority date: 2019-03-28
Filing date: 2019-08-09
Publication date: 2020-10-08
Also published as: US11328709B2; TWI754804B; TW202036535A; US20200312302A1

Abstract

【課題】構音障害の音声明瞭度を改善するシステムを提供する。【解決手段】構音障害の音声明瞭度の改善システム１００において、対応する参考コーパス及び患者コーパスを含む一組のコーパス対を受信して、一組のコーパス対を同期コーパスに変換する構音障害化モジュールと、参考コーパス及び同期コーパスを受信して一組の学習用コーパスとし、学習用コーパスを用いて音声変換モデルの学習を行う音声変換モデル学習装置を有する。【選択図】図３

Description

本発明は、構音障害の音声変換技術、特に構音障害の音声明瞭度の改善システム及びその方法に関する。

アメリカ言語聴覚協会（ＡＳＨＡ）の研究によると、構音障害者はアメリカに約五百万人余りおり、そのうち、脳卒中（ｓｔｒｏｋｅ）、脳性麻痺（ｃｅｒｅｂｒａｌｐａｌｓｙ）、パーキンソン病（Ｐａｒｋｉｎｓｏｎ’ｓｄｉｓｅａｓｅ）による患者がよく見られる。構音障害は、脳神経障害による疾病であり、その特徴として、発話に必要な力量、速度、安定性、発音の音色の異常、呂律が回らない、語句の理解困難、さらに日常生活への支障が挙げられる。百年以上にわたる研究を経て、現在、神経系障害の進行を遅らせる薬物、及び筋肉コントロール能力改善のリハビリ治療が開発されているものの、その効果は人によって異なり、通常本質上の改善が見受けられない。

上記事情を鑑み、研究者達は、音声変換関連技術に基づいて、患者の音声を音声変換モデルにより健常者の音声に変換することで、構音障害者の音声の明晰度、明瞭度を強化させることを次々提案している。しかしながら、構音障害に対して従来の音声変換プロセスの前処理を用いると効果が低く、また、音声変換モデルを学習するために、コーパス対を大量に用いる必要がある。よって、患者の体力及び発声上の困難により、学習用コーパスの取得が容易ではなかった。

患者の音声を音声変換システムにより明晰化することで、コミュニケーション障害を改善できる。過去よく見られた手段としては、「ガウス混合モデル（ＧＭＭ）」及び「ディープニューラルネットワーク（ＤＮＮ）」が挙げられる。そのうち、「ガウス混合モデル（ＧＭＭ）」は、参考コーパスと患者コーパスの音声特徴（例えば、発音の音色、発音の音高）を抜き出して、それらの特徴の関連性を見つけることで、参考コーパスの音声特徴を患者コーパスの音声特徴にマッピングするために用いる。また、関連性を見つけるために由来語句と目標語句をアライメントさせる必要がある。また、「ディープニューラルネットワーク（ＤＮＮ）」は、音声をフレーム化処理させ、同一時間領域での由来音声及び目標音声に対応するフレームの関連性をニューラルネットワークで記憶させる。フレームの時間単位がミリ秒単位という短い時間であるため、由来音声と目標音声の内容をフレームでアライメントする際に僅かに偏差を有し、その変換効果に明らかな影響を及ぼす。

上記から分かるように、「音声モデルの学習用資料アライメント」は、変換効果に影響をもたらす要素の一つである。過去よく見られた技術において、大抵２つのコーパスの時間領域関連性を分析することで、「コーパス内容アライメント」を行う。例を挙げると、動的時間伸縮法（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ、ＤＴＷ）は、２つの異なる長さの時系列の類似度を計算する方法であり、時間軸上の各時点の拡大縮小を行い、２つの時系列の状態をできる限り一致させる。また、ピッチ同期重畳加算（ＰｉｔｃｈＳｙｎｃｈｒｏｎｏｕｓＯｖｅｒｌａｐａｎｄＡｄｄ、ＰＳＬＯＡ）は、音声合成に使用するデジタル信号処理技術であり、音声信号を複数フレームに分割し、重畳加算法により音声信号の音色又は持続時間を変える。

従来の音声変換システムでは、学習用コーパスのアライメントは、より良い学習及び変換の品質をもたらすことから、関連する音声アライメント技術（例えば、上記のＤＴＷ、ＰＳＬＯＡ等）はよく学習用コーパスの前処理に利用される。しかしながら、このような音声アライメント技術は、完全なるアライメントを達成できず、不完全なアライメント音声データが生成され構音障害患者の音声変換システム１０に利用される。図１に示すように、患者の音声が通常、発音が不明瞭であるから、上記音声アライメント技術４０が達成できる変換効果に限りが有り、騒音又は遺漏の現象が起こりやすい。そのため、実務上、手動で参考コーパス２０及び患者コーパス３０の内容をアライメントする必要がある。よって、高い人的コスト及び時間的コストがかかる。

本発明の目的は、使用者が、参考コーパス及び患者コーパスからの一組のコーパス対を提供するだけで、参考コーパスと完全に同期する一組の新しいコーパスを構音障害化モジュールにより生成し、それを構音障害者の音声変換システムの学習用コーパスとして音声変換モデルの学習に用いられることで、モデルの学習及び変換の品質を向上させる、構音障害の音声明瞭度の改善システム及びその方法を提供することにある。

本発明のもう一つの目的は、学習用同期コーパスを構音障害化モジュールにより生成し、従来のコーパスアライメント技術による前処理を要さず、手動アライメントの人的コスト及び時間的コストを節約すると同時に、コーパス生成工程の自動化を達成できる、構音障害の音声明瞭度の改善システム及びその方法を提供することにある。

上記目的を実現するために、本発明は、構音障害化モジュール及び音声変換モデル学習装置により構成される、構音障害の音声明瞭度の改善システムを提供する。そのうち、構音障害化モジュールは、同じスクリプト内の参考コーパス及び患者コーパスを含む一組のコーパス対を受信し、前記一組のコーパス対を同期コーパスに変換する。音声変換モデル学習装置は、参考コーパス及び同期コーパスを一組の学習用コーパスとして受信し、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う。

また、本発明は、同じスクリプト内の参考コーパス及び患者コーパスを含む一組のコーパス対を提供する工程、前記一組のコーパス対を同期コーパスに変換する工程、及び前記参考コーパス及び前記同期コーパスを一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程を有する、構音障害の音声明瞭度の改善方法を提供する。

本発明の実施例によれば、コーパス対を同期コーパスに変換する方法は、ガウス混合モデル（ＧＭＭ）又はディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させ、もしくは、複数音声の特徴パラメータを抜き出し音声合成技術によって実現させる。

本発明の実施例によれば、学習用コーパスを用いて音声変換モデルの学習を行う方法は、ガウス混合モデル（ＧＭＭ）又はディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させる。

本発明の構音障害の音声明瞭度の改善システム及びその方法によれば、参考コーパスを加工した新しいコーパスを学習用コーパスとするため、新しいコーパスと参考コーパスを完全に同期させ、音声変換モデルの学習及び変換の品質を向上させる。なお、本発明は、従来のコーパスアライメント技術を用いて前処理を行う必要がなく、手動アライメントの人的コスト及び時間的コストを節約するだけでなく、コーパス生成工程の自動化を達成できる。

以下、本発明の目的、技術内容、特徴及び達成できる効果を更に理解するために、具体的な実施例及び図面により説明する。

従来の構音障害音声変換システムを示す模式図。本発明の実施例の構音障害の音声明瞭度の改善方法のプロセスチャート模式図。本発明の実施例の構音障害の音声明瞭度の改善システムのブロック模式図。従来の構音障害音声変換システムが如何に改良コーパスを生成するかを示す模式図。本発明の実施例の構音障害の音声明瞭度の改善システムが如何に改良コーパスを生成するかを示す模式図。

「第１」、「第２」、「第３」等の用語が使われているが、あくまで各要素を区別するために付けられている。各要素は、それらの用語に制限されていない。そのため、本案の開示内容を逸脱しない限り、第１要素を第２要素と称しても構わない。なお、「及び/又は」は、全ての可能な選択、又はその組み合わせである。２つ以上の要素又は層の関係を「上に」、「連結」、「結合」等の用語で表する場合、直接に、又は他の要素又は層を介することである。それに対し、「上に直接に」、「直接連結」、「直接結合」等の場合、他の要素を介してないことである。
従来の音声変換システムは、変換モデルの学習を行う前に一般的な音声アライメント技術（例えばＤＴＷ、ＰＳＬＯＡ等）によって学習用コーパスをアライメントする。それに対して、本発明の構音障害の音声明瞭度の改善システム及びその方法において、従来の音声変換システムの音声アライメント関連技術を構音障害化モジュールに置換することで、変換モデル学習用に用いる同期コーパスを自動に生成でき、音声アライメント技術又は手動方式で学習用コーパスをアライメントさせる必要がなく、大量の時間的コスト及び人的コストを節約するだけでなく、更に学習用コーパスを完全に同期させる。

図２は本発明の実施例の構音障害の音声明瞭度の改善方法を実現するプロセスである。図２において、以下の工程を含む。

工程Ｓ１０１において、同じスクリプト内の参考コーパス及び患者コーパスを含む一組のコーパスを提供する。

本発明の実施例において、参考者からの音声信号を参考コーパスとして、患者コーパス（即ち構音障害者）からの音声信号を患者コーパスとして収集する。

工程Ｓ１０２において、収集したコーパス対を同期コーパスに変換する。

本発明の実施例において、前記同期コーパスは、コーパス対を変換し生成した新しいコーパスであり、参考コーパスを加工し取得するものであるため、元々の話す速度を保持している。そのため、生成した新しいコーパス及び参考コーパスを完全に同期することを達成できる。

本発明の実施例において、コーパス対を同期コーパスに変換する工程は、ガウス混合モデル（ＧＭＭ）に基づく音声変換システムによって実現させ、また、ディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させ、もしくは、複数音声の特徴パラメータを抜き出し音声合成技術によって実現させる。それら音声の特徴パラメータは、具体的にジッタ（ｊｉｔｔｅｒ）及びシマー（ｓｈｉｍｍｅｒ）等を含有する。

工程Ｓ１０３において、元の参考コーパス及び新しい同期コーパスを一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う。学習された音声変換モデルによって、構音障害の音声明瞭度を改善するという目的を達成する。

本発明の実施例において、学習用コーパスを用いて音声変換モデルの学習を行う工程は、ガウス混合モデル（ＧＭＭ）に基づく音声変換システムによって実現させ、もしくは、ディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させる。

図３は、本発明実施例の構音障害の音声明瞭度の改善システムの構成を示す。説明の便宜上、本発明の実施例と関連する部分のみを示す。前記構音障害の音声明瞭度の改善システム１００は、構音障害化モジュール１１０及び音声変換モデル学習装置１２０を備える。

構音障害化モジュール１１０は、参考者からの音声信号である参考コーパス１１１、及び患者コーパス（即ち構音障害者）からの音声信号である患者コーパス１１２を受信するために用い、対応する参考コーパス１１１及び患者コーパス１１２を含む一組のコーパス対を同期コーパス１１３に変換する。

本発明の実施例において、構音障害化モジュール１１０は、ガウス混合モデル（ＧＭＭ）又はディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させ、もしくは、複数音声の特徴パラメータを抜き出し音声合成技術によって実現させる。それら音声の特徴パラメータは、具体的にジッタ（ｊｉｔｔｅｒ）及びシマー（ｓｈｉｍｍｅｒ）等を含有する。

音声変換モデル学習装置１２０は、参考コーパス１１１及び同期コーパス１１３を一組の学習用コーパスとして受信するために用いる。前記一組の学習用コーパスを用いて音声変換モデルの学習を行うことにより、音声変換モデルの学習及び変換の品質を向上させる。

本発明の実施例において、音声変換モデル学習装置１２０は、ガウス混合モデル（ＧＭＭ）又はディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させる。

図４及び図５は、従来の構音障害音声変換システム及び本発明の実施例が如何に構音障害患者の参考コーパスを変換して改良コーパスを得るかをそれぞれ表す。図４に示すように、構音障害患者に用いられる従来の音声変換システムでは、通常、一般音声アライメント技術（例えばＤＴＷやＰＳＬＯＡ）の前処理により参考コーパス及び患者コーパスの特徴をアライメントする必要がある。その音声変換後の従来の音声変換結果はフレームでのアライメントに僅かな誤差が有る。また、図５に示すように、本発明の使用者は、参考コーパス及び患者コーパスを含むコーパス対を提供するだけで、フレームで参考コーパスと完全に同期する一組の新しいコーパスをシステムにより生成し、それを音声変換モデルの学習用コーパスとすることで、音声変換モデルの学習及び変換後の改良コーパスの品質を大幅に向上させる。

結論として、本発明の構音障害の音声明瞭度の改善システム及びその方法によれば、学習用同期コーパスを構音障害化モジュールにより生成する方法は、従来の方法と比べ、従来の音声変換システムの音声アライメント技術によって学習用コーパスの前処理を行うことを要さないだけでなく、手動アライメントの人的コスト及び時間的コストを節約し、更にコーパスの生成工程の自動化を達成できる。また、構音障害化モジュールによって生成される同期コーパスは、参考コーパスを加工したものであるため、元々の話す速度を保持している。そのため、新しい同期コーパスと参考コーパスが完全に同期できる。システムは、前記同期コーパス及び参考コーパスを学習用コーパスとして、参考者及び患者コーパス（構音障害者）の音声変換モデルの学習を行い、構音障害の音声明瞭度の改善を達成する。また、本発明において、音声変換モデルの学習及び変換の品質をさらに向上できることが実証された。

上記実施例の説明は、あくまで本発明の技術的な思想及び特徴を理解し、当業者が本発明の内容を理解して実施することができるための説明であり、本発明の請求の範囲を限定するものではない。本発明に基づく均等な置換及び改良は、当然、本発明の請求の範囲に含まれるものとする。

１０音声変換システム
２０参考コーパス
３０患者コーパス
４０音声アライメント技術（ＤＴＷ/ＰＳＬＯＡ）
１００構音障害の音声明瞭度の改善システム
１１０構音障害化モジュール
１１１参考コーパス
１１２患者コーパス
１１３同期コーパス
１２０音声変換モデル学習装置

Claims

構音障害化モジュール及び音声変換モデル学習装置を備え、
前記構音障害化モジュールは、対応する参考コーパス及び患者コーパスを含む一組のコーパス対を受信して、前記一組のコーパス対を同期コーパスに変換し、
前記音声変換モデル学習装置は、前記参考コーパス及び前記同期コーパスを受信して一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行うことを特徴とする、構音障害の音声明瞭度の改善システム。
前記構音障害化モジュールは、ガウス混合モデル（ＧＭＭ）に基づく音声変換システムによって実現させる、請求項１に記載の構音障害の音声明瞭度の改善システム。
前記構音障害化モジュールは、ディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させる、請求項１に記載の構音障害の音声明瞭度の改善システム。
前記構音障害化モジュールは、複数の音声の特徴パラメータを抜き出し音声合成技術によって実現させる、請求項１に記載の構音障害の音声明瞭度の改善システム。
前記音声の特徴パラメータが、ジッタ（ｊｉｔｔｅｒ）及びシマー（ｓｈｉｍｍｅｒ）を含む、請求項４に記載の構音障害の音声明瞭度の改善システム。
前記音声変換モデル学習装置は、ガウス混合モデル（ＧＭＭ）に基づく音声変換システムによって実現させる、請求項１に記載の構音障害の音声明瞭度の改善システム。
前記音声変換モデル学習装置は、ディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させる、請求項１に記載の構音障害の音声明瞭度の改善システム。
対応する参考コーパス及び患者コーパスを含む一組のコーパス対を提供する工程、
前記一組のコーパス対を同期コーパスに変換する工程、及び
前記参考コーパス及び前記同期コーパスを一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程を有する、構音障害の音声明瞭度の改善方法。
前記一組のコーパス対を同期コーパスに変換する工程が、ガウス混合モデル（ＧＭＭ）に基づく音声変換システムによって実現させる、請求項８に記載の構音障害の音声明瞭度の改善方法。
前記一組のコーパス対を同期コーパスに変換する工程が、ディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させる、請求項８に記載の構音障害の音声明瞭度の改善方法。
前記一組のコーパス対を同期コーパスに変換する工程が、複数の音声の特徴パラメータを抜き出し音声合成技術によって実現させる、請求項８に記載の構音障害の音声明瞭度の改善方法。
前記音声の特徴パラメータが、ジッタ（ｊｉｔｔｅｒ）及びシマー（ｓｈｉｍｍｅｒ）を含む、請求項１１に記載の構音障害の音声明瞭度の改善方法。
前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程が、ガウス混合モデル（ＧＭＭ）に基づく音声変換システムによって実現させる、請求項８に記載の構音障害の音声明瞭度の改善方法。
前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程が、ディープニューラルネットワーク（ＤＮＮ）に基づく音声変換システムによって実現させる、請求項８に記載の構音障害の音声明瞭度の改善方法。