JP2020166224A - 構音障害の音声明瞭度の改善システム及びその方法 - Google Patents

構音障害の音声明瞭度の改善システム及びその方法 Download PDF

Info

Publication number
JP2020166224A
JP2020166224A JP2019147606A JP2019147606A JP2020166224A JP 2020166224 A JP2020166224 A JP 2020166224A JP 2019147606 A JP2019147606 A JP 2019147606A JP 2019147606 A JP2019147606 A JP 2019147606A JP 2020166224 A JP2020166224 A JP 2020166224A
Authority
JP
Japan
Prior art keywords
corpus
dysarthria
speech
learning
improving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019147606A
Other languages
English (en)
Inventor
泰吉 林
Tay-Jyi Lin
泰吉 林
慶▲こう▼ 宋
Ching-Hau Sung
慶▲こう▼ 宋
哲嘉 白
Che-Chia Pai
哲嘉 白
經緯 葉
Ching-Wei Yeh
經緯 葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Chung Cheng University
Original Assignee
National Chung Cheng University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Chung Cheng University filed Critical National Chung Cheng University
Publication of JP2020166224A publication Critical patent/JP2020166224A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Percussion Or Vibration Massage (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Prostheses (AREA)

Abstract

【課題】構音障害の音声明瞭度を改善するシステムを提供する。【解決手段】構音障害の音声明瞭度の改善システム100において、対応する参考コーパス及び患者コーパスを含む一組のコーパス対を受信して、一組のコーパス対を同期コーパスに変換する構音障害化モジュールと、参考コーパス及び同期コーパスを受信して一組の学習用コーパスとし、学習用コーパスを用いて音声変換モデルの学習を行う音声変換モデル学習装置を有する。【選択図】図3

Description

本発明は、構音障害の音声変換技術、特に構音障害の音声明瞭度の改善システム及びその方法に関する。
アメリカ言語聴覚協会(ASHA)の研究によると、構音障害者はアメリカに約五百万人余りおり、そのうち、脳卒中(stroke)、脳性麻痺(cerebralpalsy)、パーキンソン病(Parkinson’sdisease)による患者がよく見られる。構音障害は、脳神経障害による疾病であり、その特徴として、発話に必要な力量、速度、安定性、発音の音色の異常、呂律が回らない、語句の理解困難、さらに日常生活への支障が挙げられる。百年以上にわたる研究を経て、現在、神経系障害の進行を遅らせる薬物、及び筋肉コントロール能力改善のリハビリ治療が開発されているものの、その効果は人によって異なり、通常本質上の改善が見受けられない。
上記事情を鑑み、研究者達は、音声変換関連技術に基づいて、患者の音声を音声変換モデルにより健常者の音声に変換することで、構音障害者の音声の明晰度、明瞭度を強化させることを次々提案している。しかしながら、構音障害に対して従来の音声変換プロセスの前処理を用いると効果が低く、また、音声変換モデルを学習するために、コーパス対を大量に用いる必要がある。よって、患者の体力及び発声上の困難により、学習用コーパスの取得が容易ではなかった。
患者の音声を音声変換システムにより明晰化することで、コミュニケーション障害を改善できる。過去よく見られた手段としては、「ガウス混合モデル(GMM)」及び「ディープニューラルネットワーク(DNN)」が挙げられる。そのうち、「ガウス混合モデル(GMM)」は、参考コーパスと患者コーパスの音声特徴(例えば、発音の音色、発音の音高)を抜き出して、それらの特徴の関連性を見つけることで、参考コーパスの音声特徴を患者コーパスの音声特徴にマッピングするために用いる。また、関連性を見つけるために由来語句と目標語句をアライメントさせる必要がある。また、「ディープニューラルネットワーク(DNN)」は、音声をフレーム化処理させ、同一時間領域での由来音声及び目標音声に対応するフレームの関連性をニューラルネットワークで記憶させる。フレームの時間単位がミリ秒単位という短い時間であるため、由来音声と目標音声の内容をフレームでアライメントする際に僅かに偏差を有し、その変換効果に明らかな影響を及ぼす。
上記から分かるように、「音声モデルの学習用資料アライメント」は、変換効果に影響をもたらす要素の一つである。過去よく見られた技術において、大抵2つのコーパスの時間領域関連性を分析することで、「コーパス内容アライメント」を行う。例を挙げると、動的時間伸縮法(Dynamic Time Warping、DTW)は、2つの異なる長さの時系列の類似度を計算する方法であり、時間軸上の各時点の拡大縮小を行い、2つの時系列の状態をできる限り一致させる。また、ピッチ同期重畳加算(Pitch Synchronous Overlapand Add、PSLOA)は、音声合成に使用するデジタル信号処理技術であり、音声信号を複数フレームに分割し、重畳加算法により音声信号の音色又は持続時間を変える。
従来の音声変換システムでは、学習用コーパスのアライメントは、より良い学習及び変換の品質をもたらすことから、関連する音声アライメント技術(例えば、上記のDTW、PSLOA等)はよく学習用コーパスの前処理に利用される。しかしながら、このような音声アライメント技術は、完全なるアライメントを達成できず、不完全なアライメント音声データが生成され構音障害患者の音声変換システム10に利用される。図1に示すように、患者の音声が通常、発音が不明瞭であるから、上記音声アライメント技術40が達成できる変換効果に限りが有り、騒音又は遺漏の現象が起こりやすい。そのため、実務上、手動で参考コーパス20及び患者コーパス30の内容をアライメントする必要がある。よって、高い人的コスト及び時間的コストがかかる。
本発明の目的は、使用者が、参考コーパス及び患者コーパスからの一組のコーパス対を提供するだけで、参考コーパスと完全に同期する一組の新しいコーパスを構音障害化モジュールにより生成し、それを構音障害者の音声変換システムの学習用コーパスとして音声変換モデルの学習に用いられることで、モデルの学習及び変換の品質を向上させる、構音障害の音声明瞭度の改善システム及びその方法を提供することにある。
本発明のもう一つの目的は、学習用同期コーパスを構音障害化モジュールにより生成し、従来のコーパスアライメント技術による前処理を要さず、手動アライメントの人的コスト及び時間的コストを節約すると同時に、コーパス生成工程の自動化を達成できる、構音障害の音声明瞭度の改善システム及びその方法を提供することにある。
上記目的を実現するために、本発明は、構音障害化モジュール及び音声変換モデル学習装置により構成される、構音障害の音声明瞭度の改善システムを提供する。そのうち、構音障害化モジュールは、同じスクリプト内の参考コーパス及び患者コーパスを含む一組のコーパス対を受信し、前記一組のコーパス対を同期コーパスに変換する。音声変換モデル学習装置は、参考コーパス及び同期コーパスを一組の学習用コーパスとして受信し、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う。
また、本発明は、同じスクリプト内の参考コーパス及び患者コーパスを含む一組のコーパス対を提供する工程、前記一組のコーパス対を同期コーパスに変換する工程、及び前記参考コーパス及び前記同期コーパスを一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程を有する、構音障害の音声明瞭度の改善方法を提供する。
本発明の実施例によれば、コーパス対を同期コーパスに変換する方法は、ガウス混合モデル(GMM)又はディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させ、もしくは、複数音声の特徴パラメータを抜き出し音声合成技術によって実現させる。
本発明の実施例によれば、学習用コーパスを用いて音声変換モデルの学習を行う方法は、ガウス混合モデル(GMM)又はディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させる。
本発明の構音障害の音声明瞭度の改善システム及びその方法によれば、参考コーパスを加工した新しいコーパスを学習用コーパスとするため、新しいコーパスと参考コーパスを完全に同期させ、音声変換モデルの学習及び変換の品質を向上させる。なお、本発明は、従来のコーパスアライメント技術を用いて前処理を行う必要がなく、手動アライメントの人的コスト及び時間的コストを節約するだけでなく、コーパス生成工程の自動化を達成できる。
以下、本発明の目的、技術内容、特徴及び達成できる効果を更に理解するために、具体的な実施例及び図面により説明する。
従来の構音障害音声変換システムを示す模式図。 本発明の実施例の構音障害の音声明瞭度の改善方法のプロセスチャート模式図。 本発明の実施例の構音障害の音声明瞭度の改善システムのブロック模式図。 従来の構音障害音声変換システムが如何に改良コーパスを生成するかを示す模式図。 本発明の実施例の構音障害の音声明瞭度の改善システムが如何に改良コーパスを生成するかを示す模式図。
「第1」、「第2」、「第3」等の用語が使われているが、あくまで各要素を区別するために付けられている。各要素は、それらの用語に制限されていない。そのため、本案の開示内容を逸脱しない限り、第1要素を第2要素と称しても構わない。なお、「及び/又は」は、全ての可能な選択、又はその組み合わせである。2つ以上の要素又は層の関係を「上に」、「連結」、「結合」等の用語で表する場合、直接に、又は他の要素又は層を介することである。それに対し、「上に直接に」、「直接連結」、「直接結合」等の場合、他の要素を介してないことである。
従来の音声変換システムは、変換モデルの学習を行う前に一般的な音声アライメント技術(例えばDTW、PSLOA等)によって学習用コーパスをアライメントする。それに対して、本発明の構音障害の音声明瞭度の改善システム及びその方法において、従来の音声変換システムの音声アライメント関連技術を構音障害化モジュールに置換することで、変換モデル学習用に用いる同期コーパスを自動に生成でき、音声アライメント技術又は手動方式で学習用コーパスをアライメントさせる必要がなく、大量の時間的コスト及び人的コストを節約するだけでなく、更に学習用コーパスを完全に同期させる。
図2は本発明の実施例の構音障害の音声明瞭度の改善方法を実現するプロセスである。図2において、以下の工程を含む。
工程S101において、同じスクリプト内の参考コーパス及び患者コーパスを含む一組のコーパスを提供する。
本発明の実施例において、参考者からの音声信号を参考コーパスとして、患者コーパス(即ち構音障害者)からの音声信号を患者コーパスとして収集する。
工程S102において、収集したコーパス対を同期コーパスに変換する。
本発明の実施例において、前記同期コーパスは、コーパス対を変換し生成した新しいコーパスであり、参考コーパスを加工し取得するものであるため、元々の話す速度を保持している。そのため、生成した新しいコーパス及び参考コーパスを完全に同期することを達成できる。
本発明の実施例において、コーパス対を同期コーパスに変換する工程は、ガウス混合モデル(GMM)に基づく音声変換システムによって実現させ、また、ディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させ、もしくは、複数音声の特徴パラメータを抜き出し音声合成技術によって実現させる。それら音声の特徴パラメータは、具体的にジッタ(jitter)及びシマー(shimmer)等を含有する。
工程S103において、元の参考コーパス及び新しい同期コーパスを一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う。学習された音声変換モデルによって、構音障害の音声明瞭度を改善するという目的を達成する。
本発明の実施例において、学習用コーパスを用いて音声変換モデルの学習を行う工程は、ガウス混合モデル(GMM)に基づく音声変換システムによって実現させ、もしくは、ディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させる。
図3は、本発明実施例の構音障害の音声明瞭度の改善システムの構成を示す。説明の便宜上、本発明の実施例と関連する部分のみを示す。前記構音障害の音声明瞭度の改善システム100は、構音障害化モジュール110及び音声変換モデル学習装置120を備える。
構音障害化モジュール110は、参考者からの音声信号である参考コーパス111、及び患者コーパス(即ち構音障害者)からの音声信号である患者コーパス112を受信するために用い、対応する参考コーパス111及び患者コーパス112を含む一組のコーパス対を同期コーパス113に変換する。
本発明の実施例において、構音障害化モジュール110は、ガウス混合モデル(GMM)又はディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させ、もしくは、複数音声の特徴パラメータを抜き出し音声合成技術によって実現させる。それら音声の特徴パラメータは、具体的にジッタ(jitter)及びシマー(shimmer)等を含有する。
音声変換モデル学習装置120は、参考コーパス111及び同期コーパス113を一組の学習用コーパスとして受信するために用いる。前記一組の学習用コーパスを用いて音声変換モデルの学習を行うことにより、音声変換モデルの学習及び変換の品質を向上させる。
本発明の実施例において、音声変換モデル学習装置120は、ガウス混合モデル(GMM)又はディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させる。
図4及び図5は、従来の構音障害音声変換システム及び本発明の実施例が如何に構音障害患者の参考コーパスを変換して改良コーパスを得るかをそれぞれ表す。図4に示すように、構音障害患者に用いられる従来の音声変換システムでは、通常、一般音声アライメント技術(例えばDTWやPSLOA)の前処理により参考コーパス及び患者コーパスの特徴をアライメントする必要がある。その音声変換後の従来の音声変換結果はフレームでのアライメントに僅かな誤差が有る。また、図5に示すように、本発明の使用者は、参考コーパス及び患者コーパスを含むコーパス対を提供するだけで、フレームで参考コーパスと完全に同期する一組の新しいコーパスをシステムにより生成し、それを音声変換モデルの学習用コーパスとすることで、音声変換モデルの学習及び変換後の改良コーパスの品質を大幅に向上させる。
結論として、本発明の構音障害の音声明瞭度の改善システム及びその方法によれば、学習用同期コーパスを構音障害化モジュールにより生成する方法は、従来の方法と比べ、従来の音声変換システムの音声アライメント技術によって学習用コーパスの前処理を行うことを要さないだけでなく、手動アライメントの人的コスト及び時間的コストを節約し、更にコーパスの生成工程の自動化を達成できる。また、構音障害化モジュールによって生成される同期コーパスは、参考コーパスを加工したものであるため、元々の話す速度を保持している。そのため、新しい同期コーパスと参考コーパスが完全に同期できる。システムは、前記同期コーパス及び参考コーパスを学習用コーパスとして、参考者及び患者コーパス(構音障害者)の音声変換モデルの学習を行い、構音障害の音声明瞭度の改善を達成する。また、本発明において、音声変換モデルの学習及び変換の品質をさらに向上できることが実証された。
上記実施例の説明は、あくまで本発明の技術的な思想及び特徴を理解し、当業者が本発明の内容を理解して実施することができるための説明であり、本発明の請求の範囲を限定するものではない。本発明に基づく均等な置換及び改良は、当然、本発明の請求の範囲に含まれるものとする。
10 音声変換システム
20 参考コーパス
30 患者コーパス
40 音声アライメント技術(DTW/PSLOA)
100 構音障害の音声明瞭度の改善システム
110 構音障害化モジュール
111 参考コーパス
112 患者コーパス
113 同期コーパス
120 音声変換モデル学習装置

Claims (14)

  1. 構音障害化モジュール及び音声変換モデル学習装置を備え、
    前記構音障害化モジュールは、対応する参考コーパス及び患者コーパスを含む一組のコーパス対を受信して、前記一組のコーパス対を同期コーパスに変換し、
    前記音声変換モデル学習装置は、前記参考コーパス及び前記同期コーパスを受信して一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行うことを特徴とする、構音障害の音声明瞭度の改善システム。
  2. 前記構音障害化モジュールは、ガウス混合モデル(GMM)に基づく音声変換システムによって実現させる、請求項1に記載の構音障害の音声明瞭度の改善システム。
  3. 前記構音障害化モジュールは、ディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させる、請求項1に記載の構音障害の音声明瞭度の改善システム。
  4. 前記構音障害化モジュールは、複数の音声の特徴パラメータを抜き出し音声合成技術によって実現させる、請求項1に記載の構音障害の音声明瞭度の改善システム。
  5. 前記音声の特徴パラメータが、ジッタ(jitter)及びシマー(shimmer)を含む、請求項4に記載の構音障害の音声明瞭度の改善システム。
  6. 前記音声変換モデル学習装置は、ガウス混合モデル(GMM)に基づく音声変換システムによって実現させる、請求項1に記載の構音障害の音声明瞭度の改善システム。
  7. 前記音声変換モデル学習装置は、ディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させる、請求項1に記載の構音障害の音声明瞭度の改善システム。
  8. 対応する参考コーパス及び患者コーパスを含む一組のコーパス対を提供する工程、
    前記一組のコーパス対を同期コーパスに変換する工程、及び
    前記参考コーパス及び前記同期コーパスを一組の学習用コーパスとし、前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程を有する、構音障害の音声明瞭度の改善方法。
  9. 前記一組のコーパス対を同期コーパスに変換する工程が、ガウス混合モデル(GMM)に基づく音声変換システムによって実現させる、請求項8に記載の構音障害の音声明瞭度の改善方法。
  10. 前記一組のコーパス対を同期コーパスに変換する工程が、ディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させる、請求項8に記載の構音障害の音声明瞭度の改善方法。
  11. 前記一組のコーパス対を同期コーパスに変換する工程が、複数の音声の特徴パラメータを抜き出し音声合成技術によって実現させる、請求項8に記載の構音障害の音声明瞭度の改善方法。
  12. 前記音声の特徴パラメータが、ジッタ(jitter)及びシマー(shimmer)を含む、請求項11に記載の構音障害の音声明瞭度の改善方法。
  13. 前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程が、ガウス混合モデル(GMM)に基づく音声変換システムによって実現させる、請求項8に記載の構音障害の音声明瞭度の改善方法。
  14. 前記一組の学習用コーパスを用いて音声変換モデルの学習を行う工程が、ディープニューラルネットワーク(DNN)に基づく音声変換システムによって実現させる、請求項8に記載の構音障害の音声明瞭度の改善方法。
JP2019147606A 2019-03-28 2019-08-09 構音障害の音声明瞭度の改善システム及びその方法 Pending JP2020166224A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW108111066A TWI754804B (zh) 2019-03-28 2019-03-28 改善構音異常語音理解度之系統與方法
TW108111066 2019-03-28

Publications (1)

Publication Number Publication Date
JP2020166224A true JP2020166224A (ja) 2020-10-08

Family

ID=72604660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019147606A Pending JP2020166224A (ja) 2019-03-28 2019-08-09 構音障害の音声明瞭度の改善システム及びその方法

Country Status (3)

Country Link
US (1) US11328709B2 (ja)
JP (1) JP2020166224A (ja)
TW (1) TWI754804B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023032553A1 (ja) * 2021-09-02 2023-03-09 パナソニックホールディングス株式会社 構音異常検出方法、構音異常検出装置、及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320736B (zh) * 2018-01-31 2023-09-01 常熟理工学院 脑瘫康复机器人语音语义训练系统及方法
US11335324B2 (en) * 2020-08-31 2022-05-17 Google Llc Synthesized data augmentation using voice conversion and speech recognition models
TWI780738B (zh) * 2021-05-28 2022-10-11 宇康生科股份有限公司 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399044B (zh) * 2007-09-29 2013-09-04 纽奥斯通讯有限公司 语音转换方法和系统
US10529328B2 (en) * 2015-06-22 2020-01-07 Carnegie Mellon University Processing speech signals in voice-based profiling
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
US10127929B2 (en) * 2015-08-19 2018-11-13 Massachusetts Institute Of Technology Assessing disorders through speech and a computational model
US20170258390A1 (en) * 2016-02-12 2017-09-14 Newton Howard Early Detection Of Neurodegenerative Disease
CN105788589B (zh) * 2016-05-04 2021-07-06 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN107045876A (zh) * 2016-12-30 2017-08-15 南京邮电大学 一种基于语音的帕金森症严重程度诊断方法
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
US10354642B2 (en) * 2017-03-03 2019-07-16 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023032553A1 (ja) * 2021-09-02 2023-03-09 パナソニックホールディングス株式会社 構音異常検出方法、構音異常検出装置、及びプログラム

Also Published As

Publication number Publication date
US11328709B2 (en) 2022-05-10
TWI754804B (zh) 2022-02-11
TW202036535A (zh) 2020-10-01
US20200312302A1 (en) 2020-10-01

Similar Documents

Publication Publication Date Title
JP2020166224A (ja) 構音障害の音声明瞭度の改善システム及びその方法
Chen et al. Multispeech: Multi-speaker text to speech with transformer
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN107767879A (zh) 基于音色的音频转换方法及装置
Chen et al. Fine-grained style control in transformer-based text-to-speech synthesis
JP2024519739A (ja) 音声及びビデオの翻訳機
US11587561B2 (en) Communication system and method of extracting emotion data during translations
Zhou et al. Voice conversion with conditional SampleRNN
CN108806719A (zh) 交互式语言学习系统及其方法
CN109493846A (zh) 一种英语口音识别系统
CN109377986A (zh) 一种非平行语料语音个性化转换方法
CN113241065B (zh) 基于视觉面部轮廓运动的构音障碍语音识别方法及系统
Kurz et al. The impact of non-native English on information transfer in simultaneous interpretation
TWI749447B (zh) 同步語音產生裝置及其產生方法
CN109119064A (zh) 一种适用于翻转课堂的英语口语教学系统的实现方法
Johar Paralinguistic profiling using speech recognition
US20210158834A1 (en) Diagnosing and treatment of speech pathologies using analysis by synthesis technology
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
Li et al. Many-to-many voice conversion based on bottleneck features with variational autoencoder for non-parallel training data
TWI746138B (zh) 構音異常語音澄析裝置及其方法
CN114999448A (zh) 一种个性化语音的合成方法及系统
CN112992118B (zh) 一种少语料的语音模型训练及合成方法
CN109346058B (zh) 一种语音声学特征扩大系统
Patil et al. Voice Technologies for Speech Reconstruction and Enhancement
Lin et al. HIT-AVDB-II: A new multi-view and extreme feature cases contained audio-visual database for biometrics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210422

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210423

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210614

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210615

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210709

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210713

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20211214

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220510

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220906

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20221004

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20221004