JP2004264856A - 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 - Google Patents
最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 Download PDFInfo
- Publication number
- JP2004264856A JP2004264856A JP2004056726A JP2004056726A JP2004264856A JP 2004264856 A JP2004264856 A JP 2004264856A JP 2004056726 A JP2004056726 A JP 2004056726A JP 2004056726 A JP2004056726 A JP 2004056726A JP 2004264856 A JP2004264856 A JP 2004264856A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- phoneme
- classification
- optimal
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
【解決手段】 (a) 初期に生成または更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂される時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、(b) 前記(a)段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正結果を反映した最終ラベルファイルを生成する段階とを含む最適区画の分類神経網を用いた自動ラベリング方法である。
【選択図】 図1
Description
また、ラベリングとは、前記した検索を可能にするため、音声学的に多様な区分に関する付加情報を与えることであり、このラベリングの単位として音素、単語、語節、文章などがある。
"Neural Network Boundary Refining for Automatic Speech Segmentation,"Proceedings of ICASSP-2000,pp.3438-3441,2000(D.T.Toledano) "Automatic Speech Synthesis Unit Generation with MLP based postprocessora gainst auto-segmented phone errors,"Proceedings of International Joint Conferenceon Neural Networks,pp.2985-2990,1999(E.-Y.Park,S.-H.Kim及びJ.-H.Chung)
本発明が解決しようとする他の技術的課題は、隣接する左右音素の境界を前記多層パーセプトロン構造の最適区画の分類神経網に基づいて修正することによって迅速かつ正確に自動ラベリングを行うための方法及び装置を提供するところにある。
図1は、本発明の一実施形態に係る自動ラベリング装置の構成を示すブロック図であって、ラベリング部11、最適区画の分類神経網構成部13及び音素境界修正部15よりなる。図1に示すように、ラベリング部11は手動ラベルファイルを音響特徴変数に基づいて、HMM訓練及びビタビデコーディングで自動ラベリングを行い、1次ラベルファイルを生成する。音響特徴変数の一例としてメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients、以下MFCCと略称する)が挙げられる。このMFCCは、HMM音素分割に用いられるものであって、望ましくは総計4つの連続したフレームに対するMFCCを入力変数として用いる。1フレームに対して総計13個のMFCCが計算されるので神経網に入力される変数は総計52個となる。
ST-ZCRは任意区間内で音声信号の符号がどの程度変化するかを定量的に示す値である。そして、ST-ZCRは、有声音が無声音に対して有意に区分されるヒストグラムを有するため、有声音/無声音に該当する音素が相互に隣接する場合において音素の分割に有効な変数である。ST-ZCRは、変動成分の少ない有声音の区間では比較的に小さい値を有し、白色雑音のような成分を多く含む無声音の区間では大きな値を有する。
すなわち、SFTRは任意時間でスペクトルの特徴変数がどの程度急に、あるいは徐々に変化するかを示す変数であって、スペクトルが安定した値を有する音素の中央部分では地域極小値を有し、遷移区間では比較的に大きな値を有する。したがって、SFTRは音素ラベリングの場合に音素の遷移区間や安定区間の表示因子として用いられる。
SKLDは大きいエネルギーを有する部分のスペクトル差をさらに強調する特性を有する。このため、SKLDを音声信号に適用した場合、ホルマント(formant)のように文脈と話者に関する重要な情報がある部分を適宜強調することにより、スペクトル距離を求めるものである。
最適区画の分類神経網構成部13では与えられた学習データで最適なK個の複数神経網を構成する。このために、まず初期複数神経網を構成し、学習データに対して分類と学習とが反復的に行われて全体誤差を漸進的に減らす。
ここで、複数神経網を表現する方法を説明すると次の通りである。1つの隠匿階層を有する神経網で、n番目のフレームとn+1番目のフレームとが相互隣接する場合、入力パラメータxi(n)に対する出力y(n)は次の次式のように与えられる。
一方、出力ノードでの誤差e(n)は次式のように示される。
一方、Φ = [v1,…, vNo, w11,…, wNi No]を神経網が構成される全ての加重値の集合で定義し、X(n) = [x1(n),…, xNi(n)]で定義すると、数1式は次式のように示される。
一方、神経網の加重値更新値ΔΦは次式のように示すことができる。
複数個の神経網が用いられる場合、これら神経網が含まれた集合をCと定義すると、最適の神経網集合C*=[Φ1,Φ2,...,Φk]は次式のように示すことができる全ての音素境界での全体誤差の和Dを最小化させることができる。
数5式で定義される全体誤差の和を最小化させる神経網を構成するために、神経網の入力ベクトルをあらかじめ区画別に分割して分類及び再学習過程を分割された区画別に行う。以上の処理フローは図3においてステップ31からステップ36より実現される。
なお、ここで学習データ、初期神経網集合、音素境界の位置値はそれぞれ次式のように示される
数8式に示すように、k番目の神経網に対する全体誤差は、音素組み合わせPjに含まれるあらゆる学習データをk番目の神経網に入力させた場合に得られる出力と目標出力との間の二乗誤差和で与えられることが分かる。
前記したようなステップ31からステップ36によって分類、併合及び再訓練過程が反復的に行われて全体誤差の和が収斂されれば、ステップ33で得られる音素組み合わせ区画結果とステップ36で得られる最適区画の分類神経網とを音素境界修正部15で音素境界修正のために用いることになる。
このような方法は、音素組み合わせの区画分割が言語学的な知識とは全然関係なく行われ、全体誤差を最小化する観点でのみなされるので、最終的に分類された音素組み合わせは最小誤差面で最適の音素組み合わせ分類を保障する。
13 最適区画の分類神経網構成部
15 音素境界修正部
Claims (13)
- (a)左右音素の名称よりなるL個の音素組み合わせを手動ラベリングにより得られた音素境界を用いて獲得する段階と、
(b)入力変数を含む学習データから多層パーセプトロン構造のK個の神経網集合を生成する段階と、
(c)前記神経網集合から前記L個の音素組み合わせ各々に対し最小誤差を有する神経網を探索し、前記L個の音素組み合わせを同じ神経網で探索されたK個の音素組み合わせグループに分類する段階と、
(d)前記(c)段階で分類されたK個の音素組み合わせグループ別に、前記K個の神経網に対して該当する学習データに学習して加重値を各神経網の個別誤差が収斂するまでに更新する段階と、
(e)前記(d)段階で個別誤差が収斂されたK個の神経網の全体誤差の和が収斂するまで前記個別誤差が収斂されたK個の神経網に対して前記(c)から(e)段階を反復実行し、全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、を含む最適区画の分類神経網の構成方法。 - 前記神経網の出力値は音素の境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右に1フレームだけ離れた部分には0.5を設定する請求項1に記載の最適区画の分類神経網の構成方法。
- 手動ラベルファイルに対して自動ラベリングを行って生成された1次ラベルファイルの音素境界を修正するための自動ラベリング方法において、
(a)初期に生成されるか、更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、
(b)前記(a)段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する段階と、を含む最適区画の分類神経網を用いた自動ラベリング方法。 - 前記神経網の出力値は音素の境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右に1フレームだけ離れた部分には0.5を設定する請求項3に記載の最適区画の分類神経網を用いた自動ラベリング方法。
- 前記(b)段階での音素境界修正領域は前記音素組み合わせの左右音素の持続時間のうち所定領域に設定することを特徴とする請求項3に記載の最適区画の分類神経網を用いた自動ラベリング方法。
- 前記所定領域は前記左右音素の持続時間を各々3等分し、前記1次ラベルファイルの各音素境界付近で左右に1/3分割した長さに設定することを特徴とする請求項5に記載の最適区画の分類神経網を用いた自動ラベリング方法。
- 手動ラベルファイルに対して自動ラベリングを行って1次ラベルファイルを生成するラベリング部と、
初期に生成または更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する最適区画の分類神経網構成部と、
前記最適区画の分類神経網構成部から提供される音素組み合わせ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する音素境界修正部と、を含む最適区画の分類神経網を用いた自動ラベリング装置。 - 前記最適区画の分類神経網構成部は、
音響特徴変数及び付加変数を含む入力変数及び手動ラベルファイルを保存する訓練コーパスと、
前記訓練コーパスに保存された入力変数及び手動ラベルファイルから得られる音素境界を用いて左右音素の名称よりなるL個の音素組み合わせを生成し、初期に生成または更新されたK個の神経網集合から前記L個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、前記L個の音素組み合わせを同じ神経網で探索されたK個の音素組み合わせグループに分類する最小誤差分類部と、
前記最小誤差分類部で分類されたK個の音素組み合わせグループ別に前記K個の神経網に対して該当する学習データで学習して加重値を各神経網の個別誤差が収斂するまで更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂されるべく再訓練させる再訓練部と、を含む請求項7に記載の最適区画の分類神経網を用いた自動ラベリング装置。 - 前記神経網の出力値は音素の境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右に1だけ離れた部分には0.5を設定する請求項7に記載の最適区画の分類神経網を用いた自動ラベリング装置。
- 前記音素境界修正部の音素境界修正領域は前記左右音素の持続時間のうち所定領域に設定することを特徴とする請求項7に記載の最適区画の分類神経網を用いた自動ラベリング装置。
- 前記所定領域は前記左右音素の持続時間を各々3等分し、前記1次ラベルファイルの各音素境界付近で左右に1/3分割した長さに設定することを特徴とする請求項10に記載の最適区画の分類神経網を用いた自動ラベリング装置。
- 請求項1に記載の方法を実行するためのプログラムを記録したコンピュータ可読記録媒体。
- 請求項3に記載の方法を実行するためのプログラムを記録したコンピュータ可読記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0012700A KR100486735B1 (ko) | 2003-02-28 | 2003-02-28 | 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004264856A true JP2004264856A (ja) | 2004-09-24 |
JP4545456B2 JP4545456B2 (ja) | 2010-09-15 |
Family
ID=32768619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004056726A Expired - Fee Related JP4545456B2 (ja) | 2003-02-28 | 2004-03-01 | 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7444282B2 (ja) |
EP (1) | EP1453037B1 (ja) |
JP (1) | JP4545456B2 (ja) |
KR (1) | KR100486735B1 (ja) |
DE (1) | DE602004027566D1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242497A (ja) * | 2010-05-17 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声データ区分方法、音声データ区分装置、及びプログラム |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7088872B1 (en) * | 2002-02-14 | 2006-08-08 | Cogent Systems, Inc. | Method and apparatus for two dimensional image processing |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
US8321427B2 (en) | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
US7616788B2 (en) * | 2004-11-12 | 2009-11-10 | Cogent Systems, Inc. | System and method for fast biometric pattern matching |
US8131477B2 (en) | 2005-11-16 | 2012-03-06 | 3M Cogent, Inc. | Method and device for image-based biological data quantification |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
KR100908121B1 (ko) * | 2006-12-15 | 2009-07-16 | 삼성전자주식회사 | 음성 특징 벡터 변환 방법 및 장치 |
US8275179B2 (en) * | 2007-05-01 | 2012-09-25 | 3M Cogent, Inc. | Apparatus for capturing a high quality image of a moist finger |
TWI319563B (en) * | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
US8504361B2 (en) * | 2008-02-07 | 2013-08-06 | Nec Laboratories America, Inc. | Deep neural networks and methods for using same |
US20100014755A1 (en) * | 2008-07-21 | 2010-01-21 | Charles Lee Wilson | System and method for grid-based image segmentation and matching |
EP2221805B1 (en) | 2009-02-20 | 2014-06-25 | Nuance Communications, Inc. | Method for automated training of a plurality of artificial neural networks |
US8412525B2 (en) * | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
EP2851895A3 (en) | 2011-06-30 | 2015-05-06 | Google, Inc. | Speech recognition using variable-length context |
WO2013008384A1 (ja) * | 2011-07-11 | 2013-01-17 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
US9536517B2 (en) | 2011-11-18 | 2017-01-03 | At&T Intellectual Property I, L.P. | System and method for crowd-sourced data labeling |
US9235799B2 (en) * | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
US8700552B2 (en) | 2011-11-28 | 2014-04-15 | Microsoft Corporation | Exploiting sparseness in training deep neural networks |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
US9477925B2 (en) | 2012-11-20 | 2016-10-25 | Microsoft Technology Licensing, Llc | Deep neural networks training for speech and pattern recognition |
US10311865B2 (en) * | 2013-10-14 | 2019-06-04 | The Penn State Research Foundation | System and method for automated speech recognition |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9547471B2 (en) * | 2014-07-03 | 2017-01-17 | Microsoft Technology Licensing, Llc | Generating computer responses to social conversational inputs |
BR112017003893A8 (pt) | 2014-09-12 | 2017-12-26 | Microsoft Corp | Rede dnn aluno aprendiz via distribuição de saída |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9659578B2 (en) * | 2014-11-27 | 2017-05-23 | Tata Consultancy Services Ltd. | Computer implemented system and method for identifying significant speech frames within speech signals |
US10460720B2 (en) | 2015-01-03 | 2019-10-29 | Microsoft Technology Licensing, Llc. | Generation of language understanding systems and methods |
CN105046323B (zh) * | 2015-04-29 | 2017-03-22 | 西北大学 | 一种正则化rbf网络多标签分类方法 |
US11062228B2 (en) | 2015-07-06 | 2021-07-13 | Microsoft Technoiogy Licensing, LLC | Transfer learning techniques for disparate label sets |
GB2543542A (en) * | 2015-10-21 | 2017-04-26 | Ford Global Tech Llc | A method of controlling a motor vehicle entertainment system |
EP3267438B1 (en) * | 2016-07-05 | 2020-11-25 | Nxp B.V. | Speaker authentication with artificial neural networks |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10657424B2 (en) * | 2016-12-07 | 2020-05-19 | Samsung Electronics Co., Ltd. | Target detection method and apparatus |
US10019668B1 (en) | 2017-05-19 | 2018-07-10 | Google Llc | Scheduling neural network processing |
US11321604B2 (en) | 2017-06-21 | 2022-05-03 | Arm Ltd. | Systems and devices for compressing neural network parameters |
US11275996B2 (en) * | 2017-06-21 | 2022-03-15 | Arm Ltd. | Systems and devices for formatting neural network parameters |
US10885900B2 (en) | 2017-08-11 | 2021-01-05 | Microsoft Technology Licensing, Llc | Domain adaptation in speech recognition via teacher-student learning |
KR102098461B1 (ko) * | 2018-02-23 | 2020-04-07 | 창원대학교 산학협력단 | 퍼지 범주 표현을 이용한 확률 레이블 부착 알고리즘을 사용한 분류 방법 |
US11157816B2 (en) * | 2018-10-17 | 2021-10-26 | Capital One Services, Llc | Systems and methods for selecting and generating log parsers using neural networks |
CN109817198B (zh) * | 2019-03-06 | 2021-03-02 | 广州多益网络股份有限公司 | 语音合成方法、装置及存储介质 |
CN113380238A (zh) * | 2021-06-09 | 2021-09-10 | 阿波罗智联(北京)科技有限公司 | 处理音频信号的方法、模型训练方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0398098A (ja) * | 1989-09-11 | 1991-04-23 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声認識装置 |
JPH03201161A (ja) * | 1989-12-28 | 1991-09-03 | Sharp Corp | 音声認識装置 |
JPH0494000A (ja) * | 1990-08-07 | 1992-03-26 | Sharp Corp | 音声認識装置 |
JPH06167993A (ja) * | 1992-10-02 | 1994-06-14 | Mitsubishi Electric Corp | 音声認識の境界推定方法及び音声認識装置 |
JPH1152992A (ja) * | 1997-07-31 | 1999-02-26 | Seiko Epson Corp | 音声認識用ニューラルネットワークの学習方法 |
JP2001250101A (ja) * | 2000-03-07 | 2001-09-14 | Yamatake Corp | データ領域の解析方法及び表現方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5285522A (en) * | 1987-12-03 | 1994-02-08 | The Trustees Of The University Of Pennsylvania | Neural networks for acoustical pattern recognition |
US5621857A (en) * | 1991-12-20 | 1997-04-15 | Oregon Graduate Institute Of Science And Technology | Method and system for identifying and recognizing speech |
JPH05188998A (ja) * | 1992-01-17 | 1993-07-30 | Meidensha Corp | 音声認識方法 |
US5621858A (en) * | 1992-05-26 | 1997-04-15 | Ricoh Corporation | Neural network acoustic and visual speech recognition system training method and apparatus |
US5461696A (en) * | 1992-10-28 | 1995-10-24 | Motorola, Inc. | Decision directed adaptive neural network |
JPH06348291A (ja) * | 1993-06-10 | 1994-12-22 | Nippondenso Co Ltd | 単語音声認識方法 |
DE69427083T2 (de) * | 1993-07-13 | 2001-12-06 | Theodore Austin Bordeaux | Spracherkennungssystem für mehrere sprachen |
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
US5509103A (en) * | 1994-06-03 | 1996-04-16 | Motorola, Inc. | Method of training neural networks used for speech recognition |
US5790754A (en) * | 1994-10-21 | 1998-08-04 | Sensory Circuits, Inc. | Speech recognition apparatus for consumer electronic applications |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
KR0173923B1 (ko) * | 1995-12-22 | 1999-04-01 | 양승택 | 다층구조 신경망을 이용한 음소 분할 방법 |
US5737716A (en) * | 1995-12-26 | 1998-04-07 | Motorola | Method and apparatus for encoding speech using neural network technology for speech classification |
JPH09319395A (ja) * | 1996-03-26 | 1997-12-12 | Meidensha Corp | 離散単語音声認識システムにおける音声データ学習装置 |
JP2974621B2 (ja) * | 1996-09-19 | 1999-11-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識用単語辞書作成装置及び連続音声認識装置 |
KR100277694B1 (ko) * | 1998-11-11 | 2001-01-15 | 정선종 | 음성인식시스템에서의 발음사전 자동생성 방법 |
US6947890B1 (en) * | 1999-05-28 | 2005-09-20 | Tetsuro Kitazoe | Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation |
KR100346790B1 (ko) * | 1999-06-23 | 2002-08-01 | 한국전자통신연구원 | 음소분할 후처리 방법 |
-
2003
- 2003-02-28 KR KR10-2003-0012700A patent/KR100486735B1/ko not_active IP Right Cessation
-
2004
- 2004-02-27 DE DE602004027566T patent/DE602004027566D1/de not_active Expired - Lifetime
- 2004-02-27 EP EP04251145A patent/EP1453037B1/en not_active Expired - Fee Related
- 2004-03-01 US US10/788,301 patent/US7444282B2/en active Active
- 2004-03-01 JP JP2004056726A patent/JP4545456B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0398098A (ja) * | 1989-09-11 | 1991-04-23 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声認識装置 |
JPH03201161A (ja) * | 1989-12-28 | 1991-09-03 | Sharp Corp | 音声認識装置 |
JPH0494000A (ja) * | 1990-08-07 | 1992-03-26 | Sharp Corp | 音声認識装置 |
JPH06167993A (ja) * | 1992-10-02 | 1994-06-14 | Mitsubishi Electric Corp | 音声認識の境界推定方法及び音声認識装置 |
JPH1152992A (ja) * | 1997-07-31 | 1999-02-26 | Seiko Epson Corp | 音声認識用ニューラルネットワークの学習方法 |
JP2001250101A (ja) * | 2000-03-07 | 2001-09-14 | Yamatake Corp | データ領域の解析方法及び表現方法 |
Non-Patent Citations (1)
Title |
---|
高木英行他: ""ニューラルネットを用いた音韻セグメンテーション"", 日本音響学会昭和63年度秋季講演論文集−I−, vol. 2-P-7, JPN6010008844, October 1988 (1988-10-01), pages 215 - 216, ISSN: 0001630580 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242497A (ja) * | 2010-05-17 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声データ区分方法、音声データ区分装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4545456B2 (ja) | 2010-09-15 |
US7444282B2 (en) | 2008-10-28 |
EP1453037A3 (en) | 2006-05-17 |
KR20040077227A (ko) | 2004-09-04 |
US20040172238A1 (en) | 2004-09-02 |
EP1453037A2 (en) | 2004-09-01 |
EP1453037B1 (en) | 2010-06-09 |
KR100486735B1 (ko) | 2005-05-03 |
DE602004027566D1 (de) | 2010-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4545456B2 (ja) | 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 | |
US8321222B2 (en) | Synthesis by generation and concatenation of multi-form segments | |
US20200211529A1 (en) | Systems and methods for multi-style speech synthesis | |
US20230043916A1 (en) | Text-to-speech processing using input voice characteristic data | |
JP5768093B2 (ja) | 音声処理システム | |
US10529314B2 (en) | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
US10140972B2 (en) | Text to speech processing system and method, and an acoustic model training system and method | |
US8010362B2 (en) | Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
Rashmi et al. | Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
JPH0895592A (ja) | パターン認識方法 | |
Mohanty et al. | Double ended speech enabled system in Indian travel & tourism industry | |
Park et al. | Automatic speech synthesis unit generation with MLP based postprocessor against auto-segmented phoneme errors | |
Obin et al. | Exploiting alternatives for text-to-speech synthesis: From machine to human | |
CN115798452A (zh) | 一种端到端语音拼接合成方法 | |
Olinsky et al. | Iterative English accent adaptation in a speech synthesis system | |
Beringer | Rule-based categorial analysis of unprompted speech–A cross-language study | |
Chen et al. | MIMIC: a voice-adaptive phonetic-tree speech synthesiser. | |
Lyudovik et al. | Application of Large Speech Databases for Speech Synthesis in Artificial Intelligence Systems | |
Liu et al. | Partial Change Phone Models for Pronunciation Variations in Spontaneous Mandarin Speech | |
Dutoit et al. | Synthesis Strategies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061107 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100630 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |