JPS62231300A - 音声の処理単位への自動区分と処理の方法 - Google Patents
音声の処理単位への自動区分と処理の方法Info
- Publication number
- JPS62231300A JPS62231300A JP61073646A JP7364686A JPS62231300A JP S62231300 A JPS62231300 A JP S62231300A JP 61073646 A JP61073646 A JP 61073646A JP 7364686 A JP7364686 A JP 7364686A JP S62231300 A JPS62231300 A JP S62231300A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- processing unit
- standard
- matching
- amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013316 zoning Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims 1
- 230000005236 sound signal Effects 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(1)発明の属する技術分野の説明
本発明は、音声の認識1合成、蓄積、伝送などを目的と
した情報処理において、汎用性の高い処理単位への自動
区分方法と区分された単位の処理方法に関するものであ
る。
した情報処理において、汎用性の高い処理単位への自動
区分方法と区分された単位の処理方法に関するものであ
る。
(2)従来の技術の説明
本発明の処理単位に類似した単位としては、Pet、e
rsonらの提案したDyad、斉藤らの提案した母音
・子音・母音連鎖、 Dixsonらの提案したD i
phone、蒔付らの提案したDemisyllah
leなどがあり、いずれも子音と母音の間の過渡部を単
位内に保存するものであることは周知の事実である。し
かし、これらはいずれも音声合成の単位として提案され
たものであるため、単位への自動区分の必要性は必ずし
もなく、またその手順が定量的に明示されていないので
、そのまま音声の認識や伝送などには適用できない。
rsonらの提案したDyad、斉藤らの提案した母音
・子音・母音連鎖、 Dixsonらの提案したD i
phone、蒔付らの提案したDemisyllah
leなどがあり、いずれも子音と母音の間の過渡部を単
位内に保存するものであることは周知の事実である。し
かし、これらはいずれも音声合成の単位として提案され
たものであるため、単位への自動区分の必要性は必ずし
もなく、またその手順が定量的に明示されていないので
、そのまま音声の認識や伝送などには適用できない。
本発明で用いるスペクトル変動量の概念は、すでに嵯峨
山らによって音声の動的尺度として提案され、白木らは
極低ビットレートの音声伝送方式において変動量の極大
時点を区分境界として採用している。白木らの区分方法
では、区分された単位が音声の効率的伝送に適すること
を第一とし、単位の言語的内容との対応関係は問題にし
ていない。したがって、その単位は、音声伝送以外の処
理には適用できない。
山らによって音声の動的尺度として提案され、白木らは
極低ビットレートの音声伝送方式において変動量の極大
時点を区分境界として採用している。白木らの区分方法
では、区分された単位が音声の効率的伝送に適すること
を第一とし、単位の言語的内容との対応関係は問題にし
ていない。したがって、その単位は、音声伝送以外の処
理には適用できない。
(3)発明の目的
本発明の目的は、区分された処理単位とその言語的内容
との対応関係を重視し、音声の認識、合成、蓄積、伝送
などに適用し得る汎用性の高い処理単位を得るとともに
、区分に用いる特徴量を整合等のその後の処理にも活用
することにある。
との対応関係を重視し、音声の認識、合成、蓄積、伝送
などに適用し得る汎用性の高い処理単位を得るとともに
、区分に用いる特徴量を整合等のその後の処理にも活用
することにある。
(4)発明の構成及び作用の説明
前記の目的を達成するために、本発明では、スペクトル
変動量の極小時点を区分境界することで、境界付近の定
常部において、単位の接続等の処理を容易にするととも
に、聴覚的に最も重要なスペクトル変動量の極大時点を
含む過渡部を単位内に保存することで、区分された処理
単位が言語的内容と一貫した関係を保つようその汎用性
を高くしている。
変動量の極小時点を区分境界することで、境界付近の定
常部において、単位の接続等の処理を容易にするととも
に、聴覚的に最も重要なスペクトル変動量の極大時点を
含む過渡部を単位内に保存することで、区分された処理
単位が言語的内容と一貫した関係を保つようその汎用性
を高くしている。
本発明の構成及び作用を第1図を用いて説明する。第1
図においてlは特微量抽出部、2は特徴量系列メモリ、
3は区分された処理単位の特徴量時系列メモリ、4は整
合部、5は標準バタンの特徴量及びその時系列メモリ、
6はスペクトル変動量算出部、7は区分及び整合の制御
部である入力音声は1で短時間間隔(以下フレームと呼
ぶ)ごとの特徴量に変換され、その時系列は2に記録さ
れるとともに、複数フレーム分の特徴量時系列より6に
おいてスペクトル変動量が算出され、その極小時点を基
に区分境界が決定されてメモリ2から区分された処理単
位の特徴量時系列はメモリ3に移される。
図においてlは特微量抽出部、2は特徴量系列メモリ、
3は区分された処理単位の特徴量時系列メモリ、4は整
合部、5は標準バタンの特徴量及びその時系列メモリ、
6はスペクトル変動量算出部、7は区分及び整合の制御
部である入力音声は1で短時間間隔(以下フレームと呼
ぶ)ごとの特徴量に変換され、その時系列は2に記録さ
れるとともに、複数フレーム分の特徴量時系列より6に
おいてスペクトル変動量が算出され、その極小時点を基
に区分境界が決定されてメモリ2から区分された処理単
位の特徴量時系列はメモリ3に移される。
標準バタン作成時には、メモリ3の内容をそのままメモ
リ5に登録するかあるいは予めメモリ5に登録されてい
る標準バタンとメモリ3の内容との整合部4を用いた整
合結果に基づいてメモリ5の標準バタンの修正・更新を
行う。このときメモIJ 5の内容にスペクトル変動量
が加えられる。
リ5に登録するかあるいは予めメモリ5に登録されてい
る標準バタンとメモリ3の内容との整合部4を用いた整
合結果に基づいてメモリ5の標準バタンの修正・更新を
行う。このときメモIJ 5の内容にスペクトル変動量
が加えられる。
さらに、メモリ5の内容とメモリ3の内容の整合を行う
場合に、両者のスペクトル変動量の極大時点又はその近
傍を一致させるとともに、スペクトル変動量に応じた整
合重みづけを使用する。
場合に、両者のスペクトル変動量の極大時点又はその近
傍を一致させるとともに、スペクトル変動量に応じた整
合重みづけを使用する。
標準バタン作成時以外の処理においては、メモリ3に区
分された処理単位の特徴量の時系列を得る段階までは前
記の標準バタン作成時と同じであるが、その後まず、区
分境界に該当するメモリ3内の特徴量とメモリ5内に予
め用意された複数標準特徴量(以下単一フレーム標準バ
タンと呼ぶ)とを4によって整合した結果に基づいて、
整合すべきメモリδ内の標準バタンを限定してそれと、
メモリ3内の区分された処理単位との整合を行い、整合
部4から整合結果を出力する。この出力は、音声認識の
場合には処理単位の認識結果に当たり、音声の伝送若し
くは蓄積の場合には伝送若しくは蓄積すべきラベルに当
たる。
分された処理単位の特徴量の時系列を得る段階までは前
記の標準バタン作成時と同じであるが、その後まず、区
分境界に該当するメモリ3内の特徴量とメモリ5内に予
め用意された複数標準特徴量(以下単一フレーム標準バ
タンと呼ぶ)とを4によって整合した結果に基づいて、
整合すべきメモリδ内の標準バタンを限定してそれと、
メモリ3内の区分された処理単位との整合を行い、整合
部4から整合結果を出力する。この出力は、音声認識の
場合には処理単位の認識結果に当たり、音声の伝送若し
くは蓄積の場合には伝送若しくは蓄積すべきラベルに当
たる。
(5)効果の説明
本発明の効果を検討するために実施した予備的実験の結
果(中津井、田中“スペクトル変化に着目した音声の音
節的単位への区分”1日本音響学会・昭和60年度秋季
研究発表会・講演論文集、37〜38ページ所’!11
)のあらましを以下に説明する。
果(中津井、田中“スペクトル変化に着目した音声の音
節的単位への区分”1日本音響学会・昭和60年度秋季
研究発表会・講演論文集、37〜38ページ所’!11
)のあらましを以下に説明する。
フレーム周期を1OIIlsとし、特徴量としてはフレ
ームごとの線形予測係数(以下LPGと略す)、対数電
力、零交叉数などを用いた。あるフレームの前後7フレ
ームにわたるLPCケプストラム係数の各次数ごとの回
帰直線を重み付き最小自乗近似で求め、直線の勾配の全
次数についての自乗平均平方根を算出して当該フレーム
のスペクトル変動量をした。
ームごとの線形予測係数(以下LPGと略す)、対数電
力、零交叉数などを用いた。あるフレームの前後7フレ
ームにわたるLPCケプストラム係数の各次数ごとの回
帰直線を重み付き最小自乗近似で求め、直線の勾配の全
次数についての自乗平均平方根を算出して当該フレーム
のスペクトル変動量をした。
スペクトル変動量の極小時点を基本的な区分境界とし、
語頭9語尾等について池の特ra量を補助的に用いて、
日本の都市名60単語について自動区分実験を実施した
ところ、音声学的な観察によって期待される総区分数4
55のうち94%以上を正しく区分し、さらに改善でき
る見通しを得た。また10単語中の区分境界のうち母音
に相当する40の境界部と予め用意した母音の単一フレ
ーム標準バタンとを整合させたところ、36の母音が第
−位として正しく同定され、残る4母音も第三位として
同定された。さらに、前述の10単語から区分された処
理単位と別途用意された単音節標準バタンから前述の母
音同定結果に基づいて限定したものとの整合を試みたと
ころ、単語中の音節に相当する処理IL位と単独発声か
ら作成した単音節標準バタンとの差異にもかかわらず良
い成積を示した。以上の実験結果は区分方法と整合方法
の有効性を示している。
語頭9語尾等について池の特ra量を補助的に用いて、
日本の都市名60単語について自動区分実験を実施した
ところ、音声学的な観察によって期待される総区分数4
55のうち94%以上を正しく区分し、さらに改善でき
る見通しを得た。また10単語中の区分境界のうち母音
に相当する40の境界部と予め用意した母音の単一フレ
ーム標準バタンとを整合させたところ、36の母音が第
−位として正しく同定され、残る4母音も第三位として
同定された。さらに、前述の10単語から区分された処
理単位と別途用意された単音節標準バタンから前述の母
音同定結果に基づいて限定したものとの整合を試みたと
ころ、単語中の音節に相当する処理IL位と単独発声か
ら作成した単音節標準バタンとの差異にもかかわらず良
い成積を示した。以上の実験結果は区分方法と整合方法
の有効性を示している。
以上のように、本発明によれは、安定で信頼性の高い自
動区分が可能であり、さらにその後の処理も効率良〈実
施できるので、本発明は音声の認識9合成、伝送、蓄積
等その応用範囲は広い。
動区分が可能であり、さらにその後の処理も効率良〈実
施できるので、本発明は音声の認識9合成、伝送、蓄積
等その応用範囲は広い。
第1図は本発明の構成及び作用を示すブロック図である
。 図において、l・・・・・・特@量抽出部、2・・・・
・・特徴量時系列メモリ、3・・・・・・区分された処
理単位の特徴量時系列メモリ、4・・・・・・整合部、
5・・・・・・標準バタンの特徴量及びその時系列メモ
リ、6・・・・・・スペクトル変動量算出部、7・・・
・・・区分及び整合の制御部である。
。 図において、l・・・・・・特@量抽出部、2・・・・
・・特徴量時系列メモリ、3・・・・・・区分された処
理単位の特徴量時系列メモリ、4・・・・・・整合部、
5・・・・・・標準バタンの特徴量及びその時系列メモ
リ、6・・・・・・スペクトル変動量算出部、7・・・
・・・区分及び整合の制御部である。
Claims (1)
- 【特許請求の範囲】 音声信号の短時間間隔ごとの特徴量の時系列を求め、(
イ)該特徴量の時系列を音声の言語的内容と対応づけら
れる処理単位に時間区分する過程、(ロ)区分された処
理単位を分類して音声処理単位の標準パタンを作成する
過程、(ハ)該標準パタンを用いて音声を合する過程、
(ニ)前記過程(イ)で区分された処理単位を該標準パ
タンを参照することによって認識する過程、並びに(ホ
)該標準パタンを参照して前記過程(イ)で区分された
処理単位にラベルづけを行い、該ラベルを蓄積若しくは
伝送した後に、該ラベルに対応づけられる該標準パタン
から前記過程(ハ)によって音声を得る音声の蓄積若し
くは伝送の過程において、(1)音声スペクトルの巨視
的な時間変化を表わす変動量の極小時点を主要な区分境
界とすることにより処理単位を得ることを特徴とする自
動区分方法。 (2)該区分境界の特徴量と予め用意した複数の標準特
徴量との整合結果に基づいて、特許請求範囲三項及び四
項に記載の整合の対象となるべき標準パタンを限定する
ことを特徴とする処理方法。 (3)入力音声より得た該処理単位と予め用意した複数
の該処理単位の標準パタンとを、各々の該変動量の極大
時点又はその近傍を一致させて整合することを特徴とす
る処理方法。 (4)前項三記載の整合において、該変動量に応じた整
合重みづけを使用することを特徴とする処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61073646A JPS62231300A (ja) | 1986-03-31 | 1986-03-31 | 音声の処理単位への自動区分と処理の方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61073646A JPS62231300A (ja) | 1986-03-31 | 1986-03-31 | 音声の処理単位への自動区分と処理の方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS62231300A true JPS62231300A (ja) | 1987-10-09 |
Family
ID=13524259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61073646A Pending JPS62231300A (ja) | 1986-03-31 | 1986-03-31 | 音声の処理単位への自動区分と処理の方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62231300A (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5752096A (en) * | 1980-09-16 | 1982-03-27 | Oki Electric Ind Co Ltd | Voide recognizing system |
JPS57178295A (en) * | 1981-04-27 | 1982-11-02 | Nippon Electric Co | Continuous word recognition apparatus |
JPS5827200A (ja) * | 1981-08-03 | 1983-02-17 | テキサス・インスツルメンツ・インコ−ポレイテツド | 音声認識装置 |
-
1986
- 1986-03-31 JP JP61073646A patent/JPS62231300A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5752096A (en) * | 1980-09-16 | 1982-03-27 | Oki Electric Ind Co Ltd | Voide recognizing system |
JPS57178295A (en) * | 1981-04-27 | 1982-11-02 | Nippon Electric Co | Continuous word recognition apparatus |
JPS5827200A (ja) * | 1981-08-03 | 1983-02-17 | テキサス・インスツルメンツ・インコ−ポレイテツド | 音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111883110B (zh) | 语音识别的声学模型训练方法、系统、设备及介质 | |
US7263488B2 (en) | Method and apparatus for identifying prosodic word boundaries | |
Leung et al. | A procedure for automatic alignment of phonetic transcriptions with continuous speech | |
US6003005A (en) | Text-to-speech system and a method and apparatus for training the same based upon intonational feature annotations of input text | |
Hazen et al. | Segment-based automatic language identification | |
CN109389968A (zh) | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 | |
US7742918B1 (en) | Active learning for spoken language understanding | |
JPS5972496A (ja) | 単音識別装置 | |
US10970470B1 (en) | Compression of machine learned models | |
US20240046915A1 (en) | Predicting Parametric Vocoder Parameters From Prosodic Features | |
Mamyrbayev et al. | End-to-end speech recognition in agglutinative languages | |
Waibel | Suprasegmentals in very large vocabulary word recognition | |
JP2583074B2 (ja) | 音声合成方法 | |
CN113516963B (zh) | 音频数据的生成方法、装置、服务器和智能音箱 | |
JPS62231300A (ja) | 音声の処理単位への自動区分と処理の方法 | |
Altosaar et al. | A multilingual phonetic representation and analysis system for different speech databases | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
US9251782B2 (en) | System and method for concatenate speech samples within an optimal crossing point | |
JP3148322B2 (ja) | 音声認識装置 | |
Wu et al. | Normalized Vowel Duration Enhanced RNN Prosodic Phrase Detection Model | |
JPS58158693A (ja) | 音声符号化方法 | |
JPS58154900A (ja) | 文章音声変換装置 | |
JP3297221B2 (ja) | 音韻継続時間長制御方式 | |
JPS6382500A (ja) | 規則合成音出力装置 | |
JPS63223696A (ja) | 音声パタ−ン作成方式 |