JPS62231300A - 音声の処理単位への自動区分と処理の方法 - Google Patents

音声の処理単位への自動区分と処理の方法

Info

Publication number
JPS62231300A
JPS62231300A JP61073646A JP7364686A JPS62231300A JP S62231300 A JPS62231300 A JP S62231300A JP 61073646 A JP61073646 A JP 61073646A JP 7364686 A JP7364686 A JP 7364686A JP S62231300 A JPS62231300 A JP S62231300A
Authority
JP
Japan
Prior art keywords
processing
processing unit
standard
matching
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61073646A
Other languages
English (en)
Inventor
中津井 護
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RADIO RES LAB
YUSEISHO DENPA KENKYUSHO
Original Assignee
RADIO RES LAB
YUSEISHO DENPA KENKYUSHO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RADIO RES LAB, YUSEISHO DENPA KENKYUSHO filed Critical RADIO RES LAB
Priority to JP61073646A priority Critical patent/JPS62231300A/ja
Publication of JPS62231300A publication Critical patent/JPS62231300A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の属する技術分野の説明 本発明は、音声の認識1合成、蓄積、伝送などを目的と
した情報処理において、汎用性の高い処理単位への自動
区分方法と区分された単位の処理方法に関するものであ
る。
(2)従来の技術の説明 本発明の処理単位に類似した単位としては、Pet、e
rsonらの提案したDyad、斉藤らの提案した母音
・子音・母音連鎖、 Dixsonらの提案したD i
 phone、蒔付らの提案したDemisyllah
leなどがあり、いずれも子音と母音の間の過渡部を単
位内に保存するものであることは周知の事実である。し
かし、これらはいずれも音声合成の単位として提案され
たものであるため、単位への自動区分の必要性は必ずし
もなく、またその手順が定量的に明示されていないので
、そのまま音声の認識や伝送などには適用できない。
本発明で用いるスペクトル変動量の概念は、すでに嵯峨
山らによって音声の動的尺度として提案され、白木らは
極低ビットレートの音声伝送方式において変動量の極大
時点を区分境界として採用している。白木らの区分方法
では、区分された単位が音声の効率的伝送に適すること
を第一とし、単位の言語的内容との対応関係は問題にし
ていない。したがって、その単位は、音声伝送以外の処
理には適用できない。
(3)発明の目的 本発明の目的は、区分された処理単位とその言語的内容
との対応関係を重視し、音声の認識、合成、蓄積、伝送
などに適用し得る汎用性の高い処理単位を得るとともに
、区分に用いる特徴量を整合等のその後の処理にも活用
することにある。
(4)発明の構成及び作用の説明 前記の目的を達成するために、本発明では、スペクトル
変動量の極小時点を区分境界することで、境界付近の定
常部において、単位の接続等の処理を容易にするととも
に、聴覚的に最も重要なスペクトル変動量の極大時点を
含む過渡部を単位内に保存することで、区分された処理
単位が言語的内容と一貫した関係を保つようその汎用性
を高くしている。
本発明の構成及び作用を第1図を用いて説明する。第1
図においてlは特微量抽出部、2は特徴量系列メモリ、
3は区分された処理単位の特徴量時系列メモリ、4は整
合部、5は標準バタンの特徴量及びその時系列メモリ、
6はスペクトル変動量算出部、7は区分及び整合の制御
部である入力音声は1で短時間間隔(以下フレームと呼
ぶ)ごとの特徴量に変換され、その時系列は2に記録さ
れるとともに、複数フレーム分の特徴量時系列より6に
おいてスペクトル変動量が算出され、その極小時点を基
に区分境界が決定されてメモリ2から区分された処理単
位の特徴量時系列はメモリ3に移される。
標準バタン作成時には、メモリ3の内容をそのままメモ
リ5に登録するかあるいは予めメモリ5に登録されてい
る標準バタンとメモリ3の内容との整合部4を用いた整
合結果に基づいてメモリ5の標準バタンの修正・更新を
行う。このときメモIJ 5の内容にスペクトル変動量
が加えられる。
さらに、メモリ5の内容とメモリ3の内容の整合を行う
場合に、両者のスペクトル変動量の極大時点又はその近
傍を一致させるとともに、スペクトル変動量に応じた整
合重みづけを使用する。
標準バタン作成時以外の処理においては、メモリ3に区
分された処理単位の特徴量の時系列を得る段階までは前
記の標準バタン作成時と同じであるが、その後まず、区
分境界に該当するメモリ3内の特徴量とメモリ5内に予
め用意された複数標準特徴量(以下単一フレーム標準バ
タンと呼ぶ)とを4によって整合した結果に基づいて、
整合すべきメモリδ内の標準バタンを限定してそれと、
メモリ3内の区分された処理単位との整合を行い、整合
部4から整合結果を出力する。この出力は、音声認識の
場合には処理単位の認識結果に当たり、音声の伝送若し
くは蓄積の場合には伝送若しくは蓄積すべきラベルに当
たる。
(5)効果の説明 本発明の効果を検討するために実施した予備的実験の結
果(中津井、田中“スペクトル変化に着目した音声の音
節的単位への区分”1日本音響学会・昭和60年度秋季
研究発表会・講演論文集、37〜38ページ所’!11
)のあらましを以下に説明する。
フレーム周期を1OIIlsとし、特徴量としてはフレ
ームごとの線形予測係数(以下LPGと略す)、対数電
力、零交叉数などを用いた。あるフレームの前後7フレ
ームにわたるLPCケプストラム係数の各次数ごとの回
帰直線を重み付き最小自乗近似で求め、直線の勾配の全
次数についての自乗平均平方根を算出して当該フレーム
のスペクトル変動量をした。
スペクトル変動量の極小時点を基本的な区分境界とし、
語頭9語尾等について池の特ra量を補助的に用いて、
日本の都市名60単語について自動区分実験を実施した
ところ、音声学的な観察によって期待される総区分数4
55のうち94%以上を正しく区分し、さらに改善でき
る見通しを得た。また10単語中の区分境界のうち母音
に相当する40の境界部と予め用意した母音の単一フレ
ーム標準バタンとを整合させたところ、36の母音が第
−位として正しく同定され、残る4母音も第三位として
同定された。さらに、前述の10単語から区分された処
理単位と別途用意された単音節標準バタンから前述の母
音同定結果に基づいて限定したものとの整合を試みたと
ころ、単語中の音節に相当する処理IL位と単独発声か
ら作成した単音節標準バタンとの差異にもかかわらず良
い成積を示した。以上の実験結果は区分方法と整合方法
の有効性を示している。
以上のように、本発明によれは、安定で信頼性の高い自
動区分が可能であり、さらにその後の処理も効率良〈実
施できるので、本発明は音声の認識9合成、伝送、蓄積
等その応用範囲は広い。
【図面の簡単な説明】
第1図は本発明の構成及び作用を示すブロック図である
。 図において、l・・・・・・特@量抽出部、2・・・・
・・特徴量時系列メモリ、3・・・・・・区分された処
理単位の特徴量時系列メモリ、4・・・・・・整合部、
5・・・・・・標準バタンの特徴量及びその時系列メモ
リ、6・・・・・・スペクトル変動量算出部、7・・・
・・・区分及び整合の制御部である。

Claims (1)

  1. 【特許請求の範囲】 音声信号の短時間間隔ごとの特徴量の時系列を求め、(
    イ)該特徴量の時系列を音声の言語的内容と対応づけら
    れる処理単位に時間区分する過程、(ロ)区分された処
    理単位を分類して音声処理単位の標準パタンを作成する
    過程、(ハ)該標準パタンを用いて音声を合する過程、
    (ニ)前記過程(イ)で区分された処理単位を該標準パ
    タンを参照することによって認識する過程、並びに(ホ
    )該標準パタンを参照して前記過程(イ)で区分された
    処理単位にラベルづけを行い、該ラベルを蓄積若しくは
    伝送した後に、該ラベルに対応づけられる該標準パタン
    から前記過程(ハ)によって音声を得る音声の蓄積若し
    くは伝送の過程において、(1)音声スペクトルの巨視
    的な時間変化を表わす変動量の極小時点を主要な区分境
    界とすることにより処理単位を得ることを特徴とする自
    動区分方法。 (2)該区分境界の特徴量と予め用意した複数の標準特
    徴量との整合結果に基づいて、特許請求範囲三項及び四
    項に記載の整合の対象となるべき標準パタンを限定する
    ことを特徴とする処理方法。 (3)入力音声より得た該処理単位と予め用意した複数
    の該処理単位の標準パタンとを、各々の該変動量の極大
    時点又はその近傍を一致させて整合することを特徴とす
    る処理方法。 (4)前項三記載の整合において、該変動量に応じた整
    合重みづけを使用することを特徴とする処理方法。
JP61073646A 1986-03-31 1986-03-31 音声の処理単位への自動区分と処理の方法 Pending JPS62231300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61073646A JPS62231300A (ja) 1986-03-31 1986-03-31 音声の処理単位への自動区分と処理の方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61073646A JPS62231300A (ja) 1986-03-31 1986-03-31 音声の処理単位への自動区分と処理の方法

Publications (1)

Publication Number Publication Date
JPS62231300A true JPS62231300A (ja) 1987-10-09

Family

ID=13524259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61073646A Pending JPS62231300A (ja) 1986-03-31 1986-03-31 音声の処理単位への自動区分と処理の方法

Country Status (1)

Country Link
JP (1) JPS62231300A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5752096A (en) * 1980-09-16 1982-03-27 Oki Electric Ind Co Ltd Voide recognizing system
JPS57178295A (en) * 1981-04-27 1982-11-02 Nippon Electric Co Continuous word recognition apparatus
JPS5827200A (ja) * 1981-08-03 1983-02-17 テキサス・インスツルメンツ・インコ−ポレイテツド 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5752096A (en) * 1980-09-16 1982-03-27 Oki Electric Ind Co Ltd Voide recognizing system
JPS57178295A (en) * 1981-04-27 1982-11-02 Nippon Electric Co Continuous word recognition apparatus
JPS5827200A (ja) * 1981-08-03 1983-02-17 テキサス・インスツルメンツ・インコ−ポレイテツド 音声認識装置

Similar Documents

Publication Publication Date Title
CN111883110B (zh) 语音识别的声学模型训练方法、系统、设备及介质
US7263488B2 (en) Method and apparatus for identifying prosodic word boundaries
Leung et al. A procedure for automatic alignment of phonetic transcriptions with continuous speech
US6003005A (en) Text-to-speech system and a method and apparatus for training the same based upon intonational feature annotations of input text
Hazen et al. Segment-based automatic language identification
CN109389968A (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
US7742918B1 (en) Active learning for spoken language understanding
JPS5972496A (ja) 単音識別装置
US10970470B1 (en) Compression of machine learned models
US20240046915A1 (en) Predicting Parametric Vocoder Parameters From Prosodic Features
Mamyrbayev et al. End-to-end speech recognition in agglutinative languages
Waibel Suprasegmentals in very large vocabulary word recognition
JP2583074B2 (ja) 音声合成方法
CN113516963B (zh) 音频数据的生成方法、装置、服务器和智能音箱
JPS62231300A (ja) 音声の処理単位への自動区分と処理の方法
Altosaar et al. A multilingual phonetic representation and analysis system for different speech databases
JP2980382B2 (ja) 話者適応音声認識方法および装置
US9251782B2 (en) System and method for concatenate speech samples within an optimal crossing point
JP3148322B2 (ja) 音声認識装置
Wu et al. Normalized Vowel Duration Enhanced RNN Prosodic Phrase Detection Model
JPS58158693A (ja) 音声符号化方法
JPS58154900A (ja) 文章音声変換装置
JP3297221B2 (ja) 音韻継続時間長制御方式
JPS6382500A (ja) 規則合成音出力装置
JPS63223696A (ja) 音声パタ−ン作成方式