JP4890792B2 - 音声認識方法 - Google Patents
音声認識方法 Download PDFInfo
- Publication number
- JP4890792B2 JP4890792B2 JP2005169217A JP2005169217A JP4890792B2 JP 4890792 B2 JP4890792 B2 JP 4890792B2 JP 2005169217 A JP2005169217 A JP 2005169217A JP 2005169217 A JP2005169217 A JP 2005169217A JP 4890792 B2 JP4890792 B2 JP 4890792B2
- Authority
- JP
- Japan
- Prior art keywords
- contribution
- spectrum
- frequency
- section
- data group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
寄与率として、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率を用いること、
音声データ群に対し、N個の音声データの分析区間毎に順次周波数分析を施し、各分析区間毎に寄与率を求めること、
をその好ましい態様として含むものである。
n=0〜(N−1)
Xm 2=am 2+bm 2
C’=(1/ΣXm 2)×(Xm 2)
Cj’=(1/Σ(Xjm 2)×(Xjm 2)
図1に示す手順で音素の判定を行った。
被験者に単音で「イ」を発生してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「ウ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「エ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「オ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「カ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「サ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「タ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「ナ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「ハ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
被験者に単音で「マ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
「ヤ」、「ユ」、「ヨ」については、「ia」、「iu」、「io」に準ずると考えられることから省略する。
被験者に単音で「ラ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
「ワ」、「ヲ」については、「ua」、「uo」に準ずると考えられることから省略する。
「ン」については「un」または「n」若しくは「m」に準ずると考えられることから省略する。
男女複数の被験者から五十音を測定した結果得られた判定基準の一例を表311〜322に示す。
表311に示されるように、A−1とA−2の2つの判定基準のいずれか一方を満たすときに「a」と判定することができる。
・ 区間A(1×98〜4×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが存在しないこと。
・ 区間B(5×98〜9×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが2個未満であること。
・ 区間C(8×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが3個を超えて存在すること。
・ 区間D(13×98〜25×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間A(1×98〜4×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが存在しないこと。
・ 区間B(2×98〜7×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが1個を超えて存在すること。
・ 区間C(5×98〜9×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが2個未満であること。
・ 区間D(9×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが2個を超えて存在すること。
・ 区間E(13×98〜25×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
表312に示されるように、I−1とI−2の2つの判定基準のいずれかを満たすときに「i」と判定することができる。
・ 区間A(2×98〜4×98Hz)にあるスペクトルには、寄与率の大きさが9以上のものが0個でないこと。
・ 区間B(11×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが2.5以上のものが0個であること。
・ 区間C(17×98〜26×98Hz)にあるスペクトルには、寄与率の大きさが2.5以上のものが6個未満であること。
・ 区間D(17×98〜20×98Hz)にあるスペクトルには、寄与率の大きさが1.5以上のものが0個であること。
・ 区間E1(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが
0.5以上のものが8個以上あること、または区間E2(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが1以上のものが3個以上あること、若しくは
区間F(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが0.5以上のものが3個以上あり、かつ区間G(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが1以上のものが0個でないこと。
・ 区間H(35×98〜46×98Hz)にあるスペクトルには、寄与率の大きさが
2.5以上のものが0個であること。
・区間1×98〜10×98Hzにおいては、寄与率の大きさが3以上のものは7×98
Hz以上には存在しないこと。
「u」は表313、「e」は表314、「o」は表315、「s」は表317、「t」は表318に示される判定基準によって判定することができる。「u」、「e」、「o」、「s」および「t」のT−1の表の見方は上記「a」の判定基準を示す表311に準ずる。「t」のT−1の表の見方は次に述べるK−2の見方に準ずる。
表316に示されるように、K−1とK−2とK−3の3つの判定基準のいずれか一つを満たすときに「k」と判定することができる。
・ 区間A(1×98〜5×98Hz)にあるスペクトルには、寄与率の大きさが6以上のものが0個であること。
・ 区間B(16×98〜20×98Hz)にあるスペクトルには、寄与率の大きさが2.5以上のものが0個であること。
・ 区間C1(36×98〜40×98Hz)にあるスペクトルには、寄与率の大きさが2以上のものが1個以上あること、または、区間C2(46×98〜55×98Hz)にあるスペクトルには、寄与率の大きさが2以上のものが1個以上あること。
・ 区間D(41×98〜45×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが1個以上あること。
表319に示されるように、以下の条件を総て満たすときに「n」と判定することができる。
・ 区間A(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが30以上のものが0個であること。
・ 区間B(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが1個を超えること。
・ 区間C(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが5以上のものが2個を超えること。
・ 区間D(7×98〜9×98Hz)にあるスペクトルの最大寄与率をp0とし、区間E(10×98〜15×98Hz)にあるスペクトルの最大寄与率をp1とし、区間F(16×98〜21×98Hz)にあるスペクトルの最大寄与率をp2とし、区間G(22×98〜30×98Hz)にあるスペクトルの最大寄与率をp3としたときに、p0、p2、p3のうちの最低1個がp1よりも大きく、かつ、p0、p2、p3のうちの最低1個の寄与率が2以上であること。
・ 区間H(31×98〜55×98Hz)にあるスペクトルには、寄与率の大きさが2以上のものが0個であること。
表320に示されるように、H−1〜H−4の4つの判定基準のいずれか一つを満たすときに「h」と判定することができる。
・ 区間A1(1×98〜5×98Hz)にあるスペクトルには、寄与率の大きさが7以上のものが0個でないこと、または、区間A2(21×98〜26×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間B(6×98〜10×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間C(11×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間D(16×98〜20×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間E(6×98〜30×98Hz)にスペクトルの最大寄与率p0が存在し、かつ、このp0の大きさが8以上であること。
・ 区間A(1×98〜5×98Hz)にあるスペクトには、寄与率の大きさが20以上のものが0個であること。
・ 区間C(1×98〜26×98Hz)にスペクトルの最大寄与率p0が存在し、かつ、このp0の大きさが8以上であること。
・ 上記最大寄与率p0が属する区間を除く区間B1〜B8のいずれか2区間以上で、寄与率の大きさが4以上のものが1個以上存在すること。
表321に示されるように、M−1とM−2の2つの判定基準のいずれか一方を満たすときに「m」と判定することができる。
・ 区間A(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが1個を超えること。
・ 区間B(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが5以上のものが2個を超えること。
・ 区間C(7×98〜10×98Hz)にあるスペクトルの最大寄与率をp0とし、区間D(11×98〜15×98Hz)にあるスペクトルの最大寄与率をp1とし、区間E(16×98〜21×98Hz)にあるスペクトルの最大寄与率をp2とし、区間F(22×98〜30×98Hz)にあるスペクトルの最大寄与率をp3としたときに、p1は、p0、p2、p3のいずれよりも大きく、かつ、p1は2以上であること。
・ 区間G(31×98〜55×98Hz)にあるスペクトルには、寄与率の大きさが4以上のものが0個であること。
「r」は表322に示される判定基準によって判定することができる。この表の見方は上記表321のM−1に準ずる。
Claims (4)
- 音声信号からサンプリングされA/D変換された音声データ群を、音声周波数が含まれる1次からm次(mは2以上の整数)までの周波数成分に分析し、これによって得られる振幅スペクトルまたはパワースペクトルから、音声周波数領域に含まれる基本波および各高調波成分の振幅またはパワーの合計に対する、基本波および各高調波成分のそれぞれの振幅またはパワーの比率を1次からm次までの寄与率として求め、周波数領域上の所定の区間における所定の大きさの寄与率の有無と、周波数領域上の所定の区間における所定の大きさの寄与率の数とから、子音と母音の音素を特定することを特徴とする音声認識方法。
- 音声データ群を子音領域と母音領域に区分し、子音領域の音声データ群と母音領域の音声データ群をそれぞれ周波数分析して寄与率を求め、各音声データ群における寄与率の現れ方から、子音と母音の音素を特定することを特徴とする請求項1に記載の音声認識方法。
- 寄与率として、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率を用いることを特徴とする請求項1または2に記載の音声認識方法。
- 音声データ群に対し、N個の音声データの分析区間毎に順次周波数分析を施し、各分析区間毎に寄与率を求めることを特徴とする請求項1〜3のいずれか1項に記載の音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005169217A JP4890792B2 (ja) | 2005-06-09 | 2005-06-09 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005169217A JP4890792B2 (ja) | 2005-06-09 | 2005-06-09 | 音声認識方法 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2006343544A JP2006343544A (ja) | 2006-12-21 |
| JP2006343544A5 JP2006343544A5 (ja) | 2008-08-21 |
| JP4890792B2 true JP4890792B2 (ja) | 2012-03-07 |
Family
ID=37640558
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005169217A Expired - Fee Related JP4890792B2 (ja) | 2005-06-09 | 2005-06-09 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4890792B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5993246B2 (ja) * | 2012-08-23 | 2016-09-14 | 株式会社ダイヘン | 溶接システムおよび溶接制御装置 |
| CN120375856B (zh) * | 2025-05-15 | 2025-12-09 | 苏州界川设计咨询有限公司 | 一种高频声信号检测方法、电子装置控制方法及电子装置 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56129000A (en) * | 1980-03-14 | 1981-10-08 | Hitachi Ltd | Wind hanging calculator |
| JPS6180298A (ja) * | 1984-09-28 | 1986-04-23 | 松下電器産業株式会社 | 音声認識装置 |
| JPS62299899A (ja) * | 1986-06-19 | 1987-12-26 | 富士通株式会社 | よう音・直音言い分け評価方式 |
| JPS6389900A (ja) * | 1986-10-03 | 1988-04-20 | 沖電気工業株式会社 | 音声認識装置 |
| JPS63234299A (ja) * | 1987-03-20 | 1988-09-29 | 株式会社日立製作所 | 音声分析合成方式 |
| JPH03230200A (ja) * | 1990-02-05 | 1991-10-14 | Sekisui Chem Co Ltd | 音声認識方法 |
| DE19912405A1 (de) * | 1999-03-19 | 2000-09-21 | Philips Corp Intellectual Pty | Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner |
-
2005
- 2005-06-09 JP JP2005169217A patent/JP4890792B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006343544A (ja) | 2006-12-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Zahorian et al. | A spectral/temporal method for robust fundamental frequency tracking | |
| EP3042377B1 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
| Kane et al. | Evaluation of glottal closure instant detection in a range of voice qualities | |
| US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
| CN102222499B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| US7908142B2 (en) | Apparatus and method for identifying prosody and apparatus and method for recognizing speech | |
| Mary et al. | Automatic syllabification of speech signal using short time energy and vowel onset points | |
| Gupta et al. | Implicit language identification system based on random forest and support vector machine for speech | |
| Deb et al. | Exploration of phase information for speech emotion classification | |
| JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
| Vydana et al. | Detection of fricatives using S-transform | |
| JP4890792B2 (ja) | 音声認識方法 | |
| Kitayama et al. | Robust fundamental frequency-detection algorithm unaffected by the presence of hoarseness in human voice | |
| JPH0229232B2 (ja) | ||
| KR0136608B1 (ko) | 음성신호 검색용 음성인식 장치 | |
| Płonkowski | Using bands of frequencies for vowel recognition for Polish language | |
| Aadit et al. | Pitch and formant estimation of bangla speech signal using autocorrelation, cepstrum and LPC algorithm | |
| Awais et al. | Continuous Arabic speech segmentation using FFT spectrogram | |
| Li | SPEech Feature Toolbox (SPEFT) design and emotional speech feature extraction | |
| Deiv et al. | Automatic gender identification for hindi speech recognition | |
| Zhang et al. | Leveraging laryngograph data for robust voicing detection in speech | |
| JP2001083978A (ja) | 音声認識装置 | |
| Pyž et al. | Modelling of Lithuanian speech diphthongs | |
| JPH1097269A (ja) | 音声検出装置及び方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080605 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080605 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20080605 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080606 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080725 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080725 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100921 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101214 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110913 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111024 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111206 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111215 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4890792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141222 Year of fee payment: 3 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |
