JP5453107B2 - 音声セグメンテーションの方法および装置 - Google Patents
音声セグメンテーションの方法および装置 Download PDFInfo
- Publication number
- JP5453107B2 JP5453107B2 JP2009543317A JP2009543317A JP5453107B2 JP 5453107 B2 JP5453107 B2 JP 5453107B2 JP 2009543317 A JP2009543317 A JP 2009543317A JP 2009543317 A JP2009543317 A JP 2009543317A JP 5453107 B2 JP5453107 B2 JP 5453107B2
- Authority
- JP
- Japan
- Prior art keywords
- output
- voice
- rule
- low
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 45
- 230000011218 segmentation Effects 0.000 title description 22
- 238000012545 processing Methods 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims 4
- 230000006870 function Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Mobile Radio Communication Systems (AREA)
Description
Claims (18)
- 音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する段階と、
セグメントから前記入力変数のインスタンスを抽出する段階と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする段階と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する段階と
を備え、
前記入力変数は、低エネルギーフレーム率(LEFP)、高ゼロクロス率比(HZCRR)、スペクトル重心の分散(SCV)、スペクトル変動の分散(SFV)、スペクトルロールオフポイントの分散(SRPV)、および、4Hz変調エネルギー(4Hz)を含む群から選択される少なくとも1つの変数を含み、
信号ノイズ比(SNR)が高い環境で前記メディアデータに利用される前記ファジールールは、
LEFPが高いか、または、SFVが低い場合には、前記音声可能性は音声とされることを記述する第1のルールと、
LEFPが低く、且つ、HZCRRが高い場合には、前記音声可能性は非音声とされることを記述する第2のルールと
を含み、
前記SNRが低い環境で前記メディアデータに利用される前記ファジールールは、
HZCRRが低い場合には、前記音声可能性は非音声とされることを記述している第1のルールと、
LEFPが高い場合には、前記音声可能性は音声とされることを記述している第2のルールと、
LEFPが低い場合には、前記音声可能性は非音声とされることを記述している第3のルールと、
SCVが高く、且つ、SFVが高く、且つ、SRPVが高い場合には、前記音声可能性は音声とされることを記述している第4のルールと、
SCVが低く、且つ、SFVが低く、SRPVが低い場合には、前記音声可能性は非音声とされることを記述している第5のルールと、
4Hzが高い場合には、前記音声可能性は音声とされることを記述している第6のルールと、
4Hzが低い場合には、前記音声可能性は非音声とされることを記述している第7のルールと
を含む
方法。 - 前記処理する段階はさらに、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第1の度合を示すファジー化入力を求める段階と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第2の度合のグループを示す出力集合を求める段階と、
前記出力集合を非ファジー化して非ファジー化出力を求める段階と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する段階と
を有する
請求項1に記載の方法。 - 前記非ファジー化する段階はさらに、
前記ファジールールが含むルールが1つの場合は、前記出力集合の重心を特定して前記非ファジー化出力を求める段階と、
前記ファジールールが含むルールが複数の場合は、
複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める段階と、
前記複数の重み付け出力集合を集計して出力和集合を求める段階と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める段階と
を含む
請求項2に記載の方法。 - 音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する段階と、
セグメントから前記入力変数のインスタンスを抽出する段階と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする段階と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する段階と
を備え、
前記処理する段階はさらに、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第1の度合を示すファジー化入力を求める段階と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第2の度合のグループを示す出力集合を求める段階と、
前記出力集合を非ファジー化して非ファジー化出力を求める段階と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する段階と
を有し、
前記非ファジー化する段階はさらに、
前記ファジールールが含むルールが1つの場合は、前記出力集合の重心を特定して前記非ファジー化出力を求める段階と、
前記ファジールールが含むルールが複数の場合は、
複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める段階と、
前記複数の重み付け出力集合を集計して出力和集合を求める段階と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める段階と
を含む
方法。 - 前記入力変数は、低エネルギーフレーム率(LEFP)、高ゼロクロス率比(HZCRR)、スペクトル重心の分散(SCV)、スペクトル変動の分散(SFV)、スペクトルロールオフポイントの分散(SRPV)、および、4Hz変調エネルギー(4Hz)を含む群から選択される少なくとも1つの変数を含む
請求項4に記載の方法。 - 前記ファジールールは、
LEFPが高いか、または、SFVが低い場合には、前記音声可能性は音声とされることを記述する第1のルールと、
LEFPが低く、且つ、HZCRRが高い場合には、前記音声可能性は非音声とされることを記述する第2のルールと
を含む
請求項5に記載の方法。 - 前記ファジールールは、
HZCRRが低い場合には、前記音声可能性は非音声とされることを記述している第1のルールと、
LEFPが高い場合には、前記音声可能性は音声とされることを記述している第2のルールと、
LEFPが低い場合には、前記音声可能性は非音声とされることを記述している第3のルールと、
SCVが高く、且つ、SFVが高く、且つ、SRPVが高い場合には、前記音声可能性は音声とされることを記述している第4のルールと、
SCVが低く、且つ、SFVが低く、SRPVが低い場合には、前記音声可能性は非音声とされることを記述している第5のルールと、
4Hzが高い場合には、前記音声可能性は音声とされることを記述している第6のルールと、
4Hzが低い場合には、前記音声可能性は非音声とされることを記述している第7のルールと
を含む
請求項5に記載の方法。 - 前記前件部は、前記入力変数が前記入力変数メンバーシップに属することを、第1の部分的度合で許容する
請求項1から7のいずれか一項に記載の方法。 - 前記後件部は、前記出力変数が前記出力変数メンバーシップに属することを、第2の部分的度合で許容する
請求項1から8のいずれか一項に記載の方法。 - コンピュータに、
音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する手順と、
セグメントから前記入力変数のインスタンスを抽出する手順と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする手順と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する手順と
を実行させ、
前記入力変数は、低エネルギーフレーム率(LEFP)、高ゼロクロス率比(HZCRR)、スペクトル重心の分散(SCV)、スペクトル変動の分散(SFV)、スペクトルロールオフポイントの分散(SRPV)、および、4Hz変調エネルギー(4Hz)を含む群から選択される少なくとも1つの変数を含み、
信号ノイズ(SNR)が高い環境で前記メディアデータに利用される前記ファジールールは、
LEFPが高いか、または、SFVが低い場合には、前記音声可能性は音声とされることを記述する第1のルールと、
LEFPが低く、且つ、HZCRRが高い場合には、前記音声可能性は非音声とされることを記述する第2のルールと
を含み、
前記SNRが低い環境で前記メディアデータに利用される前記ファジールールは、
HZCRRが低い場合には、前記音声可能性は非音声とされることを記述している第1のルールと、
LEFPが高い場合には、前記音声可能性は音声とされることを記述している第2のルールと、
LEFPが低い場合には、前記音声可能性は非音声とされることを記述している第3のルールと、
SCVが高く、且つ、SFVが高く、且つ、SRPVが高い場合には、前記音声可能性は音声とされることを記述している第4のルールと、
SCVが低く、且つ、SFVが低く、SRPVが低い場合には、前記音声可能性は非音声とされることを記述している第5のルールと、
4Hzが高い場合には、前記音声可能性は音声とされることを記述している第6のルールと、
4Hzが低い場合には、前記音声可能性は非音声とされることを記述している第7のルールと
を含む
プログラム。 - 前記処理する手順は、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第1の度合を示すファジー化入力を求める手順と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第2の度合のグループを示す出力集合を求める手順と、
非ファジー化出力を求めるべく、前記出力集合を非ファジー化する手順と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する手順と
を含む
請求項10に記載のプログラム。 - 前記非ファジー化する手順はさらに、
前記ファジールールが含むルールが1つの場合に、前記出力集合の重心を特定して前記非ファジー化出力を求める手順と、
前記ファジールールが含むルールが複数の場合に、複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める手順と、
前記複数の重み付け出力集合を集計して出力和集合を求める手順と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める手順と
を含む
請求項11に記載のプログラム。 - コンピュータに、
音声セグメントと非音声セグメントとを区別するファジールールであって、前件部が、メディアデータの特性を示す入力変数および入力変数メンバーシップを含み、後件部が、前記メディアデータの音声可能性を示す出力変数および出力変数メンバーシップを含むファジールールを決定する手順と、
セグメントから前記入力変数のインスタンスを抽出する手順と、
前記入力変数メンバーシップに対応付けられている入力変数メンバーシップ関数および前記出力変数メンバーシップに対応付けられている出力変数メンバーシップ関数をトレーニングする手順と、
前記入力変数の前記インスタンス、前記入力変数メンバーシップ関数、前記出力変数、および前記出力変数メンバーシップ関数を処理して、前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを決定する手順と
を実行させ、
前記処理する手順は、
前記入力変数の前記インスタンスと前記入力変数メンバーシップ関数とに基づいて前記入力変数をファジー化して、前記入力変数が前記入力変数メンバーシップに属している第1の度合を示すファジー化入力を求める手順と、
前記ファジー化入力に基づいて前記出力変数メンバーシップ関数を整形し直して、前記出力変数が前記出力変数メンバーシップに属している第2の度合のグループを示す出力集合を求める手順と、
非ファジー化出力を求めるべく、前記出力集合を非ファジー化する手順と、
前記非ファジー化出力に基づいて前記セグメントが前記音声セグメントであるか前記非音声セグメントであるかを分類する手順と
を含み、
前記非ファジー化する手順は、
前記ファジールールが含むルールが1つの場合に、前記出力集合の重心を特定して前記非ファジー化出力を求める手順と、
前記ファジールールが含むルールが複数の場合に、複数の前記ルールのそれぞれから得られた前記出力集合に複数の重みのそれぞれを乗算して、複数の重み付け出力集合のそれぞれを求める手順と、
前記複数の重み付け出力集合を集計して出力和集合を求める手順と、
前記出力和集合の重心を特定して前記非ファジー化出力を求める手順と
を含む
プログラム。 - 前記入力変数は、低エネルギーフレーム率(LEFP)、高ゼロクロス率比(HZCRR)、スペクトル重心の分散(SCV)、スペクトル変動の分散(SFV)、スペクトルロールオフポイントの分散(SRPV)、および、4Hz変調エネルギー(4Hz)を含む群から選択される少なくとも1つの変数を含む
請求項13に記載のプログラム。 - 前記ファジールールは、
LEFPが高いか、または、SPVが低い場合には、前記音声可能性は音声とされることを記述する第1のルールと、
LEFPが低く、且つ、HZCRRが高い場合には、前記音声可能性は非音声とされることを記述する第2のルールと
を含む
請求項14に記載のプログラム。 - 前記ファジールールは、
HZCRRが低い場合には、前記音声可能性は非音声とされることを記述している第1のルールと、
LEFPが高い場合には、前記音声可能性は音声とされることを記述している第2のルールと、
LEFPが低い場合には、前記音声可能性は非音声とされることを記述している第3のルールと、
SCVが高く、且つ、SFVが高く、且つ、SRPVが高い場合には、前記音声可能性は音声とされることを記述している第4のルールと、
SCVが低く、且つ、SFVが低く、SRPVが低い場合には、前記音声可能性は非音声とされることを記述している第5のルールと、
4Hzが高い場合には、前記音声可能性は音声とされることを記述している第6のルールと、
4Hzが低い場合には、前記音声可能性は非音声とされることを記述している第7のルールと
を含む
請求項14に記載のプログラム。 - 前記前件部は、前記入力変数が前記入力変数メンバーシップに属することを、第1の部分的度合で許容する
請求項10から16のいずれか一項に記載のプログラム。 - 前記後件部は、前記出力変数が前記出力変数メンバーシップに属することを、第2の部分的度合で許容する
請求項10から17のいずれか一項に記載のプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2006/003612 WO2008077281A1 (en) | 2006-12-27 | 2006-12-27 | Method and apparatus for speech segmentation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010515085A JP2010515085A (ja) | 2010-05-06 |
JP5453107B2 true JP5453107B2 (ja) | 2014-03-26 |
Family
ID=39562073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009543317A Expired - Fee Related JP5453107B2 (ja) | 2006-12-27 | 2006-12-27 | 音声セグメンテーションの方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8442822B2 (ja) |
EP (1) | EP2100294A4 (ja) |
JP (1) | JP5453107B2 (ja) |
KR (2) | KR20120008088A (ja) |
CN (1) | CN101568957B (ja) |
WO (1) | WO2008077281A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5453107B2 (ja) * | 2006-12-27 | 2014-03-26 | インテル・コーポレーション | 音声セグメンテーションの方法および装置 |
FR2946175B1 (fr) * | 2009-05-29 | 2021-06-04 | Voxler | Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke |
US8712771B2 (en) * | 2009-07-02 | 2014-04-29 | Alon Konchitsky | Automated difference recognition between speaking sounds and music |
CN102915728B (zh) * | 2011-08-01 | 2014-08-27 | 佳能株式会社 | 声音分段设备和方法以及说话者识别系统 |
WO2015017706A2 (en) * | 2013-07-31 | 2015-02-05 | Kadenze, Inc. | Feature extraction and machine learning for evaluation of audio-type, media-rich coursework |
US9792553B2 (en) * | 2013-07-31 | 2017-10-17 | Kadenze, Inc. | Feature extraction and machine learning for evaluation of image- or video-type, media-rich coursework |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4696040A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with energy normalization and silence suppression |
US4937870A (en) * | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
US5673365A (en) * | 1991-06-12 | 1997-09-30 | Microchip Technology Incorporated | Fuzzy microcontroller for complex nonlinear signal recognition |
JP2797861B2 (ja) * | 1992-09-30 | 1998-09-17 | 松下電器産業株式会社 | 音声検出方法および音声検出装置 |
JPH06119176A (ja) * | 1992-10-06 | 1994-04-28 | Matsushita Electric Ind Co Ltd | ファジィ演算装置 |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5841948A (en) * | 1993-10-06 | 1998-11-24 | Motorola, Inc. | Defuzzifying method in fuzzy inference system |
US5524176A (en) * | 1993-10-19 | 1996-06-04 | Daido Steel Co., Ltd. | Fuzzy expert system learning network |
AU2373695A (en) * | 1994-05-03 | 1995-11-29 | Board Of Regents, The University Of Texas System | Apparatus and method for noninvasive doppler ultrasound-guided real-time control of tissue damage in thermal therapy |
JP2759052B2 (ja) * | 1994-05-27 | 1998-05-28 | 東洋エンジニアリング株式会社 | 尿素プラント合成管の液面制御装置及び液面制御方法 |
US5704200A (en) * | 1995-11-06 | 1998-01-06 | Control Concepts, Inc. | Agricultural harvester ground tracking control system and method using fuzzy logic |
DE19625294A1 (de) * | 1996-06-25 | 1998-01-02 | Daimler Benz Aerospace Ag | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
US6215115B1 (en) * | 1998-11-12 | 2001-04-10 | Raytheon Company | Accurate target detection system for compensating detector background levels and changes in signal environments |
JP2000339167A (ja) | 1999-05-31 | 2000-12-08 | Toshiba Mach Co Ltd | ファジィ推論におけるメンバーシップ関数のチューニング方法 |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6553342B1 (en) * | 2000-02-02 | 2003-04-22 | Motorola, Inc. | Tone based speech recognition |
JP2002116912A (ja) * | 2000-10-06 | 2002-04-19 | Fuji Electric Co Ltd | ファジイ推論演算処理方法 |
US6873718B2 (en) * | 2001-10-12 | 2005-03-29 | Siemens Corporate Research, Inc. | System and method for 3D statistical shape model for the left ventricle of the heart |
US7716047B2 (en) * | 2002-10-16 | 2010-05-11 | Sony Corporation | System and method for an automatic set-up of speech recognition engines |
JP4682154B2 (ja) | 2004-01-12 | 2011-05-11 | ヴォイス シグナル テクノロジーズ インコーポレーティッド | 自動音声認識チャンネルの正規化 |
US7003366B1 (en) * | 2005-04-18 | 2006-02-21 | Promos Technologies Inc. | Diagnostic system and operating method for the same |
US20080294433A1 (en) | 2005-05-27 | 2008-11-27 | Minerva Yeung | Automatic Text-Speech Mapping Tool |
CN1790482A (zh) * | 2005-12-19 | 2006-06-21 | 危然 | 一种增强语音识别系统模板匹配精确度的方法 |
US20070183604A1 (en) * | 2006-02-09 | 2007-08-09 | St-Infonox | Response to anomalous acoustic environments |
TWI312982B (en) * | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
JP5453107B2 (ja) | 2006-12-27 | 2014-03-26 | インテル・コーポレーション | 音声セグメンテーションの方法および装置 |
-
2006
- 2006-12-27 JP JP2009543317A patent/JP5453107B2/ja not_active Expired - Fee Related
- 2006-12-27 EP EP06840655A patent/EP2100294A4/en not_active Withdrawn
- 2006-12-27 CN CN2006800568140A patent/CN101568957B/zh not_active Expired - Fee Related
- 2006-12-27 KR KR1020127000010A patent/KR20120008088A/ko not_active Application Discontinuation
- 2006-12-27 WO PCT/CN2006/003612 patent/WO2008077281A1/en active Application Filing
- 2006-12-27 KR KR1020097013177A patent/KR101140896B1/ko active IP Right Grant
- 2006-12-27 US US12/519,758 patent/US8442822B2/en not_active Expired - Fee Related
-
2013
- 2013-04-12 US US13/861,734 patent/US8775182B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2100294A1 (en) | 2009-09-16 |
CN101568957B (zh) | 2012-05-02 |
JP2010515085A (ja) | 2010-05-06 |
US8442822B2 (en) | 2013-05-14 |
EP2100294A4 (en) | 2011-09-28 |
US8775182B2 (en) | 2014-07-08 |
US20100153109A1 (en) | 2010-06-17 |
KR101140896B1 (ko) | 2012-07-02 |
KR20120008088A (ko) | 2012-01-25 |
US20130238328A1 (en) | 2013-09-12 |
KR20090094106A (ko) | 2009-09-03 |
CN101568957A (zh) | 2009-10-28 |
WO2008077281A1 (en) | 2008-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5453107B2 (ja) | 音声セグメンテーションの方法および装置 | |
WO2022088444A1 (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
CN111627458B (zh) | 一种声源分离方法及设备 | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN103077720B (zh) | 一种说话人识别方法及系统 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN115062678B (zh) | 设备故障检测模型的训练方法、故障检测方法及装置 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN114528896A (zh) | 模型训练、数据增强方法、装置、电子设备及存储介质 | |
Waldekar et al. | Two-level fusion-based acoustic scene classification | |
CN115112372A (zh) | 轴承故障诊断方法、装置、电子设备及存储介质 | |
CN115801374A (zh) | 网络入侵数据分类方法、装置、电子设备及存储介质 | |
Song | Sentiment analysis of Japanese text and vocabulary learning based on natural language processing and SVM | |
CN113921041A (zh) | 基于分组卷积注意力网络的录音设备识别方法及系统 | |
CN117216249A (zh) | 数据分类方法、装置、电子设备、介质及车辆 | |
CN113744734A (zh) | 一种语音唤醒方法、装置、电子设备及存储介质 | |
Wu et al. | Audio-based expansion learning for aerial target recognition | |
Nalini et al. | Automatic Optimized Voice Based Gender Identification for Speech Recognition | |
CA2227679C (en) | Speaker recognition device | |
CN113408664B (zh) | 训练方法、分类方法、装置、电子设备以及存储介质 | |
Sun et al. | A method of speaker recognition for small-scale speakers based on one-versus-rest and neural network | |
CN111554273B (zh) | 一种语音关键词识别中扩增语料的选取方法 | |
Affek et al. | Open-Set Speaker Identification Using Closed-Set Pretrained Embeddings | |
Zhao et al. | An improved rolling bearing fault diagnosis method using DenseNet-BLSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120131 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120427 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120509 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120530 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120606 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120629 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120706 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120723 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130122 |
|
AA91 | Notification of revocation by ex officio |
Free format text: JAPANESE INTERMEDIATE CODE: A971091 Effective date: 20130219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130521 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130920 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130924 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140106 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5453107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |