JP4887264B2 - 音声データ検索システム - Google Patents
音声データ検索システム Download PDFInfo
- Publication number
- JP4887264B2 JP4887264B2 JP2007301891A JP2007301891A JP4887264B2 JP 4887264 B2 JP4887264 B2 JP 4887264B2 JP 2007301891 A JP2007301891 A JP 2007301891A JP 2007301891 A JP2007301891 A JP 2007301891A JP 4887264 B2 JP4887264 B2 JP 4887264B2
- Authority
- JP
- Japan
- Prior art keywords
- subword
- candidate
- retrieval system
- candidate section
- speech data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012937 correction Methods 0.000 claims description 29
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 41
- 238000012545 processing Methods 0.000 description 33
- 238000005516 engineering process Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
T2=T1+N×L
により決定することができる。サブワードの平均時間長は,あらかじめいくつかのサンプル音声データを用意し,それらの認識結果からサブワードの時間長を集計することにより容易に求めることが可能である。また,サブワード数で決定するだけでなく,例えば,音声の長さの単位であるモーラを用いて,キーワードのモーラ数と1モーラの平均時間長の積により,候補区間の時間長を求めることもできる。モーラ数は,サブワードとモーラの関係をルールとして用意しておくことにより,サブワード列より容易に求めることが可能である。最後にステップ606では,ステップ605により決定された候補区間に関する情報を登録し,ステップ603に戻る。
t1’=t1+N×L
t2’=t2+N×L
t3’=t3+N×L
となる。ここで,上述と同様に,Nはキーワードから生成されたサブワード列中のサブワード数,Lはサブワードの平均時間長である。
102 音声認識部
103 サブワード−音声データ対応表
104 キーワード
105 サブワード列変換部
106 候補区間生成部
107 サブワードカウント部
108 候補区間選択部
109 結果出力部
110 モニタ
111 スピーカ
1001 サブワード列補正部
1002 補正ルール
Claims (13)
- 音声データから抽出したサブワードと当該サブワードの前記音声データ中の位置との関係を表す対応表であるサブワード−音声データ対応表を格納する手段と,
入力されたキーワードをサブワード列に変換したキーワード・サブワード列を生成する手段と,
前記サブワード−音声データ対応表から,前記キーワード・サブワード列の先頭にあるサブワードの音声データ中における位置を取得する手段と,
前記取得したサブワードの位置を開始位置とし,前記キーワード・サブワード列の長さによって決定される時間長を有する区間を候補区間として生成する候補区間生成手段と,
前記キーワードと,前記候補区間中の音声データあるいはサブワードとの類似度に基づいて,検索結果として出力する候補区間を選択する候補区間選択手段と,
前記選択された候補区間を検索結果として出力する手段と,
を有することを特徴とする音声データ検索システム。 - 請求項1記載の音声データ検索システムにおいて,
音声データから音素,音節あるいは音素n-gram等のサブワードを抽出することにより前記音声データをサブワード列に変換し,前記抽出したサブワードの前記音声データ中の位置をもとに前記サブワード−音声データ対応表を作成する手段を有することを特徴とする音声データ検索システム。 - 請求項1記載の音声データ検索システムにおいて,
サブワードの置換や挿入,脱落を登録した補正ルールを格納する手段と,
前記補正ルールに基づいて,前記キーワード・サブワード列中のサブワード毎に,置換可能なサブワードの候補を付加した補正後サブワード列を生成する手段と,
を有し,
前記候補区間生成手段は,前記補正後サブワード列における脱落,挿入,置換の全ての組み合わせを用いて,前記先頭のサブワードとなる可能性がある全てのサブワードについて前記サブワード−音声データ対応表から音声データ中の位置を取得し,取得した位置を前記候補区間の開始位置とすること,
を特徴とする音声データ検索システム。 - 請求項1記載の音声データ検索システムにおいて,
前記候補区間選択手段は,前記キーワード・サブワード列中の各サブワードについて,サブワードを含む候補区間を選択し,選択された候補区間に割り当てられたカウント値の加算を行う手段と,
候補区間のカウント値に基づいて候補区間を順序付けし,その結果に基づいて出力する候補区間を選択する手段と,
を有することを特徴とする音声データ検索システム。 - 請求項4記載の音声データ検索システムにおいて,
前記候補区間に割り当てられたカウント値の加算を行う手段は,
カウント値の加算を行った際に候補区間に含まれていると判定されたサブワードの位置を記録する領域を候補区間に用意し,新たにカウント値の加算を行う際には,候補区間に含まれていると判定されたサブワードの位置と候補区間に記録されている位置との比較を行い,候補区間に含まれていると判定されたサブワードの位置が記録されている位置より大きい場合は,小さい場合より大きな値をカウント値を加算すること,
を特徴とする音声データ検索システム。 - 請求項5記載の音声データ検索システムにおいて,
新たにカウント値の加算を行う際に,該当するサブワードの位置が候補区間に記録されている位置からあらかじめ定められた範囲内に含まれている場合と,それ以外の場合において,カウント値に加算する値を変えること,
を特徴とする音声データ検索システム。 - 請求項4記載の音声データ検索システムにおいて,
前記候補区間選択手段は,出力する候補区間を選択する際,前記キーワード・サブワード列の長さに基づいて決定される閾値以上のカウント値を有する候補区間を選択すること,
を特徴とする音声データ検索システム。 - 請求項4記載の音声データ検索システムにおいて,
前記補正ルールに基づいて置換又は挿入されたサブワードによって加算されたカウント値と,それ以外のサブワードによって加算されたカウント値を別々に候補区間中に記録し,両者の割合,サブワード列長,カウント値の合計値のいずれか一つ以上に基づいて候補区間に順位付けを行うこと,
を特徴とする音声データ検索システム。 - 請求項4記載の音声データ検索システムにおいて,
複数の音声データが存在する場合,それぞれの音声データから検索された候補区間のカウント値,候補区間の数のいずれか一つ以上に基づいて音声データの順序付けを行うこと,
を特徴とする音声データ検索システム。 - 請求項3記載の音声データ検索システムにおいて,
前記補正後サブワード列中における挿入,脱落,置換の可能な組み合わせを用いたサブワード列を組み合わせ毎に生成し,生成された個々のサブワード列について候補区間の生成及び選択を行い,その結果を統合することにより最終的な検索結果を決定すること,
を特徴とする音声データ検索システム。 - 請求項10記載の音声データ検索システムにおいて,
前記補正後サブワード列中における挿入,脱落,置換の可能な組み合わせを用いて生成されたサブワード列毎の検索結果を統合する際,生成されたサブワード列に含まれる挿入,脱落,置換の数に基づいて候補区間に重み付けを行うことにより,全ての検索結果の順序を決定すること,
を特徴とする音声データ検索システム。 - 請求項1記載の音声データ検索システムにおいて,
前記候補区間選択手段は,前記キーワード・サブワード列と候補区間に含まれるサブワード列とを動的計画法等により比較し,その結果に基づいて出力する候補区間を選択すること,
を特徴とする音声データ検索システム。 - 請求項1記載の音声データ検索システムにおいて,
前記候補区間選択手段は,前記キーワードから生成した音響パラメータと,候補区間に該当する音声データ中の範囲から抽出した音響パラメータとをHMMや動的計画法等により比較することにより出力する候補区間を選択すること,
を特徴とする音声データ検索システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007301891A JP4887264B2 (ja) | 2007-11-21 | 2007-11-21 | 音声データ検索システム |
CN2008101777905A CN101441649B (zh) | 2007-11-21 | 2008-11-20 | 声音数据检索系统 |
US12/275,519 US8150678B2 (en) | 2007-11-21 | 2008-11-21 | Spoken document retrieval system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007301891A JP4887264B2 (ja) | 2007-11-21 | 2007-11-21 | 音声データ検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009128508A JP2009128508A (ja) | 2009-06-11 |
JP4887264B2 true JP4887264B2 (ja) | 2012-02-29 |
Family
ID=40642866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007301891A Expired - Fee Related JP4887264B2 (ja) | 2007-11-21 | 2007-11-21 | 音声データ検索システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8150678B2 (ja) |
JP (1) | JP4887264B2 (ja) |
CN (1) | CN101441649B (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4873018B2 (ja) * | 2009-01-09 | 2012-02-08 | ソニー株式会社 | データ処理装置、データ処理方法、及び、プログラム |
CN102023995B (zh) * | 2009-09-22 | 2013-01-30 | 株式会社理光 | 语音检索设备和语音检索方法 |
KR101037801B1 (ko) * | 2009-09-25 | 2011-05-31 | 서울대학교산학협력단 | 부단위 인식을 이용한 핵심어 검출 방법 |
US20110257972A1 (en) * | 2010-04-15 | 2011-10-20 | Markus Agevik | System and method for location tracking using audio input |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
JP5753769B2 (ja) * | 2011-11-18 | 2015-07-22 | 株式会社日立製作所 | 音声データ検索システムおよびそのためのプログラム |
JP5849819B2 (ja) * | 2012-03-28 | 2016-02-03 | 富士通株式会社 | 音声データ検索装置、音声データ検索方法および音声データ検索プログラム |
WO2014033855A1 (ja) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
US20140067374A1 (en) * | 2012-09-06 | 2014-03-06 | Avaya Inc. | System and method for phonetic searching of data |
EP2851896A1 (en) | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
US9601108B2 (en) * | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
JP5888356B2 (ja) * | 2014-03-05 | 2016-03-22 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
JP6400936B2 (ja) | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
CN104699809A (zh) * | 2015-03-20 | 2015-06-10 | 广东睿江科技有限公司 | 一种优选词库的控制方法及装置 |
KR102185784B1 (ko) * | 2018-06-08 | 2020-12-02 | 성신여자대학교 연구 산학협력단 | 음향 데이터 탐색 방법 및 장치 |
JP7370072B2 (ja) * | 2020-09-25 | 2023-10-27 | 音羽電機工業株式会社 | 分離器内蔵型spd、および分離器内蔵型spdユニット |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3252282B2 (ja) * | 1998-12-17 | 2002-02-04 | 松下電器産業株式会社 | シーンを検索する方法及びその装置 |
CN1343337B (zh) * | 1999-03-05 | 2013-03-20 | 佳能株式会社 | 用于产生包括音素数据和解码的字的注释数据的方法和设备 |
JP3916813B2 (ja) | 1999-10-22 | 2007-05-23 | 株式会社日立製作所 | データ系列検索装置および方法 |
JP3686934B2 (ja) | 2001-01-25 | 2005-08-24 | 独立行政法人産業技術総合研究所 | 異種環境音声データの音声検索方法及び装置 |
JP2002278579A (ja) | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 音声データ検索装置 |
JP2005257954A (ja) | 2004-03-10 | 2005-09-22 | Nec Corp | 音声検索装置、音声検索方法および音声検索プログラム |
JP4237713B2 (ja) * | 2005-02-07 | 2009-03-11 | 東芝テック株式会社 | 音声処理装置 |
US7678984B1 (en) * | 2005-10-13 | 2010-03-16 | Sun Microsystems, Inc. | Method and apparatus for programmatically generating audio file playlists |
CN100388282C (zh) * | 2006-09-14 | 2008-05-14 | 浙江大学 | 基于多模态信息融合分析的跨媒体检索方法 |
-
2007
- 2007-11-21 JP JP2007301891A patent/JP4887264B2/ja not_active Expired - Fee Related
-
2008
- 2008-11-20 CN CN2008101777905A patent/CN101441649B/zh not_active Expired - Fee Related
- 2008-11-21 US US12/275,519 patent/US8150678B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101441649A (zh) | 2009-05-27 |
CN101441649B (zh) | 2011-09-21 |
US20090132251A1 (en) | 2009-05-21 |
JP2009128508A (ja) | 2009-06-11 |
US8150678B2 (en) | 2012-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4887264B2 (ja) | 音声データ検索システム | |
JP4705023B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP7200405B2 (ja) | 音声認識のためのコンテキストバイアス | |
JP5235210B2 (ja) | 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 | |
US7542966B2 (en) | Method and system for retrieving documents with spoken queries | |
US8249870B2 (en) | Semi-automatic speech transcription | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
KR101004560B1 (ko) | 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체 | |
KR20120113717A (ko) | 검색 장치, 검색 방법, 및 프로그램 | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP6645063B2 (ja) | ターゲット文字列の推定 | |
JP4738847B2 (ja) | データ検索装置および方法 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
Moyal et al. | Phonetic search methods for large speech databases | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP5189413B2 (ja) | 音声データ検索システム | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
JP5542559B2 (ja) | 音声検索インタフェース装置及び音声入力検索方法 | |
JP4024614B2 (ja) | 言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラム | |
JP2024001922A (ja) | 情報処理システム、情報処理方法およびプログラム | |
JP5585111B2 (ja) | 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111212 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4887264 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |