JP2012133371A - 高速音声検索の方法および装置 - Google Patents
高速音声検索の方法および装置 Download PDFInfo
- Publication number
- JP2012133371A JP2012133371A JP2012000070A JP2012000070A JP2012133371A JP 2012133371 A JP2012133371 A JP 2012133371A JP 2012000070 A JP2012000070 A JP 2012000070A JP 2012000070 A JP2012000070 A JP 2012000070A JP 2012133371 A JP2012133371 A JP 2012133371A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- groups
- target audio
- audio clip
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】マルチプロセッサシステム内の大きい音声データベースを検索してターゲット音声クリップを特定する。大きい音声データベースは複数のより小さいグループに分割されて、これら複数の小グループがシステム内の複数の利用可能なプロセッサに対して動的にスケジューリングされる。プロセッサは、各グループを複数のより小さいセグメントに分割して、セグメントから音声特徴を抽出して、共通成分ガウス混合モデル(CCGMM)を用いてセグメントをモデル化することによって、スケジューリングされた複数のグループを並列に処理する。1つのプロセッサはさらに、ターゲット音声クリップから音声特徴を抽出してCCGMMを用いて抽出した音声特徴をモデル化する。ターゲット音声クリップと各セグメントとの間のKL距離に基づいて、セグメントがターゲット音声クリップに一致するか否か判断する。
【選択図】図5
Description
Claims (30)
- マルチプロセッサシステムにおいて音声データベースを検索してターゲット音声クリップを特定する方法であって、
前記音声データベースを複数のグループに分割する段階と、
前記ターゲット音声クリップについてモデルを構築する段階と、
前記マルチプロセッサシステムの複数のプロセッサに対して前記複数のグループを動的にスケジューリングする段階と、
前記ターゲット音声クリップを検索するために、前記複数のプロセッサを用いて前記スケジューリングされた複数のグループを並列に処理する段階と
を備える方法。 - 前記音声データベースを分割する段階は、前記複数のグループの並列処理における、負荷の不均衡および前記複数のグループ間で重複する演算の量を低減するように、前記複数のグループのそれぞれについてサイズを決定する段階を含む
請求項1に記載の方法。 - 前記ターゲット音声クリップについてモデルを構築する段階は、前記ターゲット音声クリップから特徴ベクトルシーケンスを抽出する段階と、複数のガウス成分を含むガウス混合モデル(GMM)に基づいて前記特徴ベクトルシーケンスをモデル化する段階とを含む
請求項1に記載の方法。 - 前記特徴ベクトルシーケンスをモデル化する段階は、前記複数のガウス成分のそれぞれについて混合重みを推定する段階を含む
請求項3に記載の方法。 - 前記スケジューリングされた複数のグループを並列に処理する段階は、
前記スケジューリングされた複数のグループのそれぞれを少なくとも1つのセグメントに分割する段階と、
各セグメントについて、前記セグメントの特徴ベクトルシーケンスを抽出する段階と、
各セグメントについて、複数のガウス成分を含むガウス混合モデル(GMM)に基づいて前記特徴ベクトルシーケンスをモデル化する段階と
を含む
請求項1に記載の方法。 - 前記少なくとも1つのセグメントのそれぞれの時間の長さは、前記ターゲット音声クリップの時間の長さと同じである
請求項5に記載の方法。 - 音声ストリームに複数のセグメントがある場合、各セグメントは直前のセグメントと部分的に重複する
請求項5に記載の方法。 - 前記複数のガウス成分は、複数の異なるセグメントおよび前記ターゲット音声クリップに共通している
請求項5に記載の方法。 - 前記特徴ベクトルシーケンスをモデル化する段階は、前記複数のガウス成分のそれぞれについて混合重みを推定する段階を含む
請求項8に記載の方法。 - セグメント毎に、
前記セグメントのGMMと前記ターゲット音声クリップのGMMとの間でカルバック・ライブラー(KL)距離を算出する段階と、
前記KL距離が予め定められるしきい値よりも小さい場合には、前記セグメントが前記ターゲット音声クリップに一致すると決定する段階と
をさらに備える、請求項9に記載の方法。 - 前記KL距離が予め定められる値よりも大きい場合には、前記KL距離の値に応じて決まる数のセグメントの処理を省略する段階
をさらに備える、請求項10に記載の方法。 - 前記マルチプロセッサシステムは、前記複数のプロセッサが共有するメモリを有する
請求項1に記載の方法。 - マルチプロセッサシステムにおいて音声データベースを検索してターゲット音声クリップを特定する装置であって、
前記音声データベースを複数のグループに分割する分割モジュールと、
前記マルチプロセッサシステムの複数のプロセッサに対して前記複数のグループを動的にスケジューリングするスケジューラと、
前記複数のプロセッサを用いて前記スケジューリングされた複数のグループを並列に処理して前記ターゲット音声クリップを検索する、前記複数のプロセッサのそれぞれに対応する音声検索モジュールと
を備える装置。 - 前記分割モジュールはさらに、前記複数のグループの並列処理における、負荷の不均衡および前記複数のグループ間で重複する演算の量を低減するように、前記複数のグループのそれぞれについてサイズを決定する
請求項13に記載の装置。 - 音声検索モジュールは、
入力音声ストリームを少なくとも1つのセグメントに分割して、前記少なくとも1つのセグメントのそれぞれから特徴ベクトルシーケンスを抽出する特徴抽出部と、
複数のガウス成分を含むガウス混合モデル(GMM)に基づいて各セグメントに対する前記特徴ベクトルシーケンスをモデル化するモデル化モジュールと
を有し、
前記少なくとも1つのセグメントの時間の長さは、前記ターゲット音声クリップと同じであり、
前記複数のガウス成分は、前記セグメントの全てについて共通である
請求項13に記載の装置。 - 音声検索モジュールのうちの1つはさらに、前記ターゲット音声クリップから特徴ベクトルシーケンスを抽出して、複数のガウス成分を含む前記GMMを用いて前記特徴ベクトルシーケンスをモデル化することによって、前記ターゲット音声クリップを処理し、前記複数のガウス成分は、前記ターゲット音声クリップおよび前記入力音声ストリームの複数のセグメントについて共通である
請求項15に記載の装置。 - 音声検索モジュールはさらに、前記入力音声ストリームのセグメントのGMMと前記ターゲット音声クリップのGMMとの間でカルバック・ライブラー(KL)距離を算出し、前記KL距離に基づいて、前記セグメントが前記ターゲット音声クリップに一致するか否か決定する決定部を有する
請求項16に記載の装置。 - 前記決定モジュールはさらに、前記KL距離に基づいて、処理を省略するセグメントの数を決定する
請求項17に記載の装置。 - 複数の命令を格納する機械可読媒体を備える物品であって、前記複数の命令は、処理プラットフォームによって実行されると、前記処理プラットフォームに、
音声データベースを複数のグループに分割する段階と、
ターゲット音声クリップについてモデルを構築する段階と、
マルチプロセッサシステムの複数のプロセッサについて前記複数のグループを動的にスケジューリングする段階と、
前記ターゲット音声クリップを検索するために、前記複数のプロセッサを用いて前記スケジューリングされた複数のグループを並列に処理する段階と
を備える処理を実行させる
物品。 - 前記音声データベースを分割する段階は、前記複数のグループの並列処理における、負荷の不均衡および前記複数のグループ間で重複する演算の量を低減するように、前記複数のグループのそれぞれについてサイズを決定する段階を含む
請求項19に記載の物品。 - 前記ターゲット音声クリップについてモデルを構築する段階は、前記ターゲット音声クリップから特徴ベクトルシーケンスを抽出する段階と、複数のガウス成分を含むガウス混合モデル(GMM)に基づいて前記特徴ベクトルシーケンスをモデル化する段階とを含む
請求項19に記載の物品。 - 前記特徴ベクトルシーケンスをモデル化する段階は、前記複数のガウス成分のそれぞれについて混合重みを推定する段階を含む
請求項21に記載の物品。 - 前記スケジューリングされた複数のグループを並列に処理する段階は、
前記スケジューリングされた複数のグループのそれぞれを少なくとも1つのセグメントに分割する段階と、
各セグメントについて、前記セグメントの特徴ベクトルシーケンスを抽出する段階と、
各セグメントについて、複数のガウス成分を含むガウス混合モデル(GMM)に基づいて前記特徴ベクトルシーケンスをモデル化する段階と
を含む
請求項19に記載の物品。 - 前記少なくとも1つのセグメントのそれぞれの時間の長さは、前記ターゲット音声クリップの時間の長さと同じである
請求項22に記載の物品。 - 音声ストリームに複数のセグメントがある場合、各セグメントは直前のセグメントと部分的に重複する
請求項22に記載の物品。 - 前記複数のガウス成分は、複数の異なるセグメントおよび前記ターゲット音声クリップに共通している
請求項22に記載の物品。 - 前記特徴ベクトルシーケンスをモデル化する段階は、前記複数のガウス成分のそれぞれについて混合重みを推定する段階を含む
請求項26に記載の物品。 - 前記処理は、
セグメント毎に、
前記セグメントのGMMと前記ターゲット音声クリップのGMMとの間でカルバック・ライブラー(KL)距離を算出する段階と、
前記KL距離が予め定められるしきい値よりも小さい場合には、前記セグメントが前記ターゲット音声クリップに一致すると決定する段階と
をさらに備える、請求項27に記載の物品。 - 前記処理は、
前記KL距離が予め定められる値よりも大きい場合には、前記KL距離の値に応じて決まる数のセグメントの処理を省略する段階
をさらに備える、請求項28に記載の物品。 - 前記マルチプロセッサシステムは、前記複数のプロセッサが共有するメモリを有する
請求項19に記載の物品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012000070A JP5210440B2 (ja) | 2012-01-04 | 2012-01-04 | 高速音声検索のための方法、プログラムおよび装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012000070A JP5210440B2 (ja) | 2012-01-04 | 2012-01-04 | 高速音声検索のための方法、プログラムおよび装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009516853A Division JP5006929B2 (ja) | 2006-07-03 | 2006-07-03 | 高速音声検索の方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012133371A true JP2012133371A (ja) | 2012-07-12 |
JP5210440B2 JP5210440B2 (ja) | 2013-06-12 |
Family
ID=46648948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012000070A Expired - Fee Related JP5210440B2 (ja) | 2012-01-04 | 2012-01-04 | 高速音声検索のための方法、プログラムおよび装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5210440B2 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282857A (ja) * | 1998-03-27 | 1999-10-15 | Animo:Kk | 音声検索装置および記録媒体 |
JP3065314B1 (ja) * | 1998-06-01 | 2000-07-17 | 日本電信電話株式会社 | 高速信号探索方法、装置およびその記録媒体 |
JP2000322450A (ja) * | 1999-03-11 | 2000-11-24 | Fuji Xerox Co Ltd | ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム |
JP2003186890A (ja) * | 2001-12-13 | 2003-07-04 | Mitsubishi Electric Corp | 連続メディアデータ格納方法および連続メディアデータ並列処理方法 |
WO2004084095A1 (ja) * | 2003-03-18 | 2004-09-30 | Fujitsu Limited | 情報検索システム |
JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
JP2005150841A (ja) * | 2003-11-11 | 2005-06-09 | Canon Inc | 情報処理方法及び情報処理装置 |
WO2006004050A1 (ja) * | 2004-07-01 | 2006-01-12 | Nippon Telegraph And Telephone Corporation | 特定音響信号含有区間検出システム及びその方法並びにプログラム |
JP2006031278A (ja) * | 2004-07-14 | 2006-02-02 | Nec Corp | 音声検索システムおよび方法ならびにプログラム |
-
2012
- 2012-01-04 JP JP2012000070A patent/JP5210440B2/ja not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282857A (ja) * | 1998-03-27 | 1999-10-15 | Animo:Kk | 音声検索装置および記録媒体 |
JP3065314B1 (ja) * | 1998-06-01 | 2000-07-17 | 日本電信電話株式会社 | 高速信号探索方法、装置およびその記録媒体 |
JP2000312343A (ja) * | 1998-06-01 | 2000-11-07 | Nippon Telegr & Teleph Corp <Ntt> | 高速信号探索方法、装置およびその記録媒体 |
JP2000322450A (ja) * | 1999-03-11 | 2000-11-24 | Fuji Xerox Co Ltd | ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム |
JP2003186890A (ja) * | 2001-12-13 | 2003-07-04 | Mitsubishi Electric Corp | 連続メディアデータ格納方法および連続メディアデータ並列処理方法 |
WO2004084095A1 (ja) * | 2003-03-18 | 2004-09-30 | Fujitsu Limited | 情報検索システム |
JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
JP2005150841A (ja) * | 2003-11-11 | 2005-06-09 | Canon Inc | 情報処理方法及び情報処理装置 |
WO2006004050A1 (ja) * | 2004-07-01 | 2006-01-12 | Nippon Telegraph And Telephone Corporation | 特定音響信号含有区間検出システム及びその方法並びにプログラム |
JP2006031278A (ja) * | 2004-07-14 | 2006-02-02 | Nec Corp | 音声検索システムおよび方法ならびにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5210440B2 (ja) | 2013-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5006929B2 (ja) | 高速音声検索の方法および装置 | |
JP7167074B2 (ja) | 音声認識方法、装置、機器及びコンピュータ可読記憶媒体 | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
US10971135B2 (en) | System and method for crowd-sourced data labeling | |
CN105723449B (zh) | 言语内容分析系统和言语内容分析方法 | |
CN110909550B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN110070859B (zh) | 一种语音识别方法及装置 | |
Xu et al. | Exploiting shared information for multi-intent natural language sentence classification. | |
KR20150065171A (ko) | 하이브리드 지피유/씨피유(gpu/cpu) 데이터 처리 방법 | |
Srikanthan et al. | Implementing the dynamic time warping algorithm in multithreaded environments for real time and unsupervised pattern discovery | |
Seki et al. | Vectorized Beam Search for CTC-Attention-Based Speech Recognition. | |
US11854536B2 (en) | Keyword spotting apparatus, method, and computer-readable recording medium thereof | |
WO2012158572A2 (en) | Exploiting query click logs for domain detection in spoken language understanding | |
CN109800346A (zh) | 文本匹配方法、装置、计算机设备和存储介质 | |
CN111078849B (zh) | 用于输出信息的方法和装置 | |
WO2023155724A1 (zh) | 设计配体分子的方法和装置 | |
JP5210440B2 (ja) | 高速音声検索のための方法、プログラムおよび装置 | |
KR101071017B1 (ko) | 고속 오디오 검색을 위한 방법 및 장치 | |
Miraj et al. | KdeHumor at SemEval-2020 task 7: A neural network model for detecting funniness in dataset humicroedit | |
Chen et al. | Recurrent neural network language models for keyword search | |
CN102456077B (zh) | 用于快速音频搜索的方法和设备 | |
Song et al. | L2rs: A learning-to-rescore mechanism for hybrid speech recognition | |
Kim et al. | Multi-user real-time speech recognition with a GPU | |
Gajjar et al. | Online unsupervised pattern discovery in speech using parallelization. | |
CN113506584B (zh) | 数据处理方法以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5210440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |