JP2009128508A - 音声データ検索システム - Google Patents

音声データ検索システム Download PDF

Info

Publication number
JP2009128508A
JP2009128508A JP2007301891A JP2007301891A JP2009128508A JP 2009128508 A JP2009128508 A JP 2009128508A JP 2007301891 A JP2007301891 A JP 2007301891A JP 2007301891 A JP2007301891 A JP 2007301891A JP 2009128508 A JP2009128508 A JP 2009128508A
Authority
JP
Japan
Prior art keywords
subword
candidate
retrieval system
candidate section
speech data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007301891A
Other languages
English (en)
Other versions
JP4887264B2 (ja
Inventor
Hirohiko Sagawa
浩彦 佐川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007301891A priority Critical patent/JP4887264B2/ja
Priority to CN2008101777905A priority patent/CN101441649B/zh
Priority to US12/275,519 priority patent/US8150678B2/en
Publication of JP2009128508A publication Critical patent/JP2009128508A/ja
Application granted granted Critical
Publication of JP4887264B2 publication Critical patent/JP4887264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声データが大規模になった場合でも,ユーザが指定したキーワードが発話されている箇所を音声データ中から高速かつ精度良く検索を行う。
【解決手段】キーワードから生成したサブワード列に基づいて候補区間をあらかじめ絞込むと共に,サブワードを含む候補区間のカウント値に加算を行うという単純な処理により候補区間に順序付けを行い,検索結果となる候補区間を選択する。また,キーワードから生成したサブワード列に対して,音声認識の誤認識を想定した補正を行い,補正したサブワード列に基づいて候補区間の生成及び選択を行う。
【選択図】図1

Description

本発明は,音声データ中から,ユーザが指定したキーワードが発話されている箇所を検索し,検索結果をユーザに提示する音声データ検索システムに関する。
音声データ中からユーザが指定したキーワードが発話されている箇所を検索する技術としては,特開2002-221984号公報,特開2002-278579号公報及び特開2005-257954号公報の技術が提案されている。
特開2002-221984号公報では,音声データ及びキーワードをサブ音素系列に変換した後,動的計画法によるワードスポッティング技術により,キーワードから変換したサブ音素系列を音声データから変換したサブ音素系列中から探索する。特開2002-278579号公報では,音声データ及び検索語を音声シンボル列に変換した後,全文検索システムを用いて候補音声区間を検出し,さらに候補音声区間においてワードスポッティング音声認識を行うことにより,検索結果を決定する。特開2005-257954号公報では,音素の出現頻度の統計により決定される展開ルールに基づいて,キーワードから生成された音素列・音節列中の音素を置換した新たな音素列・音節列を生成し,それらと検索対象の音素列・音節列を照合することにより検索を行う。
また,より一般的なデータ系列の検索技術として特開2001-125903号公報の方法が提案されている。特開2001-125903号公報では,参照データ系列をデータ単位で分類することにより,類似しているデータ集合を作成しておく。クエリーのデータ系列が与えられた場合,クエリー中の各データに類似したデータ集合を選択し,選択されたデータ集合中の各データについて,参照データ系列の時間軸上の対応する位置に時間的な順序関係を考慮して投票を行うことによりヒストグラムを作成し,ヒストグラムが連続している区間を検索結果とする。
特開2002-221984号公報 特開2002-278579号公報 特開2005-257954号公報 特開2001-125903号公報
上記の従来技術は,音声データやデータ系列から,ユーザが指定したキーワードやデータ系列に対応する箇所を高速かつ高精度に検索することを目的とした技術である。しかしながら,上記従来技術では,音声データやデータ系列が大規模になった場合,問題が生じる。
例えば特開2002-221984号公報の技術では,音声データ及びキーワードをサブ音素系列に変換した後,動的計画法を用いて検索を行っている。サブ音素系列は記号であるため,音声の音響パラメータに基づいた検索技術と比較すれば高速な検索は可能となるが,時間の伸縮も考慮した詳細な比較を行うため,検索対象とする音声データ量が大規模になると,その検索時間は無視できなくなる。
特開2002-278579号公報の技術では,テキスト検索に用いられる全文検索技術を用いることにより高速な候補の絞込みを実現している。しかし,全文検索技術を用いた場合,対象とする音声データ中に検索語を構成する音声シンボルが含まれているかどうかのみを判定基準とするため,例えば,音声データ中の音声シンボルの順序が異なっている場合でも候補として検索される場合が多い。また,検索対象とする音声データ(候補音声区間)の長さが長くなる程,検索語が実際に発話されている箇所以外に,検索語を構成する音声シンボルが出現する可能性が高くなり,余分な候補が検出される割合も高くなる。さらには,全文検索技術では,音声データ中の検索語の位置を詳細に判定することが困難になるため,その後に行うワードスポッティング処理に必要となる時間も無視できなくなる。このように,検索対象とする音声データ量が大規模になると,全文検索技術を用いた方式も検索時間の点で問題が生じる。
また,特開2001-125903号公報では,ヒストグラム生成においては高速な処理が期待できるが,連続区間を検出するためには,検索対象となるデータ系列上の時間軸を全て確認する必要があるため,検索対象とする音声データ量が大規模になった場合,やはり検索時間の点で問題が生じる。
一方,音声データをサブ音素列あるいは音声シンボル列,音素列,音節列等に変換するためには音声認識技術が用いられるが,一般的に,音声認識技術には認識誤りが発生するという問題がある。特開2002-221984号公報及び特開2005-257954号公報では,誤認識を想定した検索精度の向上が図られている。特開2002-221984号公報では,あらかじめサブ音素列間の距離を定義しておくことにより誤認識に対処しているが,代表的なサブ音素同士の距離を定義しているのみであるため,誤認識した場合には十分とは言えない。一方,特開2005-257954号公報では,統計的に求めた誤認識のしやすさをルール化し,検索語から生成した音声シンボル列中の音声シンボルを置換して生成した音声シンボル列を用いて検索を実行することにより,検索精度の向上を図っている。しかし,さまざまな置換により生成した音声シンボル列それぞれに対して検索を実行し,その結果を統合するため,生成した音声シンボル列の数に比例して検索時間が増大するため,生成できる音声シンボル列の数に制限が生じる。
以上の問題を解決し,大規模な音声データから,ユーザが指定したキーワードが発話されている音声データ中の箇所を高速かつ高精度に検索するため,本発明では,まず,音声認識技術を用いて音声データを音素,音節あるいは音素n-gram等のサブワード列に変換すると共に,各サブワードとサブワードの音声データ中の位置との対応関係をサブワード−音声データ対応表として記録しておく。
次に,ユーザがキーワードを指定した場合,キーワードからサブワード列を生成し,サブワード列の先頭にあるサブワードの音声データ中の位置をサブワード−音声データ対応表から取得する。取得した音声データ中の位置を開始時刻とし,キーワードから生成したサブワード列の長さに基づいて決定される時間を区間長とする区間を候補区間として生成する。生成された候補区間におけるサブワード列あるいは音響パラメータと,キーワードから生成したサブワード列あるいは音響パラメータを比較することにより,検索結果として出力する候補区間を決定する。
ここで,音声認識誤りである置換,脱落あるいは挿入を想定した補正ルールをあらかじめ用意しておき,補正ルールに基づいて,キーワードから生成したサブワード列中のサブワードに音声認識誤りを想定した補正を付加する。補正された結果,サブワード列の先頭になる可能性のある全てのサブワードについて候補区間を生成する。
また,検索結果として出力する候補区間を選択する際には,キーワードから生成したサブワード列中の各サブワードについて,サブワードを含む候補区間を検索し,検索された候補区間に割り当てられたカウント値の加算を行う。キーワードから生成したサブワード列中の全てのサブワードについて,該当する候補区間のカウント値の加算を行った後,カウント値に基づいて候補区間を順序付けし,その結果に基づいて検索結果として出力する候補区間を選択する。
本発明によると,キーワードから生成したサブワード列に基づいて候補区間をあらかじめ絞込むと共に,サブワードを含む候補区間のカウント値に加算を行うという単純な処理で候補区間に順序付けを行うことにより検索結果となる候補区間を選択するため,高速な音声データの検索を行うことが可能となる。また,キーワードから生成したサブワード列に対して,音声認識の誤認識を想定した補正を行った後,候補区間の生成を行うことにより,精度の良い音声データの検索を行うことが可能となる。
以下,本発明の実施の形態について説明する。
本発明の第一の実施例を図1〜図9により説明する。
図1は,本発明の第一の実施例による音声データ検索システムの構成例を示す概念ブロック図である。図1において,101は検索対象である音声データであり,録画されたTV番組から抽出された音声や会議・講演等の録音音声をデータ化して作成されたものを想定する。音声データは,TV番組毎や講演毎にファイル化され,記録されているものとする。
102は,音声データを音素や音節,音素n-gram等のサブワードに変換するための音声認識部であり,音声を文字に変換するための技術として良く知られている音声認識技術を用いることができる。音声認識技術としては,目的とするサブワードを直接出力することが可能な技術も存在するが,文字を出力する技術を用いた場合は,さらに,形態素解析技術等のよく知られた自然言語処理技術を組み合わせることにより,容易にサブワードを得ることが可能である。さらに,本発明における音声認識部102では,音声データから得られたサブワードと音声データとの対応関係を表す情報を作成し,サブワード−音声データ対応表103に格納する。
104は,ユーザが入力したキーワードであり,このキーワードが発話されている箇所を音声データ101中から検索する。キーワードの形式としては,キーボードから入力された文字列,あるいはマイクから入力された音声のいずれかであるとする。サブワード列変換部105は,キーワード104をサブワード列に変換する。キーワードが文字列である場合は,よく知られた自然言語処理技術を用いることにより,サブワード列に容易に変換することができる。また,あらかじめキーワードが予測できる場合は,キーワードとサブワード列の対応表を用意しておき,それを検索することにより,容易にサブワード列を取得することが可能である。また,キーワードが音声である場合は,音声データ101をサブワードに変換した場合と同様に,よく知られた音声認識技術を用いることにより,容易にサブワード列に変換することができる。
図1において,候補区間生成部106は,キーワード104から得られたサブワード列及びサブワード−音声データ対応表の内容に基づいて,キーワード104が発話されている可能性があると予測される音声データ上の区間である候補区間を生成する。さらにサブワードカウント部107では,サブワード−音声データ対応表の内容に基づいて,キーワード104から得られたサブワード列中のサブワードがそれぞれの候補区間中に含まれている数をカウントする。候補区間選択部108では,サブワードカウント部107でのカウント結果に基づいて,候補区間に順位付けを行い,結果として出力する候補区間の選択を行う。結果出力部109では,候補区間選択部108で選択された候補区間の情報をモニタ110に表示すると共に,候補区間に対応した音声をスピーカ111に出力する。
図2は,図1に示した音声データ検索システムを一般的に使用される計算機上で実現した場合の構成図である。図2における201は,音声データの検索に必要な各種のプログラムを実行するための情報処理装置である。202は,図1におけるキーワード104を入力するための入力装置であり,キーワードが文字列の場合はキーボード,音声の場合はマイクを用いることができる。表示装置203は,検索結果を出力するための装置であり,図1におけるモニタ110やスピーカ111に対応する。図2において204は,音声データ検索に必要な各種のプログラムや処理の途中経過に関する情報を格納するための記憶装置である。205は図1における音声認識部102に対応する処理を行うための音声認識プログラム,206はサブワード列変換部105に対応する処理を行うためのサブワード列変換プログラム,207は候補区間生成部106に対応する処理を行うための候補区間生成プログラム,208はサブワードカウント部107に対応する処理を行うためのサブワードカウントプログラム,209は候補区間選択部108に対応する処理を行う候補区間選択プログラム,210は結果出力部109に対応する処理を行う結果出力プログラムである。さらに,音声データ211,サブワード−音声データ対応表212はそれぞれ,図1における101,103に対応する。
図3を用いて,サブワード−音声データ対応表103に格納される情報の形式について説明する。音声認識部102から出力される情報は,音声データ101中に格納されている各音声データを音声認識した結果得られるサブワード列であるが,各サブワードには,音声データ中の位置を表す情報,例えば,音声データの開始から計測した時間や,あらかじめ定められた時間長で音声データを区切った場合の何番目の区切りかを表す数値,等が付与されているものとする。各サブワードの音声データ中での位置は,よく知られた音声認識技術により容易に取得することが可能である。音声認識部102では,音声データから得られたサブワードの情報から,サブワードと音声データ上の位置との対応関係をサブワード−音声データ対応表103として図3の形式で格納する。
図3において,サブワード名301は対象となるサブワードの名称を表す文字列,登録数302は対象となるサブワードに対応する音声データ上の位置に関する情報の数,音声データ名303及び305は対象となるサブワードが認識された音声データの名称を表す文字列,304及び306は対象となるサブワードの音声データ上での開始位置を表す数値である。このサブワード−音声データ対応表により,各サブワードがどの音声データのどの位置で認識されているかを容易に見つけることができる。図3では,サブワードの開始位置のみを記録していたが,終了位置も記録するようにしても良い。
次に,図4から図7を用いて,候補区間生成部106の処理について説明する。図4は,ユーザが入力したキーワード「speech recognition」をサブワード列変換部105においてサブワード列に変換した様子を示している。ここでは,簡単のため,サブワードが音素の場合を示している。以下の説明でも,サブワードが音素であるとして説明を行うが,音節や音素n-gram等の場合においても,サブワードの表記が異なるのみであり,本質的な違いは無い。
図4において,401はユーザが入力したキーワードであり,402がキーワードから生成されたサブワード列である。キーワードからサブワード列への変換は,よく知られた自然言語処理技術を用いるか,あるいは,あらかじめキーワードとサブワード列の対応表を用意しておき,それを参照することにより行うことができる。
図5は,サブワード−音声データ対応表103の一例を示した図である。図5において,501はサブワード「s」,502はサブワード「p」,503はサブワード「I:」,504はサブワード「t∫」に関して登録されている情報の一部を示している。例えばサブワード「s」について見ると,登録数はNs個であり,音声データD1の開始位置t1,音声データD1の開始位置t2,音声データD2の開始位置t3,…にサブワード「s」で認識されていることが分かる。
図6に,候補区間生成部106における処理の流れ図を示す。候補区間生成部106では,まずステップ601において,ユーザが入力したキーワードをサブワード列に変換した結果から,先頭にあるサブワードを選択する。ユーザが入力したキーワードが図4に示すキーワードとする場合,サブワード「s」が選択されることになる。次にステップ602では,ステップ601で選択されたサブワードに関する情報をサブワード−音声データ対応表103から取得する。サブワード−音声データ対応表の内容が図5であるとすると,ここでは,サブワード「s」に対応する情報である501の内容が取得されることになる。ステップ603では,ステップ602で取得された情報に含まれる全ての位置情報について,以下の処理が行われたかどうかの判定を行う。全ての位置情報についての処理が完了している場合は,候補区間生成部の処理を終了する。そうでない場合は,ステップ604に進む。
ステップ604では,ステップ602で取得した情報から,サブワードの位置情報を一つ選択する。サブワード−音声データ対応表103の形式が図3に示す形式である場合,位置情報として音声データ名と開始位置の組が選択されることになる。ステップ605では,選択された位置情報を候補区間の開始位置とし,そこからあらかじめ定められた長さの位置を候補区間の終了位置とする。ここで,終了位置の決定方法としては,開始位置をT1,ユーザが入力したキーワードから生成されたサブワード列中のサブワード数をN,サブワードの平均時間長をL,終了位置をT2として,
T2=T1+N×L
により決定することができる。サブワードの平均時間長は,あらかじめいくつかのサンプル音声データを用意し,それらの認識結果からサブワードの時間長を集計することにより容易に求めることが可能である。また,サブワード数で決定するだけでなく,例えば,音声の長さの単位であるモーラを用いて,キーワードのモーラ数と1モーラの平均時間長の積により,候補区間の時間長を求めることもできる。モーラ数は,サブワードとモーラの関係をルールとして用意しておくことにより,サブワード列より容易に求めることが可能である。最後にステップ606では,ステップ605により決定された候補区間に関する情報を登録し,ステップ603に戻る。
以上の処理により登録される候補区間の情報は,図7に示すような形式で格納される。図7において,区間番号701は候補区間に付与された番号であり,登録された順につけられる通し番号である。区間番号は,各候補区間を識別するための記号や数値であれば何でも良い。音声データ名702は候補区間が含まれる音声データの名称であり,サブワード−音声データ対応表103から取得された情報がそのまま登録される。開始位置703は候補区間の開始位置であり,これもサブワード−音声データ対応表103から取得された情報がそのまま登録されている。終了位置704は図6のステップ605で決定された候補区間の終了位置である。カウント値705は,サブワードの数をカウントするための領域であり,初期値として0が代入される。図5の501中には3つの位置情報が示されているため,図7では,それぞれの位置情報に対応する候補区間706,707及び708が登録されている。また,候補区間706,707及び708において,終了位置は,
t1’=t1+N×L
t2’=t2+N×L
t3’=t3+N×L
となる。ここで,上述と同様に,Nはキーワードから生成されたサブワード列中のサブワード数,Lはサブワードの平均時間長である。
次に,図8及び図9を用いて,図1におけるサブワードカウント部107の処理について説明する。ここで,音声データD1に関するサブワードの情報に注目し,図5におけるt1,t2,t4,t7,t8,t9及び図7におけるt1’,t2’の時間的な関係が図8に示すような関係であるとする。この場合,対象となる候補区間は,図7における706及び707のみである。図8において,801は図7における区間番号1,802は区間番号2で示される候補区間に対応する。サブワードカウント部107では,キーワードから生成されたサブワード列中のサブワードについて,順に,サブワードが候補区間に含まれるかどうかをチェックし,含まれている場合はカウント値に1を加算するという処理を繰り返す。
図4に示すサブワード列の「s p I: t∫」の部分について,この処理が行われた際のカウント値の変化を図9に示す。図9(a)は,処理を開始する前の状態であり,901及び902は図7における706及び707と同様に,カウント値が0の状態である。図9(b)はサブワード「s」について処理が行われた状態を示している。サブワード「s」は,いずれの候補区間にも含まれているため,処理が行われた後のカウント値は,903及び904に示すように,いずれも1になっている。図9(c)はサブワード「p」について処理が行われた状態を示している。サブワード「p」は,区間番号2の候補区間にのみ含まれるため,905のカウント値は1のままであり,906のカウント値のみ2に増加している。さらに,サブワード「I:」も区間番号2の候補区間のみに含まれるため,図9(d)に示すように,907のカウント値は1のまま,908のカウント値は3となる。サブワード「t∫」は,いずれの候補区間にも含まれるため,それぞれのカウント値に1が加算され,図9(e)に示すように,909のカウント値は2,910のカウント値は4となる。
以上の処理では,対象となっているサブワードが候補区間に含まれているかどうかによって,候補区間のカウント値に1を加算するかどうかを決定していたが,対象となっているサブワードの候補区間中における位置に基づいて,加算する値を変更しても良い。例えば,対象となっているサブワードのキーワードから生成されたサブワード列中における順序をM,サブワードの平均時間長をLとした場合,候補区間の(M×L)から(M×(L+1))の範囲内に対象となっているサブワードが含まれている場合はカウント値に1を加算し,それ以外の場合は0.5をカウント値に加算するというような処理を行うことができる。カウント値を整数のみとしたい場合は,例えば,対象となっているサブワードが上記の範囲内に含まれている場合はカウント値に2を加算し,それ以外の場合は1を加算するというようにすれば良い。
候補区間選択部108では,候補区間のカウント値に基づいて,候補区間の順位付けを行い,結果として出力する候補区間の選択を行う。順位付けの方法としては,候補区間のカウント値が大きいものから順に候補区間を並べることにより行うことができる。また,使用する音声認識技術により,認識されたサブワードの評価値を取得することができる場合,カウント値と評価値の積等を候補区間の評価値として用いて順位付けを行っても良い。さらに,選択される候補区間の数が多い場合,カウント値や評価値に閾値を設け,閾値より大きいもののみを選択するようにしても良い。カウント値の閾値としては,キーワードを変換して得られるサブワード列におけるサブワード数にあらかじめ定められた係数を乗じた値等を使用することができる。例えば,サブワード数×0.8というような式により,閾値を決定すれば良い。さらに,選択された候補区間に基づいて,音声データに順位付けを行うこともできる。この方法としては,例えば,音声データ毎に候補区間の数を集計し,候補区間の数が多い順に音声データを並べることにより行うことができる。また,音声データ毎のカウント値や評価値の和,音声データ毎の平均のカウント値や評価値,候補区間の数と平均のカウント値や評価値との積や,候補区間の数と平均のカウント値や評価値の加重和,等を用いて順位付けを行うことも可能である。
結果出力部109では,候補区間選択部108で選択された候補区間や音声データをモニタ110やスピーカ111に出力する。
候補区間の順位付けを行う方法としては,上記の他,候補区間中に含まれるサブワード列を抽出し,キーワードから生成したサブワード列と抽出したサブワード列を動的計画法等の良く知られた技術を用いて比較し,サブワード列間の類似度を求めることにより行うことができる。この際,候補区間中に含まれるサブワードを高速に抽出するため,音声データを音声認識した結果得られるサブワード列を格納しておくようにしても良い。さらに,音声データを音声認識した際に用いる音響パラメータを格納するようにすれば,候補区間中に含まれる音響パラメータとキーワードから生成した音響パラメータを動的計画法やHMM等の良く知られた技術を用いることにより比較し,候補区間の順位付けを行うこともできる。キーワードから音響パラメータへの変換は,サブワードごとに典型的な音響パラメータを用意し,それらを結合することにより,容易に行うことができる。なお,動的計画法やHMMについては,例えば,Chin-Hui. Lee, Frank K. Soong and Kuldip K. Paliwal編「Automatic Speech & Speaker Recognition」Kluwer Academic Publishers(1996)のChapter 16「Dynamic Programming」(pp.385-411)及びChapter 7「HMM(Hidden Markov Model」(pp.159-184)に説明されている。
図10から図14を用いて,本発明の第二の実施例を説明する。
図10は,本発明における第二の実施例による音声データ検索システムの構成例を示す概念ブロック図である。図10では,図1に加えて,サブワード列補正部1001及び補正ルール1002が追加された形となっている。図11は,本発明による第二の実施例による音声データ検索システムを一般的に使用される計算機上で実現した場合の構成図である。図11では,サブワード列補正部1001に対応する処理を実行するサブワード列補正プログラム1101及び補正ルール1002に対応する情報が,図2に追加されている。
図10におけるサブワード列補正部1001は,ユーザが入力したキーワードから生成されたサブワード列に対して,さらに,音声認識において誤認識が生じた場合に予測されるサブワードを補正ルール1002の内容に基づいて補正する処理を行う。サブワードの補正は,特開2005−257954号公報にあるように,あらかじめいくつかのサンプルとなる音声データに対して音声認識を実行し,その結果に基づいて,各サブワードがどのようなサブワードに誤認識されやすいかをその頻度や前後のサブワードのつながり方等と共に取得し,それらを補正ルールとして用いることにより,容易に実現することができる。
図12に,補正されたサブワード列の例を示す。図12において,1201はキーワードから生成されたサブワード列,1202及び1203の行に記載されているサブワードが補正されたサブワードを示す。ここで,1202及び1203の内容は,例えばサブワード列「s p I: t∫」が「z k I: t∫」になるという意味ではなく,各サブワードについて,誤認識される可能性があるサブワードを示している。すなわち,「s」は「z」及び「-」,「p」は「k」に誤認識される可能性が高いということを意味している。なお「-」は,該当するサブワードが認識されない(脱落する)ことを示している。
候補区間生成部1003では,補正されたサブワード列を用いて,候補区間の生成を行う。第一の実施例との違いは,まず,図6におけるステップ601において,補正されたサブワード列から,先頭になる可能性のあるサブワードを全て選択することである。補正されたサブワード列が図12に示すサブワード列であるとすると,先頭になる可能性があるサブワードは,認識されないサブワードも考慮して,「s」,「z」,「p」及び「k」となる。ステップ602では,これら選択されたサブワード全てに関する位置情報をサブワード−音声データ対応表103から取得する。取得した位置情報全てについて,ステップ604からステップ606を実行する。サブワード−音声データ対応表103の内容が図5であるとすると,サブワード「s」及び「p」に関する情報より,図13に示すような候補区間が生成されることになる。図7に示す候補区間と比較すると,サブワード「p」に関する候補区間1301,1302及び1303が追加されている。
サブワードカウント部1004では,補正したサブワード列中の全てのサブワードそれぞれについて,サブワードが候補区間中に存在するかどうかを判定し,サブワードが候補区間中に存在した場合,候補区間のカウント値に1を加算する。
候補区間選択部1005では,第一の実施例と同様に,候補区間のカウント値に基づいて候補区間の順位付けを行うと共に,音声データの順位付けを行い,結果として出力する候補区間の選択を行う。
また,候補区間のカウント値としては,キーワードから生成されたサブワードのみによるカウント値と,補正により追加されたサブワードによるカウント値を別々に計算し,その比率を候補区間や音声データの順位付けに利用するようにしても良い。このためには,候補区間の情報を格納する形式において,カウント値を図14における1401及び1402に示すように2つ用意し,例えば,1401にはキーワードから生成されたサブワードのカウント値を,1402には補正により追加されたサブワードによるカウント値をそれぞれ記録するようにすれば良い。また,候補区間の順位付けにおいては,例えば,キーワードから生成されたサブワードのカウント値で順位付けをした後,キーワードから生成されたサブワードのカウント値が同じ候補区間については,補正により追加されたサブワードによるカウント値でさらに順位付けを行うという方法が考えられる。また,キーワードから生成されたサブワードのカウント値と補正により追加されたサブワードによるカウント値の加重和や加重平均等,両者の値から計算された値を候補区間の評価値として順位付けするという方法でも良い。
さらに,候補区間のカウント値としては1種類のみとし,キーワードから生成されたサブワードのみによってカウント値に加算される値と,補正により追加されたサブワードによってカウント値に加算される値を異なる値とすることもできる。例えば,キーワードから生成されたサブワードが候補区間に含まれる場合はカウント値に2を加算し,補正により追加されたサブワードが候補区間に含まれる場合はカウント値に1を加算するようにすれば良い。また,補正ルールとして,特開2005−257954号公報のような技術を用いた場合,音声認識結果中のサブワードの頻度を集計することにより,あるサブワードがどのサブワードにどの程度誤認識されやすいかを表す指標を得ることが可能となる。補正ルールにこのような指標を格納しておくことにより,補正により追加されたサブワードが候補区間に含まれる場合にカウント値に加算する値をさらに詳細に指定することが可能となる。すなわち,高い割合で誤認識されやすいサブワードが候補区間に存在した場合はカウント値に1.5を,中程度の割合で誤認識されやすいサブワードの場合はカウント値に1.0を,誤認識される割合が低いサブワードの場合はカウント値に0.5を加算する,というような処理を行えば良い。
補正したサブワードの利用方法としては,さらに,補正したサブワードも含めた全ての可能なサブワードの組み合わせによるサブワード列をあらかじめ全て求め,それぞれのサブワード列について,検索結果となる候補区間を求めた後,全てのサブワード列に対する候補区間を結合することにより,最終的に検索結果として出力する候補区間を求めるようにしても良い。この際,サブワード列に含まれる補正により付加されたサブワードの数に基づいて候補区間のカウント値や評価値に重み付けを行うことにより,全ての候補区間の順位付けを行うようにすれば良い。
図15及び図16を用いて,本発明の第三の実施例を説明する。第一及び第二の実施例では,候補区間のカウント値は該当するサブワードが候補区間に含まれている場合に加算するという処理を行っていたため,サブワードの順序が異なっている候補区間も結果として選択されるという可能性がある。
そこで,第三の実施例では,候補区間の情報を格納する形式を図15に示すような形式とする。図15において,図7との差異は,サブワードの開始位置を格納する領域1501である。サブワードの開始位置を格納する領域には,直前に行われたカウント値を加算する処理において,候補区間に含まれていると判定されたサブワードの開始位置を代入する。また,カウント値の加算においては,候補区間に含まれていると判定されたサブワードの開始位置をP1,サブワードの開始位置1501に格納されている値をP2とした場合,P1とP2を比較し,比較結果に基づいてカウント値に加算する値を変更する。例えば,P1がP2より大きければカウント値に1を加算し,P1がP2より小さければカウント値に加算を行わないというような処理を行う,あるいは,P1がP2より大きければカウント値に1を加算し,P1がP2より小さければカウント値に0.5を加算するというような処理や,P1がP2からあらかじめ定められた時間内にある場合はカウント値に1を加算し,そうでない場合はカウント値に0.5を加算するというような処理を行うこともできる。さらには,それらの組み合わせによりカウント値を決定する方法や,P1とP2との関係に基づいて,カウント値を連続的に変更することもできる。
図15に示す形式を用いたサブワードカウント部107及び1004の処理を図16により説明する。簡単のため,以下の説明ではサブワード列として「s p I: t∫」のみを想定し,補正により付加されたサブワードは考慮しないものとするが,補正により付加されたサブワードを含む場合も同様である。図16(a)は,処理を開始する前の状態であり,サブワード「s」に関する位置情報を図5に示すサブワード−音声データ対応表から取得した結果得られた2つの候補区間が示されている。ここで,サブワードの開始位置の領域1601及び1602には空白を表す「-」が代入されている。図16(b)は,サブワード「s」に関する処理が行われた後の状態であり,サブワードの開始位置の領域1603及び1604は,それぞれの候補区間におけるサブワード「s」の開始位置t1及びt2がそれぞれ代入される。
さらに図16(c)は,サブワード「p」に関する処理が行われた後の状態を示している。この場合,まず,サブワード「p」は区間番号2の候補区間にのみ含まれているため,区間番号2の候補区間についてのみ処理が行われる。さらに,サブワード「p」の開始位置t4は,図8より,候補区間に格納されているサブワードの開始位置t2より大きいため,区間番号2の候補区間のカウント値には1が加算され,カウント値は2となる。また,サブワードの開始位置には,サブワード「p」の開始位置が代入されるため,結果として区間番号1の候補区間におけるサブワードの開始位置は1605に示すようにt1のままとなり,区間番号2の候補区間については1606に示すようにサブワード「p」の開始位置であるt4に変更される。図16(d)は,サブワード「I:」に関する処理が行われた後の状態を示している。この場合もサブワード「p」の場合と同様に,区間番号2の候補区間についてのみ処理が行われるため,結果として,区間番号1の候補区間におけるサブワードの開始位置は1607に示すようにt1のままとなり,区間番号2の候補区間については1608に示すようにサブワード「I:」の開始位置であるt7に変更される。図16(e)は,サブワード「t∫」に関する処理が行われた後の状態である。サブワード「t∫」は,図8に示すように,区間番号1及び2の候補区間に含まれるため,両方の候補区間について処理が行われ,それぞれの候補区間におけるサブワードの開始位置は1609及び1610に示すように,t8及びt9となる。
図15に示す候補区間に関する情報の形式では,直前の処理におけるサブワードの開始位置のみを記録するようにしていたが,全ての処理におけるサブワードの開始位置を記録するようにしても良い。この情報を使用すれば,カウント値への加算を行う際に,候補区間中のサブワードの順序関係を確認することが可能となり,キーワードから生成されたサブワード列と同じ順序のサブワードを含む候補区間のみを選択することが容易に実現できる。
図17を用いて,本発明の第四の実施例を説明する。上記の実施例では,単独の計算機上において音声データ検索システムを実現するための実施例を示していた。図17に示す実施例は,ネットワーク上に分散配置された音声データを同じくネットワーク上に配置された音声データ検索システムにより検索を実行するための構成を示している。
図17において,1701,1702及び1703は,ネットワーク上でさまざまなサービスを提供するサーバ機能を有する計算機システムである。1704はネットワークであり,サーバはこのネットワークを介して接続される。1705は,図1及び図10に示す概念ブロック図あるいは,図2及び図11に示す構成図で示される音声データ検索システムである。ただし1705では,キーワードの取得,及び検索結果の出力をネットワークを介して行うための通信部が追加された形となる。また図17では,サブワード−音声データ対応表は1706として分割して記載されており,音声データも,音声データ検索システム1705と同じサーバ上に格納されている音声データ1707,あるいは,別のサーバ上に格納されている音声データ1708及び1709として,別途記載されている。図17において1710は,ユーザからのキーワード入力を行い,ネットワークを介して音声データ検索システム1705にキーワードを送信すると共に,検索結果をネットワークを介して取得し,ユーザに提示する機能を有するクライアント端末である。
図17において音声データ検索システムは,あらかじめネットワークを介してアクセス可能な音声データ1707,1708及び1709に対して音声認識を実行し,その結果を用いてサブワード−音声データ対応表1706を作成しておく。これにより,音声データ1707,1708及び1709を対象とした検索を容易に実現することができる。アクセス可能な音声データが追加された場合は,追加された音声データについてのみ音声認識を実行し,その結果から,サブワード毎に位置情報を抽出し,サブワード−音声データ対応表に情報を追加すればよい。図3に示す形式のサブワード−音声データ対応表では,各サブワードに対して位置情報が順に並んだ形式であるため,新たに得られた位置情報を該当するサブワードの情報の最後に追加するのみで,容易に追加された音声データにも対応したサブワード−音声データ対応表を構築することが可能である。
本発明は,ハードディスク・レコーダにおいて,その中に記録された音声を含む大量の動画コンテンツから,ユーザが指定したキーワードを含むコンテンツを検索する機能を実現する技術として利用することができる。また,インターネット上に存在する大量の音声コンテンツ,動画コンテンツからユーザが指定したキーワードを含むコンテンツを検索するサービスを実現する技術として利用することができる。
本発明を適用した第一の実施例における音声データ検索システムの構成例を示す概念ブロック図である。 本発明を適用した第一の実施例における音声データ検索システムを計算機上で実現した場合の構成図である。 サブワード−音声データ対応表に格納される情報の形式を表す図である。 キーワードからサブワード列への変換結果の一例を示す図である。 サブワード−音声データ対応表に格納されている情報の一例を示す図である。 候補区間を生成する処理の流れを示す図である。 生成された候補区間の内容の一例を示す図である。 生成された候補区間とその中に含まれるサブワードの時間的な位置関係の一例を示す図である。 処理の進行に伴って候補区間のカウント値が変化する様子を示す図である。 本発明を適用した第二の実施例における音声データ検索システムの構成例を示す概念ブロック図である。 本発明を適用した第二の実施例における音声データ検索システムを計算機上で実現した場合の構成図である。 サブワード列に補正を行った後の状態の一例を示す図である。 サブワード列に補正を行った場合に生成される候補区間の内容の一例を示す図である。 候補区間に2種類のカウント値を格納する領域を設けた場合の候補区間の内容の一例を示す図である。 候補区間に直前の処理におけるサブワードの開始位置を格納する領域を設けた場合の候補区間の内容の一例を示す図である。 カウント値の加算に伴うサブワードの開始位置に格納される値の変化の一例を示す図である。 本発明を適用した第四の実施例における音声データ検索システムの構成例を示す図である。
符号の説明
101 音声データ
102 音声認識部
103 サブワード−音声データ対応表
104 キーワード
105 サブワード列変換部
106 候補区間生成部
107 サブワードカウント部
108 候補区間選択部
109 結果出力部
110 モニタ
111 スピーカ
1001 サブワード列補正部
1002 補正ルール

Claims (13)

  1. 音声データから抽出したサブワードと当該サブワードの前記音声データ中の位置との関係を表す対応表であるサブワード−音声データ対応表を格納する手段と,
    入力されたキーワードをサブワード列に変換したキーワード・サブワード列を生成する手段と,
    前記サブワード−音声データ対応表から,前記キーワード・サブワード列の先頭にあるサブワードの音声データ中における位置を取得する手段と,
    前記取得したサブワードの位置を開始位置とし,前記キーワード・サブワード列の長さによって決定される時間長を有する区間を候補区間として生成する候補区間生成手段と,
    前記キーワードと,前記候補区間中の音声データあるいはサブワードとの類似度に基づいて,検索結果として出力する候補区間を選択する候補区間選択手段と,
    前記選択された候補区間を検索結果として出力する手段と,
    を有することを特徴とする音声データ検索システム。
  2. 請求項1記載の音声データ検索システムにおいて,
    音声データから音素,音節あるいは音素n-gram等のサブワードを抽出することにより前記音声データをサブワード列に変換し,前記抽出したサブワードの前記音声データ中の位置をもとに前記サブワード−音声データ対応表を作成する手段を有することを特徴とする音声データ検索システム。
  3. 請求項1記載の音声データ検索システムにおいて,
    サブワードの置換や挿入,脱落を登録した補正ルールを格納する手段と,
    前記補正ルールに基づいて,前記キーワード・サブワード列中のサブワード毎に,置換可能なサブワードの候補を付加した補正後サブワード列を生成する手段と,
    を有し,
    前記候補区間生成手段は,前記補正後サブワード列における脱落,挿入,置換の全ての組み合わせを用いて,前記先頭のサブワードとなる可能性がある全てのサブワードについて前記サブワード−音声データ対応表から音声データ中の位置を取得し,取得した位置を前記候補区間の開始位置とすること,
    を特徴とする音声データ検索システム。
  4. 請求項1記載の音声データ検索システムにおいて,
    前記候補区間選択手段は,前記キーワード・サブワード列中の各サブワードについて,サブワードを含む候補区間を選択し,選択された候補区間に割り当てられたカウント値の加算を行う手段と,
    候補区間のカウント値に基づいて候補区間を順序付けし,その結果に基づいて出力する候補区間を選択する手段と,
    を有することを特徴とする音声データ検索システム。
  5. 請求項4記載の音声データ検索システムにおいて,
    前記候補区間に割り当てられたカウント値の加算を行う手段は,
    カウント値の加算を行った際に候補区間に含まれていると判定されたサブワードの位置を記録する領域を候補区間に用意し,新たにカウント値の加算を行う際には,候補区間に含まれていると判定されたサブワードの位置と候補区間に記録されている位置との比較を行い,候補区間に含まれていると判定されたサブワードの位置が記録されている位置より大きい場合は,小さい場合より大きな値をカウント値を加算すること,
    を特徴とする音声データ検索システム。
  6. 請求項5記載の音声データ検索システムにおいて,
    新たにカウント値の加算を行う際に,該当するサブワードの位置が候補区間に記録されている位置からあらかじめ定められた範囲内に含まれている場合と,それ以外の場合において,カウント値に加算する値を変えること,
    を特徴とする音声データ検索システム。
  7. 請求項4記載の音声データ検索システムにおいて,
    前記候補区間選択手段は,出力する候補区間を選択する際,前記キーワード・サブワード列の長さに基づいて決定される閾値以上のカウント値を有する候補区間を選択すること,
    を特徴とする音声データ検索システム。
  8. 請求項4記載の音声データ検索システムにおいて,
    前記補正ルールに基づいて置換又は挿入されたサブワードによって加算されたカウント値と,それ以外のサブワードによって加算されたカウント値を別々に候補区間中に記録し,両者の割合,サブワード列長,カウント値の合計値のいずれか一つ以上に基づいて候補区間に順位付けを行うこと,
    を特徴とする音声データ検索システム。
  9. 請求項4記載の音声データ検索システムにおいて,
    複数の音声データが存在する場合,それぞれの音声データから検索された候補区間のカウント値,候補区間の数のいずれか一つ以上に基づいて音声データの順序付けを行うこと,
    を特徴とする音声データ検索システム。
  10. 請求項3記載の音声データ検索システムにおいて,
    前記補正後サブワード列中における挿入,脱落,置換の可能な組み合わせを用いたサブワード列を組み合わせ毎に生成し,生成された個々のサブワード列について候補区間の生成及び選択を行い,その結果を統合することにより最終的な検索結果を決定すること,
    を特徴とする音声データ検索システム。
  11. 請求項10記載の音声データ検索システムにおいて,
    前記補正後サブワード列中における挿入,脱落,置換の可能な組み合わせを用いて生成されたサブワード列毎の検索結果を統合する際,生成されたサブワード列に含まれる挿入,脱落,置換の数に基づいて候補区間に重み付けを行うことにより,全ての検索結果の順序を決定すること,
    を特徴とする音声データ検索システム。
  12. 請求項1記載の音声データ検索システムにおいて,
    前記候補区間選択手段は,前記キーワード・サブワード列と候補区間に含まれるサブワード列とを動的計画法等により比較し,その結果に基づいて出力する候補区間を選択すること,
    を特徴とする音声データ検索システム。
  13. 請求項1記載の音声データ検索システムにおいて,
    前記候補区間選択手段は,前記キーワードから生成した音響パラメータと,候補区間に該当する音声データ中の範囲から抽出した音響パラメータとをHMMや動的計画法等により比較することにより出力する候補区間を選択すること,
    を特徴とする音声データ検索システム。
JP2007301891A 2007-11-21 2007-11-21 音声データ検索システム Active JP4887264B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007301891A JP4887264B2 (ja) 2007-11-21 2007-11-21 音声データ検索システム
CN2008101777905A CN101441649B (zh) 2007-11-21 2008-11-20 声音数据检索系统
US12/275,519 US8150678B2 (en) 2007-11-21 2008-11-21 Spoken document retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007301891A JP4887264B2 (ja) 2007-11-21 2007-11-21 音声データ検索システム

Publications (2)

Publication Number Publication Date
JP2009128508A true JP2009128508A (ja) 2009-06-11
JP4887264B2 JP4887264B2 (ja) 2012-02-29

Family

ID=40642866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007301891A Active JP4887264B2 (ja) 2007-11-21 2007-11-21 音声データ検索システム

Country Status (3)

Country Link
US (1) US8150678B2 (ja)
JP (1) JP4887264B2 (ja)
CN (1) CN101441649B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070192A (ja) * 2009-09-22 2011-04-07 Ricoh Co Ltd 音声検索装置及び音声検索方法
KR101037801B1 (ko) * 2009-09-25 2011-05-31 서울대학교산학협력단 부단위 인식을 이용한 핵심어 검출 방법
JP2013206116A (ja) * 2012-03-28 2013-10-07 Fujitsu Ltd 音声データ検索装置、音声データ検索方法および音声データ検索プログラム
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
US9373328B2 (en) 2014-04-21 2016-06-21 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
KR20190139774A (ko) * 2018-06-08 2019-12-18 성신여자대학교 연구 산학협력단 음향 데이터 탐색 방법 및 장치
JP7370072B2 (ja) 2020-09-25 2023-10-27 音羽電機工業株式会社 分離器内蔵型spd、および分離器内蔵型spdユニット

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4873018B2 (ja) 2009-01-09 2012-02-08 ソニー株式会社 データ処理装置、データ処理方法、及び、プログラム
US20110257972A1 (en) * 2010-04-15 2011-10-20 Markus Agevik System and method for location tracking using audio input
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
US20140067374A1 (en) * 2012-09-06 2014-03-06 Avaya Inc. System and method for phonetic searching of data
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US9601108B2 (en) * 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
JP5888356B2 (ja) * 2014-03-05 2016-03-22 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CN104699809A (zh) * 2015-03-20 2015-06-10 广东睿江科技有限公司 一种优选词库的控制方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
KR100828884B1 (ko) * 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색
JP3916813B2 (ja) 1999-10-22 2007-05-23 株式会社日立製作所 データ系列検索装置および方法
JP3686934B2 (ja) 2001-01-25 2005-08-24 独立行政法人産業技術総合研究所 異種環境音声データの音声検索方法及び装置
JP2002278579A (ja) 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
JP2005257954A (ja) 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
JP4237713B2 (ja) * 2005-02-07 2009-03-11 東芝テック株式会社 音声処理装置
US7678984B1 (en) * 2005-10-13 2010-03-16 Sun Microsystems, Inc. Method and apparatus for programmatically generating audio file playlists
CN100388282C (zh) * 2006-09-14 2008-05-14 浙江大学 基于多模态信息融合分析的跨媒体检索方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070192A (ja) * 2009-09-22 2011-04-07 Ricoh Co Ltd 音声検索装置及び音声検索方法
KR101037801B1 (ko) * 2009-09-25 2011-05-31 서울대학교산학협력단 부단위 인식을 이용한 핵심어 검출 방법
JP2013206116A (ja) * 2012-03-28 2013-10-07 Fujitsu Ltd 音声データ検索装置、音声データ検索方法および音声データ検索プログラム
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP5897718B2 (ja) * 2012-08-29 2016-03-30 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
US9373328B2 (en) 2014-04-21 2016-06-21 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US9378736B2 (en) 2014-04-21 2016-06-28 International Business Machines Corporation Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US9626958B2 (en) 2014-04-21 2017-04-18 Sinoeast Concept Limited Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
KR20190139774A (ko) * 2018-06-08 2019-12-18 성신여자대학교 연구 산학협력단 음향 데이터 탐색 방법 및 장치
KR102185784B1 (ko) * 2018-06-08 2020-12-02 성신여자대학교 연구 산학협력단 음향 데이터 탐색 방법 및 장치
JP7370072B2 (ja) 2020-09-25 2023-10-27 音羽電機工業株式会社 分離器内蔵型spd、および分離器内蔵型spdユニット

Also Published As

Publication number Publication date
JP4887264B2 (ja) 2012-02-29
US8150678B2 (en) 2012-04-03
CN101441649B (zh) 2011-09-21
CN101441649A (zh) 2009-05-27
US20090132251A1 (en) 2009-05-21

Similar Documents

Publication Publication Date Title
JP4887264B2 (ja) 音声データ検索システム
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP5235210B2 (ja) 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体
JP7200405B2 (ja) 音声認識のためのコンテキストバイアス
KR101004560B1 (ko) 음성 인식 시스템 모델링 방법 및 컴퓨터 판독가능 기록 매체
US20100121637A1 (en) Semi-Automatic Speech Transcription
KR20120113717A (ko) 검색 장치, 검색 방법, 및 프로그램
JP2008532099A (ja) データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP6645063B2 (ja) ターゲット文字列の推定
JP4738847B2 (ja) データ検索装置および方法
Moyal et al. Phonetic search methods for large speech databases
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP5590549B2 (ja) 音声検索装置および音声検索方法
JP5542559B2 (ja) 音声検索インタフェース装置及び音声入力検索方法
JP5189413B2 (ja) 音声データ検索システム
JP2009025411A (ja) 音声認識装置およびプログラム
JP4024614B2 (ja) 言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラム
JP2024001922A (ja) 情報処理システム、情報処理方法およびプログラム
JP5585111B2 (ja) 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4887264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250