JP2009216986A - 音声データ検索システム及び音声データの検索方法 - Google Patents

音声データ検索システム及び音声データの検索方法 Download PDF

Info

Publication number
JP2009216986A
JP2009216986A JP2008060778A JP2008060778A JP2009216986A JP 2009216986 A JP2009216986 A JP 2009216986A JP 2008060778 A JP2008060778 A JP 2008060778A JP 2008060778 A JP2008060778 A JP 2008060778A JP 2009216986 A JP2009216986 A JP 2009216986A
Authority
JP
Japan
Prior art keywords
search
information
data
feature amount
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008060778A
Other languages
English (en)
Other versions
JP5142769B2 (ja
Inventor
Naoyuki Kanda
直之 神田
Takashi Sumiyoshi
貴志 住吉
Yasunari Obuchi
康成 大淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008060778A priority Critical patent/JP5142769B2/ja
Priority to US12/270,147 priority patent/US20090234854A1/en
Priority to CN2008101761818A priority patent/CN101533401B/zh
Publication of JP2009216986A publication Critical patent/JP2009216986A/ja
Application granted granted Critical
Publication of JP5142769B2 publication Critical patent/JP5142769B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが音声データを検索する際のキー入力の労力を低減する。
【解決手段】メタデータが付与された音声データを表現する音響情報特徴量を抽出する。次に、得られた音響情報特徴量のサブ集合のうちで、特定の単語をメタデータに含む音声データのみから抽出され、それ以外の音声データからは抽出されないような音響情報特徴量集合を抽出する。当該単語と前記抽出した音響情報特徴量の集合を対応づけて格納する。入力された検索キーの中に前記単語と合致するものがあった場合に、当該単語に対応した音響情報特徴量の集合を出力する。
【選択図】図2

Description

本発明は、TV番組やカメラ映像に付随する音声データや、コールセンタや会議録などで収録された音声データの中から、ユーザが検索キーワードに基づいて所望の音声が発話された区間を検出する音声検索装置およびそのインタフェースに関するものである。
近年のストレージデバイスの大容量化に伴い、大量の音声データが蓄積されるようになってきている。従来の多くの音声データベースでは、音声データを管理するために音声が録音された時刻の情報を付与し、その情報を元に所望の音声データを検索することが行われてきた。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻を予め知っている必要があり、特定の発話がなされた音声を検索するような用途には不向きであった。特定の発話がなされた音声を検索する場合、音声を始めから終わりまで聴取する必要があった。
そのため、音声データベース中の特定のキーワードが発話された位置を検出する技術が必要とされる。例えば、キーワードの音響的特徴を表す音響特徴ベクトルと、音声データベースの音響特徴ベクトルを時間伸縮を考慮したアラインメントをとることにより、音声データベース中でキーワードが発話された位置を検出する技術が知られている(特許文献1等)。
また、利用者が発声した音声を直接、キーワードとして検索に用いずに、キーワード候補格納部に格納されている音声パターンをキーワードとして音声データの検索を行う技術も知られている(例えば、特許文献2)。
その他の公知な方法として、音声データを音声認識装置によって単語ラティス表現に変換し、生成された単語ラティス上でキーワードを検索することにより、キーワードが音声データベース上で発話された位置を検索するシステムも実現されている。
このようにキーワードが発話された位置を検出する音声検索システムにおいては、ユーザは所望の音声区間で発話されそうな単語を検索キーワードとしてシステムに入力する。例えば、「イチローがインタビューを受けている時の音声を探したい」という要求を持っているユーザは、検索キーとして「イチロー インタビュー」といった入力を行い、音声検索を行うことによって音声区間を検出する。
特開昭55−2205号 特開2001−290496号
しかし、上記従来例のようにキーワードが発話された位置を検出する音声検索システムにおいては、ユーザが検索キーとして入力したキーワードが、必ずしもユーザの所望の音声区間で発話されるとは限らない。上記の例では、「イチローがインタビューを受けている」時の音声で、一度も「インタビュー」という発声がなされないという場合が考えられる。このような場合、ユーザが「イチロー インタビュー」という検索キーワードを入力しても、「イチロー」「インタビュー」という発話がなされた区間を検出するシステムでは、ユーザは所望の「イチローがインタビューを受けている」音声区間を得ることができない。
従来このような場合にはユーザが、所望の音声区間で発話されそうなキーワードを試行錯誤的に入力して検索するしかなく、所望の音声区間を検索するまでの労力が大きいという問題があった。前記の例では、ユーザは「イチローがインタビューを受けている」ときに発話されそうな単語(例えば「放送席放送席」、「お疲れ様でした」など)を試行錯誤的に入力して検索するしかなかった。
そこで本発明は、上記問題点に鑑みてなされたもので、入力された検索キーワードに対応する音響情報特徴量をユーザに提示することで、ユーザが音声データを検索する際のキー入力の労力を低減することを目的とする。
本発明は、音声データを格納する音声データベースと、前記音声データの検索を行う以前に、前記音声データから検索用の検索データを生成する検索データ生成部と、前記予め設定した条件に基づいて前記検索データを検索する検索部と、を備え、前記音声データベースは、前記音声データに対応するメタデータを前記音声データに付加して格納し、前記検索データ生成部は、前記音声データから発話毎の音響情報特徴量を抽出する音響情報特徴量抽出部と、前記抽出された音響情報特徴量に対してクラスタリングを行ってから、当該クラスタリングした音響情報特徴量と、前記メタデータに含まれる単語との対応関係を前記検索データとして生成する対応関係生成部と、前記生成した対応関係を格納する対応関係格納部と、を有する。
また、前記検索部は、前記音声データベースを検索するための検索キーを前記条件として入力する検索キー入力部と、前記検索キーが前記音声データ中で発話された位置を検出する音声データ検索部と、前記検索キーに対応する音響情報特徴量を前記検索データから検索する単語・音響情報特徴量検索部と、前記音声データ検索部の検索結果と、前記単語・音響情報特徴量検索部の検索結果を出力する提示部とを備える。
したがって、本発明は、検索キーが入力された際に、当該検索キーに対応する音響情報特徴量をユーザに提示することで、ユーザが音声データを検索する際のキー入力の労力を低減することができる。
以下、本発明の一実施形態を添付図面に基づいて説明する。
図1は、第1の実施形態を示し、本発明を適用する計算機システムの構成を示すブロック図である。
本実施形態の計算機システムは、テレビ(TV)番組の映像及び音声データを記録し、音声データからユーザが指定した検索キーワードを含む音声区間を検索する音声検索システムを構成する例を示す。図1において、計算機システムは、プログラムやデータを格納するメモリ3と、メモリ3に格納されたプログラムを実行して演算処理を行うプロセッサ(CPU)2と、を備えた計算機1を備える。計算機1には、TV放送を受信するTVチューナ7と、受信したTV放送の音声データと付属データを記録する音声データ蓄積装置6と、検索キーワードや指令などを入力するキーボード4と、検索キーワードや検索結果を表示する表示装置5が接続される。メモリ3には、キーボード4から検索キーワードを受け付けて、音声データ蓄積装置6に記憶された音声データから検索キーワードの音声区間を検索する音声検索アプリケーション10がロードされ、プロセッサ2によって実行される。なお、音声検索アプリケーション10は、後述するように音響情報特徴量抽出部103と、音響情報特徴量提示部111を含む。
音声データ蓄積装置6は、TVチューナ7が受信したTV番組の音声データを格納する音声データベース100を備え、音声データベース100は後述するように、TV放送に含まれる音声データ101と、TV放送に含まれる付属データをメタデータ単語列102として格納する。また、音声データ蓄積装置6は、後述するように、音声検索アプリケーション10が生成した音声データ101の音響特徴量とメタデータ単語列102の対応関係を示す単語・音響情報特徴量対応関係を格納する単語・音響情報特徴量対応保管部106を備える。
なお、TVチューナ7が受信したTV番組の音声データ101は、計算機1の図示しないアプリケーションが音声データ101及びメタデータ単語列102をTV放送から抽出して音声データ蓄積装置6の音声データベース100に書き込むことで行われる。
計算機1で実行される音声検索アプリケーション10は、キーボード4によってユーザが検索キーワードを指定することにより音声データ蓄積装置6に記憶されたTV番組中の音声データ101で、検索キーワードが発話された位置(音声区間)を検出し、表示装置5によって検索結果をユーザに提示する。なお、本実施形態では、TV放送の付属データとしては、例えば、番組の内容を示すテキストデータを含むEPG(Electronic Program Guide)情報を用いる。
音声検索アプリケーション10は、音声データ蓄積装置6にメタデータ単語列102として蓄積されたEPG情報から検索キーワードを抽出し、この検索キーワードに対応する音響情報特徴量を音声データ101から抽出し、音声データ101の音響特徴量とメタデータ単語列102の対応関係を示す単語・音響情報特徴量対応関係を生成して単語・音響情報特徴量対応保管部106に格納する。そして、音声検索アプリケーション10は、キーボード4からキーワードを受け付けると、単語・音響情報特徴量対応保管部106の検索キーワードから該当する検索キーワードを提示し、適切にユーザの検索要求を誘導する。なお、以下の例ではメタデータとしてEPG情報を利用しているが、より詳細なメタデータ情報が番組に付随している場合、この詳細なメタデータ情報を利用することも可能である。
本実施形態で扱う音声データベース100は複数のTV番組から抽出された音声データ101から成り、それぞれの音声データ101には当該音声データを抽出したTV番組に付随するEPG情報がメタデータ単語列102として付属している。
EPG情報201は図3のように、複数のキーワードや字幕情報等の文章からなっている。これらの文字列は、音声検索アプリケーション10で形態素解析処理を用いて単語列に変換しておく。この結果、「激論」202、「参院選」203、「インタビュー」204などがメタデータ単語列として抽出される。音声検索アプリケーション10で行われる形態素解析処理は、公知または周知の手法を用いればよいので、ここでは詳細について省略する。
次に、図2は音声検索アプリケーション10の機能要素を示すブロック図である。音声検索アプリケーション10は、所定のタイミング(例えば、録音が完了した時点など)で、音声データ101とメタデータ単語列102から単語・音響情報特徴量対応関係を生成して音声データ蓄積装置6の単語・音響情報特徴量対応保管部106に格納する。
音声検索アプリケーション10は、単語・音響情報特徴量対応関係を生成するブロック(103〜106)と、単語・音響情報特徴量対応関係を用いて音声データ101の検索を行うブロック(107〜111)に大別される。
単語・音響情報特徴量対応関係を生成するブロックは、音声データ101を発話単位に分割して、各発話の音響特徴量を抽出する音響情報特徴量抽出部103と、発話単位の音響情報特徴量を格納する発話・音響情報特徴量保管部104と、発話毎の音響情報特徴量とEPG情報のメタデータ単語列102との関係を抽出する単語・音響情報特徴量対応部105と、抽出されたメタデータ単語列102と音響情報特徴量を格納する単語・音響情報特徴量対応保管部106とを含む。
検索を行うブロックは、キーボード4からユーザが入力した検索キーワード(または音声検索要求)を受け付けるインターフェースを提供するキーワード入力部107と、ユーザが入力したキーワードが音声データ101上で発声された位置の検出を行う音声検索部108と、キーワードが音声データ101上で発声された位置が検出された場合には当該位置を表示装置5へ出力する音声検索結果提示部109と、キーワードが音声データ101上で発声された位置が検出されなかった場合には、単語・音響情報特徴量対応保管部106からキーワードに対応するメタデータ単語列102と音響情報特徴量を検索する単語・音響情報特徴量検索部110と、キーワードに該当するメタデータ単語列102と音響情報特徴量を表示装置5へ出力する音響情報特徴量提示部111とを含む。
以下に、音声検索アプリケーション10の各部について説明する。
まず、音声データ101を発話単位に分割して、各発話の音響情報特徴量を抽出する音響情報特徴量抽出部103は、図4で示すように構成される。
音響情報特徴量抽出部103では、音声分割部301が、指定された音声データ101を音声データベース100から読み込んで発話ごとに分割する。音声データ101を発話単位に分割する処理は、音声のパワーが一定時間中に一定値以下であったときに発話が終了したとみなすことにより実現できる。
次に、音響情報特徴量抽出部103は、各発話ごとに音響情報特徴量として、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のいずれか、もしくはその組み合わせを抽出し、発話・音響情報特徴量保管部104へ保存する。それぞれの情報を得るための手段と特徴量の形式を以下に述べる。
音声認識結果情報は、音声認識器302によって音声データ101を単語列に変換することにより得られる。音声認識は音声データ101の音声波形をXとし、メタデータ単語列102の単語列をWとしたときに以下の式で表される事後確率最大化探索問題に帰着される。
Figure 2009216986
上記の式は、大量の学習データから学習された音響モデルと言語モデルに基づき探索される。なお、これらの音声認識の手法については、公知または周知の技術を適宜用いればよいので、ここでは説明を省略する。
音声認識器302によって得られた単語列の各単語の存在頻度を音響情報特徴量(音声認識結果情報)として利用する。なお、音声認識器302で得られた単語列に付随して、発話全体の音声認識スコアや、各単語ごとの信頼度などを抽出し、利用してもよい。さらに「放送席放送席」といった複数単語の組み合わせも音響情報特徴量として利用可能である。
音響的話者特徴情報は、話者情報特徴量抽出部303によって得られる。話者情報特徴量抽出部303は予め複数(N人)の話者の音声を収録しておき、これらの音声を混合ガウス分布モデルGMM(Gaussian Mixuture Model)によってモデル化する。話者情報特徴量抽出部303は、発話Xが入力されると、それぞれの混合ガウス分布モデルGMMi(i=1,………,N)ごとに、各混合ガウス分布モデルGMMiから発話が生成される確率P(X|GMMi)を求め、N次元の特徴量を得る。これを当該発話の音響的話者特徴情報として話者情報特徴量抽出部303は出力する。
発話長情報は、発話長抽出部304により、各発話ごとにその発話が継続している時間を計測することで得られる。また、ある値より短い発話を「短い」、ある値より長い発話を「長い」、それ以外の発話を「通常」と分類し、3値の特徴量とすることもできる。
韻律特徴量情報は、韻律情報抽出部306により、当該発話の基本周波数成分を抽出した後、基本周波数成分が発話の語尾で上昇しているか、下降しているか、平坦であるか、の3値に分類して特徴量とすることにより得られる。基本周波数成分の抽出処理は、公知または周知の手法を適用すればよいので、詳細については省略する。また、当該発話の韻律特徴を離散的なパラメータで表現することも可能である。
話者交代情報は、話者交代情報抽出部307により得られる。話者交代情報は当該発話の前の発話が同一人物であるかどうかを表現する特徴量であり、詳細には音響的話者特徴情報を表すN次元特徴量が、当該発話とその前の発話で所定の閾値以上離れていれば異なる人物、そうでなければ同一人物と判定することにより得られる。また、当該発話と後ろの発話が同一人物であるかどうかも、上記と同様の手法により得ることができ特徴量として利用できる。さらに、当該発話前後一定区間内に何人の話者が存在するかといった情報も特徴量として利用することができる。
発話音量情報は、発話音量抽出部305によって、当該発話の最大パワーが、当該音声データ101に含まれる発話の最大パワーの平均との比により表される。もちろん当該発話の平均パワーと当該音声データ中の発話の平均パワーを比べるなどしてもよい。
背景音情報は背景音抽出部309により得られる。背景音としては、拍手音、歓声、音楽、無音、などが当該発話に発生しているかといった情報や、当該発話の前時刻、後時刻で発生しているかといった情報を利用する。ここで拍手音、歓声、音楽、無音などの存在を判定するためには、まずそれぞれの音を用意し、混合ガウス分布モデルGMM等でモデル化する。音声が入力されると、それぞれの混合ガウス分布モデルGMMから前記音声が生成される確率P(X|GMMi)を求め、この値が一定値を超えた場合に、背景音抽出部309は当該背景音が存在すると判定する。背景音抽出部309は、拍手音、歓声、音楽、無音それぞれについて存在/非存在の情報を背景音情報を表す特徴量として出力する。
音響情報特徴量抽出部103において、上記処理を施すことにより、音声データベース100内の音声データ101に対して、発話とその発話を表現する音響情報特徴量の組を得る。音響情報特徴量抽出部103で得られた特徴量は図7で示すようになる。図7において、音響情報特徴量の種類と抽出された特徴量401が対になって、発話・音響情報特徴量保管部104に格納される。なお、上記で記述しなかった音響情報特徴量を利用することも、もちろん可能である。
次に、図2に示した単語・音響情報特徴量対応部105が、前記音響情報特徴量抽出部103で得られた音響情報特徴量とEPG情報を抽出したメタデータ単語列102中の単語との対応を抽出する。
以下の説明ではメタデータ単語列102の一例として、EPG情報中で単語・音響情報特徴量対応部105が任意に選んだ単語に注目し(以下、「注目単語」と呼ぶ)、注目単語と音響情報特徴量との対応を抽出する。なお本実施形態では注目単語としてEPG情報中のひとつの単語を選択しているが、これはEPG情報中の単語の組であっても構わない。
単語・音響情報特徴量対応部105では、まず上記音響情報特徴量抽出部103で得られた発話ごとの音響情報特徴量を発話単位でクラスタリングする。クラスタリングは階層的クラスタリング手法を用いて行うことができる。単語・音響情報特徴量対応部105で行われるクラスタリングの処理手順の一例を下記に示す。
(i)すべての発話をひとつのクラスタとし、その発話から得られる音響情報特徴量をその発話を代表する音響情報特徴量とする。
(ii)各クラスタの音響情報特徴量のベクトル間の距離を求め、これらのベクトル中で最も距離の短いクラスタをマージする。ここでクラスタ間の距離は、クラスタを代表する音響情報特徴量集合間のコサイン距離などを用いることができる。また全ての特徴量が数値化されていればマハラノビス距離などを用いることもできる。マージ前の2つのクラスタに共通する音響情報特徴量を、マージ後のクラスタを代表する音響情報特徴量とする。
(iii)上記(ii)を繰り返し、各クラスタ間の距離の全てが一定値(所定値)以上になった時点でマージを終了する。
次に、単語・音響情報特徴量対応部105は、上記の操作により得られたクラスタのうち、“EPG情報中に注目単語を含む音声発話”のみから構成されるクラスタを抽出する。単語・音響情報特徴量対応部105は、注目単語と抽出したクラスタを代表する音響情報特徴量集合を対応づけた情報を単語・音響情報特徴量対応関係として生成し、単語・音響情報特徴量対応保管部106に記憶する。単語・音響情報特徴量対応部105は、対象となる音声データ101のメタデータ単語列102(EPG情報)の全ての単語に対して、それぞれを注目単語として上記の処理を行い、単語・音響情報特徴量対応関係を生成する。このとき、単語・音響情報特徴量対応保管部106では図8のように単語・音響情報特徴量対応関係のデータが保存される。図8において、単語・音響情報特徴量対応関係501は、メタデータ単語列102の単語に対応する音響情報特徴量を格納したもので、音響情報特徴量は上述のように、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報の何れかを含む。
なお、上記では、対象となる音声データ101のメタデータ単語列102の全ての単語に対して上記処理を行う例を示したが、メタデータ単語列102の単語の一部について上記処理を行うようにしても良い。
以上の処理によって、音声検索アプリケーション10は、音声データベース100の音声データ101から抽出した発話毎の音響情報特徴量と、メタデータ単語列102のEPG情報に含まれる単語の対応関係が単語・音響情報特徴量対応関係501として生成され、単語・音響情報特徴量対応保管部106に格納する。音声検索アプリケーション10は、上記処理を、音声検索システムを利用する前処理として行う。
図5は、上記音声検索アプリケーション10が実行する単語・音響情報特徴量対応関係の生成処理の手順の一例を示すPAD(Problem Analysis Diagram)である。この処理は、所定のタイミング(音声データの録音完了またはユーザの指令)になると実行される。
まず、ステップS103では、音響情報特徴量抽出部103が、図4に示した音声分割部301によって指定された音声データ101を音声データベース100から読み込んで発話ごとに分割して、各発話ごとに音響情報特徴量として、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のいずれか、もしくはその組み合わせを抽出する。次に、ステップS104で、音響情報特徴量抽出部103は、抽出した発話毎の音響情報特徴量を発話・音響情報特徴量保管部104へ保存する。
次に、ステップS105では、上記図2に示した単語・音響情報特徴量対応部105が、発話・音響情報特徴量保管部104に格納された発話毎の音響情報特徴量と、EPG情報を抽出したメタデータ単語列102中の単語との対応関係を抽出する。このステップS105の処理は、上記単語・音響情報特徴量対応部105で述べた処理であり、発話ごとの音響情報特徴量を発話単位で階層的にクラスタリングを行う処理(ステップS310)と、上述したメタデータ単語列102中の注目単語と、クラスタを代表する音響情報特徴量集合を対応づけた情報を単語・音響情報特徴量対応関係として生成する処理(ステップS311)とから構成される。そして、音声検索アプリケーション10は、生成した単語・音響情報特徴量対応関係を単語・音響情報特徴量対応保管部106へ格納する。
以上の処理により、音声検索アプリケーション10は、検索する単語情報と、音響情報特徴量の関連付けを音声データ101毎に行う。
以下の説明では、ユーザが検索キーワードを入力した際の音声検索アプリケーション10の処理について述べる。
ユーザがキーボード4から入力したキーワードと検索対象の音声データ101をキーワード入力部107が受け付けて、次のように処理を進める。なお、ここでのキーワード入力部107としては、キーボード4から入力されたテキストデータの他に、音声認識器を利用してもよい。
まず、音声検索部108は、キーワード入力部107からユーザが入力したキーワードと音声データ101を取得して、音声データベース100から指定された音声データ101を読み込む。そして、音声検索部108は、ユーザのキーワードが、音声データ101上で発声された位置(発話位置)の検出を行う。キーワード入力部107に複数のキーワードが入力された場合、音声検索部108はこれらのキーワードが時間軸上で予め規定しておいた時間範囲よりも近い時刻に発せられた区間を発話位置として検出する。キーワードの発話位置の検出は、例えば上記特許文献1などに記載の公知または周知の方法を用いて行うことができる。
また、発話・音響特情報特徴量保管部104には音声認識情報特徴量として発話ごとに音声認識した結果の単語が含まれており、音声検索部108は、この音声認識結果とキーワードが合致する発話を、検索結果としてもよい。
音声検索部108は、ユーザが入力したキーワードが発声された位置が音声データ101から検出された場合、当該位置を音声検索結果提示部109により表示装置5へ発話位置を出力してユーザに提示する。音声検索結果提示部109が表示装置5に出力する内容は、図9のように、ユーザが入力したキーワード「イチロー インタビュー」と、検索した発話位置を表示する。この例では、発話位置を含む音声区間の音声認識情報特徴量である音声認識で表示を行った場合を示す。
一方、音声検索部108は、ユーザから指定されたキーワードを発声した位置を音声データ101上で検出できなかった場合は、単語・音響情報特徴量検索部110がそれぞれのキーワードごとに、単語・音響情報特徴量対応保管部106を検索し、ユーザが入力したキーワードが単語・音響情報特徴量対応関係に登録されていれば抽出する。
ここで、単語・音響情報特徴量検索部110はユーザ指定されたキーワードに対応する音響情報特徴量(音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報)を単語・音響情報特徴量対応保管部106から検出した場合、音響情報特徴量提示部111は、検出された音響情報特徴量を、推薦する検索キーワードとしてユーザに提示する。例えば、「インタビュー」という単語に対して、音響情報特徴量として「放送席放送席」や「お疲れ様でした」という単語対が含まれていた場合、当該単語対を、音響情報特徴量提示部111は、表示装置5へ図10で示すようにユーザに提示する。
なお、キーワードに対応する音響情報特徴量を提示する際には、それぞれの音響情報特徴量を元に音声データの検索を行い、音声データベース100に存在する確率の高い音響情報特徴量を優先的にユーザに提示するとなおよい。
ユーザは音響情報特徴量提示部111によって表示装置5に提示された情報を元に検索キーワードを追加することができ、効率よく音声データの検索を行うことができる。
音響情報特徴量提示部111は、ユーザがそれぞれの音響情報特徴量を容易に指定できるインタフェースを持ち、ユーザがある音響情報特徴量を指定すると、その音響情報特徴量を検索要求に含めることができるとより良い。
また音響情報特徴量提示部111は、ユーザの検索要求に見合う音声データ101が抽出されたような場合であっても、ユーザの検索キーワードに対応する音響情報特徴量を提示してもよい。
また、図8に示したような単語と音響情報特徴量の組を編集する単語・音響情報特徴量編集部を音声検索アプリケーション10に備えれば、ユーザが自身でよく検索する単語と音響情報特徴量の組を登録することなどができ、操作性を向上させることができる。
図6は、音声検索アプリケーション10が実行する上記キーワード入力部107〜音響情報特徴量提示部111の処理手順の一例を示すPAD(構造化フローチャート)である。
まず、ステップS107では、音声検索アプリケーション10がキーボード4から入力したキーワードと検索対象の音声データ101を受け付ける。
次に、ステップS108で音声検索アプリケーション10は、上述した音声検索部108によって、ユーザが入力したキーワードについて、音声データ101上で発声された位置(発話位置)の検出を行う。
ユーザが入力したキーワードが発声された位置が音声データ101から検出された場合、音声検索アプリケーション10は、ステップS109で、当該位置を音声検索結果提示部109により表示装置5へ発話位置を出力してユーザに提示する。
一方、ステップS110では、音声検索アプリケーション10は、ユーザから指定されたキーワードを発声した位置を音声データ101上で検出できなかった場合、上述の単語・音響情報特徴量検索部110がそれぞれのキーワードごとに、単語・音響情報特徴量対応保管部106を検索し、ユーザが入力したキーワードが単語・音響情報特徴量対応関係に登録されていないか走査する。
音声検索アプリケーション10が、単語・音響情報特徴量検索部110によってユーザに指定されたキーワードに対応する音響情報特徴量(音声認識結果)を単語・音響情報特徴量対応保管部106から検出した場合には、ステップS111へ進み、上述の音響情報特徴量提示部111で検出された音響情報特徴量を推薦する検索キーワードとしてユーザに提示する。
以上の処理により、ユーザが入力した検索キーワードに対して、メタデータ単語列102のEPG情報に含まれる単語が、お勧めキーワードとしてユーザに提示することができる。
このように、本発明では、メタデータ単語列102が付与された複数の音声データ101を音声データベース100に格納し、音声データ101を表現する音響情報特徴量として音声認識結果情報、音響的話者特徴情報、発話長情報、韻律特徴情報、話者交代情報、発話音量情報、背景音情報などを検索アプリケーション10が抽出する。そして、検索アプリケーション10は、得られた音響情報特徴量のサブ集合のうちで、特定の単語をメタデータ単語列102に含む音声データ101のみから抽出され、それ以外の音声データ101からは抽出されないような音響情報特徴量の集合を抽出する。当該特定の単語と上記で抽出した音響情報特徴量の集合を単語・音響情報特徴量対応関係として対応づけて保管しておく。上記の特定の単語に対する音響情報特徴量の集合の抽出をメタデータ中の全ての単語に対して行い、これらの単語と音響情報特徴量の集合の組み合わせを単語・音響情報特徴量対応関係として求めて、単語・音響情報特徴量対応保管部106に格納しておく。ユーザが入力した検索キーワードの中に単語・音響情報特徴量対応関係で求めた単語と合致するものがあった場合に、その単語に対応した音響情報特徴量の集合をユーザに提示する。
これにより、検索キーキーワードが発話された位置を検出する音声検索システムにおいては、ユーザが検索キーとして入力したキーワードが、必ずしもユーザの所望の音声区間で発話されるとは限らないが、本発明を用いることで、検索キーワードを試行錯誤して入力する必要なく、表示装置5に提示された単語に対応した音響情報特徴量の集合を利用することで、音声データの検索に要する労力を大幅に低減することが可能となる。
<第2実施形態>
前記実施形態1では、検索キーとしてキーワードを入力し、音響情報特徴量提示部111では、表示装置5へ音声認識結果情報特徴量の提示を行った。これに対し、第2の実施形態では、検索キーとして、キーワードに加えて、音響的話者特徴情報、発話長、韻律特徴量、話者交代情報、発話音量情報、背景音情報のいずれかを入力し、これらの検索キーで音響情報特徴量の検索を行う音声検索システムを示す。
本実施形態の音声検索システムは、図11に示すように、前記第1実施形態の図1に示したTVチューナ7に代わって、ネットワーク8を介して計算機1に接続されたサーバ9から音声データ101を取得する例を示す。計算機1は、ユーザの指示に基づいて音声データ101をサーバ9から取得して、音声データ蓄積装置6に格納する。
本実施形態では、音声データ101として会議録音声を用いる。会議録音声には図12のように、それぞれファイル名702と出席者名703と音声ID701が付与されている。この音声データ101に対して形態素解析処理を行うことにより、「製品A」702や、「山田太郎」703といった単語を抽出することができる。以下では、形態素解析処理によって音声データ101から抽出した単語をメタデータ単語列102として利用する例を示す。なお、会議録音声収録時にファイル名もしくは出席者名を発声しておき、当該発話を前期第1実施形態に示した音声認識処理によって単語列に変換することでファイル名702と出席者名703を抽出し、上記と同様の処理でメタデータ単語列102を抽出することも可能である。
音響情報特徴量抽出部103は、ユーザが検索キー情報を入力する前に前記第1実施形態と同様に、音声データ101から各発話ごとに音響情報特徴量として、音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のいずれか、もしくはその組み合わせを抽出する。さらに、単語・音響情報特徴量対応部105が、前記音響情報特徴量抽出部103で得られた音響情報特徴量とメタデータ単語列102中の単語との対応を抽出し、単語・音響情報特徴量対応保管部106へ保管する。これらの詳細は前記第1実施形態に示した通りであるので、重複した説明は省略する。
この結果、図13に示すような、メタデータ単語列102中の単語と音響情報特徴量との対応関係が得られ、単語・音響特徴量対応保管部106に保管される。
本実施形態では、単語・音響情報特徴量対応関係に加えて上記の発話と音響情報特徴量の組を発話・音響情報特徴量保管部104に保管する。
ここまではユーザが検索キーを入力する以前に終わらせる処理である。以下、ユーザが検索キーを入力した際の音声検索アプリケーション10の処理を述べる。
ユーザは検索キーとして、キーワードに加えて、音響的話者特徴情報、発話長、韻律特徴量、話者交代情報、発話音量情報、背景音情報のいずれかを入力することができる。このため、例えばキーワード入力部107は図14のようなインタフェースを備えている。
ユーザが図14で示すユーザインターフェースから検索キーを入力すると、音声検索アプリケーション10は音声検索部108で当該検索キーに最も適合する音声区間を検出する。このためには、発話・音響情報特徴量保管部104の中で、検索キーと保管しておいた音響情報量が適合する発話を探索すればよい。
検索キーに適合する発話が検出されれば、音声検索アプリケーション10は当該発話を検索結果として図15で示すような出力を表示装置5からユーザに提示する。
一方、音声検索アプリケーション10は検索キーに適合する発話が検出されなかった場合で、当該検索キーに単語が含まれていた場合、単語・音響情報特徴量対応保管部106を検索し、当該検索キー中の単語に対応する音響情報特徴量を検索する。入力された検索キーに適合する音響情報特徴量が検索された場合、その音響情報特徴量を図16で示すように表示装置5へ出力することでユーザへ提示する。
このように、ユーザは音声検索システムが表示装置5へ提示した図16で示すような音響情報特徴量を指定することで、所望の音声区間を検索することが可能となって、前記従来例のように検索キーを試行錯誤的に入力する手間を省くことができる。
以上のように、本発明によれば、音声データを検索する音声検索システムに適用することができ、さらにコンテンツの録画装置や、会議システム等の音声データを利用する装置に適用することができる。
第1の実施形態を示し、本発明を適用する計算機システムのブロック図である。 第1の実施形態を示し、音声検索アプリケーション10の機能要素を示すブロック図である。 EPG情報の一例を示す説明図である。 第1の実施形態を示し、音響情報特徴量抽出部の機能要素の詳細を示すブロック図である。 第1の実施形態を示し、音声検索アプリケーションで実行される単語・音響情報特徴量対応関係の生成処理の一例を示す構造化フローチャート。 第1の実施形態を示し、音声検索アプリケーションで実行される検索処理の一例を示す構造化フローチャート。 第1の実施形態を示し、音響情報特徴量の種類と、特徴量の一例を示す説明図である。 第1の実施形態を示し、生成された単語・音響情報特徴量対応関係の一例を示す説明図で、単語と音響情報特徴量の対応関係を示す。 第1の実施形態を示し、キーワードに対する検索結果を示す画面イメージ。 第1の実施形態を示し、キーワードに対する検索結果がないときのおすすめキーワードを示す画面イメージ。 第2の実施形態を示し、本発明を適用する計算機システムのブロック図である。 第2の実施形態を示し、音声データに関する情報の一例を示す説明図である。 第2の実施形態を示し、メタデータ単語列中の単語と音響情報特徴量との対応関係を示す説明図である。 第2の実施形態を示し、キーワード入力部が提供するユーザーインターフェースの一例を示す画面イメージである。 第2の実施形態を示し、検索キーに対する検索結果を示す画面イメージ。 第1の実施形態を示し、検索キーに対する検索結果がないときのおすすめキーを示す画面イメージ。
符号の説明
1 計算機
6 音声データ蓄積装置
10 音声検索アプリケーション
100 音声データベース
101 音声データ
102 メタデータ単語列
103 音響情報特徴量抽出部
106 単語・音響情報特徴量対応保管部
110 単語・音響情報特徴量検索部
111 音響情報特徴量提示部

Claims (16)

  1. 音声データを格納する音声データベースと、
    前記音声データの検索を行う以前に、前記音声データから検索用の検索データを生成する検索データ生成部と、
    前記予め設定した条件に基づいて前記検索データを検索する検索部と、を備え、
    前記音声データベースは、
    前記音声データに対応するメタデータを前記音声データに付加して格納し、
    前記検索データ生成部は、
    前記音声データから発話毎の音響情報特徴量を抽出する音響情報特徴量抽出部と、
    前記抽出された音響情報特徴量に対してクラスタリングを行ってから、当該クラスタリングした音響情報特徴量と、前記メタデータに含まれる単語との対応関係を前記検索データとして生成する対応関係生成部と、
    前記生成した対応関係を格納する対応関係格納部と、
    を有することを特徴とする音声データ検索システム。
  2. 前記検索部は、
    前記音声データベースを検索するための検索キーを前記条件として入力する検索キー入力部と、
    前記検索キーが前記音声データ中で発話された位置を検出する音声データ検索部と、
    前記検索キーに対応する音響情報特徴量を前記検索データから検索する単語・音響情報特徴量検索部と、
    前記音声データ検索部の検索結果と、前記単語・音響情報特徴量検索部の検索結果を出力する提示部とを備えたことを特徴とする請求項1に記載の音声データ検索システム。
  3. 前記音響情報特徴量抽出部は、
    前記音声データを発話毎に分割する音声分割部と、
    前記音声データについて前記発話毎に音声認識を行い、音声認識結果情報として単語列を出力する音声認識部と、
    予め設定した音声モデルと、前記音声データとを比較して、音声データに含まれる発話毎の話者の特徴量を音響的話者特徴情報として抽出する話者情報特徴量抽出部と、
    前記音声データに含まれる発話の長さを発話長情報として抽出する発話長抽出部と、
    前記音声データに含まれる発話毎の韻律を韻律情報として抽出する韻律情報抽出部と、
    前記音声データ中の発話が同一人物であるか否かを示す特徴量として話者交代情報を前記音声データから抽出する話者交代情報抽出部と、
    前記音声データに含まれる発話毎の音量を発話音量情報として抽出する発話音量抽出部と、
    前記音声データに含まれる背景音を背景音情報として抽出する背景音抽出部と、を有し、
    前記音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のうちの少なくとも一つを出力することを特徴とする請求項1に記載の音声データ検索システム。
  4. 前記提示部は、前記単語・音響情報特徴量検索部で検索された音響情報特徴量を出力する音響情報特徴量提示部を有することを特徴とする請求項2に記載の音声データ検索システム。
  5. 前記音響情報特徴量提示部は、
    前記単語・音響情報特徴量検索部で検索された音響情報特徴量のうち前記音声データに存在する確率の高い音響情報特徴量を優先して出力する音響情報特徴量提示部を含むことを特徴とする請求項4に記載の音声データ検索システム。
  6. 検索対象とする音声データを指定する音声データ指定部を、さらに備え、
    前記音響情報特徴量提示部は、
    前記単語・音響情報特徴量検索部で検索された音響情報特徴量のうち検索対象として指定された音声データに存在する確率の高い音響情報特徴量を優先して出力することを特徴とする請求項5に記載の音声データ検索システム。
  7. 前記単語・音響情報特徴量保管部は、
    前記音響情報特徴量の組を追加、削除、編集する単語・音響情報特徴量編集部を有することを特徴とする請求項1に記載の音声データ検索システム。
  8. 前記検索部は、
    前記音声データベースを検索するための検索キーを入力する検索キー入力部を有し、
    前記検索キー入力部は、
    キーワードと、前記音響的話者特徴情報と、前記発話長情報と、前記韻律情報と、前記話者交代情報と、前記発話音量情報と、前記背景音情報のうちの少なくとも一つを受け付けることを特徴とする請求項3に記載の音声データ検索システム。
  9. 音声データベースに格納された音声データを、予め設定した条件で計算機が前記音声データの検索を行う音声データの検索方法であって、
    前記音声データの検索を行う以前に、計算機が前記音声データから検索用の検索データを生成するステップと、
    前記予め設定した条件に基づいて前記計算機が前記検索データを検索するステップと、を備え、
    前記音声データベースは、
    前記音声データに対応するメタデータを前記音声データに付加して格納し、
    前記音声データから検索用の検索データを生成するステップは、
    前記音声データから発話毎の音響情報特徴量を抽出するステップと、
    前記抽出された音響情報特徴量に対してクラスタリングを行ってから、当該クラスタリングした音響情報特徴量と、前記メタデータに含まれる単語との対応関係を前記検索データとして生成するステップと、
    前記生成した対応関係を格納するステップと、
    を含むことを特徴とする音声データの検索方法。
  10. 前記前記予め設定した条件に基づいて前記計算機が前記検索データを検索するステップは、
    前記音声データベースを検索するための検索キーを前記条件として入力するステップと、
    前記検索キーが前記音声データ中で発話された位置を検出するステップと、
    前記検索キーに対応する音響情報特徴量を前記検索データから検索するステップと、
    前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップと、
    を備えたことを特徴とする請求項9に記載の音声データの検索方法。
  11. 前記音響情報特徴量を抽出するステップは、
    前記音声データを発話毎に分割するステップと、
    前記音声データについて前記発話毎に音声認識を行い、音声認識結果情報として単語列を出力するステップと、
    予め設定した音声モデルと、前記音声データとを比較して、音声データに含まれる発話毎の話者の特徴量を音響的話者特徴情報として抽出するステップと、
    前記音声データに含まれる発話の長さを発話長情報として抽出するステップと、
    前記音声データに含まれる発話毎の韻律を韻律情報として抽出するステップと、
    前記音声データ中の発話が同一人物であるか否かを示す特徴量として話者交代情報を前記音声データから抽出するステップと、
    前記音声データに含まれる発話毎の音量を発話音量情報として抽出するステップと、
    前記音声データに含まれる背景音を背景音情報として抽出するステップと、を含み、
    前記音声認識結果情報、音響的話者特徴情報、発話長情報、韻律情報、話者交代情報、発話音量情報、背景音情報のうちの少なくとも一つを出力することを特徴とする請求項9に記載の音声データの検索方法。
  12. 前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップは、
    前記検索された音響情報特徴量を出力することを特徴とする請求項10に記載の音声データの検索方法。
  13. 前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップは、
    前記検索された音響情報特徴量のうち前記音声データに存在する確率の高い音響情報特徴量を優先して出力することを特徴とする請求項12に記載の音声データの検索方法。
  14. 検索対象とする音声データを指定するステップを、さらに含み、
    前記音声データの検索結果と、前記音響情報特徴量の検索結果を出力するステップは、
    前記検索された音響情報特徴量のうち検索対象として指定された音声データに存在する確率の高い音響情報特徴量を優先して出力することを特徴とする請求項13に記載の音声データの検索方法。
  15. 前記音響情報特徴量の組を追加、削除、編集するステップをさらに含むことを特徴とする請求項9に記載の声データの検索方法。
  16. 前記予め設定した条件に基づいて前記計算機が前記検索データを検索するステップは、
    前記音声データベースを検索するための検索キーを入力するステップを含み、
    前記検索キーを入力するステップは、
    キーワードと、前記音響的話者特徴情報と、前記発話長情報と、前記韻律情報と、前記話者交代情報と、前記発話音量情報と、前記背景音情報のうちの少なくとも一つを受け付けることを特徴とする請求項11に記載の音声データの検索方法。
JP2008060778A 2008-03-11 2008-03-11 音声データ検索システム及び音声データの検索方法 Expired - Fee Related JP5142769B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008060778A JP5142769B2 (ja) 2008-03-11 2008-03-11 音声データ検索システム及び音声データの検索方法
US12/270,147 US20090234854A1 (en) 2008-03-11 2008-11-13 Search system and search method for speech database
CN2008101761818A CN101533401B (zh) 2008-03-11 2008-11-14 声音数据检索系统以及声音数据的检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008060778A JP5142769B2 (ja) 2008-03-11 2008-03-11 音声データ検索システム及び音声データの検索方法

Publications (2)

Publication Number Publication Date
JP2009216986A true JP2009216986A (ja) 2009-09-24
JP5142769B2 JP5142769B2 (ja) 2013-02-13

Family

ID=41064146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008060778A Expired - Fee Related JP5142769B2 (ja) 2008-03-11 2008-03-11 音声データ検索システム及び音声データの検索方法

Country Status (3)

Country Link
US (1) US20090234854A1 (ja)
JP (1) JP5142769B2 (ja)
CN (1) CN101533401B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011025042A1 (ja) 2009-08-31 2011-03-03 新日本製鐵株式会社 高強度溶融亜鉛めっき鋼板及びその製造方法
JP2011175587A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
WO2013073250A1 (ja) * 2011-11-16 2013-05-23 ソニー株式会社 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP2016018229A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
WO2016028254A1 (en) * 2014-08-18 2016-02-25 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
JP2016062333A (ja) * 2014-09-18 2016-04-25 株式会社日立製作所 検索サーバ、及び検索方法
JP2018160137A (ja) * 2017-03-23 2018-10-11 カシオ計算機株式会社 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5025782B2 (ja) * 2010-02-17 2012-09-12 キヤノン株式会社 画像検索装置及び画像検索方法
EP2373005A1 (en) * 2010-03-01 2011-10-05 Nagravision S.A. Method for notifying a user about a broadcast event
US20120296652A1 (en) * 2011-05-18 2012-11-22 Sony Corporation Obtaining information on audio video program using voice recognition of soundtrack
TR201802631T4 (tr) * 2013-01-21 2018-03-21 Dolby Laboratories Licensing Corp Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder
CN106021249A (zh) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 一种基于内容的语音文件检索方法和系统
CN106021451A (zh) * 2016-05-13 2016-10-12 百度在线网络技术(北京)有限公司 基于互联网的声音博物馆的实现方法和装置
CN108536414B (zh) * 2017-03-06 2021-10-22 腾讯科技(深圳)有限公司 语音处理方法、装置和系统、移动终端
JP7202938B2 (ja) * 2019-03-20 2023-01-12 Tvs Regza株式会社 番組名検索支援装置、及び、番組名検索支援方法
CN111798840B (zh) * 2020-07-16 2023-08-08 中移在线服务有限公司 语音关键词识别方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312389A (ja) * 1997-05-13 1998-11-24 Dainippon Screen Mfg Co Ltd 音声データベースシステムおよび記録媒体

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3611799A (en) * 1969-10-01 1971-10-12 Dresser Ind Multiple chamber earth formation fluid sampler
US4570481A (en) * 1984-09-10 1986-02-18 V.E. Kuster Company Instrument locking and port bundle carrier
US4665983A (en) * 1986-04-03 1987-05-19 Halliburton Company Full bore sampler valve with time delay
US4747304A (en) * 1986-10-20 1988-05-31 V. E. Kuster Company Bundle carrier
US4787447A (en) * 1987-06-19 1988-11-29 Halliburton Company Well fluid modular sampling apparatus
US4878538A (en) * 1987-06-19 1989-11-07 Halliburton Company Perforate, test and sample tool and method of use
US4883123A (en) * 1988-11-23 1989-11-28 Halliburton Company Above packer perforate, test and sample tool and method of use
US4903765A (en) * 1989-01-06 1990-02-27 Halliburton Company Delayed opening fluid sampler
US5230244A (en) * 1990-06-28 1993-07-27 Halliburton Logging Services, Inc. Formation flush pump system for use in a wireline formation test tool
US5058674A (en) * 1990-10-24 1991-10-22 Halliburton Company Wellbore fluid sampler and method
US5240072A (en) * 1991-09-24 1993-08-31 Halliburton Company Multiple sample annulus pressure responsive sampler
US5329811A (en) * 1993-02-04 1994-07-19 Halliburton Company Downhole fluid property measurement tool
US5368100A (en) * 1993-03-10 1994-11-29 Halliburton Company Coiled tubing actuated sampler
US5540280A (en) * 1994-08-15 1996-07-30 Halliburton Company Early evaluation system
ES2138344T3 (es) * 1995-05-29 2000-01-01 Siemens Ag Procedimiento y sistema de instalacion de programas de usuario, asi como ordenador de usuario en una red de ordenadores.
US5687791A (en) * 1995-12-26 1997-11-18 Halliburton Energy Services, Inc. Method of well-testing by obtaining a non-flashing fluid sample
US5934374A (en) * 1996-08-01 1999-08-10 Halliburton Energy Services, Inc. Formation tester with improved sample collection system
US5992520A (en) * 1997-09-15 1999-11-30 Halliburton Energy Services, Inc. Annulus pressure operated downhole choke and associated methods
US6065355A (en) * 1997-09-23 2000-05-23 Halliburton Energy Services, Inc. Non-flashing downhole fluid sampler and method
US6301959B1 (en) * 1999-01-26 2001-10-16 Halliburton Energy Services, Inc. Focused formation fluid sampling probe
WO2000050736A1 (en) * 1999-02-25 2000-08-31 Baker Hughes Incorporated Apparatus and method for controlling well fluid sample pressure
US6748843B1 (en) * 1999-06-26 2004-06-15 Halliburton Energy Services, Inc. Unique phasings and firing sequences for perforating guns
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
US6491104B1 (en) * 2000-10-10 2002-12-10 Halliburton Energy Services, Inc. Open-hole test method and apparatus for subterranean wells
US6668924B2 (en) * 2000-11-14 2003-12-30 Schlumberger Technology Corporation Reduced contamination sampling
US6711543B2 (en) * 2001-05-30 2004-03-23 Cameronsound, Inc. Language independent and voice operated information management system
US6622554B2 (en) * 2001-06-04 2003-09-23 Halliburton Energy Services, Inc. Open hole formation testing
US7246664B2 (en) * 2001-09-19 2007-07-24 Baker Hughes Incorporated Dual piston, single phase sampling mechanism and procedure
US6964301B2 (en) * 2002-06-28 2005-11-15 Schlumberger Technology Corporation Method and apparatus for subsurface fluid sampling
US6907797B2 (en) * 2002-11-12 2005-06-21 Baker Hughes Incorporated Method and apparatus for supercharging downhole sample tanks
US7128144B2 (en) * 2003-03-07 2006-10-31 Halliburton Energy Services, Inc. Formation testing and sampling apparatus and methods
US7140436B2 (en) * 2003-04-29 2006-11-28 Schlumberger Technology Corporation Apparatus and method for controlling the pressure of fluid within a sample chamber
US7083009B2 (en) * 2003-08-04 2006-08-01 Pathfinder Energy Services, Inc. Pressure controlled fluid sampling apparatus and method
US20050183610A1 (en) * 2003-09-05 2005-08-25 Barton John A. High pressure exposed detonating cord detonator system
US20050205301A1 (en) * 2004-03-19 2005-09-22 Halliburton Energy Services, Inc. Testing of bottomhole samplers using acoustics
US7380599B2 (en) * 2004-06-30 2008-06-03 Schlumberger Technology Corporation Apparatus and method for characterizing a reservoir
US7430965B2 (en) * 2004-10-08 2008-10-07 Halliburton Energy Services, Inc. Debris retention perforating apparatus and method for use of same
US7565835B2 (en) * 2004-11-17 2009-07-28 Schlumberger Technology Corporation Method and apparatus for balanced pressure sampling
JP2006244002A (ja) * 2005-03-02 2006-09-14 Sony Corp コンテンツ再生装置およびコンテンツ再生方法
JP2007052594A (ja) * 2005-08-17 2007-03-01 Toshiba Corp 情報処理端末、情報処理方法、情報処理プログラムおよびネットワークシステム
US7472589B2 (en) * 2005-11-07 2009-01-06 Halliburton Energy Services, Inc. Single phase fluid sampling apparatus and method for use of same
US7874206B2 (en) * 2005-11-07 2011-01-25 Halliburton Energy Services, Inc. Single phase fluid sampling apparatus and method for use of same
US7197923B1 (en) * 2005-11-07 2007-04-03 Halliburton Energy Services, Inc. Single phase fluid sampler systems and associated methods
US7353725B2 (en) * 2005-11-09 2008-04-08 Caterpillar Inc. Method of shifting gears in a work machine

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312389A (ja) * 1997-05-13 1998-11-24 Dainippon Screen Mfg Co Ltd 音声データベースシステムおよび記録媒体

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011025042A1 (ja) 2009-08-31 2011-03-03 新日本製鐵株式会社 高強度溶融亜鉛めっき鋼板及びその製造方法
JP2011175587A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム
WO2013073250A1 (ja) * 2011-11-16 2013-05-23 ソニー株式会社 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム
JP2013105146A (ja) * 2011-11-16 2013-05-30 Sony Corp 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム
US10477267B2 (en) 2011-11-16 2019-11-12 Saturn Licensing Llc Information processing device, information processing method, information provision device, and information provision system
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP5897718B2 (ja) * 2012-08-29 2016-03-30 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP2016018229A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
WO2016028254A1 (en) * 2014-08-18 2016-02-25 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US10229686B2 (en) 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
JP2016062333A (ja) * 2014-09-18 2016-04-25 株式会社日立製作所 検索サーバ、及び検索方法
JP2018160137A (ja) * 2017-03-23 2018-10-11 カシオ計算機株式会社 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム

Also Published As

Publication number Publication date
CN101533401B (zh) 2012-07-11
US20090234854A1 (en) 2009-09-17
CN101533401A (zh) 2009-09-16
JP5142769B2 (ja) 2013-02-13

Similar Documents

Publication Publication Date Title
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
US8694317B2 (en) Methods and apparatus relating to searching of spoken audio data
US10056078B1 (en) Output of content based on speech-based searching and browsing requests
US6434520B1 (en) System and method for indexing and querying audio archives
US10074363B2 (en) Method and apparatus for keyword speech recognition
US9123330B1 (en) Large-scale speaker identification
KR100828884B1 (ko) 데이터베이스 주석 및 검색
US10133538B2 (en) Semi-supervised speaker diarization
CN105723449B (zh) 言语内容分析系统和言语内容分析方法
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US7680853B2 (en) Clickable snippets in audio/video search results
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JPWO2008114811A1 (ja) 情報検索システム、情報検索方法及び情報検索用プログラム
JP3799280B2 (ja) 対話システムおよびその制御方法
US10255321B2 (en) Interactive system, server and control method thereof
KR20060020114A (ko) 음악 검색 서비스 제공 시스템 및 방법
CN106710585A (zh) 语音交互过程中的多音字播报方法及系统
US20210279427A1 (en) Systems and methods for generating multi-language media content with automatic selection of matching voices
JP5182892B2 (ja) 音声検索方法,音声検索装置および音声検索プログラム
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN113129895B (zh) 一种语音检测处理系统
JP2004302175A (ja) 音声認識システム、音声認識方法及び音声認識プログラム
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US11632345B1 (en) Message management for communal account

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5142769

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees