JP2018160137A

JP2018160137A - 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム

Info

Publication number: JP2018160137A
Application number: JP2017057494A
Authority: JP
Inventors: 穣大原; Minoru Ohara
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2018-10-11
Anticipated expiration: 2037-03-23
Also published as: JP6900723B2

Abstract

【課題】学習対象となる発音に類似する音声データを容易に検索して再生できる音声データ検索装置、音声データ検索方法及び音声データ検索プログラムを提供することを目的とする。【解決手段】音声データを有する情報を記憶している情報記憶部２３と、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部２２と、音声データから、フレーズに特有の発音パターンを認識する音声認識部２５と、情報記憶部２３に記憶された情報を音声認識部２５に認識させることにより、情報の中から指定部２２で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部２６と、を有する。【選択図】図１

Description

本発明は、音声データ検索装置、音声データ検索方法及び音声データ検索プログラムに関するものである。

従来、音声情報が関連付けられた複数の情報の中から、入力音声から抽出した発話内容に類似する音声情報が関連付けられた情報を検索して提示する技術が知られている（特許文献１参照）。
また、音声付きの動画データを対象として、入力音声から抽出した発話内容に対応するフレーム部分を検索することにより、限られた時間において関連する映像を効率よく視聴することができる技術も知られている（特許文献２参照）。

国際公開第２００８／１１４８１１号特開２０００−３０８０１７号公報

ところで、英語のリスニングやスピーキングの学習においては、個々の英単語の音韻だけでなく、連続した複数の英単語からなる英語フレーズにおけるリズムや抑揚やリエゾンなどの音変化についても学習する必要がある。
このため、英語音声付きの動画などを利用して、ある特定の英語フレーズを繰り返し聞くことにより、その英語フレーズにおけるリズムや抑揚やリエゾン等を学習することが行われている。

しかしながら、同じ動画の同じ英語フレーズだけを繰り返し聞いているだけでは、状況の変化や個人の発音の癖等の変化に対応することができず、効果的な学習効果が期待できない。つまり、いろいろな場面でのいろいろな人の発音を繰り返し聞いて、種々の変化に対応できるようにならなければ、脳内の言語認識回路の汎化ができない。
本発明は、上記事情に鑑みてなされたものであり、学習対象となる発音に類似する音声データを容易に検索して再生などを行なわせることができる音声データ検索装置を提供することを目的とする。

上記目的を達成するために、本発明は、以下の構成によって把握される。
本発明の音声データ検索装置は、音声データを有する情報を記憶している情報記憶部と、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部と、音声データから、前記フレーズに特有の発音パターンを認識する音声認識部と、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部と、を有することを特徴とする。
本発明の音声データ検索方法は、音声データを有する情報を記憶する情報記憶ステップと、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有することを特徴とする。
本発明の音声データ検索プログラムは、コンピュータを、音声データを有する情報を記憶している情報記憶手段、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させることを特徴とする。

本発明によれば、学習対象となる発音に類似する音声データを容易に検索して再生などを行なわせることができる音声データ検索装置、音声データ検索方法及び音声データ検索プログラムを提供できる。

音声データ検索装置の構成を示すブロック図である。検索再生装置本体の外観を示す正面図である。音声認識処理を示すフローチャートである。（Ａ）は再生されている動画の音声波形であり、（Ｂ）は（Ａ）の音声波形に対応する単語であり、（Ｃ）は（Ｂ）の単語の標準波形であり、（Ｄ）は入力された波形と標準波形との間で相違する変化部分であり、（Ｅ）は検索して再生する言語フレーズの変化パターンである。音声データ検索装置による、検索動作及び再生動作を示すフローチャートである。

（実施形態）
以下、図面を参照して本発明を実施するための形態（以下、実施形態）について詳細に説明する。なお、実施形態の説明の全体を通して同じ要素には同じ番号を付している。

図１は音声データ検索装置１０の構成を示すブロック図である。図２は検索再生装置本体２０の外観を示す正面図である。
音声データ検索装置１０は、学習対象となる言語フレーズを指定し、この言語フレーズの発音に類似する発音を有する音声データを、記憶している情報から検索して再生するものである。以下の説明においては、音声データ検索装置１０として、電子辞書を用いた場合について説明する。

図１及び図２に示すように、音声データ検索装置１０は、検索再生装置本体２０を有しており、検索再生装置本体２０の内部には、中央制御装置であるＣＰＵ２１が設けられている。検索再生装置本体２０の外面には、表示部であるとともに検索する言語フレーズを指定する指定部でもあるタッチパネル２２が設けられている。

また、ＣＰＵ２１には、情報記憶部２３が接続されている。情報記憶部２３は、音声や音声付き動画を記憶している音声・動画記憶部２３ａ、各単語の基準となる発音の情報（標準音声波形等）を含む単語辞書を記憶する電子辞書部２３ｂ、後述する音声認識処理により抽出された変化パターンを記憶する変化パターン記憶部２３ｃ及び検索候補である言語フレーズを記憶する検索候補記憶部２３ｄを有する。
また、情報記憶部２３は、複数の言語フレーズのそれぞれに特有の発音パターンを記憶する発音パターン記憶部（不図示）を備える。

また、ＣＰＵ２１には、再生部２４が接続されており、情報記憶部２３の音声・動画記憶部２３ａに記憶されている音声や動画等の情報を、タッチパネル２２に再生する。すなわち、再生部２４は、音声データを有する情報において検索部２６により検索された音声部分を再生する。
さらに、ＣＰＵ２１には、指定された言語フレーズから発音パターンを認識する音声認識部２５、発音パターンを音声・動画記憶部２３ａに記憶されている音声情報において検索する検索部２６が接続されている。

すなわち、音声データ検索装置１０は、音声データを有する情報を記憶している情報記憶部２３と、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部２２と、音声データから、フレーズに特有の発音パターンを認識する音声認識部２５と、情報記憶部２３に記憶された情報を音声認識部２５に認識させることにより、情報の中から指定部２２で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部２６と、を有する。

音声認識部２５は、音声データから、フレーズを認識するとともに、その認識したフレーズに特有の発音パターンを認識する。
また、音声認識部２５は、単語辞書を用いて音声データから複数の単語を認識するとともに、基準となる発音との差異を特定し、特定した差異を認識した複数の単語からなる言語フレーズに特有の発音パターンとして認識する。
検索部２６は、情報記憶部２３に記憶された情報を音声認識部２５に認識させるとともに、認識された発音パターンと指定部２２で指定された発音パターンとが設定した類似度以上の類似度となる発音パターンを有する音声部分を検索する。

図２に示すように、タッチパネル２２は、中央に再生部２４によって再生された動画を表示する表示画面２２ａを有する。なお、音声だけで動画のない場合には、音声のみが再生されるが、以下においては、動画がある場合について説明する。表示画面２２ａの左側には、動画保存ボタン２２ｂ等の操作ボタンを有する。また、表示画面２２ａの右側には、種々の操作ボタンや時刻等の表示部が設けられている。

さらに、表示画面２２ａの下側には、動画の再生位置を示すタイムスライダー２２ｃが設けられている。タイムスライダー２２ｃの任意の位置を例えば右手の指ＲＦで触れると、触れた位置に対応した時間の動画の静止画面２２ｄが小さく表示される。このため、右手の指ＲＦをタイムスライダー２２ｃに沿って前後方向へ移動させることにより、再生位置を進めたり戻したりすることができ、静止画面２２ｄから短時間で動画の内容を掴むことができる。なお、タイムスライダー２２ｃを右手の指ＲＦで触れて静止画面２２ｄが表示された状態で、右手の指ＲＦをタイムスライダー２２ｃから外すと、この静止画面２２ｄに対応する動画が再生される。

タッチパネル２２は、指定された言語フレーズに対応する発音パターンを情報記憶部２３の発音パターン記憶部（不図示）から検索し、検索された発音パターンを検索部２６による検索の対象として指定する。
また、タッチパネル２２は、情報記憶部２３に記憶された情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを音声認識部２５により認識し、認識された発音パターンを検索部２６による検索の対象として指定する。
さらに、タッチパネル２２は、情報記憶部２３に記憶された情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを音声認識部２５により認識し、認識された言語フレーズを表示して検索対象部分をユーザに選択させ、選択された検索対象部分に対応する発音パターンを検索部２６による検索の対象として指定する。

次に、音声データ検索装置１０を用いた検索再生動作について説明する。検索動作全体の説明に先立って、まず、言語フレーズの入力動作及び音声認識処理について説明する。

まず、検索したい言語フレーズの入力について説明する。言語フレーズの入力は、検索して再生したい言語フレーズの入力及び言語フレーズを検索する際に必要な変化パターン（詳細は後述する。）をあらかじめ作成して記憶する際にも行われる。

図２に示すように、情報記憶部２３の音声・動画記憶部２３ａに記憶されている音声付き動画を再生する状態で、タッチパネル２２のタイムスライダー２２ｃを右手の指ＲＦで触れて前後にスライドすることにより、再生したい言語フレーズを有する位置を探す。検索したい言語フレーズの静止画面２２ｄが見つかると、右手の指ＲＦでタイムスライダー２２ｃを触れた状態で、左手の指ＬＦで静止画面２２ｄを触れて、静止画面２２ｄを動画保存ボタン２２ｂまでドラッグする。

これにより、この静止画面２２ｄの前後２〜３秒間の音声及び画像が入力されて、情報記憶部２３の検索候補記憶部２３ｄに保存される。検索候補が複数ある場合には、前述の動作を繰り返し行って、次々に検索候補記憶部２３ｄに保存する。なお、検索候補記憶部２３ｄに保存しないで、入力された言語フレーズに類似した言語フレーズを有する動画をすぐに検索して再生することもできる。

次に、言語フレーズから発音パターンを認識する音声認識処理の一例について説明する。図３は音声認識処理の過程を示すフローチャートであり、図４は図３に示す音声認識処理における波形や特徴部分を示す説明図である。

図３及び図４に示すように、まず、音声認識処理を開始すると（ステップＳＢＳ）、対象となる部分動画内からＨＭＭ(Hidden Markov Model：隠れマルコフモデル)等の音声認識処理を用いて複数の音韻部分の並びを特定する（ステップＳＢ１）。例えば、日本語では、「あ」「い」「う」「え」「お」等の音、英語では、母音、子音等のアルファベットの並びを特定して、単語を特定する。これにより、図４（Ａ）に示すような音声波形を得る。

そして、特定した複数の音韻部分の並びを電子辞書部２３ｂに収容されている単語辞書と比較して、該当する１又は複数の単語の並びを特定する（ステップＳＢ２）。これにより、例えば、図４（Ｂ）に示すような、「Ｎｉｃｅ」、「Ｔｏ」、「Ｍｅｅｔ」、「Ｙｏｕ」という４個の単語が特定される。この特定した複数の単語の並びを言語フレーズとして認識する。
次いで、単語辞書から、特定した各単語に対応する標準の音声波形を取得する（ステップＳＢ３）。これにより、図４（Ｃ）に示すような標準的な音声波形を得る。

次に、対象となる部分動画内の各単語の音声波形を、各単語に対応する標準の音声波形と比較して、標準の音声波形からどのような変化をしたかを変化部分として特定する（ステップＳＢ４）。例えば、図４（Ｄ）に示すように、「Ｎｉｃｅ」という単語について部分動画内の音声波形と標準の音声波形とを比較して、音の強弱、高低、長さ等を抽出して、変化部分を抽出する。さらに、図４（Ｅ）に示すように、各単語間、例えば「Ｎｉｃｅ」と「Ｔｏ」との間のリエゾンによる音の変化を加えて変化パターンを抽出する（ステップＳＢ５）。この変化パターンを、上記言語フレーズに特有の変化パターンとして認識する。

このようにして抽出された変化パターンは、リズム、抑揚（音階）、単語の連結部分の音変化のうちの少なくとも一つで表される。これを、各単語について次々に行い、情報記憶部２３の変化パターン記憶部２３ｃに記憶する。これにより、変化パターンと、この変化パターンを有する言語フレーズとを関連付けて記憶し、データベースを作成する。そして、音声認識処理を終了する（ステップＳＢＥ）。

次に、音声データ検索装置１０による、検索動作及び再生動作について説明する。なお、ここでは、電子辞書の学習モードを用いて、電子辞書に記憶されている音声付き動画を用いて学習する場合について説明する。図５は、音声データ検索装置１０による、検索動作及び再生動作を示すフローチャートである。

図５に示すように、検索再生動作を開始すると（ステップＳＡＳ）、情報記憶部２３の音声・動画記憶部２３ａに記憶されている動画の中から所望の動画を選択して再生する（ステップＳＡ１）。再生されている動画において、検索したい言語フレーズが再生された場合、ユーザは、その再生タイミングでタッチパネル２２を用いて入力操作を行うことで、再生タイミングの指定を行なう（ステップＳＡ２）。

そして、指定された再生タイミングの前後の音声データを対象として、図３において前述した工程で音声認識処理を実行して、連続した複数の単語からなる言語フレーズを認識するとともに、認識した言語フレーズの発音の変化パターンを抽出して情報記憶部２３の変化パターン記憶部２３ｃに記憶する（ステップＳＡ３）。動画が終了していない場合には（ステップＳＡ４）、動画を進めて（ステップＳＡ５）、ステップＳＡ２に戻って検索候補を入力する（ステップＳＡ２）。動画が終了した場合には、変化パターン記憶部２３ｃに記憶された言語フレーズを表示画面２２ａに表示する（ステップＳＡ６）。

次いで、検索動作に移る。ユーザは、表示された言語フレーズの中から学習したい変化パターンのある部分を選択する（ステップＳＡ７）、そして、この言語フレーズに対応して認識されている複数の変化パターンの中から、選択された部分に対応する変化パターンを検索対象として指定（記憶）する。その後、動画を最初から再生する（ステップＳＡ８）。このとき、動画は、変化パターンを抽出した動画とは異なる動画も用いることができる。動画の再生とともに音声認識処理を実行し（ステップＳＡ９）、再生中の動画の音声部分に検索対象として指定した変化パターンに一致する音声部分があるか否かを判断する（ステップＳＡ１０）。変化パターンが一致する音声部分がない場合には、動画を進めて（ステップＳＡ１１）、ステップＳＡ９に戻って音声認識処理を実行する（ステップＳＡ９）。

ステップＳＡ１０において変化パターンが一致する音声部分があると判断された場合には、一致した音声部分の動画を再生する（ステップＳＡ１２）。もう一度再生する場合には（ステップＳＡ１３）、動画を戻して一致部分の動画を再生する（ステップＳＡ１２）。これにより、何度でも繰り返して再生することができる。次に進む場合には、動画の終わりか否かを判断して（ステップＳＡ１４）、終わりでない場合には動画を進めて（ステップＳＡ１１）、ステップＳＡ９に戻って、音声認識処理を実行して以降の工程を繰り返す。

そして、ステップＳＡ１４において動画が終了したと判断された場合には、他の動画も検索するか判断し（ステップＳＡ１５）、他の動画を検索しない場合には検索再生動作を終了する（ステップＳＡＥ）。他の動画を検索する場合には、ステップＳＡ８に戻って次の動画を最初から再生し、前述した工程を繰り返す。
なお、上記の処理においては、検索対象となる変化パターンを指定する場合に、ユーザが再生タイミングを指定した後、この再生タイミングに対応する音声部分から抽出した言語フレーズを表示してユーザに選択させ、選択された部分の変化パターンを検索対象として指定するようにしたが、ユーザが検索対象となる変化パターンを有する言語フレーズを直接入力したり、検索対象となる変化パターンをデータベース内から直接選択するようにしてもよい。

以上、本発明の好ましい実施形態について詳述したが、本発明に係る音声データ検索装置１０は上述した実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変化が可能である。

例えば、上記実施形態においては、情報として音声付き動画の場合を説明したが、これに限らず、動画のない音声のみの情報についても同様に適用することができる。

また、上記実施形態においては、変化パターンを記憶しておき、表示される変化パターンから所望の変化パターンを選択して検索を行う場合を例示したが、これに限らず、学習したい単語や熟語等を電子辞書において指定し、指定された単語や熟語に対して音声認識処理を実行して変化パターンを抽出して、この変化パターンに一致するものを再生中の情報から検索することもできる。

また、上記実施形態においては、表示画面がタッチパネルであり、タッチパネルを指で触れることにより入力する場合について説明したが、これに限らず、パソコン等を用いる場合には、マウスでクリック及びドラッグして入力することもできる。あるいは、キーボードを用いて入力することもできる。

また、上記実施形態においては、情報記憶部２３の音声・動画記憶部２３ａに記憶されている動画を用いて学習する場合を例示したが、音声データ付きの動画のＤＶＤ等の記憶媒体を用いて学習することもできる。

また、上記実施形態においては、音声データ検索装置１００について説明したが、同説明は、以下に示すような、音声データ検索方法及び音声データ検索プログラムをも開示する。

音声データ検索方法は、音声データを有する情報を記憶する情報記憶ステップと、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有する。

音声データ検索プログラムは、コンピュータを、音声データを有する情報を記憶している情報記憶手段、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させる。

以上、説明したように、本発明の音声データ検索装置１０によれば、情報記憶部２３に記憶された動画を再生部２４がタッチパネル２２に再生し、タッチパネル２２により再生された画面から検索する言語フレーズを入力する。そして、音声認識部２５が入力された言語フレーズから発音パターンを認識し、検索部２６が、情報記憶部２３に記憶された動画に含まれている言語フレーズの発音パターンを、入力された言語フレーズの発音パターンと比較して、類似する発音パターンを有する言語フレーズを検索して再生する。
このため、学習対象となる言語フレーズの発音に類似する発音を有する言語フレーズを動画から容易に検索して再生でき、学習効率を向上させることができる。

また、本発明の音声データ検索装置１０によれば、情報が、音声付き動画データであるので、動画を見ながら学習でき、学習効率を向上させることができる。

また、本発明の音声データ検索装置１０によれば、タッチパネル２２が再生部２４による動画の再生をしているときに、ユーザが任意のフレーム部分を指定して言語フレーズを入力するので、入力する言語フレーズが用いられた状況を、明確に把握することができる。

また、本発明の音声データ検索装置１０によれば、音声認識部２５が認識する発音パターンが、リズム、抑揚、単語の連結部分の音変化のうちの少なくとも一つである。したがって、単語のみのリズム及び抑揚だけでなく、連結される単語同士の間の音変化も認識することができる。

また、本発明の音声データ検索装置１０によれば、音声認識部２５が、入力された言語フレーズの発音パターンを電子辞書部２３ｂに収容されている標準的な発音パターンと比較して相違点である変化パターンを抽出し、この変化パターンを蓄積する。このため、検索時に、変化パターンについて細かな設定が可能になり、学習の範囲が広くなる。

また、本発明の音声データ検索装置１０によれば、検索部２６が、蓄積された変化パターンと一致する発音パターンを検索するので、検索時に種々の変化パターンを用いることができ、学習の範囲が広くなる。

以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲のとおりである。
＜請求項１＞
音声データを有する情報を記憶している情報記憶部と、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部と、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識部と、
前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部と、を有する
ことを特徴とする音声データ検索装置。
＜請求項２＞
前記音声認識部は、音声データから、フレーズを認識するとともに、前記認識したフレーズに特有の発音パターンを認識し、
前記検索部は、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させるとともに、認識された発音パターンと前記指定部で指定された発音パターンとが設定した類似度以上の類似度となる発音パターンを有する音声部分を検索する
ことを特徴とする請求項１に記載の音声データ検索装置。
＜請求項３＞
前記情報において前記検索部により検索された音声部分を再生する再生部を有する
ことを特徴とする請求項１又は請求項２に記載の音声データ検索装置。
＜請求項４＞
前記情報記憶部は、各単語の基準となる発音の情報を含む単語辞書を記憶し、
前記音声認識部は、前記単語辞書を用いて音声データから複数の単語を認識するとともに、基準となる発音との差異を特定し、特定した差異を前記認識した複数の単語からなる言語フレーズに特有の発音パターンとして認識する
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声データ検索装置。
＜請求項５＞
複数の言語フレーズのそれぞれに特有の発音パターンを記憶する発音パターン記憶部を備え、
前記指定部は、指定された言語フレーズに対応する発音パターンを前記発音パターン記憶部から検索し、検索された発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項１から請求項４のいずれか１項に記載の音声データ検索装置。
＜請求項６＞
前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項１から請求項５のいずれか１項に記載の音声データ検索装置。
＜請求項７＞
前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された言語フレーズを表示して検索対象部分をユーザに選択させ、選択された検索対象部分に対応する発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項１から請求項６のいずれか１項に記載の音声データ検索装置。
＜請求項８＞
前記情報が、音声付き動画データである
ことを特徴とする請求項１から請求項７のいずれか１項に記載の音声データ検索装置。
＜請求項９＞
前記指定部が、前記再生部による前記情報の再生中にユーザが任意のフレーム部分を指定したときに指定された前記フレーム部分の言語フレーズを指定する
ことを特徴とする請求項１から請求項８のいずれか１項に記載の音声データ検索装置。
＜請求項１０＞
前記音声認識部が認識する発音パターンが、リズム、抑揚、単語の連結部分の音変化のうちの少なくとも一つである
ことを特徴とする請求項１から請求項９のいずれか１項に記載の音声データ検索装置。
＜請求項１１＞
前記音声認識部が、入力された言語フレーズの発音パターンを前記単語辞書に収容されている標準的な発音パターンと比較して変化パターンを抽出し、この変化パターンを蓄積する
ことを特徴とする請求項１から請求項１０のいずれか１項に記載の音声データ検索装置。
＜請求項１２＞
前記検索部が、蓄積された前記変化パターンと一致する発音パターンを検索する
ことを特徴とする請求項１から請求項１１のいずれか１項に記載の音声データ検索装置。
＜請求項１３＞
音声データを有する情報を記憶する情報記憶ステップと、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、
情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有する
ことを特徴とする音声データ検索方法。
＜請求項１４＞
コンピュータを、
音声データを有する情報を記憶している情報記憶手段、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、
情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させる
ことを特徴とする音声データ検索プログラム。

１０音声データ検索装置
２２タッチパネル（指定部）
２３情報記憶部
２４再生部
２５音声認識部
２６検索部

Claims

音声データを有する情報を記憶している情報記憶部と、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部と、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識部と、
前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部と、を有する
ことを特徴とする音声データ検索装置。
前記音声認識部は、音声データから、フレーズを認識するとともに、前記認識したフレーズに特有の発音パターンを認識し、
前記検索部は、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させるとともに、認識された発音パターンと前記指定部で指定された発音パターンとが設定した類似度以上の類似度となる発音パターンを有する音声部分を検索する
ことを特徴とする請求項１に記載の音声データ検索装置。
前記情報において前記検索部により検索された音声部分を再生する再生部を有する
ことを特徴とする請求項１又は請求項２に記載の音声データ検索装置。
前記情報記憶部は、各単語の基準となる発音の情報を含む単語辞書を記憶し、
前記音声認識部は、前記単語辞書を用いて音声データから複数の単語を認識するとともに、基準となる発音との差異を特定し、特定した差異を前記認識した複数の単語からなる言語フレーズに特有の発音パターンとして認識する
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声データ検索装置。
複数の言語フレーズのそれぞれに特有の発音パターンを記憶する発音パターン記憶部を備え、
前記指定部は、指定された言語フレーズに対応する発音パターンを前記発音パターン記憶部から検索し、検索された発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項１から請求項４のいずれか１項に記載の音声データ検索装置。
前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項１から請求項５のいずれか１項に記載の音声データ検索装置。
前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された言語フレーズを表示して検索対象部分をユーザに選択させ、選択された検索対象部分に対応する発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項１から請求項６のいずれか１項に記載の音声データ検索装置。
前記情報が、音声付き動画データである
ことを特徴とする請求項１から請求項７のいずれか１項に記載の音声データ検索装置。
前記指定部が、前記再生部による前記情報の再生中にユーザが任意のフレーム部分を指定したときに指定された前記フレーム部分の言語フレーズを指定する
ことを特徴とする請求項１から請求項８のいずれか１項に記載の音声データ検索装置。
前記音声認識部が認識する発音パターンが、リズム、抑揚、単語の連結部分の音変化のうちの少なくとも一つである
ことを特徴とする請求項１から請求項９のいずれか１項に記載の音声データ検索装置。
前記音声認識部が、入力された言語フレーズの発音パターンを前記単語辞書に収容されている標準的な発音パターンと比較して変化パターンを抽出し、この変化パターンを蓄積する
ことを特徴とする請求項１から請求項１０のいずれか１項に記載の音声データ検索装置。
前記検索部が、蓄積された前記変化パターンと一致する発音パターンを検索する
ことを特徴とする請求項１から請求項１１のいずれか１項に記載の音声データ検索装置。
音声データを有する情報を記憶する情報記憶ステップと、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、
情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有する
ことを特徴とする音声データ検索方法。
コンピュータを、
音声データを有する情報を記憶している情報記憶手段、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、
情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させる
ことを特徴とする音声データ検索プログラム。