JP2018160137A - 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム - Google Patents

音声データ検索装置、音声データ検索方法及び音声データ検索プログラム Download PDF

Info

Publication number
JP2018160137A
JP2018160137A JP2017057494A JP2017057494A JP2018160137A JP 2018160137 A JP2018160137 A JP 2018160137A JP 2017057494 A JP2017057494 A JP 2017057494A JP 2017057494 A JP2017057494 A JP 2017057494A JP 2018160137 A JP2018160137 A JP 2018160137A
Authority
JP
Japan
Prior art keywords
unit
pronunciation pattern
pronunciation
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017057494A
Other languages
English (en)
Other versions
JP6900723B2 (ja
JP2018160137A5 (ja
Inventor
穣 大原
Minoru Ohara
穣 大原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2017057494A priority Critical patent/JP6900723B2/ja
Publication of JP2018160137A publication Critical patent/JP2018160137A/ja
Publication of JP2018160137A5 publication Critical patent/JP2018160137A5/ja
Application granted granted Critical
Publication of JP6900723B2 publication Critical patent/JP6900723B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習対象となる発音に類似する音声データを容易に検索して再生できる音声データ検索装置、音声データ検索方法及び音声データ検索プログラムを提供することを目的とする。【解決手段】音声データを有する情報を記憶している情報記憶部23と、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部22と、音声データから、フレーズに特有の発音パターンを認識する音声認識部25と、情報記憶部23に記憶された情報を音声認識部25に認識させることにより、情報の中から指定部22で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部26と、を有する。【選択図】図1

Description

本発明は、音声データ検索装置、音声データ検索方法及び音声データ検索プログラムに関するものである。
従来、音声情報が関連付けられた複数の情報の中から、入力音声から抽出した発話内容に類似する音声情報が関連付けられた情報を検索して提示する技術が知られている(特許文献1参照)。
また、音声付きの動画データを対象として、入力音声から抽出した発話内容に対応するフレーム部分を検索することにより、限られた時間において関連する映像を効率よく視聴することができる技術も知られている(特許文献2参照)。
国際公開第2008/114811号 特開2000−308017号公報
ところで、英語のリスニングやスピーキングの学習においては、個々の英単語の音韻だけでなく、連続した複数の英単語からなる英語フレーズにおけるリズムや抑揚やリエゾンなどの音変化についても学習する必要がある。
このため、英語音声付きの動画などを利用して、ある特定の英語フレーズを繰り返し聞くことにより、その英語フレーズにおけるリズムや抑揚やリエゾン等を学習することが行われている。
しかしながら、同じ動画の同じ英語フレーズだけを繰り返し聞いているだけでは、状況の変化や個人の発音の癖等の変化に対応することができず、効果的な学習効果が期待できない。つまり、いろいろな場面でのいろいろな人の発音を繰り返し聞いて、種々の変化に対応できるようにならなければ、脳内の言語認識回路の汎化ができない。
本発明は、上記事情に鑑みてなされたものであり、学習対象となる発音に類似する音声データを容易に検索して再生などを行なわせることができる音声データ検索装置を提供することを目的とする。
上記目的を達成するために、本発明は、以下の構成によって把握される。
本発明の音声データ検索装置は、音声データを有する情報を記憶している情報記憶部と、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部と、音声データから、前記フレーズに特有の発音パターンを認識する音声認識部と、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部と、を有することを特徴とする。
本発明の音声データ検索方法は、音声データを有する情報を記憶する情報記憶ステップと、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有することを特徴とする。
本発明の音声データ検索プログラムは、コンピュータを、音声データを有する情報を記憶している情報記憶手段、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させることを特徴とする。
本発明によれば、学習対象となる発音に類似する音声データを容易に検索して再生などを行なわせることができる音声データ検索装置、音声データ検索方法及び音声データ検索プログラムを提供できる。
音声データ検索装置の構成を示すブロック図である。 検索再生装置本体の外観を示す正面図である。 音声認識処理を示すフローチャートである。 (A)は再生されている動画の音声波形であり、(B)は(A)の音声波形に対応する単語であり、(C)は(B)の単語の標準波形であり、(D)は入力された波形と標準波形との間で相違する変化部分であり、(E)は検索して再生する言語フレーズの変化パターンである。 音声データ検索装置による、検索動作及び再生動作を示すフローチャートである。
(実施形態)
以下、図面を参照して本発明を実施するための形態(以下、実施形態)について詳細に説明する。なお、実施形態の説明の全体を通して同じ要素には同じ番号を付している。
図1は音声データ検索装置10の構成を示すブロック図である。図2は検索再生装置本体20の外観を示す正面図である。
音声データ検索装置10は、学習対象となる言語フレーズを指定し、この言語フレーズの発音に類似する発音を有する音声データを、記憶している情報から検索して再生するものである。以下の説明においては、音声データ検索装置10として、電子辞書を用いた場合について説明する。
図1及び図2に示すように、音声データ検索装置10は、検索再生装置本体20を有しており、検索再生装置本体20の内部には、中央制御装置であるCPU21が設けられている。検索再生装置本体20の外面には、表示部であるとともに検索する言語フレーズを指定する指定部でもあるタッチパネル22が設けられている。
また、CPU21には、情報記憶部23が接続されている。情報記憶部23は、音声や音声付き動画を記憶している音声・動画記憶部23a、各単語の基準となる発音の情報(標準音声波形等)を含む単語辞書を記憶する電子辞書部23b、後述する音声認識処理により抽出された変化パターンを記憶する変化パターン記憶部23c及び検索候補である言語フレーズを記憶する検索候補記憶部23dを有する。
また、情報記憶部23は、複数の言語フレーズのそれぞれに特有の発音パターンを記憶する発音パターン記憶部(不図示)を備える。
また、CPU21には、再生部24が接続されており、情報記憶部23の音声・動画記憶部23aに記憶されている音声や動画等の情報を、タッチパネル22に再生する。すなわち、再生部24は、音声データを有する情報において検索部26により検索された音声部分を再生する。
さらに、CPU21には、指定された言語フレーズから発音パターンを認識する音声認識部25、発音パターンを音声・動画記憶部23aに記憶されている音声情報において検索する検索部26が接続されている。
すなわち、音声データ検索装置10は、音声データを有する情報を記憶している情報記憶部23と、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部22と、音声データから、フレーズに特有の発音パターンを認識する音声認識部25と、情報記憶部23に記憶された情報を音声認識部25に認識させることにより、情報の中から指定部22で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部26と、を有する。
音声認識部25は、音声データから、フレーズを認識するとともに、その認識したフレーズに特有の発音パターンを認識する。
また、音声認識部25は、単語辞書を用いて音声データから複数の単語を認識するとともに、基準となる発音との差異を特定し、特定した差異を認識した複数の単語からなる言語フレーズに特有の発音パターンとして認識する。
検索部26は、情報記憶部23に記憶された情報を音声認識部25に認識させるとともに、認識された発音パターンと指定部22で指定された発音パターンとが設定した類似度以上の類似度となる発音パターンを有する音声部分を検索する。
図2に示すように、タッチパネル22は、中央に再生部24によって再生された動画を表示する表示画面22aを有する。なお、音声だけで動画のない場合には、音声のみが再生されるが、以下においては、動画がある場合について説明する。表示画面22aの左側には、動画保存ボタン22b等の操作ボタンを有する。また、表示画面22aの右側には、種々の操作ボタンや時刻等の表示部が設けられている。
さらに、表示画面22aの下側には、動画の再生位置を示すタイムスライダー22cが設けられている。タイムスライダー22cの任意の位置を例えば右手の指RFで触れると、触れた位置に対応した時間の動画の静止画面22dが小さく表示される。このため、右手の指RFをタイムスライダー22cに沿って前後方向へ移動させることにより、再生位置を進めたり戻したりすることができ、静止画面22dから短時間で動画の内容を掴むことができる。なお、タイムスライダー22cを右手の指RFで触れて静止画面22dが表示された状態で、右手の指RFをタイムスライダー22cから外すと、この静止画面22dに対応する動画が再生される。
タッチパネル22は、指定された言語フレーズに対応する発音パターンを情報記憶部23の発音パターン記憶部(不図示)から検索し、検索された発音パターンを検索部26による検索の対象として指定する。
また、タッチパネル22は、情報記憶部23に記憶された情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを音声認識部25により認識し、認識された発音パターンを検索部26による検索の対象として指定する。
さらに、タッチパネル22は、情報記憶部23に記憶された情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを音声認識部25により認識し、認識された言語フレーズを表示して検索対象部分をユーザに選択させ、選択された検索対象部分に対応する発音パターンを検索部26による検索の対象として指定する。
次に、音声データ検索装置10を用いた検索再生動作について説明する。検索動作全体の説明に先立って、まず、言語フレーズの入力動作及び音声認識処理について説明する。
まず、検索したい言語フレーズの入力について説明する。言語フレーズの入力は、検索して再生したい言語フレーズの入力及び言語フレーズを検索する際に必要な変化パターン(詳細は後述する。)をあらかじめ作成して記憶する際にも行われる。
図2に示すように、情報記憶部23の音声・動画記憶部23aに記憶されている音声付き動画を再生する状態で、タッチパネル22のタイムスライダー22cを右手の指RFで触れて前後にスライドすることにより、再生したい言語フレーズを有する位置を探す。検索したい言語フレーズの静止画面22dが見つかると、右手の指RFでタイムスライダー22cを触れた状態で、左手の指LFで静止画面22dを触れて、静止画面22dを動画保存ボタン22bまでドラッグする。
これにより、この静止画面22dの前後2〜3秒間の音声及び画像が入力されて、情報記憶部23の検索候補記憶部23dに保存される。検索候補が複数ある場合には、前述の動作を繰り返し行って、次々に検索候補記憶部23dに保存する。なお、検索候補記憶部23dに保存しないで、入力された言語フレーズに類似した言語フレーズを有する動画をすぐに検索して再生することもできる。
次に、言語フレーズから発音パターンを認識する音声認識処理の一例について説明する。図3は音声認識処理の過程を示すフローチャートであり、図4は図3に示す音声認識処理における波形や特徴部分を示す説明図である。
図3及び図4に示すように、まず、音声認識処理を開始すると(ステップSBS)、対象となる部分動画内からHMM(Hidden Markov Model:隠れマルコフモデル)等の音声認識処理を用いて複数の音韻部分の並びを特定する(ステップSB1)。例えば、日本語では、「あ」「い」「う」「え」「お」等の音、英語では、母音、子音等のアルファベットの並びを特定して、単語を特定する。これにより、図4(A)に示すような音声波形を得る。
そして、特定した複数の音韻部分の並びを電子辞書部23bに収容されている単語辞書と比較して、該当する1又は複数の単語の並びを特定する(ステップSB2)。これにより、例えば、図4(B)に示すような、「Nice」、「To」、「Meet」、「You」という4個の単語が特定される。この特定した複数の単語の並びを言語フレーズとして認識する。
次いで、単語辞書から、特定した各単語に対応する標準の音声波形を取得する(ステップSB3)。これにより、図4(C)に示すような標準的な音声波形を得る。
次に、対象となる部分動画内の各単語の音声波形を、各単語に対応する標準の音声波形と比較して、標準の音声波形からどのような変化をしたかを変化部分として特定する(ステップSB4)。例えば、図4(D)に示すように、「Nice」という単語について部分動画内の音声波形と標準の音声波形とを比較して、音の強弱、高低、長さ等を抽出して、変化部分を抽出する。さらに、図4(E)に示すように、各単語間、例えば「Nice」と「To」との間のリエゾンによる音の変化を加えて変化パターンを抽出する(ステップSB5)。この変化パターンを、上記言語フレーズに特有の変化パターンとして認識する。
このようにして抽出された変化パターンは、リズム、抑揚(音階)、単語の連結部分の音変化のうちの少なくとも一つで表される。これを、各単語について次々に行い、情報記憶部23の変化パターン記憶部23cに記憶する。これにより、変化パターンと、この変化パターンを有する言語フレーズとを関連付けて記憶し、データベースを作成する。そして、音声認識処理を終了する(ステップSBE)。
次に、音声データ検索装置10による、検索動作及び再生動作について説明する。なお、ここでは、電子辞書の学習モードを用いて、電子辞書に記憶されている音声付き動画を用いて学習する場合について説明する。図5は、音声データ検索装置10による、検索動作及び再生動作を示すフローチャートである。
図5に示すように、検索再生動作を開始すると(ステップSAS)、情報記憶部23の音声・動画記憶部23aに記憶されている動画の中から所望の動画を選択して再生する(ステップSA1)。再生されている動画において、検索したい言語フレーズが再生された場合、ユーザは、その再生タイミングでタッチパネル22を用いて入力操作を行うことで、再生タイミングの指定を行なう(ステップSA2)。
そして、指定された再生タイミングの前後の音声データを対象として、図3において前述した工程で音声認識処理を実行して、連続した複数の単語からなる言語フレーズを認識するとともに、認識した言語フレーズの発音の変化パターンを抽出して情報記憶部23の変化パターン記憶部23cに記憶する(ステップSA3)。動画が終了していない場合には(ステップSA4)、動画を進めて(ステップSA5)、ステップSA2に戻って検索候補を入力する(ステップSA2)。動画が終了した場合には、変化パターン記憶部23cに記憶された言語フレーズを表示画面22aに表示する(ステップSA6)。
次いで、検索動作に移る。ユーザは、表示された言語フレーズの中から学習したい変化パターンのある部分を選択する(ステップSA7)、そして、この言語フレーズに対応して認識されている複数の変化パターンの中から、選択された部分に対応する変化パターンを検索対象として指定(記憶)する。その後、動画を最初から再生する(ステップSA8)。このとき、動画は、変化パターンを抽出した動画とは異なる動画も用いることができる。動画の再生とともに音声認識処理を実行し(ステップSA9)、再生中の動画の音声部分に検索対象として指定した変化パターンに一致する音声部分があるか否かを判断する(ステップSA10)。変化パターンが一致する音声部分がない場合には、動画を進めて(ステップSA11)、ステップSA9に戻って音声認識処理を実行する(ステップSA9)。
ステップSA10において変化パターンが一致する音声部分があると判断された場合には、一致した音声部分の動画を再生する(ステップSA12)。もう一度再生する場合には(ステップSA13)、動画を戻して一致部分の動画を再生する(ステップSA12)。これにより、何度でも繰り返して再生することができる。次に進む場合には、動画の終わりか否かを判断して(ステップSA14)、終わりでない場合には動画を進めて(ステップSA11)、ステップSA9に戻って、音声認識処理を実行して以降の工程を繰り返す。
そして、ステップSA14において動画が終了したと判断された場合には、他の動画も検索するか判断し(ステップSA15)、他の動画を検索しない場合には検索再生動作を終了する(ステップSAE)。他の動画を検索する場合には、ステップSA8に戻って次の動画を最初から再生し、前述した工程を繰り返す。
なお、上記の処理においては、検索対象となる変化パターンを指定する場合に、ユーザが再生タイミングを指定した後、この再生タイミングに対応する音声部分から抽出した言語フレーズを表示してユーザに選択させ、選択された部分の変化パターンを検索対象として指定するようにしたが、ユーザが検索対象となる変化パターンを有する言語フレーズを直接入力したり、検索対象となる変化パターンをデータベース内から直接選択するようにしてもよい。
以上、本発明の好ましい実施形態について詳述したが、本発明に係る音声データ検索装置10は上述した実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変化が可能である。
例えば、上記実施形態においては、情報として音声付き動画の場合を説明したが、これに限らず、動画のない音声のみの情報についても同様に適用することができる。
また、上記実施形態においては、変化パターンを記憶しておき、表示される変化パターンから所望の変化パターンを選択して検索を行う場合を例示したが、これに限らず、学習したい単語や熟語等を電子辞書において指定し、指定された単語や熟語に対して音声認識処理を実行して変化パターンを抽出して、この変化パターンに一致するものを再生中の情報から検索することもできる。
また、上記実施形態においては、表示画面がタッチパネルであり、タッチパネルを指で触れることにより入力する場合について説明したが、これに限らず、パソコン等を用いる場合には、マウスでクリック及びドラッグして入力することもできる。あるいは、キーボードを用いて入力することもできる。
また、上記実施形態においては、情報記憶部23の音声・動画記憶部23aに記憶されている動画を用いて学習する場合を例示したが、音声データ付きの動画のDVD等の記憶媒体を用いて学習することもできる。
また、上記実施形態においては、音声データ検索装置100について説明したが、同説明は、以下に示すような、音声データ検索方法及び音声データ検索プログラムをも開示する。
音声データ検索方法は、音声データを有する情報を記憶する情報記憶ステップと、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有する。
音声データ検索プログラムは、コンピュータを、音声データを有する情報を記憶している情報記憶手段、連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させる。
以上、説明したように、本発明の音声データ検索装置10によれば、情報記憶部23に記憶された動画を再生部24がタッチパネル22に再生し、タッチパネル22により再生された画面から検索する言語フレーズを入力する。そして、音声認識部25が入力された言語フレーズから発音パターンを認識し、検索部26が、情報記憶部23に記憶された動画に含まれている言語フレーズの発音パターンを、入力された言語フレーズの発音パターンと比較して、類似する発音パターンを有する言語フレーズを検索して再生する。
このため、学習対象となる言語フレーズの発音に類似する発音を有する言語フレーズを動画から容易に検索して再生でき、学習効率を向上させることができる。
また、本発明の音声データ検索装置10によれば、情報が、音声付き動画データであるので、動画を見ながら学習でき、学習効率を向上させることができる。
また、本発明の音声データ検索装置10によれば、タッチパネル22が再生部24による動画の再生をしているときに、ユーザが任意のフレーム部分を指定して言語フレーズを入力するので、入力する言語フレーズが用いられた状況を、明確に把握することができる。
また、本発明の音声データ検索装置10によれば、音声認識部25が認識する発音パターンが、リズム、抑揚、単語の連結部分の音変化のうちの少なくとも一つである。したがって、単語のみのリズム及び抑揚だけでなく、連結される単語同士の間の音変化も認識することができる。
また、本発明の音声データ検索装置10によれば、音声認識部25が、入力された言語フレーズの発音パターンを電子辞書部23bに収容されている標準的な発音パターンと比較して相違点である変化パターンを抽出し、この変化パターンを蓄積する。このため、検索時に、変化パターンについて細かな設定が可能になり、学習の範囲が広くなる。
また、本発明の音声データ検索装置10によれば、検索部26が、蓄積された変化パターンと一致する発音パターンを検索するので、検索時に種々の変化パターンを用いることができ、学習の範囲が広くなる。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲のとおりである。
<請求項1>
音声データを有する情報を記憶している情報記憶部と、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部と、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識部と、
前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部と、を有する
ことを特徴とする音声データ検索装置。
<請求項2>
前記音声認識部は、音声データから、フレーズを認識するとともに、前記認識したフレーズに特有の発音パターンを認識し、
前記検索部は、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させるとともに、認識された発音パターンと前記指定部で指定された発音パターンとが設定した類似度以上の類似度となる発音パターンを有する音声部分を検索する
ことを特徴とする請求項1に記載の音声データ検索装置。
<請求項3>
前記情報において前記検索部により検索された音声部分を再生する再生部を有する
ことを特徴とする請求項1又は請求項2に記載の音声データ検索装置。
<請求項4>
前記情報記憶部は、各単語の基準となる発音の情報を含む単語辞書を記憶し、
前記音声認識部は、前記単語辞書を用いて音声データから複数の単語を認識するとともに、基準となる発音との差異を特定し、特定した差異を前記認識した複数の単語からなる言語フレーズに特有の発音パターンとして認識する
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声データ検索装置。
<請求項5>
複数の言語フレーズのそれぞれに特有の発音パターンを記憶する発音パターン記憶部を備え、
前記指定部は、指定された言語フレーズに対応する発音パターンを前記発音パターン記憶部から検索し、検索された発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声データ検索装置。
<請求項6>
前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項1から請求項5のいずれか1項に記載の音声データ検索装置。
<請求項7>
前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された言語フレーズを表示して検索対象部分をユーザに選択させ、選択された検索対象部分に対応する発音パターンを前記検索部による検索の対象として指定する
ことを特徴とする請求項1から請求項6のいずれか1項に記載の音声データ検索装置。
<請求項8>
前記情報が、音声付き動画データである
ことを特徴とする請求項1から請求項7のいずれか1項に記載の音声データ検索装置。
<請求項9>
前記指定部が、前記再生部による前記情報の再生中にユーザが任意のフレーム部分を指定したときに指定された前記フレーム部分の言語フレーズを指定する
ことを特徴とする請求項1から請求項8のいずれか1項に記載の音声データ検索装置。
<請求項10>
前記音声認識部が認識する発音パターンが、リズム、抑揚、単語の連結部分の音変化のうちの少なくとも一つである
ことを特徴とする請求項1から請求項9のいずれか1項に記載の音声データ検索装置。
<請求項11>
前記音声認識部が、入力された言語フレーズの発音パターンを前記単語辞書に収容されている標準的な発音パターンと比較して変化パターンを抽出し、この変化パターンを蓄積する
ことを特徴とする請求項1から請求項10のいずれか1項に記載の音声データ検索装置。
<請求項12>
前記検索部が、蓄積された前記変化パターンと一致する発音パターンを検索する
ことを特徴とする請求項1から請求項11のいずれか1項に記載の音声データ検索装置。
<請求項13>
音声データを有する情報を記憶する情報記憶ステップと、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、
情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有する
ことを特徴とする音声データ検索方法。
<請求項14>
コンピュータを、
音声データを有する情報を記憶している情報記憶手段、
連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、
音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、
情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させる
ことを特徴とする音声データ検索プログラム。
10 音声データ検索装置
22 タッチパネル(指定部)
23 情報記憶部
24 再生部
25 音声認識部
26 検索部

Claims (14)

  1. 音声データを有する情報を記憶している情報記憶部と、
    連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定部と、
    音声データから、前記フレーズに特有の発音パターンを認識する音声認識部と、
    前記情報記憶部に記憶された前記情報を前記音声認識部に認識させることにより、前記情報の中から前記指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索部と、を有する
    ことを特徴とする音声データ検索装置。
  2. 前記音声認識部は、音声データから、フレーズを認識するとともに、前記認識したフレーズに特有の発音パターンを認識し、
    前記検索部は、前記情報記憶部に記憶された前記情報を前記音声認識部に認識させるとともに、認識された発音パターンと前記指定部で指定された発音パターンとが設定した類似度以上の類似度となる発音パターンを有する音声部分を検索する
    ことを特徴とする請求項1に記載の音声データ検索装置。
  3. 前記情報において前記検索部により検索された音声部分を再生する再生部を有する
    ことを特徴とする請求項1又は請求項2に記載の音声データ検索装置。
  4. 前記情報記憶部は、各単語の基準となる発音の情報を含む単語辞書を記憶し、
    前記音声認識部は、前記単語辞書を用いて音声データから複数の単語を認識するとともに、基準となる発音との差異を特定し、特定した差異を前記認識した複数の単語からなる言語フレーズに特有の発音パターンとして認識する
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声データ検索装置。
  5. 複数の言語フレーズのそれぞれに特有の発音パターンを記憶する発音パターン記憶部を備え、
    前記指定部は、指定された言語フレーズに対応する発音パターンを前記発音パターン記憶部から検索し、検索された発音パターンを前記検索部による検索の対象として指定する
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声データ検索装置。
  6. 前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された発音パターンを前記検索部による検索の対象として指定する
    ことを特徴とする請求項1から請求項5のいずれか1項に記載の音声データ検索装置。
  7. 前記指定部は、前記情報記憶部に記憶された前記情報内の音声部分が指定されると、指定された音声部分に対応する言語フレーズ及び発音パターンを前記音声認識部により認識し、認識された言語フレーズを表示して検索対象部分をユーザに選択させ、選択された検索対象部分に対応する発音パターンを前記検索部による検索の対象として指定する
    ことを特徴とする請求項1から請求項6のいずれか1項に記載の音声データ検索装置。
  8. 前記情報が、音声付き動画データである
    ことを特徴とする請求項1から請求項7のいずれか1項に記載の音声データ検索装置。
  9. 前記指定部が、前記再生部による前記情報の再生中にユーザが任意のフレーム部分を指定したときに指定された前記フレーム部分の言語フレーズを指定する
    ことを特徴とする請求項1から請求項8のいずれか1項に記載の音声データ検索装置。
  10. 前記音声認識部が認識する発音パターンが、リズム、抑揚、単語の連結部分の音変化のうちの少なくとも一つである
    ことを特徴とする請求項1から請求項9のいずれか1項に記載の音声データ検索装置。
  11. 前記音声認識部が、入力された言語フレーズの発音パターンを前記単語辞書に収容されている標準的な発音パターンと比較して変化パターンを抽出し、この変化パターンを蓄積する
    ことを特徴とする請求項1から請求項10のいずれか1項に記載の音声データ検索装置。
  12. 前記検索部が、蓄積された前記変化パターンと一致する発音パターンを検索する
    ことを特徴とする請求項1から請求項11のいずれか1項に記載の音声データ検索装置。
  13. 音声データを有する情報を記憶する情報記憶ステップと、
    連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定ステップと、
    音声データから、前記フレーズに特有の発音パターンを認識する音声認識ステップと、
    情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索ステップと、を有する
    ことを特徴とする音声データ検索方法。
  14. コンピュータを、
    音声データを有する情報を記憶している情報記憶手段、
    連続した複数の単語からなるフレーズに特有の発音パターンを指定する指定手段、
    音声データから、前記フレーズに特有の発音パターンを認識する音声認識手段、
    情報記憶部に記憶された前記情報を音声認識部に認識させることにより、前記情報の中から指定部で指定された発音パターンと類似する発音パターンを有する音声部分を検索する検索手段、として機能させる
    ことを特徴とする音声データ検索プログラム。
JP2017057494A 2017-03-23 2017-03-23 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム Active JP6900723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017057494A JP6900723B2 (ja) 2017-03-23 2017-03-23 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017057494A JP6900723B2 (ja) 2017-03-23 2017-03-23 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム

Publications (3)

Publication Number Publication Date
JP2018160137A true JP2018160137A (ja) 2018-10-11
JP2018160137A5 JP2018160137A5 (ja) 2020-03-26
JP6900723B2 JP6900723B2 (ja) 2021-07-07

Family

ID=63795054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017057494A Active JP6900723B2 (ja) 2017-03-23 2017-03-23 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム

Country Status (1)

Country Link
JP (1) JP6900723B2 (ja)

Also Published As

Publication number Publication date
JP6900723B2 (ja) 2021-07-07

Similar Documents

Publication Publication Date Title
TWI543150B (zh) 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統
JP5193473B2 (ja) オーディオファイルをスピーチ駆動の選択するシステムおよび方法
US9236045B2 (en) Methods and apparatus for proofing of a text input
Ran et al. Artificial intelligence speech recognition model for correcting spoken English teaching
US20130090921A1 (en) Pronunciation learning from user correction
JP4729902B2 (ja) 音声対話システム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US8688725B2 (en) Search apparatus, search method, and program
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP2008216756A (ja) 語句として新たに認識するべき文字列等を取得する技術
JP2016118999A (ja) 音声検索装置、音声検索方法及びプログラム
KR101905827B1 (ko) 연속어 음성 인식 장치 및 방법
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP5739899B2 (ja) 車載オーディオ装置における語彙辞書の再編集
JP2007171724A (ja) 辞書作成装置および辞書作成プログラム
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6022138B2 (ja) 情報提供システム
JP6900723B2 (ja) 音声データ検索装置、音声データ検索方法及び音声データ検索プログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2009271117A (ja) 音声検索装置および音声検索方法
Lukeš et al. Pronunciation variants and ASR of colloquial speech: A case study on Czech
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
TWI269191B (en) Method of synchronizing speech waveform playback and text display
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210531

R150 Certificate of patent or registration of utility model

Ref document number: 6900723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150