JP6128146B2

JP6128146B2 - 音声検索装置、音声検索方法及びプログラム

Info

Publication number: JP6128146B2
Application number: JP2015033952A
Authority: JP
Inventors: 孝浩田中
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2015-02-24
Filing date: 2015-02-24
Publication date: 2017-05-17
Anticipated expiration: 2035-02-24
Also published as: CN105912558A; US20160247542A1; JP2016157225A; US9734871B2

Description

本発明は、音声検索装置、音声検索方法及びプログラムに関する。

近年、録音した音声から、ユーザが聞きたい音声が発話されている箇所を検索する音声検索の技術が研究されている。
例えば、特許文献１には、音声検索に際してユーザが検索キーワードを音声入力し、その音声入力された検索キーワードと一致する音声が発話されている箇所を検索する音声検索装置が開示されている。

特開２００１−２９０４９６号公報

ところで、音声検索装置が検索した音声とユーザが聞きたい音声とは一致しない場合がある。このため、ユーザは、音声検索装置が検索した音声を再生して、自身が聞きたい音声と一致するか否かの正誤確認を行う必要がある。この正誤確認の作業は、通常、検索された複数の音声をユーザがそれぞれ個別再生して順次確認していくことで行われる。この正誤確認の作業時に表示されるグラフィカルな情報は、ユーザにとって分かり易いように表示するのが好ましい。

しかしながら、ユーザが検索された音声を再生しても時間軸においてその再生箇所が視覚的に把握できない、あるいはユーザが検索された音声を正解と判断しても時間軸においてその箇所が視覚的に把握できない、といったことがあった。このようなことから、音声検索に伴って生じるユーザ作業において、情報の表示様式（ＵＩ：ユーザインタフェース）が視認性、操作性の観点から十分でないという問題があった。

そこで、本発明は、上記問題を解決するためになされたものであり、音声検索に伴うユーザ作業において視認性、操作性に優れたユーザインタフェースを表示する場合に好適な音声検索装置等を提供することを目的とする。

上記目的を達成するため、この発明の音声検索装置は、
入力された検索語を受け付ける受付手段と、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索手段と、
前記検索手段が検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御手段と、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生手段と、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御手段と、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御手段と、
を備え、
前記第三表示制御手段は、前記音声再生手段による前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示する、
ことを特徴とする。

本発明によれば、音声検索に伴うユーザ作業において視認性、操作性に優れたユーザインタフェースを表示することができる。

音声検索装置の構成を示すブロック図である。再生モードにおける表示画面の一例を示す図である。音声波形にマークを表示した表示例を示す図である。音声検索処理の流れの一例を示すフローチャートである。検索結果処理の流れの一例を示すフローチャートである。

以下、この発明の実施形態を図面に基づいて説明する。
図１に示すように、音声検索装置１００は、マイク１１０、スピーカ１２０、表示部1３０、入力部１４０、制御部１５０、記憶部１６０を備える。この音声検索装置１００は、録音音声からユーザが入力した検索語を音声検索する装置であって、例えば、ＰＣ（Personal Computer）、ボイスレコーダ、スマートフォンなどである。この実施形態では、音声検索装置１００は、一例として、スマートフォンであることを前提に説明する。

マイク１１０は、外部音声を収音する音声入力部である。
スピーカ１２０は、音声を可聴音として外部出力する音声出力部である。
表示部１３０は、例えば、ＬＣＤ（Liquid Crystal Display）やＥＬ（Electroluminescence）ディスプレイなどによって構成され、音声検索結果などを表示する。

入力部１４０は、表示部１３０の上面に配置され、ユーザが操作入力するためのタッチパネルである。入力部１４０（タッチパネル）は、例えば図示しない透明電極を内蔵し、ユーザの指等が接触した場合に、電圧が変化した位置を接触位置として検出し、その接触位置の情報を入力指示として制御部１５０へ出力する。

制御部１５０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ (Read Only Memory)、ＲＡＭ (Random Access Memory)などから構成される。制御部１５０のＣＰＵは、ＲＯＭに記憶されている後述する処理（音声検索処理）のプログラムを読み出して実行することにより、この処理に係る各機能（受付部１５１、音声検索部１５２、表示制御部１５３及び再生部１５４）を実現する。
なお、この音声検索処理のプログラムは、音声検索装置１００のユーザが予め音声検索用のスマホアプリケーションをダウンロードして、インストールしておくことで制御部１５０が実行可能となる。

記憶部１６０は、ＨＤＤ (Hard Disk Drive)などの不揮発性メモリである。この記憶部１３０は、録音音声のデータである録音データ１６１（以下、音声ファイルともいう）を記憶する。

この音声検索装置１００は、音声検索の前提となる前処理として音声検索の対象となる音声を録音する録音モードと、録音モードで録音された録音音声を再生する再生モードと、を備える。音声検索は、再生モードにおいて、ユーザが聞き直したい箇所から再生する、いわゆるスキップ再生に先立って行われる。

ここで、録音モードにおいて、音声検索装置１００の制御部１５０は、ユーザから録音開始の指示を受け付けると録音を開始し、録音終了の指示を受け付けると録音を終了する。そして、制御部１５０は、録音データ（音声データ）１６１を記憶部１６０に記憶する。ユーザは、録音モードにおいて、自身が後で聞き直す対象の音声（例えば、会議音声、講義音声など）を録音しておく。

次に、制御部１５０の再生モードに係る各機能（受付部１５１、音声検索部１５２、表示制御部１５３及び再生部１５４）について説明する。
受付部１５１は、入力された検索語を受け付ける。この検索語は、音声検索のための検索キーワードであって、漢字、平仮名、片仮名、アルファベットなどからなるテキストである。

ここで、図２を参照しながら検索語の入力について説明する。図２は、スマホアプリケーションの再生モードにおける表示画面の一例を示す図である。音声検索装置１００の表示部１３０は、ユーザが検索語を入力するための検索ボックス１３１と、録音音声の音声波形を時間軸ｔ上に表示する波形表示領域１３２と、検索結果の一覧を表示する検索結果リスト１３３と、を表示する。
受付部１５１は、ユーザが検索ボックス１３１に入力した検索語（図２では「あいうえお」）を受け付ける。

図１に戻って、音声検索部１５２は、受け付けた検索語が発声されたと推定される候補区間を、録音音声から検索する。具体的には、音声検索部１５２は、ユーザが図２に示す音声検索ボタンを押下したことに応じて、受け付けた検索語を音素列に変換して、その変換した音素列に基づいて、候補区間を録音音声から検索する。

より具体的には、音声検索部１５２は、音素列に変換後、各音素の継続長から検索語が発声された場合の発話時間長を求める。そして、音声検索部１５２は、発話時間長を候補区間の１単位として、その区間単位毎に、変換された音素列と録音音声データとを比較して尤度（検索語の音声と録音音声の区間単位における音声との類似の度合いを示す指標）を求める。この尤度算出にあたっては、音声検索部１５２は、例えば、ケプストラムやメルケプストラムなどにより音声データを特徴量に変換して比較することで算出することができる。

表示制御部１５３は、音声検索部１５２が検索した候補区間を識別する候補アイコン（候補識別情報）１３５を、検索結果として表示部１３０の検索結果リスト１３３に表示する。ここで、表示制御部１５３は、音声検索部１５２が候補区間を複数検索した場合、その複数の候補区間それぞれを識別する候補アイコンを尤度順で検索結果リスト１３３に表示する。

図２では、一例として、音声検索部１５２が検索語「あいうえお」が発声されたと推定される候補区間を４つ検索し、表示制御部１５３がその４つの候補区間を尤度順に表示した場合を示す。検索結果リスト１３３の各エントリは、ユーザが候補区間を選択する場合にチェックするチェックボックス１３４（１３４ａ〜１３４ｄ）と、時計アイコンと候補区間の発声開始時間からなる候補アイコン１３５（１３５ａ〜１３５ｄ）と、候補アイコン１３５が識別する候補区間を再生する再生ボタン１３６（１３６ａ〜１３６ｄ）と、から構成される。

例えば、検索結果リスト１３３の尤度１位のエントリは、「あいうえお」の候補区間の発声開始時間が録音音声の録音開始時間から２．８秒後であることが分かる。なお、以下では、チェックボックス１３４ａ〜１３４ｄのうち何れかを特段特定して説明する必要がない場合は、まとめてチェックボックス１３４と総称して説明する。候補アイコン１３５ａ〜１３５ｄ及び再生ボタン１３６ａ〜１３６ｄについても同様である。

図１に戻って、再生部１５４は、音声検索部１５２が検索した候補区間の音声を再生する。具体的には、再生部１５４は、表示部１３０の検索結果リスト１３３に表示された候補アイコン１３５うち、再生ボタン１３６が押下された候補アイコン１３５が識別する候補区間の音声データを記憶部１６０から読み出して再生する。

この再生処理について図３を参照しながら説明する。
図３の検索結果リスト１３３において、ユーザが再生ボタン１３６ａを押下したとする。すると、再生部１５４は、候補アイコン１３５ａが識別する候補区間の音声データを記憶部１６０から読み出して、スピーカ１２０を通して外部出力する。この際、表示制御部１５３は、再生部１５４による候補区間の音声の再生に伴って、表示部１３０の波形表示領域１３２に表示された音声波形上で再生位置を表示する。この再生位置は、図３に示すように、実線Ｐとその実線Ｐの位置を特定する指先カーソルとで示される。なお、候補区間の音声の再生に伴って表示するのは、音声波形に限らず、音声データの再生に伴う時間の推移を表す表示情報、例えば、先頭からの経過時間が所定間隔で示される棒状の表示体等を表示するようにしてもよい。以下では音声波形を表示するものとして説明を続ける。

ここで、ユーザは、選択して再生した候補区間の音声の再生位置を視認しながら、その再生された音声を聞いて自身が入力した検索語（この実施形態では「あいうえお」）が発声されているかの正誤確認を行う。ユーザが正解と判定すれば、図３に示すように、ユーザはチェックボックス１３４ａにチェックを付けて尤度１位の候補区間を選択する。このように、ユーザは、候補区間の音声を個別再生して順次正誤確認を行っていき、正解であればチェック操作を、不正解であればチェックしない、ということを繰り返す。図３の例では、尤度１位と３位の候補区間がユーザによって選択されたことを示している。

ここで、ユーザが追加ボタン１３７を押下したとする。すると、表示制御部１５３は、選択された候補区間に対応する録音音声データの位置にマークが付加されたことを示す情報を記憶部１６０に記憶するとともに、選択された候補区間（図３の例では、尤度１位と３位の候補区間）の発声位置を特定するマークＭ（サーチマークＭａ及び破線マークＭｂ）を、波形表示領域１３２に表示された音声波形に表示する。図３の例では、破線マークＭｂは、候補区間の音声の発声開始位置に表示されているが、表示形態はこれに限られず、例えば、候補区間全体に亘って網掛け表示する、あるいは候補区間の中央に破線マークＭｂを表示してもよい。

この表示制御部１５３によるマークＭ表示は、換言すると、再生部１５４による候補区間の音声の再生結果に基づいて（特に、再生された候補区間の音声「あいうえお」が検索語が発声された音声「あいうえお」と一致することをユーザが指示した場合に）、波形表示領域１３２に表示された録音音声の音声波形に、その候補区間の音声の発声位置を特定するマークＭを表示するとも言える。

なお、表示制御部１５３によるマークＭ表示の実現手法は任意だが、例えば、ユーザがチェックボックス１３４にチェックを付けた際、候補区間の発声開始時間を録音音声の録音データ１６１に対応付けて記憶し、その記憶した発声開始時間に基づいて録音音声の音声波形上にマークＭを表示（付与）すればよい。

さらに、表示制御部１５３は、マークＭ表示と同時に、そのマークＭに付帯する検索語のテキストＴ（図３の例では「あいうえお」のテキストＴ）を表示部１３０の波形表示領域１３２に表示する。

このように表示制御部１５３は、１）候補区間を識別する候補アイコン１３５の一覧表示、２）候補区間の音声再生時の再生位置表示、３）候補区間の音声の発声位置を特定するマークＭ表示、４）マークＭに付帯する検索語のテキストＴの表示など、表示部１３０に表示するＵＩの表示制御を行う。

なお、図３において、ユーザは正誤確認の作業を終了する場合、終了ボタン１３８を押下する。この正誤確認作業後、ユーザは、自身が正解と判断した候補区間から録音音声をスキップ再生することができるようになる。

次に、図１を参照しながら説明した各部（受付部１５１、音声検索部１５２、表示制御部１５３及び再生部１５４）の機能に基づいて行う、音声検索処理の流れについて図４のフローチャートを参照しながら説明する。この音声検索処理を開始する前提として、ユーザは予め再生モードにおいて自身が再生したい音声ファイルを選択しておく。そして、音声検索処理において、まず、受付部１５１は、音声検索ボタンが押下されたか否か判定する（ステップＳ１１）。具体的には、受付部１５１は、検索ボックス１３１に入力された検索語を受け付けた後、音声検索ボタンの押下があったか否か判定する。

ここで、音声検索ボタンの押下がない場合（ステップＳ１１；Ｎｏ）、受付部１５１は、録音音声の再生指示があったか否か判定する（ステップＳ１２）。録音音声の再生指示がなければ（ステップＳ１２；Ｎｏ）、ステップＳ１１に戻る。ここでは、音声検索ボタンの押下又は録音音声の再生指示の何れかがあるまでは待機しておく（ステップＳ１１とＳ１２のループ）。

ここで、録音音声の再生指示があると（ステップＳ１２；Ｙｅｓ）、再生部１５４は、録音音声の最初から音声再生を行う（ステップＳ１３）。具体的には、ユーザが再生モードにおいて予め選択しておいた音声ファイルの録音音声を最初から再生する。その後、音声検索処理を終了する。なお、音声検索処理終了後にユーザが検索語を入力して音声検索ボタンを押下すれば再びステップＳ１１以下の処理を行ってもいいし、あるいは最初から録音音声を再生中にユーザが音声検索ボタンを押下するなどの割り込み操作に応じて即座にステップＳ１１以下の処理を行ってもいい。

一方、音声検索ボタンが押下されたと判定された場合（ステップＳ１１；Ｙｅｓ）、音声検索部１５２は、録音音声から候補区間を検索する（ステップＳ１４）。具体的には、音声検索部１５２は、上述のように受け付けた検索語を音素列に変換して、その変換した音素列に基づいて、候補区間を録音音声から検索する。
次に、表示制御部１５３は、検索された候補区間を一覧表示する（ステップＳ１５）。具体的には、表示制御部１５３は、候補区間を識別する候補アイコン１３５を尤度順で検索結果リスト１３３に表示する（図２参照）。

次に、検索結果処理について図５を参照しながら説明する。
検索結果処理において、まず、受付部１５１は、再生ボタン１３６の押下がされたか否か判定する（ステップＳ２１）。再生ボタン１３６の押下がされていないと判定した場合（ステップＳ２１；Ｎｏ）、終了ボタン１３８の押下がされたか否か判定する（ステップＳ２７）。終了ボタン１３８が押下されていないと判定した場合（ステップＳ２７；Ｎｏ）、ステップＳ２１に戻る。ここでは、再生ボタン１３６又は終了ボタン１３８の何れかが押下されるまで待機しておく（ステップＳ２１とＳ２７のループ）。

ここで、再生ボタン１３６が押下されたと判定された場合（ステップＳ２１；Ｙｅｓ）、再生部１５４は、候補区間の音声を再生する（ステップＳ２２）。具体的には、再生部１５４は、押下された再生ボタン１３６の候補アイコン１３５が識別する候補区間の音声を再生する。続いて、表示制御部１５３は、音声波形上に再生位置を表示する（ステップＳ２３）。具体的には、表示制御部１５３は、候補区間の音声の再生に伴って、波形表示領域１３２に表示された音声波形上で再生位置を表示する（図３の実線Ｐ参照）。この際、ユーザは、実線Ｐを視認しながら再生された音声の正誤確認を行う。

次に、制御部１５０は、チェック指示がされたか否か判定する（ステップＳ２４）。ここで、ユーザが正誤確認において不正解と判断してチェック指示をしなかったとする。この場合、制御部１５０によりチェック指示がされなかったと判定される（ステップＳ２４；Ｎｏ）。そして、ユーザから終了ボタン１３８の押下がなければ、制御部１５０は、終了ボタン１３８の押下がされていないと判定し（ステップＳ２７；Ｎｏ）、ステップＳ２１に戻る。この後、ユーザは、正誤確認作業を続行する。

一方、ユーザが正誤確認において正解と判断してチェック指示をしたとする。例えば、図３において、ユーザが尤度１位の候補区間を選択するためにチェックボックス１３４ａにチェックしたとする。この場合、制御部１５０は、チェック指示がされたと判定し（ステップＳ２４；Ｙｅｓ）、続いて、追加ボタン１３７の押下がされたか否か判定する（ステップＳ２５）。

ここで、追加ボタン１３７の押下がされたと判定した場合（ステップＳ２５；Ｙｅｓ）、表示制御部１５３は、音声波形にマークＭとテキストＴとを表示する（ステップＳ２６）。具体的には、表示制御部１５３は、チェック指示により選択された候補区間の音声の発声位置を特定するマークＭ（サーチマークＭａ及び破線マークＭｂ）を、波形表示領域１３２に表示された音声波形に表示する（図３参照）。同時に、表示制御部１５３は、そのマークＭに付帯する検索語のテキストＴ（図３の例では「あいうえお」のテキストＴ）を波形表示領域１３２に表示する。なお、このとき、選択された候補区間に対応する録音音声データの位置にマークが付加されたことを示す情報を記憶部１６０に記憶する。

ステップＳ２６でマークＭとテキストＴとを表示した後、又は追加ボタン１３７の押下がされていないと判定された場合（ステップＳ２５；Ｎｏ）、制御部１５０は、終了ボタン１３８の押下がされたか否か判定する（ステップＳ２７）。終了ボタン１３８の押下がされていないと判定された場合（ステップＳ２７）、ステップＳ２１に戻る。この場合、ユーザは正誤判定作業を続行して、検索結果リスト１３３に表示された複数の再生ボタン１３６ａ乃至１３６ｄのうち、未再生の再生ボタン（例えば、再生ボタン１３６ａが再生済みであれば再生ボタン１３６ｂ）を押下する。

一方、ユーザが正誤確認作業を終了して終了ボタン１３８を押下し、制御部１５０により終了ボタン１３８が押下されたと判定された場合（ステップＳ２７；Ｙｅｓ）、検索結果処理を終了する。この検索結果処理により、ユーザが正解と判断した候補区間の音声の発声位置を特定するマークＭが音声波形に表示され、スキップ再生が可能となる。

図４に戻って、検索結果処理の終了後、受付部１５１は、録音音声のスキップ再生指示があるか否か判定する（ステップＳ１６）。具体的には、受付部１５１は、検索結果処理により音声波形上に表示されたマークＭに対してタッチ操作があったか否か判定する。ここで、録音音声のスキップ再生指示があれば（ステップＳ１６；Ｙｅｓ）、すなわち受付部１５１がマークＭに対してタッチ操作があったと判定すると、再生部１５４は、マークＭが特定する候補区間の音声の発声位置から録音音声のスキップ再生を行う（ステップＳ１７）。ステップＳ１７のスキップ再生の後、又は録音音声のスキップ再生指示がなければ（ステップＳ１６；Ｎｏ）、音声検索処理を終了する。

なお、ステップＳ１６においてスキップ再生指示があるか否か判定することに加えて、録音音声の再生指示があるか否かも判定してもよい。つまり、スキップ再生することは必須ではなく、ユーザの指示に応じてスキップ再生又は録音音声の最初から音声再生何れかを選択的に再生してもよい。また、図４では、ステップＳ１３又は１７の後、音声検索処理を終了しているがこれに限られず、ユーザから音声ファイルの再生を終了する旨の指示があるまで、ユーザ操作に応じて適宜異なるマークＭ位置からのスキップ再生を繰り返してもよい。

以上、図４及び図５を参照しながら説明した音声検索処理及び検索結果処理においては、音声検索装置１００の表示制御部１５３は、再生部１５４による候補区間の音声の再生結果に基づいて、表示部１３０の波形表示領域１３２に表示された録音音声の音声波形に、その候補区間の音声の発声位置を特定するマークＭを表示するようにしている。この実施形態では、特に、候補区間の音声の再生後に、ユーザからその再生した音声が検索語が発声された音声であることを示す指示があった場合（チェック後に追加ボタン１３７が押下された場合）、その音声波形にマークＭを表示するようにしている。

このため、ユーザが検索された音声を正解と判断した場合、その正解と判断した候補区間の位置が音声波形の時間軸において視覚的に把握することができる。したがって、スキップ再生の際に、ユーザが正解と判断した候補区間の再生箇所を容易に特定できるので、視認性・操作性に優れたユーザインタフェースを提供することができる。

また、この実施形態において、表示制御部１５３は、マークＭに付帯する検索語のテキストＴを表示部１３０の波形表示領域１３２にあわせて表示するようにしている。このため、ユーザは自身が検索した検索キーワードを音声波形に関連付けて視認できるので、視認性に優れたユーザインタフェースを提供することができる。

また、この実施形態において、表示制御部１５３は、音声検索部１５２が候補区間を複数検索した場合、その複数の候補区間それぞれを識別する候補アイコン１３５ａ〜１３５ｄを尤度順に表示部１３０の検索結果リスト１３３に表示するようにしている。このため、複数の候補区間が時間順に表示された場合に比べると、自身が聞き直したい候補区間を早く発見することができる。したがって、正誤確認の作業を効率的に行うことができる。

また、この実施形態において、表示制御部１５３は、再生部１５４による候補区間の音声の再生に伴って、表示部１３０の波形表示領域１３２に表示された音声波形上で再生位置を表示するようにしている。このため、ユーザは、候補区間の音声を再生中、現在の再生位置（実線Ｐとその実線Ｐの位置を特定する指先カーソル）を音声波形で視認しながら正誤確認作業をすることができる。したがって、ユーザは、再生位置を時間軸で特定することができるので、正誤確認作業において視認性に優れたユーザインタフェースを提供することができる。

また、この実施形態において、表示制御部１５３がマークＭを表示後に録音音声を再生する際、そのマークＭが特定する発声位置から音声を再生するようにしている。すなわち、スキップ再生をするようにしている。このため、ユーザは、自身が行った正誤確認作業に基づく正解のマークＭのみを用いて録音音声の聞き直しを効率よく行うことができる。例えば、講義を録音した場合は、講義の録音音声を復習する際、効率よく復習することができる。

以上で実施形態の説明を終了するが、音声検索装置１００の具体的な構成や図４及び図５に示した各処理の内容が上述の実施形態で説明したものに限られないことはもちろんである。

例えば、上記実施形態において、音声検索装置１００の表示制御部１５３は、マークＭの表示をユーザの指示に基づいて行うようにしたが、これに限られない。例えば、正誤確認作業をユーザ以外の装置で行う場合は、その装置の正誤確認結果に基づいて、表示制御部１５３は、波形表示領域１３２に表示された録音音声の音声波形にマークＭを表示してもよい。

また、上記実施形態において、表示制御部１５３は、検索結果リスト１３３に検索結果の一覧を尤度順で表示するようにしたが、これに限られない。例えば、表示制御部１５３は、一覧表示に加えて、検索結果として表示する候補区間毎に音声波形上にマークを自動的に表示してもよい。図３の例では、表示制御部１５３は、候補アイコン１３５ａ〜１３５ｄそれぞれが識別する候補区間毎の４つのマークを音声検索中に自動で表示してもよい。これにより、ユーザは、検索結果として表示される複数の候補アイコン１３５ａ〜１３６ｄを音声波形に関連付けて視認することができる。

また、上記実施形態において図２及び図３に示した音声検索に係る表示画面のユーザインタフェースは一例であって、これに限られない。例えば、表示されるユーザインタフェース（マークＭ、テキストＴ、候補アイコン１３５、再生位置を示す実線Ｐなど）の表示態様は技術的意義を損なわない限りにおいて自由に変形してもよい。例えば、サーチマークＭａと破線マークＭｂは、ユーザが候補区間の音声の発声位置を特定できる限りにおいて、自由に表示態様を変形してもよい。

また、上記実施形態における図５の検索結果処理においては、チェック指示があり（ステップＳ２４；Ｙｅｓ）、かつ、追加ボタンの押下があると（ステップＳ２５；Ｙｅｓ）表示制御部１５３はマークＭとテキストＴを表示するようにしたが、これに限られない。例えば、ユーザがチェックボックス１３４にチェックしたことを受け付けると、表示制御部１５３は、マークＭとテキストＴとを音声波形上に表示してもよい。これにより、図５の検索結果処理の処理負荷を軽減することができる。

また、上記実施形態における音声検索装置１００は、音声検索用のスマホアプリケーションをインストールしたスマートフォンであることを前提に説明したが、これに限られない。音声検索に係るプログラムを記憶して実行できる装置であれば、どんな装置であっても図４及び図５で説明した音声検索処理ならびに検索結果処理を実行することができる。例えば、音声検索装置１００は、ＰＣ、タブレット端末、ボイスレコーダなどでもよい。

また、この発明の音声検索装置１００の各処理（音声検索処理、検索結果処理）は、通常のＰＣ等のコンピュータによっても実施することができる。
具体的には、上記実施形態では、各処理に係る各機能を実現するためのプログラムが、制御部１５０のＲＯＭに予め記憶されているものとして説明した。しかし、図１の各部の機能を実現させるためのプログラムを、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）及びＭＯ（Magneto-Optical Disc）等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の各部の機能を実現することができるコンピュータを構成してもよい。また、プログラムをインターネット等の通信ネットワーク上のサーバ装置が有するディスク装置等に格納しておき、例えば、コンピュータがダウンロード等することができるようにしてもよい。

以上、本発明の実施形態について説明したが、この実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態をとることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、特許請求の範囲に記載された発明とその均等の範囲に含まれる。以下に、本願出願当初の特許請求の範囲に記載された発明を付記する。

（付記１）
録音音声を記憶する記憶手段と、
入力された検索語を受け付ける受付手段と、
前記受け付けた検索語が発声されたと推定される候補区間を、前記録音音声から検索する検索手段と、
前記検索手段が検索した候補区間の音声を再生する再生手段と、
前記再生手段による前記候補区間の音声の再生結果に基づいて、前記録音音声の時間の推移を表す表示情報に、該候補区間の音声の発声位置を特定するマークを付加する表示制御手段と、
を備えたことを特徴とする音声検索装置。

（付記２）
前記表示制御手段は、前記検索手段が検索した複数の候補区間それぞれを識別する候補識別情報を、検索結果として表示手段に表示し、
前記再生手段は、前記表示手段に表示された候補識別情報うち、ユーザが選択した候補識別情報が識別する候補区間の音声を再生する、
ことを特徴とする付記１に記載の音声検索装置。

（付記３）
前記表示制御手段は、前記複数の候補区間それぞれを識別する候補識別情報を尤度順に前記表示手段に表示する、
ことを特徴とする付記２に記載の音声検索装置。

（付記４）
前記表示制御手段は、前記候補区間の音声の再生後に、ユーザから該再生した音声が検索語が発声された音声と一致することを示す指示があった場合、前記表示情報に前記マークを付加する、
ことを特徴とする付記１乃至３の何れか一つに記載の音声検索装置。

（付記５）
前記表示制御手段は、前記再生手段による候補区間の音声の再生に伴って、前記表示情報に再生位置を付加する、
ことを特徴とする付記１乃至４の何れか一つに記載の音声検索装置。

（付記６）
前記表示制御手段は、前記マークに付帯する前記検索語のテキストを表示手段に表示する、
ことを特徴とする付記１乃至５の何れか一つに記載の音声検索装置。

（付記７）
前記再生手段は、前記表示制御手段がマークを付加後に前記録音音声を再生する際、該マークが特定する発声位置から音声を再生する、
ことを特徴とする付記１乃至６の何れか一つに記載の音声検索装置。

（付記８）
前記録音音声の時間の推移を表す表示情報は音声波形である、
ことを特徴とする付記１乃至７の何れか一つに記載の音声検索装置。

（付記９）
録音音声を記憶する記憶ステップと、
入力された検索語を受け付ける受付ステップと、
前記受け付けた検索語が発声されたと推定される候補区間を、前記録音音声から検索する検索ステップと、
前記検索ステップにおいて検索した候補区間の音声を再生する再生ステップと、
前記再生ステップにおける前記候補区間の音声の再生結果に基づいて、前記録音音声の時間の推移を表す表示情報に、該候補区間の音声の発声位置を特定するマークを付加する表示制御ステップと、
を備えたことを特徴とする音声検索方法。

（付記１０）
コンピュータを、
録音音声を記憶する記憶手段、
入力された検索語を受け付ける受付手段、
前記受け付けた検索語が発声されたと推定される候補区間を、前記録音音声から検索する検索手段、
前記検索手段が検索した候補区間の音声を再生する再生手段、
前記再生手段による前記候補区間の音声の再生結果に基づいて、前記録音音声の時間の推移を表す表示情報に、該候補区間の音声の発声位置を特定するマークを付加する表示制御手段、
として機能させるためのプログラム。

１００…音声検索装置、１１０…マイク、１２０…スピーカ、１３０…表示部、１３１…検索ボックス、１３２…波形表示領域、１３３…検索結果リスト、１３４ａ〜１３４ｄ…チェックボックス、１３５ａ〜１３５ｄ…候補アイコン、１３６ａ〜１３６ｄ…再生ボタン、１３７…追加ボタン、１３８…終了ボタン、１４０…入力部、１５０…制御部、１５１…受付部、１５２…音声検索部、１５３…表示制御部、１５４…再生部、１６０…記憶部、１６１…録音データ

Claims

入力された検索語を受け付ける受付手段と、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索手段と、
前記検索手段が検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御手段と、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生手段と、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御手段と、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御手段と、
を備え、
前記第三表示制御手段は、前記音声再生手段による前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示する、
ことを特徴とする音声検索装置。
前記第一表示制御手段は、前記区間識別手段により識別される前記候補区間の音声の再生指示を受け付ける再生受付手段を、前記表示手段にさらに表示し、
前記音声再生手段は、ユーザ操作に基づいて前記再生受付手段により前記候補区間の音声の再生指示を受け付けると、再生指示を受け付けた当該再生受付手段に対応する前記候補区間の音声を再生する、
ことを特徴とする請求項１に記載の音声検索装置。
前記検索手段は、複数の前記候補区間を前記録音音声から検索し、
前記第一表示制御手段は、前記複数の候補区間を互いに識別する複数の前記区間識別手段を、当該複数の区間識別手段に対応する前記複数の候補区間の尤度順に、前記表示手段に表示する、
ことを特徴とする請求項２に記載の音声検索装置。
前記受付手段は、前記検索語をテキストにより受け付ける、
ことを特徴とする請求項１乃至３の何れか一項に記載の音声検索装置。
前記第三表示制御手段は、前記位置特定手段に対応する位置に、前記検索語として受け付けたテキストを、前記音声表示情報とともに、前記表示手段に表示する、
ことを特徴とする請求項１乃至４の何れか一項に記載の音声検索装置。
前記音声再生手段は、前記第三表示制御手段により前記表示手段に表示された前記位置特定手段によって特定される位置から、前記録音音声の再生を行う、
ことを特徴とする請求項１乃至５の何れか一項に記載の音声検索装置。
前記第三表示制御手段は、前記音声表示情報として、音声波形を表示する、
ことを特徴とする請求項１乃至６の何れか一項に記載の音声検索装置。
入力された検索語を受け付ける受付ステップと、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索ステップと、
前記検索ステップにおいて検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御ステップと、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生ステップと、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御ステップと、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御ステップと、
を含み、
前記第三表示制御ステップは、前記音声再生ステップにおける前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示することを含む、
ことを特徴とするコンピュータにより実行される音声検索方法。
コンピュータに、
入力された検索語を受け付ける受付ステップと、
前記受け付けた検索語が発声されたと推定される候補区間を、検索対象の録音音声から検索する検索ステップと、
前記検索ステップにおいて検索した候補区間を識別する区間識別手段と、前記区間識別手段により識別される前記候補区間の音声の選択指示を受け付ける選択受付手段とを、表示手段に表示する第一表示制御ステップと、
ユーザ操作に基づいて前記候補区間の音声を再生する音声再生ステップと、
前記選択受付手段により前記候補区間の音声の選択指示を受け付けると、選択指示を受け付けた当該選択受付手段の表示態様を、当該選択受付手段に対応する前記候補区間の音声が選択されたことを示す態様に変更する第二表示制御ステップと、
前記表示態様が変更された前記選択受付手段に対応する前記候補区間の音声の前記録音音声中における位置を特定する位置特定手段を、前記録音音声の時間の推移を表す音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段に表示する第三表示制御ステップと、
を実行させ、
前記第三表示制御ステップは、前記音声再生ステップにおける前記候補区間の音声の再生に伴って、再生されている当該候補区間の音声の前記録音音声中における位置を示す再生位置情報を、前記位置特定手段および前記音声表示情報とともに、前記音声表示情報に重ねて、前記表示手段にさらに表示することを含む、
ためのコンピュータ読取り可能なプログラム。