JP6400936B2

JP6400936B2 - 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Info

Publication number: JP6400936B2
Application number: JP2014087325A
Authority: JP
Inventors: 徹長野; 岳人倉田; 雅史西村
Original assignee: シノイースト・コンセプト・リミテッド
Priority date: 2014-04-21
Filing date: 2014-04-21
Publication date: 2018-10-03
Anticipated expiration: 2034-04-21
Also published as: US20160275939A1; US20160275940A1; JP2015206906A; US9373328B2; US9626958B2; US9378736B2; US20150302848A1; US9626957B2; US20150310860A1

Description

本発明は、音声データから音声を検索する技法に関する。特には、本発明は、キーワードで指定した文字列を音声データから検索する技法に関する。

例えばコールセンターにおけるコールモニタリング業務では、大量の音声通話の中から、例えば特定の単語又は不適切な発言内容（以下、単に「キーワード」ともいう）をチェックすることによって、当該コールセンターの品質向上やコミュニケータ（例えば、顧客サービス担当者（Customer Service Representatives；ＣＳＲ）やテレフォン・セールス・リプレゼンタティブ（Telephone Sales Representatives；ＴＳＲ））の評価を行っている。

近年、音声認識を用いたコールモニタリングが実用化されており、全通話を対象にモニタリングを行うことができるようになってきた。

音声認識、特に大語彙連続音声認識（ＬＶＣＳＲ）は、様々な分野、例えばコールセンターでの書き起こし、裁判所での自動調書作成、大学でのビデオ講義での字幕作成で利用されている。

下記特許文献１は、言語単位に分割された言語モデルと音声の特徴がモデル化された音響モデルを参照し、入力音声の音声認識を行って、音素表記を出力し、前記言語モデルよりも小さい単位で分割されているテキスト検索辞書の分割単位と同じ単位で、照合単位変換手段によって前記音素表記を分割して、その分割結果を用いてテキスト検索手段によってテキスト検索辞書の検索を行うことを記載する（段落０００８）。

下記特許文献２は、既知語に対しては、大語彙連続音声認識によって単語列に変換され、未知語や認識誤り単語に対しては、音素・音節認識によって単語よりも基本単位の音素列や音節列を認識することから、辞書に存在しない未知語あるいは認識誤りを含む大量の音声データから、音声およびテキスト入力による音声検索装置および音声検索方法を提供できるようになることを記載する（段落００２７）。

下記特許文献３は、キーワードから生成したサブワード列に基づいて候補区間をあらかじめ絞込むと共に、サブワードを含む候補区間のカウント値に加算を行うという単純な処理で候補区間に順序付けを行うことにより検索結果となる候補区間を選択するため、高速な音声データの検索を行うことが可能となること、及び、キーワードから生成したサブワード列に対して、音声認識の誤認識を想定した補正を行った後、候補区間の生成を行うことにより、精度の良い音声データの検索を行うことが可能となることを記載する（段落００１５）。

下記非特許文献１は、会話語の未知語（ＯＯＶ）キーワード及び認識誤り語の問題を解決する為に、連続会話認識におけるサブワード単位として個々の音節、並びに、検索単位として音節のｎ−グラム列を使用する旨を記載する。

特開２００８−２６２２７９号公報特開２０１１−１７５０４６号公報特開２００９−１２８５０８号公報

Keisuke Iwami et al, "Out-of-vocabulary term detection by n-gram array with distance from continuous syllable recognition results", SLT 2010, pages 200 - 205, December 15, 2010. Hagen Soltau et al, "The IBM Attila Speech Recognition Toolkit", Spoken Language Technology Workshop (SLT), 2010 IEEE, pages 97-102, December 15, 2010 ＜URL:http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5700829&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5700829＞から入手可能

業務内容に応じて、音声認識の再現率（Recall）を重視したい、又は適合率（Precision）を重視したいという要求がある。

再現率とは、音声認識誤りによる過検出を許容するが、どれだけ漏れなく検出されたかを判断するための尺度である。再現率は、全検索結果に対する検索要求を満たす検索結果の割合で算出される。

適合率とは、正確に認識されているもののみが検出されたかどうかを判断するための尺度である。適合率は、検索要求を満たす全ドキュメントに対する検索要求を満たす検索結果の割合で算出される。

基本的に、適合率及び再現率は、トレードオフの関係にある。従って、適合率及び再現率の一方を高くすると、他方が低くなりがちである。

一般的に、「単語を認識単位とする単語音声認識」（以下、「単語音声認識」ともいう）の結果に対して文字列検索を行うことにより高精度なキーワード検索を行うことができる。しかしながら、再現率及び適合率の両方をコントロールすることは困難である。例えば、単語の出現確率を変える等の操作を行い、音声認識を再度実行することによって、再現率又は適合率を調節することはある程度可能であるが、この手法は実用的でない。例えば、コールセンターでは、毎日大量の音声（例えば、数千〜数万時間）が発声し、それらをチェックする必要がある。当該大量の音声に対する音声認識の実行には、音声データの量に比例して、時間が掛かってくる。そこで、上記大量の音声に対して話者毎に異なる音声認識結果を用意することは、コストや時間の面からも現実的でない。

一方、「単語よりも短い単位である音素又は音節を認識単位とする音素音声認識」（以下、音素音声認識ともいう）の結果に対してマッチングを行う方法では、言語情報の利用が不十分である為に高い音声認識精度を上げることができなかった。すなわち、音素音声認識は、単語音声認識に比べて高速に実行できる反面、音声認識率は高くない。

そこで、本発明は、高品質の検索エンジンを提供すること、特には適合率が更に高くなる音声検索技法を提供することを目的とする。

また、本発明は、適合率の高い区間のみを出力したり又は適合率の高い区間から低い区間までを出力したりすることを可能にして、目的とする所望の適合率での音声検索を可能にすることを目的とする。

さらに、本発明は、大量の音声データの音声認識は非常に時間がかかる為に、音声認識を再実行すること無しに、適合率の高い検索性能をカバーするキーワードにより検索を行うことを目的とする。

本発明は、音声検索の技法を提供する。特には、本発明は、指定されたキーワード（索引語でもある）の区間を音声データから特定する技法を提供する。当該技法は、音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム及び音声検索装置用のプログラム製品を包含しうる。

本発明に従う第１の態様において、音声検索方法は、音声検索装置が、
文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する１以上の区間を検出するステップと、
上記検出した１以上の区間それぞれにおいて認識された音素列又は音節列であり且つ上記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である上記音素列又は上記音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記１以上の区間それぞれの評価値を算出するステップと、
上記算出した評価値が所定の閾値を超える区間を出力するステップと
を実行することを含む。

本発明の一つの実施態様において、上記算出するステップが、
上記検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のＮ−ｂｅｓｔ認識結果である音素列又は音節列と、上記キーワードの上記音素列とを比較して、一致する上記Ｎ−ｂｅｓｔ認識結果の順位を評価値とするステップ
を含みうる。

本発明の一つの実施態様において、上記算出するステップが、
上記検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識の１−ｂｅｓｔ認識結果である音素列又は音節列と、上記キーワードの上記音素列又は音節列との編集距離を評価値とするステップ
を含みうる。

本発明の一つの実施態様において、上記編集距離が、動的計画法によるマッチングによりマッチングした距離でありうる。

本発明の一つの実施態様において、上記区間それぞれに関連付けられた音素列又は音節列が、上記区間の前後を所定の時間分広げた区間に関連付けられた音素列又は音節列でありうる。

本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して単語を認識単位とする単語音声認識を行うステップ
をさらに実行することを含みうる。

本発明の一つの実施態様において、上記音声検索装置が、
上記検出した１以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
をさらに実行することを含みうる。

本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
をさらに実行することを含みうる。

本発明に従う上記第１の態様は、音声検索装置が、
上記検索対象の音声データに対して単語を認識単位とする単語音声認識を行うステップと、
文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
上記単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する１以上の区間を検出するステップと、
上記検出した１以上の区間に関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップと、
上記検出した１以上の区間それぞれにおいて認識された音素列又は音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記１以上の区間それぞれの評価値を算出するステップと、
上記算出した評価値が所定の閾値を超える区間を出力するステップと
を実行することを下位概念として含む。

本発明に従う上記第１の態様は、音声検索装置が、
上記検索対象の音声データに対して、（１）単語を認識単位とする単語音声認識を行い認識結果である文字列を取得し、且つ、（２）音素又は音節を認識単位とする音素音声認識を行い認識結果である音素列又は音節列を取得するステップと、
文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
上記単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する１以上の区間を検出するステップと、
上記検出した１以上の区間それぞれにおいて認識された音素列又は音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記１以上の区間それぞれの評価値を算出するステップと、
上記算出した評価値が所定の閾値を超える区間を出力するステップと
を実行することを下位概念として含む。

本発明に従う第２の態様において、音声検索装置は、
文字列と音素列又は音節列とで指定されたキーワードを取得するキーワード取得部と、
検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する１以上の区間を検出する区間検出部と、
上記検出した１以上の区間それぞれにおいて認識された音素列又は音節列であり且つ上記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である上記音素列又は上記音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記１以上の区間それぞれの評価値を算出する評価値算出部と
上記算出した評価値が所定の閾値を超える区間を出力する区間出力部と
を備えている。

本発明の一つの実施態様において、上記評価値算出部が、
上記検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のＮ−ｂｅｓｔ認識結果である音素列又は音節列と、上記キーワードの上記音素列とを比較して、一致する上記Ｎ−ｂｅｓｔ認識結果の順位を評価値としうる。

本発明の一つの実施態様において、上記評価値算出部が
上記検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識の１−ｂｅｓｔ認識結果である音素列又は音節列と、上記キーワードの上記音素列又は音節列との編集距離を評価値としうる。

本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して単語を認識単位とする単語音声認識を行う単語音声認識部
をさらに備えうる。

本発明の一つの実施態様において、上記音声検索装置が、
上記検出した１以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
をさらに備えうる。

本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
をさらに備えうる。

また、本発明に従う第３の態様において、音声検索装置用のプログラム（例えば、コンピュータ・プログラム）及び音声検索装置用のプログラム製品（例えば、コンピュータ・プログラム製品）は、上記音声検索装置（例えば、コンピュータ）に、本発明に従う第１の態様に記載の音声検索方法の各ステップを実行させる。

本発明の実施態様に従う音声検索装置用のプログラムはそれぞれ、一つ又は複数のフレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ＢＤ、ハードディスク装置、ＵＳＢに接続可能なメモリ媒体、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意の音声検索装置読み取り可能な記録媒体に格納することができる。当該音声検索装置用のプログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システム、例えばコンピュータからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、本発明の実施態様に従う音声検索装置用のプログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明の実施態様に従う音声検索装置用のプログラム製品を提供することも勿論可能であることにも留意されたい。本発明の実施態様に従う音声検索装置用のプログラム製品は、例えば、上記音声検索装置用のプログラムを記録した記憶媒体、又は、上記音声検索装置用のプログラムを伝送する伝送媒体を包含しうる。

本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。

本発明の実施態様において使用される音声検索装置の各ハードウェア構成要素を、複数のマシンと組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記音声検索装置用のプログラムをインストールされた音声検索装置における当該プログラムの実行が典型的な例として挙げられる。かかる場合、当該音声検索装置用のプログラムが当該音声検索装置のメモリにロードされて実行されることにより、当該音声検索装置用のプログラムは、当該音声検索装置を制御し、本発明にかかる処理を実行させる。当該音声検索装置用のプログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該音声検索装置が特定の機能を直接的に、又は、１．他の言語、コード若しくは表記への変換及び、２．他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。

本発明の実施態様に従うと、適合率がより高い音声検索エンジンを提供することが可能になる。

また、本発明の実施態様に従うと、下記に述べる閾値Ｔの調整によって、適合率の高い区間のみを出力したり又は適合率の高い区間から低い区間までを出力したりすることが可能となる。

本発明の実施態様において使用されうる音声検索装置（例えば、コンピュータ）の一例を示した図である。本発明の実施態様において使用されうる音声検索装置（例えば、スマートフォン、携帯電話、タブレット端末、ゲーム端末）の一例を示した図である。本発明の実施態様において使用されうる単語列及び音素列又は音節列（以下、単に「音素列」という場合には、「音素列又は音節列」を意味する。）を、音声データ（英語である）から生成する為のダイアグラムを示す。本発明の実施態様に従い、図２Ａで行われた上記単語音声認識の認識結果及び音素音声認識のＮ−ｂｅｓｔ認識結果に対して、キーワード検出を行う為のダイアグラムを示す。本発明の実施態様に従い、図２Ａで行われた上記単語音声認識の認識結果及び音素音声認識の１−ｂｅｓｔ認識結果に対して、キーワード検出を行う為のダイアグラムを示す。本発明の実施態様において使用されうる単語列及び音素列又は音節列を、音声データ（日本語である）から生成する為のダイアグラムを示す。本発明の実施態様に従い、図３Ａで行われた上記単語音声認識の認識結果及び音素音声認識のＮ−ｂｅｓｔ認識結果に対して、キーワード検出を行う為のダイアグラムを示す。本発明の実施態様に従い、図３Ａで行われた上記単語音声認識の認識結果及び音素音声認識の１−ｂｅｓｔ認識結果に対して、キーワード検出を行う為のダイアグラムを示す。本発明の実施態様において使用されうる単語列及び音素列又は音節列（以下、単に「音素列」という場合には、「音素列又は音節列」を意味する。）を音声データから生成する為のフローチャートを示す。本発明の実施態様に従い、上記音声データに対してキーワード検索（その一部に、Ｎ−ｂｅｓｔ認識結果を用いる例）を行う為のフローチャートを示す。本発明の実施態様に従い、上記音声データに対してキーワード検索（その一部に、１−ｂｅｓｔ認識結果及び編集距離を用いる例）を行う為のフローチャートを示す。図１Ａ又は図１Ｂに従うハードウェア構成を好ましくは備えており、図４Ａ又は図４Ｂに示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。図１Ａ又は図１Ｂに従うハードウェア構成を好ましくは備えており、図４Ａ又は図４Ｂに示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。本発明の実施態様及び従来技術にそれぞれ従い、テスト音声データに対してキーワード検索実験を行った結果として得られた検索性能を示す。

本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。

図１Ａ及び図１Ｂは、本発明の実施態様において使用されうるハードウェア（音声検索装置）の一例を示した図である。

本発明の実施態様に従う音声検索装置は、１又は複数の音声検索装置から構成されうる。

図１Ａは、本発明の実施態様において使用されうる音声検索装置（例えば、コンピュータ）を実現するためのハードウェア構成の一例を示した図である。

音声検索装置（１０１）は例えば、コンピュータ（例えば、デスクトップ・コンピュータ、ノート・コンピュータ、ウルトラブック、サーバ・コンピュータ）でありうる。

音声検索装置（１０１）は、ＣＰＵ（１０２）とメイン・メモリ（１０３）とを備えており、これらはバス（１０４）に接続されている。ＣＰＵ（１０２）は好ましくは、３２ビット又は６４ビットのアーキテクチャに基づくものである。当該ＣＰＵ（１０２）は例えば、インテル社のＣｏｒｅ（商標ｉ）シリーズ、Ｃｏｒｅ（商標）２シリーズ、Ａｔｏｍ（商標）シリーズ、Ｘｅｏｎ（登録商標）シリーズ、Ｐｅｎｔｉｕｍ（登録商標）シリーズ若しくはＣｅｌｅｒｏｎ（登録商標）シリーズ、ＡＭＤ（Advanced Micro Devices）社のＡシリーズ、Ｐｈｅｎｏｍ（商標）シリーズ、Ａｔｈｌｏｎ（商標）シリーズ、Ｔｕｒｉｏｎ（商標）シリーズ若しくはＳｅｍｐｒｏｎ（商標）、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのＰｏｗｅｒ（商標）シリーズでありうる。

バス（１０４）には、ディスプレイ・コントローラ（１０５）を介して、ディスプレイ（１０６）、例えば液晶ディスプレイ（ＬＣＤ）が接続されうる。また、液晶ディスプレイ（ＬＣＤ）は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであってもよい。ディスプレイ（１０６）は、音声検索装置（１０１）上で動作中のソフトウェア、例えば本発明の実施態様に従う音声検索装置用のプログラムが稼働することによって表示される情報、例えば音声検索結果を、適当なグラフィック・インタフェースで表示するために使用されうる。

バス（１０４）には任意的に、例えばＳＡＴＡ又はＩＤＥコントローラ（１０７）を介して、記憶装置（１０８）、例えばハードディスク又はソリッド・ステート・ドライブに接続されうる。

バス（１０４）には任意的に、例えばＳＡＴＡ又はＩＤＥコントローラ（１０７）を介して、記憶装置（１０８）、ドライブ（１０９）、例えばＣＤ、ＤＶＤ又はＢＤドライブが接続されうる。

バス（１０４）には、周辺装置コントローラ（１１０）を介して、例えばキーボード・マウス・コントローラ又はＵＳＢバスを介して、任意的に、キーボード（１１１）及びマウス（１１２）が接続されうる。

記憶装置（１０８）には、オペレーティング・システム、Ｗｉｎｄｏｗｓ（登録商標）ＯＳ、ＵＮＩＸ（登録商標）、ＭａｃＯＳ（登録商標）、及びＪ２ＥＥなどのＪａｖａ（登録商標）処理環境、Ｊａｖａ（登録商標）アプリケーション、Ｊａｖａ（登録商標）仮想マシン（ＶＭ）、Ｊａｖａ（登録商標）実行時（ＪＩＴ）コンパイラを提供するプログラム、本発明の実施態様に従う音声検索装置用のプログラム、及びその他のプログラム、並びにデータ（例えば、検索対象の音声データや、文字列と音素列又は音節列とで指定されたキーワード）が、メイン・メモリ（１０３）にロード可能なように記憶されうる。

記憶装置（１０８）は、音声検索装置（１０１）内に内蔵されていてもよく、当該音声検索装置（１０１）がアクセス可能なようにケーブルを介して接続されていてもよく、又は、当該音声検索装置（１０１）がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。

ドライブ（１０９）は、必要に応じて、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又はＢＤからプログラム、例えばオペレーティング・システム又はアプリケーションを記憶装置（１０８）にインストールするために使用されうる。

通信インタフェース（１１４）は、例えばイーサネット（登録商標）・プロトコルに従う。通信インタフェース（１１４）は、通信コントローラ（１１３）を介してバス（１０４）に接続され、音声検索装置（１０１）を通信回線（１１５）に有線又は無線接続する役割を担い、音声検索装置（１０１）のオペレーティング・システムの通信機能のＴＣＰ／ＩＰ通信プロトコルに対して、ネットワーク・インタフェース層を提供する。通信回線は例えば、有線ＬＡＮ接続規格に基づく有線ＬＡＮ環境、又は無線ＬＡＮ接続規格に基づく無線ＬＡＮ環境、例えばＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎなどのＷｉ−Ｆｉ無線ＬＡＮ環境、若しくは携帯電話網環境（例えば、３Ｇ、又は４Ｇ（ＬＴＥを含む）環境）でありうる。

音声検索装置（１０１）は、通信回線（１１５）を介して例えば他の装置（例えば、コンピュータ又はネットワーク・アタッチト・ストレージ）からのデータを受信し、記憶装置（１０８）上に格納しうる。

図１Ｂは、本発明の実施態様において使用されうる音声検索装置（例えば、スマートフォン、携帯電話、タブレット端末、ゲーム端末）の一例を示した図である。

図１Ｂに示す音声検索装置（１２１）のＣＰＵ（１２２）、メイン・メモリ（１２３）、バス（１２４）、ディスプレイ・コントローラ（１２５）、ディスプレイ（１２６）、ＳＳＤ（１２８）、通信コントローラ（１３３）、通信インタフェース（１３４）及び通信回線（１３５）はそれぞれ、図１Ａに示す音声検索装置（１０１）のＣＰＵ（１０２）、メイン・メモリ（１０３）、バス（１０４）、ディスプレイ・コントローラ（１０５）、ディスプレイ（１０６）、ＳＳＤ（１０８）、通信コントローラ（１１３）、通信インタフェース（１１４）及び通信回線（１１５）に対応する。

音声検索装置（１２１）がスマートフォン、携帯電話又はタブレット端末等の場合、ＣＰＵ（１２２）は例えば、スマートフォン、携帯電話若又はタブレット端末用の各種ＣＰＵ、又はアップル社（登録商標）のＡシリーズでありうる。

ＳＳＤ（１２８）ディスクには例えば、スマートフォン用ＯＳ（例えば、アンドロイド（登録商標）ＯＳ、Ｗｉｎｄｏｗｓ（登録商標）ＰｈｏｎｅＯＳ若しくはＷｉｎｄｏｗｓ（登録商標）、又はｉＯＳ）、本発明の実施態様に従うアプリケーション・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ（１２３）にロード可能なように記憶されうる。

キーボード実現部（１３０）は、アプリの一つとして、ディスプレイ（１２６）上にソフトウェアキーボードを表示しうる。

図２Ａ〜図２Ｃ及び図３Ａ〜図３Ｃそれぞれは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声データから生成する為のダイアグラム、並びに、本発明の実施態様に従い、上記音声データに対してキーワード検索を行う為のダイアグラムを示す。

図２Ａ〜図２Ｃは、音声データが英語である場合の上記ダイアグラムを示す。

図２Ａは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を、英語の音声データから生成する為のダイアグラムを示す。

図１Ａに示す音声検索装置（１０１）若しくは図１Ｂに示す音声検索装置（１２１）又は、音声検索装置に単語列及び音素列又は音節列のデータを提供する装置（以下、図２Ａの説明において、音声検索装置という場合には、音声検索装置（１０１，１２１）及び当該データを提供する装置のいずれかであることを意味する）は、単語音声認識部（２０１）及び音素音声認識部（２０２）を備えている。

単語音声認識部（２０１）は、検索対象である英語の音声データ（２１１）に対して単語を認識単位とする単語音声認識を行い、当該単語音声認識の認識結果Ｒｗを取得する。

当該単語音声認識結果Ｒｗは、単語列である。当該単語列は例えば、タイムインデックス付き単語列でありうる。タイムインデックス付き単語列は例えば、{単語ｗ，開始時間ｂ，終了時間ｅ}の繰り返しフォーマット（２２２）でありうる。

単語音声認識部（２０１）は、当該単語音声認識の認識結果Ｒｗである文字列（単語列である）を例えば、当該音声検索装置がアクセス可能な、単語列を格納した記憶媒体（２２１）に格納しうる。

単語音声認識部（２０１）は、音声データ（２１１）に対する単語音声認識の認識結果Ｒｗとして、以下に示す単語列を一部に含む単語列を出力したとする（２２３）（なお、タイムインデックスの表示は省略している）。
Ｒｗ＝ ... not just desserts on Wednesdays... ... ...cookies to quick and easy desserts, ...

音素音声認識部（２０２）は、検索対象である英語の音声データ（２１１）に対して音素又は音節を認識単位とする音素音声認識を行い、当該音素音声認の認識結果Ｒｓを取得する。音素又は音節はサブワードとも呼ばれるものであり、単語よりも短い単位である音素又は音節からなる。

当該音素音声認識結果Ｒｓは、音素列又は音節列である。当該音素列又は音節列は例えば、タイムインデックス付き音素列又は音節列でありうる。タイムインデックス付き音素列又は音節列は例えば、{音素列又は音節列ｗ，開始時間ｂ，終了時間ｅ}の繰り返しフォーマット（２３２）でありうる。

音素音声認識部（２０２）は、当該音素音声認の認識結果Ｒｓである音素列又は音節列を例えば、当該音声検索装置がアクセス可能な、音素列を格納した記憶媒体（２３１）に格納しうる。

音素音声認識部（２０２）は、音素音声認識の認識結果として、Ｎ−ｂｅｓｔの認識結果又は、１−ｂｅｓｔの認識結果を出力しうる。Ｎ−ｂｅｓｔの認識結果は、例えば、Ｒｓ＝Ｒｓ[１], Ｒｓ[２], Ｒｓ[３], …, Ｒｓ[Ｎ]（以下、Ｒｓ[１…Ｎ]とも記載する）（なお、タイムインデックスの表示は省略している）で表されうる（２３３）。１−ｂｅｓｔの認識結果は、例えば、Ｒｓ＝Ｒｓ[１]（なお、タイムインデックスの表示は省略している）で表されうる（２３４）。

音素音声認識部（２０２）は、音声データ（２１１）に対する音素音声認識のＮ−ｂｅｓｔ認識結果Ｒｓとして、以下に示す音素列又は音節列を出力したとする（２３３）（なお、タイムインデックスの表示は省略している）。
Rs[1] ＝ ... N AA T JH AH S T D EH Z ER T AA N W EH N Z D EY Z ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER TS ...
Rs[2] ＝ ... N AA T JH AH S T D IH Z ER T AA N W EH N Z D EY Z ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER T ...
Rs[3] ＝ ... AA T JH AA S T D EH Z ER TS AA N W EH N Z D EY ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER TS ...
・・・
Rs[N] ＝・・・

または、音素音声認識部（２０２）は、音声データ（２１１）に対する音素音声認識の１−ｂｅｓｔ認識結果Ｒｓとして、以下に示す音素列又は音節列を出力したとする（２３４）（なお、タイムインデックスの表示は省略している）。
Rs ＝ ... N AA T JH AH S T D EH Z ER T AA N W EH N Z D EY Z ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER TS ...

図２Ｂは、本発明の実施態様に従い、図２Ａで行われた上記単語音声認識の認識結果Ｒｗ及び上記音素音声認識のＮ−ｂｅｓｔ認識結果Ｒｓに対して、キーワード検出を行う為のダイアグラムを示す。以下、図２Ｂの説明において、音声検索装置という場合には、図１Ａに示す音声検索装置（１０１）又は図１Ｂに示す音声検索装置（１２１）であることを意味する。

音声検索装置は、キーワード検索を行う為の検索対象であるキーワード（以下、検索キーワードともいう）を取得する。当該キーワードの文字列Ｋｗ（２４５）が「desserts」（２４６）であり、当該キーワードの音素列Ｋｓ（２５５）が「D IH Z ER TS」（２５６）であるとする。

図２Ｂ（Ａ）において、音声検索装置は、検索キーワードの文字列Ｋｗ（２４５）「desserts」（２４６）と、単語音声認識結果Ｒｗ（２４１）中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Ｋｗと、単語音声認識結果Ｒｗである文字列の少なくとも一部とが一致するかを判断する。

図２Ｂ（Ａ）に示すＲｗ（２４１）は、検索キーワードの文字列Ｋｗ（２４６）「desserts」（２４６）を含む部分（２４１ａ及び２４１ｂ）を示したものである。

図２Ｂ（Ａ）において、音声検索装置は、検索キーワードの文字列Ｋｗ（２４５）「desserts」（２４６）が、Ｒｗ（２４１）中の区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒にある文字列「desserts」、及び、区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６秒にある文字列「desserts」と一致することを見つけたとする。ｔｂは、一致する文字列が音声データ中に出現する当該区間Ｄの開始時間を示し、ｔｅは、一致する文字列が音声データ中に出現する当該区間Ｄの終了時間を示す。

音声検索装置は、上記区間Ｄ１及び上記区間Ｄ２（ｔｂ，ｔｅ）を、検索キーワードの文字列Ｋｗと、単語音声認識結果Ｒｗ中の文字列の一部が一致する区間として検出する。

図２Ｂ（Ｂ）において、音声検索装置は、上記区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒及び上記区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６秒それぞれの両端（すなわち、開始時間及び終了時間である）を所定時間（０．２秒）分それぞれ前後に広げて、区間Ｄ１’（ｔｂ−δ，ｔｅ＋δ）＝４．６６〜５．３３秒及び区間Ｄ２’（ｔｂ−δ，ｔｅ＋δ）＝１１．１８〜１１．８６秒とする。

図２Ｂ（Ｃ）に示すＲｓ（２５１）は、検索キーワードの音素列Ｋｓ（２５６）を含む部分（２５１ａ及び２５１ｂ）を示したものである。

図２Ｂ（Ｃ）において、音声検索装置は、上記区間Ｄ１’中において及び上記区間Ｄ２’中において認識されたＮ−ｂｅｓｔ音素音声認識結果Ｒｓを取得する。音素音声認識結果Ｒｓは、検索対象の音声データ（２１１）に対して行われた音素音声認識結果のうちから上記区間Ｄ１’及び上記区間Ｄ２’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間Ｄ１’又は上記区間Ｄ２’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。

Ｎ−ｂｅｓｔ音素音声認識結果Ｒｓは、Ｒｓ＝Ｒｓ[１], Ｒｓ[２], Ｒｓ[３], …, Ｒｓ[Ｎ]で表され（２５１）、Ｎの値が大きいほど順位が低くなる。

音声検索装置は、上記区間Ｄ１’において、音素音声認識結果Ｒｓ[２０]中に、検索キーワードの音素列Ｋｓ（２５５）「D IH Z ER TS」（２５６）と一致する音素列があることを見つけたとする（２５１）。同様に、音声検索装置は、上記区間Ｄ２’において、音素音声認識結果Ｒｓ[１]中に、検索キーワードの音素列Ｋｓ（２５５）「D IH Z ER TS」（２５６）と一致する音素列があることを見つけたとする（２５２）。

図２Ｂ（Ｄ）において、音声検索装置は、上記区間Ｄ１’及び上記区間Ｄ２’の確からしさを示す指標であるスコアＣｓそれぞれを下記式に従い算出する。
Ｃｓ＝１−ｌｏｇ１０(ｎ)／ｌｏｇ１０(Ｎ)

音声検索装置は、上記区間Ｄ１’について、Ｃｓ（Ｄ１’）＝０．５６であり、上記区間Ｄ２’について、Ｃｓ（Ｄ２’）＝１であることを算出する。

さらに、音声検索装置は、下記式に従い、上記区間Ｄ１’及び上記区間Ｄ２’それぞれの評価値であるスコアＣを算出する。
Ｃ＝Ｃｗ＋Ｃｓ
ここで、Ｃｗは、検索キーワードの文字列Ｋｗ（２４５）「desserts」（２４６）が、Ｒｗ（２４１）中のある区間中の文字列と一致する場合に１とし、一致しない場合に０とする。
ここで、Ｃｓは、上記したとおり、上記文字列Ｋｗ（２４５）「desserts」（２４６）が一致した区間の確からしさを示す指標である。

音声検索装置は、上記区間Ｄ１’について、Ｃ（Ｄ１’）＝１（Ｃｗ）＋０．５６（Ｃｓ）＝１．５６であり、上記区間Ｄ２’について、Ｃ（Ｄ２’）＝１（Ｃｗ）＋１（Ｃｓ）＝２であることを算出する。

図２Ｂ（Ｅ）において、グラフ（２６１）に示されているように、音声検索装置は、Ｃ（Ｄ１’）及びＣ（Ｄ２’）それぞれを、閾値Ｔ１．７（２６２）と比較し、当該閾値を超える区間Ｄ２’をキーワード検出区間（２６３）として出力する。

図２Ｃは、本発明の実施態様に従い、図２Ａで行われた上記単語音声認識の認識結果Ｒｗ及び上記音素音声認識の１−ｂｅｓｔ認識結果Ｒｓに対して、キーワード検出を行う為のダイアグラムを示す。以下、図２Ｃの説明において、音声検索装置という場合には、図１Ａに示す音声検索装置（１０１）又は図１Ｂに示す音声検索装置（１２１）であることを意味する。

音声検索装置は、キーワード検索を行う為の検索キーワードを取得する。当該キーワードの文字列Ｋｗ（２４５）が「desserts」（２４６）であり、当該キーワードの音素列Ｋｓ（２５５）が「D IH Z ER TS」（２５６）であるとする。

図２Ｃ（Ａ）において、音声検索装置は、検索キーワードの文字列Ｋｗ（２４５）「desserts」（２４６）と、単語音声認識結果Ｒｗ中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Ｋｗと、単語音声認識結果Ｒｗである文字列の少なくとも一部とが一致するかを判断する。

図２Ｃ（Ａ）に示すＲｗ（２４１）は、検索キーワードの文字列Ｋｗ（２４５）「desserts」（２４６）を含む部分（２４１ａ及び２４１ｂ）を示したものである。

図２Ｃ（Ａ）において、音声検索装置は、検索キーワードの文字列Ｋｗ（２４５）「desserts」（２４６）が、Ｒｗ（２４１）中の区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒にある文字列「desserts」、及び、区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６秒にある文字列「desserts」と一致することを見つけたとする。

音声検索装置は、上記区間Ｄ１及び上記区間Ｄ２（ｔｂ，ｔｅ）を、検索キーワードの文字列Ｋｗ（２４５）「desserts」（２４６）と、単語音声認識結果Ｒｗ（２４１）である文字列の一部が一致する区間として検出する。

図２Ｃ（Ｂ）において、音声検索装置は、区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒及び区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６秒それぞれの両端（すなわち、開始時間及び終了時間である）を所定時間（０．２秒）分それぞれ前後に広げて、区間Ｄ１’（ｔｂ−δ，ｔｅ＋δ）＝４．６６〜５．３３秒及び区間Ｄ２’（ｔｂ−δ，ｔｅ＋δ）＝１１．１８〜１１．８６秒とする。

図２Ｃ（Ｃ）に示すＲｓ（２７１）は、検索キーワードの音素列Ｋｓ（２５６）を含む部分（２７１ａ及び２７１ｂ）を示したものである。

図２Ｃ（Ｃ）において、音声検索装置は、上記区間Ｄ１’中において及び上記区間Ｄ２’中において認識された１−ｂｅｓｔ音素音声認識結果Ｒｓを取得する。音素音声認識結果Ｒｓは、検索対象の音声データ（２１１）に対して行われた音素音声認識結果のうちから上記区間Ｄ１’及び上記区間Ｄ２’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間Ｄ１’又は上記区間Ｄ２’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。

１−ｂｅｓｔ音素音声認識結果Ｒｓは、Ｎ−ｂｅｓｔにおけるＮが１の場合である（２７１）。

音声検索装置は、上記区間Ｄ１’において、音素音声認識結果Ｒｓ中に、検索キーワードの音素列Ｋｓ（２５５）「D IH Z ER TS」（２５６）と一致する音素列があることを見つけたとする（２７１）。同様に、音声検索装置は、上記区間Ｄ２’において、音素音声認識結果Ｒｓ中に、検索キーワードの音素列Ｋｓ（２５５）「D IH Z ER TS」（２５６）と一致する音素列があることを見つけたとする（２７２）。

図２Ｃ（Ｄ）において、音声検索装置は、上記区間Ｄ１’及び上記区間Ｄ２’の確からしさを示す指標であるスコアＣｓそれぞれを、１−ｂｅｓｔの認識結果である音素列（「D EH Z ER T」（２７１ａ）及び「D IH Z ER TS」（２７１ｂ）それぞれと検索キーワードの音素列（２５５）「D IH Z ER TS」（２５６）との編集距離を、文字置換コスト表（２８１）を使用して下記式に従い算出する。
Ｃｓ＝１−編集距離（Ｋｓ，Ｒｓ）／長さ（Ｋｓ）

音声検索装置は、上記区間Ｄ１’について、Ｃｓ（Ｄ１’）＝０．６８であること（２８２）、及び、上記区間Ｄ２’について、Ｃｓ（Ｄ２’）＝１であること（２８３）を算出する。

さらに、音声検索装置は、下記式に従い、上記区間Ｄ１’及び上記区間Ｄ２’それぞれの評価値であるスコアＣを、図２Ｂ（Ｄ）で示した式Ｃ＝Ｃｗ＋Ｃｓに従い算出する。

音声検索装置は、上記区間Ｄ１’について、Ｃ（Ｄ１’）＝１（Ｃｗ）＋０．６８（Ｃｓ）＝１．６８であり、上記区間Ｄ２’について、Ｃ（Ｄ２’）＝１（Ｃｗ）＋１（Ｃｓ）＝２であることを算出する。

図２Ｃ（Ｅ）において、グラフ（２９１）に示されているように、音声検索装置は、Ｃ（Ｄ１’）及びＣ（Ｄ２’）それぞれを、閾値Ｔ１．７（２９２）と比較し、当該閾値を超える区間Ｄ２’をキーワード検出区間（２９３）として出力する。

図３Ａ〜図３Ｃは、音声データが日本語である場合の上記ダイアグラムを示す。

図３Ａは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を、日本語の音声データから生成する為のダイアグラムを示す。

図１Ａに示す音声検索装置（１０１）若しくは図１Ｂに示す音声検索装置（１２１）又は、音声検索装置に単語列及び音素列又は音節列のデータを提供する装置（以下、図３Ａの説明において、音声検索装置という場合には、音声検索装置（１０１，１２１）及び当該データを提供する装置のいずれかであることを意味する）は、単語音声認識部（３０１）及び音素音声認識部（３０２）を備えている。

単語音声認識部（３０１）は、図２Ａに示す単語音声認識部（２０１）と同じであるので、その説明を省略する。

単語音声認識部（３０１）は、音声データ（３１１）に対する単語音声認識の認識結果Ｒｗとして、以下に示す単語列（日本語，平仮名、カタカナ及び漢字の組み合わせ）を一部に含む単語列を出力したとする（３２３）（なお、タイムインデックスの表示は省略している）。
Ｒｗ＝ ... ですが ~ 伊勢丹が今最安値... ... ...デパート関連ではやはり伊勢丹が ...

音素音声認識部（３０２）は、図２Ａに示す音素音声認識部（２０２）と同じであるので、その説明を省略する。

音素音声認識部（３０２）は、音声データ（３１１）に対する音素音声認識のＮ−ｂｅｓｔ認識結果Ｒｓとして、以下に示す音素列又は音節列を出力したとする（２３３）（なお、タイムインデックスの表示は省略している）。
Rs[1] ＝ ... de su ga ~ i ke sa _n ga i ma sa i ya su ne ... de wa ka _n re _n wa ya ha ri i se ta _n ga ...
Rs[2] ＝ ... de su ga ~ i se a _n ga i ma sa i ya su ... de pa: to ka _n re _n a ya ha i se ta _n ga ...
Rs[3] ＝ ... su ga a: i sa sa _n ga i ma sa i ya su ... de a: to ga _n re _n a ya ha i se a _n ga ...
Rs[N] ＝・・・

または、音素音声認識部（３０２）は、音声データ（３１１）に対する音素音声認識の１−ｂｅｓｔ認識結果Ｒｓとして、下記を出力したとする。
Rs ＝ ... de su ga ~ i ke sa _n ga i ma sa i ya su ne ... de wa ka _n re _n wa ya ha ri i se ta _n ga ...

図３Ｂは、本発明の実施態様に従い、図３Ａで行われた上記単語音声認識の認識結果Ｒｗ及び音素音声認識のＮ−ｂｅｓｔ認識結果Ｒｓに対して、キーワード検出を行う為のダイアグラムを示す。以下、図３Ｂの説明において、音声検索装置という場合には、図１Ａに示す音声検索装置（１０１）又は図１Ｂに示す音声検索装置（１２１）であることを意味する。

音声検索装置は、キーワード検索を行う為の検索対象であるキーワード（検索キーワード）を取得する。当該キーワードの文字列Ｋｗ（３４５）が「伊勢丹」（日本語，漢字）（３４６）であり、当該キーワードの音素列Ｋｓ（３５５）が「i se ta _n」（３５６）であるとする。

図３Ｂ（Ａ）において、音声検索装置は、検索キーワードの文字列Ｋｗ（３４５）「伊勢丹」（３４５）と、単語音声認識結果Ｒｗ（３４１）中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Ｋｗと、単語音声認識結果Ｒｗである文字列の少なくとも一部とが一致するかを判断する。

図３Ｂ（Ａ）に示すＲｗ（３４１）は、検索キーワードの文字列Ｋｗ（３４６）「伊勢丹」（３４６）を含む部分（３４１ａ及び３４１ｂ）を示したものである。

図３Ｂ（Ａ）において、音声検索装置は、検索キーワードの文字列Ｋｗ（３４５）「伊勢丹」（３４６）が、Ｒｗ（３４１）中の区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒にある文字列「伊勢丹」、及び、区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６秒にある文字列「伊勢丹」と一致することを見つけたとする。

図３Ｂ（Ｂ）において、音声検索装置は、上記区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒及び上記区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６秒それぞれの両端（すなわち、開始時間及び終了時間である）を所定時間（０．２秒）分それぞれ前後に広げて、区間Ｄ１’（ｔｂ−δ，ｔｅ＋δ）＝４．６６〜５．３３秒及び区間Ｄ２’（ｔｂ−δ，ｔｅ＋δ）＝１１．１８〜１１．８６秒とする。

図３Ｂ（Ｃ）に示すＲｓ（３５１）は、検索キーワードの音素列Ｋｓ（３５６）を含む部分（３５１ａ及び３５１ｂ）を示したものである。

図３Ｂ（Ｃ）において、音声検索装置は、上記区間Ｄ１’中において及び上記区間Ｄ２’中において認識されたＮ−ｂｅｓｔ音素音声認識結果Ｒｓを取得する。音素音声認識結果Ｒｓは、検索対象の音声データ（３１１）に対して行われた音素音声認識結果のうちから上記区間Ｄ１’及び上記区間Ｄ２’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間Ｄ１’又は上記区間Ｄ２’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。

Ｎ−ｂｅｓｔ音素音声認識結果Ｒｓは、Ｒｓ＝Ｒｓ[１], Ｒｓ[２], Ｒｓ[３], …, Ｒｓ[Ｎ]で表され（３５１）、Ｎの値が大きいほど順位が低くなる。

音声検索装置は、上記区間Ｄ１’において、音素音声認識結果Ｒｓ[２０]中に、検索キーワードの音素列Ｋｓ（３５５）「i se ta _n」（３５６）と一致する音素列があることを見つけたとする（３５１）。同様に、音声検索装置は、上記区間Ｄ２’において、音素音声認識結果Ｒｓ[１]中に、検索キーワードの音素列Ｋｓ（３５５）「i se ta _n」（３５６）と一致する音素列があることを見つけたとする（３５２）。

図３Ｂ（Ｄ）において、音声検索装置は、上記区間Ｄ１’及び上記区間Ｄ２’の確からしさを示す指標であるスコアＣｓそれぞれを下記式に従い算出する。
Ｃｓ＝１−ｌｏｇ１０(ｎ)／ｌｏｇ１０(Ｎ)

さらに、音声検索装置は、下記式に従い、上記区間Ｄ１’及び上記区間Ｄ２’それぞれの評価値であるスコアＣを算出する。
Ｃ＝Ｃｗ＋Ｃｓ
ここで、Ｃｗは、検索キーワードの文字列Ｋｗ（３４５）「伊勢丹」（３４６）が、Ｒｗ（３４１）中のある区間中の文字列と一致する場合に１とし、一致しない場合に０とする。
ここで、Ｃｓは、上記したとおり、上記文字列Ｋｗ（３４５）「伊勢丹」（３４６）が一致した区間の確からしさを示す指標である。

図３Ｂ（Ｅ）において、グラフ（３６１）に示されているように、音声検索装置は、Ｃｓ（Ｄ１’）及びＣｓ（Ｄ２’）それぞれを、閾値Ｔ１．７（３６２）と比較し、当該閾値を超える区間Ｄ２’をキーワード検出区間（３６３）として出力する。

図３Ｃは、本発明の実施態様に従い、図３Ａで行われた上記単語音声認識の認識結果Ｒｗ及び上記音素音声認識の１−ｂｅｓｔ認識結果Ｒｓに対して、キーワード検出を行う為のダイアグラムを示す。以下、図３Ｃの説明において、音声検索装置という場合には、図１Ａに示す音声検索装置（１０１）又は図１Ｂに示す音声検索装置（１２１）であることを意味する。

音声検索装置は、キーワード検索を行う為の検索キーワードを取得する。当該キーワードの文字列Ｋｗ（３４５）が「伊勢丹」（３４６）であり、当該キーワードの音素列Ｋｓ（３５５）が「i se ta _n」（３５６）であるとする。

図３Ｃ（Ａ）において、音声検索装置は、キーワードの文字列Ｋｗ（３４５）「伊勢丹」（３４６）と、単語音声認識結果Ｒｗ中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Ｋｗと、単語音声認識結果Ｒｗである文字列の少なくとも一部とが一致するかを判断する。

図３Ｃ（Ａ）に示すＲｗ（３４１）は、検索キーワードの文字列Ｋｗ（３４５）「伊勢丹」（３４６）を含む部分（３４１ａ及び３４１ｂ）を示したものである。

図３Ｃ（Ａ）において、音声検索装置は、検索キーワードの文字列Ｋｗ（３４５）「伊勢丹」（３４６）が、Ｒｗ（３４１）中の区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒にある文字列「desserts」、及び、区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６にある文字列「伊勢丹」と一致することを見つけたとする。

音声検索装置は、上記区間Ｄ１及び上記区間Ｄ２（ｔｂ，ｔｅ）を、検索キーワードの文字列Ｋｗ（３４５）「伊勢丹」（３４６）と、単語音声認識結果Ｒｗ（３４１）である文字列の一部が一致する区間として検出する。

図３Ｃ（Ｂ）において、音声検索装置は、区間Ｄ１（ｔｂ，ｔｅ）＝４．８６〜５．１３秒及び区間Ｄ２（ｔｂ，ｔｅ）＝１１．３８〜１１．６６秒それぞれの両端（すなわち、開始時間及び終了時間である）を所定時間（０．２秒）分それぞれ前後に広げて、区間Ｄ１’（ｔｂ−δ，ｔｅ＋δ）＝４．６６〜５．３３秒及び区間Ｄ２’（ｔｂ−δ，ｔｅ＋δ）＝１１．１８〜１１．８６秒とする。

図３Ｃ（Ｃ）に示すＲｓ（３７１）は、検索キーワードの音素列Ｋｓ（３５６）を含む部分（３７１ａ及び３７１ｂ）を示したものである。

図３Ｃ（Ｃ）において、音声検索装置は、上記区間Ｄ１’中において及び上記区間Ｄ２’中において認識された１−ｂｅｓｔ音素音声認識結果Ｒｓを取得する。音素音声認識結果Ｒｓは、検索対象の音声データ（３１１）に対して行われた音素音声認識結果のうちから上記区間Ｄ１’及び上記区間Ｄ２’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間Ｄ１’又は上記区間Ｄ２’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。

１−ｂｅｓｔ音素音声認識結果Ｒｓは、Ｎ−ｂｅｓｔにおけるＮが１の場合である（３７１）。

音声検索装置は、上記区間Ｄ１’において、音素音声認識結果Ｒｓ中に、検索キーワードの音素列Ｋｓ（３５５）「i ke sa _n」（３５６）と一致する音素列があることを見つけたとする（３７１）。同様に、音声検索装置は、上記区間Ｄ２’において、音素音声認識結果Ｒｓ中に、検索キーワードの音素列Ｋｓ（３５５）「i ke sa _n」（３５６）と一致する音素列があることを見つけたとする（３７２）。

図３Ｃ（Ｄ）において、音声検索装置は、上記区間Ｄ１’及び上記区間Ｄ２’の確からしさを示す指標であるスコアＣｓそれぞれを、１−ｂｅｓｔの認識結果である音素列（「i ke sa _n」（３７１ａ）及び「i ke sa _n」（３７１ｂ）それぞれと検索キーワードの音素列（３５５）「i ke sa _n」（３５６）との編集距離を、文字置換コスト表（３８１）を使用して下記式に従い算出する。
Ｃｓ＝１−編集距離（Ｋｓ，Ｒｓ）／長さ（Ｋｓ）

音声検索装置は、上記区間Ｄ１’について、Ｃｓ（Ｄ１’）＝０．６８であること（３８２）、及び、上記区間Ｄ２’について、Ｃｓ（Ｄ２’）＝１であること（３８３）を算出する。

さらに、音声検索装置は、下記式に従い、上記区間Ｄ１’及び上記区間Ｄ２’それぞれの評価値であるスコアＣを、図３Ｂ（Ｄ）で示した式Ｃ＝Ｃｗ＋Ｃｓに従い算出する。

図３Ｃ（Ｅ）において、グラフ（３９１）に示されているように、音声検索装置は、Ｃｓ（Ｄ１’）及びＣｓ（Ｄ２’）それぞれを、閾値Ｔ１．７（３９２）と比較し、当該閾値を超える区間Ｄ２’をキーワード検出区間（３９３）として出力する。

以下に、図４Ａに示すフローチャートに従って、本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声データから生成する為の処理を説明し、次に、図４Ｂ及び図４Ｃに示すフローチャートに従って、本発明の実施態様に従い、上記音声データに対してキーワード検索を行う為の処理を説明する。

図４Ａは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声データから生成する為のフローチャートを示す。

本発明の実施態様において使用されうる単語列及び音素列又は音節列は、図１Ａに示す音声検索装置（１０１）若しくは図１Ｂに示す音声検索装置（１２１）によって生成されてもよく、又は、当該音声検索装置（１０１、１２１）以外の電子装置（例えば、コンピュータ）によって生成されてもよい。

本発明の実施態様において使用されうる単語列及び音素列又は音節列を図１Ａに示す音声検索装置（１０１）又は図１Ｂに示す音声検索装置（１２１）が生成する場合について、以下に説明する。なお、図４Ａに示すフローチャートの説明において、「音声検索装置」という場合には、音声検索装置（１０１）又は音声検索装置（１２１）を意味する。

ステップ４０１において、音声検索装置は、音声データから単語列と、任意的に音素列又は音節列とを生成する処理を開始する。

ステップ４０２において、音声検索装置は、音声データを例えば当該コンピュータが読み取り可能な記憶媒体（例えば、図１Ａに示す記憶媒体（１０８）又は図１Ｂに示す記憶媒体（１２８））から読み取り、又は、当該コンピュータがネットワークを介してアクセス可能な他の装置（例えば、コンピュータ又はネットワーク・アタッチト・ストレージ）からダウンロードする。

ステップ４０３において、音声検索装置は、従来技術である音素音声認識手法に従い、ステップ４０２で読み取った音声データに対して音素音声認識を行う。音素音声認識は、音声データを音声言語の基本単位である音素又は音節の記号列に変換するものである。音素音声認識は例えば音声認識エンジンの一部として実行され、音声データの音声信号から音素の識別に用いる特徴的な指標を取り出し、音響モデル（音声信号の特徴と音素の対応を記録したデータベースである）を使って、音声データを音素又は音節の羅列に変換することによって行われうる。

音素は、語の意味を区別する音声の最小単位である。音節は、典型的には、（１）母音（Ｖ）、（２）子音＋母音（ＣＶ）、（３）母音＋子音（ＶＣ）、及び（４）子音＋母音＋子音（ＣＶＣ）のような母音を中心としたまとまりである。音素又は音節の定義は言語により異なりうるが、本発明の実施態様において音素又は音節という場合にはこれら言語により異なる定義を包含するものとする。

ステップ４０４において、音声検索装置は、ステップ４０３での音素音声認識の認識結果Ｒｓを取得する。音素音声認識結果Ｒｓは、音素列又は音節列である。当該音素列又は音節列は例えば、タイムインデックス付き音素列又は音節列でありうる。タイムインデックス付き音素列又は音節列は例えば、{音素列又は音節列ｗ，開始時間ｂ，終了時間ｅ}の繰り返しフォーマットでありうる。

音声検索装置は、音素音声認識の認識結果として、Ｎ−ｂｅｓｔの認識結果又は１−ｂｅｓｔの認識結果を出力しうる。

音声検索装置は、上記取得した音素音声認識結果Ｒｗを例えば、当該音声検索装置が書き込み可能な記憶媒体（例えば、図１Ａに示す記憶媒体（１０８）又は図１Ｂに示す記憶媒体（１２８））に書き込み、又は、当該音声検索装置がネットワークを介してアクセス可能な他の装置（例えば、コンピュータ又はネットワーク・アタッチト・ストレージ）にアップロードしうる。

音声検索装置は、音素列又は音節列を生成する処理について、上記ステップ４０３及び上記ステップ４０４を実施する代わりに、下記図４Ｂに示すステップ４１６での区間Ｄ（ｔｂ，ｔｅ）が検出された後において、当該区間Ｄに関連付けられた音声データ（すなわち、当該区間Ｄの開始時間及び終了時間内にある音声データ）に対してのみ行うようにしてもよい。代替的には、音声検索装置は、音素列又は音節列を生成する処理について、上記ステップ４０３及び上記ステップ４０４を実施する代わりに、下記図４Ｂに示すステップ４１７での区間Ｄ’（ｔｂ−δ，ｔｅ＋δ）が検出された後において、当該区間Ｄ’に関連付けられた音声データ（すなわち、当該区間Ｄ’の開始時間及び終了時間内にある音声データ）に対してのみ行うようにしてもよい。

ステップ４０５において、音声検索装置は、従来技術である単語音声認識手法に従い、ステップ４０２で読み取った音声データに対して、ステップ４０３とは独立的に単語音声認識を行う。代替的には、音声検索装置は、従来技術である単語音声認識手法に従い、ステップ４０４において取得した音素音声認識結果Ｒｓに対して、単語音声認識を行う。単語音声認識は、音声データを単語列に変換するものである。単語音声認識は例えば音声認識エンジンの一部として実行され、例えば上記音素列を認識辞書（音素の組み合わせと単語との対応を記録したデータベースである）を使って単語に置き換え、さらに言語モデル（単語の組み合わせの妥当性を記録したデータベースである）を使って最も妥当な単語候補を選択する。単語音声認識の従来技術として例えば、連続音声認識システムや大語彙連続音声認識システムを挙げることができるが、これらに限定されるものでない。大語彙連続音声認識システムは例えば、上記非特許文献２「The IBM Attila Speech Recognition Toolkit」に従う技術でありうる。

ステップ４０６において、音声検索装置は、ステップ４０５での単語音声認識の認識結果Ｒｗを取得する。単語音声認識結果Ｒｗは単語列である。当該単語列は例えば、タイムインデックス付き単語列でありうる。タイムインデックス付き単語列は例えば、{単語ｗ，開始時間ｂ，終了時間ｅ}の繰り返しフォーマットでありうる。

音声検索装置は、単語音声認識の認識結果として、Ｎ−ｂｅｓｔの認識結果又は１−ｂｅｓｔの認識結果を出力しうる。

音声検索装置は、上記取得した単語音声認識結果Ｒｗを例えば、当該音声検索装置が書き込み可能な記憶媒体（例えば、図１Ａに示す記憶媒体（１０８）又は図１Ｂに示す記憶媒体（１２８））に書き込み、又は、当該音声検索装置がネットワークを介してアクセス可能な他の装置（例えば、コンピュータ又はネットワーク・アタッチト・ストレージ）にアップロードしうる。

ステップ４０７において、音声検索装置は、音声データから単語列と音素列又は音節列とを生成する処理を終了する。引き続き、当該音声検索装置が上記音声データに対してキーワード検索を行う場合には、当該音声検索装置は処理を図４Ｂのフローチャートに示す処理に進める。

本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声検索装置（１０１、１２１）以外の電子装置（例えば、コンピュータ）が生成する場合についての説明は、上記ステップ４０１〜４０７の処理の主体である音声検索装置を当該電子装置と読み替えられたい。

図４Ｂは、本発明の実施態様に従い、上記音声データに対してキーワード検索（その一部に、Ｎ−ｂｅｓｔ認識結果を用いる例）を行う為のフローチャートを示す。なお、図４Ｂに示すフローチャートの説明において、「音声検索装置」という場合には、音声検索装置（１０１）又は音声検索装置（１２１）を意味する。

ステップ４１１において、音声検索装置は、図４Ａのステップ４０２に示す上記音声データに対してキーワード検索を行う処理を開始する。

ステップ４１２において、音声検索装置は、キーワード検索を行う為の検索キーワードを、例えば検索キーワードを格納した記憶媒体から取得する。当該検索キーワードは、検索キーワードの文字列Ｋｗと、検索対象であるキーワードの音素列又は音節列Ｋｓとを含む。検索キーワードの文字列は例えば、ユーザが入力したテキスト・データ、又はユーザが入力した音声データをテキスト化したテキスト・データでありうる。

ステップ４１３において、音声検索装置は、検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の単語音声認識結果Ｒｗを取得する。音声検索装置は、当該単語音声認識結果Ｒｗを例えば当該音声検索装置が読み取り可能な記憶媒体（例えば、図１Ａに示す記憶媒体（１０８）又は図１Ｂに示す記憶媒体（１２８））から読み取り、又は、当該音声検索装置がネットワークを介してアクセス可能な他の装置（例えば、コンピュータ又はネットワーク・アタッチト・ストレージ）からダウンロードする。

ステップ４１４において、音声検索装置は、ステップ４１２で取得した検索キーワードの文字列Ｋｗと、ステップ４１３で取得した単語列としての単語音声認識結果Ｒｗである文字列とを比較する。すなわち、音声検索装置は、上記検索キーワードの文字列Ｋｗと、ステップ４１３で取得した単語音声認識結果Ｒｗである文字列の少なくとも一部とが一致するかを判断する。

ステップ４１５において、音声検索装置は、上記ステップ４１４の比較結果として、文字列Ｋｗと上記単語音声認識結果Ｒｗである文字列の少なくとも一部とが一致することに応じて、処理をステップ４１６に進める。すなわち、ステップ４１５において、音声検索装置は、単語音声認識結果Ｒｗのうち、文字列Ｋｗに一致する区間Ｄを見つける。一方、音声検索装置は、文字列Ｋｗと単語音声認識結果Ｒｗ中の文字列とが一致しないことに応じて、処理をステップ４２２に進める。

ステップ４１６において、音声検索装置は、音声データ中の、文字列Ｋｗと単語音声認識結果Ｒｗである文字列の少なくとも一部とが一致する１以上の候補区間Ｄ（ｔｂ，ｔｅ）を検出する。ｔｂは、一致する文字列が音声データ中に出現する当該区間Ｄの開始時間を示し、ｔｅは、一致する文字列が音声データ中に出現する当該区間Ｄの終了時間を示す。

ステップ４１７は、任意のステップである。ステップ４１７において、音声検索装置は、ステップ４１６で検出した区間Ｄ（ｔｂ，ｔｅ）の開始時間及び終了時間の両端又は一方を所定時間分それぞれ前後に広げて、区間Ｄ’（ｔｂ−δ，ｔｅ＋δ）とする。δの値は任意の時間である。−δと＋δは、同じ値であってもよく、又は異なる値であってもよい。区間Ｄ（ｔｂ，ｔｅ）の開始時間及び終了時間の両端又は一方を所定時間分をそれぞれ前後に拡張するのは、下記ステップ４１９での検索キーワード中の音素列又は音節列Ｋｓとの比較の精度を高める為である。

ステップ４１８において、音声検索装置は、区間Ｄ（ｔｂ，ｔｅ）（ステップ４１７が実行されなかった場合）又は区間Ｄ’（ｔｂ−δ，ｔｅ＋δ）において認識された音素音声認識結果Ｒｓを取得する。音素音声認識結果Ｒｓは、検索対象の音声データに対して行われた音素音声認識結果のうちから上記区間Ｄ又は区間Ｄ’に関連付けられた音素音声認識結果を取り出したもの、又は、上記区間Ｄ又は区間Ｄ’に関連付けられた音声データに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。

ステップ４１９において、音声検索装置は、ステップ４１２で取得した検索キーワード中の音素列又は音節列Ｋｓと、ステップ４１８で取得した音素列としての音素音声認識結果Ｒｓとを比較する。すなわち、音声検索装置は、上記検索キーワード中の音素列又は音節列Ｋｓと、ステップ４１６で検出した区間Ｄ又はステップ４１７で取得した区間Ｄ’に関連付けられた音素音声認識結果Ｒｓである音素列の少なくとも一部とが一致するかを判断する。

ステップ４２０において、音声検索装置は、上記ステップ４１９の比較結果として、上記検索キーワード中の音素列又は音節列Ｋｓと上記音素音声認識結果Ｒｓである音素列の少なくとも一部とが一致することに応じて、処理をステップ４２１に進める。すなわち、ステップ４２０において、音声検索装置は、Ｎ−ｂｅｓｔ音素音声認識結果の順位ｎの音素音声認識結果Ｒｓのうち、音素列Ｋｓに一致する部分を見つける。なお、ｎ == Ｎは、ｎがＮに達するまで、という最大Ｎ回のループを示す。一方、音声検索装置は、Ｒｓ[ｎ] == Ｋｓ || ｎ == Ｎでないことに応じて、Ｎ−ｂｅｓｔ音素音声認識結果の順位ｎを＋１インクリメントして、処理をステップ４１９に戻し、ステップ４１９及びステップ４２０を繰り返す。

ステップ４２１において、音声検索装置は、音素音声認識結果のステップ４１９及びステップ４２０における比較による区間Ｄ又は区間Ｄ’の確からしさを示す指標であるスコアＣｓ（０＜＝１）を例えば、下記式に従い算出する。
Ｃｓ＝１−ｌｏｇ１０(ｎ)／ｌｏｇ１０(Ｎ)

上記区間Ｄ又は区間Ｄ’の確からしさの評価はＮ−ｂｅｓｔ音素音声認識結果Ｒｓ（例えば、Ｒｓ[１…Ｎ]）で表される）と、上記検索キーワード中の音素列又は音節列Ｋｓとの一致する順の順位ｎ（１＜ｎ＜Ｎ；Ｎは、Ｎ−ｂｅｓｔの最大数である）を用いて評価する方法（上記図２Ｂ及び図３Ｂを参照）に基づく。

例えば、Ｎ−ｂｅｓｔのＮ（最大数）が１０００であるとすると、例えば、
ｎ＝１のとき、Ｃｓ＝ 1-0/3 ＝ 1
ｎ＝１０のとき、Ｃｓ＝ 1-1/3 ＝ 0.66
ｎ＝１００のとき、Ｃｓ＝ 1-2/3 ＝ 0.50
ｎ＝８００のとき、Ｃｓ＝ 1-2.9/3 ＝ 0.03
である。従って、順位ｎが高くなるほど、Ｃｓの値も高くなる。すなわち、Ｃｓが１に近い値であるほど、その区間の信頼度が高い。

ステップ４２２において、音声検索装置は、ステップ４１５の比較の結果からの処理の場合（単語音声認識結果において一致する区間がない場合、Ｃｗ＝０）又はステップ４２０の比較の結果からの処理の場合（単語音声認識結果において一致する区間がある場合、Ｃｗ＝１）のＣｗの値と、上記算出したＣｓとを加算して、スコアＣを算出する。

例えば、Ｎ−ｂｅｓｔの順位が下位（例えば、ｎ＝８００）の音素列に一致した場合には、たとえ、上記検索キーワード中の音素列又は音節列Ｋｓと音素音声認識結果Ｒｓ[８００]とが一致したとしても、スコアＣは、Ｃｗ（＝１）＋Ｃｓ（＝０．０３）＝１．０３であるために、その区間の信頼度は低いということになる。一方、例えば、Ｎ−ｂｅｓｔの順位が上位（例えば、ｎ＝１）の音素列に一致した場合には、スコアＣは、Ｃｗ（＝１）＋Ｃｓ（＝１）＝２であるために、その区間の信頼度は高いということになる。

ステップ４２３において、音声検索装置は、ステップ４２２で算出したスコアＣが所定の閾値Ｔを超えるかを判断する。音声検索装置は、スコアＣが所定の閾値Ｔを超えることに応じて、処理をステップ４２４に進める。一方、音声検索装置は、スコアＣが所定の閾値Ｔを超えないことに応じて、処理を終了ステップ４２５に進める。

閾値Ｔは、ユーザが適宜指定することが可能である。信頼度の高い区間を出力対象としたい場合には、閾値Ｔは２に近い値に設定されうる。一方、信頼度は多少犠牲にしても、数多くの区間を検出したい場合には、閾値Ｔは１に近い値に設定されうる。

ステップ４２４において、音声検索装置は、所定の閾値Ｔを超えることに応じて、所定の閾値を超える区間を出力する。当該出力された区間が、音声データ中の、検索キーワードが特定された区間である。当該区間の出力は例えば、上記区間Ｄ若しくは上記区間Ｄ’の時間情報、上記区間Ｄ若しくは上記区間Ｄ’の音声データ（音素データが付随していてもよい）、又は、上記区間Ｄ若しくは上記区間Ｄ’の音声データをテキスト化したテキスト・データを出力することでありうる。

ステップ４２５において、音声検索装置は、上記音声データに対してキーワード検索を行う処理を終了する。

図４Ｃは、本発明の実施態様に従い、上記音声データに対してキーワード検索（その一部に、１−ｂｅｓｔ認識結果及び編集距離を用いる例）を行う為のフローチャートを示す。なお、図４Ｃに示すフローチャートの説明において、「音声検索装置」という場合には、音声検索装置（１０１）又は音声検索装置（１２１）を意味する。

ステップ４３１〜ステップ４３８それぞれは、図４Ｂに示すステップ４１１〜ステップ４１８と同じである。従って、ステップ４３１〜ステップ４３８それぞれについての説明は、ステップ４１１〜ステップ４１８の説明を参照されたい。

ステップ４３９において、音声検索装置は、上記検索キーワード中の音素列又は音節列Ｋｓと、上記ステップ４３８で取得した区間Ｄ（ｔｂ，ｔｅ）（ステップ４１７が実行されなかった場合）又は区間Ｄ’（ｔｂ−δ，ｔｅ＋δ）において認識された音素音声認識結果Ｒｓとの編集距離を算出する（上記図２Ｃ及び上記図３Ｃを参照）。当該編集距離は、レーベンシュタイン距離とも呼ばれる。当該編集距離は例えば、動的計画法によるマッチング（ＤＰマッチング；Dynamic Programming Matching）を使用して計算しうる。編集距離が短いほど音素列の類似性が高くなるので、その区間の信頼度が高いといえる。

ステップ４４１において、音声検索装置は、音素音声認識結果の区間Ｄ又は区間Ｄ’の確からしさを示す指標であるスコアＣｓ（０＜＝１）を例えば、下記式に従いステップ４３９で算出した編集距離から算出する。
Ｃｓ＝１−編集距離（Ｋｓ，Ｒｓ）／長さ（Ｋｓ）

ステップ４４２において、音声検索装置は、ステップ４３５の比較の結果からの処理の場合（単語音声認識結果において一致する区間がない場合、Ｃｗ＝０）又はステップ４３９からの経路からの処理の場合（単語音声認識結果において一致する区間がある場合、Ｃｗ＝１）のＣｗの値と、上記算出したＣｓとを加算して、スコアＣを算出する。

ステップ４４３〜ステップ４４５それぞれは、図４Ｂに示すステップ４２３〜ステップ４２５と同じである。従って、ステップ４４３〜ステップ４４５それぞれについての説明は、ステップ４２３〜ステップ４２５の説明を参照されたい。

図５Ａ及び図５Ｂそれぞれは、図１Ａ又は図１Ｂに従うハードウェア構成を好ましくは備えており、図４Ａ又は図４Ｂに示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。以下において、「部」は「手段」とも読み替えてもよい。

図５Ａに示す実施態様では、音声検索装置（５０１）それ自体が、検索対象である音声データに対して単語音声認識及び音素音声認識それぞれを行わない例である。一方、図５Ｂに示す実施態様では、音声検索装置（５０３）それ自体が、音検索対象である声データに対して単語音声認識及び音素音声認識それぞれを行う例である。

図５Ａに示す実施態様を以下に説明する。

音声検索装置（５０１）は、図１Ａに示す音声検索装置（１０１）又は図１Ｂに示す音声検索装置（１２１）に対応しうる。

音声検索装置（５０１）は、図４Ｂに示すフローチャートの各ステップを実行する装置でありうる。

上記した通り、図５Ａに示す実施態様では、音声検索装置（５０１）それ自体が、音声データ（５５１）に対して単語音声認識及び音素音声認識それぞれを行わない。従って、音声データ（５５１）に対して単語音声認識及び音素音声認識それぞれは、音声検索装置（５０１）以外の電子装置（５０２）によって処理される。

音声検索装置（５０１）は、図１Ａに示す音声検索装置（１０１）に示されている構成、例えばＣＰＵ（１０２）、メイン・メモリ（１０３）、及びディスク（１０８）を備えている。代替的には、音声検索装置（５０１）は、図１Ｂに示す音声検索装置（１２１）に示されている構成、例えばＣＰＵ（１３２）、メイン・メモリ（１３３）、及びディスク（１２８）を備えている。

音声検索装置（５０１）は、キーワード取得部（５１１）、区間検出部（５１２）、評価値算出部（５１３）、及び区間出力部（５１４）を備えている。

キーワード取得部（５１１）は、文字列と音素列又は音節列とで指定された検索キーワードを、例えば当該検索キーワードを格納した記憶媒体（例えば、キーワード・データベース）（５２１）から取得する。

また、キーワード取得部（５１１）は、上記検索キーワードの文字列を区間検出部（５１２）に提供し、且つ、上記検索キーワード中の音素列又は音節列を評価値算出部（５１３）に提供しうる。

キーワード取得部（５１１）は、図４Ｂに示すステップ４１２及び図４Ｃに示すステップ４３２を実行しうる。

区間検出部（５１２）は、検索対象の音声データ（５５１）に対して行われた単語を認識単位とする単語音声認識の認識結果である文字列（５６１，５３１）と、上記キーワード（５２１）の上記文字列とを比較して、一致する１以上の区間を検出する。区間検出部（５１２）は、単語音声認識の認識結果である文字列（単語列である）を例えば、当該認識結果である文字列を格納した記憶媒体（例えば、単語列データベース）（５３１）から取得しうる。

区間検出部（５１２）は、図４Ｂに示すステップ４１３〜４１７及び図４Ｃに示すステップ４３３〜４３７を実行しうる。

評価値算出部（５１３）は、区間検出部（５１２）が検出した１以上の区間それぞれにおいて認識された音素列又は音節列であり且つ上記音声データ（５５１）に対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である上記音素列又は上記音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記１以上の区間それぞれの評価値を算出する。評価値算出部（５１３）は、上記区間それぞれにおいて認識された音素列又は音節列を例えば、当該音素列又は音節列を格納した記憶媒体（例えば、音素列データベース）（５３２）から取得しうる。

また、評価値算出部（５１３）は、区間検出部（５１２）が検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のＮ−ｂｅｓｔ認識結果である音素列又は音節列と、上記キーワードの上記音素列とを比較して、一致する上記Ｎ−ｂｅｓｔ認識結果の順位を評価値としうる。

また、評価値算出部（５１３）は、区間検出部（５１２）が検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識の１−ｂｅｓｔ認識結果である音素列又は音節列と、上記キーワードの上記音素列又は音節列との編集距離を評価値としうる。

評価値算出部（５１３）は、図４Ｂに示すステップ４１８〜４２１、並びに図４Ｃに示すステップ４３８〜４３９及びステップ４４１を実行しうる。

区間出力部（５１４）は、評価値算出部（５１３）が算出した評価値が所定の閾値を超える区間を出力する。

区間出力部（５１４）は、図４Ｂに示すステップ４２２〜４２３及び図４Ｃに示すステップ４４２〜４４３を実行しうる。

電子装置（５０２）は、図４Ａに示すフローチャートの各ステップを実行する装置でありうる。

電子装置（５０２）は、単語音声認識部（５４１）及び音素音声認識部（５４２）を備えている。

単語音声認識部（５４１）は、検索対象の音声データ（５５１）に対して単語を認識単位とする単語音声認識を行う。単語音声認識部（５４１）は、単語音声認識の認識結果である文字列（単語列である）を例えば、当該電子装置（５０２）がアクセス可能な、単語列を格納した記憶媒体（例えば、単語列データベース）（５６１）に格納しうる。単語列を格納した記憶媒体（５６１）は、単語列を格納した記憶媒体（５３１）と同じであってもよい。または、単語列を格納した記憶媒体（５６１）をコピーしたものが単語列を格納した記憶媒体（５３１）でありうる。

音素音声認識部（５４２）は、検索対象の音声データ（５５１）に対して音素又は音節を認識単位とする音素音声認識を行う。音素音声認識部（５４２）は、音素音声認識の認識結果である音素列又は音節列を例えば、当該電子装置（５０２）がアクセス可能な、音素列を格納した記憶媒体（例えば、音素列データベース）（５６２）に格納しうる。音素列を格納した記憶媒体（５６２）は、音素列を格納した記憶媒体（５３２）と同じであってもよい。または、単語列を格納した記憶媒体（５６２）をコピーしたものが単語列を格納した記憶媒体（５３２）でありうる。

以下に、図５Ｂに示す実施態様を説明する。

音声検索装置（５０３）は、図１Ａに示す音声検索装置（１０１）又は図１Ｂに示す音声検索装置（１２１）に対応しうる。

音声検索装置（５０３）は、図４Ａに示すフローチャートの各ステップ、及び、図４Ｂに示すフローチャートの各ステップを実行する装置でありうる。

上記した通り、音声検索装置（５０３）は、音声検索装置（５０３）それ自体が、音声データ（５８１）に対して単語音声認識及び音素音声認識それぞれを行う。

音声検索装置（５０３）は、図１Ａに示す音声検索装置（１０１）に示されている構成、例えばＣＰＵ（１０２）、メイン・メモリ（１０３）、及びディスク（１０８）を備えている。代替的には、音声検索装置（５０３）は、図１Ｂに示す音声検索装置（１２１）に示されている構成、例えばＣＰＵ（１３２）、メイン・メモリ（１３３）、及びディスク（１２８）を備えている。

音声検索装置（５０３）は、キーワード取得部（５７１）、区間検出部（５７２）、評価値算出部（５７３）及び区間出力部（５７４）、並びに、単語音声認識部（５７５）及び音素音声認識部（５７６）を備えている。

図５Ｂに示すキーワード取得部（５７１）、区間検出部（５７２）、評価値算出部（５７３）、及び区間出力部（５７４）それぞれは、図５Ａに示すキーワード取得部（５１１）、区間検出部（５１２）、評価値算出部（５１３）、及び区間出力部（５１４）に対応する。従って、キーワード取得部（５７１）、区間検出部（５７２）、評価値算出部（５７３）及び区間出力部（５７４）それぞれについての説明は、キーワード取得部（５１１）、区間検出部（５１２）、評価値算出部（５１３）、及び区間出力部（５１４）それぞれの説明を参照されたい。なお、上記説明において、図５Ａに示す音声データ（５５１）、検索キーワードを格納した記憶媒体（５２１）、単語列を格納した記憶媒体（５６１）、及び音素列を格納した記憶媒体（５６２）それぞれは、図５Ｂに示す音声データ（５８１）、検索キーワードを格納した記憶媒体（５８２）、単語列を格納した記憶媒体（５９１）、及び音素列を格納した記憶媒体（５９２）とそれぞれ読み替えられたい。

音声検索装置（５０３）は、さらに、単語音声認識部（５７５）及び音素音声認識部（５７６）を備えている。

単語音声認識部（５７５）は、図５Ａに示す単語音声認識部（５４１）と同様に、検索対象の音声データ（５８１）に対して単語を認識単位とする単語音声認識を行う。単語音声認識部（５７５）は、単語音声認識の認識結果である文字列（単語列である）を例えば、当該音声検索装置（５０３）がアクセス可能な、単語列を格納した記憶媒体（５３１）に格納しうる。

音素音声認識部（５７６）は、図５Ａに示す音素音声認識部（５４２）と同様に、検索対象の音声データ（５８１）に対して音素又は音節を認識単位とする音素音声認識を行いうる。音素音声認識部（５７６）は、音素音声認識の認識結果である音素列又は音節列を例えば、当該音声検索装置（５０３）がアクセス可能な、音素列を格納した記憶媒体（５９２）に格納しうる。

また、音素音声認識部（５７６）は、区間検出部（５７２）が検出した１以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行いうる。

図６は、本発明の実施態様及び従来技術にそれぞれ従い、テスト音声データに対してキーワード検索実験を行った結果として得られた検索性能を示す。

［実施例］
（１）本発明の実施態様（図４Ａ及び図４Ｂに示すフローチャート）に従い、テスト音声データに対する検索キーワードの検索実験を行った。
（２）テスト条件は、下記の通りである。
１）テスト音声データのファイル数：１１０ファイル（日本語である）；
２）通話時間：２９．６時間；
３）発話区間数：２１Ｋセグメント
４）検索キーワード：長さ２〜１０語（４〜２０音素）の検索キーワード３８種類、なお、各キーワードには、文字列と音素列とが与えられている。当該キーワードの文字列及び音素列の一例は下記の通りである：文字列「伊勢丹」（日本語，漢字）と音素列「isetan」；文字列「ありがとうございます」（日本語，平仮名）と音素列「arigatougozaimasu」。
５）上記テスト・データ中、単語の認識結果は、１７９Ｋ単語、含まれるキーワード数は３２４８個であることが判っている。
（３）単語音声認識結果（１−ｂｅｓｔ）が検索キーワードの文字列に一致し、さらに当該一致する区間において認識された音素音声認識結果（Ｎ−ｂｅｓｔ（Ｎ＝１０００，ＮはＮ−ｂｅｓｔのｎが取り得る最大値を意味する））が検索キーワード中の音素列に一致する区間を出力した。
（４）実験結果を図６に示すグラフ（６０１，［Ｃ］（ｅ）〜（ｆ））及び表（６０２，（ｅ）及び（ｆ））に示す。（ｅ）はｎ＝１，（ｆ）はｎ＝１０００の場合である。

グラフ（６０１）は、再現率を横軸とし、適合率を縦軸としたものである。また、グラフ（６０１）中、プロット点横の各数字１〜１０００は、Ｎ−ｂｅｓｔのＮを表す。

表（６０２）は、グラフ（６０１）中、（ａ）〜（ｂ）は比較例１におけるプロット、（ｃ）〜（ｄ）は比較例２におけるプロット，（ｅ），及び（ｆ）それぞれにおける再現率、適合率、及びＦ値（F-measure，Ｆ尺度ともいう）を示す。

Ｆ値は、適合率と再現率との調和平均であり、図６に示す式（６０３）に従い算出される。Ｆ値が高いほど、検索の性能が良いことを意味する。

［比較例１］
（１）従来技術である単語音声認識のみに従い、テスト音声データに対する検索キーワードの検索実験を行った。
（２）テスト条件１）〜５）は、上記実施例と同じである。
（３）単語音声認識結果Ｎ−ｂｅｓｔ（Ｎ＝１０００）が検索キーワードの文字列に一致する区間を出力した。
（４）実験結果を図６に示すグラフ（６１１，［Ａ］（ａ）〜（ｂ））及び表（６０２，（ａ）及び（ｂ））に示す。（ａ）はｎ＝１，（ｂ）はｎ＝１０００の場合である。

［比較例２］
（１）従来技術である音素音声認識のみに従い、テスト音声データに対する検索キーワードの検索実験を行った。
（２）テスト条件１）〜５）は、上記実施例と同じである。
（３）音素音声認識結果Ｎ−ｂｅｓｔ（Ｎ＝１０００）が検索キーワード中の音素列に一致する区間を出力した。
（４）実験結果を図６に示すグラフ（６１２，［Ｂ］（ｃ）〜（ｄ））及び表（６０２，（ｃ）及び（ｄ））に示す。（ｃ）はｎ＝１，（ｄ）はｎ＝１０００の場合である。

比較例１（単語音声認識）の単語音声認識でカバーできる範囲は［Ａ］であり、比較例２（音素音声認識）の音素音声認識でカバーできる範囲は［Ｂ］である。一方、実施例でカバーできる範囲は［Ｃ］であり、適合率（（ｅ）ｎ＝１の場合に９０％，（ｆ）ｎ＝１０００の場合に８２％）が比較例１（（ａ）及び（ｂ））及び比較例２（（ｃ）及び（ｄ））のいずれの適合率に対しても高かった。

また、図６に示すグラフ（６０１）に示されるように、Ｎ−ｂｅｓｔのｎの値を調整することにより、実施例の結果（ｅ）〜（ｆ）の区間において、連続的に適合率及び再現率を変化させることができる。また、本実施例ではＮ＝１０００としているが、Ｎを∞とし、閾値Ｔに対応するｎの値を∞とすると、（ｆ）から（ａ）の区間（６２１）においても連続的に適合率及び再現率を変化させた結果を得ることができる。ステップ４２１に示されるようにｎによってスコアＣｓが計算され、ステップ４２２によってスコアＣが計算される。グラフ（６０１）に示されるように、ｎの値と適合率の間には負の相関があり、ｎの値と再現率の間には正の相関があることがわかる。すなわち、閾値Ｔを大きくすれば再現率が低く適合率が高くなり、閾値Ｔを小さくすれば再現率が高く適合率が低くなるという関係が成り立っている。

比較例１の［Ａ］（ａ）〜（ｂ）では、Ｆ値は０．７８９（ｎ＝１）→０．４８６（ｎ＝１０００）に、及び比較例２の［Ｂ］（ｃ）〜（ｄ）では、Ｆ値は０．５０６（ｎ＝１）→０．２７９（ｎ＝１０００）に、いずれも大きく変化する。一方、実施例の［Ｃ］（ｅ）〜（ｆ）では、Ｆ値は０．７１５（ｎ＝１）→０．７６８（ｎ＝１０００）であり、検索性能がＮの値によってほとんど変化しない。さらに、検索性能がＮの値によってほとんど変化しないことは、検索において検索性能がパラメータに依存しないという、本手法の高い有用性を示す。

Claims

音声検索方法であって、音声検索装置が、
文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、前記キーワードの前記文字列とを比較して、一致する１以上の区間を検出するステップと、
前記検出した１以上の区間それぞれにおいて認識された音素列又は音節列であり且つ前記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である前記音素列又は前記音節列を、前記キーワードの前記音素列又は音節列を用いて評価し、前記１以上の区間それぞれの評価値を算出するステップと、
前記算出した評価値が所定の閾値を超える区間を出力するステップと
を実行することを含み、
前記算出するステップが、
前記検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のＮ−ｂｅｓｔ認識結果である音素列又は音節列と、前記キーワードの前記音素列とを比較して、一致する前記Ｎ−ｂｅｓｔ認識結果の順位を評価値とするステップ
を含む、音声検索方法。
前記区間それぞれに関連付けられた音素列又は音節列が、前記区間の前後を所定の時間分広げた区間に関連付けられた音素列又は音節列である、請求項１に記載の音声検索方法。
前記音声検索装置が、
前記検索対象の音声データに対して単語を認識単位とする単語音声認識を行うステップ
をさらに実行することを含む、請求項１または２に記載の音声検索方法。
前記音声検索装置が、
前記検出した１以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
をさらに実行することを含む、請求項１〜３のいずれか一項に記載の音声検索方法。
前記音声検索装置が、
前記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
をさらに実行することを含む、請求項１〜３のいずれか一項に記載の音声検索方法。
音声検索装置であって、
文字列と音素列又は音節列とで指定されたキーワードを取得するキーワード取得部と、
検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、前記キーワードの前記文字列とを比較して、一致する１以上の区間を検出する区間検出部と、
前記検出した１以上の区間それぞれにおいて認識された音素列又は音節列であり且つ前記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である前記音素列又は前記音節列を、前記キーワードの前記音素列又は音節列を用いて評価し、前記１以上の区間それぞれの評価値を算出する評価値算出部と
前記算出した評価値が所定の閾値を超える区間を出力する区間出力部と
を備えており、
前記評価値算出部が、
前記検出した１以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のＮ−ｂｅｓｔ認識結果である音素列又は音節列と、前記キーワードの前記音素列とを比較して、一致する前記Ｎ−ｂｅｓｔ認識結果の順位を評価値とする、
音声検索装置。
前記区間それぞれに関連付けられた音素列又は音節列が、前記区間の前後を所定の時間分広げた区間に関連付けられた音素列又は音節列である、請求項６に記載の音声検索装置。
前記検索対象の音声データに対して単語を認識単位とする単語音声認識を行う単語音声認識部
をさらに備えている、請求項６または７に記載の音声検索装置。
前記検出した１以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
をさらに備えている、請求項６〜８のいずれか一項に記載の音声検索装置。
前記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
をさらに備えている、請求項６〜８のいずれか一項に記載の音声検索装置。
音声検索装置用のプログラムであって、前記音声検索装置に、請求項１〜５のいずれか一項に記載の音声検索方法の各ステップを実行させる、前記プログラム。