JP6176055B2 - 音声検索装置及び音声検索方法 - Google Patents

音声検索装置及び音声検索方法 Download PDF

Info

Publication number
JP6176055B2
JP6176055B2 JP2013218422A JP2013218422A JP6176055B2 JP 6176055 B2 JP6176055 B2 JP 6176055B2 JP 2013218422 A JP2013218422 A JP 2013218422A JP 2013218422 A JP2013218422 A JP 2013218422A JP 6176055 B2 JP6176055 B2 JP 6176055B2
Authority
JP
Japan
Prior art keywords
search
section
score
threshold
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013218422A
Other languages
English (en)
Other versions
JP2015082138A (ja
Inventor
田中 正清
正清 田中
岩見田 均
均 岩見田
鷲尾 信之
信之 鷲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013218422A priority Critical patent/JP6176055B2/ja
Priority to US14/515,882 priority patent/US9466291B2/en
Publication of JP2015082138A publication Critical patent/JP2015082138A/ja
Application granted granted Critical
Publication of JP6176055B2 publication Critical patent/JP6176055B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、例えば、音声データから検索語を検出する音声検索装置及び音声検索方法に関する。
電話による通話を録音したり、講演または会議における音声を録音することにより得られる音声データから、所望の内容に関する部分を抽出するために、特定の検索語を検出する技術が研究されている。このような音声検索技術において、検索処理を高速化する技術が提案されている(例えば、特許文献1を参照)。例えば、特許文献1に開示された音声データ検索装置は、音声波形データを音声シンボル列に変換し、その音声シンボル列中で検索語の音声シンボルと一致する区間を検出する。そしてその音声データ検索装置は、その検出された区間に検索語が含まれているか否かをその区間の音声波形データを用いて判定する。
特開2002−278579号公報
特許文献1の技術は、検索処理の高速化を図るために、音声波形レベルで検索語と音声波形データのマッチングを行う前に、音声波形データのうちで検索語が含まれている可能性がある候補区間をシンボルレベルで絞り込んでいる。そのため、その技術を採用した音声検索装置は、検索語が含まれる区間の検出に失敗すると、その検出されなかった区間では検索語が探索されないので、検索語の検出に失敗してしまう。
そこで本明細書は、一つの側面では、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減できる音声検索装置を提供することを目的とする。
一つの実施形態によれば、音声検索装置が提供される。この音声検索装置は、検索語の特徴に基づいて、検索語の検出精度が高いほど、検索語の発音難易度が低いほど、あるいは検索語の出現確率が低いほど厳しくなるように、検索語の検出基準を設定する検出基準設定部と、音声データに対して検出基準に従って第1の音声検索処理を行うことにより、音声データから検索語が含まれる可能性がある区間を候補区間として検出する第1の照合部と、候補区間のそれぞれに対して第1の音声検索処理と異なる第2の音声検索処理を行うことにより、候補区間のそれぞれについて検索語が含まれるか否か判定する第2の照合部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声検索装置は、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減できる。
第1の実施形態による音声検索装置が実装された電話機の概略構成図である。 第1の実施形態による音声検索装置が実装された電話機が有する処理部の機能ブロック図である。 検索語のモーラ数と発音類似単語数の関係を示す図である。 第1の実施形態による音声検索処理の動作フローチャートである。 第3の実施形態による音声検索処理の動作フローチャートである。 第4の実施形態による音声検索処理の動作フローチャートである。
以下、図を参照しつつ、様々な実施形態による音声検索装置について説明する。
この音声検索装置は、音声データから、相対的に検出精度が低いものの、相対的に処理量が少ない簡易音声検索処理(第1の音声検索処理)により、検索対象となる検索語が含まれている可能性がある候補区間を検出する。そしてこの音声検索装置は、その候補区間に対して、相対的に処理量が多いものの、相対的に検出精度が高い精密音声検索処理(第2の音声検索処理)を適用することにより、その候補区間に検索語が含まれているか否か判定する。ここで、この音声検索装置は、検索語自身の特徴に基づいて、検索精度が高いか、出現する確率が低い検索語ほど、簡易音声検索処理による候補区間の検出基準を厳しく、すなわち、候補区間が検出され難くなるように設定する。逆に、この音声検索装置は、検索精度が低いか、出現する確率が高い検索語ほど、候補区間の検出基準を緩く、すなわち、候補区間が検出され易くなるように設定する。これにより、この音声検索装置は、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減する。
本実施形態において、音声検索装置は、電話機に組み込まれ、電話回線を通じて取得した音声データまたはマイクロホンにより集音された音声データ、もしくはメモリに記憶されたそれらの音声データから、ユーザが指定した検索語が含まれる区間を検出する。
しかし、音声検索装置は、電話機に組み込まれるものに限られず、音声データを扱う様々な装置、例えば、ICレコーダまたはコンピュータに実装されてもよい。
図1は、第1の実施形態による音声検索装置が実装された電話機の概略構成図である。本実施形態では、電話機1は、マイクロホン2と、通信部3と、記憶媒体アクセス装置4と、記憶部5と、ユーザインターフェース部6と、処理部7と、スピーカ8とを有する。なお、電話機1は、固定電話機または携帯電話機の何れであってもよい。
マイクロホン2は、音声入力部の一例であり、一方の話者であるユーザが発した音声のデータを取得する。マイクロホン2は、マイクロホン2の周囲にいるユーザが発する音声を集音してアナログ音声信号を生成し、そのアナログ音声信号をアナログ−デジタル変換器(図示せず)へ出力する。アナログ−デジタル変換器は、アナログ音声信号を所定のサンプリング周期でサンプリングしてデジタル化することにより上り音声データを生成する。そしてアナログ−デジタル変換器は、上り音声データをアナログ−デジタル変換器と接続された処理部7へ出力する。
通信部3は、音声入力部の他の一例であり、電話機1を電話回線に接続するためのインターフェース回路を有する。そして通信部3は、電話回線を介して、他方の話者が発した音声を電気信号化した下り音声データを含むデータストリームを受信する。そして通信部3は、そのデータストリームから下り音声データを抽出する。なお、下り音声データが所定の通信路符号化方式にて符号化されている場合には、通信部3は、符号化された下り音声データをその通信路符号化方式に従って復号する。そして通信部3は、下り音声データを処理部7へ出力する。
記憶媒体アクセス装置4は、例えば、半導体メモリカードといった記憶媒体9にアクセスする装置である。記憶媒体アクセス装置4は、例えば、記憶媒体9に記憶された処理部7上で実行されるコンピュータプログラムを読み込み、処理部7に渡す。また記憶媒体アクセス装置4は、記憶媒体9から音声検索用コンピュータプログラムを読み込んで、処理部7に渡してもよい。
記憶部5は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部5は、処理部7上で実行される各種のアプリケーションプログラム及び各種のデータを記憶する。また記憶部5は、音声検索処理を実行するためのコンピュータプログラム及び音声検索処理に用いられる各種のデータを記憶してもよい。さらに記憶部5は、マイクロホン2または通信部3を介して取得された音声データを記憶してもよい。
ユーザインターフェース部6は、入力部の一例であり、例えば、複数の操作キーといった入力装置と液晶ディスプレイといった表示装置とを有する。あるいは、ユーザインターフェース部6は、タッチパネルディスプレイのように、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部6は、ユーザによる入力装置の操作に応じた操作信号を生成し、その操作信号を処理部7へ出力する。またユーザインターフェース部6は、処理部7から受け取った各種の情報を表示装置上に表示する。さらに、ユーザは、例えば、ユーザインターフェース部6を介して音声データから検出したい検索語を、テキストデータとして入力してもよい。
処理部7は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部7は、電話機1の各部と信号線を介して接続されており、電話機1の各部を制御する。また処理部7は、ユーザによる操作、あるいは呼び出し信号の着信に応じて呼設定を行ったり、通信を維持するための各種の処理を実行する。また処理部7は、マイクロホン2から受け取った上り音声データを通信部3を介して電話回線へ送信するための各種の処理、及び電話回線から受け取った下り音声データをスピーカ8を介して再生するための各種の処理を実行する。
また処理部7は、音声検索装置の一例であり、上り音声データ及び下り音声データの少なくとも一方から、検索語を含む区間を検出する。以下の説明では、検索語の検出対象となる音声データを、他方の話者の声を含む下り音声データとする。なお、検索語の検出対象となる音声データは、ユーザの声を含む上り音声データであってもよく、あるいは、上り音声データと下り音声データが合成された一つの音声データであってもよい。
図2は、音声検索処理に関する処理部7の機能ブロック図である。処理部7は、発話区間検出部11と、閾値設定部12と、簡易照合部13と、精密照合部14とを有する。
処理部7が有するこれらの各部は、例えば、処理部7が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部7が有するこれらの各部は、それぞれ、別個の回路として、電話機1に実装されてもよく、あるいはこれらの各部の機能を実現する一つの集積回路として、処理部7とは別個に電話機1に実装されてもよい。
発話区間検出部11は、音声データを所定長を持つフレームごとに分割する。フレーム長は、例えば、10msec〜100msecに設定される。そして発話区間検出部11は、音声データの各フレームのうち、話者が声を発しているフレームを検出することで、話者が話している区間である発話区間を検出する。
一般に、話者が声を発しているフレームにおける上り音声データのパワーは、話者が声を発していないフレームにおける音声データのパワーよりも大きい。そこで発話区間検出部11は、例えば、フレームごとに、音声データを、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。なお、発話区間検出部11は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)または修正離散コサイン変換(Modified Discrete Cosign Transform, MDCT)を用いることができる。そして発話区間検出部11は、各周波数帯域のスペクトル信号を2乗することにより周波数帯域ごとのパワーを求め、全周波数帯域にわたってパワーの平均値を算出する。そして発話区間検出部11は、その平均値が所定のパワー閾値よりも大きいフレームを、話者が声を発しているフレームとして検出する。パワー閾値は、例えば、背景雑音のパワーに所定のオフセットを加算した値に設定される。その背景雑音のパワーは、例えば、予め設定されてもよく、あるいは、フレーム単位で更新されてもよい。例えば、発話区間検出部11は、パワーの平均値がパワー閾値以下となったフレームのパワー平均値に忘却係数α(例えば、α=0.01)を乗じた値を、その時点の背景雑音のパワーに(1-α)を乗じた値に加えることで、背景雑音のパワーを更新する。
なお、発話区間検出部11は、発話区間を検出する他の方法に従って、各フレームが話者が声を発しているフレームであるか否かを判定してもよい。例えば、発話区間検出部11は、パワーの平均値がパワー閾値より大きいフレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値(ただし、時間差0のピーク値を除く)を求めてもよい。人の声に相当するフレームについては、比較的自己相関の度合いが高いのに対し、背景雑音に相当するフレームの自己相関の度合いは低い。そこで発話区間検出部11は、そのピーク値の最大値が所定の閾値よりも大きいフレームに限り、そのフレームを話者が声を発しているフレームと判定してもよい。なお、自己相関関数は、各周波数帯域のパワー(パワースペクトル密度)を逆フーリエ変換することにより求められる。また、変形自己相関関数は、パワースペクトル密度に対して線形予測符号化フィルタを用いてフィルタリングしたものを逆フーリエ変換することにより求められる。
発話区間検出部11は、音声データから、話者が声を発していると判定されたフレームが連続する有音区間を検出する。そして発話区間検出部11は、その有音区間が検出される度に、その有音区間を一つの発話区間とする。
発話区間検出部11は、発話区間が検出される度に、その発話区間の開始時刻と終了時刻とを簡易照合部13に通知する。
閾値設定部12は、検出基準設定部の一例であり、ユーザインターフェース部6を介して指定された検索語の特徴に応じて、検索精度が高い検索語ほど、簡易照合部13による候補区間の検出基準を厳しく、すなわち、候補区間が検出され難くなるように設定する。本実施形態では、閾値設定部12は、簡易照合部13により算出される、簡易照合部13により検出される候補区間の数を表す順位閾値を、検索精度が高い検索語ほど小さく設定する。この閾値は、候補区間の検出基準の一例である。
本実施形態では、閾値設定部12は、検索語の特徴として、検索語に含まれるモーラ数に着目して順位閾値を決定する。なお、モーラとは、一定の時間的長さを持った音の文節単位である。例えば、日本語では、単語が仮名文字表記された場合に、拗音(「ゃ」「ゅ」「ょ」)でない一つの仮名のそれぞれが、一つのモーラとなる。
図3は、単語に含まれるモーラ数と、その単語の発音と類似する発音を持つ単語の数の関係を示す図である。図3において、横軸はモーラ数を表し、縦軸は、単語の数を表す。そしてグラフ300は、単語に含まれるモーラ数と、その単語の発音と類似する発音を持つ単語の数の関係を示す。グラフ300に示されるように、一般的に、モーラ数が少ない単語ほど、その単語の発音と類似する発音を持つ単語の数は多くなり、逆に、モーラ数が多い単語ほど、その単語の発音と類似する発音を持つ単語の数は少なくなる。したがって、検索語の発音と類似する発音を持つ単語の数が多いと、音声データ中で検索語と類似する発音となる箇所の数も多くなる可能性がある。一方、検索語の発音と類似する発音を持つ単語の数が少ないほど、音声データ中で検索語と類似する発音となる箇所の数も少なくなる傾向がある。すなわち、モーラ数が多い検索語ほど、検出精度が高くなると推定される。
そこで本実施形態では、閾値設定部12は、検索語に含まれるモーラ数が多いほど、順位閾値を低くする。そのために、閾値設定部12は、例えば、記憶部5に予め記憶された、複数の単語のそれぞれごとに、その単語のテキストデータとその単語に含まれるモーラ数を記録したモーラ数データベースを参照する。そして閾値設定部12は、モーラ数データベースに登録されている単語のうちで、ユーザインターフェース部6を介して指定された検索語のテキストデータと一致する単語を検出し、その検出された単語に対応するモーラ数を、検索語のモーラ数とする。また、検索語に複数の単語が含まれている場合には、閾値設定部12は、モーラ数データベースに登録されている単語のなかから、検索語に含まれる各単語を検出する。そして閾値設定部12は、検出された各単語に対応するモーラ数の合計を検索語のモーラ数としてもよい。
あるいは、閾値設定部12は、検索語に対して言語解析を行うことにより、検索語に含まれるモーラ数を算出してもよい。この場合、例えば、閾値設定部12は、記憶部5に予め記憶された単語の読みを表す単語辞書を参照して、検索語のテキストデータに対して言語解析の一種である形態素解析を行うことにより、検索語に含まれる各音節を特定する。これにより、閾値設定部12は、検索語のモーラ数を求めることができる。閾値設定部12は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。
閾値設定部12は、以下の式に従って、順位閾値nkを設定する。
Figure 0006176055
ここでkはモーラ数である。またNは定数であり、対象となる音声データが長いほど、大きな値に設定される。例えば、Nは、対象となる音声データに含まれる単語の総数の1/10に相当する数に設定される。例えば、一つの単語の長さの平均値が0.75秒であり、対象となる音声データが100分であり、発話時間が全体の50%であれば、対象データ中に単語は約4000語含まれると推定される。そこでNは400に設定される。fmora(k)は、モーラ数kが大きいほど小さい値を出力し、かつその出力値が0〜1の範囲内の値となる単調減少関数である。fmora(k)は、例えば、以下の式となる。しかしfmora(k)は、2次関数、3次関数あるいは指数関数といった非線形の単調減少関数であってもよい。
Figure 0006176055
あるいは、閾値設定部12は、モーラ数kが大きくなるほど出力値も大きくなる単調増加関数によって得られる値を定数Nから減じることによって順位閾値nkを算出してもよい。
閾値設定部12は、順位閾値nkを簡易照合部13に通知する。
簡易照合部13は、精密照合部14による精密音声検索処理の処理量よりも少ない処理量の簡易音声検索処理を用いて、音声データ中の発話区間から検索語が含まれている可能性がある候補区間を検出する。
本実施形態では、簡易照合部13は、検索語の音節列を求め、検索語の音節列と音声データ中の各発話区間の最尤音節列間の編集距離を算出する。そして簡易照合部13は、編集距離が小さいほど大きくなる簡易照合スコアを算出し、簡易照合スコアが高い方の区間から順に、順位閾値nk以下の順位となる区間を候補区間として検出する。なお、発話区間の最尤音節列は、時系列に沿って発話区間の先頭から順に音響的に最も近い音節を求め、その音節を時系列順に並べることによって生成されるテキストデータである。処理部7は、検索対象となる音声データ全体に対して、音声検索処理の実行前に、予め最尤音節列を求めておいてもよい。
簡易照合部13は、検索語の音節列を求めるために、例えば、検索語に対して言語解析を実行する。例えば、簡易照合部13は、記憶部5に予め記憶された単語の読みを表す単語辞書を参照して、検索語のテキストデータに対して言語解析の一種である形態素解析を行うことにより、検索語に含まれる各音節を特定することで、検索語の音節列を求める。
また、簡易照合部13は、例えば、動的計画法を用いて検索語の音節列と発話区間の最尤音節列間の編集距離を算出する。なお、検索語の音節列よりも発話区間の最尤音節列の方が長いことがある。この場合、発話区間の最尤音節列に含まれる全ての音節が編集距離の算出に利用されるように、簡易照合部13は、発話区間の最尤音節列において1音節ずつずらしながら検索語の音節列と同じ長さの区間を設定し、区間ごとに編集距離を算出する。動的計画法を用いることにより、編集距離の算出に要する演算量は、発話区間の最尤音節列に含まれる音節の数がmであり、検索語の音節列に含まれる音節の数がnであるとすると、たかだかo(mn)程度となる。
なお、編集距離は、二つの文字列の違いを定量化した尺度であり、一方の文字列に対して文字の挿入、置換、または削除といった編集作業を行って、他方の文字列と一致させるのに必要なその編集作業の最小回数に相当する。例えば、文字列「当局(とうきょく)」を文字列「皇居(こうきょ)」に変換する場合、以下の二つの編集作業が必要となる。
(1)「と」を「こ」に置換 (とうきょく)→(こうきょく)
(2)「く」を削除 (こうきょく)→(こうきょ)
したがって、編集距離は2となる。
なお、置換には、削除と挿入の二つの編集作業が含まれるので、簡易照合部13は、1回の置換を2回の編集作業として、編集距離を算出してもよい。また簡易照合部13は、置換作業を実行する際、置換対象となる音節と音響的に類似する音節でその置換対象となる音節を置換する場合には、編集作業回数を1回〜2回の間、例えば、1.5回としてもよい。なお、簡易照合部13は、二つの音節の子音か母音の何れかが同じ場合、その二つの音節は音響的に類似していると判断してもよい。
なお、簡易照合部13は、音節単位で編集距離を算出する代わりに、音素単位で編集距離を算出してもよい。
簡易照合部13は、編集距離を算出した区間ごとに、その区間の編集距離を次式に代入することにより、その区間についての簡易照合スコアSを算出する。
Figure 0006176055
ここで、dは編集距離であり、lは検索語の音節列の長さ(すなわち、検索語の音節列に含まれる音節の数)である。(3)式から明らかなように、編集距離が小さいほど、簡易照合スコアSは高くなり、その最大値は100である。そして簡易照合スコアSが高いほど、対応する区間の音節列が検索語と一致する可能性が高い。
簡易照合部13は、簡易照合スコアが高い方の区間から順に、順位閾値nk以下の順位となる区間を、検索語が含まれる可能性がある候補区間とする。そして簡易照合部13は、各候補区間の開始時間と終了時間を精密照合部14に通知する。
精密照合部14は、各候補区間に対して、簡易照合部13による簡易音声検索処理よりも相対的に処理量が多いものの、検出精度が高い精密音声検索処理を適用することにより、その候補区間に検索語が含まれているか否かを判定する。
本実施形態では、精密照合部14は、予め作成された音響モデルを用いて候補区間に検索語が含まれているか否かを判定する。なお、音響モデルは、予め記憶部5に記憶される。
音響モデルは、例えば、単語の発音を音素または音節といった単位音ごとに区分し、その単位音の順序に従って、その単位音に対応する単位音響モデルを連結することにより生成される。この単位音響モデル及び音響モデルは、例えば、それぞれ、隠れマルコフモデル(Hidden Markov Model, HMM)により表される。
精密照合部14は、例えば、候補区間から、音声認識に用いられる特徴量を抽出する。そのために、精密照合部14は、例えば、特徴量として、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)を求める。または、精密照合部14は、候補区間に含まれる、連続するフレーム間のパワーの差分値を求める。精密照合部14は、特徴量としてMFCCを算出する場合、例えば、各周波数のパワースペクトルをメル尺度のパワー値に変換した後、そのパワー値の対数に対してMDCTなどの周波数変換を行うことによりMFCCを算出する。また精密照合部14は、特徴量としてフレーム間のパワーの差分値を求める場合、例えば、連続する二つのフレーム間で周波数帯域全体にわたるパワースペクトルの積算値の差を求めることによりその差分値を求める。
なお、精密照合部14は、特徴量として、音響モデルを用いた音声認識で用いられる他の様々な特徴量(例えば、基本周波数)の何れかを抽出してもよい。また精密照合部14は、候補区間から複数の種類の特徴量を抽出してもよい。
精密照合部14は、候補区間から抽出される1以上の特徴量を時間軸に沿って並べた特徴量の系列と、単位音響モデルを表すHMMを連結して生成した検索語の音響モデルとの類似度を求める。そして精密照合部14は、その類似度が所定の閾値以上となる場合、候補区間に検索語が含まれていると判定する。そして精密照合部14は、検索語が含まれていると判定した候補区間を表す情報、例えば、その候補区間の開始時間と終了時間を記憶部5に記憶する。あるいは、精密照合部14は、検索語が含まれていると判定した候補区間を表す情報をユーザインターフェース部6へ出力してもよい。
なお、精密照合部14は、動的時間伸縮法など、他の音声認識の手法に従って候補区間に検索語が含まれているか否かを判定してもよい。
図4は、第1の実施形態による音声検索処理の動作フローチャートである。
発話区間検出部11は、検索対象となる音声データから、何れかの話者が発話している発話区間を検出する(ステップS101)。一方、閾値設定部12は、ユーザインターフェース部6を介して指定された検索語の特徴に基づいて、検索精度が高い検索語ほど順位閾値nkが小さくなるように、順位閾値nkを設定する(ステップS102)。
簡易照合部13は、音声データから検出された各発話区間に含まれる、検索語の長さを持つ区間ごとに簡易音声検索処理を行って、検索語が含まれている可能性が高いほど高くなる照合スコアSを算出する(ステップS103)。そして簡易照合部13は、照合スコアSの順位が高い方から順に、順位閾値nk以下の順位となる区間を、検索語が含まれている可能性がある候補区間として検出する(ステップS104)。
精密照合部14は、候補区間ごとに、精密音声検索処理を行って、検索語が含まれているか否か判定する(ステップS105)。そして精密照合部14は、検索語が含まれていると判定された候補区間を表す情報を出力し、音声検索処理を終了する。なお、ステップS101の処理とステップS102の処理の順序は入れ替わってもよい。
以上に説明してきたように、この音声検索装置は、検索語の特徴に基づいて、検索精度が高い検索語ほど、簡易照合部による候補区間の検出基準を厳しく設定し、逆に、検索精度が低い検索語ほど、簡易照合部による候補区間の検出基準を緩やかに設定する。これにより、この音声検索装置は、精密な音声検索処理の適用を要する区間が多い場合ほど多数の候補区間を検出し、精密な音声検索処理の適用を要する区間が少ない場合ほど少数の候補区間を検出する。そのため、この音声検索装置は、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減できる。さらに、この音声検索装置は、話者が話していると推定される発話区間のみから候補区間を検出するので、簡易照合部の処理が実行される区間も短くできるので、検索語の検出に要する処理量をさらに軽減できる。
次に、第2の実施形態による音声検索装置について説明する。第2の実施形態による音声検索装置は、順位閾値を、検索語の出現確率に基づいて決定する。
第2の実施形態による音声検索装置は、第1の実施形態による音声検索装置と比較して、処理部7の閾値設定部12の処理だけが異なる。そこで以下では、閾値設定部12及びその関連部分について説明する。
本実施形態では、閾値設定部12は、記憶部5に予め記憶されている単語ごとの出現確率を記録した出現確率データベースを参照することで、検索語の出現確率を求める。例えば、閾値設定部12は、出現確率データベースに登録されている単語のうちで、ユーザインターフェース部6を介して指定された検索語のテキストデータと一致する単語を検出し、その検出された単語に対応する出現確率を、検索語の出現確率とする。なお、出現確率は、例えば、0〜1の範囲内の値で表される。検索語に複数の単語が含まれる場合、閾値設定部12は、出現確率データベースを参照して、検索語に含まれる単語ごとに出現確率を求め、その出現確率の最小値を検索語の出現確率としてもよい。あるいは、閾値設定部12は、検索語に含まれる単語ごとの出現確率同士の積を、検索語の出現確率としてもよい。
一般的に、単語の出現確率が低いほど、音声データ中にその単語が出現する数は少なくなる。逆に、単語の出現確率が高いほど、音声データ中にその単語が出現する数は増える。そこで、本実施形態では、閾値設定部12は、検索語の出現確率が低いほど検出基準を厳しく、すなわち、順位閾値を小さくすることで、候補区間の数を少なくする。これにより、精密照合部14により処理される候補区間の数が減るので、音声検索処理全体の処理量が削減される。またこのように候補区間の数が少なくても、検索語の出現確率が低いので、検索語を含む区間が候補区間から外れる可能性も低い。
一方、閾値設定部12は、検索語の出現確率が高いほど、順位閾値を大きくすることで、候補区間の数を多くして、検索語を含む区間が候補区間から外れる可能性を低減させる。
例えば、閾値設定部12は、以下の式に従って、順位閾値nwを設定する。
Figure 0006176055
ここでwは出現確率である。またNは定数であり、対象となる音声データが長いほど、大きな値に設定される。例えば、Nは、対象となる音声データに含まれる単語の総数の1/10に相当する数に設定される。ffreq(w)は、出現確率wが大きいほど大きい値を出力し、かつその出力値が0〜1の値となる単調増加関数である。ffreq(w)は、例えば、以下の式となる。しかしffreq(w)は、2次関数、3次関数あるいは指数関数といった非線形の単調増加関数であってもよい。
Figure 0006176055
あるいは、閾値設定部12は、出現確率wが大きくなるほど出力値も小さくなる単調減少関数によって得られる値を定数Nから減じることによって順位閾値nkを算出してもよい。
この実施形態によれば、音声検索装置は、検索語の出現確率が高いほど多くの候補区間を検出するので、検索語が候補区間に含まれずに検索語の検出に失敗することを抑制できる。またこの音声検索装置は、検索語の出現確率が低い場合には、候補区間を少なくするので、音声検索処理の処理量を低減できる。
次に、第3の実施形態による音声検索装置について説明する。第3の実施形態による音声検索装置は、検索語の発音難易度に基づいて、照合スコアに対する閾値であるスコア閾値を決定する。
第3の実施形態による音声検索装置は、第1の実施形態による音声検索装置と比較して、処理部7の閾値設定部12及び簡易照合部13の処理が異なる。そこで以下では、閾値設定部12、簡易照合部13及びその関連部分について説明する。
本実施形態では、閾値設定部12は、記憶部5に予め記憶されている単語ごとの発音難易度を記録した発音難易度データベースを参照することで、検索語の発音難易度を求める。例えば、閾値設定部12は、発音難易度データベースに登録されている単語のうちで、ユーザインターフェース部6を介して指定された検索語のテキストデータと一致する単語を検出し、その検出された単語に対応する発音難易度を、検索語の発音難易度とする。なお、発音難易度は、例えば、単語の音節数に対する、発音が難しいポイントの数の比で表され、例えば、0〜1の範囲内の値を持つ。検索語に複数の単語が含まれる場合、閾値設定部12は、発音難易度データベースを参照して、検索語に含まれる単語ごとに発音難易度を求め、その最大値を検索語の発音難易度としてもよい。あるいは、閾値設定部12は、検索語に含まれる単語ごとの発音難易度の平均値を、検索語の発音難易度としてもよい。
あるいは、閾値設定部12は、検索語を言語解析することによって検索語の音節列を求め、その音節列に含まれる音節の並びから発音が難しいポイントの数を計数する。そして閾値設定部12は、発音が難しいポイントの合計を検索語の音節数で除することで、発音難易度を求めてもよい。なお、発音が難しいポイントの合計が検索語の音節数よりも多い場合には、閾値設定部12は、発音難易度を1に設定する。
発音が難しいポイントは、例えば、n音節内に複数の拗音があるポイント、及び、m音節内に同一または類似の子音を持つ複数の音節があるポイントである。なお、m、nは、それぞれ2以上の整数である。例えば、単語「手術(しゅじゅつ)」について、m=n=2とした場合、「しゅ」と「じゅ」が拗音であり、かつ、互いに類似しているので、拗音に関するポイントと同一または類似の子音に関するポイントが、それぞれ、一つずつ存在する。また、単語「手術」の音節の数は3である。したがって、発音難易度は、(1+1)/3=0.67となる。
なお、発音が難しいポイントとして、閾値設定部12は、上記の例以外のポイントをカウントしてもよい。また閾値設定部12は、発音が難しいポイントの拗音または子音の種類によって異なる重みを設定し、検索語中で検出された発音が難しいポイントの重みの合計を検索語の音節数で除することにより、発音難易度を算出してもよい。
一般的に、単語の発音難易度が低いほど、話者はその単語を正確に発音できる。そのため、検索語の発音難易度が低いほど、音声データで検索語が含まれる区間の照合スコアは高くなる。逆に、検索語の発音難易度が高いほど、音声データで検索語が含まれる区間であっても、その区間の照合スコアは低くなる傾向がある。したがって、発音難易度が低い検索語ほど、その検索語の検出精度は高くなると推定される。そこで、本実施形態では、閾値設定部12は、検索語の発音難易度が低いほど、照合スコアに対する閾値であるスコア閾値を高くする。これにより、検索語の発音難易度が低ければ、精密照合部14により処理される候補区間の数が減るので、音声検索処理全体の処理量が削減される。一方、閾値設定部12は、検索語の発音難易度が高いほど、スコア閾値を低くすることで、検索語が正確に発音されていなくても、検索語を含む区間を候補区間として検出できる。
例えば、閾値設定部12は、以下の式に従って、スコア閾値xpを設定する。
Figure 0006176055
ここでpは発音難易度である。またXは定数であり、例えば、照合スコアの取り得る最大値に0.8〜0.9を乗じた値に設定される。例えば、本実施形態では、照合スコアの取り得る最大値は100なので、Xは90に設定される。fpd(p)は、発音難易度pが高いほど低い値を出力し、かつその出力値が0〜1の範囲内の値となる単調減少関数である。fpd(p)は、例えば、以下の式となる。しかしfpd(p)は、2次関数、3次関数あるいは指数関数といった非線形の単調減少関数であってもよい。
Figure 0006176055
あるいは、閾値設定部12は、発音難易度pが高くなるほど出力値も大きくなる単調増加関数によって得られる値を定数Xから減じることによってスコア閾値xpを算出してもよい。
閾値設定部12は、スコア閾値xpを簡易照合部13へ通知する。
簡易照合部13は、第1の実施形態における簡易照合部と同様に、音声データ中の発話区間内の検索語と同じ長さの区間ごとに照合スコアSを算出する。そして簡易照合部13は、照合スコアSがスコア閾値xp以上となる区間を候補区間として検出する。
図5は、第3の実施形態による音声検索処理の動作フローチャートである。
発話区間検出部11は、検索対象となる音声データから、何れかの話者が発話している発話区間を検出する(ステップS201)。一方、閾値設定部12は、ユーザインターフェース部6を介して指定された検索語の発音難易度に基づいて、発音難易度が低い検索語ほどスコア閾値xpが高くなるように、スコア閾値xpを設定する(ステップS202)。
簡易照合部13は、音声データから検出された各発話区間に含まれる、検索語と同じ長さの区間ごとに簡易音声検索処理を行って、検索語が含まれている可能性が高いほど高くなる照合スコアSを算出する(ステップS203)。そして簡易照合部13は、照合スコアSがスコア閾値xp以上の区間を、検索語が含まれている可能性がある候補区間として検出する(ステップS204)。
精密照合部14は、候補区間ごとに、精密音声検索処理を行って、検索語が含まれているか否か判定する(ステップS205)。そして精密照合部14は、検索語が含まれていると判定された区間を出力し、音声検索処理を終了する。なお、ステップS201の処理とステップS202の処理の順序は入れ替わってもよい。
この実施形態によれば、音声検索装置は、検索語の発音難易度が低いほど、候補区間の検出基準を厳しくするので、話者が正確に発音できる検索語については候補区間の数を減らして、音声検索処理の処理量を低減できる。またこの音声検索装置は、検索語の発音難易度が高いほど、候補区間の検出基準を緩やかにするので、検索語が含まれる区間が候補区間から外れる失敗を抑制できる。
次に、第4の実施形態による音声検索装置について説明する。第4の実施形態による音声検索装置は、検索語に含まれるモーラ数及び出現確率に基づいて順位閾値を決定し、かつ、検索語の発音難易度に基づいて、スコア閾値を決定する。そしてこの音声検索装置は、順位閾値とスコア閾値の両方を用いて候補区間を検出する。
第4の実施形態による音声検索装置は、第1の実施形態による音声検索装置と比較して、処理部7の閾値設定部12及び簡易照合部13の処理が異なる。そこで以下では、閾値設定部12、簡易照合部13及びその関連部分について説明する。
閾値設定部12は、第1の実施形態による音声検索装置の閾値設定部と同様の処理を行って、検索語に含まれるモーラ数kを求める。また閾値設定部12は、第2の実施形態による音声検索装置の閾値設定部と同様の処理を行って、検索語の出現確率wを求める。そして閾値設定部12は、モーラ数kと出現確率wに基づいて、例えば、以下の式に従って順位閾値Nk,wを決定する。
Figure 0006176055
なお、関数fmora(k)は、モーラ数kが増えるほど小さな値を出力する単調減少関数とすることができ、例えば(2)式で表される。また関数ffreq(w)は、出現確率wが高くなるほど、大きな値を出力する単調増加関数とすることができ、例えば(5)式で表される。
さらに、閾値設定部12は、第3の実施形態による音声検索装置の閾値設定部と同様の処理を行って、検索語の発音難易度が高いほど低くなるようにスコア閾値xpを決定する。
閾値設定部12は、順位閾値Nk,w及びスコア閾値xpを簡易照合部13へ通知する。
簡易照合部13は、順位閾値Nk,w及びスコア閾値xpの両方を用いて候補区間を検出する。
例えば、簡易照合部13は、第1の実施形態における簡易照合部と同様に、音声データ中の発話区間内の検索語と同じ長さの区間ごとに照合スコアSを算出する。そして簡易照合部13は、例えば、照合スコアSがスコア閾値xp以上となり、かつ、照合スコアが高い方から順にNk,w個以内となる区間を候補区間として検出する。
あるいは、簡易照合部13は、照合スコアSがスコア閾値xp以上となるか、または、照合スコアSが高い方から順にNk,w個以内となる区間を候補区間として検出してもよい。
あるいはまた、簡易照合部13は、照合スコアSがスコア閾値(αxp)以上となる区間を候補区間として検出する。また、簡易照合部13は、照合スコアSが高い方から順に(βNk,w)個以内となる区間を候補区間として検出する。さらに、簡易照合部13は、照合スコアSがスコア閾値xp以上となり、かつ、照合スコアが高い方から順にNk,w個以内となる区間を候補区間としてもよい。なお、α、βは定数であり、例えば、それぞれ、1.1〜1.2、0.8〜0.9に設定される。
図6は、第4の実施形態による音声検索処理の動作フローチャートである。
発話区間検出部11は、検索対象となる音声データから、何れかの話者が発話している発話区間を検出する(ステップS301)。一方、閾値設定部12は、ユーザインターフェース部6を介して指定された検索語のモーラ数が多いほど、あるいは、検索語の出現確率が低いほど、順位閾値nkが小さくなるように、順位閾値nkを設定する(ステップS302)。さらに、閾値設定部12は、発音難易度が低い検索語ほどスコア閾値xpが高くなるように、スコア閾値xpを設定する(ステップS303)。
簡易照合部13は、音声データから検出された各発話区間に含まれる、検索語の長さを持つ区間ごとに簡易音声検索処理を行って、検索語が含まれている可能性が高いほど高くなる照合スコアSを算出する(ステップS304)。そして簡易照合部13は、照合スコアS及び照合スコアSの順位が、順位閾値nk及びスコア閾値xpによって決まる基準を満たす区間を、検索語が含まれている可能性がある候補区間として検出する(ステップS305)。
精密照合部14は、候補区間ごとに、精密音声検索処理を行って、検索語が含まれているか否か判定する(ステップS306)。そして精密照合部14は、検索語が含まれていると判定された候補区間を表す情報を出力し、音声検索処理を終了する。なお、ステップS301の処理〜ステップS303の処理の順序は入れ替わってもよい。
この実施形態によれば、音声検索装置は、検索語の複数の特徴に基づいて候補区間の検出基準を設定するので、一つの特徴だけで候補区間の検出基準を設定するよりも適切な検出基準を設定できる。
なお、変形例によれば、閾値設定部12は、検索語のモーラ数または出現確率に基づいて、スコア閾値を決定してもよい。この場合、閾値設定部12は、検索語のモーラ数が多いほど、スコア閾値を高くする。あるいは、閾値設定部12は、検索語の出現確率が低いほど、スコア閾値を高くしてもよい。さらにまた、閾値設定部12は、検索語の発音難易度に基づいて、順位閾値を決定してもよい。この場合、閾値設定部12は、検索語の発音難易度が低いほど、順位閾値を低くする。
また他の変形例によれば、発話区間検出部11は省略されてもよい。この場合、簡易照合部13は、検索対象となる音声データ全体に対して簡易照合部13の処理を実行すればよい。
さらに他の変形例によれば、検索語は、例えば、マイクロホン2を介して音声データとして入力されてもよい。この場合、処理部7は、検索語の音声データに対して、例えば、音声認識処理を実行することで、検索語のテキストデータをもとめる。そして処理部7は、そのテキストデータを利用して、上記の各実施形態または何れかの変形例に従って、音声データ中で検索語が含まれる区間を検出すればよい。
上記の各実施形態または変形例による状態推定装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
検索語の特徴に基づいて、該検索語の検出精度が高いほど、該検索語の発音難易度が低いほど、あるいは該検索語の出現確率が低いほど厳しくなるように、該検索語の検出基準を設定する検出基準設定部と、
音声データに対して前記検出基準に従って第1の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を候補区間として検出する第1の照合部と、
前記候補区間のそれぞれに対して前記第1の音声検索処理と異なる第2の音声検索処理を行うことにより、前記候補区間のそれぞれについて前記検索語が含まれるか否か判定する第2の照合部と、
を有する音声検索装置。
(付記2)
前記第1の音声検索処理の処理量は、前記第2の音声検索処理の処理量よりも少ない、付記1に記載の音声検索装置。
(付記3)
前記第1の照合部は、前記音声データに含まれる複数の区間のそれぞれごとに、前記第1の音声検索処理に従って前記検索語が含まれる可能性を表す照合スコアを算出し、前記照合スコアが前記検出基準を満たす区間を前記候補区間として検出する、付記1または2に記載の音声検索装置。
(付記4)
前記検出基準設定部は、前記検索語に含まれるモーラ数を前記検索語の特徴として算出し、該モーラ数が多いほど、前記検出基準を厳しく設定する、付記3に記載の音声検索装置。
(付記5)
前記検出基準設定部は、前記検索語の出現確率を前記検索語の特徴として算出し、該出現確率が低いほど、前記検出基準を厳しく設定する、付記3に記載の音声検索装置。
(付記6)
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど前記順位閾値を小さくし、
前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、付記3〜5のいずれかに記載の音声検索装置。
(付記7)
前記検出基準は、前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど、前記スコア閾値を高くし、
前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となる区間を前記候補区間として検出する、付記3〜5のいずれかに記載の音声検索装置。
(付記8)
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となり、かつ、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、付記3〜5のいずれかに記載の音声検索装置。
(付記9)
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となるか、または、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、付記3〜5のいずれかに記載の音声検索装置。
(付記10)
前記検索語を指定する入力部をさらに有する、付記1〜9のいずれかに記載の音声検索装置。
(付記11)
検索語の特徴に基づいて、該検索語の検出精度が高いほど、該検索語の発音難易度が低いほど、あるいは該検索語の出現確率が低いほど厳しくなるように、該検索語の検出基準を設定し、
音声データに対して前記検出基準に従って第1の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を候補区間として検出し、
前記候補区間のそれぞれに対して前記第1の音声検索処理と異なる第2の音声検索処理を行うことにより、前記候補区間のそれぞれについて検索語が含まれるか否か判定する、
ことを含む音声検索方法。
1 電話機
2 マイクロホン
3 通信部
4 記憶媒体アクセス装置
5 記憶部
6 ユーザインターフェース部
7 処理部
8 スピーカ
9 記憶媒体
11 発話区間検出部
12 閾値設定部(検出基準設定部)
13 簡易照合部(第1の照合部)
14 精密照合部(第2の照合部)

Claims (7)

  1. 索語に含まれるモーラ数が多いほど、あるいは、該検索語の発音難易度が低いほど、該検索語が含まれるか否かの判定対象となる候補区間が検出され難くなるように、該候補区間の検出基準を設定する検出基準設定部と、
    音声データに対して前記検出基準に従って第1の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を前記候補区間として検出する第1の照合部と、
    前記候補区間のそれぞれに対して前記第1の音声検索処理と異なる第2の音声検索処理を行うことにより、前記候補区間のそれぞれについて前記検索語が含まれるか否か判定する第2の照合部と、
    を有する音声検索装置。
  2. 前記第1の照合部は、前記音声データに含まれる複数の区間のそれぞれごとに、前記第1の音声検索処理に従って前記検索語が含まれる可能性を表す照合スコアを算出し、前記照合スコアが前記検出基準を満たす区間を前記候補区間として検出する、請求項1に記載の音声検索装置。
  3. 前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値であり、
    前記検出基準設定部は、前記候補区間が検出され難くなるほど前記順位閾値を小さくし、
    前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、請求項2に記載の音声検索装置。
  4. 前記検出基準は、前記照合スコアに対するスコア閾値であり、
    前記検出基準設定部は、前記候補区間が検出され難くなるほど、前記スコア閾値を高くし、
    前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となる区間を前記候補区間として検出する、請求項2に記載の音声検索装置。
  5. 前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
    前記検出基準設定部は、前記候補区間が検出され難くなるほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
    前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となり、かつ、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、請求項2に記載の音声検索装置。
  6. 前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
    前記検出基準設定部は、前記候補区間が検出され難くなるほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
    前記第1の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となるか、または、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、請求項2に記載の音声検索装置。
  7. 処理部により、検索語に含まれるモーラ数が多いほど、あるいは、該検索語の発音難易度が低いほど、該検索語が含まれるか否かの判定対象となる候補区間が検出され難くなるように、該候補区間の検出基準を設定し、
    前記処理部により、音声データに対して前記検出基準に従って第1の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を前記候補区間として検出し、
    前記処理部により、前記候補区間のそれぞれに対して前記第1の音声検索処理と異なる第2の音声検索処理を行うことにより、前記候補区間のそれぞれについて検索語が含まれるか否か判定する、
    ことを含む音声検索方法。
JP2013218422A 2013-10-21 2013-10-21 音声検索装置及び音声検索方法 Active JP6176055B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013218422A JP6176055B2 (ja) 2013-10-21 2013-10-21 音声検索装置及び音声検索方法
US14/515,882 US9466291B2 (en) 2013-10-21 2014-10-16 Voice retrieval device and voice retrieval method for detecting retrieval word from voice data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013218422A JP6176055B2 (ja) 2013-10-21 2013-10-21 音声検索装置及び音声検索方法

Publications (2)

Publication Number Publication Date
JP2015082138A JP2015082138A (ja) 2015-04-27
JP6176055B2 true JP6176055B2 (ja) 2017-08-09

Family

ID=52826944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013218422A Active JP6176055B2 (ja) 2013-10-21 2013-10-21 音声検索装置及び音声検索方法

Country Status (2)

Country Link
US (1) US9466291B2 (ja)
JP (1) JP6176055B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7153998B2 (ja) 2017-02-15 2022-10-17 住友重機械工業株式会社 モータ

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
JP6794990B2 (ja) * 2015-09-30 2020-12-02 ヤマハ株式会社 楽曲検索方法および楽曲検索装置
US10601599B2 (en) * 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
CN108564941B (zh) * 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
KR102418953B1 (ko) * 2020-05-11 2022-07-11 네이버 주식회사 쇼핑 검색 결과 확장 방법 및 시스템
KR102517661B1 (ko) 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62206597A (ja) 1986-03-07 1987-09-11 日本電気株式会社 音声認識用単語予備選択方式
JPH0575119A (ja) 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> Soi型半導体装置
JP3428058B2 (ja) 1993-03-12 2003-07-22 松下電器産業株式会社 音声認識装置
JP3583299B2 (ja) 1998-09-22 2004-11-04 三菱電機株式会社 連続音声認識用の探索装置および連続音声認識用の探索方法
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
US6473573B2 (en) 2001-03-21 2002-10-29 Toshiba Tec Kabushiki Kaisha Developing apparatus with temperature sensor
US7039585B2 (en) * 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
JP2004037813A (ja) 2002-07-03 2004-02-05 Auto Network Gijutsu Kenkyusho:Kk 車載用音声認識装置およびそれを用いた音声認識システム
US7076427B2 (en) * 2002-10-18 2006-07-11 Ser Solutions, Inc. Methods and apparatus for audio data monitoring and evaluation using speech recognition
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US8548812B2 (en) * 2008-12-22 2013-10-01 Avaya Inc. Method and system for detecting a relevant utterance in a voice session
US9800721B2 (en) * 2010-09-07 2017-10-24 Securus Technologies, Inc. Multi-party conversation analyzer and logger
JP5549506B2 (ja) * 2010-09-28 2014-07-16 富士通株式会社 音声認識装置及び音声認識方法
JP5824829B2 (ja) * 2011-03-15 2015-12-02 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
US20140310000A1 (en) * 2013-04-16 2014-10-16 Nexidia Inc. Spotting and filtering multimedia

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7153998B2 (ja) 2017-02-15 2022-10-17 住友重機械工業株式会社 モータ

Also Published As

Publication number Publication date
JP2015082138A (ja) 2015-04-27
US20150112681A1 (en) 2015-04-23
US9466291B2 (en) 2016-10-11

Similar Documents

Publication Publication Date Title
JP6176055B2 (ja) 音声検索装置及び音声検索方法
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US7921014B2 (en) System and method for supporting text-to-speech
KR20080050311A (ko) 음성 처리 장치 및 음성 처리 방법 및 프로그램
JP2008275731A (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP2014232268A (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP2018040982A (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP2016062069A (ja) 音声認識方法、及び音声認識装置
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JPWO2013018294A1 (ja) 音声合成装置および音声合成方法
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
JP6028556B2 (ja) 対話制御方法及び対話制御用コンピュータプログラム
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP2019053233A (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
Feraru et al. Comparative analysis between SROL-Romanian database and Emo-German database
JPWO2011077924A1 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP2003271183A (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
Qader et al. Probabilistic speaker pronunciation adaptation for spontaneous speech synthesis using linguistic features
JP2011180308A (ja) 音声認識装置及び記録媒体
JP6183147B2 (ja) 情報処理装置、プログラム、及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6176055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150