JP2006178648A

JP2006178648A - 音声データからのキーワード抽出のための装置，方法，プログラム及び記録媒体

Info

Publication number: JP2006178648A
Application number: JP2004369744A
Authority: JP
Inventors: Akira Masuda; 彰増田; Hideharu Fujiyama; 英春藤山; Masafumi Nagai; 雅文永易; Ryuichi Tanaka; 竜一田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-12-21
Filing date: 2004-12-21
Publication date: 2006-07-06

Abstract

【課題】予め記録された音声データから、キーワードを高精度に抽出できるようにする。
【解決手段】音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量Ｎの音声データを順次取り込む。そして、取り込んだ各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する。そして、この比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する。
【選択図】図３

Description

本発明は、音声データから所定のキーワードを高精度に抽出するための装置，方法等に関する。

例えば企業等で会議を行う場合には、会議中の各出席者の発言をマイクロフォンを介して記録メディアに記録することによって議事録を音声データとして作成しておき、会議が終了した以降に、関係者等が、その音声データを再生することにより、重要な内容の部分を再度確認したり、討論の概略（各出席者の考え方）を再度確認するということがしばしば行われている。

このように会議の重要部分や概略を再確認する際に、音声データを先頭部分から再生していったのでは、長時間に亘る会議では目的とする部分に到達するまでに時間がかかってしまうので、非効率的である。

そこで、記録された音声データからなんらかのキーワードを抽出することにより、重要な内容の部分や各出席者が自分の考え方を発言した部分等を探し出せるようにすることが望まれる。

従来、この議事録のように予め記録された音声データからキーワードを抽出する方法としては、次の（ａ）〜（ｃ）のような手順の方法が提案されていた（例えば、特許文献１参照）。

（ａ）ユーザが検索用キーワードとして入力した音声データを、音声認識処理によってテキストデータ化する。
（ｂ）予め記録された音声データ（キーワード抽出対象の音声データ）の全体を、音声認識処理によってテキストデータ化する。
（ｃ）上記（ｂ）のテキストデータと上記（ｂ）の検索用キーワードのテキストデータとを比較照合してキーワードを抽出する。
特開２００２−９１４９３号公報（段落番号００１６〜００２０、図１〜４）

しかし、この従来の方法は、予め記録された音声データと検索用キーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との２つの工程を経るので、例えばテキストデータ同士の比較照合精度が低かった場合に抽出精度が低下するなどの理由から、あまり抽出精度がよいとはいえない。そして、予め記録された音声データの全体をテキストデータ化しなければならないので、長時間に亘る音声データの場合には処理の負担が大きくなってしまう。

また、上記特許文献に記載の技術では、キーワードを抽出した後、そのキーワードの記録位置から音声データの再生を開始している（段落００２３）。そのため、そのキーワードの記録位置の手前が重要な内容の部分や各出席者が自分の考え方を発言した部分であった場合には、それらの部分を確認することができず、それらの部分よりも後の部分（重要な内容や概略とは関係のない部分）しか確認することができない。

また、会議や発表会や講演会等では、一人の発表者が、予めプレゼンテーション用のソフトウェアを用いてファイル（資料である複数の画像ファイルと、各画像ファイルと同期して再生すべき複数の説明用の音声ファイル）を作成しておき、それらのファイルを順次再生してプレゼンテーションを行うことがしばしばある。

そうしたプレゼンテーションでは、説明用の音声ファイルの作成時には、資料のうちのどこが重要な内容であるかを明示せず、プレゼンテーションを行っているとき（ファイルの再生中）に、マイクロフォンを用いて口頭で“ここ重要です”などと補足説明することも少なくない。

そのため、上記特許文献に記載のような方法では、重要な内容の部分で発言しそうな語を検索用キーワードとして用いたとしても、説明用の音声ファイル自体からはそのキーワードを抽出できず、その結果重要な部分を探し出せないことが少なくない。

本発明は、上述の点に鑑み、予め記録された音声データから、キーワードを高精度に抽出できるようにすることを第１の課題としてなされたものである。

さらに、上記第１の課題に加え、ユーザーが、抽出された記録位置の手前の部分を容易に確認できるようにすることを第２の課題としてなされたものである。

さらに、プレゼンテーション用に画像ファイルと同期させた音声ファイルについて、上記第１の課題に加え、音声ファイル内にキーワードを追加できるようにすることを第３の課題としてなされたものである。

上記第１の課題を解決するため、本発明に係る音声データからキーワードの抽出装置は、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、この比較照合手段による比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する抽出手段とを備えたことを特徴とする。

また、本発明に係る音声データからキーワードの抽出方法は、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む第１のステップと、この第１のステップで取り込んだ各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する第２のステップと、この第２のステップでの比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する第３のステップとを有することを特徴とする。

また、本発明に係るプログラムは、コンピュータを、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、この比較照合手段による比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する抽出手段として機能させることを特徴とする。

また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、この比較照合手段による比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する抽出手段として機能させるためのプログラムを記録したことを特徴とする。

これらの発明では、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量ずつの音声データが順次取り込まれる。そして、取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴がそれぞれ比較照合される。

そして、この比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データが、キーワードとして抽出される。

このように、これらの発明では、予め記録された音声データ（キーワード抽出対象の音声データ）から位置をずらしながら順次取り込む所定量ずつの音声データと、検索用キーワードの音声データという音声データ同士の音響的特徴を比較照合した結果によってキーワードを抽出する。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってキーワードを抽出する。

これにより、従来のように予め記録された音声データと検索用キーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との２つの工程を経る場合よりも、高精度にキーワードを抽出することができる（上記第１の課題が解決される）。また、従来のように予め記録された音声データの全体をテキストデータ化する場合と異なり、長時間に亘る音声データの場合にも処理の負担が軽減される。

なお、一例として、この抽出手段でキーワードとして抽出された音声データの位置を示す情報（より具体的には、例えば記録手段に音声データがファイルとして記録されているのであれば、このファイル内での位置を示す情報）を登録する登録手段をさらに備えることが好適である。

それにより、記録手段から音声データを再生するときに、この登録された情報に基いて、キーワードに対応する部分から音声データを再生することができるようになる。

また、一例として、記録手段から、この抽出手段でキーワードとして抽出された音声データの前後の所定範囲の音声データを再生する再生処理手段をさらに備えることが好適である。

それにより、抽出されたキーワードの前後の所定範囲の音声データが自動的に再生されるので、ユーザーが、抽出された記録位置の手前の部分を容易に確認できる（上記第２の課題が解決される）ようになる。

また、記録手段に記録された音声データが、画像ファイルと同期させて順次再生すべき複数の音声ファイルである場合には、一例として、その画像ファイルと同期したそれらの複数の音声ファイルの再生中に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の追加用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、この比較照合手段による比較照合の結果この追加用キーワードの音声データと一致していたこの入力音声データを、現在再生中の音声ファイル内に追加する追加手段とをさらに備え、取り込み手段は、この追加手段によってこの入力音声データを追加されたこれらの複数の音声ファイルから音声データを取り込むようにすることが好適である。

それにより、画像ファイルと同期した複数の音声ファイルの再生中に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量ずつの音声データが順次取り込まれる。そして、取り込まれた各々のこの所定量の音声データと、所定の追加用キーワードの音声データとの音響的特徴がそれぞれ比較照合される。

そして、この比較照合の結果、この追加用キーワードの音声データと一致していた入力音声データが、現在再生中の音声ファイル内に追加される。

これにより、プレゼンテーション用に画像ファイルと同期させた音声ファイルからキーワードを高精度に抽出する前段階として、その音声ファイル内にキーワードを追加することができる（上記第３の課題が解決される）。

本発明によれば、予め記録された音声データからキーワードを抽出する際に、従来よりも高精度にキーワードを抽出できるとともに、長時間に亘る音声データの場合にも処理の負担が軽減されるという効果が得られる。

また、記録手段から音声データを再生するときに、抽出されたキーワードに対応する部分から音声データを再生することができるという効果が得られる。

また、ユーザーが、抽出された記録位置の手前の部分を容易に確認できるという効果が得られる。

また、プレゼンテーション用に画像ファイルと同期させた音声ファイルからキーワードを高精度に抽出する前段階として、その音声ファイル内にキーワードを追加することができるという効果が得られる。

以下、会議やプレゼンテーションに本発明を適用した例について、図面を用いて具体的に説明する。

まず、会議中の各出席者の発言を記録した音声データ（議事録）から、会議が終了した以降に、関係者等が重要な内容の部分を再度確認するために本発明を適用した実施例を説明する。

図１は、この実施例におけるシステム構成例を示す。会議中に、各出席者Ａ１〜Ａｎの発言を、マイクロフォン１を介して記録装置２（例えば録音・再生可能なＣＤプレーヤやＭＤプレーヤ）で記録メディア３（ＣＤ−ＲやＭＤ）に記録することによって議事録を音声データとして作成する。

そして、その記録メディア３に記録された音声データを、パーソナルコンピュータ４でＷＡＶＥファイル（データ形式は非圧縮のＰＣＭデータ）に変換してパーソナルコンピュータ４の内蔵ハードディスクに保存する。

パーソナルコンピュータ４には、ＷＡＶＥファイルからのキーワードの抽出等を行うためのアプリケーションソフトウェア（以下「プログラムＡ」と呼ぶ）がインストールされている。このプログラムＡは、例えばＣＤ−ＲＯＭ等の記録媒体として提供してもよいし、あるいはＷｅｂサイトからダウンロードさせるようにしてもよい。

このプログラムＡでは、会議出席者が重要な内容を発言するときに用いそうな複数の語（例えば“課題”，“対策”という語）が検索用キーワードとして予め設定されており、それらの語の音声データからそれぞれ音響分析（スペクトル分析）によって特徴を抽出したデータ（音声モデル）が用意されている。この音響分析は、一般的な音声認識エンジンにおける処理の一過程として行われているのと同じものである。

図２は、これらの音声モデルを用いたプログラムＡのキーワード抽出処理を示すフローチャートである。最初に、これらの音声モデルの元となっている語を発話するのに通常必要な時間長である所定の時間長（例えば１秒間）の認識窓を設定する（ステップＳ１）。

続いて、前述の内蔵ハードディスクに保存されたＷＡＶＥファイルのデータ領域の先頭部分から、この認識窓分の量の連続する音声データを取り込む（ステップＳ２）。

図３（ａ）は、このステップＳ２での音声データの取り込みの様子を概念的に示す図である。ＷＡＶＥファイルのデータ領域内の音声データ（議事録）の先頭部分に認識窓Ｗが設けられて、時間長Ｎ分の連続する音声データが取り込まれている。

図２に示すように、ステップＳ２に続いて、その取り込んだ音声データから音響分析（前述のように音声認識エンジンで行われている音響分析）によって特徴を抽出する（ステップＳ３）。そして、抽出した特徴を各検索用キーワードの音声モデルと比較照合して（ステップＳ４）、いずれかの検索用キーワードの音声データと一致しているか否かを判断する（ステップＳ５）。

イエスであれば、その取り込んだ音声データを、キーワードとして抽出する（ステップＳ６）。そして、そのキーワードとして抽出した音声データのＷＡＶＥファイル内での位置（何サンプリング目から何サンプリング目までの音声データであるかというアドレス）を示す情報を登録する（ステップＳ７）。そしてステップＳ８に進む。他方、ステップＳ５でノーであった場合には、そのままステップＳ８に進む。

ステップＳ８では、認識窓がＷＡＶＥファイルのデータ領域の末尾の音声データまで取り込みを終えたか否かを判断する。ノーであれば、直前に取り込みを行ったときよりも所定の時間長（認識窓よりも短い時間長であり、例えば０．２秒間）分だけ取込み位置をデータ領域の末尾寄りにずらして、認識窓分の量の音声データを取り込む（ステップＳ９）。そして、ステップＳ３に戻ってステップＳ３以下を繰り返す。ステップＳ８でイエスになると、処理を終了する。

図３（ｂ）〜（ｄ）は、このステップＳ９の繰返しによる音声データの取り込みの様子を概念的に示す図である。図３（ａ）に示したようにＷＡＶＥファイルのデータ領域内の音声データの先頭部分から時間長Ｎ分の連続する音声データが取り込まれた後、認識窓Ｗの位置を時間長Ｐ（時間長Ｎよりも短い時間長）分ずつずらしながら、データ領域の末尾に到達するまで、時間長Ｎ分ずつの連続する音声データが順次取り込まれる。

また、図４は、この図２のキーワード抽出処理によるキーワードの抽出結果の例を概念的に示す図である。ＷＡＶＥファイルのデータ領域の音声データのうち、或る位置の時間長Ｎ分の連続する音声データＤ１が“課題”という語として抽出されており、別の位置の時間長Ｎ分の連続する音声データＤ２が“対策”という語として抽出されている。

このように、このプログラムＡでは、予め記録された音声データから位置をずらしながら順次取り込む所定量（認識窓分）ずつの音声データと、検索用キーワードの音声データという音声データ同士の音響的特徴を比較照合した結果により、会議出席者が重要な内容を発言するときに用いそうな語をキーワードとして抽出する。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってこれらの語をキーワードとして抽出する。

これにより、従来のように予め記録された音声データと検索用キーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との２つの工程を経る場合よりも、これらのキーワードを高精度に抽出することができる。また、従来のように予め記録された音声データの全体をテキストデータ化する場合と異なり、長時間に亘る会議を記録した音声データの場合にも処理の負担が軽減される。

図示は省略するが、このプログラムＡでは、図２のキーワード抽出処理を終了した後、ユーザーの操作に基き、ＷＡＶＥファイル再生用のＧＵＩ画面を表示する。このＧＵＩ画面には、抽出した各キーワード及びＷＡＶＥファイル内でのそれらのキーワードの位置（図２のステップＳ７で登録した情報による位置）が示されるとともに、それらのキーワードのうちの所望のキーワードをユーザーが選択するための釦が設けられる。

そして、その釦の操作に応じて、選択されたキーワードの位置からＷＡＶＥファイルの再生を開始して、パーソナルコンピュータ４の内蔵スピーカ（またはパーソナルコンピュータ４に接続された外部のスピーカ）から音声出力させる。

これにより、会議出席者が重要な内容を発言するときに用いそうな語（“課題”，“対策”という語）の部分からＷＡＶＥファイル（議事録）が自動的に再生されるので、会議が終了した以降に、会議の重要な内容の部分を短時間で効率的に再確認することができる。

次に、会議中の各出席者の発言を記録した音声データ（議事録）から、会議が終了した以降に、関係者等が討論の概略（各出席者の考え方）を再度確認するために本発明を適用した実施例を説明する。この実施例におけるシステム構成は、〔実施例１〕において図１に示したものと同じであってよいので重複説明を省略する。

この実施例においても、パーソナルコンピュータ４には、ＷＡＶＥファイルからのキーワードの抽出等を行うためのアプリケーションソフトウェア（以下「プログラムＢ」と呼ぶ）がインストールされている。このプログラムＢも、ＣＤ−ＲＯＭ等の記録媒体として提供したり、あるいはＷｅｂサイトからダウンロードさせる。

このプログラムＢでは、会議出席者が自分の考え方を発言するときに用いそうな複数の語（例えば“と思う”，“と考える”，“と思っている”，“と考えている”，“と予想する”という語）が検索用キーワードとして予め設定されており、それらの語の音声データからそれぞれ音響分析（音声認識エンジンで行われている音響分析）によって特徴を抽出した音声モデルが用意されている。

図５は、これらの音声モデルを用いたプログラムＢのキーワード抽出・再生処理を示すフローチャートである。この処理のうち、ステップＳ１１〜Ｓ１６，Ｓ１８，Ｓ１９は、〔実施例１〕において図２に示した処理のステップＳ１〜Ｓ６，Ｓ８，Ｓ９と全く同じなので重複説明を省略する。

この処理では、取り込んだ音声データをキーワードとして抽出する（ステップＳ１６）と、続いて、そのキーワードとして抽出した音声データの前後の所定時間分の範囲の音声データ（例えば、前後１０秒間ずつ、合計２０秒間分の音声データ）を、ＷＡＶＥファイルから再生する（ステップＳ１７）。そしてステップＳ１８に進む。

図６は、この図５の処理によるキーワードの抽出結果及び音声データの再生範囲の例を概念的に示す図である。ＷＡＶＥファイルのデータ領域の音声データのうち、或る位置の時間長Ｎ分の連続する音声データＤ３が“と思う”という語として抽出されており、その前後１０秒間ずつの音声データが再生される。また、別の位置の時間長Ｎ分の連続する音声データＤ４が“と考える”という語として抽出されており、その前後１０秒間ずつの音声データが再生される。したがって、“と思う”，“と考える”と発話した直前の発言内容（すなわち発言者の考え方）も再生される。

このプログラムＢでも、〔実施例１〕におけるプログラムＡと同様に、予め記録された音声データから位置をずらしながら順次取り込む所定量（認識窓分）ずつの音声データと、検索用キーワードの音声データという音声データ同士の音響的特徴を比較照合した結果により、会議出席者が自分の考え方を発言するときに用いそうな語をキーワードとして抽出する。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってこれらの語をキーワードとして抽出する。

これにより、これらのキーワードを高精度に抽出することができるとともに、長時間に亘る会議を記録した音声データの場合にも処理の負担が軽減される。

そして、会議出席者が自分の考え方を発言するときに用いそうな語（“と思う”，“と考える”，“と思っている”，“と考えている”，“と予想する”という語）の手前の音声データからＷＡＶＥファイル（議事録）が自動的に再生されるので、会議の終了後に、討論の概略（各出席者の考え方）を短時間で効率的に再確認することができる。

次に、一人の発表者が、プレゼンテーション用のソフトウェアを用いて作成したファイルを再生してプレゼンテーションを行い、そのプレゼンテーションが終了した以降に、聴取者等が重要な内容の部分を再度確認するために本発明を適用した実施例を説明する。

図７は、この実施例におけるシステム構成例を示す。一人の発表者Ａが、予め、プレゼンテーション用のソフトウェア（例えばパワーポイント）を用いてファイル（資料である複数の画像ファイルと、各画像ファイルと同期して再生すべき複数の説明用のＷＡＶＥファイル）を作成して、書換え可能な記録メディア１０（例えばＣＤ−ＲＷやＤＶＤ−ＲＡＭ）に保存する。そして、会議室や発表会場や講演会場等で、そこに配置されているパーソナルコンピュータ１１でその記録メディア１０からファイルを順次再生し、プロジェクタ１２に画像を表示させるとともにスピーカ１３で音声を出力させてプレゼンテーションを行う。

また、発表者Ａは、このプレゼンテーションを行っているとき（ファイルの再生中）に、マイクロフォン１４を用いて口頭で補足説明を行う。このマイクロフォン１４からの入力音声データは、スピーカ１５に送られるとともに、パーソナルコンピュータ１１にも送られる。

パーソナルコンピュータ１１には、ＷＡＶＥファイルからのキーワードの抽出等を行うためのアプリケーションソフトウェア（以下「プログラムＣ」と呼ぶ）がインストールされている。このプログラムＣも、ＣＤ−ＲＯＭ等の記録媒体として提供したり、あるいはＷｅｂサイトからダウンロードさせる。なお、このプログラムＣは、発表者Ａから事前に許可を得て（プレゼンテーション終了後に記録メディア１０を譲り受けることも条件として）実行する。

このプログラムＣの処理には、キーワード抽出処理以外に、その前段階としてのキーワード追加処理が存在する。キーワード追加処理は、プレゼンテーション用のソフトウェアによる記録メディア１０内のファイルの再生開始と同時に開始される処理である。

プログラムＣでは、このキーワード追加処理で用いるキーワードとして。資料の重要な部分で発表者が口頭で補足しそうな複数の語（例えば“ここ重要”，“ここポイント”という語）が追加用キーワードとして予め設定されており、それらの語の音声データからそれぞれ音響分析（音声認識エンジンで行われている音響分析）によって特徴を抽出した音声モデルが用意されている。

なお、プログラムＣにおけるキーワード抽出処理は、検索用キーワードが上記追加用キーワードと一致している点を除き、〔実施例１〕において図２に示したキーワード抽出処理と全く同様であるので、重複説明を省略する。

図８は、追加用キーワードの音声モデルを用いたキーワード追加処理を示すフローチャートである。最初に、これらの音声モデルの元となっている語を発話するのに通常必要な時間長である所定の時間長（例えば１秒間）の認識窓を設定する（ステップＳ２１）。

そして、マイクロフォン１４（図７）からパーソナルコンピュータ１１内のサウンドボードを介して入力される音声データをリングバッファ（ＲＡＭ内に確保した、認識窓分の音声データよりも十分に大きい容量のもの）に順次蓄積し、そのリングバッファの先頭の記録位置から、最初に蓄積されたこの認識窓分の量の連続する音声データを取り込む（ステップＳ２２）。

図９（ａ）は、このステップＳ２２での音声データの取り込みの様子を概念的に示す図である。リングバッファ２１の先頭の記録位置に認識窓Ｗ’が設けられ、最初に蓄積された時間長Ｎ’分の連続する音声データ（すなわち、ＷＡＶＥファイルの再生開始直後の図７のマイクロフォン１４からの時間長Ｎ’分の入力音声データ）が取り込まれている。

図８に示すように、ステップＳ２２に続いて、その取り込んだ音声データから音響分析（音声認識エンジンで行われている音響分析）によって特徴を抽出する（ステップＳ２３）。そして、抽出した特徴を各追加用キーワードの音声モデルと比較照合して（ステップＳ２４）、いずれかの追加用キーワードの音声データと一致しているか否かを判断する（ステップＳ２５）。

イエスであれば、その取り込んだ音声データを、キーワードとして抽出する（ステップＳ２６）。そして、その取り込んだ音声データを、現在再生中のＷＡＶＥファイル内のデータ領域内の、現在再生中の音声データの直前の位置に追加するように、記録メディア１０内のＷＡＶＥファイルを加工・編集する（ステップＳ２７）。そして、追加した音声データとファイルとの対応表を作成して（ステップＳ２８）、ステップＳ２９に進む。他方、ステップＳ２５でノーであった場合には、そのままステップＳ２９に進む。

ステップＳ２９では、記録メディア１０内の全てのＷＡＶＥファイルの再生が終了したか否かを判断する。ノーであれば、直前に取り込みを行ったときよりも所定の時間長（認識窓よりも短い時間長）分だけ取込み位置を後方の記録位置にずらして、リングバッファから認識窓分の量の音声データを取り込む（ステップＳ３０）。そして、ステップＳ２３に戻ってステップＳ２３以下を繰り返す。ステップＳ２９でイエスになると、処理を終了する。

図９（ｂ），（ｃ）は、このステップＳ２９の繰返しによる音声データの取り込みの様子を概念的に示す図である。図９（ａ）に示したように最初に蓄積された時間長Ｎ’分の連続する音声データが取り込まれた後、認識窓Ｗ’の位置を時間長Ｐ’（時間長Ｎ’よりも短い時間長）分ずつリングバッファ２１内の後方の記録位置にずらしながら、全てのＷＡＶＥファイルの再生が終了するまで、時間長Ｎ’分ずつの連続する音声データ（（すなわち図７のマイクロフォン１４からの時間長Ｎ’分ずつの入力音声データ）が順次取り込まれる。

なお、この時間長Ｐ’を図８のステップＳ２３〜Ｓ２８の処理に要する時間よりも長く設定しておけば、マイクロフォン１４（図７）からの入力音声データを途切れなくリングバッファに蓄積させることができるので、プレゼンテーション中にリアルタイムにこのキーワード追加処理を行うことができる。

図１０は、この図８のキーワード追加処理によるキーワードの追加結果の例を概念的に示す図である。資料であるファイル名Ｓ１〜Ｓｎの画像ファイルと同期して再生すべきファイル名ＷＡＶ１〜ＷＡＶｎのＷＡＶＥファイルのうち、ＷＡＶ２の再生中に発表者Ａが口頭で“ここ重要”と補足説明したことにより、ＷＡＶ２内のデータ領域内の、現在再生中の音声データの直前の位置に、“ここ重要”という音声データが追加される。また、ＷＡＶ４の再生中に発表者Ａが口頭で“ここポイント”と補足説明したことにより、ＷＡＶ４内のデータ領域内の、現在再生中の音声データの直前の位置に、“ここポイント”という音声データが追加される。

また、図１１は、キーワード追加処理のステップ２８で作成されるファイル対応表を、図１０と関連させて例示する図である。資料欄には、資料である画像ファイルのファイル名Ｓ１〜Ｓｎが登録される。説明音声欄には、各画像ファイルと同期して再生すべき説明音声のＷＡＶＥファイルのファイル名ＷＡＶ１〜ＷＡＶｎが登録される。

ＩＮＤＥＸ欄は、キーワードを追加したＷＡＶＥファイルにインデックスを付けるための欄であり、図１０に示したようにＷＡＶ２，ＷＡＶ４にそれぞれキーワードを追加したので、説明音声欄のＷＡＶ２，ＷＡＶ４に対応して、それぞれＷＡＶ２−１，ＷＡＶ４−１というインデックスが付けられている。なお、１つのＷＡＶＥファイル内に複数のキーワードを追加した場合には、例えばＷＡＶ２−２，ＷＡＶ２−３というようにサフィックスをインクリメントして、複数のインデックスが付けられる。

備考欄は、インデックスを作成したことを記述するための欄であり、説明音声欄のＷＡＶ２，ＷＡＶ４に対応して、それぞれ「ＷＡＶ２−１作成」，「ＷＡＶ４−１作成」という文字が登録される。

このように、このプログラムＣでは、プレゼンテーションを行っているとき（資料である画像ファイルと同期した複数のＷＡＶＥファイルの再生中）に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量（認識窓分）ずつの音声データが順次取り込まれる。そして、取り込まれた各々のこの所定量の音声データと、追加用キーワード（資料の重要な部分で発表者が口頭で補足しそうな語）の音声データとの音響的特徴がそれぞれ比較照合される。

そして、この比較照合の結果この追加用キーワードの音声データと一致していた入力音声データが、現在再生中のＷＡＶＥファイル内に追加される。

これにより、プレゼンテーション用に画像ファイルと同期させたＷＡＶＥファイルからキーワード抽出処理によってキーワードを高精度に抽出する前段階として、そのＷＡＶＥファイル内にキーワードを追加することができる。

このようにしてキーワードを追加した記録メディア１０内の各ＷＡＶＥファイルに対して、プレゼンテーションが終了した以降にキーワード抽出処理を実行すれば、ＷＡＶＥファイルの作成時には資料のうちのどこが重要な内容であるかを明示していない場合でも、資料の重要な部分に対応する語をキーワードとして高精度に抽出することができるとともに、長時間に亘るプレゼンテーション用のＷＡＶＥファイルの場合にも処理の負担が軽減される。

図示は省略するが、このプログラムＣでは、キーワード抽出処理を終了した後、ユーザーの操作に基き、ファイル再生用のＧＵＩ画面を表示する。このＧＵＩ画面には、図１１に例示したファイル対応表が表示されるとともに、そのファイル対応表でＷＡＷＥファイルに付されているインデックスのうちの所望のインデックスをユーザーが選択するための釦が設けられる。

そして、その釦の操作に応じて、選択されたインデックスに対応するキーワードの追加位置から記録メディア１０内のＷＡＶＥファイルの再生を開始してパーソナルコンピュータ１１の内蔵スピーカ（またはパーソナルコンピュータ１１に接続された外部のスピーカ）から音声出力させるとともに、そのＷＡＶＥファイルと同期して再生すべき記録メディア１０内の画像ファイルの再生を開始してパーソナルコンピュータ１１に画面表示させる。

これにより、資料のうちの重要な内容を説明するときに用いそうな語（“ここ重要”，“ここポイント”という語）の部分から資料（画像ファイル）及び説明用のＷＡＶＥファイルが自動的に再生されるので、プレゼンテーションが終了した以降に、資料のうちの重要な内容の部分を短時間で効率的に再確認することができる。

図１２は、図１０及び図１１に示したキーワード追加結果及びファイル対応表に関連付けて、このＧＵＩ画面による自動再生の様子を例示する図である。ユーザーがインデックスＷＡＶ２−１を選択すると、ファイル名ＷＡＶ２のＷＡＶＥファイルが、発表者Ａが口頭で“ここ重要”と補足説明した部分から再生されるとともに、ファイル名Ｓ２の画像ファイルがそれと同期して再生される。また、ユーザーがインデックスＷＡＶ４−１を選択すると、ファイル名ＷＡＶ４のＷＡＶＥファイルが、発表者Ａが口頭で“ここポイント”と補足説明した部分から再生されるとともに、ファイル名Ｓ４の画像ファイルがそれと同期して再生される。

なお、以上の各実施例では、検索用キーワードや追加用キーワードとして予め所定の語がプログラムで設定されている（それらの所定の語についての音声モデルのみが用意されている）ものとして説明を行った。しかし、別の例として、ユーザーが任意の語をキーワードとしてキー入力または音声入力するためのＧＵＩ画面を表示し、そのＧＵＩ画面上で入力された語をキーワードとして設定して、その語についての音声モデルを自動的に生成するようにしてもよい。

それにより、抽出できるキーワードの自由度が広がるので、会議やプレゼンテーションが終了した以降に、所望の部分を短時間で効率的に再確認することができるようになる。

また、以上の各実施例では、認識窓の時間長（図３のＮや図９のＮ’）も予めプログラムで設定されているものとして説明を行った。しかし、別の例として、ユーザーがこの時間長を任意に選択するＧＵＩ画面を表示し、そのＧＵＩ画面上で選択された時間長の認識窓を設定するようにしてもよい。

それにより、抽出しようとするキーワードの文字数の長さ等に応じて認識窓の時間長を変化させることができるので、より一層高精度にキーワードを抽出できるようになる。

また、以上の〔実施例１〕，〔実施例２〕では、議事録として記録された音声データをＷＡＶＥファイルに変換し、そのＷＡＶＥファイルに対してキーワード抽出処理を行っている。しかし、別の例として、議事録として記録された音声データに対し、ＷＡＶＥファイルに変換することなくそのままキーワード抽出処理を行うようにしてもよい。その場合には、図２のキーワード抽出処理のステップＳ７では、例えば、キーワードとして抽出した音声データの記録メディア（ＣＤ−ＲやＭＤ）内での位置を示す情報を登録するようにすればよい。

また、以上の〔実施例３〕では、キーワード抽出処理における検索用キーワードを、キーワード追加処理におけるが追加用キーワードと一致させている。しかし、別の例として、キーワード抽出処理における検索用キーワードの一部として、キーワード追加処理における追加用キーワードを含めるようにしてもよい。その場合には、キーワード抽出処理終了後のファイル再生用のＧＵＩ画面では、追加用キーワードとは異なる検索用キーワードに関しては、〔実施例１〕におけるのと同じく、抽出した各キーワード及びＷＡＶＥファイル内でのそれらのキーワードの位置を示すとともに、それらのキーワードのうちの所望のキーワードをユーザーが選択するための釦を設けるようにすればよい。

また、以上の各実施例ではキーワード抽出等を行うためのプログラム（プログラムＡ，Ｂ，Ｃ）をパーソナルコンピュータに実行させているが、別の例として、こうしたキーワード抽出等を行う専用の装置を設けるようにしてもよい。

また、以上の各実施例では、会議の議事録としての音声データや、プレゼンテーション用のＷＡＶＥファイルに本発明を適用している。しかし、これに限らず、本発明は、キーワードの抽出対象となり得るあらゆる内容の音声データやＷＡＶＥファイルに適用してよい。

実施例１のシステム構成例を示す図である。実施例１のキーワード抽出処理を示すフローチャートである図である。図２の処理での音声データの取り込みの様子を概念的に示す図である。図２の処理でのキーワードの抽出結果を例示する図である。実施例２のキーワード抽出・再生処理を示すフローチャートである図である。図５の処理によるキーワードの抽出結果及び音声データの再生範囲を例示する図である。実施例３のシステム構成例を示す図である。実施例３のキーワード追加処理を示すフローチャートである図である。図８の処理での音声データの取り込みの様子を概念的に示す図である。図８の処理によるキーワードの追加結果を例示する図である。図８の処理で作成されるファイル対応表を例示する図である。実施例３のファイル再生の様子を例示する図である。

符号の説明

１マイクロフォン、２記録装置、３記録メディア、４パーソナルコンピュータ、１０記録メディア、１１パーソナルコンピュータ、１２プロジェクター、１３スピーカ、１４マイクロフォン、１５スピーカ

Claims

音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、
前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、
前記比較照合手段による比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する抽出手段と
を備えたことを特徴とする音声データからのキーワードの抽出装置。
請求項１に記載の音声データからのキーワードの抽出装置において、
前記抽出手段でキーワードとして抽出された音声データの位置を示す情報を登録する登録手段
をさらに備えたことを特徴とする音声データからのキーワードの抽出装置。
請求項２に記載の音声データからのキーワードの抽出装置において、
前記記録手段に音声データがファイルとして記録されており、
前記登録手段は、前記ファイル内での位置を示す情報を登録することを特徴とする音声データからのキーワードの抽出装置。
請求項１に記載の音声データからのキーワードの抽出装置において、
前記記録手段から、前記抽出手段でキーワードとして抽出された音声データの前後の所定範囲の音声データを再生する再生処理手段
をさらに備えたことを特徴とする音声データからのキーワードの抽出装置。
請求項１に記載の音声データからのキーワードの抽出装置において、
前記記録手段に記録された音声データは、画像ファイルと同期させて順次再生すべき複数の音声ファイルであり、
前記画像ファイルと同期した前記複数の音声ファイル再生中に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、
前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の追加用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、
前記比較照合手段による比較照合の結果前記追加用キーワードの音声データと一致していた前記入力音声データを、現在再生中の前記音声ファイル内に追加する追加手段と
をさらに備え、
前記取り込み手段は、前記追加手段によって前記入力音声データを追加された前記複数の音声ファイルから音声データを取り込むことを特徴とする音声データからのキーワードの抽出装置。
音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む第１のステップと、
前記第１のステップで取り込んだ各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する第２のステップと、
前記第２のステップでの比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する第３のステップと
を有することを特徴とする音声データからのキーワードの抽出方法。
コンピュータを、
音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、
前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、
前記比較照合手段による比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する抽出手段、
として機能させるためのプログラム。
コンピュータを、
音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、
前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、
前記比較照合手段による比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する抽出手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。