JP2006178648A - 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体 - Google Patents

音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体 Download PDF

Info

Publication number
JP2006178648A
JP2006178648A JP2004369744A JP2004369744A JP2006178648A JP 2006178648 A JP2006178648 A JP 2006178648A JP 2004369744 A JP2004369744 A JP 2004369744A JP 2004369744 A JP2004369744 A JP 2004369744A JP 2006178648 A JP2006178648 A JP 2006178648A
Authority
JP
Japan
Prior art keywords
voice data
keyword
data
predetermined amount
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004369744A
Other languages
English (en)
Inventor
Akira Masuda
彰 増田
Hideharu Fujiyama
英春 藤山
Masafumi Nagai
雅文 永易
Ryuichi Tanaka
竜一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004369744A priority Critical patent/JP2006178648A/ja
Publication of JP2006178648A publication Critical patent/JP2006178648A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】予め記録された音声データから、キーワードを高精度に抽出できるようにする。
【解決手段】音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量Nの音声データを順次取り込む。そして、取り込んだ各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する。そして、この比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する。
【選択図】 図3

Description

本発明は、音声データから所定のキーワードを高精度に抽出するための装置,方法等に関する。
例えば企業等で会議を行う場合には、会議中の各出席者の発言をマイクロフォンを介して記録メディアに記録することによって議事録を音声データとして作成しておき、会議が終了した以降に、関係者等が、その音声データを再生することにより、重要な内容の部分を再度確認したり、討論の概略(各出席者の考え方)を再度確認するということがしばしば行われている。
このように会議の重要部分や概略を再確認する際に、音声データを先頭部分から再生していったのでは、長時間に亘る会議では目的とする部分に到達するまでに時間がかかってしまうので、非効率的である。
そこで、記録された音声データからなんらかのキーワードを抽出することにより、重要な内容の部分や各出席者が自分の考え方を発言した部分等を探し出せるようにすることが望まれる。
従来、この議事録のように予め記録された音声データからキーワードを抽出する方法としては、次の(a)〜(c)のような手順の方法が提案されていた(例えば、特許文献1参照)。
(a)ユーザが検索用キーワードとして入力した音声データを、音声認識処理によってテキストデータ化する。
(b)予め記録された音声データ(キーワード抽出対象の音声データ)の全体を、音声認識処理によってテキストデータ化する。
(c)上記(b)のテキストデータと上記(b)の検索用キーワードのテキストデータとを比較照合してキーワードを抽出する。
特開2002−91493号公報(段落番号0016〜0020、図1〜4)
しかし、この従来の方法は、予め記録された音声データと検索用キーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との2つの工程を経るので、例えばテキストデータ同士の比較照合精度が低かった場合に抽出精度が低下するなどの理由から、あまり抽出精度がよいとはいえない。そして、予め記録された音声データの全体をテキストデータ化しなければならないので、長時間に亘る音声データの場合には処理の負担が大きくなってしまう。
また、上記特許文献に記載の技術では、キーワードを抽出した後、そのキーワードの記録位置から音声データの再生を開始している(段落0023)。そのため、そのキーワードの記録位置の手前が重要な内容の部分や各出席者が自分の考え方を発言した部分であった場合には、それらの部分を確認することができず、それらの部分よりも後の部分(重要な内容や概略とは関係のない部分)しか確認することができない。
また、会議や発表会や講演会等では、一人の発表者が、予めプレゼンテーション用のソフトウェアを用いてファイル(資料である複数の画像ファイルと、各画像ファイルと同期して再生すべき複数の説明用の音声ファイル)を作成しておき、それらのファイルを順次再生してプレゼンテーションを行うことがしばしばある。
そうしたプレゼンテーションでは、説明用の音声ファイルの作成時には、資料のうちのどこが重要な内容であるかを明示せず、プレゼンテーションを行っているとき(ファイルの再生中)に、マイクロフォンを用いて口頭で“ここ重要です”などと補足説明することも少なくない。
そのため、上記特許文献に記載のような方法では、重要な内容の部分で発言しそうな語を検索用キーワードとして用いたとしても、説明用の音声ファイル自体からはそのキーワードを抽出できず、その結果重要な部分を探し出せないことが少なくない。
本発明は、上述の点に鑑み、予め記録された音声データから、キーワードを高精度に抽出できるようにすることを第1の課題としてなされたものである。
さらに、上記第1の課題に加え、ユーザーが、抽出された記録位置の手前の部分を容易に確認できるようにすることを第2の課題としてなされたものである。
さらに、プレゼンテーション用に画像ファイルと同期させた音声ファイルについて、上記第1の課題に加え、音声ファイル内にキーワードを追加できるようにすることを第3の課題としてなされたものである。
上記第1の課題を解決するため、本発明に係る音声データからキーワードの抽出装置は、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、この比較照合手段による比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する抽出手段とを備えたことを特徴とする。
また、本発明に係る音声データからキーワードの抽出方法は、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む第1のステップと、この第1のステップで取り込んだ各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する第2のステップと、この第2のステップでの比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する第3のステップとを有することを特徴とする。
また、本発明に係るプログラムは、コンピュータを、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、この比較照合手段による比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する抽出手段として機能させることを特徴とする。
また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、この比較照合手段による比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データを、キーワードとして抽出する抽出手段として機能させるためのプログラムを記録したことを特徴とする。
これらの発明では、音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量ずつの音声データが順次取り込まれる。そして、取り込まれた各々のこの所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴がそれぞれ比較照合される。
そして、この比較照合の結果この検索用キーワードの音声データと一致していたこの所定量の音声データが、キーワードとして抽出される。
このように、これらの発明では、予め記録された音声データ(キーワード抽出対象の音声データ)から位置をずらしながら順次取り込む所定量ずつの音声データと、検索用キーワードの音声データという音声データ同士の音響的特徴を比較照合した結果によってキーワードを抽出する。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってキーワードを抽出する。
これにより、従来のように予め記録された音声データと検索用キーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との2つの工程を経る場合よりも、高精度にキーワードを抽出することができる(上記第1の課題が解決される)。また、従来のように予め記録された音声データの全体をテキストデータ化する場合と異なり、長時間に亘る音声データの場合にも処理の負担が軽減される。
なお、一例として、この抽出手段でキーワードとして抽出された音声データの位置を示す情報(より具体的には、例えば記録手段に音声データがファイルとして記録されているのであれば、このファイル内での位置を示す情報)を登録する登録手段をさらに備えることが好適である。
それにより、記録手段から音声データを再生するときに、この登録された情報に基いて、キーワードに対応する部分から音声データを再生することができるようになる。
また、一例として、記録手段から、この抽出手段でキーワードとして抽出された音声データの前後の所定範囲の音声データを再生する再生処理手段をさらに備えることが好適である。
それにより、抽出されたキーワードの前後の所定範囲の音声データが自動的に再生されるので、ユーザーが、抽出された記録位置の手前の部分を容易に確認できる(上記第2の課題が解決される)ようになる。
また、記録手段に記録された音声データが、画像ファイルと同期させて順次再生すべき複数の音声ファイルである場合には、一例として、その画像ファイルと同期したそれらの複数の音声ファイルの再生中に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、この取り込み手段で取り込まれた各々のこの所定量の音声データと、所定の追加用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、この比較照合手段による比較照合の結果この追加用キーワードの音声データと一致していたこの入力音声データを、現在再生中の音声ファイル内に追加する追加手段とをさらに備え、取り込み手段は、この追加手段によってこの入力音声データを追加されたこれらの複数の音声ファイルから音声データを取り込むようにすることが好適である。
それにより、画像ファイルと同期した複数の音声ファイルの再生中に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量ずつの音声データが順次取り込まれる。そして、取り込まれた各々のこの所定量の音声データと、所定の追加用キーワードの音声データとの音響的特徴がそれぞれ比較照合される。
そして、この比較照合の結果、この追加用キーワードの音声データと一致していた入力音声データが、現在再生中の音声ファイル内に追加される。
これにより、プレゼンテーション用に画像ファイルと同期させた音声ファイルからキーワードを高精度に抽出する前段階として、その音声ファイル内にキーワードを追加することができる(上記第3の課題が解決される)。
本発明によれば、予め記録された音声データからキーワードを抽出する際に、従来よりも高精度にキーワードを抽出できるとともに、長時間に亘る音声データの場合にも処理の負担が軽減されるという効果が得られる。
また、記録手段から音声データを再生するときに、抽出されたキーワードに対応する部分から音声データを再生することができるという効果が得られる。
また、ユーザーが、抽出された記録位置の手前の部分を容易に確認できるという効果が得られる。
また、プレゼンテーション用に画像ファイルと同期させた音声ファイルからキーワードを高精度に抽出する前段階として、その音声ファイル内にキーワードを追加することができるという効果が得られる。
以下、会議やプレゼンテーションに本発明を適用した例について、図面を用いて具体的に説明する。
まず、会議中の各出席者の発言を記録した音声データ(議事録)から、会議が終了した以降に、関係者等が重要な内容の部分を再度確認するために本発明を適用した実施例を説明する。
図1は、この実施例におけるシステム構成例を示す。会議中に、各出席者A1〜Anの発言を、マイクロフォン1を介して記録装置2(例えば録音・再生可能なCDプレーヤやMDプレーヤ)で記録メディア3(CD−RやMD)に記録することによって議事録を音声データとして作成する。
そして、その記録メディア3に記録された音声データを、パーソナルコンピュータ4でWAVEファイル(データ形式は非圧縮のPCMデータ)に変換してパーソナルコンピュータ4の内蔵ハードディスクに保存する。
パーソナルコンピュータ4には、WAVEファイルからのキーワードの抽出等を行うためのアプリケーションソフトウェア(以下「プログラムA」と呼ぶ)がインストールされている。このプログラムAは、例えばCD−ROM等の記録媒体として提供してもよいし、あるいはWebサイトからダウンロードさせるようにしてもよい。
このプログラムAでは、会議出席者が重要な内容を発言するときに用いそうな複数の語(例えば“課題”,“対策”という語)が検索用キーワードとして予め設定されており、それらの語の音声データからそれぞれ音響分析(スペクトル分析)によって特徴を抽出したデータ(音声モデル)が用意されている。この音響分析は、一般的な音声認識エンジンにおける処理の一過程として行われているのと同じものである。
図2は、これらの音声モデルを用いたプログラムAのキーワード抽出処理を示すフローチャートである。最初に、これらの音声モデルの元となっている語を発話するのに通常必要な時間長である所定の時間長(例えば1秒間)の認識窓を設定する(ステップS1)。
続いて、前述の内蔵ハードディスクに保存されたWAVEファイルのデータ領域の先頭部分から、この認識窓分の量の連続する音声データを取り込む(ステップS2)。
図3(a)は、このステップS2での音声データの取り込みの様子を概念的に示す図である。WAVEファイルのデータ領域内の音声データ(議事録)の先頭部分に認識窓Wが設けられて、時間長N分の連続する音声データが取り込まれている。
図2に示すように、ステップS2に続いて、その取り込んだ音声データから音響分析(前述のように音声認識エンジンで行われている音響分析)によって特徴を抽出する(ステップS3)。そして、抽出した特徴を各検索用キーワードの音声モデルと比較照合して(ステップS4)、いずれかの検索用キーワードの音声データと一致しているか否かを判断する(ステップS5)。
イエスであれば、その取り込んだ音声データを、キーワードとして抽出する(ステップS6)。そして、そのキーワードとして抽出した音声データのWAVEファイル内での位置(何サンプリング目から何サンプリング目までの音声データであるかというアドレス)を示す情報を登録する(ステップS7)。そしてステップS8に進む。他方、ステップS5でノーであった場合には、そのままステップS8に進む。
ステップS8では、認識窓がWAVEファイルのデータ領域の末尾の音声データまで取り込みを終えたか否かを判断する。ノーであれば、直前に取り込みを行ったときよりも所定の時間長(認識窓よりも短い時間長であり、例えば0.2秒間)分だけ取込み位置をデータ領域の末尾寄りにずらして、認識窓分の量の音声データを取り込む(ステップS9)。そして、ステップS3に戻ってステップS3以下を繰り返す。ステップS8でイエスになると、処理を終了する。
図3(b)〜(d)は、このステップS9の繰返しによる音声データの取り込みの様子を概念的に示す図である。図3(a)に示したようにWAVEファイルのデータ領域内の音声データの先頭部分から時間長N分の連続する音声データが取り込まれた後、認識窓Wの位置を時間長P(時間長Nよりも短い時間長)分ずつずらしながら、データ領域の末尾に到達するまで、時間長N分ずつの連続する音声データが順次取り込まれる。
また、図4は、この図2のキーワード抽出処理によるキーワードの抽出結果の例を概念的に示す図である。WAVEファイルのデータ領域の音声データのうち、或る位置の時間長N分の連続する音声データD1が“課題”という語として抽出されており、別の位置の時間長N分の連続する音声データD2が“対策”という語として抽出されている。
このように、このプログラムAでは、予め記録された音声データから位置をずらしながら順次取り込む所定量(認識窓分)ずつの音声データと、検索用キーワードの音声データという音声データ同士の音響的特徴を比較照合した結果により、会議出席者が重要な内容を発言するときに用いそうな語をキーワードとして抽出する。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってこれらの語をキーワードとして抽出する。
これにより、従来のように予め記録された音声データと検索用キーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との2つの工程を経る場合よりも、これらのキーワードを高精度に抽出することができる。また、従来のように予め記録された音声データの全体をテキストデータ化する場合と異なり、長時間に亘る会議を記録した音声データの場合にも処理の負担が軽減される。
図示は省略するが、このプログラムAでは、図2のキーワード抽出処理を終了した後、ユーザーの操作に基き、WAVEファイル再生用のGUI画面を表示する。このGUI画面には、抽出した各キーワード及びWAVEファイル内でのそれらのキーワードの位置(図2のステップS7で登録した情報による位置)が示されるとともに、それらのキーワードのうちの所望のキーワードをユーザーが選択するための釦が設けられる。
そして、その釦の操作に応じて、選択されたキーワードの位置からWAVEファイルの再生を開始して、パーソナルコンピュータ4の内蔵スピーカ(またはパーソナルコンピュータ4に接続された外部のスピーカ)から音声出力させる。
これにより、会議出席者が重要な内容を発言するときに用いそうな語(“課題”,“対策”という語)の部分からWAVEファイル(議事録)が自動的に再生されるので、会議が終了した以降に、会議の重要な内容の部分を短時間で効率的に再確認することができる。
次に、会議中の各出席者の発言を記録した音声データ(議事録)から、会議が終了した以降に、関係者等が討論の概略(各出席者の考え方)を再度確認するために本発明を適用した実施例を説明する。この実施例におけるシステム構成は、〔実施例1〕において図1に示したものと同じであってよいので重複説明を省略する。
この実施例においても、パーソナルコンピュータ4には、WAVEファイルからのキーワードの抽出等を行うためのアプリケーションソフトウェア(以下「プログラムB」と呼ぶ)がインストールされている。このプログラムBも、CD−ROM等の記録媒体として提供したり、あるいはWebサイトからダウンロードさせる。
このプログラムBでは、会議出席者が自分の考え方を発言するときに用いそうな複数の語(例えば“と思う”,“と考える”,“と思っている”,“と考えている”,“と予想する”という語)が検索用キーワードとして予め設定されており、それらの語の音声データからそれぞれ音響分析(音声認識エンジンで行われている音響分析)によって特徴を抽出した音声モデルが用意されている。
図5は、これらの音声モデルを用いたプログラムBのキーワード抽出・再生処理を示すフローチャートである。この処理のうち、ステップS11〜S16,S18,S19は、〔実施例1〕において図2に示した処理のステップS1〜S6,S8,S9と全く同じなので重複説明を省略する。
この処理では、取り込んだ音声データをキーワードとして抽出する(ステップS16)と、続いて、そのキーワードとして抽出した音声データの前後の所定時間分の範囲の音声データ(例えば、前後10秒間ずつ、合計20秒間分の音声データ)を、WAVEファイルから再生する(ステップS17)。そしてステップS18に進む。
図6は、この図5の処理によるキーワードの抽出結果及び音声データの再生範囲の例を概念的に示す図である。WAVEファイルのデータ領域の音声データのうち、或る位置の時間長N分の連続する音声データD3が“と思う”という語として抽出されており、その前後10秒間ずつの音声データが再生される。また、別の位置の時間長N分の連続する音声データD4が“と考える”という語として抽出されており、その前後10秒間ずつの音声データが再生される。したがって、“と思う”,“と考える”と発話した直前の発言内容(すなわち発言者の考え方)も再生される。
このプログラムBでも、〔実施例1〕におけるプログラムAと同様に、予め記録された音声データから位置をずらしながら順次取り込む所定量(認識窓分)ずつの音声データと、検索用キーワードの音声データという音声データ同士の音響的特徴を比較照合した結果により、会議出席者が自分の考え方を発言するときに用いそうな語をキーワードとして抽出する。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってこれらの語をキーワードとして抽出する。
これにより、これらのキーワードを高精度に抽出することができるとともに、長時間に亘る会議を記録した音声データの場合にも処理の負担が軽減される。
そして、会議出席者が自分の考え方を発言するときに用いそうな語(“と思う”,“と考える”,“と思っている”,“と考えている”,“と予想する”という語)の手前の音声データからWAVEファイル(議事録)が自動的に再生されるので、会議の終了後に、討論の概略(各出席者の考え方)を短時間で効率的に再確認することができる。
次に、一人の発表者が、プレゼンテーション用のソフトウェアを用いて作成したファイルを再生してプレゼンテーションを行い、そのプレゼンテーションが終了した以降に、聴取者等が重要な内容の部分を再度確認するために本発明を適用した実施例を説明する。
図7は、この実施例におけるシステム構成例を示す。一人の発表者Aが、予め、プレゼンテーション用のソフトウェア(例えばパワーポイント)を用いてファイル(資料である複数の画像ファイルと、各画像ファイルと同期して再生すべき複数の説明用のWAVEファイル)を作成して、書換え可能な記録メディア10(例えばCD−RWやDVD−RAM)に保存する。そして、会議室や発表会場や講演会場等で、そこに配置されているパーソナルコンピュータ11でその記録メディア10からファイルを順次再生し、プロジェクタ12に画像を表示させるとともにスピーカ13で音声を出力させてプレゼンテーションを行う。
また、発表者Aは、このプレゼンテーションを行っているとき(ファイルの再生中)に、マイクロフォン14を用いて口頭で補足説明を行う。このマイクロフォン14からの入力音声データは、スピーカ15に送られるとともに、パーソナルコンピュータ11にも送られる。
パーソナルコンピュータ11には、WAVEファイルからのキーワードの抽出等を行うためのアプリケーションソフトウェア(以下「プログラムC」と呼ぶ)がインストールされている。このプログラムCも、CD−ROM等の記録媒体として提供したり、あるいはWebサイトからダウンロードさせる。なお、このプログラムCは、発表者Aから事前に許可を得て(プレゼンテーション終了後に記録メディア10を譲り受けることも条件として)実行する。
このプログラムCの処理には、キーワード抽出処理以外に、その前段階としてのキーワード追加処理が存在する。キーワード追加処理は、プレゼンテーション用のソフトウェアによる記録メディア10内のファイルの再生開始と同時に開始される処理である。
プログラムCでは、このキーワード追加処理で用いるキーワードとして。資料の重要な部分で発表者が口頭で補足しそうな複数の語(例えば“ここ重要”,“ここポイント”という語)が追加用キーワードとして予め設定されており、それらの語の音声データからそれぞれ音響分析(音声認識エンジンで行われている音響分析)によって特徴を抽出した音声モデルが用意されている。
なお、プログラムCにおけるキーワード抽出処理は、検索用キーワードが上記追加用キーワードと一致している点を除き、〔実施例1〕において図2に示したキーワード抽出処理と全く同様であるので、重複説明を省略する。
図8は、追加用キーワードの音声モデルを用いたキーワード追加処理を示すフローチャートである。最初に、これらの音声モデルの元となっている語を発話するのに通常必要な時間長である所定の時間長(例えば1秒間)の認識窓を設定する(ステップS21)。
そして、マイクロフォン14(図7)からパーソナルコンピュータ11内のサウンドボードを介して入力される音声データをリングバッファ(RAM内に確保した、認識窓分の音声データよりも十分に大きい容量のもの)に順次蓄積し、そのリングバッファの先頭の記録位置から、最初に蓄積されたこの認識窓分の量の連続する音声データを取り込む(ステップS22)。
図9(a)は、このステップS22での音声データの取り込みの様子を概念的に示す図である。リングバッファ21の先頭の記録位置に認識窓W’が設けられ、最初に蓄積された時間長N’分の連続する音声データ(すなわち、WAVEファイルの再生開始直後の図7のマイクロフォン14からの時間長N’分の入力音声データ)が取り込まれている。
図8に示すように、ステップS22に続いて、その取り込んだ音声データから音響分析(音声認識エンジンで行われている音響分析)によって特徴を抽出する(ステップS23)。そして、抽出した特徴を各追加用キーワードの音声モデルと比較照合して(ステップS24)、いずれかの追加用キーワードの音声データと一致しているか否かを判断する(ステップS25)。
イエスであれば、その取り込んだ音声データを、キーワードとして抽出する(ステップS26)。そして、その取り込んだ音声データを、現在再生中のWAVEファイル内のデータ領域内の、現在再生中の音声データの直前の位置に追加するように、記録メディア10内のWAVEファイルを加工・編集する(ステップS27)。そして、追加した音声データとファイルとの対応表を作成して(ステップS28)、ステップS29に進む。他方、ステップS25でノーであった場合には、そのままステップS29に進む。
ステップS29では、記録メディア10内の全てのWAVEファイルの再生が終了したか否かを判断する。ノーであれば、直前に取り込みを行ったときよりも所定の時間長(認識窓よりも短い時間長)分だけ取込み位置を後方の記録位置にずらして、リングバッファから認識窓分の量の音声データを取り込む(ステップS30)。そして、ステップS23に戻ってステップS23以下を繰り返す。ステップS29でイエスになると、処理を終了する。
図9(b),(c)は、このステップS29の繰返しによる音声データの取り込みの様子を概念的に示す図である。図9(a)に示したように最初に蓄積された時間長N’分の連続する音声データが取り込まれた後、認識窓W’の位置を時間長P’(時間長N’よりも短い時間長)分ずつリングバッファ21内の後方の記録位置にずらしながら、全てのWAVEファイルの再生が終了するまで、時間長N’分ずつの連続する音声データ((すなわち図7のマイクロフォン14からの時間長N’分ずつの入力音声データ)が順次取り込まれる。
なお、この時間長P’を図8のステップS23〜S28の処理に要する時間よりも長く設定しておけば、マイクロフォン14(図7)からの入力音声データを途切れなくリングバッファに蓄積させることができるので、プレゼンテーション中にリアルタイムにこのキーワード追加処理を行うことができる。
図10は、この図8のキーワード追加処理によるキーワードの追加結果の例を概念的に示す図である。資料であるファイル名S1〜Snの画像ファイルと同期して再生すべきファイル名WAV1〜WAVnのWAVEファイルのうち、WAV2の再生中に発表者Aが口頭で“ここ重要”と補足説明したことにより、WAV2内のデータ領域内の、現在再生中の音声データの直前の位置に、“ここ重要”という音声データが追加される。また、WAV4の再生中に発表者Aが口頭で“ここポイント”と補足説明したことにより、WAV4内のデータ領域内の、現在再生中の音声データの直前の位置に、“ここポイント”という音声データが追加される。
また、図11は、キーワード追加処理のステップ28で作成されるファイル対応表を、図10と関連させて例示する図である。資料欄には、資料である画像ファイルのファイル名S1〜Snが登録される。説明音声欄には、各画像ファイルと同期して再生すべき説明音声のWAVEファイルのファイル名WAV1〜WAVnが登録される。
INDEX欄は、キーワードを追加したWAVEファイルにインデックスを付けるための欄であり、図10に示したようにWAV2,WAV4にそれぞれキーワードを追加したので、説明音声欄のWAV2,WAV4に対応して、それぞれWAV2−1,WAV4−1というインデックスが付けられている。なお、1つのWAVEファイル内に複数のキーワードを追加した場合には、例えばWAV2−2,WAV2−3というようにサフィックスをインクリメントして、複数のインデックスが付けられる。
備考欄は、インデックスを作成したことを記述するための欄であり、説明音声欄のWAV2,WAV4に対応して、それぞれ「WAV2−1作成」,「WAV4−1作成」という文字が登録される。
このように、このプログラムCでは、プレゼンテーションを行っているとき(資料である画像ファイルと同期した複数のWAVEファイルの再生中)に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量(認識窓分)ずつの音声データが順次取り込まれる。そして、取り込まれた各々のこの所定量の音声データと、追加用キーワード(資料の重要な部分で発表者が口頭で補足しそうな語)の音声データとの音響的特徴がそれぞれ比較照合される。
そして、この比較照合の結果この追加用キーワードの音声データと一致していた入力音声データが、現在再生中のWAVEファイル内に追加される。
これにより、プレゼンテーション用に画像ファイルと同期させたWAVEファイルからキーワード抽出処理によってキーワードを高精度に抽出する前段階として、そのWAVEファイル内にキーワードを追加することができる。
このようにしてキーワードを追加した記録メディア10内の各WAVEファイルに対して、プレゼンテーションが終了した以降にキーワード抽出処理を実行すれば、WAVEファイルの作成時には資料のうちのどこが重要な内容であるかを明示していない場合でも、資料の重要な部分に対応する語をキーワードとして高精度に抽出することができるとともに、長時間に亘るプレゼンテーション用のWAVEファイルの場合にも処理の負担が軽減される。
図示は省略するが、このプログラムCでは、キーワード抽出処理を終了した後、ユーザーの操作に基き、ファイル再生用のGUI画面を表示する。このGUI画面には、図11に例示したファイル対応表が表示されるとともに、そのファイル対応表でWAWEファイルに付されているインデックスのうちの所望のインデックスをユーザーが選択するための釦が設けられる。
そして、その釦の操作に応じて、選択されたインデックスに対応するキーワードの追加位置から記録メディア10内のWAVEファイルの再生を開始してパーソナルコンピュータ11の内蔵スピーカ(またはパーソナルコンピュータ11に接続された外部のスピーカ)から音声出力させるとともに、そのWAVEファイルと同期して再生すべき記録メディア10内の画像ファイルの再生を開始してパーソナルコンピュータ11に画面表示させる。
これにより、資料のうちの重要な内容を説明するときに用いそうな語(“ここ重要”,“ここポイント”という語)の部分から資料(画像ファイル)及び説明用のWAVEファイルが自動的に再生されるので、プレゼンテーションが終了した以降に、資料のうちの重要な内容の部分を短時間で効率的に再確認することができる。
図12は、図10及び図11に示したキーワード追加結果及びファイル対応表に関連付けて、このGUI画面による自動再生の様子を例示する図である。ユーザーがインデックスWAV2−1を選択すると、ファイル名WAV2のWAVEファイルが、発表者Aが口頭で“ここ重要”と補足説明した部分から再生されるとともに、ファイル名S2の画像ファイルがそれと同期して再生される。また、ユーザーがインデックスWAV4−1を選択すると、ファイル名WAV4のWAVEファイルが、発表者Aが口頭で“ここポイント”と補足説明した部分から再生されるとともに、ファイル名S4の画像ファイルがそれと同期して再生される。
なお、以上の各実施例では、検索用キーワードや追加用キーワードとして予め所定の語がプログラムで設定されている(それらの所定の語についての音声モデルのみが用意されている)ものとして説明を行った。しかし、別の例として、ユーザーが任意の語をキーワードとしてキー入力または音声入力するためのGUI画面を表示し、そのGUI画面上で入力された語をキーワードとして設定して、その語についての音声モデルを自動的に生成するようにしてもよい。
それにより、抽出できるキーワードの自由度が広がるので、会議やプレゼンテーションが終了した以降に、所望の部分を短時間で効率的に再確認することができるようになる。
また、以上の各実施例では、認識窓の時間長(図3のNや図9のN’)も予めプログラムで設定されているものとして説明を行った。しかし、別の例として、ユーザーがこの時間長を任意に選択するGUI画面を表示し、そのGUI画面上で選択された時間長の認識窓を設定するようにしてもよい。
それにより、抽出しようとするキーワードの文字数の長さ等に応じて認識窓の時間長を変化させることができるので、より一層高精度にキーワードを抽出できるようになる。
また、以上の〔実施例1〕,〔実施例2〕では、議事録として記録された音声データをWAVEファイルに変換し、そのWAVEファイルに対してキーワード抽出処理を行っている。しかし、別の例として、議事録として記録された音声データに対し、WAVEファイルに変換することなくそのままキーワード抽出処理を行うようにしてもよい。その場合には、図2のキーワード抽出処理のステップS7では、例えば、キーワードとして抽出した音声データの記録メディア(CD−RやMD)内での位置を示す情報を登録するようにすればよい。
また、以上の〔実施例3〕では、キーワード抽出処理における検索用キーワードを、キーワード追加処理におけるが追加用キーワードと一致させている。しかし、別の例として、キーワード抽出処理における検索用キーワードの一部として、キーワード追加処理における追加用キーワードを含めるようにしてもよい。その場合には、キーワード抽出処理終了後のファイル再生用のGUI画面では、追加用キーワードとは異なる検索用キーワードに関しては、〔実施例1〕におけるのと同じく、抽出した各キーワード及びWAVEファイル内でのそれらのキーワードの位置を示すとともに、それらのキーワードのうちの所望のキーワードをユーザーが選択するための釦を設けるようにすればよい。
また、以上の各実施例ではキーワード抽出等を行うためのプログラム(プログラムA,B,C)をパーソナルコンピュータに実行させているが、別の例として、こうしたキーワード抽出等を行う専用の装置を設けるようにしてもよい。
また、以上の各実施例では、会議の議事録としての音声データや、プレゼンテーション用のWAVEファイルに本発明を適用している。しかし、これに限らず、本発明は、キーワードの抽出対象となり得るあらゆる内容の音声データやWAVEファイルに適用してよい。
実施例1のシステム構成例を示す図である。 実施例1のキーワード抽出処理を示すフローチャートである図である。 図2の処理での音声データの取り込みの様子を概念的に示す図である。 図2の処理でのキーワードの抽出結果を例示する図である。 実施例2のキーワード抽出・再生処理を示すフローチャートである図である。 図5の処理によるキーワードの抽出結果及び音声データの再生範囲を例示する図である。 実施例3のシステム構成例を示す図である。 実施例3のキーワード追加処理を示すフローチャートである図である。 図8の処理での音声データの取り込みの様子を概念的に示す図である。 図8の処理によるキーワードの追加結果を例示する図である。 図8の処理で作成されるファイル対応表を例示する図である。 実施例3のファイル再生の様子を例示する図である。
符号の説明
1 マイクロフォン、 2 記録装置、 3 記録メディア、 4 パーソナルコンピュータ、 10 記録メディア、 11 パーソナルコンピュータ、 12 プロジェクター、 13 スピーカ、 14 マイクロフォン、 15 スピーカ

Claims (8)

  1. 音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、
    前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、
    前記比較照合手段による比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する抽出手段と
    を備えたことを特徴とする音声データからのキーワードの抽出装置。
  2. 請求項1に記載の音声データからのキーワードの抽出装置において、
    前記抽出手段でキーワードとして抽出された音声データの位置を示す情報を登録する登録手段
    をさらに備えたことを特徴とする音声データからのキーワードの抽出装置。
  3. 請求項2に記載の音声データからのキーワードの抽出装置において、
    前記記録手段に音声データがファイルとして記録されており、
    前記登録手段は、前記ファイル内での位置を示す情報を登録することを特徴とする音声データからのキーワードの抽出装置。
  4. 請求項1に記載の音声データからのキーワードの抽出装置において、
    前記記録手段から、前記抽出手段でキーワードとして抽出された音声データの前後の所定範囲の音声データを再生する再生処理手段
    をさらに備えたことを特徴とする音声データからのキーワードの抽出装置。
  5. 請求項1に記載の音声データからのキーワードの抽出装置において、
    前記記録手段に記録された音声データは、画像ファイルと同期させて順次再生すべき複数の音声ファイルであり、
    前記画像ファイルと同期した前記複数の音声ファイル再生中に、マイクロフォンの入力音声データから、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、
    前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の追加用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と、
    前記比較照合手段による比較照合の結果前記追加用キーワードの音声データと一致していた前記入力音声データを、現在再生中の前記音声ファイル内に追加する追加手段と
    をさらに備え、
    前記取り込み手段は、前記追加手段によって前記入力音声データを追加された前記複数の音声ファイルから音声データを取り込むことを特徴とする音声データからのキーワードの抽出装置。
  6. 音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む第1のステップと、
    前記第1のステップで取り込んだ各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する第2のステップと、
    前記第2のステップでの比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する第3のステップと
    を有することを特徴とする音声データからのキーワードの抽出方法。
  7. コンピュータを、
    音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、
    前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、
    前記比較照合手段による比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する抽出手段、
    として機能させるためのプログラム。
  8. コンピュータを、
    音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段、
    前記取り込み手段で取り込まれた各々の前記所定量の音声データと、所定の検索用キーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段、
    前記比較照合手段による比較照合の結果前記検索用キーワードの音声データと一致していた前記所定量の音声データを、キーワードとして抽出する抽出手段、
    として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004369744A 2004-12-21 2004-12-21 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体 Pending JP2006178648A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004369744A JP2006178648A (ja) 2004-12-21 2004-12-21 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004369744A JP2006178648A (ja) 2004-12-21 2004-12-21 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2006178648A true JP2006178648A (ja) 2006-07-06

Family

ID=36732718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004369744A Pending JP2006178648A (ja) 2004-12-21 2004-12-21 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2006178648A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900231A (zh) * 2014-03-05 2015-09-09 卡西欧计算机株式会社 语音检索装置以及语音检索方法
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900231A (zh) * 2014-03-05 2015-09-09 卡西欧计算机株式会社 语音检索装置以及语音检索方法
JP2015169699A (ja) * 2014-03-05 2015-09-28 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN104900231B (zh) * 2014-03-05 2018-12-28 卡西欧计算机株式会社 语音检索装置以及语音检索方法
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム

Similar Documents

Publication Publication Date Title
US11699456B2 (en) Automated transcript generation from multi-channel audio
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
JP4175390B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US9153233B2 (en) Voice-controlled selection of media files utilizing phonetic data
US7848493B2 (en) System and method for capturing media
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
TW201327546A (zh) 語音處理系統及語音處理方法
WO2007132690A1 (ja) 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JP2007534235A (ja) ユーザに対する特定の感情的影響を有するコンテンツアイテムを生成する方法
JP2013534650A (ja) 音声チャネル上での会話における音声品質の修正
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
WO2019114015A1 (zh) 一种机器人的演奏控制方法及机器人
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
JP2006330170A (ja) 記録文書作成支援システム
JP3437617B2 (ja) 時系列データ記録再生装置
JP3896760B2 (ja) 対話記録編集装置、方法及び記憶媒体
US20080167879A1 (en) Speech delimiting processing system and method
JP2006208483A (ja) 聴取者の関心事項の調査を支援する装置,方法,プログラム及び記録媒体
JP2006178648A (ja) 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP3927155B2 (ja) 対話記録装置および対話記録プログラム
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법