JP3903738B2 - 情報記録・検索装置、方法、プログラム、および記録媒体 - Google Patents

情報記録・検索装置、方法、プログラム、および記録媒体 Download PDF

Info

Publication number
JP3903738B2
JP3903738B2 JP2001153472A JP2001153472A JP3903738B2 JP 3903738 B2 JP3903738 B2 JP 3903738B2 JP 2001153472 A JP2001153472 A JP 2001153472A JP 2001153472 A JP2001153472 A JP 2001153472A JP 3903738 B2 JP3903738 B2 JP 3903738B2
Authority
JP
Japan
Prior art keywords
search
speech recognition
data
information recording
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001153472A
Other languages
English (en)
Other versions
JP2002351893A (ja
Inventor
聡 中澤
研治 佐藤
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001153472A priority Critical patent/JP3903738B2/ja
Publication of JP2002351893A publication Critical patent/JP2002351893A/ja
Application granted granted Critical
Publication of JP3903738B2 publication Critical patent/JP3903738B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、映像データや音声データのようなマルチメディアデータを記録し、必要に応じて検索する装置、方法および記録媒体に係り、特に、複数の音声認識パラメータを用いて、検索用インデックスを多重に作成して検索に利用する情報記録・検索装置、方法、プログラム、および記録媒体に関する。
【0002】
【従来の技術】
TV放送のニュース番組や、大学等での講義の映像記録、会議の映像記録などのマルチメディアデータをデータベースに記録し、検索可能とするには、各データから検索用の何らかのインデックスを作成する必要がある。
【0003】
従来は、こうしたデータに対して、タイトル、日付、出演者、講演者などの情報を人手で付与し、インデックスとする手法が取られてきた。ただし、例えば講義の映像記録などにおいて、ある内容が講義全体のどの部分で話されたかなどを検索するためには、検索したい項目がどのデータに含まれているかという情報だけでなく、どのデータの何分何秒目にあるというマーカ情報もインデックスとして必要となる。こうしたマーカ情報も人手で作成することができるが、それには多くの労力を要する。
【0004】
例えば、特開2000−78530号公報には、音声認識技術を用いて、こうしたマーカ情報も自動的に作成する技術が開示されている。特開2000−78530号公報の技術においては、映像/音声データに含まれているキーワードを音声認識することにより、元の映像/音声データに関連づけされたインデックスが作成され、検索時に利用される(第1の従来技術)。
【0005】
インデックス作成とは関係なく、単に音声認識率を高めるための技術としては、例えば、特開昭61−70594号公報に示すようなものがある。特開昭61−70594号公報に記載の技術では、話者の性別、年齢等の各種特性に応じた音声認識用の標準パターンを用意しておき、最初に、話者に認識率の高い特定語を発話してもらうことによって、その話者がどの標準パターンに適しているか選択し、以後の発話は選択された標準パターンのみを用いて音声認識を行う(第2の従来技術)。
【0006】
【発明が解決しようとする課題】
前述のように、マルチメディアデータに対して、データの内容に関わる検索まで行う場合には、検索目的を表すキーワード等が、どのデータのどの部分に使われている、といった詳細なインデックスが必要になる。
【0007】
しかしながら、上記第1の従来技術には以下に掲げる問題点があった。まず第1の問題点は、映像データ等に付随している音声データ、あるいは音声データそのものから、音声認識を用いてインデックスを作成する場合、人間の労力は大きく削減されるが、代わりに音声認識による認識誤りの問題を考慮しなければならないということである。そして第2の問題点は、音声認識誤りから、あるキーワードが使われているマルチメディアデータとそのキーワード出現時間を検索したときに、そのキーワードが全く使用されていないデータが出力されたり、本来目的とするキーワードが含まれているにも拘わらず検索されないといった問題点もあった。
【0008】
一方、マルチメディアデータは通常その制作現場で同時にデータベースに記録されるとは限らず、ニュース放送や公演の様子等を一旦ビデオテープなどに記録し、後にデータベースに保存することが一般的である。しかしながら、上記第2の従来技術には、マルチメディアデータを記録し、検索用のインデックスを作成する際に、各データ中で発声している話者を呼んできて、認識率の高い特定語を発話してもらうことは現実的ではないという問題点があった。
【0009】
本発明は斯かる問題点を鑑みてなされたものであり、その目的とするところは、マルチメディアデータを記録し、検索用のインデックスを作成する際に、複数の音声認識用パラメータを用いて音声認識を行うことで、マルチメディアデータを自動的に記録し、精度の良い検索を可能とする情報記録・検索装置、方法、プログラム、および記録媒体を提供する点にある。
【0010】
本発明の他の目的は、事前に音声認識率の高い音声認識パラメータを選択するのではなく、検索時に複数の音声認識パラメータから得られた多重インデックスに関する情報を優先度付けに利用することで、効率の良い検索を可能とする情報記録・検索装置、方法、プログラム、および記録媒体を提供することである。
【0011】
【課題を解決するための手段】
この発明の請求項1に記載の発明の要旨は、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識部と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索部とを備えた情報記録・検索装置であって、 検索を行う際に、検索条件を充足するために使用された複数の異なる音声認識処理の前記条件の数の多寡に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け装置を備えたことを特徴とする情報記録・検索装置に存する。
また、この発明の請求項2に記載の発明の要旨は、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識部と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索部とを備えた情報記録・検索装置であって、検索を行う際に、検索対象となる各データに付随している情報、または、各データの画像解析結果に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け装置を備えたことを特徴とする情報記録・検索装置に存する。
また、この発明の請求項3に記載の発明の要旨は、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識ステップと、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索ステップとを備えた情報記録・検索方法であって、検索を行う際に、検索条件を充足するために使用された複数の異なる音声認識処理の前記条件の数の多寡に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付けステップを備えたことを特徴とする情報記録・検索方法に存する。
また、この発明の請求項4に記載の発明の要旨は、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識ステップと、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索ステップとを備えた報記録・検索方法であって、検索を行う際に、検索対象となる各データに付随している情報、または、各データの画像解析結果に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付けステップを備えたことを特徴とする情報記録・検索方法に存する。
また、この発明の請求項5に記載の発明の要旨は、コンピュータを、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識手段と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索手段として機能させる情報記録・検索プログラムであって、検索を行う際に、検索条件を充足するために使用された複数の異なる音声認識処理の前記条件の数の多寡に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け手段として、前記コンピュータをさらに機能させることを特徴とする情報記録・検索プログラムに存する。
また、この発明の請求項6に記載の発明の要旨は、コンピュータを、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識手段と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索手段として機能させる情報記録・検索プログラムであって、検索を行う際に、検索対象となる各データに付随している情報、または、各データの画像解析結果に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け手段として、前記コンピュータを機能させることを特徴とする情報記録・検索プログラムに存する。
【0012】
【発明の実施の形態】
この出願の第1の発明は、マルチメディアデータを記録する際のデータの入り口となるマルチメディアデータ入力装置と、入力されたマルチメディアデータから検索用のインデックスを作成し、データベースに記録する制御を行うデータ記録装置と、入力されたマルチメディアデータを実際に蓄積するマルチメディアデータベースと、作成されたインデックスを記録する多重インデックス記録部と、検索の際に利用者の検索要求を入力する検索要求入力装置と、検索要求に従ってデータベースにアクセスし必要なデータと可能ならばデータ中の要求に該当する部分を検索するデータ検索装置と、検索結果を利用者に提示する検索結果出力装置を有する。
【0013】
上記データ記録装置は、入力されたマルチメディアデータから音声認識をかける音声データを抽出する音声データ抽出部と、抽出された音声データに対して複数の音声認識パラメータを用いて多重に音声認識を実行する多重音声認識部と、多重に実行する音声認識のパラメータを記憶する音声認識パラメータ記憶部と、多重に実行された音声認識結果をパラメータ毎に元のデータと同期をとってインデックスを作成するデータ・インデックス同期処理部とを有する。
【0014】
上記データ検索装置は、入力された検索要求を実際のデータベースに与える検索要求文に変換する検索要求整形装置と、検索要求文からマルチメディアデータベースおよび多重インデックス記録部をアクセスして、該当するデータを取得するデータベース多重検索部とを有する。
【0015】
このような構成を採用し、インデックス作成時には多重に音声認識をかけ、検索時にはそれに応じた検索を行うことにより、本発明のマルチメディアデータを記録し、検索用のインデックスを作成する際に、複数の音声認識用パラメータを用いて音声認識を行うことで、マルチメディアデータを自動的に記録し、精度の良い検索を可能とするという目的を達成できる。
【0016】
この出願の第2の発明は、上記第1の発明の構成に加えて、出演者等の付随情報や、画像情報などから、各データに適した音声認識パラメータを優先度付けし、検索結果の優先度を再計算する音声認識パラメータ優先度付け装置(後述する図7の8)を有する。このような構成を採用し、優先度付けした検索結果を利用者に提示することで、本発明の事前に音声認識率の高い音声認識パラメータを選択するのではなく、検索時に複数の音声認識パラメータから得られた多重インデックスに関する情報を優先度付けに利用することで、効率の良い検索を可能とするような目的を達成することができる。以下、本発明の各種実施の形態を図面に基づいて詳細に説明する。
【0017】
(第1の実施の形態)
以下、本発明の第1の実施の形態を図面に基づいて詳細に説明する。図1は本発明の第1の実施の形態に係る情報記録・検索装置の構成を示すブロック図である。図1において、1はマルチメディアデータ入力装置、2はデータ記録装置、3はマルチメディアデータベース、4は多重インデックス記録部、5は検索要求入力装置、6はデータ検索装置、7は検索結果出力装置、21は音声データ抽出部、22は多重音声認識部、23はデータ・インデックス同期処理部、24は音声認識パラメータ記憶部、61は検索要求整形装置、62はデータベース多重検索部を示している。
【0018】
図1を参照すると、本発明の第1の実施の形態に係る情報記録・検索装置は、ビデオテープや音楽テープ、あるいはデジタル情報として記録されたMPEGファイル等のマルチメディアデータを受け付けるマルチメディアデータ入力装置1と、プログラム制御により動作するデータ記録装置2と、入力されたマルチメディアデータを蓄積するマルチメディアデータベース3と、蓄積されたデータに対応するインデックスを記録する多重インデックス記録部4と、キーボードやネットワーク上から利用者の検索要求を受け付ける検索要求入力装置5と、プログラム制御によりデータベースにアクセスし検索要求に該当するデータを検索するデータ検索装置6と、ディスプレイやネットワークで接続された他の情報検索装置などに検索結果を出力する検索結果出力装置7とからなる。
【0019】
データ記録装置2は、音声データ抽出部21と、多重音声認識部22と、データ・インデックス同期処理部23と、音声認識パラメータ記憶部24とを備えている。
【0020】
音声データ抽出部21では、マルチメディアデータ入力装置1に入力されたマルチメディアデータ毎に合わせたフィルタ処理を行うことにより、多重音声認識部22で施される音声認識処理が可能となるよう音声データを抽出・整形する。
【0021】
多重音声認識部22では、音声データ抽出部21で抽出された音声データに対して、音声認識パラメータ記憶部24で記憶されている音声認識パラメータの数だけ、音声認識処理を実行する。音声認識処理は音声認識パラメータ数だけ繰り返し行っても良いし、認識エンジンを複数個用意し一度に並列に行っても良い。得られた認識結果はどのパラメータを用いたものか分かるようラベル付けする。また各認識結果がデータの先頭を基準にしてどの時点で得られたものなのかという時間情報もラベル付けする。
【0022】
データ・インデックス同期処理部23では、多重音声認識部22で得られた認識結果に対して、形態素解析等の検索インデックスに適した前処理をかけた後、元のマルチメディアデータ名、マルチメディアデータに最初から付随してきた日付などの情報、認識された語句、その語句が認識された時間情報を組にして、使用された音声認識パラメータ毎にまとめ、あとの検索時に利用できるような多重の検索インデックスとする。
【0023】
音声認識パラメータ記憶部24では、多重音声認識部22で実行される音声認識の音声認識パラメータを記憶する。ここでいう音声認識パラメータには、老若男女毎に調整された音響モデル、特定の訛りに合わせて調整された音響モデル、特定の話者毎に調整された話者モデル、さらには認識対象とする音声の特定の分野への偏りに合わせて調整された言語モデルなど、一般の音声認識手法で利用される様々なパラメータが含まれる。また音声認識手法自体も特定のものに固定されている必要がなく、複数の相異なる認識手法を用いて良い。そうした手法自体の違いも含めて、本発明では音声認識パラメータと表現する。
【0024】
マルチメディアデータベース3と多重インデックス記録部4は、マルチメディアデータ入力装置1で入力されたマルチメディアデータを蓄積するデータベースである。蓄積する1つのデータに対するインデックスを音声認識パラメータ毎に多重に持つ点が通常のデータベースと異なるが、それ以外は、一般のマルチメディアデータベースシステムと変わらない。インデックスに含まれている各項目に対して条件付き検索が可能である。データベース自体に関する技術は、本発明の対象とするところではないので、これ以上の詳細な説明は行わない。
【0025】
また、データ検索装置6は、検索要求整形装置61と、データベース多重検索部62とを備えている。
【0026】
検索要求整形装置61は、検索要求入力装置5に入力された検索要求を、マルチメディアデータベース3および多重インデックス記録部4で使用しているデータベースシステムに合わせて整形・変換する。
【0027】
データベース多重検索部62は、得られた検索要求に従ってデータベースにアクセスし、検索結果を検索結果出力装置7に渡す。データベースへのアクセス法自体は、マルチメディアデータベース3および多重インデックス記録部4で使用しているデータベースシステムに合わせた通常の手法である。ただし、検索に用いるインデックスの音声認識パラメータを、まず1つずつ固定して検索を行い、次いでインデックスの音声認識パラメータを考慮せずに検索を行う。
【0028】
例えば、検索要求として「検索キーワードw1,w2,w3が全て10分以上の間をおかずに出現しているデータが欲しい」が与えられたとする。またこのとき、音声認識パラメータ記憶部24に記憶されている音声認識パラメータはP1〜P6の6通りであったとする。データベース多重検索部62は、まず多重インデックス記録部4に記録されているインデックスのうち、音声認識パラメータがP1のもののみを対象として検索を行う。次いで、音声認識パラメータがP2のもののみを対象として検索を行う。さらに、音声認識パラメータがP3のもののみを対象として検索を行う。こうして、音声認識パラメータを固定した検索をパラメータの種類の数である6回実行する。次に音声認識パラメータに関わらず全てのインデックスを用いて検索を実行する。この結果、「データD1:検索キーワードw1,w2,w3ともに音声認識パラメータP3の認識結果として出現」「データD2:検索キーワードw1,w2は音声認識パラメータP3の認識結果として、検索キーワードw3は音声認識パラメータP6の認識結果として出現」「データD3:検索キーワードw1は音声認識パラメータP3、検索キーワードw2は音声認識パラメータP5、検索キーワードw3は音声認識パラメータP6の認識結果として出現」のような3つのデータが検索結果で得られたとき、全て同一の音声認識パラメータであるデータD1を最優先に、次いで2つの異なる音声認識パラメータを用いたデータD2を、最後に3つの異なる音声認識パラメータを用いて検索要求を満たしたデータD3を、という順序で重み付けする。実際に検索結果出力装置7に渡される検索結果の順序は、用いた音声認識パラメータの数の他に、使用しているデータベースシステムが出力する重み付けに依る。複数の重み付けをどのように調整するかは、本発明の目的・用途に応じる。また、ここでは説明の都合上、多重の検索を1回ずつ順番に実行するように記したが、これらの検索順序には依存性がなく、どのような順序で検索しても、全ての検索処理を並列して行ってもかまわない。
【0029】
なお、本実施の形態では、データ記録装置2、マルチメディアデータベース3、多重インデックス記録部4、データ検索装置6は、各部の機能を制御するプログラムとして、CD−ROMやフロッピーディスクなどの機械読み取り可能な記録媒体93に格納して提供され、計算機等に読み込まれて実行されるものとしても良い。その場合の構成を図2に示す。
【0030】
図2は本発明の第1の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)を、機械読み取り可能な記録媒体93に格納して提供され、計算機等に読み込まれて実行されるものとして示すブロック図である。図2において、9はコンピュータ、91は処理装置、92はメモリ、93は記録媒体、94は外部記憶装置を示している。
【0031】
記録媒体93からコンピュータ9に読み込まれたプログラムにより、処理装置91、メモリ92、外部記憶装置94が、データ記録装置2、マルチメディアデータベース3、多重インデックス記録部4、データ検索装置6として機能する。ただし、メモリ92の容量が本発明の各実施の形態で必要とされる記憶容量よりも大きな場合は、外部記憶装置94は必ずしも必要ではない。
【0032】
次に、本実施の形態に係る情報記録・検索装置の動作(情報記録・検索方法)について説明する。本実施の形態は、検索対象となるマルチメディアデータをデータベースに記録するためのデータ記録動作と、利用者の入力する検索要求に対して、記録されているマルチメディアデータの中から要求に該当するデータを出力するデータ検索動作に分けることができる。これら2つの動作は、利用者の必要に応じて任意の時点で独立に起動される。よって、個々の動作について別々に説明していく。
【0033】
まず、本実施の形態におけるデータ記録動作について説明する。図3は本発明の第1の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)のデータ記録動作を示すフローチャートである。
【0034】
データ記録動作では、まず、マルチメディアデータ入力装置1に入力されたマルチメディアデータが、音声データ抽出部21に渡され、音声認識処理が可能な音声データが抽出される(ステップA1)。
【0035】
次に、こうして抽出された音声データに対して、多重音声認識部22が音声認識パラメータ記憶部24に記憶されている音声認識パラメータの数だけ音声認識処理を実行する(ステップA2〜A4)。すなわち、未実行の音声認識パラメータを1つ読み込み(ステップA2)、読み込んだ音声認識パラメータを用いて音声認識を実行する(ステップS3)。
【0036】
次に、まだ読み込んでいない音声認識パラメータが存在するかの判断を行い、(ステップS4)、存在する場合は(ステップA4のYes)ステップA2に戻る。これを音声認識パラメータ記憶部24に記憶されている音声認識パラメータの数だけ繰り返す。
【0037】
このとき、音声認識結果には、認識されたテキストの各部分が元のマルチメディアデータの先頭から計って何分何秒目に出現したものなのかを示す時間情報も付与されている。
【0038】
また図3のフローチャートではステップA2〜A4の処理を逐次的に記したが、これらの音声認識処理には順序依存性がなく、音声認識パラメータ数だけ音声認識エンジンを用意して全てを並列に行ってもよい。
【0039】
音声認識処理が全て終了すると(ステップA4のNo)、データ・インデックス同期処理部23は音声認識パラメータ毎に得られた音声認識結果に対して、データベースの検索インデックスとして使用できるよう形態素解析等の処理を行う(ステップA5)。
【0040】
次いで、音声認識パラメータ毎に、認識された語句と、その語句が認識された時間情報を、元のマルチメディアデータ名、マルチメディアデータに最初から付随してきた日付などの情報とで組にしてまとめ、多重の検索インデックスとする(ステップA6)。
【0041】
最後に、入力されたマルチメディアデータはマルチメディアデータベース3に、作成した多重インデックスは多重インデックス記録部4に記録することで(ステップA7)、データ記録動作が終了する。
【0042】
次に、本実施の形態の情報記録・検索方法におけるデータ検索動作について説明する。図4は本発明の第1の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)のデータ検索動作を示すフローチャートである。
【0043】
利用者が検索要求入力装置5に入力した検索要求は、まず検索要求整形装置61によって、形態素解析等の前処理が行われ、マルチメディアデータベース3および多重インデックス記録部4で使用されているデータベースシステムに合わせた検索要求文に変換される(ステップB1)。
【0044】
次いで、データベース多重検索部62は、多重インデックス記録部4に記録されているインデックスを調べて、1度に1つずつ音声認識パラメータを固定して、音声認識パラメータの種類の数だけ独立に検索を実行する。このとき得られた検索結果は、音声認識パラメータ毎に一時的に保存しておく(ステップB2〜B5)。
【0045】
すなわち、まだ検索を行っていない音声認識パラメータのインデックスを選択し(ステップB2)、選択したインデックスを用いて検索を実行し、(ステップB3)実行した検索結果を一時的に保存する(ステップB4)。その後、まだ検索を行っていない音声認識パラメータが存在するかどうかの判断を行い(ステップB5)、存在する場合は(ステップB5のYes)、ステップB2に戻る。これを音声認識パラメータの数だけ繰り返す。
【0046】
なお、図4のフローチャートではステップB2〜B5の処理を逐次的なループとして表現し、さらにその後でステップB6の検索処理を行うよう表現したが、音声認識パラメータを1つに固定した検索、および、音声認識パラメータによらず全てのインデックスに対して行う検索共に、順序に依存性はない。よって、これらの検索処理を並列に実行してもかまわない。
【0047】
次に、データベース多重検索部62は、多重インデックス記録部4に記録されている多重インデックスのうち、音声認識パラメータの項目を考慮せずに全てを1つのインデックスと見なして、検索を行う(ステップB6)。ただし、検索要求中に含まれている検索条件がただ1つの場合は、このステップB6はとばされる。
【0048】
検索条件が複数の場合は、各検索条件がどの音声認識パラメータを用いたインデックスによって満たされたかを記録しておく。次いで、得られた検索結果は順序づけが可能なよう1つのリストにまとめられ(ステップB7)、さらに検索条件を満たすために用いられた音声認識パラメータの数に応じて、優先度調整が施される(ステップB8)。基本的にはある1つの音声認識パラメータのインデックスだけで、全ての検索条件を満たして検索されたデータを優先し、用いられた音声認識パラメータ数が多くなるにつれて優先度を低くする。この他に、使用しているデータベースシステムが出力する重み付けもあり得るため、実際の出力結果の優先度をどのように調整するかは、本発明の目的・用途に応じる。最後に、得られた検索結果を検索結果出力装置7に出力することで(ステップB9)、データ検索動作は終了する。
【0049】
利用者が、本実施の形態の情報記録・検索装置、方法および記録媒体93にマルチメディアデータを記録するときは、データ記録動作が、既に記録したデータを検索したいときにはデータ検索動作が起動される。この2つの動作が利用者の必要に応じて起動される処理で、本実施の形態の情報記録・検索装置、方法および記録媒体93の全動作となる。
【0050】
以下では、本実施の形態における情報記録・検索装置、方法および記録媒体93の動作について、具体的な例を用いて説明する。
【0051】
まず、データ記録動作について説明する。図5は多重音声認識結果の例を示す図である。
【0052】
この具体例では、記録するマルチメディアデータとして、様々な公演や講義の様子を動画および音声データとして録画(録音)した、MPEG1、MPEG2、WAVE形式のファイルが与えられるとする。これらのファイルは光ディスクやネットワークなどを通して機械読み取り可能な手段でマルチメディアデータ入力装置1に与えられる。また各データには、あらかじめ「題目」「公演日時」「全出演者名」の情報が機械読み取り可能な形で付与されているものとする。
【0053】
音声認識パラメータとしては、音声認識パラメータ記憶部24に、「男性/一般」,「女性/一般」,「子供/一般」,「男性/政治経済」,「女性/政治経済」,「男性/医学」,「女性/医学」の7種類が用意されているとする。ここで最初の「男性」,「女性」,「子供」というのは話者の音響的な特性を示したもので、次の「一般」,「政治経済」,「医学」というのは認識に用いられる語彙や言語的な特性を示したものである。よって、「女性/一般」の音声認識パラメータは、音声認識に用いる統計的な情報や認識アルゴリズムなどが、女性の一般発話認識に適するよう調整されたものであり、「男性/政治経済」は男性の政治経済分野における発話認識に適するよう調整された音声認識パラメータである。
【0054】
最初に例えば「題目:IT技術の動向、公演日:00年12月14日、出演者:田中一郎、山田花子」といった映像ファイルがMPEG1形式で、マルチメディアデータ入力装置1に入力されると、音声データ抽出部21は、そのファイルを読み込み、データ形式を判断して音声認識が可能なように音声データを抽出する(ステップA1)。多重音声認識部22で実行される音声認識がサンプリング周波数22KのWAVEファイルを入力とするのならば、MPEG1ファイルの音声トラックだけを分離し、WAVE形式に変換した後で、サンプリング周波数変換のフィルタをかけることになる。また、多重音声認識部22で実行される音声認識が異なる入力形式を要求する場合は、その全ての形式の音声データを作成する。これらの変換は一般的な処理であり、ここでは詳しくは説明しない。今回の例では、元の「IT技術の動向」MPEG1ファイルと再生時間が等しい、WAVEファイルが作成されたことになる。
【0055】
次いで、作成されたWAVEファイルに対して用意された7種類の音声認識パラメータを用いた音声認識が実行される(ステップA2〜A4)。パラメータ数が7種類であるため、音声認識が実行される回数も7回である。図5に音声認識結果の一部の例を示す。
【0056】
全ての音声認識処理が終了すると、データ・インデックス同期処理部23ではまず、音声認識パラメータ毎に得られた音声認識結果に対して、検索インデックスとして使用できるよう形態素解析を行い、検索キーワードとして不要な語句を取り除くといった処理を行う(ステップA5)。図4の認識テキストに形態素解析をかけ、名詞だけを取り出して、インデックス用の語句とした例を図6に示す。
【0057】
こうして得られたインデックス用の語句を、「題目:IT技術の動向、公演日:00年12月14日、出演者:田中一郎、山田花子」といった最初から与えられている情報と合わせて、音声認識パラメータ毎にまとめ、多重の検索インデックスとする(ステップA6)。
【0058】
最後に、入力されたMPEG1ファイルはマルチメディアデータベース3に、作成された多重インデックスは多重インデックス記録部4に記録することで(ステップA7)、データ記録動作が終了する。データベースシステムの通常の機能として、多重インデックス記録部4に記録されているこのデータのインデックスを読めば、元のMPEG1ファイルがマルチメディアデータベース3から容易に呼び出すことができる。
【0059】
以上のようなデータ記録動作を、利用者の必要に応じて任意回数繰り返すことにより、本実施の形態の情報記録・検索装置にマルチメディアデータが記録されていく。
【0060】
次に、データ検索動作について具体例を用いて説明する。
【0061】
利用者が検索要求入力装置5に、「i−mode(商標)」,「損」という語句が中で使われているデータを検索したい、のような検索要求を入力した場合、その検索要求は検索要求整形装置61によって、マルチメディアデータベース3および多重インデックス記録部4で使用されているデータベースシステムに合わせた検索要求文に変換される(ステップB1)。この例では既にキーワード「i−mode(商標)」,「損」が指定されているため、特別な処理はいらないが、検索要求が「i−mode(商標)ビジネスで損害を被った事例について」のような自由入力文で与えられたときには、形態素解析等の処理が行われる。
【0062】
データベース多重検索部62は、多重インデックス記録部4に記録されているインデックスを調べて、1度に1つずつ音声認識パラメータを固定して、音声認識パラメータの種類数の7回検索を実行する(ステップB2〜B5)。今回の例では「題目:IT技術の動向、公演日:00年12月14日、出演者:田中一郎、山田花子」のビデオだけ、その中に「i−mode(商標)」,「損」という語句が両方とも使われていたが、どの音声認識パラメータを用いた認識結果でも、この2つの語句が2つとも正しく認識されることはなかったため、この段階では何も検索されない。
【0063】
さらに、データベース多重検索部62は、多重インデックス記録部4に記録されている7種類の音声認識パラメータ別インデックスを、音声認識パラメータの項目を考慮せずに全て1つのインデックスと見なして、検索を行う(ステップB6)。この例では、図6にあるように「題目:IT技術の動向、公演日:00年12月14日、出演者:田中一郎、山田花子」のビデオを「男性/一般」で音声認識したときに語句「損」が、「男性/政治経済」で音声認識したときに語句「i−mode(商標)」が正しく認識されている。よって、ステップB6で初めて「題目:IT技術の動向」のビデオが検索結果に挙がってくる。
【0064】
次いで、得られた検索結果が全て1つのリストにまとめられる(ステップB7)。今回の例では、最初の音声認識パラメータを固定した7回の検索では結果なし、音声認識パラメータの種類が同じでなくともかまわず検索した場合に、「題目:IT技術の動向」のビデオが1つ検索されただけであるから、まとめた検索結果も「題目:IT技術の動向」のビデオ1つだけである。
【0065】
本来は、得られた検索結果に対して、各データが検索条件を満たすために用いられた音声認識パラメータの数と、使用しているデータベースシステムが出力する重み付けを考慮した優先度付けが行われるが(ステップB8)、検索結果が1つだけの場合は順序が変わらない。よって、1つのビデオデータ「題目:IT技術の動向」が、検索結果出力装置7に出力され(ステップB9)、データ検索動作は終了する。
【0066】
このように、複数の音声認識パラメータによる検索インデックスを用いることで、単独の音声認識では検索できなかった「題目:IT技術の動向」のビデオが検索可能となる。一方、複数の音声認識パラメータによる検索インデックスを用いたため、本来該当しないデータが誤って検索されることもあり得る。しかし、音声認識率にもよるが、ある語句が偶然検索キーワードに用いられるような語句に誤認識されることは希である。特に、検索条件に複数の語句が入力された場合、間違って本来条件に該当しないデータが検索されることは、より少なくなる。また認識語彙の問題から、専門用語等が正しく音声認識されるためには、その分野に合わせた音声認識パラメータが必要になるが、一般の音声認識パラメータを用いた認識結果に専門用語が誤認識によって出力されることは少ない。以上のことから、複数の音声認識パラメータによる検索インデックスを用いることで、検索漏れは少なくなるが、間違って余計な検索結果が出力される誤りは、あまり増えないといえる。
【0067】
以上説明したように第1の実施の形態によれば、以下に掲げる効果を奏する。まず第1の効果は、ビデオデータなどのマルチメディアデータに対して、内容等に関わる詳細な検索インデックスを自動的に作成できることである。その理由は、データ記録時に複数の音声認識パラメータを用いて検索インデックスを多重に作成し、データ検索時にはその多重インデックスを用いた検索を実行するからである。なお、多重インデックスの作成、および多重インデックスの検索とも処理は並列に行うことが可能であり、実行時間も問題とはならない。
【0068】
そして第2の効果は、検索条件が少なく検索結果が複数得られた場合などでも、利用者は効率よく検索ができることである。その理由は、データ検索時に各データ毎に優先する音声認識パラメータを判定することにより、検索結果も優先度付けして利用者に提示されるからである。
【0069】
(第2の実施の形態)
以下、本発明の第2の実施の形態を図面に基づいて詳細に説明する。なお、上記実施の形態において既に記述したものと同一の部分については同一符号を付し、重複した説明は省略する。
【0070】
図7は本発明の第2の実施の形態に係る情報記録・検索装置の構成を示すブロック図である。図7において、8は音声認識パラメータ優先度付け装置を示している。
【0071】
図7を参照すると、本発明の第2の実施の形態は、上記第1の実施の形態に加えて、音声認識パラメータ優先度付け装置8を有する点に特徴を有している。
【0072】
上記第1の実施の形態では、音声認識パラメータ記憶部24に記憶されている音声認識パラメータを全て対等に扱ったが、音声認識パラメータ優先度付け装置8では、音声認識パラメータ記憶部24、マルチメディアデータベース3、多重インデックス記録部4にアクセスし、音声認識パラメータに優先度付けを行う。あるデータに対して、どの音声認識パラメータを優先すればよいか判断するには、元のデータに付随している出演者等の情報を利用する手法や、映像をパターン認識して話者の性別を判定する手法など、いくつかの手法が考えられる。本発明の目的・用途に応じて適した手法を用いればよい。情報不足などの理由により、音声認識パラメータに優劣が付けられない場合は、本発明の第1の実施の形態と同じく、全ての音声認識パラメータを対等に扱う。
【0073】
データベース多重検索部62では、検索結果が全て得られた後で、第1の実施の形態の場合と同じく、検索結果に優先度をつける。このとき検索結果の優先度の基準としては、第1の実施の形態でも利用した、各検索結果が検索条件を満たすために用いた音声認識パラメータ数と、データベースシステムが与える結果の重みとの2つの他に、音声認識パラメータ優先度付け装置8が与える音声認識パラメータの優先度がある。この3つの基準をどのように調整して、検索結果を出力するかは、本発明の目的・用途により異なる。
【0074】
なお、本実施の形態では、データ記録装置2、マルチメディアデータベース3、多重インデックス記録部4、データ検索装置6、音声認識パラメータ優先度付け装置8は、各部の機能を制御するプログラムとして、CD−ROMやフロッピーディスクなどの機械読み取り可能な記録媒体93に格納して提供され、計算機等に読み込まれて実行されるものとしても良い。
【0075】
図8は本発明の第2の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)のデータ検索動作を示すフローチャートであり、図9は多重音声認識結果の別例を示す図である。
【0076】
本実施の形態は、第1の実施の形態での場合と同じく、検索対象となるマルチメディアデータをデータベースに記録するためのデータ記録動作と、利用者の入力する検索要求に対して、記録されているマルチメディアデータの中から要求に該当するデータを出力するデータ検索動作に分けることができる。このうち、データ記録動作については第1の実施の形態の場合とまったく同じである。よって、ここでは違いのあるデータ検索動作についてのみ説明する。
【0077】
本実施の形態でのデータ検索動作を示すフローチャートは図8のようになる。利用者が検索要求入力装置5に入力した検索要求は、まず検索要求整形装置61によって、形態素解析等の前処理が行われ、マルチメディアデータベース3および多重インデックス記録部4で使用されているデータベースシステムに合わせた検索要求文に変換される(ステップC1)。
【0078】
次いで、データベース多重検索部62は、多重インデックス記録部4に記録されているインデックスを調べて、1つずつ音声認識パラメータを固定して、音声認識パラメータの種類の数だけ独立に検索を実行する。このとき得られた検索結果は、音声認識パラメータ毎に一時的に保存しておく(ステップC2〜C5)。
【0079】
すなわち、まだ検索を行っていない音声認識パラメータのインデックスを選択し(ステップC2)、選択したインデックスを用いて検索を実行し(ステップC3)、検索結果を一時的に保存する(ステップC4)。その後、まだ検索を行っていない音声認識パラメータが存在するかどうかの判断を行い(ステップC5)、存在する場合は(ステップC5のYes)、ステップC2に戻る。これを音声認識パラメータの数だけ繰り返す。
【0080】
なお、図7のフローチャートではステップC2〜C5の処理を逐次的なループとして表現し、さらにその後でステップC6の検索処理を行うよう表現したが、音声認識パラメータを1つに固定した検索、および、音声認識パラメータによらず全てのインデックスに対して行う検索共に、順序に依存性はない。よって、これらの検索処理を並列に実行してもかまわない。
【0081】
検索を行っていない音声認識パラメータが存在しなくなると(ステップC5のNo)、次に、データベース多重検索部62は、多重インデックス記録部4に記録されている多重インデックスのうち、音声認識パラメータの項目を考慮せずに全てを1つのインデックスと見なして、検索を行う(ステップC6)。ただし、検索要求に含まれている検索条件がただ1つの場合は、このステップC6はとばされる。検索条件が複数の場合は、各検索条件がどの音声認識パラメータを用いたインデックスによって満たされたかを記録しておく。
【0082】
次いで、得られた検索結果は順序づけが可能なよう1つのリストにまとめられる(ステップC7)。
【0083】
続いて、音声認識パラメータ優先度付け装置8は、音声認識パラメータ記憶部24に記憶されている音声認識パラメータを読み込み、検索結果リストに含まれている各データに対して、それらに用いるべき音声認識パラメータの優先度付けを行う(ステップC8)。また音声認識パラメータ優先度付け装置8は、その優先度付け手法に応じてマルチメディアデータベース3および多重インデックス記憶部4にアクセスする。得られた各データに対する音声認識パラメータの優先度付け結果は、データベース多重検索部62に送られる。
【0084】
続いて、データベース多重検索部62は、送られた音声認識パラメータの優先度と、各検索結果データが検索条件を満たすために用いられた音声認識パラメータの数、さらに、使用しているデータベースシステムが出力する重み付けの3つの基準に応じて、全検索結果の優先度調整を行う(ステップC9)。基本的には、検索条件に該当したデータが、全ての検索条件を満たすために用いられた音声認識パラメータ数が多くなるにつれて優先度を低くする。また用いられた音声認識パラメータ数が同じデータ間では、ステップC8で高く優先度付けされた音声認識パラメータを用いて検索されたデータを優先する。実際に出力結果の優先度をどのように細かく調整するかは、本発明の目的・用途に応じる。最後に、得られた検索結果を検索結果出力装置7に出力することで(ステップC10)、データ検索動作は終了する。
【0085】
利用者が、本実施の形態の情報記録・検索装置、方法および記録媒体93にマルチメディアデータを記録するときは、データ記録動作が、既に記録したデータを検索したいときにはデータ検索動作が起動される。この2つの動作が利用者の必要に応じて起動されることで、本実施の形態の情報記録・検索装置、方法および記録媒体93の全動作となる。
【0086】
以下では、本実施の形態における情報記録・検索装置、方法および記録媒体93の動作について、具体的な例を用いて説明する。
【0087】
ただし、データ記録動作に関しては、本発明の第1の実施の形態と同様であるため、データ検索動作についてのみ具体例を挙げる。マルチメディアデータ入力装置1に入力されるデータの種類や形式、音声認識パラメータ記憶部24に記憶されている音声認識パラメータの種類も、第1の実施の形態での具体例と同じとする。
【0088】
利用者が検索要求入力装置5に、「加入者」という語句が中で使われているデータを検索したい、のような検索要求を入力した場合、その検索要求は検索要求整形装置61によって、マルチメディアデータベース3および多重インデックス記録部4で使用されているデータベースシステムに合わせた検索要求文に変換される(ステップC1)。この例では検索要求がキーワードの形で入力されているため、特別な処理はいらないが、検索要求が「加入者数の増加について」のような自由入力文で与えられたときには、形態素解析等の処理が行われる。
【0089】
データベース多重検索部62は、多重インデックス記録部4に記録されているインデックスを調べて、1度に1つずつ音声認識パラメータを固定して、音声認識パラメータの種類数の7回検索を実行する(ステップC2〜C5)。通常は、さらに7種類の音声認識パラメータ別インデックスを、音声認識パラメータの項目を考慮せずに全て1つのインデックスと見なして、検索を行う動作(ステップC6)がこれに伴うが、今回の例のように、入力された検索要求の検索条件がただ1つの場合は、まったく同じ検索結果しか得られないため、ステップC6の動作は不要となる。
【0090】
さて、この例では「題目:IT技術の動向、公演日:00年12月14日、出演者:田中一郎、山田花子」のビデオにだけ、その中に「加入者」という語句が実際に使われていたとする。その多重音声認識結果の例を図5に示す。一方、「題目:医学の発展史、公演日:98年03月24日、講演者:間黒男」というビデオでは、講演者の「この注射の効果は」という発話に対して、図9のような多重音声認識結果が得られていたとする。
【0091】
よって、ステップC7で、得られた検索結果が全て1つのリストにまとめられると、そのリストには「題目:IT技術の動向」と「題目:医学の発展史」の2つのビデオが挙がっていることになる。ただし、「題目:IT技術の動向」は「男性/一般」音声認識パラメータによるインデックスと「男性/政治経済」音声認識パラメータによるインデックスの両方で同じ時間に「加入者」が認識されているが、「題名:医学の発展史」では「男性/一般」音声認識パラメータによるインデックスでのみ「加入者」が認識されており、「男性/医学」音声認識パラメータによるインデックスでは同じ時間に「加入者」は認識されていない。
【0092】
次に、音声認識パラメータ優先度付け装置8では、検索された2つのビデオそれぞれに対して、7つの音声認識パラメータ間の優先度付けを行う(ステップC8)。今回の例では、優先度付けの手法として、シソーラスによる分野判定と、映像データからの顔認識による話者性別判定が行われるとする。シソーラスによる分野判定とは、「題目」等の元のデータに始めから付随してきた情報に含まれている語句から、そのデータがどのような分野に属しているものなのか判断する手法である。顔認識による話者性別判定とは、映像データからそのときの話者の画像を切り出し、そこから話者の性別等を判断する手法である。この2つの手法を用いた結果、「題目:IT技術の動向」のビデオは「男性/政治経済」音声認識パラメータが、「題目:医学の発展史」のビデオは「男性/医学」音声認識パラメータが優先されると判定された。この結果はデータベース多重検索部62に送られる。
【0093】
データベース多重検索部62では、検索された2つのビデオの最終的な順位付けを行う(ステップC9)。今回の例では検索条件がただ1つのキーワードなので、それを満たすために使用された音声認識パラメータ数も必ず1つである。ただし、「題目:IT技術の動向」では優先度の高い「男性/政治経済」(音声認識パラメータ)で検索条件が満たされており、しかも、「男性/一般」(音声認識パラメータ)によるインデックスでも、同じく検索条件が満たされているのに対して、「題名:医学の発展史」の方では優先度が高くない「男性/一般」(音声認識パラメータ)でのみ検索条件が満たされており、しかも、優先度の高い「男性/医学」(音声認識パラメータ)によるインデックスでは、同じ時間に「加入者」は認識されていない。よって、2つの検索結果のうち、「題目:IT技術の動向」のビデオデータを高く、「題目:医学の発展史」のビデオデータを低く優先度付けして、検索結果出力装置7に出力される(ステップC10)。
【0094】
このように、利用者が入力した検索要求に含まれている検索条件が少ない場合では、音声認識誤りから本来条件に該当しないデータも結果として出力されることが語句によってはあり得るが、検索時に音声認識パラメータの優先度を考慮することで、優先度の高い検索結果が上位に出力され、利用者は効率よく検索を行うことができる。
【0095】
なお、本発明が上記各実施の形態に限定されず、本発明の技術思想の範囲内において、各実施の形態は適宜変更され得ることは明らかである。また上記構成部材の数、位置、形状等は上記実施の形態に限定されず、本発明を実施する上で好適な数、位置、形状等にすることができる。また、各図において、同一構成要素には同一符号を付している。
【0096】
【発明の効果】
本発明は以上のように構成されているので、以下に掲げる効果を奏する。まず第1の効果は、ビデオデータなどのマルチメディアデータに対して、内容等に関わる詳細な検索インデックスを自動的に作成できることである。その理由は、データ記録時に複数の音声認識パラメータを用いて検索インデックスを多重に作成し、データ検索時にはその多重インデックスを用いた検索を実行するからである。なお、多重インデックスの作成、および多重インデックスの検索とも処理は並列に行うことが可能であり、実行時間も問題とはならない。
【0097】
そして第2の効果は、検索条件が少なく検索結果が複数得られた場合などでも、利用者は効率よく検索ができることである。その理由は、データ検索時に各データ毎に優先する音声認識パラメータを判定することにより、検索結果も優先度付けして利用者に提示されるからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報記録・検索装置の構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)を、機械読み取り可能な記録媒体に格納して提供され、計算機等に読み込まれて実行されるものとして示すブロック図である。
【図3】本発明の第1の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)のデータ記録動作を示すフローチャートである。
【図4】本発明の第1の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)のデータ検索動作を示すフローチャートである。
【図5】多重音声認識結果の例を示す図である。
【図6】インデックス作成用の認識テキスト前処理の例を示す図である。
【図7】本発明の第2の実施の形態に係る情報記録・検索装置の構成を示すブロック図である。
【図8】本発明の第2の実施の形態に係る情報記録・検索方法(情報記録・検索プログラム)のデータ検索動作を示すフローチャートである。
【図9】多重音声認識結果の別例を示す図である。
【符号の説明】
1…マルチメディアデータ入力装置
2…データ記録装置
3…マルチメディアデータベース
4…多重インデックス記録部
5…検索要求入力装置
6…データ検索装置
7…検索結果出力装置
8…音声認識パラメータ優先度付け装置
21…音声データ抽出部
22…多重音声認識部
23…データ・インデックス同期処理部
24…音声認識パラメータ記憶部
61…検索要求整形装置
62…データベース多重検索部
9…コンピュータ
91…処理装置
92…メモリ
93…記録媒体
94…外部記憶装置
w1,w2,w3…検索キーワード
P1,P2,P3,P4,P5,P6…音声認識パラメータ
D1,D2,D3…データ

Claims (6)

  1. 音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識部と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索部とを備えた情報記録・検索装置であって、
    検索を行う際に、検索条件を充足するために使用された複数の異なる音声認識処理の前記条件の数の多寡に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け装置を備えたことを特徴とする情報記録・検索装置。
  2. 音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識部と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索部とを備えた情報記録・検索装置であって、
    検索を行う際に、検索対象となる各データに付随している情報、または、各データの画像解析結果に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け装置を備えたことを特徴とする情報記録・検索装置。
  3. 音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識ステップと、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索ステップとを備えた情報記録・検索方法であって、
    検索を行う際に、検索条件を充足するために使用された複数の異なる音声認識処理の前記条件の数の多寡に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付けステップを備えたことを特徴とする情報記録・検索方法。
  4. 音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識ステップと、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索ステップとを備えた報記録・検索方法であって、
    検索を行う際に、検索対象となる各データに付随している情報、または、各データの画像解析結果に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付けステップを備えたことを特徴とする情報記録・検索方法。
  5. コンピュータを、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識手段と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索手段として機能させる情報記録・検索プログラムであって、
    検索を行う際に、検索条件を充足するために使用された複数の異なる音声認識処理の前記条件の数の多寡に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け手段として、前記コンピュータをさらに機能させることを特徴とする情報記録・検索プログラム。
  6. コンピュータを、音声認識処理を複数の異なる条件で実行し検索インデックスを多重に作成する多重音声認識手段と、当該作成した多重の検索インデックスを用いて検索を行うデータベース多重検索手段として機能させる情報記録・検索プログラムであって、
    検索を行う際に、検索対象となる各データに付随している情報、または、各データの画像解析結果に応じて、各検索結果の優先度を調整する音声認識パラメータ優先度付け手段として、前記コンピュータをさらに機能させることを特徴とする記載の情報記録・検索プログラム。
JP2001153472A 2001-05-23 2001-05-23 情報記録・検索装置、方法、プログラム、および記録媒体 Expired - Fee Related JP3903738B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001153472A JP3903738B2 (ja) 2001-05-23 2001-05-23 情報記録・検索装置、方法、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001153472A JP3903738B2 (ja) 2001-05-23 2001-05-23 情報記録・検索装置、方法、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2002351893A JP2002351893A (ja) 2002-12-06
JP3903738B2 true JP3903738B2 (ja) 2007-04-11

Family

ID=18997982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001153472A Expired - Fee Related JP3903738B2 (ja) 2001-05-23 2001-05-23 情報記録・検索装置、方法、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP3903738B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006003692A1 (ja) * 2004-06-30 2006-01-12 Fujitsu Limited 情報検索端末
JP4466665B2 (ja) 2007-03-13 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
WO2011121978A1 (ja) * 2010-03-29 2011-10-06 日本電気株式会社 音声認識システム、装置、方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3185505B2 (ja) * 1993-12-24 2001-07-11 株式会社日立製作所 会議録作成支援装置
JPH08286695A (ja) * 1995-01-25 1996-11-01 Omron Corp 音声認識装置および音声認識方法
JP2000250944A (ja) * 1998-12-28 2000-09-14 Toshiba Corp 情報提供方法、情報提供装置、情報受信装置、並びに情報記述方法

Also Published As

Publication number Publication date
JP2002351893A (ja) 2002-12-06

Similar Documents

Publication Publication Date Title
EP2252995B1 (en) Method and apparatus for voice searching for stored content using uniterm discovery
US7257533B2 (en) Database searching and retrieval using phoneme and word lattice
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US7292979B2 (en) Time ordered indexing of audio data
EP1693829B1 (en) Voice-controlled data system
US7240003B2 (en) Database annotation and retrieval
EP1949260B1 (en) Speech index pruning
US6603921B1 (en) Audio/video archive system and method for automatic indexing and searching
US7680853B2 (en) Clickable snippets in audio/video search results
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
JP2010154397A (ja) データ処理装置、データ処理方法、及び、プログラム
US20080071542A1 (en) Methods, systems, and products for indexing content
KR20080068844A (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
EP1403852B1 (en) Voice activated music playback system
JP3938096B2 (ja) インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
Witbrock et al. Speech recognition for a digital video library
US11961507B2 (en) Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms
JP3903738B2 (ja) 情報記録・検索装置、方法、プログラム、および記録媒体
JP2004302175A (ja) 音声認識システム、音声認識方法及び音声認識プログラム
Sen et al. Audio indexing
KR20050090398A (ko) 음성 왜곡 없이 선택가능한 속도로 재생하기 위한 방법 및장치
Cerva et al. Browsing, indexing and automatic transcription of lectures for distance learning
JP2002324071A (ja) コンテンツ検索システム、コンテンツ検索方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060313

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060815

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060914

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070101

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees