JP3594359B2

JP3594359B2 - 情報検索装置

Info

Publication number: JP3594359B2
Application number: JP12138895A
Authority: JP
Inventors: 克己村井; 賢治橋本; 篤史堀岡
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1995-05-19
Filing date: 1995-05-19
Publication date: 2004-11-24
Anticipated expiration: 2019-11-24
Also published as: JPH08314494A

Description

【０００１】
【産業上の利用分野】
本発明は、音声や文字図形情報の情報検索に関するものであり、原理的に誤認識が存在する認識処理を人と機械との良好な関係いわゆるマンマシンインターフェイスの改善により認識処理を現実に利用可能な道具とするための情報検索装置に関するものである。
【０００２】
【従来の技術】
近年パーソナルコンピューターの普及により文書の多くが電子化される状況になってきた。しかしながら多量のデータが電子化されたと言っても紙はいつまでたってもなくなるどころかかえってオフィスに氾濫している。いわゆる電子媒体の問題点は紙のような手軽さに欠けることである。紙の利点としては、拾い読み（ブラウジング：ｂｒｏｗｓｉｎｇ）がしやすいと言う利点は特に強調されるべきであり、電子媒体では現時点での解像度や処理速度の関係からもブラウジングがしやすいとはいえない。ところで良く考えてみると、このブラウジングというのは、知識体系を書籍という人間の作った人工物を介した、知識と人間とのインターフェイスとして、何世紀も受け入れられてきたそれなりの合理性を持った体系であると考えられる。例えばタイトルや段落や空白それぞれ一つとりあげても、人の視覚に重要度を訴え、あるいは見やすさや意味的なまとまりを伝えるため発達してきた技術であり、人が書籍と言う道具に対し「紙めくり」と言う動的な働きかけを通じ知識を自由に利用する手法として磨かれ続けてきたものである。
【０００３】
ところで機械音声認識や文字認識等、人に替わって話したり読んだりする技術は、究極的には人のように考える機械を目指しているが、人のように考えることのできない機械が人のように話したり読んだりできるのだろうか。別の言い方をすれば、機械はどのようなレベルの、どのような知識をもった人を想定すればよいのだろうか。神ではない人の知識は有限であり、誤りは避けられないが、人は考え対話することができるため、たとえ絶対的知識が不足している幼児や、知識を共有していない老人に対してであっても、意志を疎通し合って知識の伝達修正が可能である。これは機械においては何を意味しているのか。もし知識が非常に不足している状態で機械が自動認識してコード化し、電子媒体に記録しようと思っても誤認識の問題がつきまとい、その時点で修正しない限り情報が失われてしまう。現実の音声会話の内容は非常に非論理的であり、また印刷情報も文字だけでなく画像や色にあふれ単純な文字列として理解できないものが非常に多い。これはリアルタイムな認識（すなわち音が発生した時点や文字が読まれたその時点での認識）が、誤認識の対話修正なしにはコード化不可能であると言う事実と、その時点で誤認識される前の正しい情報が永久に失われ、またさらに我々が常日頃利用しているコード情報以外の重要な情報を失ってしまうと言う問題の存在を示唆している。もちろん情報を生のまま保存するならばこのような問題は発生しないが、データ量が膨大になり検索や整理もしにくいと言う問題点があった。
【０００４】
【発明が解決しようとする課題】
上述したように、機械が音声や文字認識を自動的に行うとき、常に問題になるのが背景知識の不足の問題であり、考えることもできず、口や耳や目を持たない機械が経験を通じて正しい知識を獲得することができない以上、正しい知識を機械に求めるのは機械に神託を期待するようなものである。機械に何かを認識させるとは結果の責任を機械に持たせようとすることであり、もし責任を持たせられないなら結局は人間が生データを判断して修正する必要がある。もしリアルタイムな認識を要求し、認識結果の内容まで期待するなら、結局は生データを保存しなければならない。ところが生データの形で蓄積しようと思ったとたんに検索が困難になることやデータ量の問題が発生するという課題がある。
【０００５】
本発明は、例えばリアルタイムな生データの蓄積を再生可能なデータ圧縮手法で記録し、後に人がデータ圧縮情報から生データを検索し同時に認識を行って結果を確認し、必要な時に人が介在して認識結果を修正してコード化しようとするものである。蓄積する際のデータ圧縮についても人間の聴覚や視覚の行っている前処理に基づく情報圧縮を用うことで記録時に認識を中途まで実行し、再生時にはデータを可視化して表示するとともに、あるいは検索を圧縮する際の特徴を用いて検索し、修正時も人が容易に修正可能なインターフェイスを用意して道具として利用しやすい形を取ろうとするものである。
【０００６】
すなわち本発明は、生データの情報が失われず、簡単に検索や整理を行うことができる情報検索装置を提供することを目的とするものである。
【０００７】
【課題を解決するための手段】
第１の本発明は、音響データを記憶する音響データ記憶手段と、
その記憶された音響データのうち、周波数領域データを画面上にバーグラフ状に折り返して全体の大まかな部位と詳細な特定部位として、生データあるいは周波数領域に変換された生データとともに、少なくとも２種類以上の長さの時系列にて表示を行う音響データ時系列表示手段と、
前記大まかな部位から操作者にブラウジング指定させて前記詳細な特定部位の表示を行い、この指定された詳細な特定部位の音響データの音声部分を音声認識し、前記認識結果を前記詳細な特定部位の時系列データの対応する位置に表示する音声認識表示手段と、
前記操作者の指示により範囲指定された音響データを音響再生する音響データ指示再生手段と、
前記詳細表示された認識結果に対して、前記操作者の指示により、文字の入力、修正、あるいは認識修正候補を提示しての置き換えを行い、その編集結果を記憶する文字入力編集記憶手段とを備えたことを特徴とする情報検索装置である。
【０００８】
第２の本発明は、前記音響データ時系列表示手段は、無音区間と判定される部位をそのまま時系列表示せずに、一定無音区間毎の長さを記号に変換して表示し、または音声認識不可能な音を特定の記号で表示することを特徴とする、第１の本発明の情報検索装置である。
【０００９】
第３の本発明は、前記音響データ記憶手段は、音響データを周波数領域に変換して圧縮保存するものであり、
音響データ時系列表示手段は、前記音響データを、その表示時に周波数領域データとして表示するものであり、前記音声認識表示手段は前記の周波数領域に変換された前記中間処理結果に対して音声認識するものであり、前記音響データ指示再生手段は、前記周波数領域のデータを再び時間領域に変換して再生するものであることを特徴とする、第１の本発明の情報検索装置である。
【００１０】
第４の本発明は、前記音響データ記憶手段は、複数のマイクにより複数の話者の音響データを識別して記憶するものであり、前記音響データ時系列表示手段は、前記複数の話者毎に区別して音響データを表示することを特徴とする、第１の本発明の情報検索装置である。
【００１１】
第５の本発明は、前記音響データ記憶手段は、前記音響データを周波数領域の時系列データに変換した時系列周波数領域情報を記号化圧縮保存する記号化圧縮記憶手段を有し、
文字を音韻に対応させた文字音韻対応表に基づき、操作者が指定した検索文字から音韻を得て音韻を時系列周波数領域情報の検索記号列に変換する検索記号列作成手段と、
前記検索記号列と前記記号化圧縮記憶手段に記録された記号列との近似マッチングを行う記号列近似マッチング手段とを更に備え、
前記文字入力編集記憶手段によって修正された文字の音韻を前記文字音韻対応表に順次反映させることを特徴とする、第１の本発明の情報検索装置である。
【００１２】
第６の本発明は、前記音響データ記憶手段は、前記音響データを周波数領域に変換して記憶し、
前記音響データを記憶する際に、入力された短時系列データ毎に周波数領域の互いの類似性を調べて各類似データ毎にデータ配列を作り、前記各類似データの中心値と音響データの変動値により類似データ配列番号に対応させて記録する類似データ配列番号記録手段と、
前記記憶された音響データを操作者の指示に応じて、時系列対応して前記類似データ毎に表示選択すると共に、前記類似データ配列番号で全数検索を行い表示する音響データ表示検索手段と、
前記類似データ配列番号と前記音声認識表示手段の音声認識結果との対応表を更新する対応表更新手段とを更に備え、
前記音声認識表示手段は、前記類似データ配列番号記録手段で記録されたデータに対して表示時に音声認識し、音声部分の認識結果を前記表示された時系列に対応する位置に表示し、
前記音響データ指示再生手段は、前記操作者の指示により範囲指定された音響データを、前記類似データの中心値と音響データの変動値から再び時間領域に変換して音響再生し、
前記対応表更新手段は、前記文字入力編集記憶手段により訂正され対応づけられた前記類似データ配列番号と音声認識結果の対応表を更新することを特徴とする、第１の本発明の情報検索装置である。
【００１３】
【作用】
本発明は、例えば、ユーザが会議などで音声生データや文字画像生データを記録して後に例えば議事録などを作ろうとする場合、その時点ではコード化せずに生データを圧縮記録し、あるいは圧縮を認識の前処理段階にとどめて中間値で圧縮記録し、後に読み出す時点では可視化してブラウジングにて検索、或いは検索文字に対応する中間値データを全検索して可視化選択する。検索文字と中間値データの対応は可視化時に誤認識結果の修正により校正され、また校正結果は即時に検索に反映され、また次の（検索時の）認識処理に反映される。このようにして情報の検索はブラウジングを伴った形で行われ、生データの持っている人間が知覚可能な情報を失うことなく、検索し再生した時点で認識処理を行い、誤認識データの修正を人の介在した情報選択行為として実行する。会議の議事録を例に考えて見ても、通常我々の必要とする情報はそれほど多くはなく、コード化する必要があるものはそれほど多くはない。必要が生じた時点で時間的な流れを可視化して、音声ならば空白時間や声の高低や音量また話者情報等を参考に、また文字ならば空白や字体なども参考にコード化（認識）を行えばよく、基本的に機械の知識限界による誤認識は発生しない。
【００１４】
【実施例】
以下に、本発明をその実施例を示す図面に基づいて説明する。
【００１５】
図１は、本発明にかかる第１の実施例の情報検索装置の機能ブロック図であり、図２は、図１の機能ブロック図の情報検索装置の処理フローであり、図３は、図２の処理フローによる図１の機能ブロック図におけるディスプレイ画面の一例を示す図である。図１において、１はディスク、２はマイクロコンピュータ、３はメモリ、４はＡ／Ｄコンバータ、５はＤ／Ａコンバータ、６はディスプレイプロセッサ、７はマイクロフォン、８はスピーカ、９はディスプレイ、１０はマウス、１１はキーボードである。ここで、ディスク１、Ａ／Ｄコンバータ４等が音響データ記憶手段を構成し、ディスプレイプロセッサ６、ディスプレイ９等が音響データ時系列表示手段を構成し、Ｄ／Ａコンバータ５、スピーカ８等が音響データ指示再生手段を構成し、メモリ３、キーボード１１等が文字入力編集記憶手段を構成している。又、マイクロコンピュータ２とその制御プログラムの一部等が前述の各手段の一部を構成し、更に別のプログラム等を含めた部分が音声認識表示手段を構成している。
【００１６】
次に、上記第１の実施例の情報検索装置の動作について、図面を参照しながら説明する。
【００１７】
いま、このシステムを図２における記録モードとした時、入力音声はマイクロフォン７から入力された後（ステップＳ１０１）、Ａ／Ｄコンバータ４に入力されてディジタル化される（ステップＳ１０２）。その後ディジタル化された音響信号はマイクロコンピュータ２によりＡＤＰＣＭにより圧縮され（ステップＳ１０３）、ディスク１に書き込まれる（ステップＳ１０４）。
【００１８】
また検索時は、図２の検索モードフロー図に示すように、記録ファイル名の指定と表示部位の指定を行った後（ステップＳ１１０）、ディスク１から指定されたファイルのＡＤＰＣＭ圧縮音響データを読み出して、対応する部位のデータの圧縮を解凍した後（ステップＳ１１１）、時系列に切り取ってＦＦＴ処理を行って得られた周波数領域データを時系列に表示する（ステップＳ１１２）。図３（ａ）において、９’は選択した記録ファイルの周波数領域データをバーグラフ状の時系列で表示したディスプレイ画面で、図では省略してあるが時系列の一本のバーの下側が低い周波数、上側が高い周波数であり各周波数の強度が輝度に対応している。時系列データが長く続く場合、バーグラフは画面の右端で折り返されて下段に移り、またある程度の長さの空白が音声データに存在する場は会話の区切りとして余白を残して下段に移る。表示画面をさらに大きくしてファイル全体の大まかな部位を指定することも可能であり、また逆に図３（ｂ）の９’’に示すように、詳細に特定部位を表示し各バーグラフ状の周波数領域データの下にその音声認識結果を示すように選択させることもできる。音声認識は再生された音響データからＬＰＣ予測係数算出、メルケプストラム、ベクトル量子化の後、音韻辞書とのパターンマッチングを行って文字コードを得る。
【００１９】
このとき、もし音声認識された文字の意味が通じなかったら、その部位の確認のためにバーグラフ上に音響データ再生開始位置と終了位置を指示し（ステップＳ１１３）、時系列音響データをマイクロコンピュータ２で再び音響信号に変換し、Ｄ／Ａコンバータ５、スピーカ８を介して音として確認したり、大まかな位置の検索時にも音で確認することができ、その後、確認した部位の文字の修正や編集を行うことができる（ステップＳ１１４）。図３（ｂ）の例では「じぎょうけいなについて」という部分の意味が通じないため音声を再生するため範囲指定したところである。この場合「じぎょうけいかくについて」と「な」の文字を「かく」にキーボード１１から入力して修正する。このように確認した結果から認識結果の文字を修正したり編集して会議の議事録のワープロ文書に挿入したり、さらに他の部位を表示して検索したりする。
【００２０】
次に、他の箇所の表示部位を指定するかどうかを選択し（ステップＳ１１５）、指定した場合は、再度ステップＳ１１１の処理へ戻り、上記の手順を繰り返す。指定しない場合は、この検索モードを終了する。
【００２１】
次に、第２の実施例の情報検索装置について説明する。本実施例における基本的構成は、第１の実施例の図１と同様であり重複する部分の説明は省略する。異なる点は、時系列データの表示の方法が一部違う点である。
【００２２】
図４において、９’’’は記録ファイルの周波数領域データをバーグラフ状の時系列で表示したディスプレイ画面で、図中の記号○は２秒までの無音区間、○○は４秒までの無音区間、×は８秒までの無音区間、また××は８秒を越える無音区間を示している。この無音区間の表示は画面のスペースを節約するだけでなく、ブラウジング検索のキーとして役立つものである。会議でどのようなことが話されたかを思い出す鍵となるものは長い沈黙であったり、特定の音や笑い声であったりする場合が多く、このような表示は検索時の覚えとして有効であるので、前述の無音区間以外にも、例えば音声認識が不可能と判定された物音（ドアの閉まる音など）を色を変えて表示したりすることもできる。
【００２３】
次に、第３の実施例の情報検索装置について説明する。本実施例における基本的構成は、第１の実施例の図１と同様であり重複する部分の説明は省略する。図５は、本実施例の情報検索装置における処理フローである。
【００２４】
いま、システムが図５における記録モードにあるとした時、入力音響信号はマイクロフォン７から入力され（ステップＳ２０１）、Ａ／Ｄコンバータ４に入力された後にディジタル化される。その後ディジタル化された音響信号はマイクロコンピュータ２によりウェーブレット変換処理されて周波数領域の時系列データとされた後（ステップＳ２０２）、聴感特性と音声特徴にあわせベクトル量子化して圧縮され（ステップＳ２０３）、ディスク１に書き込まれる（ステップＳ２０４）。
【００２５】
また検索時は、図５の検索モードフローに従い、記録ファイル名の指定と表示部位の指定を行った後（ステップＳ２１０）、ディスク１から指定されたファイルのベクトル量子化された音響データを読み込み（ステップＳ２１１）、ベクトル情報を時系列方向に表示する。このとき、バーグラフの上下で周波数を、また輝度で各周波数成分の強度を示すように表示している。ステップＳ２１２からステップＳ２１５までの処理は、第１の実施例での該当する部分の処理と基本的に同様であり、説明を省略する。
【００２６】
またベクトル量子化データと音韻辞書のパターンマッチングを行い、音声認識処理を行う。このようなフィルタバンクのような周波数領域データを使用した音声認識は古典的でＬＰＣを使った場合よりやや認識率が劣るが、ソナグラムからしゃべっている内容が読みとれる例でもわかるように人間の直感に合致している。音響データの記録モード時には既に音声認識の前処理と表示の周波数分析が済んでしまい、音声認識中間値、あるいは検索表示中間値としてディスク１に記録されていることになる。このようにしてコンピュータの計算資源は記録時と検索（認識）時に分けて使われるため効率が良く、近年の高性能のマイクロプロセッサのみで認識処理を行うことができる。
【００２７】
次に、第４の実施例の情報検索装置について説明する。
【００２８】
図６は、本実施例における機能ブロック図であり、複数のマイクロフォン７からの信号がＡ／Ｄコンバータ４に入力される。各マイクロフォン７は単一指向性のものを使用し、会議中の各話者方向に向けたり、あるいはラペルマイクとして話者に近接して装着してもらえば各話者の音量比で誰が話しているかがわかる。この例では３人の話者に対して３チャンネルの音声データを記録し、各音声データの音量比を判定し、音響データの可視化表示時には図３（ａ）の各会話の区切り毎に話者のマークを表示して誰がしゃべったかを知らせる。あるいは話者毎に色を変えて表示する。ディスク１の記憶領域を節約するためには、マイクの音量比を記録前に調べて１チャンネルしか音声データを記録しなくともよい。ディスク記録前に話者を判定して各会話の先頭に識別子をつければ良い。また同様にマイクロフォン７を単独使用して１チャンネルの音響データとした場合でも表示時に音質から判定してマークをつけるようなこともできる。
【００２９】
なお、本実施例では、マイクロフォン７の個数を３個、すなわち入力チャンネル数を３として説明したが、チャンネル数はこれに限定されるものではない。
【００３０】
次に、第５の実施例の情報検索装置について説明する。本実施例における基本的構成は、第１の実施例の図１と同様であり重複する部分の説明は省略する。本実施例においては、ディスク１、Ａ／Ｄコンバータ４等が記号化圧縮記憶手段を構成し、ディスプレイプロセッサ６、ディスプレイ９等が音響データ表示手段を構成し、Ｄ／Ａコンバータ５、スピーカ８等が音響データ指示再生手段を構成し、キーボード１１等が文字修正手段を構成している。又、マイクロコンピュータ２とプログラム等を含めた部分が、検索記号列作成手段、記号列近似マッチング手段、音声認識表示手段を構成している。図７は、本実施例の情報検索装置における処理フローである。
【００３１】
まず、記録モードでは、マイクロフォン７から取り込まれた（ステップＳ３０１）入力音響信号は、Ａ／Ｄコンバータ４に入力された後にディジタル化される。その後ディジタル化された音響信号はマイクロコンピュータ２により周波数領域の時系列データとされた後（ステップＳ３０２）、周波数領域成分と時間軸成分に分離して記号列としてベクトル量子化され（ステップＳ３０３）、この記号列をディスク１に順次記録していく（ステップＳ３０４）。
【００３２】
また検索時には、図７の検索モードフローに従い、記録ファイル名の指定と検索文字の指定を行った後（ステップＳ３１０）、検索文字列に対応する音韻列を音声認識に使用する音韻−文字対応辞書を逆引きして読み、これをさらに記録時に用いたベクトル量子化方法に従って、検索用のベクトル量子化データ列を作成する（ステップＳ３１１）。そして対象ファイルを文書の全文検索と同様に、ディスク１から順次読み込んで、ベクトル量子化データ列と一致する箇所を候補として表示していく（ステップＳ３１２）。文書を対象とした全文検索では厳密な一致だけでなく、一部だけ異なっている場合も許容したいわゆる曖昧検索を行うが、一部のベクトルに関してマッチングを行わなければ同様な曖昧検索が可能となる。
【００３３】
次に、対応するファイルの中から候補とされた会話部分近辺のベクトル量子化された音響データを読み込み、ベクトル情報を時系列方向に表示する。このとき、バーグラフの上下で周波数を、また輝度で各周波数成分の強度を示すように表示する。またベクトル量子化データと音韻辞書のパターンマッチングを行い、周辺の会話の音声認識処理を行い、その認識結果を表示する（ステップＳ３１３）。この後、指定箇所の音を指示して（ステップＳ３１４）、聞いてみたり誤認識文字を修正し（ステップＳ３１５）、音声認識に用いる音韻辞書を修正する（ステップＳ３１６）。つまり音声記録時には音声認識して記号列に判定しているわけでないため、再検索の修正の毎に辞書が更新され認識率が向上していく。その後、他の箇所について処理を行うかどうかを指定し（ステップＳ３１７）、行わない場合は、検索モードを終了する。
【００３４】
次に、第６の実施例の情報検索装置について説明する。本実施例における基本的構成は、第１の実施例の図１と同様であり重複する部分の説明は省略する。本実施例においては、メモリ３、マイクロコンピュータ２等が、類似データ配列番号記録手段、対応表更新手段を構成し、マイクロコンピュータ２、ディスプレイプロセッサ６、ディスプレイ９等が音声認識表示手段を構成し、Ｄ／Ａコンバータ５、スピーカ８等が音響データ指示再生手段を構成し、メモリ３、キーボード１１等が文字入力編集記憶手段を構成している。図８は、本実施例の情報検索装置における処理フローである。
【００３５】
まず、記録モードでは、マイクロフォン７から取り込まれた（ステップＳ４０１）入力音響信号は、Ａ／Ｄコンバータ４に入力された後にディジタル化される。その後ディジタル化された音響信号は、マイクロコンピュータ２により周波数領域の時系列データとされた後（ステップＳ４０２）、周波数領域成分と時間軸成分に分離してメモリ３をバッファとして蓄えていく（ステップＳ４０３）。このとき、過去から現時点まて蓄積したデータのうち、周波数成分と時間軸成分の各々のパラメータ毎に類似しているものをマイクロコンピュータ２によりマッチング処理してクラスタとしてまとめ、類似データ配列番号としてのクラスタ番号を与えていく（ステップＳ４０４）。
【００３６】
そして一連の音響データの取り込みが終了したら（ステップＳ４０５）、ディスク１に各クラスタの番号列と各クラスタの中心値の周波数領域、時間軸領域の値との変位を書き込む（ステップＳ４０６）。
【００３７】
また検索時には、図８の検索モードフローに従い、記録ファイル名の指定と検索文字列の入力を行った後（ステップＳ４１０）、ディスク１から指定されたファイルのクラスタパラメータのみを読み込む（ステップＳ４１１）。この時点で記録ファイルのパラメータと音韻との対応を取り、音韻に対応する複数のクラスタ番号を割り付けて検索クラスタ列を作成する（ステップＳ４１２）。そして対象ファイルを文書の全文検索と同様に、ディスク１から順次読み込んで、クラスタ列と一致する箇所を候補として表示していく（ステップＳ４１３）。文書を対象とした全文検索では厳密な一致だけでなく、一部だけ異なっている場合も許容したいわゆる曖昧な検索を行うが、クラスタは既に複数音韻に割り振られているためマッチングは曖昧な検索となっている。
【００３８】
次に、対応するファイルの中から候補とされた会話部分近辺のクラスタ番号列を含む音響データを読み込み、対応するクラスタ番号の中心値とその周波数領域、時間軸領域の変位から再現計算して時系列方向に表示する。このとき、バーグラフの上下で周波数を、また輝度で各周波数成分の強度を示すように表示する。同様にして得られたデータと音韻辞書のパターンマッチングを行い、周辺の会話の音声認識処理を行い、その認識結果を表示する（ステップＳ４１４）。この後、指定箇所の音を指示して（ステップＳ４１５）、聞いてみたり誤認識文字を修正し（ステップＳ４１６）、音声認識の音韻辞書を修正する（ステップＳ４１７）。その後、他の箇所について処理を行うかどうかを指定し（ステップＳ３１７）、行わない場合は、検索モードを終了する。
【００３９】
なお、図示はしないが、さらに別の実施例として、操作者による編集訂正作業を音響データの取り込み時におこなってもよいことは言うまでもなく、操作者が音響データを聞きながら画面に時系列表示と音声認識文字表示を行い、誤っている文字を修正ないし編集するようにもできる。この時は時系列データを記録するとともに音声認識結果及びその修正編集結果とを対応させて記録する必要がある。また少なくとも修正のあった箇所は区別して記録しておく。
【００４０】
次に、第７の実施例の情報検索装置について説明する。
【００４１】
図９は、本実施例における機能ブロック図であり、図１の構成と異なる点は、Ａ／Ｄコンバータ４、Ｄ／Ａコンバータ５、マイクロフォン７、スピーカ８がなく、その代わりに、画像データを取り込むための電子スチルカメラ１３、取り込んだ画像データ用のＡ／Ｄコンバータ４’、ディジタル化された画像データを蓄積する画像メモリ１２が設けられている点である。ここで、画像メモリ１２、ディスク１等が画像データ記憶手段を構成し、ディスプレイプロセッサ６、ディスプレイ９等が画像データ表示検索手段を構成し、マイクロコンピュータ２、ディスプレイ９等が文字認識処理表示手段を構成し、キーボード１１、マウス１０等が領域指定手段を構成し、マイクロコンピュータ２等が文字修正手段を構成している。また図１０は、図９の情報検索装置における処理フローである。
【００４２】
まず、記録モード時には、電子スチルカメラ１３から画像データを取り込み（ステップＳ５０１）、その画像データは画像用のＡ／Ｄコンバータ４’を経由して（ステップＳ５０２）、一旦画像メモリ１２に蓄えられる。さらに画像メモリ１２に蓄えられた画像データは、ＦＡＸと同様なランレングス符号化による圧縮を行った後（ステップＳ５０３）、ディスク１にファイルとして蓄えられる。
【００４３】
また検索モードにおいては、検索対象ファイルと表示位置をブラウジングにて指定検索し（ステップＳ５１０）、ディスク１から再生されたランレングス符号データはメモリ３へ転送された後、マイクロコンピュータ２によって復号され（ステップＳ５１１）、ディスプレイプロセッサ６に送られて画像の間引き処理が行われ（ステップＳ５１２）、ディスプレイ９に画像情報として表示される（ステップＳ５１３）。
【００４４】
もし文字領域をコード化する必要がある場合はユーザが変換領域を指定し（ステップＳ５１４）、指定範囲の文字画像がマイクロプロセッサ２により認識処理される。この時コード化された結果は認識対象となっている文字が明朝体なら明朝に、ゴシック体ならゴシックの形で大きさを同等にしてもとの文字画像に重ね色を変えて表示する。ユーザーはこのような対話処理の中で、もし文字認識誤りがあるなら修正し、このとき複数の認識候補があるならば認識システムはこれを表示し、ユーザがその中から選択する（ステップＳ５１５）。また文字編集してそのまま元の画像に付加して保存するか、あるいはコード化情報をそのまま記録または他のアプリケーションにて利用する。その後、他の箇所について処理を行うかどうかを指定し（ステップＳ５１６）、行わない場合は、検索モードを終了する。
【００４５】
次に、第８の実施例の情報検索装置について説明する。
【００４６】
図１１は、本実施例における機能ブロック図であり、図９の第７の実施例と異なる点は、図形部品辞書及び文字図形の小部分の形を番地入力するとハッシュ表にて全体を読み出すメモリの機能を有する画像部品辞書メモリ１４が設けられている点であり、他は図９と同じである。本実施例においては、画像メモリ１２、ディスク１等が文字図形画像データ記憶手段を構成し、画像部品辞書メモリ１４が図形部品辞書を構成し、ディスプレイプロセッサ６、ディスプレイ９等が表示手段を構成し、マイクロコンピュータ２、ディスプレイ９等が候補提示手段、検索手段を構成し、メモリ３、キーボード１１、マウス１０等が文字編集記憶検索手段を構成し、マイクロコンピュータ２等が類似図形部品辞書検索手段、図形部品化記述手段、認識処理手段を構成している。また図１２は、本実施例における処理フローである。
【００４７】
まず、記録時には、画像はスチルカメラ１３から取り入れられＡ／Ｄコンバータ４’により二値化される（ステップＳ６０１）。さらにマイクロコンピュータ２により入力データの輪郭線が抽出され、得られた輪郭線を単純な円弧や角あるいはその組み合わせで記述できる小部品の集まりとして分解し、この部品データを数値化する（ステップＳ６０２）。次に、対象部品と隣接部品の数値から、辞書を引き図形全体輪郭データを取得する（ステップＳ６０３）。
【００４８】
この後、得られた図形全体輪郭データと入力データ輪郭とを比較し、予め定めておいた差異値Ｌを越えていないかどうかを調べる（ステップＳ６０４）。もし誤差値が閾値以上なら再度辞書を引き、閾値以下なら入力データそのものを辞書に記述してある図形コード番号で記述する（ステップＳ６０５）。取り込まれた入力図形データは画面に表示し、同時に得られた辞書図形輪郭データと重ね表示する。文字のような解釈が問題になる図形輪郭については、操作者が必要に応じて文字修正、編集、候補提示選択を行い（ステップＳ６０６）、その後、選択された図形（文字）コードとその差異をディスク１に記録し、又、解釈が誤っていてもかまわないとするならそのままの図形（文字）コードとその差異をディスク１に書き込む（ステップＳ６０７）。
【００４９】
また再生検索時には、必要なファイル等を指定した後（ステップＳ６１０）、ディスクからデータを読み込む（ステップＳ６１１）。このときファイルデータを表示するが、表示は差異データは表示せず図形（文字）コードのみを間引いて小さく表示し（ステップＳ６１２）、これをブラウジングで選択するか、また上記のファイルデータ検索時には図形（文字）コードから全コード検索する（ステップＳ６１３）。
【００５０】
次に、文字図形コードの範囲を指定するか否かを選択し（ステップＳ６１４）、指定する場合は、検索して得られた図形データを差異を含めて大きく表示し、必要に応じて図形（文字）コードと差異データを重ねて表示し、図形（文字）コードを必要とする時には指定した範囲を認識修正処理あるいは編集する（ステップＳ６１５）。例えば取り込んだ図形がゴシック文字「Ａ」であった場合、明朝体の「Ａ」しか画像部品辞書になかった場合は、その差異のみが取り込んだ画像近傍に表示される。この場合コードフォント情報と文字情報のように上位のコードと下位のコードがあるがこれらは操作者が必要に応じて検索時、修正時に選んで使い分ける。その後、他の箇所について処理を行うかどうかを指定し（ステップＳ６１６）、行わない場合は、検索モードを終了する。
【００５１】
以上、説明したように本発明によれば次のような効果を得ることができる。
（１）音声や画像を元データの情報を失わず蓄えることができ、認識誤りが問題にならなくなる。
（２）実際に検索を行った後にコード化という作業を行うため、ユーザに心理的負荷を与えない。
（３）圧縮と検索認識コード化までの統一的な処理が可能。
【００５２】
なお、上記実施例では、いずれもコンピュータを用いてソフトウェア的に各機能を構成したが、これに代えて、同様の機能を専用のハードウェアにより実現してもよい。
【００５３】
また、上記実施例では、いずれもデータのディスクへの蓄積を圧縮して行う構成としているが、これに限らず、生データをそのまま蓄積する構成としても適用可能である。
【００５４】
【発明の効果】
以上述べたところから明らかなように本発明は、生データの情報が失われず、簡単に検索や整理を行うことができるという長所を有する。
【図面の簡単な説明】
【図１】本発明にかかる第１の実施例の情報検索装置の機能ブロック図である。
【図２】同第１の実施例における処理手順を示すフローチャートである。
【図３】同図（ａ）は、同第１の実施例におけるディスプレイ画面の一例を示す図、同図（ｂ）は、ディスプレイ画面の別の一例を示す図である。
【図４】本発明にかかる第２の実施例の情報検索装置におけるディスプレイ画面の一例を示す図である。
【図５】本発明にかかる第３の実施例の情報検索装置における処理手順を示すフローチャートである。
【図６】本発明にかかる第４の実施例の情報検索装置の機能ブロック図である。
【図７】本発明にかかる第５の実施例の情報検索装置における処理手順を示すフローチャートである。
【図８】本発明にかかる第６の実施例の情報検索装置における処理手順を示すフローチャートである。
【図９】本発明にかかる第７の実施例の情報検索装置の機能ブロック図である。
【図１０】同第７の実施例における処理手順を示すフローチャートである。
【図１１】本発明にかかる第８の実施例の情報検索装置の機能ブロック図である。
【図１２】同第８の実施例における処理手順を示すフローチャートである。
【符号の説明】
１ディスク
２マイクロコンピュータ
３メモリ
６ディスプレイプロセッサ
７マイクロフォン
８スピーカ
９ディスプレイ
１２画像メモリ

Claims

音響データを記憶する音響データ記憶手段と、
その記憶された音響データのうち、周波数領域データを画面上にバーグラフ状に折り返して全体の大まかな部位と詳細な特定部位として、生データあるいは周波数領域に変換された生データとともに、少なくとも２種類以上の長さの時系列にて表示を行う音響データ時系列表示手段と、
前記大まかな部位から操作者にブラウジング指定させて前記詳細な特定部位の表示を行い、この指定された詳細な特定部位の音響データの音声部分を音声認識し、前記認識結果を前記詳細な特定部位の時系列データの対応する位置に表示する音声認識表示手段と、
前記操作者の指示により範囲指定された音響データを音響再生する音響データ指示再生手段と、
前記詳細表示された認識結果に対して、前記操作者の指示により、文字の入力、修正、あるいは認識修正候補を提示しての置き換えを行い、その編集結果を記憶する文字入力編集記憶手段とを備えたことを特徴とする情報検索装置。
前記音響データ時系列表示手段は、無音区間と判定される部位をそのまま時系列表示せずに、一定無音区間毎の長さを記号に変換して表示し、または音声認識不可能な音を特定の記号で表示することを特徴とする請求項１記載の情報検索装置。
前記音響データ記憶手段は、音響データを周波数領域に変換して圧縮保存するものであり、
音響データ時系列表示手段は、前記音響データを、その表示時に周波数領域データとして表示するものであり、前記音声認識表示手段は前記の周波数領域に変換された前記中間処理結果に対して音声認識するものであり、前記音響データ指示再生手段は、前記周波数領域のデータを再び時間領域に変換して再生するものであることを特徴とする請求項１記載の情報検索装置。
前記音響データ記憶手段は、複数のマイクにより複数の話者の音響データを識別して記憶するものであり、前記音響データ時系列表示手段は、前記複数の話者毎に区別して音響データを表示することを特徴とする請求項１記載の情報検索装置。
前記音響データ記憶手段は、前記音響データを周波数領域の時系列データに変換した時系列周波数領域情報を記号化圧縮保存する記号化圧縮記憶手段を有し、
文字を音韻に対応させた文字音韻対応表に基づき、操作者が指定した検索文字から音韻を得て音韻を時系列周波数領域情報の検索記号列に変換する検索記号列作成手段と、
前記検索記号列と前記記号化圧縮記憶手段に記録された記号列との近似マッチングを行う記号列近似マッチング手段とを更に備え、
前記文字入力編集記憶手段によって修正された文字の音韻を前記文字音韻対応表に順次反映させることを特徴とする、請求項１に記載の情報検索装置。
前記音響データ記憶手段は、前記音響データを周波数領域に変換して記憶し、
前記音響データを記憶する際に、入力された短時系列データ毎に周波数領域の互いの類似性を調べて各類似データ毎にデータ配列を作り、前記各類似データの中心値と音響データの変動値により類似データ配列番号に対応させて記録する類似データ配列番号記録手段と、
前記記憶された音響データを操作者の指示に応じて、時系列対応して前記類似データ毎に表示選択すると共に、前記類似データ配列番号で全数検索を行い表示する音響データ表示検索手段と、
前記類似データ配列番号と前記音声認識表示手段の音声認識結果との対応表を更新する対応表更新手段とを更に備え、
前記音声認識表示手段は、前記類似データ配列番号記録手段で記録されたデータに対して表示時に音声認識し、音声部分の認識結果を前記表示された時系列に対応する位置に表示し、
前記音響データ指示再生手段は、前記操作者の指示により範囲指定された音響データを、前記類似データの中心値と音響データの変動値から再び時間領域に変換して音響再生し、
前記対応表更新手段は、前記文字入力編集記憶手段により訂正され対応づけられた前記類似データ配列番号と音声認識結果の対応表を更新することを特徴とする、請求項１に記載の情報検索装置。