JP3594359B2 - 情報検索装置 - Google Patents
情報検索装置 Download PDFInfo
- Publication number
- JP3594359B2 JP3594359B2 JP12138895A JP12138895A JP3594359B2 JP 3594359 B2 JP3594359 B2 JP 3594359B2 JP 12138895 A JP12138895 A JP 12138895A JP 12138895 A JP12138895 A JP 12138895A JP 3594359 B2 JP3594359 B2 JP 3594359B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- time
- sound data
- sound
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【産業上の利用分野】
本発明は、音声や文字図形情報の情報検索に関するものであり、原理的に誤認識が存在する認識処理を人と機械との良好な関係いわゆるマンマシンインターフェイスの改善により認識処理を現実に利用可能な道具とするための情報検索装置に関するものである。
【0002】
【従来の技術】
近年パーソナルコンピューターの普及により文書の多くが電子化される状況になってきた。しかしながら多量のデータが電子化されたと言っても紙はいつまでたってもなくなるどころかかえってオフィスに氾濫している。いわゆる電子媒体の問題点は紙のような手軽さに欠けることである。紙の利点としては、拾い読み(ブラウジング:browsing)がしやすいと言う利点は特に強調されるべきであり、電子媒体では現時点での解像度や処理速度の関係からもブラウジングがしやすいとはいえない。ところで良く考えてみると、このブラウジングというのは、知識体系を書籍という人間の作った人工物を介した、知識と人間とのインターフェイスとして、何世紀も受け入れられてきたそれなりの合理性を持った体系であると考えられる。例えばタイトルや段落や空白それぞれ一つとりあげても、人の視覚に重要度を訴え、あるいは見やすさや意味的なまとまりを伝えるため発達してきた技術であり、人が書籍と言う道具に対し「紙めくり」と言う動的な働きかけを通じ知識を自由に利用する手法として磨かれ続けてきたものである。
【0003】
ところで機械音声認識や文字認識等、人に替わって話したり読んだりする技術は、究極的には人のように考える機械を目指しているが、人のように考えることのできない機械が人のように話したり読んだりできるのだろうか。別の言い方をすれば、機械はどのようなレベルの、どのような知識をもった人を想定すればよいのだろうか。神ではない人の知識は有限であり、誤りは避けられないが、人は考え対話することができるため、たとえ絶対的知識が不足している幼児や、知識を共有していない老人に対してであっても、意志を疎通し合って知識の伝達修正が可能である。これは機械においては何を意味しているのか。もし知識が非常に不足している状態で機械が自動認識してコード化し、電子媒体に記録しようと思っても誤認識の問題がつきまとい、その時点で修正しない限り情報が失われてしまう。現実の音声会話の内容は非常に非論理的であり、また印刷情報も文字だけでなく画像や色にあふれ単純な文字列として理解できないものが非常に多い。これはリアルタイムな認識(すなわち音が発生した時点や文字が読まれたその時点での認識)が、誤認識の対話修正なしにはコード化不可能であると言う事実と、その時点で誤認識される前の正しい情報が永久に失われ、またさらに我々が常日頃利用しているコード情報以外の重要な情報を失ってしまうと言う問題の存在を示唆している。もちろん情報を生のまま保存するならばこのような問題は発生しないが、データ量が膨大になり検索や整理もしにくいと言う問題点があった。
【0004】
【発明が解決しようとする課題】
上述したように、機械が音声や文字認識を自動的に行うとき、常に問題になるのが背景知識の不足の問題であり、考えることもできず、口や耳や目を持たない機械が経験を通じて正しい知識を獲得することができない以上、正しい知識を機械に求めるのは機械に神託を期待するようなものである。機械に何かを認識させるとは結果の責任を機械に持たせようとすることであり、もし責任を持たせられないなら結局は人間が生データを判断して修正する必要がある。もしリアルタイムな認識を要求し、認識結果の内容まで期待するなら、結局は生データを保存しなければならない。ところが生データの形で蓄積しようと思ったとたんに検索が困難になることやデータ量の問題が発生するという課題がある。
【0005】
本発明は、例えばリアルタイムな生データの蓄積を再生可能なデータ圧縮手法で記録し、後に人がデータ圧縮情報から生データを検索し同時に認識を行って結果を確認し、必要な時に人が介在して認識結果を修正してコード化しようとするものである。蓄積する際のデータ圧縮についても人間の聴覚や視覚の行っている前処理に基づく情報圧縮を用うことで記録時に認識を中途まで実行し、再生時にはデータを可視化して表示するとともに、あるいは検索を圧縮する際の特徴を用いて検索し、修正時も人が容易に修正可能なインターフェイスを用意して道具として利用しやすい形を取ろうとするものである。
【0006】
すなわち本発明は、生データの情報が失われず、簡単に検索や整理を行うことができる情報検索装置を提供することを目的とするものである。
【0007】
【課題を解決するための手段】
第1の本発明は、音響データを記憶する音響データ記憶手段と、
その記憶された音響データのうち、周波数領域データを画面上にバーグラフ状に折り返して全体の大まかな部位と詳細な特定部位として、生データあるいは周波数領域に変換された生データとともに、少なくとも2種類以上の長さの時系列にて表示を行う音響データ時系列表示手段と、
前記大まかな部位から操作者にブラウジング指定させて前記詳細な特定部位の表示を行い、この指定された詳細な特定部位の音響データの音声部分を音声認識し、前記認識結果を前記詳細な特定部位の時系列データの対応する位置に表示する音声認識表示手段と、
前記操作者の指示により範囲指定された音響データを音響再生する音響データ指示再生手段と、
前記詳細表示された認識結果に対して、前記操作者の指示により、文字の入力、修正、あるいは認識修正候補を提示しての置き換えを行い、その編集結果を記憶する文字入力編集記憶手段とを備えたことを特徴とする情報検索装置である。
【0008】
第2の本発明は、前記音響データ時系列表示手段は、無音区間と判定される部位をそのまま時系列表示せずに、一定無音区間毎の長さを記号に変換して表示し、または音声認識不可能な音を特定の記号で表示することを特徴とする、第1の本発明の情報検索装置である。
【0009】
第3の本発明は、前記音響データ記憶手段は、音響データを周波数領域に変換して圧縮保存するものであり、
音響データ時系列表示手段は、前記音響データを、その表示時に周波数領域データとして表示するものであり、前記音声認識表示手段は前記の周波数領域に変換された前記中間処理結果に対して音声認識するものであり、前記音響データ指示再生手段は、前記周波数領域のデータを再び時間領域に変換して再生するものであることを特徴とする、第1の本発明の情報検索装置である。
【0010】
第4の本発明は、前記音響データ記憶手段は、複数のマイクにより複数の話者の音響データを識別して記憶するものであり、前記音響データ時系列表示手段は、前記複数の話者毎に区別して音響データを表示することを特徴とする、第1の本発明の情報検索装置である。
【0011】
第5の本発明は、前記音響データ記憶手段は、前記音響データを周波数領域の時系列データに変換した時系列周波数領域情報を記号化圧縮保存する記号化圧縮記憶手段を有し、
文字を音韻に対応させた文字音韻対応表に基づき、操作者が指定した検索文字から音韻を得て音韻を時系列周波数領域情報の検索記号列に変換する検索記号列作成手段と、
前記検索記号列と前記記号化圧縮記憶手段に記録された記号列との近似マッチングを行う記号列近似マッチング手段とを更に備え、
前記文字入力編集記憶手段によって修正された文字の音韻を前記文字音韻対応表に順次反映させることを特徴とする、第1の本発明の情報検索装置である。
【0012】
第6の本発明は、前記音響データ記憶手段は、前記音響データを周波数領域に変換して記憶し、
前記音響データを記憶する際に、入力された短時系列データ毎に周波数領域の互いの類似性を調べて各類似データ毎にデータ配列を作り、前記各類似データの中心値と音響データの変動値により類似データ配列番号に対応させて記録する類似データ配列番号記録手段と、
前記記憶された音響データを操作者の指示に応じて、時系列対応して前記類似データ毎に表示選択すると共に、前記類似データ配列番号で全数検索を行い表示する音響データ表示検索手段と、
前記類似データ配列番号と前記音声認識表示手段の音声認識結果との対応表を更新する対応表更新手段とを更に備え、
前記音声認識表示手段は、前記類似データ配列番号記録手段で記録されたデータに対して表示時に音声認識し、音声部分の認識結果を前記表示された時系列に対応する位置に表示し、
前記音響データ指示再生手段は、前記操作者の指示により範囲指定された音響データを、前記類似データの中心値と音響データの変動値から再び時間領域に変換して音響再生し、
前記対応表更新手段は、前記文字入力編集記憶手段により訂正され対応づけられた前記類似データ配列番号と音声認識結果の対応表を更新することを特徴とする、第1の本発明の情報検索装置である。
【0013】
【作用】
本発明は、例えば、ユーザが会議などで音声生データや文字画像生データを記録して後に例えば議事録などを作ろうとする場合、その時点ではコード化せずに生データを圧縮記録し、あるいは圧縮を認識の前処理段階にとどめて中間値で圧縮記録し、後に読み出す時点では可視化してブラウジングにて検索、或いは検索文字に対応する中間値データを全検索して可視化選択する。検索文字と中間値データの対応は可視化時に誤認識結果の修正により校正され、また校正結果は即時に検索に反映され、また次の(検索時の)認識処理に反映される。このようにして情報の検索はブラウジングを伴った形で行われ、生データの持っている人間が知覚可能な情報を失うことなく、検索し再生した時点で認識処理を行い、誤認識データの修正を人の介在した情報選択行為として実行する。会議の議事録を例に考えて見ても、通常我々の必要とする情報はそれほど多くはなく、コード化する必要があるものはそれほど多くはない。必要が生じた時点で時間的な流れを可視化して、音声ならば空白時間や声の高低や音量また話者情報等を参考に、また文字ならば空白や字体なども参考にコード化(認識)を行えばよく、基本的に機械の知識限界による誤認識は発生しない。
【0014】
【実施例】
以下に、本発明をその実施例を示す図面に基づいて説明する。
【0015】
図1は、本発明にかかる第1の実施例の情報検索装置の機能ブロック図であり、図2は、図1の機能ブロック図の情報検索装置の処理フローであり、図3は、図2の処理フローによる図1の機能ブロック図におけるディスプレイ画面の一例を示す図である。図1において、1はディスク、2はマイクロコンピュータ、3はメモリ、4はA/Dコンバータ、5はD/Aコンバータ、6はディスプレイプロセッサ、7はマイクロフォン、8はスピーカ、9はディスプレイ、10はマウス、11はキーボードである。ここで、ディスク1、A/Dコンバータ4等が音響データ記憶手段を構成し、ディスプレイプロセッサ6、ディスプレイ9等が音響データ時系列表示手段を構成し、D/Aコンバータ5、スピーカ8等が音響データ指示再生手段を構成し、メモリ3、キーボード11等が文字入力編集記憶手段を構成している。又、マイクロコンピュータ2とその制御プログラムの一部等が前述の各手段の一部を構成し、更に別のプログラム等を含めた部分が音声認識表示手段を構成している。
【0016】
次に、上記第1の実施例の情報検索装置の動作について、図面を参照しながら説明する。
【0017】
いま、このシステムを図2における記録モードとした時、入力音声はマイクロフォン7から入力された後(ステップS101)、A/Dコンバータ4に入力されてディジタル化される(ステップS102)。その後ディジタル化された音響信号はマイクロコンピュータ2によりADPCMにより圧縮され(ステップS103)、ディスク1に書き込まれる(ステップS104)。
【0018】
また検索時は、図2の検索モードフロー図に示すように、記録ファイル名の指定と表示部位の指定を行った後(ステップS110)、ディスク1から指定されたファイルのADPCM圧縮音響データを読み出して、対応する部位のデータの圧縮を解凍した後(ステップS111)、時系列に切り取ってFFT処理を行って得られた周波数領域データを時系列に表示する(ステップS112)。図3(a)において、9’は選択した記録ファイルの周波数領域データをバーグラフ状の時系列で表示したディスプレイ画面で、図では省略してあるが時系列の一本のバーの下側が低い周波数、上側が高い周波数であり各周波数の強度が輝度に対応している。時系列データが長く続く場合、バーグラフは画面の右端で折り返されて下段に移り、またある程度の長さの空白が音声データに存在する場は会話の区切りとして余白を残して下段に移る。表示画面をさらに大きくしてファイル全体の大まかな部位を指定することも可能であり、また逆に図3(b)の9’’に示すように、詳細に特定部位を表示し各バーグラフ状の周波数領域データの下にその音声認識結果を示すように選択させることもできる。音声認識は再生された音響データからLPC予測係数算出、メルケプストラム、ベクトル量子化の後、音韻辞書とのパターンマッチングを行って文字コードを得る。
【0019】
このとき、もし音声認識された文字の意味が通じなかったら、その部位の確認のためにバーグラフ上に音響データ再生開始位置と終了位置を指示し(ステップS113)、時系列音響データをマイクロコンピュータ2で再び音響信号に変換し、D/Aコンバータ5、スピーカ8を介して音として確認したり、大まかな位置の検索時にも音で確認することができ、その後、確認した部位の文字の修正や編集を行うことができる(ステップS114)。図3(b)の例では「じぎょうけいなについて」という部分の意味が通じないため音声を再生するため範囲指定したところである。この場合「じぎょうけいかくについて」と「な」の文字を「かく」にキーボード11から入力して修正する。このように確認した結果から認識結果の文字を修正したり編集して会議の議事録のワープロ文書に挿入したり、さらに他の部位を表示して検索したりする。
【0020】
次に、他の箇所の表示部位を指定するかどうかを選択し(ステップS115)、指定した場合は、再度ステップS111の処理へ戻り、上記の手順を繰り返す。指定しない場合は、この検索モードを終了する。
【0021】
次に、第2の実施例の情報検索装置について説明する。本実施例における基本的構成は、第1の実施例の図1と同様であり重複する部分の説明は省略する。異なる点は、時系列データの表示の方法が一部違う点である。
【0022】
図4において、9’’’は記録ファイルの周波数領域データをバーグラフ状の時系列で表示したディスプレイ画面で、図中の記号○は2秒までの無音区間、○○は4秒までの無音区間、×は8秒までの無音区間、また××は8秒を越える無音区間を示している。この無音区間の表示は画面のスペースを節約するだけでなく、ブラウジング検索のキーとして役立つものである。会議でどのようなことが話されたかを思い出す鍵となるものは長い沈黙であったり、特定の音や笑い声であったりする場合が多く、このような表示は検索時の覚えとして有効であるので、前述の無音区間以外にも、例えば音声認識が不可能と判定された物音(ドアの閉まる音など)を色を変えて表示したりすることもできる。
【0023】
次に、第3の実施例の情報検索装置について説明する。本実施例における基本的構成は、第1の実施例の図1と同様であり重複する部分の説明は省略する。図5は、本実施例の情報検索装置における処理フローである。
【0024】
いま、システムが図5における記録モードにあるとした時、入力音響信号はマイクロフォン7から入力され(ステップS201)、A/Dコンバータ4に入力された後にディジタル化される。その後ディジタル化された音響信号はマイクロコンピュータ2によりウェーブレット変換処理されて周波数領域の時系列データとされた後(ステップS202)、聴感特性と音声特徴にあわせベクトル量子化して圧縮され(ステップS203)、ディスク1に書き込まれる(ステップS204)。
【0025】
また検索時は、図5の検索モードフローに従い、記録ファイル名の指定と表示部位の指定を行った後(ステップS210)、ディスク1から指定されたファイルのベクトル量子化された音響データを読み込み(ステップS211)、ベクトル情報を時系列方向に表示する。このとき、バーグラフの上下で周波数を、また輝度で各周波数成分の強度を示すように表示している。ステップS212からステップS215までの処理は、第1の実施例での該当する部分の処理と基本的に同様であり、説明を省略する。
【0026】
またベクトル量子化データと音韻辞書のパターンマッチングを行い、音声認識処理を行う。このようなフィルタバンクのような周波数領域データを使用した音声認識は古典的でLPCを使った場合よりやや認識率が劣るが、ソナグラムからしゃべっている内容が読みとれる例でもわかるように人間の直感に合致している。音響データの記録モード時には既に音声認識の前処理と表示の周波数分析が済んでしまい、音声認識中間値、あるいは検索表示中間値としてディスク1に記録されていることになる。このようにしてコンピュータの計算資源は記録時と検索(認識)時に分けて使われるため効率が良く、近年の高性能のマイクロプロセッサのみで認識処理を行うことができる。
【0027】
次に、第4の実施例の情報検索装置について説明する。
【0028】
図6は、本実施例における機能ブロック図であり、複数のマイクロフォン7からの信号がA/Dコンバータ4に入力される。各マイクロフォン7は単一指向性のものを使用し、会議中の各話者方向に向けたり、あるいはラペルマイクとして話者に近接して装着してもらえば各話者の音量比で誰が話しているかがわかる。この例では3人の話者に対して3チャンネルの音声データを記録し、各音声データの音量比を判定し、音響データの可視化表示時には図3(a)の各会話の区切り毎に話者のマークを表示して誰がしゃべったかを知らせる。あるいは話者毎に色を変えて表示する。ディスク1の記憶領域を節約するためには、マイクの音量比を記録前に調べて1チャンネルしか音声データを記録しなくともよい。ディスク記録前に話者を判定して各会話の先頭に識別子をつければ良い。また同様にマイクロフォン7を単独使用して1チャンネルの音響データとした場合でも表示時に音質から判定してマークをつけるようなこともできる。
【0029】
なお、本実施例では、マイクロフォン7の個数を3個、すなわち入力チャンネル数を3として説明したが、チャンネル数はこれに限定されるものではない。
【0030】
次に、第5の実施例の情報検索装置について説明する。本実施例における基本的構成は、第1の実施例の図1と同様であり重複する部分の説明は省略する。本実施例においては、ディスク1、A/Dコンバータ4等が記号化圧縮記憶手段を構成し、ディスプレイプロセッサ6、ディスプレイ9等が音響データ表示手段を構成し、D/Aコンバータ5、スピーカ8等が音響データ指示再生手段を構成し、キーボード11等が文字修正手段を構成している。又、マイクロコンピュータ2とプログラム等を含めた部分が、検索記号列作成手段、記号列近似マッチング手段、音声認識表示手段を構成している。図7は、本実施例の情報検索装置における処理フローである。
【0031】
まず、記録モードでは、マイクロフォン7から取り込まれた(ステップS301)入力音響信号は、A/Dコンバータ4に入力された後にディジタル化される。その後ディジタル化された音響信号はマイクロコンピュータ2により周波数領域の時系列データとされた後(ステップS302)、周波数領域成分と時間軸成分に分離して記号列としてベクトル量子化され(ステップS303)、この記号列をディスク1に順次記録していく(ステップS304)。
【0032】
また検索時には、図7の検索モードフローに従い、記録ファイル名の指定と検索文字の指定を行った後(ステップS310)、検索文字列に対応する音韻列を音声認識に使用する音韻−文字対応辞書を逆引きして読み、これをさらに記録時に用いたベクトル量子化方法に従って、検索用のベクトル量子化データ列を作成する(ステップS311)。そして対象ファイルを文書の全文検索と同様に、ディスク1から順次読み込んで、ベクトル量子化データ列と一致する箇所を候補として表示していく(ステップS312)。文書を対象とした全文検索では厳密な一致だけでなく、一部だけ異なっている場合も許容したいわゆる曖昧検索を行うが、一部のベクトルに関してマッチングを行わなければ同様な曖昧検索が可能となる。
【0033】
次に、対応するファイルの中から候補とされた会話部分近辺のベクトル量子化された音響データを読み込み、ベクトル情報を時系列方向に表示する。このとき、バーグラフの上下で周波数を、また輝度で各周波数成分の強度を示すように表示する。またベクトル量子化データと音韻辞書のパターンマッチングを行い、周辺の会話の音声認識処理を行い、その認識結果を表示する(ステップS313)。この後、指定箇所の音を指示して(ステップS314)、聞いてみたり誤認識文字を修正し(ステップS315)、音声認識に用いる音韻辞書を修正する(ステップS316)。つまり音声記録時には音声認識して記号列に判定しているわけでないため、再検索の修正の毎に辞書が更新され認識率が向上していく。その後、他の箇所について処理を行うかどうかを指定し(ステップS317)、行わない場合は、検索モードを終了する。
【0034】
次に、第6の実施例の情報検索装置について説明する。本実施例における基本的構成は、第1の実施例の図1と同様であり重複する部分の説明は省略する。本実施例においては、メモリ3、マイクロコンピュータ2等が、類似データ配列番号記録手段、対応表更新手段を構成し、マイクロコンピュータ2、ディスプレイプロセッサ6、ディスプレイ9等が音声認識表示手段を構成し、D/Aコンバータ5、スピーカ8等が音響データ指示再生手段を構成し、メモリ3、キーボード11等が文字入力編集記憶手段を構成している。図8は、本実施例の情報検索装置における処理フローである。
【0035】
まず、記録モードでは、マイクロフォン7から取り込まれた(ステップS401)入力音響信号は、A/Dコンバータ4に入力された後にディジタル化される。その後ディジタル化された音響信号は、マイクロコンピュータ2により周波数領域の時系列データとされた後(ステップS402)、周波数領域成分と時間軸成分に分離してメモリ3をバッファとして蓄えていく(ステップS403)。このとき、過去から現時点まて蓄積したデータのうち、周波数成分と時間軸成分の各々のパラメータ毎に類似しているものをマイクロコンピュータ2によりマッチング処理してクラスタとしてまとめ、類似データ配列番号としてのクラスタ番号を与えていく(ステップS404)。
【0036】
そして一連の音響データの取り込みが終了したら(ステップS405)、ディスク1に各クラスタの番号列と各クラスタの中心値の周波数領域、時間軸領域の値との変位を書き込む(ステップS406)。
【0037】
また検索時には、図8の検索モードフローに従い、記録ファイル名の指定と検索文字列の入力を行った後(ステップS410)、ディスク1から指定されたファイルのクラスタパラメータのみを読み込む(ステップS411)。この時点で記録ファイルのパラメータと音韻との対応を取り、音韻に対応する複数のクラスタ番号を割り付けて検索クラスタ列を作成する(ステップS412)。そして対象ファイルを文書の全文検索と同様に、ディスク1から順次読み込んで、クラスタ列と一致する箇所を候補として表示していく(ステップS413)。文書を対象とした全文検索では厳密な一致だけでなく、一部だけ異なっている場合も許容したいわゆる曖昧な検索を行うが、クラスタは既に複数音韻に割り振られているためマッチングは曖昧な検索となっている。
【0038】
次に、対応するファイルの中から候補とされた会話部分近辺のクラスタ番号列を含む音響データを読み込み、対応するクラスタ番号の中心値とその周波数領域、時間軸領域の変位から再現計算して時系列方向に表示する。このとき、バーグラフの上下で周波数を、また輝度で各周波数成分の強度を示すように表示する。同様にして得られたデータと音韻辞書のパターンマッチングを行い、周辺の会話の音声認識処理を行い、その認識結果を表示する(ステップS414)。この後、指定箇所の音を指示して(ステップS415)、聞いてみたり誤認識文字を修正し(ステップS416)、音声認識の音韻辞書を修正する(ステップS417)。その後、他の箇所について処理を行うかどうかを指定し(ステップS317)、行わない場合は、検索モードを終了する。
【0039】
なお、図示はしないが、さらに別の実施例として、操作者による編集訂正作業を音響データの取り込み時におこなってもよいことは言うまでもなく、操作者が音響データを聞きながら画面に時系列表示と音声認識文字表示を行い、誤っている文字を修正ないし編集するようにもできる。この時は時系列データを記録するとともに音声認識結果及びその修正編集結果とを対応させて記録する必要がある。また少なくとも修正のあった箇所は区別して記録しておく。
【0040】
次に、第7の実施例の情報検索装置について説明する。
【0041】
図9は、本実施例における機能ブロック図であり、図1の構成と異なる点は、A/Dコンバータ4、D/Aコンバータ5、マイクロフォン7、スピーカ8がなく、その代わりに、画像データを取り込むための電子スチルカメラ13、取り込んだ画像データ用のA/Dコンバータ4’、ディジタル化された画像データを蓄積する画像メモリ12が設けられている点である。ここで、画像メモリ12、ディスク1等が画像データ記憶手段を構成し、ディスプレイプロセッサ6、ディスプレイ9等が画像データ表示検索手段を構成し、マイクロコンピュータ2、ディスプレイ9等が文字認識処理表示手段を構成し、キーボード11、マウス10等が領域指定手段を構成し、マイクロコンピュータ2等が文字修正手段を構成している。また図10は、図9の情報検索装置における処理フローである。
【0042】
まず、記録モード時には、電子スチルカメラ13から画像データを取り込み(ステップS501)、その画像データは画像用のA/Dコンバータ4’を経由して(ステップS502)、一旦画像メモリ12に蓄えられる。さらに画像メモリ12に蓄えられた画像データは、FAXと同様なランレングス符号化による圧縮を行った後(ステップS503)、ディスク1にファイルとして蓄えられる。
【0043】
また検索モードにおいては、検索対象ファイルと表示位置をブラウジングにて指定検索し(ステップS510)、ディスク1から再生されたランレングス符号データはメモリ3へ転送された後、マイクロコンピュータ2によって復号され(ステップS511)、ディスプレイプロセッサ6に送られて画像の間引き処理が行われ(ステップS512)、ディスプレイ9に画像情報として表示される(ステップS513)。
【0044】
もし文字領域をコード化する必要がある場合はユーザが変換領域を指定し(ステップS514)、指定範囲の文字画像がマイクロプロセッサ2により認識処理される。この時コード化された結果は認識対象となっている文字が明朝体なら明朝に、ゴシック体ならゴシックの形で大きさを同等にしてもとの文字画像に重ね色を変えて表示する。ユーザーはこのような対話処理の中で、もし文字認識誤りがあるなら修正し、このとき複数の認識候補があるならば認識システムはこれを表示し、ユーザがその中から選択する(ステップS515)。また文字編集してそのまま元の画像に付加して保存するか、あるいはコード化情報をそのまま記録または他のアプリケーションにて利用する。その後、他の箇所について処理を行うかどうかを指定し(ステップS516)、行わない場合は、検索モードを終了する。
【0045】
次に、第8の実施例の情報検索装置について説明する。
【0046】
図11は、本実施例における機能ブロック図であり、図9の第7の実施例と異なる点は、図形部品辞書及び文字図形の小部分の形を番地入力するとハッシュ表にて全体を読み出すメモリの機能を有する画像部品辞書メモリ14が設けられている点であり、他は図9と同じである。本実施例においては、画像メモリ12、ディスク1等が文字図形画像データ記憶手段を構成し、画像部品辞書メモリ14が図形部品辞書を構成し、ディスプレイプロセッサ6、ディスプレイ9等が表示手段を構成し、マイクロコンピュータ2、ディスプレイ9等が候補提示手段、検索手段を構成し、メモリ3、キーボード11、マウス10等が文字編集記憶検索手段を構成し、マイクロコンピュータ2等が類似図形部品辞書検索手段、図形部品化記述手段、認識処理手段を構成している。また図12は、本実施例における処理フローである。
【0047】
まず、記録時には、画像はスチルカメラ13から取り入れられA/Dコンバータ4’により二値化される(ステップS601)。さらにマイクロコンピュータ2により入力データの輪郭線が抽出され、得られた輪郭線を単純な円弧や角あるいはその組み合わせで記述できる小部品の集まりとして分解し、この部品データを数値化する(ステップS602)。次に、対象部品と隣接部品の数値から、辞書を引き図形全体輪郭データを取得する(ステップS603)。
【0048】
この後、得られた図形全体輪郭データと入力データ輪郭とを比較し、予め定めておいた差異値Lを越えていないかどうかを調べる(ステップS604)。もし誤差値が閾値以上なら再度辞書を引き、閾値以下なら入力データそのものを辞書に記述してある図形コード番号で記述する(ステップS605)。取り込まれた入力図形データは画面に表示し、同時に得られた辞書図形輪郭データと重ね表示する。文字のような解釈が問題になる図形輪郭については、操作者が必要に応じて文字修正、編集、候補提示選択を行い(ステップS606)、その後、選択された図形(文字)コードとその差異をディスク1に記録し、又、解釈が誤っていてもかまわないとするならそのままの図形(文字)コードとその差異をディスク1に書き込む(ステップS607)。
【0049】
また再生検索時には、必要なファイル等を指定した後(ステップS610)、ディスクからデータを読み込む(ステップS611)。このときファイルデータを表示するが、表示は差異データは表示せず図形(文字)コードのみを間引いて小さく表示し(ステップS612)、これをブラウジングで選択するか、また上記のファイルデータ検索時には図形(文字)コードから全コード検索する(ステップS613)。
【0050】
次に、文字図形コードの範囲を指定するか否かを選択し(ステップS614)、指定する場合は、検索して得られた図形データを差異を含めて大きく表示し、必要に応じて図形(文字)コードと差異データを重ねて表示し、図形(文字)コードを必要とする時には指定した範囲を認識修正処理あるいは編集する(ステップS615)。例えば取り込んだ図形がゴシック文字「A」であった場合、明朝体の「A」しか画像部品辞書になかった場合は、その差異のみが取り込んだ画像近傍に表示される。この場合コードフォント情報と文字情報のように上位のコードと下位のコードがあるがこれらは操作者が必要に応じて検索時、修正時に選んで使い分ける。その後、他の箇所について処理を行うかどうかを指定し(ステップS616)、行わない場合は、検索モードを終了する。
【0051】
以上、説明したように本発明によれば次のような効果を得ることができる。
(1)音声や画像を元データの情報を失わず蓄えることができ、認識誤りが問題にならなくなる。
(2)実際に検索を行った後にコード化という作業を行うため、ユーザに心理的負荷を与えない。
(3)圧縮と検索認識コード化までの統一的な処理が可能。
【0052】
なお、上記実施例では、いずれもコンピュータを用いてソフトウェア的に各機能を構成したが、これに代えて、同様の機能を専用のハードウェアにより実現してもよい。
【0053】
また、上記実施例では、いずれもデータのディスクへの蓄積を圧縮して行う構成としているが、これに限らず、生データをそのまま蓄積する構成としても適用可能である。
【0054】
【発明の効果】
以上述べたところから明らかなように本発明は、生データの情報が失われず、簡単に検索や整理を行うことができるという長所を有する。
【図面の簡単な説明】
【図1】本発明にかかる第1の実施例の情報検索装置の機能ブロック図である。
【図2】同第1の実施例における処理手順を示すフローチャートである。
【図3】同図(a)は、同第1の実施例におけるディスプレイ画面の一例を示す図、同図(b)は、ディスプレイ画面の別の一例を示す図である。
【図4】本発明にかかる第2の実施例の情報検索装置におけるディスプレイ画面の一例を示す図である。
【図5】本発明にかかる第3の実施例の情報検索装置における処理手順を示すフローチャートである。
【図6】本発明にかかる第4の実施例の情報検索装置の機能ブロック図である。
【図7】本発明にかかる第5の実施例の情報検索装置における処理手順を示すフローチャートである。
【図8】本発明にかかる第6の実施例の情報検索装置における処理手順を示すフローチャートである。
【図9】本発明にかかる第7の実施例の情報検索装置の機能ブロック図である。
【図10】同第7の実施例における処理手順を示すフローチャートである。
【図11】本発明にかかる第8の実施例の情報検索装置の機能ブロック図である。
【図12】同第8の実施例における処理手順を示すフローチャートである。
【符号の説明】
1 ディスク
2 マイクロコンピュータ
3 メモリ
6 ディスプレイプロセッサ
7 マイクロフォン
8 スピーカ
9 ディスプレイ
12 画像メモリ
Claims (6)
- 音響データを記憶する音響データ記憶手段と、
その記憶された音響データのうち、周波数領域データを画面上にバーグラフ状に折り返して全体の大まかな部位と詳細な特定部位として、生データあるいは周波数領域に変換された生データとともに、少なくとも2種類以上の長さの時系列にて表示を行う音響データ時系列表示手段と、
前記大まかな部位から操作者にブラウジング指定させて前記詳細な特定部位の表示を行い、この指定された詳細な特定部位の音響データの音声部分を音声認識し、前記認識結果を前記詳細な特定部位の時系列データの対応する位置に表示する音声認識表示手段と、
前記操作者の指示により範囲指定された音響データを音響再生する音響データ指示再生手段と、
前記詳細表示された認識結果に対して、前記操作者の指示により、文字の入力、修正、あるいは認識修正候補を提示しての置き換えを行い、その編集結果を記憶する文字入力編集記憶手段とを備えたことを特徴とする情報検索装置。 - 前記音響データ時系列表示手段は、無音区間と判定される部位をそのまま時系列表示せずに、一定無音区間毎の長さを記号に変換して表示し、または音声認識不可能な音を特定の記号で表示することを特徴とする請求項1記載の情報検索装置。
- 前記音響データ記憶手段は、音響データを周波数領域に変換して圧縮保存するものであり、
音響データ時系列表示手段は、前記音響データを、その表示時に周波数領域データとして表示するものであり、前記音声認識表示手段は前記の周波数領域に変換された前記中間処理結果に対して音声認識するものであり、前記音響データ指示再生手段は、前記周波数領域のデータを再び時間領域に変換して再生するものであることを特徴とする請求項1記載の情報検索装置。 - 前記音響データ記憶手段は、複数のマイクにより複数の話者の音響データを識別して記憶するものであり、前記音響データ時系列表示手段は、前記複数の話者毎に区別して音響データを表示することを特徴とする請求項1記載の情報検索装置。
- 前記音響データ記憶手段は、前記音響データを周波数領域の時系列データに変換した時系列周波数領域情報を記号化圧縮保存する記号化圧縮記憶手段を有し、
文字を音韻に対応させた文字音韻対応表に基づき、操作者が指定した検索文字から音韻を得て音韻を時系列周波数領域情報の検索記号列に変換する検索記号列作成手段と、
前記検索記号列と前記記号化圧縮記憶手段に記録された記号列との近似マッチングを行う記号列近似マッチング手段とを更に備え、
前記文字入力編集記憶手段によって修正された文字の音韻を前記文字音韻対応表に順次反映させることを特徴とする、請求項1に記載の情報検索装置。 - 前記音響データ記憶手段は、前記音響データを周波数領域に変換して記憶し、
前記音響データを記憶する際に、入力された短時系列データ毎に周波数領域の互いの類似性を調べて各類似データ毎にデータ配列を作り、前記各類似データの中心値と音響データの変動値により類似データ配列番号に対応させて記録する類似データ配列番号記録手段と、
前記記憶された音響データを操作者の指示に応じて、時系列対応して前記類似データ毎に表示選択すると共に、前記類似データ配列番号で全数検索を行い表示する音響データ表示検索手段と、
前記類似データ配列番号と前記音声認識表示手段の音声認識結果との対応表を更新する対応表更新手段とを更に備え、
前記音声認識表示手段は、前記類似データ配列番号記録手段で記録されたデータに対して表示時に音声認識し、音声部分の認識結果を前記表示された時系列に対応する位置に表示し、
前記音響データ指示再生手段は、前記操作者の指示により範囲指定された音響データを、前記類似データの中心値と音響データの変動値から再び時間領域に変換して音響再生し、
前記対応表更新手段は、前記文字入力編集記憶手段により訂正され対応づけられた前記類似データ配列番号と音声認識結果の対応表を更新することを特徴とする、請求項1に記載の情報検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12138895A JP3594359B2 (ja) | 1995-05-19 | 1995-05-19 | 情報検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12138895A JP3594359B2 (ja) | 1995-05-19 | 1995-05-19 | 情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08314494A JPH08314494A (ja) | 1996-11-29 |
JP3594359B2 true JP3594359B2 (ja) | 2004-11-24 |
Family
ID=14809968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12138895A Expired - Fee Related JP3594359B2 (ja) | 1995-05-19 | 1995-05-19 | 情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3594359B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4466564B2 (ja) * | 2003-09-08 | 2010-05-26 | 日本電気株式会社 | 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム |
JP4558308B2 (ja) | 2003-12-03 | 2010-10-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
JP4924990B2 (ja) * | 2008-03-13 | 2012-04-25 | 富士ゼロックス株式会社 | 文書処理装置および文書処理プログラム |
CN114613361B (zh) * | 2022-02-14 | 2024-05-28 | 广西大学 | 一种语音反馈和交互系统及方法 |
-
1995
- 1995-05-19 JP JP12138895A patent/JP3594359B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08314494A (ja) | 1996-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
EP1490861B1 (en) | Method, apparatus and computer program for voice synthesis | |
US6405169B1 (en) | Speech synthesis apparatus | |
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
JPH10274997A (ja) | 文書読み上げ装置 | |
JPS62239231A (ja) | 口唇画像入力による音声認識方法 | |
JPH08212228A (ja) | 要約文作成装置および要約音声作成装置 | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
US6148285A (en) | Allophonic text-to-speech generator | |
US5307442A (en) | Method and apparatus for speaker individuality conversion | |
KR20060008330A (ko) | 음성 합성 장치, 음성 합성 방법 및 프로그램 | |
JP3594359B2 (ja) | 情報検索装置 | |
US8538244B2 (en) | Recording/reproduction apparatus and recording/reproduction method | |
KR100348901B1 (ko) | 오디오/영상물의 음향적 장면분할방법 | |
JP3222283B2 (ja) | 案内装置 | |
JPH10274999A (ja) | 文書読み上げ装置 | |
JP4531546B2 (ja) | 制御信号を利用したインデックス付与システム | |
JPH10133678A (ja) | 音声再生装置 | |
JP2002123282A (ja) | 翻訳装置および記録媒体 | |
JP2686085B2 (ja) | 音声認識システム | |
KR102274275B1 (ko) | 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법 | |
JPH05224689A (ja) | 音声合成装置 | |
JPH11275205A (ja) | 自動ダイヤル用音声コマンドシステム | |
JPH07272447A (ja) | 音声データ編集システム | |
JP3426957B2 (ja) | 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20031219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040824 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040831 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080910 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090910 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100910 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110910 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |