JP4587165B2

JP4587165B2 - 情報処理装置及びその制御方法

Info

Publication number: JP4587165B2
Application number: JP2004249014A
Authority: JP
Inventors: 英生久保山; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-08-27
Filing date: 2004-08-27
Publication date: 2010-11-24
Anticipated expiration: 2024-08-27
Also published as: JP2006065675A; US20060047647A1

Description

本発明は、データ検索方法および装置に関する。

デジタルカメラのような携帯型撮像装置により撮像されたデジタル画像は、パーソナルコンピュータ（ＰＣ）やサーバコンピュータ等で管理することができる。例えば、撮影した画像を、ＰＣあるいはサーバ上のフォルダ内に整理したり、特定の画像を印刷したり、あるいは、年賀状の絵の一部として組み込むことも可能である。また、サーバで管理する場合には、一部の画像を他のユーザに公開することも可能である。

このような作業を行う場合には、ユーザの意図する特定の画像を見つけ出すことが必要となる。見つけ出す対象となる画像数が少ない場合は、画像をサムネイル表示し、その一覧から目視で見つけ出すことも可能である。しかし、対象となる画像数が何百となる場合や、対象画像群が複数フォルダに分断されて格納されている場合は、目視で見つけ出すことが困難になる。

これに対し、撮像装置上で画像に音声アノテーション（音声による注釈）を付け、検索時にその情報を使うことが行われている。例えば、山の画像を撮像し、その画像に対して「箱根の山」と発声する。この音声データは、先の画像データと対となって撮像装置内に格納された後、その画像撮像装置内あるいは画像をアップロードしたＰＣ内で音声認識され、“はこねのやま”というテキスト情報に変換される。アノテーションデータがテキスト情報に変換されれば、後は一般的なテキスト検索技術で処理することが可能であり、「やま」、「はこね」等の単語でその画像を検索することが出来る。

この他、本発明に関連する先行技術として、ユーザが入力した検索キーを登録する技術を開示している特許文献１がある。同文献は、ユーザが入力した検索キーを、同義語等を用いて既存のキーワードの演算式としてシステムに登録する技術を開示している。

特開平２−２７４７９号公報

音声認識で音声アノテーションを変換して検索する場合、音声認識の誤認識は完全には避けられないのが現状である。誤認識の割合が大きい場合には検索キーを正しく入れてもマッチングの相関が悪く、正しく検索されない。このような場合にはいかに検索語を入れようとも、音声認識の結果が悪いため、所望の画像データが上位候補として検索されないという問題がある。

したがって、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していてもデータの検索精度を高めることのできる技術を導入する必要がある。

上記した問題を解決するために、例えば本発明の一側面に係る情報処理装置の制御方法は、以下の構成を備える。すなわち、複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置の制御方法であって、入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第１の音素列を得る解析ステップと、計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第２の音素列と前記解析ステップで得られた前記第１の音素列との音素マッチングを行うことにより、前記第２の音素列の前記第１の音素列に対する相関度を計算する計算ステップと、表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが１又は２以上のコンテンツデータを選択する操作を受け付ける受付ステップと、登録手段が、前記解析ステップで得られた前記第１の音素列を、前記受付ステップにおいて前記ユーザが選択した１又は２以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップとを有することを特徴とする。

本発明によれば、音声認識の誤認識を伴って生成されたアノテーションが検索対象のデータに付属していても、データの検索精度を高めることが可能になる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

図１Ａは、本発明の一実施形態に係るデータ検索装置の機能構成を示す図である。同図において、１００はデータベースである。１０１は、データベース１００に蓄積される画像やドキュメントなどをコンテンツとする複数の検索対象データである。検索対象データ１０１は例えば図１Ｂに示すような構造で、画像やドキュメントなどのコンテンツデータ１０２を有するほか、コンテンツデータ１０２に対応する、音声によって注釈をつけた音声アノテーションデータ（音声メモデータ）１０３、音声アノテーションデータ１０３の音声認識によって得られた音素列や音節列や単語列などのサブワード列（本実施形態では音素列で説明する）を含むアノテーションデータとしての音声認識結果アノテーションデータ１０４が付属する。

１０５は、所望のコンテンツデータ１０２を検索するために検索キーを入力する検索キー入力部である。１０６は、検策キーでマッチングを取るために、音声認識結果アノテーションデータ１０４と同様の書式のサブワード列に検索キーを変換する検索キー変換部である。１０７は、データベース１００内の複数の音声認識結果アノテーションデータ１０４と検索キーとでマッチングを取り、それぞれの音声認識結果アノテーションデータ１０４に対する相関度スコアを求め、音声認識結果アノテーションデータ１０４に対応するコンテンツデータ１０２を順位付けする検索部である。１０８は、検索部１０７によって順位付けされたコンテンツデータ１０２を順位順に表示する表示部である。１０９は、表示部１０８に表示されたコンテンツデータ１０２の中から、ユーザが所望するデータを選択するユーザ選択部である。１１０は、ユーザ選択部１０９においてユーザが選択したデータに対応する音声認識結果アノテーションデータ１０４に、検索キーのサブワード列を追加的に登録するアノテーション登録部である。

本実施形態におけるデータ検索装置の機能構成は概ね上記のとおりである。また、このデータ検索装置における処理は、図１の上のブロックから順次、行われる。つまり、この図１は、このデータ検索装置による処理フローをも表している。そこで、以下ではこの図１を参照して、本実施形態におけるデータ検索装置の処理の流れを詳細に説明する。

上記したように、画像やドキュメントなどコンテンツとする検索対象データ１０１には、対応する音声アノテーションデータ１０３及びこの音声アノテーションデータを音声認識した結果である音声認識結果アノテーションデータ１０４が含まれる（図１Ｂを参照。）。ここで、音声認識結果アノテーションデータ１０４は、本装置に音声認識部を設けておいて作成するようにしてもよいし、画像を撮像するカメラなど、別の装置上に設けられた音声認識部を利用して作成するようにしてもよい。また、本発明においてデータ検索に使用されるのは音声認識結果アノテーションデータ１０４であるため、音声認識結果アノテーションデータ１０４が作成された後は、音声アノテーションデータ１０３は存在しなくとも構わない。

図２に、音声認識結果アノテーションデータ１０４の一例を示す。同図の２０１は、音声アノテーションデータ１０３を音声認識して音素列に変換した認識結果音素列であり、尤度等に基づく認識スコアの高い上位Ｎ位（Ｎは１以上の整数）までが順番に並んでいる。

まず、ユーザは検索キー入力部１０５に検索キーを入力する。入力された検索キーは検索キー変換部１０６に渡され、その検索キーが認識結果音素列２０１と同じ形式の音素列に変換される。

図３は検索キーを音素列に変換する様子を表している。検索キー「箱根の山」を、形態素解析し、単語列に分割する。さらに、単語列に読みを付与し、音素列を得る。形態素解析、読み付与の方法は公知の自然言語処理技術を適用することができる。

次に、検索部１０７において、検索キーの音素列と、各検索対象データ１０１における音声認識結果アノテーションデータ１０４とで音素マッチングを取り、検索キーとの相関度を表す音素正解精度を求める。マッチングは、公知のＤＰマッチング法などにより行うことができる。

図４は音素正解精度を求める様子を表している。音素正解精度は、ＤＰマッチング等により正解数、挿入誤り数、削除誤り数、置換誤り数が得られたときに、次式により求める。

｛（正解数）―（挿入誤り数）―（削除誤り数）―（置換誤り数）｝×１００／（正解数）

図４においては、挿入誤りが“o”と“a”の２箇所、そして“h”を“f”として誤った置換誤りが１箇所であり、音素正解精度は７５％となる。このようにして求めた音素正解精度を、検索に用いるスコアとしてコンテンツデータ１０２をランキングする。ここで、図２の音声認識結果アノテーションデータは上位Ｎ位の認識結果音素列が存在するが、マッチングはこれらそれぞれと行って音素正解精度を求め、最も良い音素正解精度及び認識結果音素列を採用する。ただし本発明はこれに限るものではなく、順位によって重み係数を音素正解精度にかけてから最大値を取ったり、総和を取ったりしても良い。

次に、表示部１０８によりデータを検索順位順に表示する。図５に、表示部１０８がデータ（ここでは画像）をウインドウに表示する例を示す。同図においては、ウインドウの左のフレームで検索キーを入力して検索ボタンを押すと、同ウインドウの右のフレームにコンテンツデータ１０２が検索順位順に表示される。

ここで、ユーザは、表示されているデータから１または２以上のデータを選択することができる。先述したように、音声認識の際に認識誤りを起こしている可能性があるから、所望のコンテンツデータは上位に現れず、下位の方にかろうじて現れている場合もある。そこで、本実施形態では、たとえ上位に検索されなくとも、ユーザが所望の画像であるとしてここで選択をすれば、以下の処理によって、同じ検索キーで再度検索する際には確実に上位で検索することが可能になる。

すなわち、ユーザ選択部１０９は、ユーザの選択操作に従いデータを選択する。これに応じ、アノテーション登録部１１０は、検索キーを変換した音素列を、選択したデータに対応する音声認識結果アノテーションデータ１０４に追加的に登録する。

図６にその様子を示す。同図において、６０１はポインタであり、これを用いてユーザは表示されているデータのうち一つを選択する。このときのデータ選択手法としては、画像を指定できる方法であればどのような方法でも構わない。例えば、ユーザによってクリックされた画像をそのまま選択しても良いし、ユーザによってクリックされた画像について、選択するかをユーザに問い合わせ、その後ユーザからＯＫが得られた場合に選択するようにしてもよい。６０２は、検索キーを変換した音素列で、この音素列が、選択されたデータに対応する音声認識結果アノテーションデータ１０４に追加的に登録される。これにより、再び全く同じ検索キーを入力して検索するときには、図４に示した音素正解精度が１００％となって１位もしくはそれに順ずる順位で検索できるし、一部が同じ検索キーを入力する場合にも、部分マッチングの技術を用いて検索する場合に検索精度を上げることができる。

図７に、本実施形態におけるデータ検索装置のハードウエア構成例を示しておく。

同図において、７０１は、データやＧＵＩなどを表示する表示装置である。７０２は、検索キーなどを入力したりＧＵＩボタンを押下するためのキーボード／マウスである。７０３は、音声アノテーションデータや警告音などの音を出力するスピーカなどを含む音声出力装置である。７０４は、データベース１００や本データ検索方法を実現するための制御プログラムを保持するＲＯＭである。もっとも、ハードディスクなどの外部記憶装置を別途設け、ここにデータベース１００や本データ検索方法を実現するための制御プログラムを保持させてもよい。７０５は、主記憶装置として機能し、特に、本データ検索方法のプログラム実行時に、当該プログラムやデータ等を一時的に記憶するＲＡＭである。７０６は、本装置の制御を司るＣＰＵで、特に、本データ検索方法を実現するための制御プログラムを実行する。

上述の実施形態では、サブワードとして音素を用いたマッチングによるスコアを用いたが、本発明はこれに限るものではなく、例えば音素ではなく音節でのマッチングや、単語単位でのマッチングによるスコアでも良い。また、これに音声認識で求まる認識尤度を加味したり、音素間の類似度（“p”と“t”は類似度が高いなど）を用いてスコアの重み付けをしたりしても良い。

また、上記実施形態では、図４に示すとおり音素列の全体マッチングによる音素正解精度を検索のためのスコアとして用いたが、挿入誤りによるスコアの劣化を抑えるなどとしたスコアの工夫により検索キーの部分的なマッチングによって検索しても良い。この実施形態では、例えば音声認識結果アノテーションデータに「箱根の山」というアノテーションが付与されているときに、部分マッチングにより「箱根」、「山」を検索キーとして検索が可能となる。

また、上記実施形態における音声認識結果アノテーションデータ１０４は、図２に示したように、音素列２０１のみが並ぶデータとして説明したが、その他の態様を適用することもできる。例えば、それぞれの音素列に属性をつけ、音声認識で作成された音素列なのか、アノテーション登録部１１０によって検索キーの音素列が追加されたものなのかを区別する。

図８にこの変形例における音声認識結果アノテーションデータ１０４を示す。同図において、８０１はそれぞれの音素列が生成された属性である。ここで、属性値“phonemeASR”は音素列認識型の音声認識によって作成された音素列であることを表し、“user”はユーザがデータを選択したときにアノテーション登録部１１０によって追加された音素列であることを表す。これを用いて、検索時に使用された音素列によって表示方法を切り替えたり、またはアノテーション登録部１１０によって追加登録された音素列を消去したりすることができる。また、この属性はこれに限るものではなく、音声認識でも属性値によって音素列認識／単語列認識などを判断できるようにしても良い。

また、上記実施形態の音声認識結果アノテーションデータ１０４は、図２に示したように、上位Ｎ個の認識結果を音素などのサブワード列として保持されていたが、本発明はこれに限らず、各サブワードで構成するラティス（サブワードグラフ）を出力し、ラティスの始端から終端までのそれぞれのパスにおいて音素正解精度を求めても良い。

図９にサブワードグラフの例を示す。同図において、９０１はサブワードグラフのノードであり、図９の例では音素ごとにノードを形成する。９０２は、ノードを結ぶリンクであり、これによって音素の連鎖を表現する。リンクには、リンクが結ぶノード間の音声認識区間尤度が割り振られていることが一般的であり、この音声認識区間尤度を用いると、Ａ＊探索という手法により上位Ｎ個の音素列候補を抽出できる。この候補と検索キーとのマッチングにより、音素正解精度を得る。

この場合、アノテーション登録部１１０が音素列を追加する場合には、図９のサブワードグラフに必要なノードを追加しても構わないし、図１０に示すように音声認識によって生成された音素列のグラフとアノテーション登録部１１０によって登録された音素列のグラフとを分けて保持しても構わない。また、アノテーション登録部１１０が追加する音素列が、既に図９のサブワードグラフのパスに存在する場合には、そのパスがＡ＊探索によって選択されるようにリンク９０２の音声認識区間尤度を変更するように実装しても構わない。

また、上記実施形態においては、アノテーション登録部１１０は検索キーの音素列を音声認識結果アノテーションデータ１０４に追加登録するものとして説明したが、本発明はこれに限るものではなく、例えば、認識結果上位Ｎ個の音素列のうちＮ番目の音素列（すなわち、音声認識結果アノテーションデータ１０４において認識スコアが最下位の音素列）を検索キーの音素列に置換するようにしても構わない。

（その他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

図１Ａは、本発明の実施形態におけるデータ検索装置の機能構成および処理フローを示す図である。図１Ｂは、本発明の実施形態における検索対象データの構造例を示す図である。図２は、本発明の実施形態における音声認識結果アノテーションデータの一例を示す図である。図３は、本発明の実施形態における検索キー変換部による処理を説明する図である。図４は、本発明の実施形態における検索部による音素マッチング処理を説明する図である。図５は、本発明の実施形態における表示部による検索結果の表示例示す図である。図６は、本発明の実施形態におけるアノテーション変更部による処理を説明する図である。図７は、本発明の実施形態におけるデータ検索装置のハードウエア構成例を示すブロック図である。図８は、本発明の実施形態における音声認識結果アノテーションデータの変形例を示す図である。図９は、本発明の実施形態におけるサブワードグラフの例を示す図である。図１０は、本発明の実施形態におけるアノテーション変更部による音素列の追加処理の変形例を説明する図である。

Claims

複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置の制御方法であって、
入力手段が、ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力ステップと、
解析手段が、前記入力ステップで入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第１の音素列を得る解析ステップと、
計算手段が、前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第２の音素列と前記解析ステップで得られた前記第１の音素列との音素マッチングを行うことにより、前記第２の音素列の前記第１の音素列に対する相関度を計算する計算ステップと、
表示制御手段が、前記複数のコンテンツデータを、前記計算ステップで計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御ステップと、
受付手段が、前記表示部に表示された前記複数のコンテンツデータからユーザが１又は２以上のコンテンツデータを選択する操作を受け付ける受付ステップと、
登録手段が、前記解析ステップで得られた前記第１の音素列を、前記受付ステップにおいて前記ユーザが選択した１又は２以上のコンテンツデータに対応付けて前記データベースに登録する登録ステップと、
を有することを特徴とする情報処理装置の制御方法。
複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置であって、
ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段と、
前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第１の音素列を得る解析手段と、
前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第２の音素列と前記解析手段により得られた前記第１の音素列との音素マッチングを行うことにより、前記第２の音素列の前記第１の音素列に対する相関度を計算する計算手段と、
前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段と、
前記表示部に表示された前記複数のコンテンツデータからユーザが１又は２以上のコンテンツデータを選択する操作を受け付ける受付手段と、
前記解析手段により得られた前記第１の音素列を、前記ユーザが選択した１又は２以上のコンテンツデータに対応付けて前記データベースに登録する登録手段と、
を有することを特徴とする情報処理装置。
複数のコンテンツデータと、前記複数のコンテンツデータの検索のための、各コンテンツデータの注釈を表すアノテーションデータとを対応付けて記憶するデータベースを有し、各アノテーションデータは、対応するコンテンツデータの注釈を表す音声データを入力し、該音声データに対し音声認識を行うことによって作成されるように構成された情報処理装置によって実行されるプログラムであって、前記情報処理装置を、
ユーザによる操作に応答して、検索条件に相当する検索キーを入力する入力手段、
前記入力手段により入力された前記検索キーに対して形態素解析を行うことにより前記検索キーを単語列に分割し、各単語列に読みを付与し、第１の音素列を得る解析手段、
前記データベースに登録されている各アノテーションデータについて、そのアノテーションデータを構成する第２の音素列と前記解析手段により得られた前記第１の音素列との音素マッチングを行うことにより、前記第２の音素列の前記第１の音素列に対する相関度を計算する計算手段、
前記複数のコンテンツデータを、前記計算手段により計算された前記相関度でランキングした順序に並べて表示部に表示させる表示制御手段、
前記表示部に表示された前記複数のコンテンツデータからユーザが１又は２以上のコンテンツデータを選択する操作を受け付ける受付手段、
前記解析手段により得られた前記第１の音素列を、前記ユーザが選択した１又は２以上のコンテンツデータに対応付けて前記データベースに登録する登録手段、
として機能させるためのプログラム。
請求項３に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。