JP4738847B2 - データ検索装置および方法 - Google Patents

データ検索装置および方法 Download PDF

Info

Publication number
JP4738847B2
JP4738847B2 JP2005063149A JP2005063149A JP4738847B2 JP 4738847 B2 JP4738847 B2 JP 4738847B2 JP 2005063149 A JP2005063149 A JP 2005063149A JP 2005063149 A JP2005063149 A JP 2005063149A JP 4738847 B2 JP4738847 B2 JP 4738847B2
Authority
JP
Japan
Prior art keywords
data
subword
search
recognition
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005063149A
Other languages
English (en)
Other versions
JP2006243673A (ja
JP2006243673A5 (ja
Inventor
寛樹 山本
康弘 小森
耕平 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005063149A priority Critical patent/JP4738847B2/ja
Publication of JP2006243673A publication Critical patent/JP2006243673A/ja
Publication of JP2006243673A5 publication Critical patent/JP2006243673A5/ja
Application granted granted Critical
Publication of JP4738847B2 publication Critical patent/JP4738847B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ検索技術に関し、特に、音声認識を用いて、音声情報が付与されたマルチメディアデータを検索するデータ検索技術に関する。
音声はキー入力に不慣れな人やキーボードを設置するのが物理的に困難な小型機器での情報入力手段として有効である。現在市販されているデジタルカメラの多くは録音機能を搭載しており、撮影した画像に音声でメモをつけることができる。また、ICレコーダの利用事例として、ICレコーダを携帯し、日常のメモ代わりに音声メモ機能を利用する事例も増えている。これらの録音された音声は単に再生するにとどまらず、音声認識を利用して検索に利用することができる。
音声認識を利用した音声データの検索のタイプは次の二通りが考えられる。
(1)あらかじめ検索に用いるキーワード(あるいはフレーズ)が決められているもの。
(2)任意のキーワード(あるいはフレーズ)を使用できるもの。
(1)の場合、検索対象となる音声データに対して、あらかじめ決められたキーワードを含んだ認識辞書あるいは認識文法を用いて音声データを音声認識した認識結果を記憶しておき、ユーザが指定した検索用キーワードと一致あるいは部分一致する認識結果となる音声データを検索結果として提示する。音声認識の方法としてキーワードスポッティングを用いて音声データからキーワードを抽出してもよい。この方法の利点は、検索に先立って音声入力時に音声認識を実行できる点である。計算量の多い音声認識処理を事前に行っておけば、認識結果と検索用キーワードとの文字列同士の比較という比較的計算量の少ない処理だけで検索できる。しかしながら、認識辞書あるいは認識文法に含まれるあらかじめ決められたキーワードしか音声認識できないため、付与する音声の内容が制限され、音声メモの付与・検索という活用目的で利用する場合にはその活用範囲が制限されることになる。この方法を実現した従来技術の一例が、特開2003−219327公報(特許文献1)に開示されている。
(2)の場合、検索時にユーザが入力したキーワード(あるいはフレーズ)を認識辞書あるいは認識文法を用いて音声データを音声認識し、ユーザが指定した検索用キーワードと一致あるいは部分一致する認識結果となる音声データを検索結果として提示する。音声認識の方法としてキーワードスポッティングを用いて、ユーザが指定した任意のキーワードが音声データ内に含まれるかどうかを判定しても良い。この方法を実現した従来技術の一例が、特開平10−173769号公報(特許文献2)に開示されている。この特許文献2に開示された音声メッセージ検索装置では、ユーザが入力したキーワード文字列を不特定話者の標準パターンに変換して、この標準パターンを用いてキーワードスポッティング音声認識を行い、音声メッセージ中でキーワードが検出された箇所が再生される。この方法の利点は、任意の内容を音声入力でき、任意のキーワードで検索できる点である。しかしながら、検索用のキーワードを入力してから音声認識を実行するので、検索時に計算量の多い音声認識を実行する必要があり、検索対象とする音声データが大量にある場合は検索に時間がかかるという問題がある。
特許文献1および2の欠点を解消する検索方法の一例が、特開2002−278579公報(特許文献3)に開示されている。特許文献3に開示されている音声データ検索装置では、検索対象となる音声データ(特許文献3では「音声波形データ」)を音声シンボル列に変換したものを記録しておき、キーワード(特許文献3中では「検索語」)を音声シンボル列に変換して、記憶されている音声データを変換した音声シンボル列と一致する部分を検索し、検索された部分に対してキーワードと一致しているか否かを判定する。この判定にキーワードスポッティング音声認識装置を用いることが特許文献3の請求項4に記載されている。この方法では、検索対象となる音声データの音声シンボル列への変換を検索に先立って事前に行うことにより、検索時にシンボルレベルでの高速な候補の絞込みが実現され、さらに絞り込まれた候補に対してより正確な音声認識を用いた検索を実施することで、任意のキーワードに対して、正確で従来よりも高速な検索が実現できる。
特開2003−219327公報 特開平10−173769号公報 特開2002−278579公報
特許文献3の方法では、シンボルレベルでのマッチングの際にキーワードと一致した部分のみを候補として絞り込むため、音声データを音声シンボル列に変換する際に誤った音声シンボル列に変換された候補は検索できないという問題がある。
特許文献3には、音声データから音声シンボル列への変換に音素認識結果を用いた例が開示されている。日本語の音素認識の場合、一般に70〜80%の認識率で性能が良いとされている。つまり、いかに高性能な音素認識を用いても、音素認識結果には誤りが含まれることになる。特許文献3には、この対策として、音素認識結果から一般に誤りやすいとされる子音を無視して有音母音、長母音、発音、無音のみの音声シンボル列へ変換する方法や、コンフュージョンを起こしやすい子音をグループ化して1つの音節として扱う方法が開示されている。前者は例えば、「h a k o n e(ハコネ)」という音素認識結果に対して、「a a e(アアエ)」という音声シンボル列に変換する。後者は、例えばkとpとtを同じグループとしてtに置き換え、「h a k o n e(ハコネ)」を「h a t o n e(ハトネ)」にマッピングする。入力されたキーワードにも同様のマッピングを行うので、子音の音素認識を誤っても検索することができる。
しかしながら、音素認識誤りは子音だけではなく母音にもしばしば起こる問題であるし、音素認識誤りは置換誤りだけではなく、脱落誤り、挿入誤りなども考えられる。前述の「h a k o n e(ハコネ)」の例では、例えば前述の「ハコネ」という音声データに対して、「h o k o n e(ホコネ)」(母音の認識誤り)、「h a k o n e e(ハコネー)」(挿入誤り)、「k o n e(コネ)」(脱落誤り)といった音素誤りが生じた場合、特許文献3に開示されている方法でキーワードを「ハコネ」として検索しても、検索できないという問題がある。これらの問題は、シンボルレベルで検索して候補を絞り込む際に、音声データの音声シンボル列からキーワードの音声シンボル列と一致する部分を検索するために生じている。
本発明は、このような問題点に鑑みてなされたものであり、音声認識を用いたデータ検索における検索精度を高めることを目的とする。
上記目的を達成するために、例えば本発明のデータ検索装置は以下の構成を備える。すなわち、本発明の一側面に係るデータ検索装置は、検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、ユーザにより入力されたキーワードを基にデータを検索するデータ検索装置であって、前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識手段と、前記キーワードをサブワード表現形式に変換する変換手段と、前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果と、前記変換手段によりサブワード表現形式に変換された前記キーワードとに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算手段と、前記類似度計算手段により計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第2の音声認識手段と、前記第2の音声認識手段の認識スコアに基づいて検索スコアを計算する検索スコア計算手段と、前記検索スコア計算手段により計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示手段とを有し、前記検索スコア計算手段は、前記検索スコアとして、前記類似度計算手段により計算された類似度と前記第2の音声認識手段により得られた認識スコアとの重み付き和を計算することを特徴とする
本発明によれば、音声認識を用いたデータ検索における検索精度を高めることができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
(実施形態1)
本実施形態では、データ検索装置の一例として、画像データに関連付けられた音声データを用いて画像データを検索する画像データ検索装置について説明する。なお、本発明に係る検索の対象は画像データに限定されるものではなく、文書、図形などその他の種類のデータにも適用が可能である。
図1は、本実施形態における画像データ検索装置の構成を示すブロック図である。
図1において、101は制御メモリ(ROM)、102は中央処理装置(CPU)、 103はメモリ(RAM)、104はハードディスクなどの外部記憶装置、105はキーやボタンなどの入力装置、106は液晶などの表示装置、107はバスである。画像データ検索処理を実現するための制御プログラム104aやその制御プログラムで用いるデータ(後述する言語処理用データ210、マルチメディアデータ211、音声認識用データ213)やサブワード認識結果212は、例えば外部記憶装置104に記憶される。このような構成であるから、本画像データ検索装置は汎用のコンピュータによっても実現することが可能である。
これらの制御プログラムやデータは、中央処理装置102の制御のもと、バス107を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。言うまでもないことであるが、制御プログラムやデータは制御メモリ101に記憶してもよい。
図2は、本実施形態における画像データ検索装置の機能構成を示すブロック図である。
制御部201は、他の機能モジュール間の連携やシステム全体の処理を制御する。キーワード取得部203は、画像検索時にユーザが入力装置105から入力するキーワードを取得する。キーワード・サブワード変換部203は、後述の言語処理用データ210を参照してキーワード取得部202で取得したキーワードを後述するサブワード音声認識部205で用いるサブワード表現形式に変換する。「サブワード」とは、単語を構成する単語よりも小さい音声の単位の総称であり、音声認識では音節や音素を用いる場合が多い。
言語処理用データ210は、言語処理用辞書に含まれ、単語からサブワードに変換する際に必要なデータが記録されている。例えば、検索キーワードとして漢字やかなが混在した文字列が入力された場合に、キーワード・サブワード変換部203では、漢字の読みを推測し、推測された読みからかな文字列に変換し、かな文字列からサブワードに変換するといった処理を行うが、このときに必要な漢字に対する読みやかな文字からサブワードへの変換ルールなどが言語処理用データ210として記録されている。また、英語をはじめとする日本語以外の言語の場合は、単語に対応するサブワードを記述した変換テーブルを直接記述したテーブルを言語処理用データ210として用いるのが一般的である。
なお、以後、説明の簡略化のため、ユーザが入力したキーワードをサブワード表現形式に変換したものを「クエリサブワード」と記述する。
以下では、サブワードとして音節を用いた場合について説明する。キーワード取得部203で取得したキーワードが「箱根山」であった場合、キーワード・サブワード変換部により、「箱根山」は「は こ ね や ま」というクエリサブワードに変換される。
音声データ取り込み部204は、検索対象であるマルチメディアデータ211に記憶された画像データに関連付けられた音声データを取り込む。
本実施形態における画像データ検索装置が検索対象とするマルチメディアデータ211は、音声が関連付けられた画像データであり、データベースとして外部記憶装置104に記憶されている。画像データと関連する音声データは一つのデータとして統合されていても良いし、それぞれ独立したデータとして記憶し、画像データと音声データの関連を管理する別のデータを記憶しておいても良い。また、関連する音声データと画像データの拡張子部分を除いたファイル名を同じにして画像データと音声データの関連を管理しても良い。
サブワード認識部205は、検索対象となる全ての画像データについて、音声取り込み部204で取り込んだ音声を入力とし、サブワード表現形式 の認識結果を出力する音声認識を行い、得られた認識結果をサブワード認識結果212に記憶する。ここで用いる音声認識は、認識結果としてサブワード表現形式で記述されたものが得られれば良いので、音素タイプライタや音節タイプライタなどサブワード表現形式の認識結果を出力するサブワードを単位とした音声認識を行っても良いし、一般にディクテーションとして知られる大語彙連続音声認識を行って得られた認識結果をサブワードに変換するようにしてもよい。
サブワード音声認識は、各画像データごとに実行し、認識結果を記憶する際に画像データに関連付けて記憶する。画像データと認識結果を関連付ける方法は、前述した画像データと音声データの関連付けと同様の方法で実現できる。また、サブワード音声認識では、単一の認識結果だけでなく複数の認識結果候補を求めても良い。また、図1および2では、サブワード認識結果212と、画像および音声データを記憶するマルチメディアデータ211とを別々に図示しているが、サブワード認識結果を画像データや音声データと同様にマルチメディアデータ211に記憶しても良い。サブワード音声認識の際に必要な音響モデルをはじめとする各種データは音声認識用データ213に記憶されている。本実施形態の画像データ検索装置では、サブワード音声認識として音節認識を行い、認識スコアの高い上位3候補をサブワード認識結果212に記憶するものとする。
図4に、「箱根山」という音声データに対して得られるサブワード認識結果の一例を示す。本実施形態では、サブワード認識結果として認識スコアの上位3候補を求め、401で示される順位、402で示される認識結果の音節列、403で示される認識スコアを、認識スコアの順に記憶する。
サブワード類似度計算部206は、サブワード音声認識部205で得られたサブワード認識結果212とクエリサブワードを比較し、サブワード類似度を計算する。サブワード類似度は、マルチメディアデータ記憶部に記憶された各画像データごとに計算する。本実施形態の画像データ検索装置では、サブワード認識結果212に記憶された複数の音声認識候補について、クエリサブワードを正解とした場合の音節正解精度を求め、その最大値をサブワード類似度して計算する。図4に示したサブワード認識結果に対して、クエリサブワードが「は こ ね や ま」であった場合は、第1位(411)、第2位(412)、第3位(413)の音節認識結果に対して、それぞれクエリサブワードを正解とするサブワード正解精度としての音節正解精度を求める。音節正解精度は、クエリサブワードを正解とした場合に、正解に含まれる音節数をN、サブワード音声認識結果に含まれる挿入誤り音節数をI、置換誤り音節数をS、削除誤りをDとすると、((N−I−S−D)/N)×100で計算される。411に示した「ふぁ お ね や ま あ」を例にとると、 正解音節数N=5、挿入誤り音節数I=1(「あ」)、置換誤り音節数S=2(「ふぁ」、「お」)、削除誤り音節数D=0であるので、((5−1−2−0)/5)×100=40(%)となる。
同様に、第2位(412)の、「ふぁ お ね や ま」(N=5、I=0、S=2、D=0)は60(%)、第3位(413)、「ふぁ こ ね や ま」(N=5、I=0、S=1、D=0)は80(%)となる。したがって、これらの最大値である80(%)を、クエリサブワードと図4に示したサブワード認識結果との類似度とする。
以上のサブワード類似度計算部205におけるサブワード類似度の計算においては、サブワード音声認識で得られた複数のサブワード認識結果候補を用いたが、単に第1位のサブワード認識結果だけを用いても良い。また、複数のサブワード認識結果に対する音節正解精度の最大値を類似度として用いたが、各順位の音節正解精度に対して、順位(401)や認識スコア(403)に基づいて重み付けした値を求め、その最大値、あるいは和を類似度として用いても良い。また、音節正解精度ではなく、音節正解率や他の尺度を使って計算しても良い。また、言うまでもないことであるが、サブワード音声認識部205が出力するサブワード認識結果の単位、音素その他のサブワードである場合には、サブワード類似度はその単位を基に計算される方法(音素正解精度など)を用いて計算することになる。
キーワードスポッティング音声認識部207は、音声データ取り込み部204が取得した音声データを入力し、キーワード・サブワード変換部203でキーワードをサブワード表現形式に変換したクエリサブワードを認識対象語とするキーワードスポッティングを行い、認識スコアを求める。具体的には、音声認識用データ213に記憶されている音響モデルを用いて、クエリサブワードを表す音響モデルを構成し、この音響モデルを用いて、音声データ取り込み部204が取得した音声データを入力した際に計算される認識スコアを求める。キーワードスポッティングに必要な音響モデルをはじめとする各種データは音声認識用データ213に記憶されている。キーワードスポッティング音声認識はサブワード類似度計算部206で計算されたサブワード類似度に基づいて選択された画像データについてのみ行う。例えば、サブワード類似度が大きい所定個数の画像データを選択しても良いし、所定の閾値を越える画像データを選択しても良い。
検索スコア計算部208は、キーワードスポッティング音声認識で求まる認識スコアを基に、検索スコアを求める。本実施形態における画像データ検索装置では、単にワードスポッティング音声認識で求まる認識スコアを検索スコアとして用いるが、これに加えて、サブワード類似度計算部206で計算されたサブワード類似度や、サブワード認識結果212に記憶されているサブワード音声認識で求まった認識スコアなどを組み合わせて検索スコアとして用いても良い。例えば、サブワード類似度をA、ワードスポッティング音声認識で求まる認識スコアをB、αを実験的に求める定数として、A+α×Bのような重み付き和を検索スコアとしてもよい。
検索結果表示部209は、検索スコア計算部208で求まった検索スコアに基づいて選択した画像データを表示装置106に表示する。この際、検索スコアの最も良い画像データのみを表示してもよいし、検索スコアが所定の値を超える画像データを表示しても良いし、検索スコアの良い所定個数の画像データを表示しても良い。また、表示の際に検索スコア順に並べ替えて表示しても良いし、検索スコアにかかわらず、ファイル名など画像データに付随したほかの情報を基準に並べえて表示しても良い。
以上説明した機能モジュール構成で実現される画像データ検索装置による処理の流れを、図3のフローチャートを用いて説明する。このフローチャートに対応するプログラムは制御プログラム104aに含まれ、RAM103にロードされた後、CPU102によって実行される。
まず、音声データ取り込み部204により、マルチメディアデータ211に記憶された画像データに関連付けられた音声データを取り込む(ステップS301)。
次に、サブワード音声認識部206により、ステップS301で取り込んだ音声データを入力し、サブワード列を出力とする音声認識を行い(ステップS302)、その認識結果をサブワード認識結果212として記憶する(ステップS303)。前述した通り、ここで行う音声認識は、音素タイプライタや音節タイプライタなどのサブワードを単位とする音声認識を行っても良いし、ディクテーションに代表される大語彙連続音声認識を行って得られた認識結果をサブワードに変換して出力するようにしてもよい。ステップS303では、音節認識を行い、認識スコアの高い上位3候補の認識結果の音節列や認識スコアをサブワード認識結果212として記憶する。
ステップS301の音声の取り込み、ステップS302のサブワード音声認識、ステップS303のサブワード認識結果の記憶の処理は、マルチメディアデータ211に記憶された全ての画像データについて、各画像データごとに実行する。
次に、キーワード取得部202は、ユーザにより入力装置105を介して入力された画像検索用のキーワードを取得する(ステップS304)。取得したキーワードは、キーワード・サブワード変換部203でサブワード表現形式に変換する(ステップS305)。繰り返しになるが、サブワード表現形式に変換したキーワードをクエリサブワードと記述する。 また、本実施形態の画像データ検索装置では、クエリサブワードの表現形式は音節とする。
次に、サブワード類似度計算部205で、サブワード認識結果212として記憶されたサブワード認識結果とクエリサブワードとを比較し、サブワード類似度を計算する(ステップS306)。類似度の計算方法は、このサブワード類似度計算部205の機能に関して説明した通りである。このステップS306では、サブワード類似度を各画像データごとに計算する。
次に、サブワード類似度が大きい所定個数の画像データを選択し(ステップS307)、キーワードスポッティング音声認識部207により、その選択された画像データに関連づけられた音声データについて、キーワード・サブワード変換部203で求めたクエリサブワードを認識対象語とするキーワードスポッティングを行い、認識スコアを求める(ステップS308)。
次に、検索スコア計算部208により、ステップS308で求まった認識スコアを基に検索スコアを求め(ステップS309)、検索結果表示部209により、検索スコアの良い画像データを表示装置106に表示する(ステップS310)。
本実施形態の画像データ検索装置ではキーワードスポッティング音声認識で求まった認識スコアを検索スコアとして用いる。キーワードスポッティング音声認識で求まる認識スコアは、入力されたキーワードをサブワード表現形式に変換したクエリサブワードを認識対象語として求めているため、ステップS302で行った言語制約が緩いサブワード音声認識で得られる認識結果に基づいてステップS306にてサブワード類似度計算部206で計算された類似度に比べ、音声データの“キーワードらしさ”をより正確に表していることが期待できる。すなわち、このキーワードスポッティング音声認識で求まる認識スコアに基づいて、画像データを選択することにより、検索精度が向上することが期待できる。
以上説明した画像データ検索装置の処理では、説明の簡単のため、図3に示した全ての処理を一度に行う場合について説明したが、ステップS301〜S303の処理については、ユーザが入力するキーワードに依存しない処理であり、また、ステップS304以降の処理とは独立に実行できるため、ステップS304の処理に先立って事前に行っておくことが好ましい。つまり、ステップS301〜S303の処理は、画像データが更新された場合にのみ実行し、ステップS304以降のキーワードに依存した処理だけを、キーワードが入力される度に実行するように構成するのが望ましい。
以上説明した実施形態によれば、シンボルレベルの検索で候補を絞り込む際に、サブワード表現形式に変換した音声データとキーワードの類似度を基準にすることにより、従来の技術では検索できなかったサブワード表現形式に変換したものに変換誤りが含まれる音声データを、検索することができるようになる。
(実施形態2)
サブワード類似度計算部206における類似度の計算では、クエリサブワードがサブワード認識結果212に対して部分一致する場合に類似度が大きくなるような計算方法を用いても良い。その一例を以下で説明する。
実施形態1で用いた音節正解精度の計算式((N−I−S−D)/N)×100のかわりに、挿入誤り音節数Iに対して重みβをかけた式((N−β・I−S−D)/N)×100を用い、βの値を調節することでクエリサブワードが部分一致した場合のサブワード類似度の値を大きくすることができる。
クエリサブワードが「は こ ね」、サブワード音声認識結果が「は こ ね や ま」であった場合、実施形態1で用いた音節正解精度をサブワード類似度とした場合は、正解音節数N=5、挿入誤り音節数I=2(「や」「ま」)、置換誤り音節数S=0、削除誤り音節数D=0となり、サブワード類似度は((5−2−0−0)/5)*100=60となる。挿入誤り音節数に重みをかけた式((5−β・2−0−0)/5)*100を用いた場合、β=0.5にするとサブワード類似度は80、β=0にするとサブワード類似度は100になり、音節正解精度を用いた場合に比べクエリサブワードが部分一致したときのサブワード類似度が大きくなる。このようにクエリサブワードが部分一致したときにサブワード類似度が大きくなるようなサブワード類似度の計算方法を用いることで、データに関連付けられた音声データに部分一致するような検索キーワードを使った検索が実現できる。なお、上式において、β=0の時に求まる値は音節正解率、β=1とおいた場合は実施形態1で用いた音節正解精度になる。
また、音節正解精度や音節正解率と別の方法として、例えば音節認識結果から音節同士の間違えやすさを記述したコンフュージョンマトリクスを作成し、これを基にして音節間の距離を定義して、この距離を基にクエリサブワードとサブワード認識結果212の類似度を求めるようにしてもよい。言うまでもないが、これらの方法は音節に限らず、音素など他の認識単位を用いた場合でも適用可能である。
(実施形態3)
実施形態1では、サブワード認識結果212に記憶するサブワード音声認識結果として、402(図4)に示すような認識結果の音節列を記憶する場合について説明したが、本発明はこれに限るものではなく、ラティス構造やグラフ構造でサブワード認識結果を表現したものを記憶しても良い。その一例を図5に示す。図5は、ノードとリンクを用いたグラフ構造で表現した音節音声認識結果である。ノード501、ノード505はそれぞれ認識結果の開始、終了を意味し、音節認識結果を構成する各音節は、501、505の間のノードで表現されている。502のノードを例に説明すると、音節名「お」が503に、さらに音節「お」の区間で計算された音声認識スコアが504に記述されている。開始ノード501から終了ノード505に至る経路を辿ることで、音節認識結果とその認識スコアを求めることができる。認識スコアは辿った経路上の各ノードに記録されている、その区間の音声認識スコアの和によって求まる。図5に示した例では、
「ふぁ お ね や ま あ」、
「ふぁ お ね や ま」、
「ふぁ こ ね や ま あ」、
「ふぁ こ ね や ま」、
の4個の音節認識結果が表現されており、それぞれの認識スコアは、
「ふぁ お ね や ま あ」:50+41+40+50+30+22=233、
「ふぁ お ね や ま」:50+41+40+50+30=211、
「ふぁ こ ね や ま あ」:50+38+40+50+30+22=230、
「ふぁ こ ね や ま」:50+38+40+50+30=208、
となる。
このようにサブワード認識結果212がグラフ構造で記憶されている場合、ステップS306でサブワード類似度の計算を行う際に、グラフが表現する全てのサブワード列をサブワード類似度の計算対象にしても良い。例えば、図5で示したグラフ構造では、先に説明した4つの音節認識結果からサブワード類似度を求める。このかわりに、グラフが表現するサブワード列のうち認識スコアの高い所定数の候補のみを計算対象にしても良い。例えば、図5で示したグラフ構造において、認識スコアが高い上位3候補のみをサブワード類似度の計算対象にする場合には、「ふぁ お ね や ま あ」、「ふぁ お ね や ま」、「ふぁ こ ね や ま あ」を用いてサブワード類似度を計算する。あるいは、認識スコアに閾値を設け、閾値以上のサブワード列のみ計算対象にしてもよい。例えば、図5で示したグラフ構造において、認識スコアの閾値を230とする場合には、「ふぁ お ね や ま あ」、「ふぁ こ ね や ま あ」からサブワード類似度を計算する。サブワード認識結果がラティス構造で表現されている場合についても、グラフ構造同様にラティスから全てのサブワード列を抽出することにより、本実施形態と同様の処理が適用できることは言うまでもない。
(実施形態4)
上述の実施形態1乃至実施形態3では、画像データ検索装置を例として、ユーザがキーボードなどで検索用キーワードを入力する態様を説明したが、同様の構成で、キーワードを音声によって入力する装置も実現が可能である。
実施形態1において、入力されたキーワードをサブワード表現形式のクエリサブワードに変換する処理を、ユーザが音声で入力したキーワードをサブワード表現形式のクエリサブワードに変換する処理に置き換えることで、キーワードの音声入力を実現できる。実施形態1で説明した画像データ検索装置は、音声データからサブワード認識結果を求めるサブワード音声認識部205を備えており、このサブワード音声認識部205を利用することにより、キーワードとして入力された音声をサブワード表現形式のクエリサブワードに変換することができる。
以下、この詳細を実施形態1と同様に画像データ検索装置を例に説明する。
図6は、本実施形態における画像データ検索装置のハードウェア構成を示すブロック図である。これは、図1に示した実施形態1の画像データ検索装置の構成に、マイクロフォンなどの音声を入力するための音声入力装置108が追加された構成である。また、本実施形態における画像データ検索装置の機能構成は、図2に示した実施形態1の画像データ検索装置と同様の機能構成を有するので、ここでは図2を援用する。ただし、実施形態1とは異なる処理を行う機能モジュールがあるので以下で説明する。
キーワード取得部202は、音声入力装置108を介して音声で入力されるキーワード(キーワード音声)を取得する。以後の説明では、画像データに関連付けられた音声データと、ユーザによりキーワードとして入力された音声データとを区別するため、前者をこれまでどおり単に「音声データ」と記述し、後者を「キーワード音声」と記述する。
キーワード・サブワード変換部203は、取得したキーワード音声をサブワード表現形式に変換したクエリサブワードに変換する。キーワード音声からクエリサブワードへの変換には、サブワード音声認識部205によるサブワード音声認識を用いる。キーワード音声データを入力としてサブワード音声認識を行い、得られたサブワード表現形式の認識結果をクエリサブワードとする。実施形態1で説明したように、ここで用いる音声認識は、認識結果としてサブワード表現形式で記述されたものが得られれば良いので、音素タイプライタや音節タイプライタなどサブワード表現形式の認識結果を出力するサブワードを単位とした音声認識を行っても良いし、一般にディクテーションとして知られる大語彙連続音声認識を行って得られた認識結果をサブワードに変換するようにしてもよい。また、実施形態1における音声データのサブワード音声認識と同様に、キーワード音声のサブワード音声認識においても、単一の認識結果だけでなく複数の認識結果候補を求めてクエリサブワードとしてもよい。また、実施形態3で説明したようなラティス構造やグラフ構造で表現されたサブワード認識結果(以下「サブワードグラフ」と記述する。)を求めてクエリサブワードとしてもよい。すなわち、クエリサブワードの表現形式は、単一のサブワード列、複数のサブワード列、サブワードグラフのいずれの形式でも良い。
サブワード音声認識部205では、キーワード・サブワード変換部203におけるキーワード音声のサブワード音声認識に加え、実施形態1と同様に画像データに関連付けられた音声データのサブワード音声認識も行うので、本実施形態におけるサブワード音声認識部205では、検索用に入力されたキーワード音声と画像データに関連付けられた音声データの両方に対してサブワード音声認識を行うことになる。
サブワード類似度計算部206では、音声データをサブワード認識したサブワード認識結果212とキーワード・サブワード変換部203で求めたクエリサブワードとを比較し、サブワード類似度を計算する。前述したように、クエリサブワードの表現形式は、単一のサブワード列、複数のサブワード列、サブワードグラフのいずれの形式でも良い。同様に、実施形態1、実施形態3で説明したように、音声データのサブワード認識結果212の表現形式も、単一のサブワード列、複数のサブワード列、サブワードグラフのいずれの形式でも良い。
クエリサブワードがQ個のサブワード列、サブワード認識結果がN個のサブワード列である場合のサブワード類似度の計算方法の一例を図7のフローチャートを用いて説明する。この方法では、クエリサブワードのq番目のサブワード列を正解とするときの、サブワード認識結果のn番目のサブワード列のサブワード正解精度acc(q、n)を、1≦q≦Q、1≦n≦N について全て求め、その最大値をサブワード類似度として計算する。
なお、図7および以下の説明において記述されている式は、C言語等の記法に従っていることに留意されたい。すなわち、単一の等号「=」は「右辺の値を左辺に代入する」ことを意味し、二重等号「==」は「左辺と右辺の値が等しい」ことを意味する。
まず、ステップS701で、サブワード正解精度の最大値を示す変数max、クエリサブワードのサブワード列のインデックスqをそれぞれ0に初期化する。ステップS702で、クエリサブワードのサブワード列のインデックスqの値を1増分するとともに、サブワード認識結果のサブワード列のインデックスnを0に初期化する。続くステップS703では、サブワード認識結果のサブワード列のインデックスnの値を1増分する。
次に、クエリサブワードのq番目のサブワードを正解として(ステップS704)、サブワード認識結果のn番目のサブワード列のサブワード正解精度acc(q、n)を計算する(ステップS705)。acc(q、n)がサブワード正解精度の最大値maxよりも大きい場合(ステップS706)はmaxの値を当該acc(q、n)で置き換える(ステップS707)。全てのサブワード認識結果についてサブワード正解精度の計算を終えた場合(ステップS708においてnがNに等しくなった場合)は、ステップS703〜S708と同様の処理をインデックスqの値を1増分してクエリサブワードの次のサブワード列について行う。クエリサブワードの全てのサブワード列について、ステップS703〜S708の処理を終了したとき(ステップS709においてqがQに等しくなったとき)に求まっているサブワード正解精度の最大値maxをサブワード類似度とする(ステップS710)。なお、実施形態1で示したサブワード類似度の計算方法は、図7のフローチャートにQを1、Nを3、サブワードを音節として適用した場合に相当する。
以上の説明では、サブワード正解精度acc(q、n)(1≦q≦Q、1≦n≦N)の最大値をサブワード類似度として用いたが、acc(q、n)に認識スコアなどに基づいて重み付けした値を求めて、その最大値あるいは和をサブワード類似度として用いても良い。また、サブワード正解精度ではなく、実施形態2で説明したような音節正解率や他の尺度を使って計算しても良い。
クエリサブワードあるいはサブワード認識結果がサブワードグラフで得られている場合は、実施形態3で説明したようにサブワードグラフから複数のサブワード列を抽出して、抽出した複数(あるいは単数)のサブワード列に対して図7で示した処理を適用することでサブワード類似度を計算することができる。
キーワードスポッティング部207では、実施形態1と同様に音声データを入力、クエリサブワードを認識対象語とするキーワードスポッティングを行い、認識スコアを求める。クエリサブワードが複数のサブワード列として求まっている場合は、各サブワード列を認識対象語とし、クエリサブワードがサブワードグラフの形式で表される場合はサブワードグラフから抽出した複数のサブワード列を認識対象語とするキーワードスポッティングを行い、各認識対象語に対して求まった認識スコアの最大値を認識スコアとする。
以上の機能モジュール構成で実現した画像データ検索装置の処理手順を図8に示すフローチャートに示す。図3に示した実施形態1の画像データ検索装置の処理手順との違いは、ステップS304およびS305のかわりにステップS804およびS805が実行される点であるので、この部分のみ説明する。
実施形態1では、ステップS304においてキーワード取得部202が入力装置107から入力されたキーワードを取得したのに対し、本実施形態のステップS804では、キーワード取得部202は音声入力装置108から入力されたキーワード音声を取得する。
続くステップS805では、ステップS804で取得したキーワード音声をキーワード・サブワード変換部203でサブワード表現形式に変換するという点でステップS305と同一の処理であるが、本実施形態では先に説明したように、キーワード・サブワード変換部203からサブワード音声認識部205を駆動し、キーワード音声を入力とするサブワード音声認識を行い、得られた認識結果からサブワード表現形式のクエリサブワードを得る。
ステップS306以降の処理については、得られるクエリサブワードのサブワード列が複数になる場合の処理が追加されるが、実施形態1と同様の処理によって検索処理が実行される。
以上説明したように、本実施形態によれば、実施形態1と同様の構成で、検索用キーワードを音声入力可能なデータ検索装置が実現される。
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の実施形態における画像データ検索装置のハードウェア構成を示すブロック図である。 本発明の実施形態における画像データ検索装置の機能構成を示すブロック図である。 本発明の実施形態における画像データ検索装置によるデータ検索処理を示すフローチャートである。 本発明の実施形態におけるサブワード認識結果の一例を示す図である。 本発明の実施形態におけるグラフ構造で表現されたサブワード認識結果の一例を示す図である。 本発明の実施形態における、キーワードを音声によって入力するタイプの画像データ検索装置のハードウェア構成を示すブロック図である。 本発明の実施形態におけるキーワードを音声によって入力するタイプの画像データ検索装置によるサブワード類似度の計算処理を示すフローチャートである。 本発明の実施形態におけるキーワードを音声によって入力するタイプの画像データ検索装置による、データ検索処理を示すフローチャートである。

Claims (12)

  1. 検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、ユーザにより入力されたキーワードを基にデータを検索するデータ検索装置であって、
    前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識手段と、
    前記キーワードをサブワード表現形式に変換する変換手段と、
    前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果と、前記変換手段によりサブワード表現形式に変換された前記キーワードとに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算手段と、
    前記類似度計算手段により計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第2の音声認識手段と、
    前記第2の音声認識手段の認識スコアに基づいて検索スコアを計算する検索スコア計算手段と、
    前記検索スコア計算手段により計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示手段と、
    を有し、
    前記検索スコア計算手段は、前記検索スコアとして、前記類似度計算手段により計算された類似度と前記第2の音声認識手段により得られた認識スコアとの重み付き和を計算する
    ことを特徴とするデータ検索装置。
  2. 前記第1の音声認識手段および前記変換手段は、前記キーワードが入力される前にあらかじめ実行されるものであり、前記類似度計算手段、前記第2の音声認識手段、前記検索スコア計算手段、および前記検索結果提示手段は、前記キーワードが入力されたことに応じて動作することを特徴とする請求項1に記載のデータ検索装置。
  3. 前記類似度計算手段は、前記類似度として、前記変換手段によりサブワード表現形式に変換された前記キーワードを正解とする前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果のサブワード正解率またはサブワード正解精度を計算することを特徴とする請求項1または2に記載のデータ検索装置。
  4. 前記サブワード正解精度は、正解サブワード数から挿入誤りサブワード数、置換誤りサブワード数、および削除誤りサブワード数をそれぞれ引いて得たサブワード数と、前記正解サブワード数との比でもって表されるものであって、前記挿入誤りサブワード数に所定の重み係数が乗じられることを特徴とする請求項3に記載のデータ検索装置。
  5. 前記サブワードは、音素または音節であることを特徴とする請求項1から4までのいずれか1項に記載のデータ検索装置。
  6. 前記第2の音声認識手段により実行される音声認識は、前記キーワードを認識対象語とするキーワードスポッティングであることを特徴とする請求項1から5までのいずれか1項に記載のデータ検索装置。
  7. 前記第2の音声認識手段は、前記類似度が大きい順に所定個数のデータを選択し、当該選択されたデータの各々について前記音声認識を行うことを特徴とする請求項1からまでのいずれか1項に記載のデータ検索装置。
  8. 前記第2の音声認識手段は、前記類似度が所定の値よりも大きい1または2以上のデータを選択し、当該選択されたデータの各々について前記音声認識を行うことを特徴とする請求項1からまでのいずれか1項に記載のデータ検索装置。
  9. 前記検索結果提示手段は、前記検索スコアが大きい順に所定個数のデータを検索結果として表示することを特徴とする請求項1からまでのいずれか1項に記載のデータ検索装置。
  10. 前記検索結果提示手段は、前記検索スコアが所定の値よりも大きいデータを検索結果として表示することを特徴とする請求項1からまでのいずれか1項に記載のデータ検索装置。
  11. 検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、ユーザにより入力されたキーワードを基にデータを検索するデータ検索装置によって実行されるデータ検索方法であって、
    第1の音声認識手段が、前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識ステップと、
    変換手段が、前記キーワードをサブワード表現形式に変換する変換ステップと、
    類似度計算手段が、前記第1の音声認識ステップにより得られたサブワード表現形式の前記認識結果と、前記変換ステップによりサブワード表現形式に変換された前記キーワードとに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算ステップと、
    第2の音声認識手段が、前記類似度計算ステップにより計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第2の音声認識ステップと、
    検索スコア計算手段が、前記第2の音声認識ステップでの認識スコアに基づいて検索スコアを計算する検索スコア計算ステップと、
    検索結果提示手段が、前記検索スコア計算ステップにより計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示ステップと、
    を有し、
    前記検索スコア計算ステップでは、前記検索スコア計算手段が、前記検索スコアとして、前記類似度計算ステップで計算された類似度と前記第2の音声認識ステップで得られた認識スコアとの重み付き和を計算する
    ことを特徴とするデータ検索方法。
  12. 請求項1に記載のデータ検索方法をコンピュータに実行させるためのプログラム。
JP2005063149A 2005-03-07 2005-03-07 データ検索装置および方法 Expired - Fee Related JP4738847B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005063149A JP4738847B2 (ja) 2005-03-07 2005-03-07 データ検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005063149A JP4738847B2 (ja) 2005-03-07 2005-03-07 データ検索装置および方法

Publications (3)

Publication Number Publication Date
JP2006243673A JP2006243673A (ja) 2006-09-14
JP2006243673A5 JP2006243673A5 (ja) 2008-04-03
JP4738847B2 true JP4738847B2 (ja) 2011-08-03

Family

ID=37050105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005063149A Expired - Fee Related JP4738847B2 (ja) 2005-03-07 2005-03-07 データ検索装置および方法

Country Status (1)

Country Link
JP (1) JP4738847B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
WO2009028647A1 (ja) * 2007-08-31 2009-03-05 National Institute Of Information And Communications Technology 非対話型学習装置及び対話型学習装置
JP5185807B2 (ja) * 2008-12-16 2013-04-17 ヤフー株式会社 音声検索装置、音声検索方法及び音声検索プログラム
JP5326169B2 (ja) * 2009-05-13 2013-10-30 株式会社日立製作所 音声データ検索システム及び音声データ検索方法
CN102023995B (zh) * 2009-09-22 2013-01-30 株式会社理光 语音检索设备和语音检索方法
JP5491372B2 (ja) * 2010-12-03 2014-05-14 日本電信電話株式会社 情報検索システム、情報検索方法、情報検索プログラム
JP5957269B2 (ja) * 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
CN113468368A (zh) * 2020-04-28 2021-10-01 海信集团有限公司 一种语音记事方法、装置、设备及介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63239499A (ja) * 1987-03-27 1988-10-05 株式会社東芝 単語音声入力装置
JPH08211893A (ja) * 1994-12-08 1996-08-20 Toshiba Corp 音声認識装置
JPH10173769A (ja) * 1996-12-13 1998-06-26 Matsushita Electric Ind Co Ltd 音声メッセージ検索装置
JP3009640B2 (ja) * 1997-09-10 2000-02-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音響モデル生成装置及び音声認識装置
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ
JP2004302175A (ja) * 2003-03-31 2004-10-28 Fuji Television Network Inc 音声認識システム、音声認識方法及び音声認識プログラム
JP4511274B2 (ja) * 2004-07-29 2010-07-28 三菱電機株式会社 音声データ検索装置

Also Published As

Publication number Publication date
JP2006243673A (ja) 2006-09-14

Similar Documents

Publication Publication Date Title
US7177795B1 (en) Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
US8751235B2 (en) Annotating phonemes and accents for text-to-speech system
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US5949961A (en) Word syllabification in speech synthesis system
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US7966173B2 (en) System and method for diacritization of text
JP4738847B2 (ja) データ検索装置および方法
US20070055493A1 (en) String matching method and system and computer-readable recording medium storing the string matching method
US20080059190A1 (en) Speech unit selection using HMM acoustic models
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
CN103123644A (zh) 声音数据检索系统及用于该系统的程序
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP4587165B2 (ja) 情報処理装置及びその制御方法
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP2004184951A (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
JP2003162524A (ja) 言語処理装置
JP3758241B2 (ja) 音声情報検索装置
JP2004294542A (ja) 音声認識装置及びそのプログラム
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110425

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110427

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees