JP5068225B2

JP5068225B2 - 音声ファイルの検索システム、方法及びプログラム

Info

Publication number: JP5068225B2
Application number: JP2008170021A
Authority: JP
Inventors: 伸泰伊東; 岳人倉田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-06-30
Filing date: 2008-06-30
Publication date: 2012-11-07
Anticipated expiration: 2028-06-30
Also published as: JP2010009446A

Description

この発明は、音声認識によって作成されたテキストの処理に関し、より詳しくは、音声ファイルから、音声認識によって作成されたテキストの検索に関するものである。

近年、ビジネス・インテグリティなどの目的で、コールセンターや営業店での会話を録音し、その録音した音声に対して、音声認識を実行してテキスト化し、その後、検索やテキスト・マイニングの処理を行う、という試みが行われている。

テキスト・マイニングやキーワード検索においては、辞書を用いた言語処理が行われることが一般的である。その際、未知の単語や新しい単語に遭遇した場合は、辞書に新たにその単語が登録されるため、辞書が更新されることになる。

特に日本語においては、仮名、漢字、アルファベット表記のどれを用いるかなど、表記の揺れが大きいので、言語処理用辞書では、さまざまな表記の同意語を登録することが一般的である。しかし、音声認識においては、同一の発音をもつ同義語が登録されていると、そのいずれを出力するかを区別する手段がなく、語彙増大による認識精度低下を招く。そこで、できる限り単一の表記のみ登録し、言語モデルのエントロピーを下げるように留意することが求められる。

例えば、「しくみさい」という音声認識の結果、「仕組み債」と「仕組債」の２とおりの表記がありえるが、「仕組み債」に統一する、というような具合である。

また、音声認識と後段の処理では、それぞれの都合で、異なる単位とする必要があることも多いが、その場合問題はさらに複雑になる。つまり、前段の音声認識でどのような単位・表記が用いられているかを常に意識して、言語処理用の辞書登録やキーワード入力を行わなくてはならない。

しかし、音声認識の結果に対する言語モデルの詳細は分からないため、ユーザは、前段の音声認識に適合するような言語処理用の辞書登録やキーワード入力を行うことは、困難であった。

特開平７−１５２７５６号公報は、かな漢字変換、音声合成、音声認識といった辞書を用いる処理において、目的別の辞書を一つにまとめ、保守の容易化、容量の低減を図ることを開示する。

特開平８−３１４９１５号公報は、複数の変換機能に対応する辞書手段を構成し、当該辞書手段に対して複数のインデックスを用いて検索を行う情報の表現態様変換装置を開示する。

特開２０００−３３９３０５号公報は、キーボードによる入力と音声による入力の２つの入力方法を使って、より入力精度と入力操作性を向上させて文書作成を行う技法を開示する。

特開２００４−１４５０１４号公報は、文法と辞書の管理を容易に行なうことができ、且つ、入力された音声に忠実に応答を行ない得る自動音声応答装置及び自動音声応答方法を開示する。

[NAGATA 1999]（詳細は下記）は、未知語検索に関する技術を開示する。

[MORI 1999] （詳細は下記）は、確率的モデルによる仮名漢字変換技術を開示する。

特開平７−１５２７５６号公報特開平８−３１４９１５号公報特開２０００−３３９３０５号公報特開２００４−１４５０１４号公報 [NAGATA 1999] Nagata, M. : A part of speech estimation method for Japanese unknown words using a statistical model of morphology and context, Proc. of the 37th ACL, pp277-284, 1999 [MORI 1999] 森信介,土屋雅稔,山地治,長尾真. 確率的モデルによる仮名漢字変換. 情報処理学会論文誌. Vol.40, No.7, pp.2946-2953. 1999.

上記の従来技術を組みあわせても、依然として、音声ファイルを適切に検索するための、音声認識の言語モデルを意識したキーワード入力の必要性の問題は解消されない。

従って、この発明の目的は、音声認識と後段の言語処理や検索をつなげるため、音声認識用辞書の内容をできるだけ意識せず、容易に新語登録やキーワード入力を可能にすることにある。

通常新語登録やキーワード入力においてはコンピュータの仮名漢字変換機能を用いて行われる。つまりその段階では「読み」を入力するわけであるが、その読みは表記確定後捨てられる。一方音声認識用の辞書つまり言語モデルでは必ず読みが必要であり、表記・読み、単語の共起確率を保持している。

本発明は、その点に着目してなされたものであり、音声ファイルにテキストのキーワードをつけるために使用される音声認識用の辞書つまり言語モデルと同一の言語モデルを、後段の新語登録及び検索時の「読み」の変換に使用するようにしたものである。

音声ファイルをテキストに変換するためにはまず、アナログ音声信号が、ディジタル信号に変換され、そこから、所定の時間窓での離散フーリエ変換に周波数領域の信号が生成され、そこから対数スペクトル生成され、さらに離散コサイン変換により、ケプストラムが生成される。ケプストラムからはさらに、周知の技術により、波形の振幅、基本周波数、パワースペクトル包絡などが抽出され、これらが、音響特徴量となる。音響モデルは、この音響特徴量を元に、発話の各部分がどの単語の可能性があるかを判定するために使用される。この際、音響モデルは、確率モデルを用いて、可能性のある単語を確率的に求める。

こうして、可能性のある単語の列が決められると、これに言語モデルが適用される。言語モデルは、文脈（近接する単語）から、どのような単語列が一番尤もらしいかを、確率モデルを用いて、予測・判定する。

本発明によれば、新語登録やキーワード入力においてはまず「読み」がユーザによって入力される。この読みが、音声認識用の言語モデルと同一の言語モデルにより発音・表記変換され、以って仮名漢字表記が得られる。次に、得られた仮名漢字表記を、適宜修正語、及び元の文字列と比較することによって、音声認識辞書の未知語が同定される。変換結果のキーワードは、音声ファイルの音声認識によって形成した索引データを検索するために使用することができる。未知語の部分は、適宜音声認識辞書に登録することができる。

この発明によれば、音声認識と後段の言語処理や検索において、音声認識用辞書の内容を意識せず、容易に新語登録やキーワード入力を可能にすることにが可能ならしめられる。

以下、図面を参照して、本発明の一実施例の構成及び処理を説明する。以下の記述では、特に断わらない限り、図面に亘って、同一の要素は同一の符号で参照されるものとする。なお、ここで説明する構成と処理は、一実施例として説明するものであり、本発明の技術的範囲をこの実施例に限定して解釈する意図はないことを理解されたい。

図１は、本発明を実施するためのハードウェア構成の一実施例を示す概要ブロック図である。図１の構成は、個別のユーザが検索を行うための、好適には複数のクライアント・システム１１０と、音声データ・ファイルを検索可能に蓄積する音声蓄積サーバ１２０と、音声データから、音声認識を行って、音響モデルと言語モデルに従い、索引データを作成するための音声認識サーバ１３０と、クライアント・システム１１０、音声蓄積サーバ１２０及び音声認識サーバ１３０を接続するためのネットワーク１４０からなる。

ネットワーク１４０は、ＬＡＮ、ＷＡＮ、インターネット、イントラネットなど任意の接続形態を利用することができる。

また、このような、クライアント・システム１１０、音声蓄積サーバ１２０及び音声認識サーバ１３０が別個に離隔してネットワーク１４０で接続された構成は必須ではなく、音声データ、及び索引をローカル・システムにコピーすることによって、スタンドアロンで本発明のシステムを構成することもできる。

クライアント・システム１１０には、ウェブ・ブラウザ１１２が導入されている。ウェブ・ブラウザ１１２は、ＪａｖａＳｃｒｉｐｔ（商標）などの、コンテンツ内スクリプトを解釈する機能をもち、ユーザからの入力を受付け、クライアント・システム１１０側の通信インターフェース１１４及び、音声蓄積サーバ１２０側の通信インターフェース１２２を介して、音声蓄積サーバ１２０側のＰｅｒｌ、ＰＨＰなどのプログラムと連携して、検索動作を行う。なお、ＪａｖａＳｃｒｉｐｔ（商標）を使用することなく、一般的なＨＴＭＬの組み込みフォームと、ＣＧＩの組み合わせを用いることもできる。

あるいは、音声蓄積サーバ１２０側で、サーブレットまたはＪＳＰのようなサーバ・サイドＪａｖａ（商標）の仕組みで、検索機能を構築してもよい。

音声蓄積サーバ１２０は、音声データ１２４、及び、音声データ１２４に蓄積されている個々の音声ファイルを検索するための検索データ１２６をもつ。ここで、音声データ１２４は、例えば、コールセンターの会話、放送番組、ポッドキャストデータなどである。音声データのままの形式では、検索することが困難なため、音声データは逐次、通信インターフェース１２２、ネットワーク１４０及び通信インターフェース１３６を介して、音声認識サーバ１３０に送られる。

音声認識サーバ１３０は、音声ファイルを音声認識して索引テキストを生成するための、音響モデル１３２と言語モデル１３４をもつ。生成された索引テキストは、通信インターフェース１３６及び通信インターフェース１２２を介して、音声蓄積サーバ１２０に、索引データ１２６として提供される。

音声蓄積サーバ１２０側での検索機能は、ＰｏｓｔｇｒｅＳＱＬ、ＭｙＳＱＬなどのデータベース検索システムにより実現することができる。

音声認識サーバ１３０の言語モデル１３４は、ネットワーク１４０及び各々の通信インターフェースを介して、クライアント・システム１１０及び音声蓄積サーバ１２０からも、アクセス可能となされている。

言語モデル１３４はまた、認証された特殊なユーザのクライアント・システム１１０からの操作によって、単語の登録、編集、削除などの操作を受け付けるようにしてもよい。

図２は、クライアント・システム１１０、音声蓄積サーバ１２０及び音声認識サーバ１３０のハードウェア構成のより詳細なブロック図を、総称的に示す。

図２の構成は、メインメモリ２０４と、ＣＰＵ２０６とをもち、これらは、バス２０２に接続されている。ＣＰＵは、好適には、３２ビットまたは６４ビットのアキーテクチャに基づくものであり、例えば、インテル社のＰｅｎｔｉｕｍ（Ｒ）４、Ｘｅｏｎ（Ｒ）、Ｃｏｒｅ２ＤＵＯ、ＡＭＤ社のＡｔｈｌｏｎ（Ｒ）などを使用することができる。バス２０２には、ディスプレイ・コントローラ２０８を介して、ＬＣＤモニタなどのディスプレイ２１０が接続される。ディスプレイ２１０は、クライアント・システム１１０においては、ユーザがウェブブラウザ１１２を眺めつつ、検索を行うために使用される。音声蓄積サーバ１２０においては、システム管理者が、ＪａｖａＳｃｒｉｐｔ（商標）やＰＨＰなどのプログラムを書いて、クライアント・システム１１０から呼び出し可能に登録したり、クライアント・プログラム１１０を介してアクセスするユーザーのユーザーＩＤとパスワードを登録したりするために使用される。

バス２０２にはまた、ＩＤＥコントローラ２１２を介して、ハードディスク２１４と、ＤＶＤドライブ２１６が接続される。

クライアント・システム１１０の場合、ハードディスク２１４には、オペレーティング・システム、ウェブ・ブラウザ１１２その他のプログラムが、メインメモリ２０４にロード可能に記憶されている。好適なオペレーティング・システムとして、これには限定されないが、Ｗｉｎｄｏｗｓ（Ｒ）ＸＰ、Ｗｉｎｄｏｗｓ（Ｒ）Ｖｉｓｔａ、Ｌｉｎｕｘ（Ｒ）、ＭａｃＯＳなど、ＴＣＰ／ＩＰネットワーキング機能をサポートしている任意のオペレーティング・システムを使用することができる。

音声蓄積サーバ１２０の場合、ハードディスク２１４には、オペレーティング・システム、音声データのファイル１２４、及び索引データのファイル１２６が格納されている。好適なオペレーティング・システムとして、これには限定されないが、Ｗｉｎｄｏｗｓ（Ｒ）２００３Ｓｅｒｖｅｒ、Ｌｉｎｕｘ（Ｒ）、ＭａｃＯＳなど、ＴＣＰ／ＩＰネットワーキング機能をサポートしている任意のオペレーティング・システムを使用することができる。ハードディスク２１４にはさらに、音声認識サーバ１２０をデータベース・サーバとして働かせるための、ＡｐａｃｈｅやＴｏｍｃａｔなどのプログラムも導入されている。

音声認識サーバ１３０の場合、ハードディスク２１４には、オペレーティング・システム、音響モデルのファイル１３２、及び言語モデルのファイル１３４が格納されている。好適なオペレーティング・システムとして、これには限定されないが、Ｗｉｎｄｏｗｓ（Ｒ）２００３Ｓｅｒｖｅｒ、Ｌｉｎｕｘ（Ｒ）、ＭａｃＯＳなど、ＴＣＰ／ＩＰネットワーキング機能をサポートしている任意のオペレーティング・システムを使用することができる。ハードディスク２１４にはさらに、音声認識サーバ１２０をアプリケーション・サーバとして働かせるための、ＡｐａｃｈｅやＴｏｍｃａｔなどのプログラムも導入されている。

ＤＶＤドライブ２１６は、必要に応じて、ＣＤ−ＲＯＭまたはＤＶＤディスクからプログラムをハードディスク２１４に追加導入するために使用される。バス２０２には更に、キーボード・マウスコントローラ２２０を介して、キーボード２２０と、マウス２２２が接続されている。

通信インターフェース２２４は、好適にはイーサネット・プロトコルに従うものであり、コンピュータ本体と、ネットワーク１４０とを、物理的に接続する役割を担い、コンピュータのオペレーティング・システムの通信機能のＴＣＰ／ＩＰ通信プロトコルに対して、ネットワークインターフェース層を提供する。ここで、図示されている構成は、有線接続構成であるが、例えば、ＩＥＥＥ８０２１１ａ／ｂ／ｇなどの無線ＬＡＮ接続規格に基づき、無線ＬＡＮ接続するものであってもよい。

また、通信インターフェース２２４は、イーサネットプロトコルに限定されるものではなく、例えば、トークンリングなどの任意のプロトコルに従うものでよく、特定の物理的通信プロトコルに限定されない。

図３は、音声認識サーバ１３０で実行される、音声認識処理の機能を説明するための機能ブロック図である。この処理プログラムは、音声認識サーバ１３０のハードディスク・ドライブに格納されて、必要に応じてメインメモリに呼び出される。図３で、入力信号３０２は、好適には、音声蓄積サーバ１２２の音声データのファイル１２４から、個別の音声ファイルとして、ネットワーク１４０を介して提供される。音声認識サーバ１３０では、音声データのファイルを一旦ハードディスクにセーブして、音声ファイル・プレーヤのプログラムにかけることで再生し、その再生アナログ信号を、入力信号３０２としてもよい。

音響処理ブロック３０４では、アナログ入力信号３０２が、一旦Ａ／Ｄ変換により、ディジタル信号に変換される。もし入力信号３０２が予めディジタル信号であるなら、Ａ／Ｄ変換は不要である。

音響処理ブロック３０４ではさらに、所定の時間窓での離散フーリエ変換に周波数領域の信号が生成され、そこから対数スペクトル生成され、さらに離散コサイン変換により、ケプストラムが生成される。ケプストラムからはさらに、周知の技術により、波形の振幅、基本周波数、パワースペクトル包絡などが抽出され、これらが、音響特徴量となる。

復号化ブロック３０６では、音響処理ブロック３０４から入力された音響特徴量に対して、音響モデル３０８と、言語モデル３１０を適用することによって、入力信号３０２を音声認識した結果のテキストが得られる。

より詳しく述べると、音響モデル３０８は、ＨＭＭなどの確率モデルを用いて、尤度の高い音素の並びを得るために使用される。

一方、言語モデル３１０は、音響モデル３０８の適用によって得られた音素の並びから、語彙辞書３１２を用いて、どのような単語列が一番尤もらしいか、を判定するために使用される。例えば、「ぽすとはあかい」のように、ほぼ聞こえる単語の並びとして、「ポストは赤い」、「コストわ高い」、「ホスト輪仲居」、・・・などがあり得るが、このうち、言語モデル３１０は、「ポストは赤い」が最尤と判定することになる。

このようにして得られた音声認識した結果のテキスト（単語列）は、任意の他のアプリケーション・プログラム３１４で使用することができる。本実施例では、音声認識された結果のテキスト・データは、音声認識サーバ１３０から、音声蓄積サーバ１２０に送られて、音声ファイルに関連付けて、索引データのファイル１２６に格納される。なお、音声ファイルを音声認識した結果のテキストを、索引として音声ファイルに関連付ける技術は、これらには限定されないが、本出願人に係る、特開２０００−３４８０６４及び特開２００６−１７８０８７などに記述されている。

次に、図４以下のフローチャートを参照して、本発明の一実施例の処理について説明する。図４のステップ４０２では、所定のグラフィック・ユーザ・インターフェース（ＧＵＩ）を用いて、ユーザが、単語・フレーズの「読み」を入力する。なお、このＧＵＩの例は、図６に示す。また、このＧＵＩは、図１のクライアント・システム１１０上で実行されることに留意されたい。

ここで例えば、ユーザは、「株券貸借取引」という単語（複合語）を入力すると仮定すると、図６の、読みフィールドとして示されている、テキスト・フィールド６０２に、「かぶけんたいしゃくとりひき」と入力する。

ステップ４０４では、言語モデルを使った発音・表記変換が実行される。すなわち、音声認識用辞書と、その言語モデルをもちいて、発音から表記への変換が行われる。このための処理プログラムは、好適には、音声認識サーバ１３０にあり、クライアント・システム１１０は、ＣＧＩ、ＪＳＰなどの仕組みで、単に音声認識サーバ１３０上のプログラムを呼び出す。また、音声認識用辞書と、その言語モデルは、音声認識サーバ１３０上にあるものが、ネットワーク１４０を介してアクセスされて使用される。音声認識用辞書と、その言語モデルは、図１では、言語モデル１３４として総称的に示されている。この場合、必要に応じて、音声蓄積サーバ１２０で、音声認識サーバ１３０上の音声認識用辞書と、その言語モデルのレプリカを作成し、そちらの方を理由するようにしてもよい。

さて、ある入力記号列から言語モデルを元にした最適出力列を得る手法は、例えば、上述の[MORI 1999]に書かれている手法を使用することができる。そこでは、入力かな列Ｙを条件とする仮名漢字交じりの単語列の条件付確率を最大にするような単語列Ｗが選択される。数式であわらすと下記のとおりである。

図４のステップ４０４の詳細なステップのフローチャートを、図５に示す。ステップ５０２では、入力されたかな列が、音声認識用辞書に対応付けるために、処理プログラムによって、音素記号列に変換される。ここで、音素記号とは音声を構成する音の種類を分類し、そのそれぞれに対応した記号であり、日本語の場合母音、子音合わせて５０程度の種類がある。読み(Sounds-like)から発音記号列への変換は必ずしも１対１ではないため、その場合複数の記号列が出力される。しかしその数は高々数個にとどまり、同じ処理をそれぞれについて行い、最後にそのそれぞれの確率を比較、最大のものを選択することで得られるので、以降では一意に発音記号列が決まった場合について記述する。

例えば、「かぶけんたいしゃくとりひき」からは以下のような発音記号列(Ｈ)が得られる。
Ｈ = /k/a/b/u/k/e/_n/t/a/i/sy/a/k/u/t/o/r/i/h/i/k/i/

その後、上記数式(1)で、Ｙを発音記号列Ｈで置き換えた式により、最適な単語列Ｗが選択される訳であるが、そのため数式(1)を下記のように変形する。

ここでP(H|W)は各単語がどのように読まれるか、を示す確率であり、P(W)は単語列の出現確率であり、例えばN-gramモデルにより計算される。この２つの値は、音声認識エンジンが一般的に辞書・言語モデルとして保持している情報から計算することが可能である。言い換えれば上記式の右辺に基づいて確率値最大のWを選択することであり、この処理は音にあいまい性がなく音響モデルが理想的であった場合の音声認識を行った結果（単語列）と解釈することができ、それが以下のステップ５０４、５０６及び５０８である。その実施においては、図３に示すように音声認識エンジンの内、音響処理された結果音素列が一意に決定されたとして復号化ブロック３０６に入力される。

ステップ５０４では、着目する記号へのインデックスとなるポインタが、発音記号列の最左（この例では、/k/）に設定される。

ステップ５０６では、上記ポインタから始まる右部分列について辞書引きが実施され、当該発音に合致する単語が、候補として得られる。ここでは「課/ka」「株/kabu」「株券/kabuke_n」などが候補となる。以上は未知語が存在しないと仮定した場合であるが、どのような辞書においても未知語は存在するのが普通である。したがってこのステップにおいて、辞書に存在しなかった部分音素列、たとえば「kabuke」についても、それが未知語であったと仮定し、表記不明の単語W_unk=<kabuke>として候補に追加してもよい。その場合表記が不明である単語に対してP(H|W)をどう計算するのかが問題となる。いわゆる形態素解析等では数多くの未知語モデルが提案されている(例えば、前述の[NAGATA 1999])が、発音・表記変換では（その部分が未知語であると指摘され変換されないことに）メリットがないためほとんど議論されていない。そこで、ここでは、未知語W_unk部分の「音素列」をh(=h₁h₂,…,h_N)、各音素(h_i)の出現確率をP(h_i)として、次のようなモデルを考える。

この式で、右辺の第１項であるP(N|W_unk)は当該単語がN個の音素からなる読みをもつ確率であり、第２項は入力の部分列を構成する当該音素列が出現する確率を音素の1-gramにより近似している。なお、音素列は記号列の１つと考えられるが、記号列の出現確率を効率的に近似する手法は他にもさまざま存在する。例えば、第１項をポアソン分布、第２項をより高次のN-gramとするなどの手法を適用することができる。

ステップ５０８では、言語モデルが参照され、ステップ５０６で得られた単語（列）候補について生起確率が計算される。例えば、N-gramによるならば言語モデルを参照し、
P(「課」) = P(開始記号→「課」) = 0.0001
P(「株」) = P(開始記号→「株」) = 0.0005
P(「株券」) = P(開始記号→「株券」) = 0.0025
といった計算が行われる。

ステップ５１０では、確率の絶対値または他の候補と比較した相対値が十分小さいと判断された単語（列）は除外し、以降の繰り返し計算を行わない。そうでない場合は各候補のそれぞれについて、ステップ５１２でポインタが更新され、ステップ５０６から処理が、繰り返される。上記の例では、たとえば確率の高い上位２個である「株」と「株券」が残され、「課」は棄却される。そして「株」を選択したとすると、ポインタは「/k/a/b/u/」の直後である「k」(左から5音素目)）に置かれ、その位置からステップ５０６の処理が繰り返され、５音素以降にマッチする候補単語、たとえば「倦怠/ ke_ntai」が候補単語となる。このような繰り返しによりさまざまな候補単語列が得られるが、その多くは確率が十分低いため、この過程において棄却されることになる。「株券」の場合もまったく同様に、ポインターを「/k/a/b/u/k/e/_n/」の次音素である「t」に進め、ステップ５０６以降が繰り返される。

結果的に、図５の処理の結果、音声認識辞書と言語モデルを用いた変換結果が１つまたは複数リストされるので、ユーザは、そのうちの１つをマウス操作により、選択することになる。この結果、図６に示すように、「かぶけんたいしゃくとりひき」が表示されているテキスト・フィールド６０２の下のテキスト・フィールド６０４に、選択された結果である、「株券体癪取引」が表示される。

また実際の実装においてはViterbi、Dymanic Programmingに基づいた上記を高速化するためさまざまな工夫が行われるが、すでによく知られた手法でありここでは詳述しない。

図４に戻って、誤っている箇所があった場合、または未知語であると判断された場合は、ステップ４０６で、ユーザが、当該箇所にカーソルを合わせ、好適には通常の仮名漢字変換機能を使って、修正する。ここでの変換は、図６の「変換」ボタン６０６をクリックによって、行われるが、キーボード上の変換キーを叩いてもよい。ここでの仮名漢字変換機能は、クライアント・コンピュータ１１０に備わっているものでよい。例えば、図６では、「たいしゃく」の部分が「体癪」となっているので、「貸借」と修正することになる。

ステップ４０８では、最初に変換された「株券体癪取引」と、修正後の「株券貸借取引」がシステムによって比較され、これによって、「株券/かぶげん」と、「取引/とりひき」の部分は正しく、「貸借/たいしゃく」に相当する箇所が音声認識辞書にとって未知語であることが検出される。

次のステップ４１０に行って、ユーザが「確定」ボタン６０８をクリックすると、音声認識辞書に対して未知語である、「貸借/たいしゃく」が、既知語である「株券」または「取引」を伴って、「株券→貸借」または、「貸借→取引」というコンテキストで、音声認識辞書に登録される。一旦音声認識辞書に登録されると、次回の音声ファイルの音声認識処理に際して、この音声認識辞書が、言語モデル３１０によって使用される。

一方、ステップ４１０で、ユーザが「検索」ボタン６１０をクリックすると、現段階では、音声認識辞書に対して「貸借」が未知語であり、よって正しく検索できない可能性があるので、システムは、メッセージ・ウインドウを生成するなどして、警告する。いずれにしても、ユーザが「検索」ボタン６１０をクリックすることによって、ステップ６０２の読みに対して、音声認識辞書に基づく変換結果からユーザが選んだキーワードが、クライアント・コンピュータ１１０が音声蓄積サーバ１２０に送られ、音声蓄積サーバ１２０は、送られたキーワードに基づき索引データ１２６を検索する。

そして、音声蓄積サーバ１２０は、索引データ１２６において、そのキーワードにヒットするものがみつかると、ヒットした索引データに関連付けられている音声ファイルのリストを、クライアント・コンピュータ１１０に返す。

クライアント・コンピュータ１１０は、受け取った音声ファイルのリストを、別のウインドウに表示し、そこから適宜、クライアント・コンピュータ１１０のユーザがリスト中の音声ファイルのリンク（図示しない）をクリックすることにより、当該音声ファイルの内容を聴くことができる。

なお参考までに、下記は、発音・表記変換のサンプルである。
下記の例で、左側の数字は、は当該結果の確率をPとした場合の-kΣlogP (但し、kは整数化するための係数で、ここでは256とし、対数の底は10を用いている) を示し、<..>uは、未知語を示す。
＜例１＞
入力>>かぶけんたいしゃくとりひき<<
4565 < 株券たい癪取引 >
4640 < 株券退社く取引 >
4673 < 株券退社九取引 >
4732 < 株券体癪取引 >
4867 < 株券対癪取引 >
4937 < 株券タイ癪取引 >
＜例２＞
入力>>とりぷるえーのめいがら<<
2247 < トリプルＡの銘柄 >
3239 < トリプルええの銘柄 >
3514 < トリプルＡ野銘柄 >
3792 < トリプルＡの銘柄 >
3921 < トリプルエーの銘柄 >
3942 < トリプル D_エーの銘柄 >
4188 < トリプルええ野銘柄 >
＜例３＞
入力>>かぶけんたいしゃくとりひき<<
4165 < 株券 <たいしゃく>u 取引 >
4565 < 株券たい癪取引 >
4640 < 株 <けんたいしゃく>u 取引 >
4673 < 株券退社九取引 >
4732 < 株券体癪取引 >
4758 < <かぶけんたいしゃく>u 取引 >

以上のように、特定の実施例により、本発明の技法を説明してきたが、本発明の技術的範囲は、この特定の実施例に限定されず、さまざまな変形例が可能である。例えば、図１のようなネットワークで接続して構成ではなく、スタンドアロンの構成でよく、また、音声蓄積サーバは、音声認識サーバは、同一のサーバによって構成してもよい。

ハードウェア構成の全体の概要図である。図１の構成で使用されるコンピュータのより詳細な構成を示す図である。音声認識システムの機能を示すブロック図である。音声認識用言語モデルを使用して読みを変換する処理のフローチャートの図である。音声認識用言語モデルを使用して読みを変換する処理のフローチャートの図である。読みと変換結果を入力・表示するためのウインドウを示す図である。

Claims

音声ファイルと、該音声ファイルを音声認識した結果の索引テキストとが関連付けられて保存されているデータを、コンピュータの処理によって検索するためのシステムであって、
前記コンピュータの処理によって、ユーザからの読みの入力を受け入れる手段と、
前記コンピュータの処理によって、前記読みを、発音記号列に変換する手段と、
前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換する手段と、
前記コンピュータの処理によって、前記キーワードを用いて、前記索引テキストを検索する手段を有する、
音声ファイルの検索システム。
前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正する手段と、
前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定する手段と、
前記未知語の存在を前記ユーザに報知する手段とをさらに有する、
請求項１に記載の音声ファイルの検索システム。
音声ファイルを検索するために、該音声ファイルを音声認識して索引テキストとを作成するための音声認識辞書を、コンピュータの処理によって更新するためのシステムであって、
前記コンピュータの処理によって、ユーザからの読みの入力を受け入れる手段と、
前記コンピュータの処理によって、前記読みを、発音記号列に変換する手段と、
前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換する手段と、
前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正する手段と、
前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定する手段と、
前記コンピュータの処理によって、前記未知語に対応するユーザ訂正語を、前記音声認識辞書に登録する手段を有する、
音声認識辞書の更新システム。
音声ファイルと、該音声ファイルを音声認識した結果の索引テキストとが関連付けられて保存されているデータを、コンピュータの処理によって検索するための方法であって、
前記コンピュータの処理によって、ユーザからの読みの入力を受け入れるステップと、
前記コンピュータの処理によって、前記読みを、発音記号列に変換するステップと、
前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
前記コンピュータの処理によって、前記キーワードを用いて、前記索引テキストを検索するステップを有する、
音声ファイルの検索方法。
前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
前記未知語の存在を前記ユーザに報知するステップとをさらに有する、
請求項４に記載の音声ファイルの検索方法。
音声ファイルを検索するために、該音声ファイルを音声認識して索引テキストとを作成するための音声認識辞書を、コンピュータの処理によって更新するための方法であって、
前記コンピュータの処理によって、ユーザからの読みの入力を受け入れるステップと、
前記コンピュータの処理によって、前記読みを、発音記号列に変換するステップと、
前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
前記コンピュータの処理によって、前記未知語に対応するユーザ訂正語を、前記音声認識辞書に登録するステップを有する、
音声認識辞書の更新方法。
音声ファイルと、該音声ファイルを音声認識した結果の索引テキストとが関連付けられて保存されているデータを、コンピュータの処理によって検索するためのプログラムであって、
前記コンピュータをして、
ユーザからの読みの入力を受け入れるステップと、
前記読みを、発音記号列に変換するステップと、
前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
前記キーワードを用いて、前記索引テキストを検索するステップを実行させる、
音声ファイルの検索プログラム。
前記コンピュータをして、
前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
前記未知語の存在を前記ユーザに報知するステップとをさらに実行させる、
請求項７に記載の音声ファイルの検索プログラム。
音声ファイルを検索するために、該音声ファイルを音声認識して索引テキストとを作成するための音声認識辞書を、コンピュータの処理によって更新するためのプログラムであって、
前記コンピュータをして、
前記コンピュータの処理によって、ユーザからの読みの入力を受け入れるステップと、
前記コンピュータの処理によって、前記読みを、発音記号列に変換するステップと、
前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
前記コンピュータの処理によって、前記未知語に対応するユーザ訂正語を、前記音声認識辞書に登録するステップを実行させる、
音声認識辞書の更新プログラム。