JP4997601B2

JP4997601B2 - 音声データ検索用ｗｅｂサイトシステム

Info

Publication number: JP4997601B2
Application number: JP2007310696A
Authority: JP
Inventors: 真孝後藤; 淳緒方; 浩一郎江渡
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2006-11-30
Filing date: 2007-11-30
Publication date: 2012-08-08
Anticipated expiration: 2027-11-30
Also published as: WO2008066166A1; US20100070263A1; JP2008158511A; GB0911366D0; GB2458238A; GB2458238B

Description

本発明は、インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にする音声データ検索用ＷＥＢサイトシステム、このシステムをコンピュータを用いて実現するためのプログラム、及び音声データ検索用ＷＥＢサイトシステムの構築運営方法に関するものである。

ＷＥＢ上の音声ファイル（音声データを含むファイル）から、所望の音声ファイルを検索することは難しい。なぜならば、検索に必要な索引情報（文やキーワード等）を、音声から抽出することが困難だからである。一方、テキストの検索は既に広く使われており、Ｇｏｏｇｌｅ（商標）等の優れた検索エンジンにより、ＷＥＢ上のテキストを含む各種ファイルに対する全文検索が可能となっている。もしＷＥＢ上の音声ファイルからその発話内容のテキストを抽出できれば、同様に全文検索が可能になるが、一般に様々な内容に対して音声認識を行ってテキスト化しようとすると、認識率が低くなる。そのため、ＷＥＢ上に音声ファイルが多数公開されていたとしても、特定の検索語を含む発話へピンポイントにアクセスするような全文検索は難しかった。

しかし近年、音声版のブログ（ＷＥＢｌｏｇ）ともいえる「ポッドキャスト」が普及し、ＷＥＢ上の音声ファイルとして多数公開されるようになった。そこで、英語のポッドキャストに対して音声認識を利用して全文検索を可能にするシステム「Ｐｏｄｓｃｏｐｅ（商標）」［非特許文献１］、「ＰｏｄＺｉｎｇｅｒ（商標）」［非特許文献２］が２００５年から公開され始めた。
ｈｔｔｐ：／／ｗｗｗ．ｐｏｄｓｃｏｐｅ．ｃｏｍ／ｈｔｔｐ：／／ｗｗｗ．ｐｏｄｚｉｎｇｅｒ．ｃｏｍ／

「Ｐｏｄｓｃｏｐｅ（商標）」［非特許文献１］及び「ＰｏｄＺｉｎｇｅｒ（商標）」［非特許文献２］では、いずれも音声認識によりテキスト化した索引情報を内部に持ち、ユーザがＷＥＢブラウザ上で入力した検索語を含むポッドキャストの一覧が提示される。Ｐｏｄｓｃｏｐｅ（商標）では、ポッドキャストのタイトルだけが列挙され、検索語が出現する直前から音声ファイルを再生できる。しかしながら、音声認識されたテキストは一切表示されない。一方、ＰｏｄＺｉｎｇｅｒ（商標）では、検索語が出現した周辺のテキスト（音声認識結果）も表示され、ユーザがより効率的に部分的な内容を把握できるようになっている。しかし、せっかく音声認識をしていても、表示されるテキストは一部に限定されており、音声を聞かずにポッドキャストの詳細な内容を視覚的に把握することはできなかった。

また、音声認識では認識誤りを避けることはできない。そのため、ポッドキャストに対して誤った索引付けがなされている場合には、音声ファイルの検索に悪影響を与える。しかしながら、従来は、誤った索引付けがなされていることをユーザが把握したり改善したりすることは不可能だった。

本発明の目的は、音声認識技術により変換されたテキストデータをユーザが訂正できるようにして、誤った索引付けをユーザの関与により改善することができる音声データ検索用ＷＥＢサイトシステムを提供することにある。

本発明の他の目的は、ユーザが音声データの全文テキストデータを見ることができる音声データ検索用ＷＥＢサイトシステムを提供することにある。

本発明の他の目的は、いたずらによりテキストデータが改悪されるのを防止できる音声データ検索用ＷＥＢサイトシステムを提供することにある。

本発明の他の目的は、ユーザ端末機の表示画面上でテキストデータ中の単語の競合候補を表示することを可能にする音声データ検索用ＷＥＢサイトシステムを提供することにある。

本発明の他の目的は、ユーザ端末機の表示画面上に表示したテキストデータ上において、再生されている位置を表示することを可能にする音声データ検索用ＷＥＢサイトシステムを提供することにある。

本発明の更に他の目的は、音声データの内容に応じて適切な音声認識器を用いることにより音声認識の精度を高めることができる音声データ検索用ＷＥＢサイトシステムを提供することにある。

本発明の更に他の目的は、ユーザの訂正意欲を増進させることができる音声データ検索用ＷＥＢサイトシステムを提供することにある。

本発明の別の目的は、音声データ検索用ＷＥＢサイトシステムをコンピュータを用いて実現するために用いるプログラムを提供することにある。

本発明の別の目的は、音声データ検索用ＷＥＢサイトシステムを構築運営する方法を提供することにある。

本発明は、インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用ＷＥＢサイトシステムを対象とする。また本発明は、このシステムをコンピュータを用いて実現する場合に用いるプログラム及びこのシステムも構築運営方法を対象とする。ここで音声データは、インターネットを介してＷＥＢ上から入手できるものであれば、どのような音声データであってもよい。音声データには、動画と一緒に公開されている音声データも含まれる。また音声データには、バックグラウンドに音楽や雑音が含まれているものから音楽や雑音を除いたものも含まれる。また検索エンジンは、Ｇｏｏｇｌｅ（商標）等の一般的な検索エンジンの他に、本システムのために専用に作成された検索エンジンであってもよい。

本発明の音声データ検索用ＷＥＢサイトシステムは、音声データ収集手段と、音声データ記憶手段と、音声認識手段と、テキストデータ記憶手段と、テキストデータ訂正手段と、テキストデータ公開手段とを備えている。本発明のプログラムは、コンピュータにインストールされて、コンピュータをこれらの手段として機能させる。なお本発明のプログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。

音声データ収集手段は、インターネットを介して、複数の音声データと、複数の音声データにそれぞれ付随する少なくともＵＲＬ（Uniform Resource Locator ）を含む複数の関連情報とを収集する。音声データ記憶手段は、音声データ収集手段が収集した複数の音声データと複数の関連情報とを記憶する。音声データ収集手段としては、一般的にＷＥＢクローラと呼ばれている収集手段を用いることができる。なおＷＥＢクローラとは、全文検索型サーチエンジンの検索データベースを作成するために、世界中のありとあらゆるＷＥＢページを回収するプログラムの総称である。また関連情報には、現在ＷＥＢ上で入手可能な音声データに付随しているＵＲＬの他に、タイトルや、アブストラクト等を含めることができる。

音声認識手段は、音声データ収集手段が収集した複数の音声データを音声認識技術により複数のテキストデータに変換する。音声認識技術としては、種々の公知の音声認識技術を用いることができる。なおテキストデータの訂正を容易にするためには、信頼度付き競合候補（後述するコンフュージョンネットワーク）を生成できる機能を持つ、発明者等が開発した大語彙連続音声認識器（特開２００６−１４６００８号公報参照）を用いることができる。

テキストデータ記憶手段は、複数の音声データに付随する記複数の関連情報と複数の音声データに対応する複数のテキストデータとを関連付けて記憶する。なおテキストデータ記憶手段を、関連情報と複数の音声データとを、別々に記憶するように構成してもよいのは勿論である。

そして本発明では、特に、テキストデータ訂正手段が、インターネットを介してユーザ端末機から入力された訂正結果登録要求に従ってテキストデータ記憶手段に記憶されているテキストデータを訂正する。訂正結果登録要求とは、ユーザ端末機で作成されたテキストデータ訂正の結果を登録することを要求する指令である。この訂正結果登録要求は、例えば、訂正箇所を含む修正されたテキストデータを、テキストデータ記憶手段に記憶されているテキストデータと差し替える（置き換える）ことを要求する形式で作成することができる。またこの訂正結果登録要求は、記憶されているテキストデータの訂正箇所と訂正事項を個別に指定して、訂正の登録を要求する形式で作成されていてもよい。訂正結果登録要求を簡単に作成できるようにするためには、予めユーザ端末機に訂正結果登録要求を作成するためのプログラムをインストールしておけばよい。しかしながらダウンロードされるテキストデータに、テキストデータを訂正するために必要な訂正用プログラムを付随させれば、ユーザは特に意識することなく、訂正結果登録要求を作成することができる。

テキストデータ公開手段は、テキストデータ記憶手段に記憶されている複数のテキストデータを、検索エンジンにより検索可能で、しかも複数のテキストデータに対応する複数の関連情報と一緒にダウンロード可能に且つ訂正可能な状態でインターネットを介して公開する。テキストデータ公開手段により、インターネットを介して自由に複数のテキストデータにアクセスすることを可能にし、しかもユーザ端末機にテキストデータをダウンロードすることは、一般的な方法でＷＥＢサイトを立ち上げることで実現できる。そして訂正可能な状態で公開することは、前述の訂正結果登録要求を受け入れるようにＷＥＢサイトを構築することにより達成実現できる。

本発明では、音声データを音声認識技術により変換したテキストデータを訂正可能な状態で公開した上で、ユーザ端末機（クライアント）からの訂正結果登録要求に応じて、テキストデータの訂正を可能にした。その結果、本発明によれば、音声データを変換したテキストデータに含まれる単語がすべて検索語として利用できるようになって、検索エンジンを利用した音声データの検索が容易になる。こうすることで、ユーザがテキスト検索エンジン上で全文検索をする際に、通常のＷＥＢページと同時に、その検索語を含む音声データを含むポッドキャストも発見できる。その結果、多くの音声データを含むポッドキャストがより多くのユーザに広まって利便性や価値が高まり、ポッドキャストによる情報発信をさらに促すことが可能になる。

その上、本発明によれば、テキストデータに含まれる音声認識の認識誤りを、一般ユーザに訂正する機会を提供できる。そして大量の音声データを音声認識によりテキストデータに変換して公開した場合であっても、膨大な訂正費用を費やすことなく、ユーザの協力によって音声認識の認識誤りを訂正することを可能にする。その結果、本発明によれば、音声認識技術により得たテキストデータを利用する場合であっても、音声データの検索精度を高めることができる。このテキストデータの訂正を可能にする機能は、編集機能すなわち「アノテーション」と呼ぶことができる。ここでのアノテーションとは、本発明のシステムにおいては、正確な書き起こしテキストを作成することを可能し、音声認識結果中の認識誤りを訂正する形で行われる。ユーザが訂正した結果（編集結果）は、テキストデータ記憶手段に蓄積され、その後の検索機能や閲覧機能で利用される。なおこの訂正した結果を、音声認識手段の性能向上のための再学習に利用してもよい。

本発明のシステムには、検索手段を設けて、独自の検索機能を持たせることができる。本発明のプログラムは、さらにコンピュータを検索手段として機能させる。この場合に用いる検索手段は、まずインターネットを介してユーザ端末機から入力された検索語に基づいて、テキストデータ記憶手段に記憶されている複数のテキストデータから、所定の条件を満たす１以上のテキストデータを検索する機能を有する。そして検索手段は、テキストデータ記憶手段に記憶されている複数のテキストデータから、所定の条件を満たす１以上のテキストデータを検索し、検索により得られた１以上のテキストデータの少なくとも一部と該１以上のテキストデータに付随する１以上の関連情報とを、ユーザ端末機に送信する機能を有する。なお検索手段を、複数のテキストデータだけでなく、競合候補からも検索できるようにしてもよいのは勿論である。このような検索手段を設ければ、本発明のシステムに直接アクセスすることにより、音声データを高い精度で検索することができる。

また本発明のシステムには、閲覧手段を設けて、独自の閲覧機能を持たせることができる。本発明のプログラムも、さらにコンピュータを閲覧手段として機能させることができるように構成できる。この場合に用いる閲覧手段は、インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、テキストデータ記憶手段に記憶されている複数のテキストデータから、閲覧要求されたテキストデータを検索し、検索により得られたテキストデータの少なくとも一部をユーザ端末機に送信する機能を有している。このような閲覧手段を設ければ、ユーザが、検索したポッドキャストの音声データを「聞く」だけでなく、「読む」ことも可能になる。この機能があると、音声再生環境がなくても内容を把握したいときに有効である。また、普通にポッドキャストを再生しようとしている場合でも、それを聞くべきかどうか事前に吟味することができて便利である。ポッドキャストの音声再生は魅力的である一方、音声であるために、その内容に関心があるかどうかを聞く前に把握できなかった。また再生スピードを上げることで聞く時間を短縮するにも、限界がある。「閲覧」機能により、聞く前にざっと全文テキストを眺められることで、その内容に関心があるかどうかをより短時間で把握でき、ポッドキャストの取捨選択が効率良くできる。また、収録時間の長いポッドキャストのどの辺に関心のある部分があるのかもわかる。仮に音声認識誤りが含まれていても、こうした関心の有無は充分判断でき、本機能の有効性は高い。

音声認識手段の構成は任意である。例えば、音声認識手段として、テキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているものを用いることができる。このような音声認識手段を用いる場合には、閲覧手段として、ユーザ端末機の表示画面上で競合候補が存在する単語であることを表示できるように、テキストデータに競合候補を含めて送信する機能を有しているものを用いるのが好ましい。これらの音声認識手段と閲覧手段とを用いると、ユーザ端末機の表示画面に表示したテキストデータ中の単語に対して競合候補が存在することを表示できるので、ユーザが訂正を行う際に、その単語が認識誤りの高い単語であることをユーザは容易に知らせることができる。例えば、競合候補のある単語の色を他の単語の色と変えることにより、その単語に競合候補があることを表示することができる。

なお閲覧手段としては、ユーザ端末機の表示画面上に競合候補を含めてテキストデータを表示できるように、テキストデータに競合候補を含めて送信する機能を有するものを用いることができる。このような閲覧手段を用いると、テキストデータと一緒に競合候補が表示画面に表示されていれば、ユーザの訂正作業が非常に容易になる。

またテキストデータ公開手段も、競合候補を検索対象として含んた複数のテキストデータを公開するように構成するのが好ましい。この場合、音声認識手段を、テキストデータ中の単語と競合する競合候補がテキストデータ中に含まれるように音声認識をする機能を備えるように構成すればよい。すなわち音声認識手段は、テキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているのが好ましい。このようにすればテキストデータ公開手段を経由してテキストデータを入手したユーザも、競合候補を利用してテキストデータの訂正を行うことができる。また競合候補も検索対象となるため、検索の精度を高めることができる。なおこの場合、ダウンロードされるテキストデータに該テキストデータを訂正するために必要な訂正用プログラムが付随していれば、ユーザは簡単に訂正を行うことができる。

ユーザによる訂正でいたずらが行われることも考えられる。そこで訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段を更に備えるのが好ましい。また本発明のプログラムも、コンピュータをさらに訂正判定手段として機能させるのが好ましい。訂正判定手段を設けた場合には、テキストデータ訂正手段は、訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映するように構成する。

訂正判定手段の構成は任意である。例えば、訂正判定手段を、言語照合技術を用いて構成することができる。言語照合技術を用いる場合には、第１及び第２の文スコア算出手段と、言語照合手段とから訂正判定手段を構成する。第１の文スコア算出手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第１の文スコアを求める、第２の文スコア算出手段も、予め用意した言語モデルに基づいて、訂正単語列に対応するテキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第２の文スコアを求める。そして言語照合手段は、第２の文スコアから第１の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、訂正事項を正しい訂正であるとみなす。

また訂正判定手段を、音響照合技術を用いて構成することができる。音響照合技術を用いる場合には、第１及び第２の音響尤度算出手段と、音響照合手段とから訂正判定手段を構成する。第１の音響尤度算出手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第１の音素列の音響的な確からしさを示す第１の音響尤度を求める。また第２の音響尤度算出手段は、訂正単語列に対応するテキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第２の音素列の音響的な確からしさを示す第２の音響尤度を予め用意した音響モデルと音声データとに基づいて求める。そして音響照合手段は、第２の音響尤度から第１の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、訂正事項を正しい訂正であるとみなす。

言語照合技術と音響照合技術の両方を組み合わせて、訂正判定手段を構成してもよいのは勿論である。なおこの場合には、最初に言語照合技術を用いて訂正を判定を行い、言語照合技術では、いたずらによる訂正がないと判定されたテキストについてだけ、音響照合技術により訂正を判定する。このようにすると、いたずらの判定精度が高くなるだけでなく、言語照合よりも、複雑な音響照合の対象テキストデータを減らすことができるので、訂正判定を効率的に実施できる。

なおテキストデータ訂正手段には、訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を設けることができる。そして識別情報判定手段が識別情報の一致を判定した訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにしてもよい。このようにすれば識別情報を有するユーザ以外はテキストデータの訂正を行うことができないので、いたずらによる訂正を大幅に低減することができる。

またテキストデータ訂正手段には、訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を設けることができる。そして訂正許容範囲決定手段が決定した範囲の訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにしてもよい。ここで訂正を許容する範囲を定めるとは、訂正結果を反映させる度合い（訂正を受け入れる度合い）を定めることである。例えば訂正結果の登録を要求するユーザの信頼度を識別情報から判断し、この信頼度に応じて訂正を受け入れのための重み付けを変えることにより、訂正を許容する範囲を変更することができる。

またユーザの訂正に対する興味を増進させるためには、テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果をユーザ端末機からの要求に応じてユーザ端末機に送信するランキング集計手段を更に設けるのが好ましい。

またユーザの表示画面上に表示したテキストデータの表示上で、再生されている音声データの場所を表示できるようにするために、下記の機能を有する音声認識手段及び閲覧手段を用いる。すなわち音声認識手段は、音声データをテキストデータに変換する際に、テキストデータに含まれる複数の単語が、対応する音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しているのが好ましい。そして閲覧手段は、ユーザ端末機の表示画面上で音声データが再生される際に、音声データが再生されている位置をユーザ端末機の表示画面上に表示されているテキストデータ上に表示できるように、対応関係時間情報を含むテキストデータを送信する機能を有しているものを用いればよい。この場合は、テキストデータ公開手段は、テキストデータの一部または全部を公開するように構成する。

また音声認識手段による変換精度を高めるためには、音声データ収集手段として、音声データの内容の分野別に音声データを複数のグループに分けて記憶するように構成されたものを用いる。そして音声認識手段として、複数のグループに対応した複数の音声認識器を備えており、１つのグループに属する音声データを該１つのグループに対応する音声認識器を用いて音声認識するものを用いる。このようにすると、音声データの内容毎に、その分野専用の音声認識器を用いることになるため、音声認識の精度を高めることができる。

また音声認識手段による変換精度を高めるためには、音声データ収集手段として、音声データの話者のタイプ（話者間の音響的な近さ）を判別して音声データを複数の話者のタイプに分けて記憶するように構成されたものを用いる。そして音声認識手段としては、複数の話者のタイプに対応した複数の音声認識器を備えており、１つの話者のタイプに属する音声データを１つの話者のタイプに対応する音声認識器を用いて音声認識をするものを用いる。このようにすると話者に対応した音声認識器を用いることになるため、音声認識の精度を高めることができる。

また音声認識手段が、テキストデータ訂正手段による訂正に基づいて、内蔵する音声認識辞書に未知語の追加登録及び新たな発音の追加登録をする機能を有していてもよい。このようにすると、音声認識手段は訂正が多く行われるほど、音声認識辞書が高精度化する。またこの場合に、特に、テキストデータ記憶手段として、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータを記憶するものを用いる。そしてテキストデータ訂正手段、検索手段及び閲覧手段として、特別テキストデータの閲覧、検索及び訂正を、予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有しているものを用いることができる。このようにすると、特定のユーザにのみ特別テキストデータの訂正を認める際に、一般ユーザの訂正によって高精度化した音声認識辞書を用いて音声認識を実施することができるので、高精度の音声認識システムを特定のユーザにのみ非公開で提供することができる。

なお追加登録が可能な音声認識手段は、音声認識実行手段と、音声認識辞書と、データ訂正手段と、音素列変換手段と、音素列部分抽出手段と、発音決定手段と、追加登録手段とを備えて構成される。音声認識実行手段は、単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換する。また音声認識手段は、テキストデータに含まれる各単語に対応する音声データ中の単語区間の開始時刻と終了時刻をテキストデータに付加する機能を有している。

データ訂正手段は、音声認識実行手段から得たテキストデータ中の各単語に対して競合候補を提示する。そしてデータ訂正手段は、競合候補中に正しい単語があるときには、競合候補から正しい単語を選択により訂正することを許容し、競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容する。

また音素列変換手段は、音声データを音素単位で認識して複数の音素から構成される音素列に変換する。そして音素列変換手段は、音素列に含まれる各音素に対応する音声データ中の各音素単位の開始時刻と終了時刻を音素列に付加する機能を有する。音素列変換手段としては、公知の音素タイプライタを用いることができる。

音素列部分抽出手段は、音素列中から、データ訂正手段により訂正された単語の単語区間の開始時刻から終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する。すなわち音素列部分抽出手段は、訂正された単語の発音を示す音素列部分を音素列から抽出する。そこで発音決定手段は、この音素列部分をデータ訂正手段により訂正された訂正後の単語に対する発音と定める。

そして追加登録手段は、訂正後の単語が、音声認識辞書に登録されていないことを判定すると、訂正後の単語と発音決定手段が決定した発音とを組みあわせて新たな発音単語データとして音声認識辞書に追加登録する。また追加登録手段は、訂正後の単語が、音声認識辞書に既に登録されている既登録単語であることを判定すると、既登録単語の別の発音として、発音決定手段が決定した発音を追加登録する。

このような音声認識手段を用いれば、訂正の対象となった単語について、発音を定め、その単語が音声認識辞書に登録されていない未知語であれば、その単語と発音とを音声認識辞書に登録する。その結果、訂正をすればするほど、音声認識辞書への未知語登録が増えて、音声認識精度が上がることになる。その結果、訂正の対象となった単語が既登録の単語である場合には、その単語の新たな発音が音声認識辞書に登録されることになるため、訂正後の新たな音声認識では、再度同じ発音の音声が入力されたときには、正しく音声認識ができるようになる。その結果、本発明によれば、訂正結果を音声認識辞書の高精度化に利用することができ、従来の音声認識技術と比べて、音声認識の精度を上げることができる。

テキストデータの訂正が完了する前であれば、音声認識辞書に新たに追加された未知語や発音を利用して、まだ訂正していない部分を再度音声認識することが好ましい。すなわち音声認識手段を、追加登録手段が新たな追加登録を行うと、テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識するように構成するのが好ましい。このようにすると音声認識辞書に新たな登録がなされると直ぐに音声認識の更新が行われて、新たな登録を音声認識に反映させることができる。その結果、未訂正部分に対する音声認識精度が直ぐに上がって、テキストデータの修正箇所を減らすことができる。

さらに音声認識の精度を高めるためには、音声データから話者のタイプを認定する話者認定手段を設ける。そして更に、話者のタイプに合わせて予め用意した複数の音声認識辞書から、話者認定手段により認定した話者のタイプに対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを設ければよい。このようにすると話者対応の音声認識辞書を使って音声認識を行うことになるため、更に認識精度を高めることができる。

同様にして、音声データの内容に適した音声認識辞書を用いてもよい。その場合には、音声データから話されている内容の分野を認定する分野認定手段と、複数の分野に合わせて予め用意した複数の音声認識辞書から、分野認定手段により認定した分野に対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを更に備えた構成とすればよい。

またテキストデータ訂正手段は、テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、訂正結果登録要求に従ってテキストデータ記憶手段に記憶されているテキストデータを訂正するように構成するのが好ましい。ここで区別できる態様としては、例えば、訂正された単語の色を訂正されていない単語の色と異ならせる色を利用した区別の態様の他、両者の書体を異ならせたりする書体を利用した区別の態様を利用することができる。このようにすると、訂正された単語と訂正されていない単語を一目で確認することができるので、訂正作業が容易になる。また訂正が途中で中止されていることも確認することができる。

また音声認識手段は、テキストデータをユーザ端末機で表示したときに、競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、競合候補を表示するためのデータをテキストデータに付加する機能を有しているのが好ましい。この場合の区別できる態様としては、例えば、単語の色の明度や色度を変える態様を利用することができる。このようにしても訂正作業が容易になる。

本発明の音声データ検索用ＷＥＢサイトシステムの構築運営方法では、音声データ収集ステップと、音声認識ステップと、テキストデータ記憶ステップと、テキストデータ訂正ステップと、テキストデータ公開ステップとから構成される。音声データ記憶ステップでは、インターネットを介して、複数の音声データと、複数の音声データにそれぞれ付随する少なくともＵＲＬを含む複数の関連情報とを収集する。音声データ記憶ステップでは、音声データ収集手段が収集した複数の音声データと複数の関連情報とを音声データ記憶手段に記憶する。音声認識ステップでは、音声データ収集ステップにより収集した複数の音声データを音声認識技術により複数のテキストデータに変換する。テキストデータ記憶ステップでは、複数の音声データに付随する複数の関連情報と複数の音声データに対応する複数のテキストデータとを関連付けてテキストデータ記憶手段に記憶する。テキストデータ訂正ステップは、インターネットを介してユーザ端末機から入力された訂正結果登録要求に従ってテキストデータ記憶手段に記憶されているテキストデータを訂正する。そしてテキストデータ公開ステップは、テキストデータ記憶手段に記憶されている複数のテキストデータを、検索エンジンにより検索可能で、しかも複数のテキストデータに対応する複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態でインターネットを介して公開する。

本発明によれば、音声データを音声認識技術により変換したテキストデータを訂正可能な状態で公開した上で、ユーザ端末機からの訂正結果登録要求に応じて、テキストデータの訂正を可能にしたので、音声データを変換したテキストデータに含まれる単語がすべて検索語として利用できるようになって、検索エンジンを利用した音声データの検索が容易になる利点が得られる。また本発明によれば、テキストデータに含まれる音声認識の認識誤りを、一般ユーザに訂正する機会を提供できるので、大量の音声データを音声認識によりテキストデータに変換して公開した場合であっても、膨大な訂正費用を費やすことなく、ユーザの協力によって音声認識の認識誤りを訂正することができる利点が得られる。

以下図面を参照して本発明の音声データ検索用ＷＥＢサイトシステムと、このシステムをコンピュータを用いて実現する場合に用いるプログラムと、このシステムの構築運営方法の実施の形態を詳細に説明する。図１は、本発明の実施の形態をコンピュータを用いて実現する場合に必要となる機能実現手段をブロック図で示した図である。図２は、図１の実施の形態を、実際に実現する場合に使用するハードウエアの構成を示す図である。図３乃至図７は、本発明の実施の形態をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。

図１の実施の形態の音声データ検索用ＷＥＢサイトシステムは、音声データ収集ステップで用いる音声データ収集手段１と、音声データ記憶ステップで用いる音声データ記憶手段３と、音声認識ステップで用いる音声認識手段５と、テキストデータ記憶ステップで用いるテキストデータ記憶手段７と、テキストデータ訂正ステップで用いるテキストデータ訂正手段９と、訂正判定ステップで用いる訂正判定手段１０と、テキストデータ公開ステップで用いるテキストデータ公開手段１１と、検索ステップで用いる検索手段１３と閲覧ステップで用いる閲覧手段１４とを備えている。

音声データ収集手段１は、インターネットを介して、複数の音声データと、複数の音声データにそれぞれ付随する少なくともＵＲＬ（Uniform Resource Locator ）を含む複数の関連情報とを収集する（音声データ収集ステップ）。音声データ収集手段としては、一般的にＷＥＢクローラと呼ばれている収集手段を用いることができる。具体的には、図２に示すように、ＷＥＢクローラ１０１と呼ばれる、全文検索型サーチエンジンの検索データベースを作成するために、世界中のＷＥＢページを回収するプログラムを用いて音声データ収集手段１を構成することができる。ここで音声データは、一般的にはＭＰ３ファイルであり、インターネットを介してＷＥＢ上から入手できるものであれば、どのような音声データであってもよい。また関連情報には、現在ＷＥＢ上で入手可能な音声データ（ＭＰ３ファイル）に付随しているＵＲＬの他に、タイトルや、アブストラクト等を含めることができる。

音声データ記憶手段３は、音声データ収集手段１が収集した複数の音声データと複数の関連情報とを記憶する（音声データ記憶ステップ）。この音声データ記憶手段３は、図２のデータベース管理部１０２に含まれている。

音声認識手段５は、音声データ収集手段１が収集した複数の音声データを音声認識技術により複数のテキストデータに変換する（音声認識ステップ）。本実施の形態では、認識結果のテキストデータに、通常の音声認識結果（１つの単語列）だけでなく、各単語の開始時間と終了時間やその区間の複数の競合候補、信頼度等、再生や訂正に必要な豊かな情報も含めている。このような情報を含めることができる音声認識技術としては、種々の公知の音声認識技術を用いることができる。特に、本実施の形態では、音声認識手段５として、テキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているものを用いる。そしてこのテキストデータは、後述するテキストデータ公開手段１１、検索手段１３及び閲覧手段１４を介して、ユーザ端末機（クライアント）１５へと送信される。具体的に、音声認識手段５で使用する音声認識技術としては、発明者が２００４年に特許出願してすでに特開２００６−１４６００８号として公開されている、信頼度付き競合候補（コンフュージョンネットワーク）を生成できる機能を持った、大語彙連続音声認識器を用いている。なおこの音声認識器の内容は、特開２００６−１４６００８号公報に詳細に説明されているので説明は省略する。

なおテキストデータに競合候補を含めて送信する機能を有しているものを用いる場合には、ユーザ端末機１５の表示画面に表示したテキストデータ中の単語に対して競合候補が存在することを表示できるように、例えば、競合候補のある単語の色を他の単語の色と変えてもよい。このようにするとその単語に競合候補があることを表示することができる。

テキストデータ記憶手段７は、１つの音声データに付随する関連情報と該１つの音声データに対応するテキストデータとを関連付けて記憶する（テキストデータ記憶ステップ）。本実施の形態では、前述のテキストデータ中の単語の競合候補についても、テキストデータと一緒に記憶されている。テキストデータ記憶手段７も、図２のデータベース管理部１０２に含まれている。

テキストデータ訂正手段９は、インターネットを介して、ユーザ端末機１５から入力された訂正結果登録要求に従ってテキストデータ記憶手段７に記憶されているテキストデータを訂正する（テキストデータ訂正ステップ）。ここで訂正結果登録要求とは、ユーザ端末機１５で作成されたテキストデータ訂正の結果を登録することを要求する指令である。この訂正結果登録要求は、例えば、訂正箇所を含む修正されたテキストデータを、テキストデータ記憶手段７に記憶されているテキストデータと差し替える（置き換える）ことを要求する形式で作成することができる。またこの訂正結果登録要求は、記憶されているテキストデータの訂正箇所と訂正事項を個別に指定して、訂正の登録を要求する形式で作成することもできる。

本実施の形態では、後述するように、ダウンロードされるテキストデータに、テキストデータを訂正するために必要な訂正用プログラムを付随させて、ユーザ端末機１５に送信する。そのためユーザは、特に意識することなく、訂正結果登録要求を作成することができる。

テキストデータ公開手段１１は、テキストデータ記憶手段７に記憶されている複数のテキストデータを、Ｇｏｏｇｌｅ（商標）等の公知の検索エンジンにより検索可能で、しかも複数のテキストデータに対応する複数の関連情報と一緒にダウンロード可能に且つテキストデータを訂正可能な状態で公開する（テキストデータ公開ステップ）。テキストデータ公開手段１１は、インターネットを介して自由に複数のテキストデータにアクセスすることを可能にし、しかもユーザ端末機にテキストデータをダウンロードすることを許容するものである。このようなテキストデータ公開手段１１は、一般的には、誰でもテキストデータ記憶手段７にアクセスできるＷＥＢサイトを立ち上げることで実現できる。したがってこのテキストデータ公開手段１１は、実際には、ＷＥＢサイトをインターネットに接続する手段と、誰でもテキストデータ記憶手段７にアクセスできるＷＥＢサイトの構造とによって構成されているとみることができる。なお訂正可能な状態で公開することは、前述の訂正結果登録要求を受け入れるようにテキストデータ訂正手段９を構築することにより達成できる。

本発明の基本的な考え方を実現するためには、少なくとも上記の各手段（１，３，５，７，９及び１１）を備えていれば足りる。すなわち、音声データを音声認識技術により変換したテキストデータを訂正可能な状態で公開した上で、ユーザ端末機１５からの訂正結果登録要求に応じて、公開したテキストデータの訂正を可能にすれば足りる。このようにすれば、音声データを変換したテキストデータに含まれる単語がすべて検索エンジンの検索語として利用できるようになって、検索エンジンを利用した音声データ（ＭＰ３ファイル）の検索が容易になる。そして、ユーザがテキスト検索エンジン上で全文検索をする際に、通常のＷＥＢページと同時に、その検索語を含む音声データを含むポッドキャストも発見できる。その結果、多くの音声データを含むポッドキャストがより多くのユーザに認識されることにより、ポッドキャストによる情報発信をさらに促すことが可能になる。

後で具体的に説明するように、本実施の形態によれば、テキストデータに含まれる音声認識の認識誤りを、一般ユーザに訂正する機会を提供する。そのため、大量の音声データを音声認識によりテキストデータに変換して公開した場合であっても、膨大な訂正費用を費やすことなく、ユーザの協力によって音声認識の認識誤りを訂正することができる。なおユーザが訂正した結果（編集結果）は、テキストデータ記憶手段７に更新されて（例えば、訂正前のテキストデータが訂正後のテキストデータで置き換えられる態様で）蓄積される。

ユーザによる訂正でいたずらが行われることも考えられる。そこで本実施の形態では、訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段１０を更に備えている。訂正判定手段１０を設けているため、テキストデータ訂正手段９は、訂正判定手段１０が正しい訂正であるとみなした訂正事項だけを訂正に反映する（訂正判定ステップ）。なお訂正判定手段１０の構成については、後に具体的に説明する。

本実施の形態では、更に独自の検索手段１３を備えている。この独自の検索手段１３は、まずインターネットを介してユーザ端末機１５から入力された検索語に基づいて、テキストデータ記憶手段７に記憶されている複数のテキストデータから、所定の条件を満たす１以上のテキストデータを検索する機能を有している（検索ステップ）。そして検索手段１３は、検索により得られた１以上のテキストデータの少なくとも一部とこの１以上のテキストデータに付随する１以上の関連情報とを、ユーザ端末機１５に送信する機能を有している。このような独自の検索手段１３を設ければ、本発明のシステムに直接アクセスすることにより、音声データを高い精度で検索することができることをユーザに知らしめることが可能になる。

さらに本実施の形態では、独自の閲覧手段１４を設けている。この独自の閲覧手段１４は、インターネットを介してユーザ端末機１５から入力された閲覧要求に基づいて、テキストデータ記憶手段７に記憶されている複数のテキストデータから、閲覧要求されたテキストデータを検索し、検索により得られたテキストデータの少なくとも一部をユーザ端末機１５に送信する機能を有している（閲覧ステップ）。このような閲覧手段を設ければ、ユーザが、検索したポッドキャストの音声データを「聞く」だけでなく、「読む」ことも可能になる。この機能があると、音声再生環境がなくても内容を把握したいときに有効である。また、例えば、普通に音声データを含むポッドキャストを再生しようとする場合でも、それを聞くべきかどうか事前に吟味することができる。また独自の閲覧手段１４を利用すると、聞く前にざっと全文テキストを眺められることで、その内容に関心があるかどうかをより短時間で把握することができる。その結果、音声データまたはポッドキャストの取捨選択が効率良くできる。

なお閲覧手段１４としては、ユーザ端末機の表示画面上に競合候補を含めてテキストデータを表示できるように、テキストデータに競合候補を含めて送信する機能を有するものを用いることができる。このような閲覧手段１４を用いると、テキストデータと一緒に競合候補が表示画面に表示されているので、ユーザの訂正作業が非常に容易になる。

次に、図２に示すハードウエアを用いて本実施の形態を実施する場合の具体例について説明する。図２に示すハードウエアでは、音声データ収集手段１を構成するＷＥＢクローラ１０１と、音声データ記憶手段３とテキストデータ記憶手段７が内部に構成されるデータベース管理部１０２と、音声認識状態管理部１０５Ａと複数台の音声認識器１０５Ｂとから構成されて、音声認識手段５を構成する音声認識装置１０５と、テキストデータ訂正手段９、訂正判定手段１０、テキストデータ公開手段１１、検索手段１３及び閲覧手段１４を含む検索サーバ１０８とから構成される。検索サーバ１０８には多数のユーザ端末機１５（パーソナルコンピュータや、携帯電話や、ＰＤＡ等）がインターネット（通信ネットワーク）を介して接続されている。

ＷＥＢクローラ１０１（アグリゲータ）は、ＷＥＢ上のポッドキャスト（音声データとＲＳＳ）が収集される。ここで「ポッドキャスト」とは、ＷＥＢ上で配信される複数の音声データ（ＭＰ３ファイル）とそのメタデータの集合のことである。音声データの流通を促すために、ブログなどで更新情報を通知するために用いられているメタデータＲＳＳ（ＲｅａｌｌｙＳｉｍｐｌｅＳｙｎｄｉｃａｔｉｏｎ）２．０が必ず付与されている点が、単なる音声データと違う点である。この仕組みにより、ポッドキャストは音声版ブログともいわれる。したがって、本実施の形態では、ＷＥＢ上のテキストデータの場合と同様に、ポッドキャストに対しても全文検索や詳細な閲覧を可能にする。また前述の「ＲＳＳ」とは、見出しや要約などのメタデータを構造化して記述するＸＭＬベースのフォーマットである。ＲＳＳで記述された文書には、ＷＥＢサイトの各ページのタイトル、アドレス、見出し、要約、更新時刻などが記述されている。ＲＳＳ文書を用いることで、多数のＷＥＢサイトの更新情報を統一的な方法で効率的に把握することが可能になる。

一つのポッドキャストには、一つのＲＳＳが付与されている。そして一つのＲＳＳの中には、複数のＭＰ３フィルのＵＲＬが記述されている。したがって、以下の説明で、ポッドキャストのＵＲＬとは、ＲＳＳのＵＲＬを意味するものである。ＲＳＳは、作成者（ポッドキャスタ）側で定期的に更新される。ここでポッドキャスト中の個々のＭＰ３ファイルとその関連ファイル(音声認識結果等)の集合を、「ｓｔｏｒｙ」と定義する。ポッドキャストにおいて、新しいｓｔｏｒｙのＵＲＬが追加されると、古いｓｔｏｒｙ（ＭＰ３ファイル）のＵＲＬは削除される。

ＷＥＢクローラ１０１で収集されたボッドキャストに含まれる音声データ（ＭＰ３ファイル）はデータベース管理部１０２にあるデータベースの記憶される。本実施の形態においては、データベース管理部１０２は以下の項目を記憶して管理している。

（１）取得対象ポッドキャストのＵＲＬのリスト(実体:ＲＳＳのＵＲＬリスト)
ＷＥＢクローラで取得しに行くボッドキャストのＵＲＬリストである。

（２）ｋ番目(計N個)のポッドキャストに関する以下の項目
(2-1) 取得済みＲＳＳデータ(実体:ＸＭＬファイル)
ここではＲＳＳの数ｋを、ｋ=1．．．Ｎ（Ｎは正の整数）とする。

(2-2) ＭＰ３ファイルのＵＲＬのリスト
ここではＵＲＬの数ｓを、ｓ=1．．．Ｓｎ（Ｓｎは正の整数）とする。

このリストは、Ｓｎ個のｓｔｏｒｙのＵＲＬリストである。

(2-3) ＭＰ３ファイルのタイトルを含む関連情報のリスト
ここでは関連情報のリストの数ｓはｓ=1．．．Ｓｎ（Ｓｎは正の整数）で
ある。

（３）ｎ番目のボッドキャストのs番目(計Ｓｎ個)のｓｔｏｒｙ(個々のＭＰ３ファイル
とその関連ファイル)
(3-1) 音声データ(実体:ＭＰ３ファイル)
これが図１の音声データ記憶手段３に相当する。

(3-2) 音声認識結果のバージョンのリスト
音声認識結果のバージョンの番号ｖはｖ=1．．．Ｖとする。

(3-3) ｖ番目のバージョンの音声認識結果／訂正結果
(3-3-1) 作成日時
(3-3-2) 全文テキスト(FText：各単語の時刻情報が付いているテキスト）
これが図１のテキストデータ記憶手段７に相当する。

(3-3-3) コンフュージョンネットワーク(CNet)
これがテキストデータを訂正するために単語の競合候補を提示するシス
テムである。

(3-3-4) 音声認識処理状況（取得した音声データの音声認識の状況を下記１〜３
の状況として示す）
1. 未処理
2. 処理中
3. 処理済み
（４）音声認識すべきポッドキャストの番号（ｎ）
（５）訂正処理待ち行列（ｑｕｅｕｅ）
(5-1) 訂正すべきｓｔｏｒｙの番号(何番目か：ｓ)
(5-2) 処理内容
1. 通常の音声認識結果
2. 訂正結果の反映
(5-3) 訂正処理状況（下記の１〜３の状況として示す）
1. 未処理
2. 処理中
3. 処理済み
図３は、コンピュータを用いてＷＥＢクローラ１０１を実現する場合に用いるソフトウエア（プログラム）のアルゴリズムを示すフローチャートである。このフローチャートでは、前提として以下の準備がなされているものとする。なお図３のフローチャート及び以下の説明中において、データベース管理部１０２をＤＢと略して示すことがある。

最初に準備段階としてデータベース管理部１０２において、取得対象ポッドキャストのＵＲＬのリスト(実体:ＲＳＳのＵＲＬリスト)に、以下のときのいずれかでＲＳＳのＵＲＬが登録されているものとする。

a. ユーザによって新規に追加されるとき
b. 管理者によって新規に追加されるとき
c. 既にＤＢにあるＲＳＳでも、更新されてｓｔｏｒｙが増えていないかを
チェックするために、定期的に自動追加されるとき
図３のステップＳＴ１では、データベース管理部の取得対象ポッドキャストのＵＲＬのリスト（実体：ＲＳＳのＵＲＬリスト）から、次のＲＳＳのＵＲＬを取得する。そしてステップＳＴ２で、そのＲＳＳのＵＲＬから、ＲＳＳをダウンロードする。次にステップＳＴ３で、データベース管理部１０２の前述の（2-1）取得済みＲＳＳデータ(実体: XMLファイル）にＲＳＳを登録する。そしてステップＳＴ４で、ＲＳＳを解析（XMLファイルを解析）する。次にステップＳＴ５で、ＲＳＳ中に記述されている音声データのＭＰ３ファイルのＵＲＬとタイトルのリストを取得する。次にで、個々のＭＰ３ファイルのＵＲＬに関して以下のステップＳＴ６乃至ＳＴ１３を実行する。

まずステップＳＴ６では、次のＭＰ３ファイルのＵＲＬを取り出す。最初の場合には、一番最初のＵＲＬを取得する。次にステップＳＴ７へと進んで、データベース管理部１０２の(2-2) ＭＰ３ファイルのＵＲＬのリストに当該ＵＲＬが登録されているか否かを判定する。登録されている場合には、ステップＳＴ６へ戻り、登録されていない場合にはステップＳＴ８へと進む。ステップＳＴ８では、データベース管理部１０２の(2-2) ＭＰ３ファイルのＵＲＬのリストと(2-3) ＭＰ３ファイルのタイトルのリストとにＭＰ３ファイルのＵＲＬ、タイトルを登録する。次にステップＳＴ９では、ＷＥＢのそのＭＰ３ファイルのＵＲＬから、ＭＰ３ファイルをダウンロードする。そしてステップＳＴ１０へと進んで、データベース管理部１０２（ＤＢ）のｓ番目（計S個）のｓｔｏｒｙ（個々のＭＰ３ファイルとその関連ファイル）に、そのＭＰ３ファイル用のｓｔｏｒｙを新規作成し、ＭＰ３ファイルを音声データ記録手段（実体：ＭＰ３ファイル）に登録する。

その後データベース管理部１０３において、音声認識用待ち行列の前述の認識すべきstoryの番号（何番目か：ｓ）にそのｓｔｏｒｙを登録する。そしてステップＳＴ１２で、データベース管理部１０２の処理内容を「1. 通常の音声認識（訂正がない）」とする。次にステップＳＴ１３で、データベース管理部１０２の音声認識処理状況を「1. 未処理」に変更する。このようにしてＲＳＳに記述されている音声データのＭＰ３ファイルの音声データ等を音声データ記憶手段３に順次記憶する。

次に、図４を用いて、音声認識状態管理部１０５Ａを実現するソフトウエアのアルゴリズムを説明する。このアルゴリズムの前提としては、次のような動作が行われるものとする。すなわち複数台の音声認識器１０５Ｂは、処理能力が余っているときに（自分が次の処理を行うことが可能になると）、音声認識器１０５Ｂは音声認識状態管理部１０５Ａに対して次の音声データ（ＭＰ３ファイル）をリクエストする。このリクエストにより音声認識状態管理部１０５Ａは音声データをリクエストしてきた音声認識器１０５Ｂへと送る。そしてそれを受け取った音声認識器１０５Ｂは、音声認識を行って、その結果を音声認識状態管理部１０５Ａへ送り返す動作をする。このような動作を複数の音声認識器１０５Ｂが個々に行っているものとする。なお１台の音声認識器（１台の計算機上）で上記の動作を並行して複数動作実行するようにしてもよい。

まず図４のアルゴリズムでは、まずステップＳＴ２１で音声認識器１０５Ｂ（ＡＳＲと略す場合もある）から次のＭＰ３ファイルを処理したいというリクエストを受信する度に、ステップＳＴ２２以下を実行する新たなプロセスを起動し、複数の音声認識器１０５Ｂからのリクエストを次々に受信して処理できるようにする。すなわちステップＳＴ２１では、いわゆるマルチスレッドプログラミングで処理を実行する。なおマルチスレッドプログラミングは，一つのプログラムを論理的には独立に動くいくつかの部分に分けて、全体として調和して動くように組み上げるプログラミングのことである。ステップＳＴ２２では、データベース管理部１０２の前述の音声認識用待ち行列（キュー）から、音声認識処理状況が「1. 未処理」になっている認識すべきstoryの番号(何番目か：ｓ)を取得する。そしてｓ番目（計S個）のstory(個々のＭＰ３ファイルとその関連ファイル)と音声データ（実体はＭＰ３ファイル）も取得する。次にステップＳＴ２３では、音声認識器１０５Ｂ（ＡＳＲ）に、その音声データ(ＭＰ３ファイル)を送信する。またこのステップでは、データベース管理部１０２の音声認識処理状況を「処理中」に変更する。次にステップＳＴ２４では、音声認識器１０５Ｂでの処理が終了したか否かの判定が行われる。処理が終了していれば、ステップＳＴ２５へと進み、終了していなれば更にステップＳＴ２４が継続される。ステップＳＴ２５では、音声認識器１０５Ｂの処理は正常終了だったか否かが判定される。処理が正常であれば、ステップＳＴ２６へと進む。ステップＳＴ２６では、データベース管理部１０２の(3-2)の音声認識結果のバージョンのリストから上書きしないように次のバージョン番号を取得する。そして音声認識器１０５Ｂの結果をデータベース管理部１０２の(3-3)のｖ番目のバージョンの音声認識結果／訂正結果に登録する。ここで登録するのは、(3-3-1) 作成日時、(3-3-2) 全文テキスト(FText)及び(3-3-3) コンフュージョンネットワーク(CNet)である。そしてステップＳＴ２７へと進んで音声認識処理状況を「処理済み」に変更する。ステップＳＴ２７が終了するとステップＳＴ２１へと戻る。すなわちステップＳＴ２２以下を実行してきたプロセスを終了する。ステップＳＴ２５で正常でなかったことを判定すると、ステップＳＴ２８へと進み、ステップＳＴ２８では、データベース管理部１０２の音声認識処理状況を「未処理」に変更する。そしてステップＳＴ２１へと戻り、ステップＳＴ２２以下のプロセスを終了する。

次に図５乃至図７を用いて、検索サーバ１０８を用いて独自の検索機能（検索手段）、独自の閲覧機能（閲覧手段）及び訂正機能（訂正手段）をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを説明する。検索サーバ１０８には、各ユーザ端末機（インタフェース）１５から、非同期に次々と処理要求が来るので、検索サーバ１０８、つまり、ＷＥＢサーバはそれらを処理する。図５はユーザ端末機１５から検索要求がきた場合の処理のアルゴリズムである。ステップＳＴ３１では、ユーザ端末機１５から検索要求として検索語を受信する。検索語を受信する度に、ステップＳＴ３２以下を実行する新たなプロセスを起動する。このプロセスも、いわゆるマルチスレッドプログラミングで実行する。したがって複数の端末機からのリクエストを次々に受信して処理できる。ステップＳＴ３２では、検索語を形態素解析する。形態素とはこれ以上に細かくすると意味がなくなってしまう最小の文字列をいう。形態素解析では、検索語を最小の文字列に分解する。この解析には、形態素解析プログラムと呼ばれるプログラムを用いることになる。次にステップＳＴ３３で、データベース管理部１０２に登録されている全ｓｔｏｒｙ、すなわちｓ番目(計S個)のｓｔｏｒｙ(個々のＭＰ３ファイルとその関連ファイル)のすべての全文テキスト（FText）及びコンフュージョンネットワーク（ＣＮｅｔ）の競合候補に対して、形態素解析した検索語の全文検索を行う。実際の検索はデータベース管理部１０２で実行される。ステップＳＴ３４で、検索語の全文検索結果をデータベース管理部１０２から受信する。またデータベース管理部１０２から、検索語を含むｓｔｏｒｙのリストと、その全文テキスト（FText）を受信する。その後、ステップＳＴ３５では、各ｓｔｏｒｙの全文テキスト（FText）に対して、検索語の出現位置を検索して発見する。そしてステップＳＴ３６で各ｓｔｏｒｙの全文テキスト（FText）において、発見した検索語の出現位置を含むその前後のテキストをユーザ端末機の表示部での表示のために一部切り出す。なおこの全文テキスト（FText）には、テキスト中の各単語の開始時刻と終了時刻の情報が付随している。その後ステップＳＴ３７へと進み、検索語を含むｓｔｏｒｙのリスト、各ｓｔｏｒｙのＭＰ３ファイルのＵＲＬ、各ｓｔｏｒｙのＭＰ３ファイルのタイトル及び各ｓｔｏｒｙの検索語の出現位置の前後のテキストとテキスト中の各単語の開始時刻と終了時刻の情報が、ユーザ端末機１５に送信される。ユーザ端末機１５では、上記の検索結果を、表示画面に一覧表示する。そして端末機１５上で、ユーザは、ＭＰ３ファイルのＵＲＬを用いて検索語の出現位置の前後の音を再生したり、そのｓｔｏｒｙの閲覧を要求したりできる。ステップＳＴ３７が終了するとステップＳＴ３１へと戻る。その結果、ステップＳＴ３２以下を実行してきたプロセスを終了する。

図６は閲覧機能を実現するためのソフトウエアのアルゴリズムを示すフローチャートである。ステップＳＴ４１では、ユーザ端末機１５から、あるｓｔｏｒｙの閲覧要求を受信する度に、ステップＳＴ４２以下を実行する新たなプロセスを起動する。すなわち複数のユーザ端末機１５からのリクエストを次々に受信して処理できるようにする。次にステップＳＴ４２では、データベース管理部１０２から当該ｓｔｏｒｙのｖ番目のバージョンの音声認識結果／訂正結果の最新バージョンの全文テキスト（FText）及びコンフュージョンネットワーク（CNet）を取得する。そしてステップＳＴ４３では、取得した全文テキスト（FText）とコンフュージョンネットワーク（CNet）をユーザ端末機１５へ送信する。ユーザ端末機１５では、取得した全文テキストを音声認識結果の全文テキストとして表示する。コンフュージョンネットワーク（CNet）が一緒に送信されるため、ユーザ端末機１５上で、ユーザは、全文テキストを閲覧するだけでなく、後に説明するように音声認識誤りを訂正することができる。ステップＳＴ４３が終了するとステップＳＴ４１へと戻る。すなわちステップＳＴ４２以下を実行してきたプロセスを終了する。

図７は、訂正機能（訂正手段）をコンピュータを用いて実現する場合のソフトウエアのアルゴリズムを示すフローチャートである。訂正結果登録要求は、ユーザ端末機１５から出力される。図８はユーザ端末機１５の表示画面上に表示されるテキストを訂正するために用いるインタフェースの一例である。このインタフェースでは、テキストデータの一部を競合候補と一緒に表示する。競合候補は、特開２００６−１４６００８号公報に示された大語彙連続音声認識器で使用するコンフュージョンネットワークによって作成されるものである。

なお図８の例では、すでに訂正が終了した状態が示されている。図８の競合候補の中で太い枠で表示されている競合候補が訂正で選択された単語である。図９は訂正前のテキストの一部を示している。図９の単語「船田」及び「タイムリー」の上に記載したＴ_０及びＴ_２の文字は、音声データを再生したときの各単語の開始時刻であり、Ｔ_１及びＴ_３は音声データを再生したときの各単語の終了時刻である。実際には、これらの時刻は、テキストデータに付随しているだけで、図９のように画面に表示されることはない。テキストデータにこのよう時刻を付随させておくと、ユーザ端末機１５の再生システムとして、単語をクリックすると、その単語の位置から音声データを再生することが可能になる。したがってユーザサイドでの再生時の使い勝手が大幅に増大する。図９に示すように、訂正前の音声認識結果は「船田のタイムリー・・・・・」であったとする。この場合、「船田」の単語の候補の中から「船橋」を選択すると、選択された「船橋」が「船田」と置き換わる。このように競合候補を選択可能に表示画面に表示すると、簡単に訂正ができるので、ユーザの協力を得て音声認識結果を訂正することが非常に容易になる。なお音声認識の誤りの訂正が終わって保存ボタンをクリックすると、訂正（編集）結果を登録するために、ユーザ端末機１５から訂正結果登録要求が出される。ここでの訂正結果登録要求の実体は、訂正後の全文テキスト（FText）である。すなわち訂正結果登録要求は、訂正後の全文テキストデータを訂正前の全文テキストデータと置き換えることの要求である。なお競合候補を提示せずに、表示画面に表示されたテキストの単語を直接訂正するようにしてもよいのは勿論である。

図７に戻って、ステップＳＴ５１では、ユーザ端末機１５から、あるｓｔｏｒｙ（音声データ）の訂正結果登録要求を受信する。音声データを受信する度に、ステップＳＴ５２以下を実行する新たなプロセスを起動し、複数の端末機からのリクエストを次々に受信して処理できるようにする。ステップＳＴ５２では、検索語を形態素解析する。ステップＳＴ５３では、データベース管理部１０２より、音声認識結果のバージョンのリストから、上書きしないように次のバージョン番号を取得する。そして受信した訂正された全文テキスト(FText)の結果を、ｖ番目のバージョンの音声認識結果／訂正結果として、その作成日時とともに訂正すべき全文テキスト（FText）を登録する。そして次にステップＳＴ５４へと進み、データベース管理部１０２において、訂正用待ち行列（キュー）に、訂正すべきｓｔｏｒｙの番号(何番目か：ｓ)にそのｓｔｏｒｙを登録する。すなわち訂正処理をするための訂正用待ち行列に、そのｓｔｏｒｙを登録する。次にステップＳＴ５５で訂正処理の内容を、「訂正結果の反映」とし、ステップＳＴ５６でデータベース管理部１０２の訂正処理状況を「未処理」に変更する。この状態にした後は、ステップＳＴ５１へと戻る。つまり、ステップＳＴ５２以下を実行してきたプロセスを終了する。すなわち図７のアルゴリズムは、訂正結果登録要求を受け入れて、実行可能な状態まで処理をするものである。最終的な訂正処理は、データベース管理部１０２で実行される。「未処理」の全文テキストには、データベース管理部１０２において、訂正用待ち行列の順番が来ると、訂正処理が実行される。そしてその結果がテキストデータ記憶手段７に記憶されているテキストデータに反映される。訂正が反映されると、データベース管理部１０２の訂正処理状況は、「処理済み」となる。

図８に示す詳細モードでは、横一列に並んだ認識結果の各単語区間の下に、それぞれの競合候補のリストが表示される。なおこの表示態様は、特開２００６−１４６００８号公報に詳しく説明されている。このように競合候補が常に表示されているため、誤り箇所をクリックして候補を確認する手間が省け、正しい単語を次々と選択するだけで訂正できる。この表示で、競合候補の個数が多い箇所は認識時の曖昧性が高かった（音声認識器にとって自信がなかった）ことを表している。したがって詳細モードで表示すると、候補の個数に注意しながら作業することで、誤り箇所を見逃しにくいという利点が得られる。また各区間の競合候補は信頼度の高い順に並んでおり、通常は上から下へ候補を見ていくと、早く正解にたどり着けることが多い。また、競合候補には必ず空白の候補が含まれる。これは「スキップ候補」と呼ばれ、その区間の認識結果をないものとする役割を持つ。つまりこれをクリックするだけで、余分な単語が挿入されている箇所を容易に削除できる。なおこのスキップ候補に関しても、特開２００６−１４６００８号公報に詳しく説明されている。

二種類のモードは、訂正中のカーソル位置を保存したまま自由に切り替えられる。全文モードは、テキストの閲覧が主目的なユーザにとって有用であり、普段は閲覧の邪魔にならないように競合候補は見えない。しかし、ユーザが認識誤りに気付いたときに、そこだけ気軽に訂正できる利点がある。一方、詳細モードは、認識誤りの訂正が主目的なユーザにとって有用である。詳細モードでは、前後の競合候補やそれらの個数も見ながら、見通し良く効率的な訂正ができる利点がある。

ユーザに対して音声認識の結果を訂正可能な状態で公開することにより、テキストデータの訂正の協力をユーザから得る本実施の形態のシステムでは、悪意を持ったユーザによる訂正でいたずらが行われることも考えられる。そこで本実施の形態では、図１に示すように、訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段１０を備えている。訂正判定手段１０を設けているため、テキストデータ訂正手段９は、訂正判定手段１０が正しい訂正であるとみなした訂正事項だけを訂正に反映するように構成されている。

訂正判定手段１０の構成は任意である。本実施の形態では、図１０に示すように、訂正判定手段１０を、言語照合技術を用いていたずらによる訂正であるか否かを判定する技術と、音声照合技術を用いていたずらによる訂正であるか否かを判定する技術とを組み合わせて構成した。図１１は、訂正判定手段１０を実現するソフトウエアの基本アルゴリズムを示しており、図１２は言語照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示しており、図１３は音声照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示している。図１０に示すように、訂正判定手段１０は、言語照合技術を用いていたずらによる訂正を判定するために、第１及び第２の文スコア算出手段１０Ａ及び１０Ｂと、言語照合手段１０Ｃを備えており、音響照合技術を用いていたずらによる訂正を判定するために、第１及び第２の音響尤度算出手段１０Ｄ及び１０Ｅと、音響照合手段１０Ｆとを備えている。

第１の文スコア算出手段１０Ａは、図１２に示すように、予め用意した言語モデル（本実施例ではＮ−ｇｒａｍを用いる）に基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列Ａの言語的な確からしさを示す第１の文スコアａ（言語的接続確率）を求める。第２の文スコア算出手段１０Ｂも、予め用意した同じ言語モデルに基づいて、訂正単語列Ａに対応するテキストデータに含まれる訂正前の所定の長さの単語列Ｂの言語的な確からしさを示す第２の文スコアｂ（言語的接続確率）を求める。そして言語照合手段１０Ｃは、第１及び第２の文スコアの差（ｂ−ａ）が予め定めた基準値（閾値）よりも小さい場合には、訂正事項を正しい訂正であるとみなす。また第１及び第２の文スコアの差（ｂ−ａ）が予め定めた基準値（閾値）以上ある場合には、訂正事項をいたずらによる訂正であるとみなす。

本例では、言語照合技術により訂正事項が正しいと判断された音声認識結果（テキストデータ）を、音響照合技術により再度判定する。そこで第１の音響尤度算出手段１０Ｄは、図１３に示すように、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列Ａを音素列に変換して第１の音素列Ｃを得る。また第１の音響尤度算出手段１０Ｄは、音声データから音素タイプライタを用いて訂正単語列Ｂに対応する音声データ部分の音素列を作成する。そして第１の音響尤度算出手段１０Ｄは、音響モデルを用いて音声データ部分の音素列と第１の音素列との間のＶｉｔｅｒｂｉアライメントを取り、第１の音響尤度ｃを求める。

第２の音響尤度算出手段１０Ｅは、訂正単語列Ｂに対応するテキストデータに含まれる訂正前の所定の長さの単語列Ａを音素列に変換した第２の音素列Ｄの音響的な確からしさを示す第２の音響尤度ｄを求める。第２の音響尤度算出手段１０Ｅは、音響モデルを用いて前述の音声データ部分の音素列と第２の音素列との間のＶｉｔｅｒｂｉアライメントを取り、第２の音響尤度ｄを求める。そして音響照合手段１０Ｆは、第１及び第２の音響尤度の差（ｄ−ｃ）が予め定めた基準値（閾値）よりも小さい場合には、訂正事項を正しい訂正であるとみなす。また音響照合手段１０Ｆは、第１及び第２の音響尤度の差（ｄ−ｃ）が予め定めた基準値（閾値）以上ある場合には、訂正事項をいたずらによる訂正であるとみなす。

図１４（Ａ）は、「私は今日大学へ行く」の入力音声の音声認識結果の単語列を音素列に変換したものと、この入力音声を音素タイプライタで音素列に変換したものとの間のＶｉｔｅｒｂｉアライメントを取って、計算した音響尤度が（−６１．０７３０）であることを示している。また図１４（Ｂ）は、「私は今日大学へ行く」の音声認識結果を、全く異なる「あいくえおかきくけこさしすせそ」に訂正した場合の音響尤度が（−６５．９７１５）であることを示している。図１４（Ｃ）は「私は今日大学へ行く」の音声認識結果を、全く異なる「産総研」に訂正した場合の音響尤度が（−６５．５９８２）であることを示している。さらに図１４（Ｄ）は、「私は今日大学へ行く」の音声認識結果を、全くことなる異なる「今日のニュースで小泉総理大臣は」と訂正した場合の音響尤度が（−６７．５８１４）であることを示している。図１４（Ｂ）乃至（Ｄ）のいたずらは、図１４（Ａ）の場合の音響尤度（−６１．０７３０）と、いたずらの場合の音響尤度、例えば図１４（Ｂ）の（−６５．９７１５）との差（３．８９８５）が、予め定めた基準値（閾値）である２を越えていることから、いたずらと判断する。

本例のように、最初に言語照合技術を用いて訂正を判定を行い、言語照合技術では、いたずらによる訂正がないと判定されたテキストについてだけ、音響照合技術により訂正を判定すると、いたずらの判定精度が高くなる。また言語照合よりも、複雑な音響照合の対象テキストデータを減らすことができるので、訂正の判定を効率的に実施できる。

なお訂正判定手段１０を用いる場合及び用いない場合のいずれでも、テキストデータ訂正手段９に、訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段９Ａを設けることができる。この場合には、識別情報判定手段９Ａが識別情報の一致を判定した訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにする。このようにすれば識別情報を有するユーザ以外はテキストデータの訂正を行うことができないので、いたずらによる訂正を大幅に低減することができる。

またテキストデータ訂正手段９内には、訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段９Ｂを設けることができる。そして訂正許容範囲決定手段９Ｂが決定した範囲の訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにしてもよい。具体的には、訂正結果登録要求を送信してきたユーザの信頼度を識別情報から判断する。そしてこの信頼度に応じて訂正を受け入れのための重み付けを変えることにより、新規別情報に応じて訂正を許容する範囲を変更することができる。このようにするとユーザによる訂正を可能な限り、有効に利用できる。

また上記実施の形態において、テキストデータ記憶手段７内には、ユーザの訂正に対する興味を増進させるために、テキストデータ訂正手段９により訂正された回数が多いテキストデータのランキングを集計してその結果をユーザ端末機からの要求に応じてユーザ端末機に送信するランキング集計手段７Ａを更に設けてもよい。

音響認識に用いる音響モデルとしては、日本語話し言葉コーパス（ＣＳＪ）などの一般的な音声コーパスから学習したｔｒｉｐｈｏｎｅモデルを用いることができる。しかしポッドキャストの場合、音声が収録されているだけでなく、背景に音楽や雑音を含む場合がある。そうした音声認識が困難な状況に対処するためには、ＥＴＳＩＡｄｖａｎｃｅｄＦｒｏｎｔ−Ｅｎｄ［ＥＴＳＩＥＳ２０２０５０ｖ１．１．１ＳＴＱ；ｄｉｓｔｒｉｂｕｔｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ；ａｄｖａｎｃｅｄｆｒｏｎｔ−ｅｎｄｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍ；ｃｏｍｐｒｅｓｓｉｏｎａｌｇｏｒｉｔｈｍｓ．２００２．］に代表される雑音抑圧手法を用いて、学習と認識の前処理の音響分析を行えば、性能を改善することができる。

また上記実施の形態では、言語モデルには、ＣＳＲＣソフトウェア２００３年度版［河原、武田、伊藤、李、鹿野、山田：連続音声認識コンソーシアムの活動報告及び最終版ソフトウェアの概要。信学技報、ＳＰ２００３−１６９、２００３］の中から、１９９１年から２００２年までの新聞記事テキストより学習された６００００語のｂｉｇｒａｍを用いた。しかしポッドキャストの場合、最近の話題や語彙を含むものが多く、学習データとの違いからそうした音声を認識することが難しい。そこで、日々更新されているＷＥＢ上のニュースサイトのテキストを、言語モデルの学習に利用して、性能を改善した。具体的には、総合的な日本語ニュースサイトであるＧｏｏｇｌｅニュースとＹａｈｏｏ！ニュースに掲載された記事のテキストを毎日収集し、学習に用いた。

なおユーザが訂正機能で訂正した結果は、音声認識性能を向上させるために様々な方法での利用が考えられる。例えば、音声データ全体に対する正しいテキスト（書き起こし）が得られるので、音声認識の一般的な方法で音響モデルや言語モデルを再学習すれば、性能向上が期待できる。例えば、音声認識器が誤りを起こした発声区間が、どのような正解単語へ訂正されたのかがわかるので、その区間の実際の発声（発音系列）が推定できれば、正解単語との対応が得られる。一般に音声認識では、事前に登録した各単語の発音系列の辞書を用いて認識する。しかし実環境での音声は予測困難な発音変形を含むことがあり、辞書の発音系列と一致せずに誤認識を引き起こす原因となっていた。そこで、誤りを起こした発声区間の発音系列（音素列）を、音素タイプライタ（音素を認識単位とした特殊な音声認識器）により自動推定し、その実際の発音系列と正解単語の対応を辞書に追加登録する。こうすることで、同じように変形した発声（発音系列）に対して辞書が適切に参照でき、同じ誤認識を再び起こさないことが期待できる。また、ユーザがタイプして訂正した、事前に辞書に登録されていなかった単語（未知語）も認識できるようになる。

図１５は、訂正結果を利用して、未知語の追加登録と、発音の追加登録を行える音声認識手段の構成を説明するための図である。図１５において、図１に示した手段と同じ手段には、図１に付した符号と同じ符号を付す。この音声認識手段５′は、音声認識実行手段５１と、音声認識辞書５２と、テキストデータ記憶手段７と、テキストデータ訂正手段９が兼務するデータ訂正手段５７と、ユーザ端末機１５と、音素列変換手段５３と、音素列部分抽出手段５４と、発音決定手段５５と、追加登録手段５６とを備えた本発明の音声認識システムの他の実施の形態の構成をブロック図で示している。また図１６は、図１５の実施の形態をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムの一例を示すフローチャートである。

この音声認識手段５′は、単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書５２を利用して、音声データをテキストデータに変換する音声認識実行手段５１と、音声認識実行手段５１によって音声認識された結果得られるテキストデータを記憶するテキストデータ記憶手段７とを備えている。なお音素列変換手段５３は、テキストデータに含まれる各単語に対応する音声データ中の単語区間の開始時刻と終了時刻をテキストデータに付加する機能を有している。この機能は、音声認識実行手段５１で音声認識を実行する際に同時に実行される。音声認識技術としては、種々の公知の音声認識技術を用いることができる。特に、本実施の形態では、音声認識実行手段５１として、音声認識により得たテキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているものを用いる。

テキストデータ訂正手段９が兼務するデータ訂正手段５７は、前述のように、音声認識実行手段５１から得てテキストデータ記憶手段７に記憶され、ユーザ端末機１５上に表示されるテキストデータ中の各単語に対して競合候補を提示する。前述のように、音声認識手段５から得たテキストデータ中の各単語に対して競合候補を提示する。そしてテキストデータ訂正手段９は、競合候補中に正しい単語があるときには、競合候補から正しい単語を選択により訂正することを許容し、競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容する。

具体的に、音声認識実行手段５１で使用する音声認識技術及びデータ訂正手段５７で使用する単語訂正技術としては、発明者が２００４年に特許出願してすでに特開２００６−１４６００８号として公開されている、信頼度付き競合候補（コンフュージョンネットワーク）を生成できる機能を持った、大語彙連続音声認識器を用いている。なおこの音声認識器では、競合候補を提示して訂正を行っている。データ訂正手段５７の内容は、特開２００６−１４６００８号公報に詳細に説明されているので説明は省略する。

音素列変換手段５３は、音声データ記憶手段３から得た音声データを音素単位で認識して複数の音素から構成される音素列に変換する。そして音素列変換手段５３は、音素列に含まれる各音素に対応する音声データ中の各音素単位の開始時刻と終了時刻を音素列に付加する機能を有する。音素列変換手段としては、公知の音素タイプライタを用いることができる。図１７は、後に説明する発音の追加登録の例を説明するための図である。図１７中の「funabanotaimuri」の表記が、音素タイプライタで音素データを音素列に変換した結果を示している。そして「funabanotaimuri」の下のｔ_０〜ｔ_１５が、それぞれ各音素単位の開始時刻および／または終了時刻である。すなわち最初の音素単位「ｆ」の開始時刻はｔ_０であり、終了時刻はｔ_１である。

音素列部分抽出手段５４は、音素列中から、データ訂正手段５７により訂正された単語の単語区間の開始時刻から終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する。図１７の例で説明すると、訂正された単語は「船田」であり、船田の単語区間の開始時刻は「船田」の文字の上のＴ_０であり、終了時刻はＴ_１である。そしてこの「船田」の単語区間に存在する音素列部分は「funaba」である。したがって音素列部分抽出手段５４は、訂正された単語「船田」の発音を示す音素列部分「funaba」を音素列から抽出する。図１７の例では、「船田」が「船橋」にデータ訂正手段５７によって訂正される。

発音決定手段５５は、この音素列部分「funaba」をデータ訂正手段５７により訂正された訂正後の単語に対する発音と定める。

追加登録手段５６は、訂正後の単語が、音声認識辞書５２に登録されていないことを判定すると、訂正後の単語と発音決定手段５５が決定した発音とを組みあわせて新たな発音単語データとして音声認識辞書５２に追加登録する。また追加登録手段５６は、訂正後の単語が、音声認識辞書５２に既に登録されている既登録単語であることを判定すると、既登録単語の別の発音として、発音決定手段５５が決定した発音を追加登録する。

例えば、図１８に示すように、「駒大」の文字がマニュアル入力で訂正された未知語の単語であるとすると、訂正の対象となった単語「駒大」について、音素列部分「ｋｏｍａｄａｉ」がその発音となる。追加登録手段５６は、単語「駒大」が音声認識辞書５２に登録されていない未知語であれば、その単語「駒大」と発音「ｋｏｍａｄａｉ」とを音声認識辞書５２に登録する。訂正された単語と発音とを対応させるために、単語区間の時刻Ｔ_７〜Ｔ_８と音素列中の時刻ｔ_７０〜ｔ_７７とが利用されている。このように本実施の形態によれば、未知語登録をすることができるので、未知語の訂正をすればするほど、音声認識辞書５２への未知語登録が増えて、音声認識精度が上がることになる。また図１７に示すように、訂正の対象となった単語「船田」が既登録の単語「船橋」に訂正された場合には、単語「船橋」の新たな発音として「funaba」が音声認識辞書に登録されることになる。すなわち図１７に示すように、すでに単語「船橋」の発音として「ｆｕｎａｂｓｈｉ」と「ｆｕｎｅｂａｓｈｉ」が音声認識辞書５２に登録されている場合に、「funaba」が音声認識辞書に登録される。既登録の単語と新たな発音とを対応させるために、単語区間の時刻Ｔ_０〜Ｔ_１と音素列中の時刻ｔ_０〜ｔ_６とが利用されている。このようにすると、訂正後の新たな音声認識では、再度同じ発音の音声「funaba」が入力されたときに、「船橋」と音声認識ができるようになる。その結果、本発明によれば、音声認識により得たテキストデータの訂正結果を音声認識辞書５２の高精度化に利用することができる。よって、従来の音声認識技術と比べて、音声認識の精度を上げることができる。

テキストデータの訂正が完了する前であれば、音声認識辞書５２に新たに追加された未知語や発音を利用して、まだ訂正していない部分を再度音声認識することが好ましい。すなわち音声認識手段５′を、追加登録手段５６が新たな追加登録を行うたびに、テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識するように構成するのが好ましい。このようにすると音声認識辞書５２に新たに登録がなされると直ぐに音声認識の更新が行われて、新たな登録を音声認識に即座に反映させることができる。その結果、未訂正部分に対する音声認識精度が直ぐに上がって、テキストデータの修正箇所を減らすことができる。

図１６のアルゴリズムは、ＷＥＢ上から入手した音声データを音声データ記憶手段３に記憶しておき、この音声データを音声認識によりテキストデータに変換したものを、一般のユーザ端末機からの訂正指令に応じて訂正する場合に、本実施の形態を適用する場合を例にして記載してある。したがってこの例では、データ訂正手段５７の訂正入力部は、ユーザ端末機となる。なおユーザに訂正させるのではなく、システムの管理者が訂正を行ってもよいのは勿論である。この場合には、訂正入力部を含むデータ訂正手段５７のすべてがシステム内に存在することになる。図１６のアルゴリズムでは、最初に、ステップＳＴ１０１で音声データを入力する。ステップＳＴ１０２では、音声認識を実行する。そして後の訂正のために、競合候補を得るためにコンフュージョンネットワークを生成する。コンフュージョンネットワークについては、特開２００６−１４６００８号公報に詳しく説明されているので省略する。ステップＳＴ１０２では、認識結果と競合候補とを保存し、また各単語の単語区間の開始時刻及び終了時刻を保存する。そしてステップＳＴ１０３で、訂正画面（インタフェース）を表示する。次にステップＳＴ１０４で、訂正動作が行われる。ステップＳＴ１０４では、ユーザが端末機から単語区間を訂正する訂正要求を作成する。訂正要求の内容は、（１）競合候補の中から選択する要求と、（２）単語区間に対して、新たな単語を追加入力する要求である。この訂正要求が完了すると、ユーザはユーザ端末機１５から訂正要求を音声認識手段のデータ訂正手段５７に送信し、データ訂正手段５７はこの要求を実行する。

ステップＳＴ１０５では、ステップＳＴ１０２〜ステップＳＴ１０４までのステップと並行して、音声データを音素タイプライタを用いて音素列に変換する。すなわち「音素単位の音声認識」を行う。このとき同時に、各音素の開始時刻と終了時刻も、音声認識結果と一緒に保存する。そしてステップＳＴ１０６では、全体の音素列から、訂正の対象となる単語の単語区間にあたる時間（単語区間の開始時刻ｔｓから終了時刻ｔｅまでの時間）の音素列部分を抽出する。

ステップＳＴ１０７では、抽出した音素列部分を、訂正語の単語の発音とする。そしてステップＳＴ１０８へと進み、訂正後の単語が音声認識辞書５２に登録されているか否か（すなわちその単語が未知語であるか否か）の判定が行われる。未知語であると判定した場合には、ステップＳＴ１０９へと進み、訂正後の単語とその発音を、音声認識辞書５２に新たな単語として登録する。また未知語ではなく、既登録の単語であると判定した場合には、ステップＳＴ１１０へと進む。ステップＳＴ１１０では、ステップＳＴ１０７で決定した発音が新たな発音のバリエーションとして音声認識辞書５２に追加登録される。

そして追加登録が完了したらステップＳＴ１１１で、ユーザによる訂正処理がすべて終了しているか、すなわち未訂正の音声認識区間があるか否かの判定が行われる。未訂正の音声認識区間がなければ、終了する。未訂正の音声認識区間がある場合には、ステップＳＴ１１２へと進んで、未訂正の音声認識区間を再度音声認識をする。そして再度ステップＳＴ１０３へと戻る。

図１６のアルゴリズムのようにユーザが訂正した結果は、音声認識性能を向上させるために様々な方法での利用が考えられる。例えば、音声データ全体に対する正しいテキスト（書き起こし）が得られるので、音声認識の一般的な方法で音響モデルや言語モデルを再学習すれば、性能向上が期待できる。本実施の形態では、音声認識器が誤りを起こした発声区間が、どのような正解単語へ訂正されたのかがわかるので、その区間の実際の発声（発音系列）を推定して、正解単語との対応を取っている。一般に音声認識では、事前に登録した各単語の発音系列の辞書を用いて認識するが、実環境での音声は予測困難な発音変形を含むことがあり、辞書の発音系列と一致せずに誤認識を引き起こす原因となっていた。そこで、本実施の形態では、誤りを起こした発声区間（単語区間）の発音系列（音素列）を音素タイプライタ（音素を認識単位とした特殊な音声認識器）により自動推定し、その実際の発音系列と正解単語の対応を辞書に追加登録する。こうすることで、同じように変形した発声（発音系列）に対して辞書が適切に参照でき、同じ誤認識を再び起こさないことが期待できる。また、ユーザがタイプして訂正した、事前に辞書に登録されていなかった単語（未知語）も認識できるようになる。

上記の追加機能を有する音声認識器を用いる場合に、特に、テキストデータ記憶手段７として、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータを記憶するものを用いてもよい。そしてテキストデータ訂正手段９、検索手段１３及び閲覧手段１４として、特別テキストデータの閲覧、検索及び訂正を、予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有しているものを用いる。このようにすると、特定のユーザにのみ特別テキストデータの訂正を認める際に、一般ユーザの訂正によって高精度化した音声認識辞書を用いて音声認識を実施することができるので、高精度の音声認識システムを特定のユーザにのみ非公開で提供することができる利点が得られる。

なお上記図１に示した実施の形態において、テキストデータ訂正手段９を、テキストデータをユーザ端末機１５で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、訂正結果登録要求に従ってテキストデータ記憶手段７に記憶されているテキストデータを訂正するように構成することができる。例えば、訂正された単語の色を訂正されていない単語の色と異ならせる色を利用して、両単語を区別できるようにすることができる。また両単語の書体を異ならせることにより、両単語を区別できるようにすることができる。このようにすると、訂正された単語と訂正されていない単語を一目で確認することができるので、訂正作業が容易になる。また訂正が途中で中止されていることも確認することができる。

また上記図１のに示した実施の形態において、音声認識手段５を、テキストデータをユーザ端末機１５で表示したときに、競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、競合候補を表示するためのデータをテキストデータに付加する機能を有するものとして構成することができる。この場合には、例えば、競合候補を有する単語の色の明度や色度を変えることにより、その単語には競合候補があることを明示することができる。競合候補の数により定まる信頼度を、語の色の明度や色度の差により表示するようにしてもよいのは勿論である。

本発明の実施の形態をコンピュータを用いて実現する場合に必要となる機能実現手段をブロック図で示した図である。図１の実施の形態を、実際に実現する場合に使用するハードウエアの構成を示す図である。コンピュータを用いてＷＥＢクローラを実現する場合に用いるソフトウエアのアルゴリズムを示すフローチャートである。音声認識状態管理部を実現するソフトウエアのアルゴリズムを示す図である。検索サーバを用いて独自の検索機能をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを示す図である。検索サーバを用いて独自の閲覧機能をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを示す図である。検索サーバを用いて訂正機能をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを示す図である。ユーザ端末機の表示画面上に表示されるテキストを訂正するために用いるインタフェースの一例を示す図である。訂正機能を説明するために用いる訂正前のテキストの一部を示す図である。訂正判定手段の構成の一例を示す図である。訂正判定手段を実現するソフトウエアの基本アルゴリズムを示す図である。言語照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示す図である。音声照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示す図である。（Ａ）乃至（Ｄ）は、いたずらによる訂正を音声照合技術を用いて判定する際に用いる、音響尤度の計算のシミュレーション例を説明するために用いる計算結果を示す図である。追加機能を有する音声認識器の構成を示すブロック図である。図１５の音声認識器をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムの一例を示すフローチャートである。発音のバリエーションの追加登録を説明するために用いる図である。未知語の追加登録を説明するために用いる図である。

１音声データ収集手段
３音声データ記憶手段
５音声認識手段
７テキストデータ記憶手段
９テキストデータ訂正手段
１０訂正判定手段
１１テキストデータ公開手段
１３検索手段
１４閲覧手段
１５ユーザ端末機

Claims

インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用ＷＥＢサイトシステムであって、
前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともＵＲＬを含む複数の関連情報とを収集する音声データ収集手段と、
前記音声データ収集手段が収集した複数の音声データと前記複数の関連情報とを記憶する音声データ記憶手段と、
前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識手段と、
前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けて記憶するテキストデータ記憶手段と、
前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正手段と、
前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開手段と、
前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段とを備え、
前記テキストデータ訂正手段は、前記訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映することを特徴とする音声データ検索用ＷＥＢサイトシステム。
前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす１以上の前記テキストデータを検索し、検索により得られた前記１以上のテキストデータの少なくとも一部と該１以上のテキストデータに付随する１以上の前記関連情報とを前記ユーザ端末機に送信する検索手段を更に備えている請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記インターネットを介してユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータ及び前記競合候補から、所定の条件を満たす１以上の前記テキストデータを検索し、検索により得られた前記１以上のテキストデータの少なくとも一部と該１以上のテキストデータに付随する１以上の前記関連情報とを前記ユーザ端末機に送信する検索手段を更に備えている請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧手段を更に備えている請求項１または２に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記競合候補が存在する前記単語であることを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項４に記載の音声データ検索用ＷＥＢサイトシステム。
前記閲覧手段は、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項５に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記音声データが再生される際に、前記音声データが再生されている位置を前記ユーザ端末機の前記表示画面上に表示されている前記テキストデータ上に表示できるように、前記対応関係時間情報を含む前記テキストデータを送信する機能を有している請求項４または５に記載の音声データ検索用ＷＥＢサイトシステム。
前記テキストデータ公開手段は、前記テキストデータの全部または一部を公開する請求項１または７に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声データ収集手段は、音声データの内容の分野別に前記音声データを複数のグループに分けて記憶するように構成されており、
前記音声認識手段は、前記複数のグループに対応した複数の音声認識器を備えており、１つの前記グループに属する前記音声データを前記１つのグループに対応する前記音声認識器を用いて音声認識する請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声データ収集手段は、音声データの話者のタイプを判別して前記音声データを複数の話者のタイプに分けて記憶するように構成されており、
前記音声認識手段は、前記複数の話者のタイプに対応した複数の音声認識器を備えており、１つの前記話者のタイプに属する前記音声データを前記１つの話者のタイプに対応する前記音声認識器を用いて音声認識する請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める機能を有している請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声認識をする機能を有しており、
前記テキストデータ公開手段は前記競合候補を含んた前記複数のテキストデータを公開する請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
ダウンロードされる前記テキストデータには該テキストデータを訂正するために必要な訂正用プログラムが付随している請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第１の文スコアを求める第１の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第２の文スコアを求める第２の文スコア算出手段と、前記第２の文スコアから前記第１の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段とを備えている請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記訂正判定手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第１の音素列の音響的な確からしさを示す第１の音響尤度を求める第１の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第２の音素列の音響的な確からしさを示す第２の音響尤度を求める第２の音響尤度算出手段と、前記第２の音響尤度から前記第１の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす音響照合手段とを備えている請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第１の文スコアを求める第１の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第２の文スコアを求める第２の文スコア算出手段と、記第２の文スコアから前記第１の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段と、
予め用意した音響モデルに基づいて、前記言語照合手段により正しい訂正であると判断された前記訂正事項を含んだ前記所定の長さの訂正単語列を音素列に変換した第１の音素列の音響的な確からしさを示す第１の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第１の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる前記訂正前の所定の長さの単語列を音素列に変換した第２の音素列の音響的な確からしさを示す第２の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第２の音響尤度算出手段と、前記第２の音響尤度から前記第１の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合に、前記訂正事項を最終的に正しい訂正であるとみなす音響照合手段とを備えている請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を備えており、前記識別情報判定手段が識別情報の一致を判定した前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を備えており、前記訂正許容範囲決定手段が決定した範囲の前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信するランキング集計手段を更に備えている請求項１に記載の音声データ検索用ＷＥＢサイトシ
前記音声認識手段は、前記テキストデータ訂正手段による訂正に基づいて、内蔵する音
ステム。
声認識辞書に未知語の追加登録及び新たな発音の追加登録をする機能を有している請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記テキストデータ記憶手段には、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータが記憶されており、
前記テキストデータ訂正手段、前記検索手段及び前記閲覧手段は、前記特別テキストデータの閲覧、検索及び訂正を、前記予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有している請求項２０に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声認識手段は、
単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻および／または終了時刻を前記テキストデータに付加する機能を有する音声認識実行手段と、
前記音声認識実行手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容し、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正するように構成されたデータ訂正手段と、
前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
前記音素列中から、前記データ訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
前記音素列部分を前記テキストデータ訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記発音とを組みあわせて新たな発音単語データとして前記音声認識辞書に追加登録し、前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した発音を追加登録する追加登録手段とを有することを特徴とする請求項２０に記載の音声データ検索用ＷＥＢサイトシステム。
前記テキストデータ訂正手段は、前記テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、前記訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正する請求項１に記載の音声データ検索用ＷＥＢサイトシステム。
前記音声認識手段は、前記テキストデータをユーザ端末機で表示したときに、前記競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、前記競合候補を表示するためのデータを前記テキストデータに付加する機能を有している請求項６に記載の音声データ検索用ＷＥＢサイトシステム。
インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用ＷＥＢサイトシステムを、コンピュータを用いて実現するために、前記コンピュータを、
前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともＵＲＬを含む複数の関連情報とを収集する音声データ収集手段と、
前記音声データ収集手段が収集した複数の音声データと前記複数の関連情報とを記憶する音声データ記憶手段と、
前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識手段と、
前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けて記憶するテキストデータ記憶手段と、
前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正手段と、
前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開手段と、
前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段として機能させ、
前記テキストデータ訂正手段を、前記訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映するように機能させるためのプログラム。
前記コンピュータを、前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす１以上の前記テキストデータを検索し、検索により得られた前記１以上のテキストデータの少なくとも一部と該１以上のテキストデータに付随する１以上の前記関連情報とを前記ユーザ端末機に送信する検索手段として機能させるための請求項２５に記載のプログラム。
前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記コンピュータを、前記インターネットを介してユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータ及び前記競合候補から、所定の条件を満たす１以上の前記テキストデータを検索し、検索により得られた前記１以上のテキストデータの少なくとも一部と該１以上のテキストデータに付随する１以上の前記関連情報とを前記ユーザ端末機に送信する検索手段として機能させるための請求項２５に記載のプログラム。
前記コンピュータを、前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧手段として機能させるための請求項２５または２６に記載のプログラム。
前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記競合候補が存在する前記単語であることを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項２８に記載のプログラム。
前記閲覧手段は、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項２９に記載のプログラム。
前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記音声データが再生される際に、前記音声データが再生されている位置を前記ユーザ端末機の前記表示画面上に表示されている前記テキストデータ上に表示できるように、前記対応関係時間情報を含む前記テキストデータを送信する機能を有している請求項２８または２９に記載のプログラム。
前記音声データ収集手段は、音声データの内容の分野別に前記音声データを複数のグループに分けて記憶するように構成されており、
前記音声認識手段は、前記複数のグループに対応した複数の音声認識器を備えており、１つの前記グループに属する前記音声データを前記１つのグループに対応する前記音声認識器を用いて音声認識する請求項２５に記載のプログラム。
前記音声データ収集手段は、音声データの話者のタイプを判別して前記音声データを複数の話者のタイプに分けて記憶するように構成されており、
前記音声認識手段は、前記複数の話者のタイプに対応した複数の音声認識器を備えており、１つの前記話者のタイプに属する前記音声データを前記１つの話者のタイプに対応する前記音声認識器を用いて音声認識する請求項２５に記載のプログラム。
前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める機能を有している請求項２５に記載のプログラム。
前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声認識をする機能を有しており、
前記テキストデータ公開手段は前記競合候補を含んた前記複数のテキストデータを公開する請求項２５に記載のプログラム。
前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第１の文スコアを求める第１の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第２の文スコアを求める第２の文スコア算出手段と、前記第２の文スコアから前記第１の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段とを備えている請求項２５にプログラム。
前記訂正判定手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第１の音素列の音響的な確からしさを示す第１の音響尤度を求める第１の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第２の音素列の音響的な確からしさを示す第２の音響尤度を求める第２の音響尤度算出手段と、前記第２の音響尤度から前記第１の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす音響照合手段とを備えている請求項２５に記載のプログラム。
前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第１の文スコアを求める第１の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第２の文スコアを求める第２の文スコア算出手段と、前記第２の文スコアから前記第１の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段と、
予め用意した音響モデルに基づいて、前記言語照合手段により正しい訂正であると判断された前記訂正事項を含んだ前記所定の長さの訂正単語列を音素列に変換した第１の音素列の音響的な確からしさを示す第１の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第１の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる前記訂正前の所定の長さの単語列を音素列に変換した第２の音素列の音響的な確からしさを示す第２の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第２の音響尤度算出手段と、前記第２の音響尤度から前記第１の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合に、前記訂正事項を最終的に正しい訂正であるとみなす音響照合手段とを備えている請求項２５に記載のプログラム。
前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を備えており、前記識別情報判定手段が識別情報の一致を判定した前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項２５に記載のプログラム。
前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を備えており、前記訂正許容範囲決定手段が決定した範囲の前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項２５に記載のプログラム。
前記テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信するランキング集計手段を更に備えている請求項２５に記載のプログラム。
前記音声認識手段は、前記テキストデータ訂正手段による訂正に基づいて、内蔵する音声認識辞書に未知語の追加登録及びあらたな発音の追加登録をする機能を有している請求項２５に記載のプログラム。
前記テキストデータ記憶手段には、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータが記憶されており、
前記テキストデータ訂正手段、前記検索手段及び前記閲覧手段は、前記特別テキストデータの閲覧、検索及び訂正を、前記予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有している請求項４２に記載のプログラム。
前記音声認識手段は、
単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻と終了時刻を前記テキストデータに付加する機能を有する音声認識実行手段と、
前記音声認識実行手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容し、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正するように構成されたデータ訂正手段と、
前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
前記音素列中から、前記データ訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
前記音素列部分を前記データ訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記発音とを組みあわせて新たな発音単語データとして前記音声認識辞書に追加登録し、前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した発音を追加登録する追加登録手段とを有することを特徴とする請求項４２に記載のプログラム。
前記テキストデータ訂正手段は、前記テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、前記訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正する請求項２５に記載のプログラム。
前記音声認識手段は、前記テキストデータをユーザ端末機で表示したときに、前記競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、前記競合候補を表示するためのデータを前記テキストデータに付加する機能を有している請求項２９に記載のプログラム。
インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用ＷＥＢサイトシステムの構築運営方法であって、
前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともＵＲＬを含む複数の関連情報とを収集する音声データ収集ステップと、
前記音声データ収集手段が収集した複数の音声データと前記複数の関連情報とを音声データ記憶手段に記憶する音声データ記憶ステップと、
前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識ステップと、
前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けてテキストデータ記憶手段に記憶するテキストデータ記憶ステップと、
前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正ステップと、
前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開ステップと、
前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定ステップを更に備え、
前記テキストデータ訂正ステップでは、前記訂正判定ステップにおいて正しい訂正であるとみなした訂正事項だけを訂正に反映することを特徴とする音声データ検索用ＷＥＢサイトシステムの構築運営方法。
前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす１以上の前記テキストデータを検索し、検索により得られた前記１以上のテキストデータの少なくとも一部と該１以上のテキストデータに付随する１以上の前記関連情報とを前記ユーザ端末機に送信する検索ステップを更に備えている請求項４７に記載の音声データ検索用ＷＥＢサイトシステムの構築運営方法。
前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧ステップを更に備えている請求項４７に記載の音声データ検索用ＷＥＢサイトシステムの構築運営方法。
前記閲覧ステップは、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する請求項４９に記載の音声データ検索用ＷＥＢサイトシステムの構築運営方法。
前記音声認識ステップでは、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める請求項４７に記載の音声データ検索用ＷＥＢサイトシステムの構築運営方法。
前記音声認識ステップでは、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声変換し、
前記テキストデータ公開ステップでは、前記競合候補を含んた前記複数のテキストデータを公開する請求項４７に記載の音声データ検索用ＷＥＢサイトシステムの構築運営方法。
前記テキストデータ訂正ステップで訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信する請求項４７に記載の音声データ検索用ＷＥＢサイトシステムの構築運営方法。