JP4997601B2 - 音声データ検索用webサイトシステム - Google Patents

音声データ検索用webサイトシステム Download PDF

Info

Publication number
JP4997601B2
JP4997601B2 JP2007310696A JP2007310696A JP4997601B2 JP 4997601 B2 JP4997601 B2 JP 4997601B2 JP 2007310696 A JP2007310696 A JP 2007310696A JP 2007310696 A JP2007310696 A JP 2007310696A JP 4997601 B2 JP4997601 B2 JP 4997601B2
Authority
JP
Japan
Prior art keywords
text data
correction
data
word
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007310696A
Other languages
English (en)
Other versions
JP2008158511A (ja
Inventor
真孝 後藤
淳 緒方
浩一郎 江渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2007310696A priority Critical patent/JP4997601B2/ja
Publication of JP2008158511A publication Critical patent/JP2008158511A/ja
Application granted granted Critical
Publication of JP4997601B2 publication Critical patent/JP4997601B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にする音声データ検索用WEBサイトシステム、このシステムをコンピュータを用いて実現するためのプログラム、及び音声データ検索用WEBサイトシステムの構築運営方法に関するものである。
WEB上の音声ファイル(音声データを含むファイル)から、所望の音声ファイルを検索することは難しい。なぜならば、検索に必要な索引情報(文やキーワード等)を、音声から抽出することが困難だからである。一方、テキストの検索は既に広く使われており、Google(商標)等の優れた検索エンジンにより、WEB上のテキストを含む各種ファイルに対する全文検索が可能となっている。もしWEB上の音声ファイルからその発話内容のテキストを抽出できれば、同様に全文検索が可能になるが、一般に様々な内容に対して音声認識を行ってテキスト化しようとすると、認識率が低くなる。そのため、WEB上に音声ファイルが多数公開されていたとしても、特定の検索語を含む発話へピンポイントにアクセスするような全文検索は難しかった。
しかし近年、音声版のブログ(WEBlog)ともいえる「ポッドキャスト」が普及し、WEB上の音声ファイルとして多数公開されるようになった。そこで、英語のポッドキャストに対して音声認識を利用して全文検索を可能にするシステム「Podscope(商標)」[非特許文献1]、「PodZinger(商標)」[非特許文献2]が2005年から公開され始めた。
http://www.podscope.com/ http://www.podzinger.com/
「Podscope(商標)」[非特許文献1]及び「PodZinger(商標)」[非特許文献2]では、いずれも音声認識によりテキスト化した索引情報を内部に持ち、ユーザがWEBブラウザ上で入力した検索語を含むポッドキャストの一覧が提示される。Podscope(商標)では、ポッドキャストのタイトルだけが列挙され、検索語が出現する直前から音声ファイルを再生できる。しかしながら、音声認識されたテキストは一切表示されない。一方、PodZinger(商標)では、検索語が出現した周辺のテキスト(音声認識結果)も表示され、ユーザがより効率的に部分的な内容を把握できるようになっている。しかし、せっかく音声認識をしていても、表示されるテキストは一部に限定されており、音声を聞かずにポッドキャストの詳細な内容を視覚的に把握することはできなかった。
また、音声認識では認識誤りを避けることはできない。そのため、ポッドキャストに対して誤った索引付けがなされている場合には、音声ファイルの検索に悪影響を与える。しかしながら、従来は、誤った索引付けがなされていることをユーザが把握したり改善したりすることは不可能だった。
本発明の目的は、音声認識技術により変換されたテキストデータをユーザが訂正できるようにして、誤った索引付けをユーザの関与により改善することができる音声データ検索用WEBサイトシステムを提供することにある。
本発明の他の目的は、ユーザが音声データの全文テキストデータを見ることができる音声データ検索用WEBサイトシステムを提供することにある。
本発明の他の目的は、いたずらによりテキストデータが改悪されるのを防止できる音声データ検索用WEBサイトシステムを提供することにある。
本発明の他の目的は、ユーザ端末機の表示画面上でテキストデータ中の単語の競合候補を表示することを可能にする音声データ検索用WEBサイトシステムを提供することにある。
本発明の他の目的は、ユーザ端末機の表示画面上に表示したテキストデータ上において、再生されている位置を表示することを可能にする音声データ検索用WEBサイトシステムを提供することにある。
本発明の更に他の目的は、音声データの内容に応じて適切な音声認識器を用いることにより音声認識の精度を高めることができる音声データ検索用WEBサイトシステムを提供することにある。
本発明の更に他の目的は、ユーザの訂正意欲を増進させることができる音声データ検索用WEBサイトシステムを提供することにある。
本発明の別の目的は、音声データ検索用WEBサイトシステムをコンピュータを用いて実現するために用いるプログラムを提供することにある。
本発明の別の目的は、音声データ検索用WEBサイトシステムを構築運営する方法を提供することにある。
本発明は、インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用WEBサイトシステムを対象とする。また本発明は、このシステムをコンピュータを用いて実現する場合に用いるプログラム及びこのシステムも構築運営方法を対象とする。ここで音声データは、インターネットを介してWEB上から入手できるものであれば、どのような音声データであってもよい。音声データには、動画と一緒に公開されている音声データも含まれる。また音声データには、バックグラウンドに音楽や雑音が含まれているものから音楽や雑音を除いたものも含まれる。また検索エンジンは、Google(商標)等の一般的な検索エンジンの他に、本システムのために専用に作成された検索エンジンであってもよい。
本発明の音声データ検索用WEBサイトシステムは、音声データ収集手段と、音声データ記憶手段と、音声認識手段と、テキストデータ記憶手段と、テキストデータ訂正手段と、テキストデータ公開手段とを備えている。本発明のプログラムは、コンピュータにインストールされて、コンピュータをこれらの手段として機能させる。なお本発明のプログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。
音声データ収集手段は、インターネットを介して、複数の音声データと、複数の音声データにそれぞれ付随する少なくともURL(Uniform Resource Locator )を含む複数の関連情報とを収集する。音声データ記憶手段は、音声データ収集手段が収集した複数の音声データと複数の関連情報とを記憶する。音声データ収集手段としては、一般的にWEBクローラと呼ばれている収集手段を用いることができる。なおWEBクローラとは、全文検索型サーチエンジンの検索データベースを作成するために、世界中のありとあらゆるWEBページを回収するプログラムの総称である。また関連情報には、現在WEB上で入手可能な音声データに付随しているURLの他に、タイトルや、アブストラクト等を含めることができる。
音声認識手段は、音声データ収集手段が収集した複数の音声データを音声認識技術により複数のテキストデータに変換する。音声認識技術としては、種々の公知の音声認識技術を用いることができる。なおテキストデータの訂正を容易にするためには、信頼度付き競合候補(後述するコンフュージョンネットワーク)を生成できる機能を持つ、発明者等が開発した大語彙連続音声認識器(特開2006−146008号公報参照)を用いることができる。
テキストデータ記憶手段は、複数の音声データに付随する記複数の関連情報と複数の音声データに対応する複数のテキストデータとを関連付けて記憶する。なおテキストデータ記憶手段を、関連情報と複数の音声データとを、別々に記憶するように構成してもよいのは勿論である。
そして本発明では、特に、テキストデータ訂正手段が、インターネットを介してユーザ端末機から入力された訂正結果登録要求に従ってテキストデータ記憶手段に記憶されているテキストデータを訂正する。訂正結果登録要求とは、ユーザ端末機で作成されたテキストデータ訂正の結果を登録することを要求する指令である。この訂正結果登録要求は、例えば、訂正箇所を含む修正されたテキストデータを、テキストデータ記憶手段に記憶されているテキストデータと差し替える(置き換える)ことを要求する形式で作成することができる。またこの訂正結果登録要求は、記憶されているテキストデータの訂正箇所と訂正事項を個別に指定して、訂正の登録を要求する形式で作成されていてもよい。訂正結果登録要求を簡単に作成できるようにするためには、予めユーザ端末機に訂正結果登録要求を作成するためのプログラムをインストールしておけばよい。しかしながらダウンロードされるテキストデータに、テキストデータを訂正するために必要な訂正用プログラムを付随させれば、ユーザは特に意識することなく、訂正結果登録要求を作成することができる。
テキストデータ公開手段は、テキストデータ記憶手段に記憶されている複数のテキストデータを、検索エンジンにより検索可能で、しかも複数のテキストデータに対応する複数の関連情報と一緒にダウンロード可能に且つ訂正可能な状態でインターネットを介して公開する。テキストデータ公開手段により、インターネットを介して自由に複数のテキストデータにアクセスすることを可能にし、しかもユーザ端末機にテキストデータをダウンロードすることは、一般的な方法でWEBサイトを立ち上げることで実現できる。そして訂正可能な状態で公開することは、前述の訂正結果登録要求を受け入れるようにWEBサイトを構築することにより達成実現できる。
本発明では、音声データを音声認識技術により変換したテキストデータを訂正可能な状態で公開した上で、ユーザ端末機(クライアント)からの訂正結果登録要求に応じて、テキストデータの訂正を可能にした。その結果、本発明によれば、音声データを変換したテキストデータに含まれる単語がすべて検索語として利用できるようになって、検索エンジンを利用した音声データの検索が容易になる。こうすることで、ユーザがテキスト検索エンジン上で全文検索をする際に、通常のWEBページと同時に、その検索語を含む音声データを含むポッドキャストも発見できる。その結果、多くの音声データを含むポッドキャストがより多くのユーザに広まって利便性や価値が高まり、ポッドキャストによる情報発信をさらに促すことが可能になる。
その上、本発明によれば、テキストデータに含まれる音声認識の認識誤りを、一般ユーザに訂正する機会を提供できる。そして大量の音声データを音声認識によりテキストデータに変換して公開した場合であっても、膨大な訂正費用を費やすことなく、ユーザの協力によって音声認識の認識誤りを訂正することを可能にする。その結果、本発明によれば、音声認識技術により得たテキストデータを利用する場合であっても、音声データの検索精度を高めることができる。このテキストデータの訂正を可能にする機能は、編集機能すなわち「アノテーション」と呼ぶことができる。ここでのアノテーションとは、本発明のシステムにおいては、正確な書き起こしテキストを作成することを可能し、音声認識結果中の認識誤りを訂正する形で行われる。ユーザが訂正した結果(編集結果)は、テキストデータ記憶手段に蓄積され、その後の検索機能や閲覧機能で利用される。なおこの訂正した結果を、音声認識手段の性能向上のための再学習に利用してもよい。
本発明のシステムには、検索手段を設けて、独自の検索機能を持たせることができる。本発明のプログラムは、さらにコンピュータを検索手段として機能させる。この場合に用いる検索手段は、まずインターネットを介してユーザ端末機から入力された検索語に基づいて、テキストデータ記憶手段に記憶されている複数のテキストデータから、所定の条件を満たす1以上のテキストデータを検索する機能を有する。そして検索手段は、テキストデータ記憶手段に記憶されている複数のテキストデータから、所定の条件を満たす1以上のテキストデータを検索し、検索により得られた1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の関連情報とを、ユーザ端末機に送信する機能を有する。なお検索手段を、複数のテキストデータだけでなく、競合候補からも検索できるようにしてもよいのは勿論である。このような検索手段を設ければ、本発明のシステムに直接アクセスすることにより、音声データを高い精度で検索することができる。
また本発明のシステムには、閲覧手段を設けて、独自の閲覧機能を持たせることができる。本発明のプログラムも、さらにコンピュータを閲覧手段として機能させることができるように構成できる。この場合に用いる閲覧手段は、インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、テキストデータ記憶手段に記憶されている複数のテキストデータから、閲覧要求されたテキストデータを検索し、検索により得られたテキストデータの少なくとも一部をユーザ端末機に送信する機能を有している。このような閲覧手段を設ければ、ユーザが、検索したポッドキャストの音声データを「聞く」だけでなく、「読む」ことも可能になる。この機能があると、音声再生環境がなくても内容を把握したいときに有効である。また、普通にポッドキャストを再生しようとしている場合でも、それを聞くべきかどうか事前に吟味することができて便利である。ポッドキャストの音声再生は魅力的である一方、音声であるために、その内容に関心があるかどうかを聞く前に把握できなかった。また再生スピードを上げることで聞く時間を短縮するにも、限界がある。「閲覧」機能により、聞く前にざっと全文テキストを眺められることで、その内容に関心があるかどうかをより短時間で把握でき、ポッドキャストの取捨選択が効率良くできる。また、収録時間の長いポッドキャストのどの辺に関心のある部分があるのかもわかる。仮に音声認識誤りが含まれていても、こうした関心の有無は充分判断でき、本機能の有効性は高い。
音声認識手段の構成は任意である。例えば、音声認識手段として、テキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているものを用いることができる。このような音声認識手段を用いる場合には、閲覧手段として、ユーザ端末機の表示画面上で競合候補が存在する単語であることを表示できるように、テキストデータに競合候補を含めて送信する機能を有しているものを用いるのが好ましい。これらの音声認識手段と閲覧手段とを用いると、ユーザ端末機の表示画面に表示したテキストデータ中の単語に対して競合候補が存在することを表示できるので、ユーザが訂正を行う際に、その単語が認識誤りの高い単語であることをユーザは容易に知らせることができる。例えば、競合候補のある単語の色を他の単語の色と変えることにより、その単語に競合候補があることを表示することができる。
なお閲覧手段としては、ユーザ端末機の表示画面上に競合候補を含めてテキストデータを表示できるように、テキストデータに競合候補を含めて送信する機能を有するものを用いることができる。このような閲覧手段を用いると、テキストデータと一緒に競合候補が表示画面に表示されていれば、ユーザの訂正作業が非常に容易になる。
またテキストデータ公開手段も、競合候補を検索対象として含んた複数のテキストデータを公開するように構成するのが好ましい。この場合、音声認識手段を、テキストデータ中の単語と競合する競合候補がテキストデータ中に含まれるように音声認識をする機能を備えるように構成すればよい。すなわち音声認識手段は、テキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているのが好ましい。このようにすればテキストデータ公開手段を経由してテキストデータを入手したユーザも、競合候補を利用してテキストデータの訂正を行うことができる。また競合候補も検索対象となるため、検索の精度を高めることができる。なおこの場合、ダウンロードされるテキストデータに該テキストデータを訂正するために必要な訂正用プログラムが付随していれば、ユーザは簡単に訂正を行うことができる。
ユーザによる訂正でいたずらが行われることも考えられる。そこで訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段を更に備えるのが好ましい。また本発明のプログラムも、コンピュータをさらに訂正判定手段として機能させるのが好ましい。訂正判定手段を設けた場合には、テキストデータ訂正手段は、訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映するように構成する。
訂正判定手段の構成は任意である。例えば、訂正判定手段を、言語照合技術を用いて構成することができる。言語照合技術を用いる場合には、第1及び第2の文スコア算出手段と、言語照合手段とから訂正判定手段を構成する。第1の文スコア算出手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める、第2の文スコア算出手段も、予め用意した言語モデルに基づいて、訂正単語列に対応するテキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める。そして言語照合手段は、第2の文スコアから第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、訂正事項を正しい訂正であるとみなす。
また訂正判定手段を、音響照合技術を用いて構成することができる。音響照合技術を用いる場合には、第1及び第2の音響尤度算出手段と、音響照合手段とから訂正判定手段を構成する。第1の音響尤度算出手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を求める。また第2の音響尤度算出手段は、訂正単語列に対応するテキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を予め用意した音響モデルと音声データとに基づいて求める。そして音響照合手段は、第2の音響尤度から第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、訂正事項を正しい訂正であるとみなす。
言語照合技術と音響照合技術の両方を組み合わせて、訂正判定手段を構成してもよいのは勿論である。なおこの場合には、最初に言語照合技術を用いて訂正を判定を行い、言語照合技術では、いたずらによる訂正がないと判定されたテキストについてだけ、音響照合技術により訂正を判定する。このようにすると、いたずらの判定精度が高くなるだけでなく、言語照合よりも、複雑な音響照合の対象テキストデータを減らすことができるので、訂正判定を効率的に実施できる。
なおテキストデータ訂正手段には、訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を設けることができる。そして識別情報判定手段が識別情報の一致を判定した訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにしてもよい。このようにすれば識別情報を有するユーザ以外はテキストデータの訂正を行うことができないので、いたずらによる訂正を大幅に低減することができる。
またテキストデータ訂正手段には、訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を設けることができる。そして訂正許容範囲決定手段が決定した範囲の訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにしてもよい。ここで訂正を許容する範囲を定めるとは、訂正結果を反映させる度合い(訂正を受け入れる度合い)を定めることである。例えば訂正結果の登録を要求するユーザの信頼度を識別情報から判断し、この信頼度に応じて訂正を受け入れのための重み付けを変えることにより、訂正を許容する範囲を変更することができる。
またユーザの訂正に対する興味を増進させるためには、テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果をユーザ端末機からの要求に応じてユーザ端末機に送信するランキング集計手段を更に設けるのが好ましい。
またユーザの表示画面上に表示したテキストデータの表示上で、再生されている音声データの場所を表示できるようにするために、下記の機能を有する音声認識手段及び閲覧手段を用いる。すなわち音声認識手段は、音声データをテキストデータに変換する際に、テキストデータに含まれる複数の単語が、対応する音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しているのが好ましい。そして閲覧手段は、ユーザ端末機の表示画面上で音声データが再生される際に、音声データが再生されている位置をユーザ端末機の表示画面上に表示されているテキストデータ上に表示できるように、対応関係時間情報を含むテキストデータを送信する機能を有しているものを用いればよい。この場合は、テキストデータ公開手段は、テキストデータの一部または全部を公開するように構成する。
また音声認識手段による変換精度を高めるためには、音声データ収集手段として、音声データの内容の分野別に音声データを複数のグループに分けて記憶するように構成されたものを用いる。そして音声認識手段として、複数のグループに対応した複数の音声認識器を備えており、1つのグループに属する音声データを該1つのグループに対応する音声認識器を用いて音声認識するものを用いる。このようにすると、音声データの内容毎に、その分野専用の音声認識器を用いることになるため、音声認識の精度を高めることができる。
また音声認識手段による変換精度を高めるためには、音声データ収集手段として、音声データの話者のタイプ(話者間の音響的な近さ)を判別して音声データを複数の話者のタイプに分けて記憶するように構成されたものを用いる。そして音声認識手段としては、複数の話者のタイプに対応した複数の音声認識器を備えており、1つの話者のタイプに属する音声データを1つの話者のタイプに対応する音声認識器を用いて音声認識をするものを用いる。このようにすると話者に対応した音声認識器を用いることになるため、音声認識の精度を高めることができる。
また音声認識手段が、テキストデータ訂正手段による訂正に基づいて、内蔵する音声認識辞書に未知語の追加登録及び新たな発音の追加登録をする機能を有していてもよい。このようにすると、音声認識手段は訂正が多く行われるほど、音声認識辞書が高精度化する。またこの場合に、特に、テキストデータ記憶手段として、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータを記憶するものを用いる。そしてテキストデータ訂正手段、検索手段及び閲覧手段として、特別テキストデータの閲覧、検索及び訂正を、予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有しているものを用いることができる。このようにすると、特定のユーザにのみ特別テキストデータの訂正を認める際に、一般ユーザの訂正によって高精度化した音声認識辞書を用いて音声認識を実施することができるので、高精度の音声認識システムを特定のユーザにのみ非公開で提供することができる。
なお追加登録が可能な音声認識手段は、音声認識実行手段と、音声認識辞書と、データ訂正手段と、音素列変換手段と、音素列部分抽出手段と、発音決定手段と、追加登録手段とを備えて構成される。音声認識実行手段は、単語と該単語に対する1以上の音素からなる1以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換する。また音声認識手段は、テキストデータに含まれる各単語に対応する音声データ中の単語区間の開始時刻と終了時刻をテキストデータに付加する機能を有している。
データ訂正手段は、音声認識実行手段から得たテキストデータ中の各単語に対して競合候補を提示する。そしてデータ訂正手段は、競合候補中に正しい単語があるときには、競合候補から正しい単語を選択により訂正することを許容し、競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容する。
また音素列変換手段は、音声データを音素単位で認識して複数の音素から構成される音素列に変換する。そして音素列変換手段は、音素列に含まれる各音素に対応する音声データ中の各音素単位の開始時刻と終了時刻を音素列に付加する機能を有する。音素列変換手段としては、公知の音素タイプライタを用いることができる。
音素列部分抽出手段は、音素列中から、データ訂正手段により訂正された単語の単語区間の開始時刻から終了時刻までに対応する区間内に存在する1以上の音素からなる音素列部分を抽出する。すなわち音素列部分抽出手段は、訂正された単語の発音を示す音素列部分を音素列から抽出する。そこで発音決定手段は、この音素列部分をデータ訂正手段により訂正された訂正後の単語に対する発音と定める。
そして追加登録手段は、訂正後の単語が、音声認識辞書に登録されていないことを判定すると、訂正後の単語と発音決定手段が決定した発音とを組みあわせて新たな発音単語データとして音声認識辞書に追加登録する。また追加登録手段は、訂正後の単語が、音声認識辞書に既に登録されている既登録単語であることを判定すると、既登録単語の別の発音として、発音決定手段が決定した発音を追加登録する。
このような音声認識手段を用いれば、訂正の対象となった単語について、発音を定め、その単語が音声認識辞書に登録されていない未知語であれば、その単語と発音とを音声認識辞書に登録する。その結果、訂正をすればするほど、音声認識辞書への未知語登録が増えて、音声認識精度が上がることになる。その結果、訂正の対象となった単語が既登録の単語である場合には、その単語の新たな発音が音声認識辞書に登録されることになるため、訂正後の新たな音声認識では、再度同じ発音の音声が入力されたときには、正しく音声認識ができるようになる。その結果、本発明によれば、訂正結果を音声認識辞書の高精度化に利用することができ、従来の音声認識技術と比べて、音声認識の精度を上げることができる。
テキストデータの訂正が完了する前であれば、音声認識辞書に新たに追加された未知語や発音を利用して、まだ訂正していない部分を再度音声認識することが好ましい。すなわち音声認識手段を、追加登録手段が新たな追加登録を行うと、テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識するように構成するのが好ましい。このようにすると音声認識辞書に新たな登録がなされると直ぐに音声認識の更新が行われて、新たな登録を音声認識に反映させることができる。その結果、未訂正部分に対する音声認識精度が直ぐに上がって、テキストデータの修正箇所を減らすことができる。
さらに音声認識の精度を高めるためには、音声データから話者のタイプを認定する話者認定手段を設ける。そして更に、話者のタイプに合わせて予め用意した複数の音声認識辞書から、話者認定手段により認定した話者のタイプに対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを設ければよい。このようにすると話者対応の音声認識辞書を使って音声認識を行うことになるため、更に認識精度を高めることができる。
同様にして、音声データの内容に適した音声認識辞書を用いてもよい。その場合には、音声データから話されている内容の分野を認定する分野認定手段と、複数の分野に合わせて予め用意した複数の音声認識辞書から、分野認定手段により認定した分野に対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを更に備えた構成とすればよい。
またテキストデータ訂正手段は、テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、訂正結果登録要求に従ってテキストデータ記憶手段に記憶されているテキストデータを訂正するように構成するのが好ましい。ここで区別できる態様としては、例えば、訂正された単語の色を訂正されていない単語の色と異ならせる色を利用した区別の態様の他、両者の書体を異ならせたりする書体を利用した区別の態様を利用することができる。このようにすると、訂正された単語と訂正されていない単語を一目で確認することができるので、訂正作業が容易になる。また訂正が途中で中止されていることも確認することができる。
また音声認識手段は、テキストデータをユーザ端末機で表示したときに、競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、競合候補を表示するためのデータをテキストデータに付加する機能を有しているのが好ましい。この場合の区別できる態様としては、例えば、単語の色の明度や色度を変える態様を利用することができる。このようにしても訂正作業が容易になる。
本発明の音声データ検索用WEBサイトシステムの構築運営方法では、音声データ収集ステップと、音声認識ステップと、テキストデータ記憶ステップと、テキストデータ訂正ステップと、テキストデータ公開ステップとから構成される。音声データ記憶ステップでは、インターネットを介して、複数の音声データと、複数の音声データにそれぞれ付随する少なくともURLを含む複数の関連情報とを収集する。音声データ記憶ステップでは、音声データ収集手段収集した複数の音声データと複数の関連情報とを音声データ記憶手段に記憶する。音声認識ステップでは、音声データ収集ステップにより収集した複数の音声データを音声認識技術により複数のテキストデータに変換する。テキストデータ記憶ステップでは、複数の音声データに付随する複数の関連情報と複数の音声データに対応する複数のテキストデータとを関連付けてテキストデータ記憶手段に記憶する。テキストデータ訂正ステップは、インターネットを介してユーザ端末機から入力された訂正結果登録要求に従ってテキストデータ記憶手段に記憶されているテキストデータを訂正する。そしてテキストデータ公開ステップは、テキストデータ記憶手段に記憶されている複数のテキストデータを、検索エンジンにより検索可能で、しかも複数のテキストデータに対応する複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態でインターネットを介して公開する。
本発明によれば、音声データを音声認識技術により変換したテキストデータを訂正可能な状態で公開した上で、ユーザ端末機からの訂正結果登録要求に応じて、テキストデータの訂正を可能にしたので、音声データを変換したテキストデータに含まれる単語がすべて検索語として利用できるようになって、検索エンジンを利用した音声データの検索が容易になる利点が得られる。また本発明によれば、テキストデータに含まれる音声認識の認識誤りを、一般ユーザに訂正する機会を提供できるので、大量の音声データを音声認識によりテキストデータに変換して公開した場合であっても、膨大な訂正費用を費やすことなく、ユーザの協力によって音声認識の認識誤りを訂正することができる利点が得られる。
以下図面を参照して本発明の音声データ検索用WEBサイトシステムと、このシステムをコンピュータを用いて実現する場合に用いるプログラムと、このシステムの構築運営方法の実施の形態を詳細に説明する。図1は、本発明の実施の形態をコンピュータを用いて実現する場合に必要となる機能実現手段をブロック図で示した図である。図2は、図1の実施の形態を、実際に実現する場合に使用するハードウエアの構成を示す図である。図3乃至図7は、本発明の実施の形態をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。
図1の実施の形態の音声データ検索用WEBサイトシステムは、音声データ収集ステップで用いる音声データ収集手段1と、音声データ記憶ステップで用いる音声データ記憶手段3と、音声認識ステップで用いる音声認識手段5と、テキストデータ記憶ステップで用いるテキストデータ記憶手段7と、テキストデータ訂正ステップで用いるテキストデータ訂正手段9と、訂正判定ステップで用いる訂正判定手段10と、テキストデータ公開ステップで用いるテキストデータ公開手段11と、検索ステップで用いる検索手段13と閲覧ステップで用いる閲覧手段14とを備えている。
音声データ収集手段1は、インターネットを介して、複数の音声データと、複数の音声データにそれぞれ付随する少なくともURL(Uniform Resource Locator )を含む複数の関連情報とを収集する(音声データ収集ステップ)。音声データ収集手段としては、一般的にWEBクローラと呼ばれている収集手段を用いることができる。具体的には、図2に示すように、WEBクローラ101と呼ばれる、全文検索型サーチエンジンの検索データベースを作成するために、世界中のWEBページを回収するプログラムを用いて音声データ収集手段1を構成することができる。ここで音声データは、一般的にはMP3ファイルであり、インターネットを介してWEB上から入手できるものであれば、どのような音声データであってもよい。また関連情報には、現在WEB上で入手可能な音声データ(MP3ファイル)に付随しているURLの他に、タイトルや、アブストラクト等を含めることができる。
音声データ記憶手段3は、音声データ収集手段1が収集した複数の音声データと複数の関連情報とを記憶する(音声データ記憶ステップ)。この音声データ記憶手段3は、図2のデータベース管理部102に含まれている。
音声認識手段5は、音声データ収集手段1が収集した複数の音声データを音声認識技術により複数のテキストデータに変換する(音声認識ステップ)。本実施の形態では、認識結果のテキストデータに、通常の音声認識結果(1つの単語列)だけでなく、各単語の開始時間と終了時間やその区間の複数の競合候補、信頼度等、再生や訂正に必要な豊かな情報も含めている。このような情報を含めることができる音声認識技術としては、種々の公知の音声認識技術を用いることができる。特に、本実施の形態では、音声認識手段5として、テキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているものを用いる。そしてこのテキストデータは、後述するテキストデータ公開手段11、検索手段13及び閲覧手段14を介して、ユーザ端末機(クライアント)15へと送信される。具体的に、音声認識手段5で使用する音声認識技術としては、発明者が2004年に特許出願してすでに特開2006−146008号として公開されている、信頼度付き競合候補(コンフュージョンネットワーク)を生成できる機能を持った、大語彙連続音声認識器を用いている。なおこの音声認識器の内容は、特開2006−146008号公報に詳細に説明されているので説明は省略する。
なおテキストデータに競合候補を含めて送信する機能を有しているものを用いる場合には、ユーザ端末機15の表示画面に表示したテキストデータ中の単語に対して競合候補が存在することを表示できるように、例えば、競合候補のある単語の色を他の単語の色と変えてもよい。このようにするとその単語に競合候補があることを表示することができる。
テキストデータ記憶手段7は、1つの音声データに付随する関連情報と該1つの音声データに対応するテキストデータとを関連付けて記憶する(テキストデータ記憶ステップ)。本実施の形態では、前述のテキストデータ中の単語の競合候補についても、テキストデータと一緒に記憶されている。テキストデータ記憶手段7も、図2のデータベース管理部102に含まれている。
テキストデータ訂正手段9は、インターネットを介して、ユーザ端末機15から入力された訂正結果登録要求に従ってテキストデータ記憶手段7に記憶されているテキストデータを訂正する(テキストデータ訂正ステップ)。ここで訂正結果登録要求とは、ユーザ端末機15で作成されたテキストデータ訂正の結果を登録することを要求する指令である。この訂正結果登録要求は、例えば、訂正箇所を含む修正されたテキストデータを、テキストデータ記憶手段7に記憶されているテキストデータと差し替える(置き換える)ことを要求する形式で作成することができる。またこの訂正結果登録要求は、記憶されているテキストデータの訂正箇所と訂正事項を個別に指定して、訂正の登録を要求する形式で作成することもできる。
本実施の形態では、後述するように、ダウンロードされるテキストデータに、テキストデータを訂正するために必要な訂正用プログラムを付随させて、ユーザ端末機15に送信する。そのためユーザは、特に意識することなく、訂正結果登録要求を作成することができる。
テキストデータ公開手段11は、テキストデータ記憶手段7に記憶されている複数のテキストデータを、Google(商標)等の公知の検索エンジンにより検索可能で、しかも複数のテキストデータに対応する複数の関連情報と一緒にダウンロード可能に且つテキストデータを訂正可能な状態で公開する(テキストデータ公開ステップ)。テキストデータ公開手段11は、インターネットを介して自由に複数のテキストデータにアクセスすることを可能にし、しかもユーザ端末機にテキストデータをダウンロードすることを許容するものである。このようなテキストデータ公開手段11は、一般的には、誰でもテキストデータ記憶手段7にアクセスできるWEBサイトを立ち上げることで実現できる。したがってこのテキストデータ公開手段11は、実際には、WEBサイトをインターネットに接続する手段と、誰でもテキストデータ記憶手段7にアクセスできるWEBサイトの構造とによって構成されているとみることができる。なお訂正可能な状態で公開することは、前述の訂正結果登録要求を受け入れるようにテキストデータ訂正手段9を構築することにより達成できる。
本発明の基本的な考え方を実現するためには、少なくとも上記の各手段(1,3,5,7,9及び11)を備えていれば足りる。すなわち、音声データを音声認識技術により変換したテキストデータを訂正可能な状態で公開した上で、ユーザ端末機15からの訂正結果登録要求に応じて、公開したテキストデータの訂正を可能にすれば足りる。このようにすれば、音声データを変換したテキストデータに含まれる単語がすべて検索エンジンの検索語として利用できるようになって、検索エンジンを利用した音声データ(MP3ファイル)の検索が容易になる。そして、ユーザがテキスト検索エンジン上で全文検索をする際に、通常のWEBページと同時に、その検索語を含む音声データを含むポッドキャストも発見できる。その結果、多くの音声データを含むポッドキャストがより多くのユーザに認識されることにより、ポッドキャストによる情報発信をさらに促すことが可能になる。
後で具体的に説明するように、本実施の形態によれば、テキストデータに含まれる音声認識の認識誤りを、一般ユーザに訂正する機会を提供する。そのため、大量の音声データを音声認識によりテキストデータに変換して公開した場合であっても、膨大な訂正費用を費やすことなく、ユーザの協力によって音声認識の認識誤りを訂正することができる。なおユーザが訂正した結果(編集結果)は、テキストデータ記憶手段7に更新されて(例えば、訂正前のテキストデータが訂正後のテキストデータで置き換えられる態様で)蓄積される。
ユーザによる訂正でいたずらが行われることも考えられる。そこで本実施の形態では、訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段10を更に備えている。訂正判定手段10を設けているため、テキストデータ訂正手段9は、訂正判定手段10が正しい訂正であるとみなした訂正事項だけを訂正に反映する(訂正判定ステップ)。なお訂正判定手段10の構成については、後に具体的に説明する。
本実施の形態では、更に独自の検索手段13を備えている。この独自の検索手段13は、まずインターネットを介してユーザ端末機15から入力された検索語に基づいて、テキストデータ記憶手段7に記憶されている複数のテキストデータから、所定の条件を満たす1以上のテキストデータを検索する機能を有している(検索ステップ)。そして検索手段13は、検索により得られた1以上のテキストデータの少なくとも一部とこの1以上のテキストデータに付随する1以上の関連情報とを、ユーザ端末機15に送信する機能を有している。このような独自の検索手段13を設ければ、本発明のシステムに直接アクセスすることにより、音声データを高い精度で検索することができることをユーザに知らしめることが可能になる。
さらに本実施の形態では、独自の閲覧手段14を設けている。この独自の閲覧手段14は、インターネットを介してユーザ端末機15から入力された閲覧要求に基づいて、テキストデータ記憶手段7に記憶されている複数のテキストデータから、閲覧要求されたテキストデータを検索し、検索により得られたテキストデータの少なくとも一部をユーザ端末機15に送信する機能を有している(閲覧ステップ)。このような閲覧手段を設ければ、ユーザが、検索したポッドキャストの音声データを「聞く」だけでなく、「読む」ことも可能になる。この機能があると、音声再生環境がなくても内容を把握したいときに有効である。また、例えば、普通に音声データを含むポッドキャストを再生しようとする場合でも、それを聞くべきかどうか事前に吟味することができる。また独自の閲覧手段14を利用すると、聞く前にざっと全文テキストを眺められることで、その内容に関心があるかどうかをより短時間で把握することができる。その結果、音声データまたはポッドキャストの取捨選択が効率良くできる。
なお閲覧手段14としては、ユーザ端末機の表示画面上に競合候補を含めてテキストデータを表示できるように、テキストデータに競合候補を含めて送信する機能を有するものを用いることができる。このような閲覧手段14を用いると、テキストデータと一緒に競合候補が表示画面に表示されているので、ユーザの訂正作業が非常に容易になる。
次に、図2に示すハードウエアを用いて本実施の形態を実施する場合の具体例について説明する。図2に示すハードウエアでは、音声データ収集手段1を構成するWEBクローラ101と、音声データ記憶手段3とテキストデータ記憶手段7が内部に構成されるデータベース管理部102と、音声認識状態管理部105Aと複数台の音声認識器105Bとから構成されて、音声認識手段5を構成する音声認識装置105と、テキストデータ訂正手段9、訂正判定手段10、テキストデータ公開手段11、検索手段13及び閲覧手段14を含む検索サーバ108とから構成される。検索サーバ108には多数のユーザ端末機15(パーソナルコンピュータや、携帯電話や、PDA等)がインターネット(通信ネットワーク)を介して接続されている。
WEBクローラ101(アグリゲータ)は、WEB上のポッドキャスト(音声データとRSS)が収集される。ここで「ポッドキャスト」とは、WEB上で配信される複数の音声データ(MP3ファイル)とそのメタデータの集合のことである。音声データの流通を促すために、ブログなどで更新情報を通知するために用いられているメタデータRSS(ReallySimple Syndication)2.0が必ず付与されている点が、単なる音声データと違う点である。この仕組みにより、ポッドキャストは音声版ブログともいわれる。したがって、本実施の形態では、WEB上のテキストデータの場合と同様に、ポッドキャストに対しても全文検索や詳細な閲覧を可能にする。また前述の「RSS」とは、見出しや要約などのメタデータを構造化して記述するXMLベースのフォーマットである。RSSで記述された文書には、WEBサイトの各ページのタイトル、アドレス、見出し、要約、更新時刻などが記述されている。RSS文書を用いることで、多数のWEBサイトの更新情報を統一的な方法で効率的に把握することが可能になる。
一つのポッドキャストには、一つのRSSが付与されている。そして一つのRSSの中には、複数のMP3フィルのURLが記述されている。したがって、以下の説明で、ポッドキャストのURLとは、RSSのURLを意味するものである。RSSは、作成者(ポッドキャスタ)側で定期的に更新される。ここでポッドキャスト中の個々のMP3ファイルとその関連ファイル(音声認識結果等)の集合を、「story」と定義する。ポッドキャストにおいて、新しいstoryのURLが追加されると、古いstory(MP3ファイル)のURLは削除される。
WEBクローラ101で収集されたボッドキャストに含まれる音声データ(MP3ファイル)はデータベース管理部102にあるデータベースの記憶される。本実施の形態においては、データベース管理部102は以下の項目を記憶して管理している。
(1)取得対象ポッドキャストのURLのリスト(実体:RSSのURLリスト)
WEBクローラで取得しに行くボッドキャストのURLリストである。
(2)k番目(計N個)のポッドキャストに関する以下の項目
(2-1) 取得済みRSSデータ(実体:XMLファイル)
ここではRSSの数kを、k=1...N(Nは正の整数)とする。
(2-2) MP3ファイルのURLのリスト
ここではURLの数sを、s=1...Sn(Snは正の整数)とする。
このリストは、Sn個のstoryのURLリストである。
(2-3) MP3ファイルのタイトルを含む関連情報のリスト
ここでは関連情報のリストの数sはs=1...Sn(Snは正の整数)で
ある。
(3)n番目のボッドキャストのs番目(計Sn個)のstory(個々のMP3ファイル
とその関連ファイル)
(3-1) 音声データ(実体:MP3ファイル)
これが図1の音声データ記憶手段3に相当する。
(3-2) 音声認識結果のバージョンのリスト
音声認識結果のバージョンの番号vはv=1...Vとする。
(3-3) v番目のバージョンの音声認識結果/訂正結果
(3-3-1) 作成日時
(3-3-2) 全文テキスト(FText:各単語の時刻情報が付いているテキスト)
これが図1のテキストデータ記憶手段7に相当する。
(3-3-3) コンフュージョンネットワーク(CNet)
これがテキストデータを訂正するために単語の競合候補を提示するシス
テムである。
(3-3-4) 音声認識処理状況(取得した音声データの音声認識の状況を下記1〜3
の状況として示す)
1. 未処理
2. 処理中
3. 処理済み
(4)音声認識すべきポッドキャストの番号(n)
(5)訂正処理待ち行列(queue)
(5-1) 訂正すべきstoryの番号(何番目か:s)
(5-2) 処理内容
1. 通常の音声認識結果
2. 訂正結果の反映
(5-3) 訂正処理状況(下記の1〜3の状況として示す)
1. 未処理
2. 処理中
3. 処理済み
図3は、コンピュータを用いてWEBクローラ101を実現する場合に用いるソフトウエア(プログラム)のアルゴリズムを示すフローチャートである。このフローチャートでは、前提として以下の準備がなされているものとする。なお図3のフローチャート及び以下の説明中において、データベース管理部102をDBと略して示すことがある。
最初に準備段階としてデータベース管理部102において、取得対象ポッドキャストのURLのリスト(実体:RSSのURLリスト)に、以下のときのいずれかでRSSのURLが登録されているものとする。
a. ユーザによって新規に追加されるとき
b. 管理者によって新規に追加されるとき
c. 既にDBにあるRSSでも、更新されてstoryが増えていないかを
チェックするために、定期的に自動追加されるとき
図3のステップST1では、データベース管理部の取得対象ポッドキャストのURLのリスト(実体:RSSのURLリスト)から、次のRSSのURLを取得する。そしてステップST2で、そのRSSのURLから、RSSをダウンロードする。次にステップST3で、データベース管理部102の前述の(2-1)取得済みRSSデータ(実体: XMLファイル)にRSSを登録する。そしてステップST4で、RSSを解析(XMLファイルを解析)する。次にステップST5で、RSS中に記述されている音声データのMP3ファイルのURLとタイトルのリストを取得する。次にで、個々のMP3ファイルのURLに関して以下のステップST6乃至ST13を実行する。
まずステップST6では、次のMP3ファイルのURLを取り出す。最初の場合には、一番最初のURLを取得する。次にステップST7へと進んで、データベース管理部102の(2-2) MP3ファイルのURLのリストに当該URLが登録されているか否かを判定する。登録されている場合には、ステップST6へ戻り、登録されていない場合にはステップST8へと進む。ステップST8では、データベース管理部102の(2-2) MP3ファイルのURLのリストと(2-3) MP3ファイルのタイトルのリストとにMP3ファイルのURL、タイトルを登録する。次にステップST9では、WEBのそのMP3ファイルのURLから、MP3ファイルをダウンロードする。そしてステップST10へと進んで、データベース管理部102(DB)のs番目(計S個)のstory(個々のMP3ファイルとその関連ファイル)に、そのMP3ファイル用のstoryを新規作成し、MP3ファイルを音声データ記録手段(実体:MP3ファイル)に登録する。
その後データベース管理部103において、音声認識用待ち行列の前述の認識すべきstoryの番号(何番目か:s)にそのstoryを登録する。そしてステップST12で、データベース管理部102の処理内容を「1. 通常の音声認識(訂正がない)」とする。次にステップST13で、データベース管理部102の音声認識処理状況を「1. 未処理」に変更する。このようにしてRSSに記述されている音声データのMP3ファイルの音声データ等を音声データ記憶手段3に順次記憶する。
次に、図4を用いて、音声認識状態管理部105Aを実現するソフトウエアのアルゴリズムを説明する。このアルゴリズムの前提としては、次のような動作が行われるものとする。すなわち複数台の音声認識器105Bは、処理能力が余っているときに(自分が次の処理を行うことが可能になると)、音声認識器105Bは音声認識状態管理部105Aに対して次の音声データ(MP3ファイル)をリクエストする。このリクエストにより音声認識状態管理部105Aは音声データをリクエストしてきた音声認識器105Bへと送る。そしてそれを受け取った音声認識器105Bは、音声認識を行って、その結果を音声認識状態管理部105Aへ送り返す動作をする。このような動作を複数の音声認識器105Bが個々に行っているものとする。なお1台の音声認識器(1台の計算機上)で上記の動作を並行して複数動作実行するようにしてもよい。
まず図4のアルゴリズムでは、まずステップST21で音声認識器105B(ASRと略す場合もある)から次のMP3ファイルを処理したいというリクエストを受信する度に、ステップST22以下を実行する新たなプロセスを起動し、複数の音声認識器105Bからのリクエストを次々に受信して処理できるようにする。すなわちステップST21では、いわゆるマルチスレッドプログラミングで処理を実行する。なおマルチスレッドプログラミングは,一つのプログラムを論理的には独立に動くいくつかの部分に分けて、全体として調和して動くように組み上げるプログラミングのことである。ステップST22では、データベース管理部102の前述の音声認識用待ち行列(キュー)から、音声認識処理状況が「1. 未処理」になっている認識すべきstoryの番号(何番目か:s)を取得する。そしてs番目(計S個)のstory(個々のMP3ファイルとその関連ファイル)と音声データ(実体はMP3ファイル)も取得する。次にステップST23では、音声認識器105B(ASR)に、その音声データ(MP3ファイル)を送信する。またこのステップでは、データベース管理部102の音声認識処理状況を「処理中」に変更する。次にステップST24では、音声認識器105Bでの処理が終了したか否かの判定が行われる。処理が終了していれば、ステップST25へと進み、終了していなれば更にステップST24が継続される。ステップST25では、音声認識器105Bの処理は正常終了だったか否かが判定される。処理が正常であれば、ステップST26へと進む。ステップST26では、データベース管理部102の(3-2)の音声認識結果のバージョンのリストから上書きしないように次のバージョン番号を取得する。そして音声認識器105Bの結果をデータベース管理部102の(3-3)のv番目のバージョンの音声認識結果/訂正結果に登録する。ここで登録するのは、(3-3-1) 作成日時、(3-3-2) 全文テキスト(FText)及び(3-3-3) コンフュージョンネットワーク(CNet)である。そしてステップST27へと進んで音声認識処理状況を「処理済み」に変更する。ステップST27が終了するとステップST21へと戻る。すなわちステップST22以下を実行してきたプロセスを終了する。ステップST25で正常でなかったことを判定すると、ステップST28へと進み、ステップST28では、データベース管理部102の音声認識処理状況を「未処理」に変更する。そしてステップST21へと戻り、ステップST22以下のプロセスを終了する。
次に図5乃至図7を用いて、検索サーバ108を用いて独自の検索機能(検索手段)、独自の閲覧機能(閲覧手段)及び訂正機能(訂正手段)をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを説明する。検索サーバ108には、各ユーザ端末機(インタフェース)15から、非同期に次々と処理要求が来るので、検索サーバ108、つまり、WEBサーバはそれらを処理する。図5はユーザ端末機15から検索要求がきた場合の処理のアルゴリズムである。ステップST31では、ユーザ端末機15から検索要求として検索語を受信する。検索語を受信する度に、ステップST32以下を実行する新たなプロセスを起動する。このプロセスも、いわゆるマルチスレッドプログラミングで実行する。したがって複数の端末機からのリクエストを次々に受信して処理できる。ステップST32では、検索語を形態素解析する。形態素とはこれ以上に細かくすると意味がなくなってしまう最小の文字列をいう。形態素解析では、検索語を最小の文字列に分解する。この解析には、形態素解析プログラムと呼ばれるプログラムを用いることになる。次にステップST33で、データベース管理部102に登録されている全story、すなわちs番目(計S個)のstory(個々のMP3ファイルとその関連ファイル)のすべての全文テキスト(FText)及びコンフュージョンネットワーク(CNet)の競合候補に対して、形態素解析した検索語の全文検索を行う。実際の検索はデータベース管理部102で実行される。ステップST34で、検索語の全文検索結果をデータベース管理部102から受信する。またデータベース管理部102から、検索語を含むstoryのリストと、その全文テキスト(FText)を受信する。その後、ステップST35では、各storyの全文テキスト(FText)に対して、検索語の出現位置を検索して発見する。そしてステップST36で各storyの全文テキスト(FText)において、発見した検索語の出現位置を含むその前後のテキストをユーザ端末機の表示部での表示のために一部切り出す。なおこの全文テキスト(FText)には、テキスト中の各単語の開始時刻と終了時刻の情報が付随している。その後ステップST37へと進み、検索語を含むstoryのリスト、各storyのMP3ファイルのURL、各storyのMP3ファイルのタイトル及び各storyの検索語の出現位置の前後のテキストとテキスト中の各単語の開始時刻と終了時刻の情報が、ユーザ端末機15に送信される。ユーザ端末機15では、上記の検索結果を、表示画面に一覧表示する。そして端末機15上で、ユーザは、MP3ファイルのURLを用いて検索語の出現位置の前後の音を再生したり、そのstoryの閲覧を要求したりできる。ステップST37が終了するとステップST31へと戻る。その結果、ステップST32以下を実行してきたプロセスを終了する。
図6は閲覧機能を実現するためのソフトウエアのアルゴリズムを示すフローチャートである。ステップST41では、ユーザ端末機15から、あるstoryの閲覧要求を受信する度に、ステップST42以下を実行する新たなプロセスを起動する。すなわち複数のユーザ端末機15からのリクエストを次々に受信して処理できるようにする。次にステップST42では、データベース管理部102から当該storyのv番目のバージョンの音声認識結果/訂正結果の最新バージョンの全文テキスト(FText)及びコンフュージョンネットワーク(CNet)を取得する。そしてステップST43では、取得した全文テキスト(FText)とコンフュージョンネットワーク(CNet)をユーザ端末機15へ送信する。ユーザ端末機15では、取得した全文テキストを音声認識結果の全文テキストとして表示する。コンフュージョンネットワーク(CNet)が一緒に送信されるため、ユーザ端末機15上で、ユーザは、全文テキストを閲覧するだけでなく、後に説明するように音声認識誤りを訂正することができる。ステップST43が終了するとステップST41へと戻る。すなわちステップST42以下を実行してきたプロセスを終了する。
図7は、訂正機能(訂正手段)をコンピュータを用いて実現する場合のソフトウエアのアルゴリズムを示すフローチャートである。訂正結果登録要求は、ユーザ端末機15から出力される。図8はユーザ端末機15の表示画面上に表示されるテキストを訂正するために用いるインタフェースの一例である。このインタフェースでは、テキストデータの一部を競合候補と一緒に表示する。競合候補は、特開2006−146008号公報に示された大語彙連続音声認識器で使用するコンフュージョンネットワークによって作成されるものである。
なお図8の例では、すでに訂正が終了した状態が示されている。図8の競合候補の中で太い枠で表示されている競合候補が訂正で選択された単語である。図9は訂正前のテキストの一部を示している。図9の単語「船田」及び「タイムリー」の上に記載したT及びTの文字は、音声データを再生したときの各単語の開始時刻であり、T及びTは音声データを再生したときの各単語の終了時刻である。実際には、これらの時刻は、テキストデータに付随しているだけで、図9のように画面に表示されることはない。テキストデータにこのよう時刻を付随させておくと、ユーザ端末機15の再生システムとして、単語をクリックすると、その単語の位置から音声データを再生することが可能になる。したがってユーザサイドでの再生時の使い勝手が大幅に増大する。図9に示すように、訂正前の音声認識結果は「船田のタイムリー・・・・・」であったとする。この場合、「船田」の単語の候補の中から「船橋」を選択すると、選択された「船橋」が「船田」と置き換わる。このように競合候補を選択可能に表示画面に表示すると、簡単に訂正ができるので、ユーザの協力を得て音声認識結果を訂正することが非常に容易になる。なお音声認識の誤りの訂正が終わって保存ボタンをクリックすると、訂正(編集)結果を登録するために、ユーザ端末機15から訂正結果登録要求が出される。ここでの訂正結果登録要求の実体は、訂正後の全文テキスト(FText)である。すなわち訂正結果登録要求は、訂正後の全文テキストデータを訂正前の全文テキストデータと置き換えることの要求である。なお競合候補を提示せずに、表示画面に表示されたテキストの単語を直接訂正するようにしてもよいのは勿論である。
図7に戻って、ステップST51では、ユーザ端末機15から、あるstory(音声データ)の訂正結果登録要求を受信する。音声データを受信する度に、ステップST52以下を実行する新たなプロセスを起動し、複数の端末機からのリクエストを次々に受信して処理できるようにする。ステップST52では、検索語を形態素解析する。ステップST53では、データベース管理部102より、音声認識結果のバージョンのリストから、上書きしないように次のバージョン番号を取得する。そして受信した訂正された全文テキスト(FText)の結果を、v番目のバージョンの音声認識結果/訂正結果として、その作成日時とともに訂正すべき全文テキスト(FText)を登録する。そして次にステップST54へと進み、データベース管理部102において、訂正用待ち行列(キュー)に、訂正すべきstoryの番号(何番目か:s)にそのstoryを登録する。すなわち訂正処理をするための訂正用待ち行列に、そのstoryを登録する。次にステップST55で訂正処理の内容を、「訂正結果の反映」とし、ステップST56でデータベース管理部102の訂正処理状況を「未処理」に変更する。この状態にした後は、ステップST51へと戻る。つまり、ステップST52以下を実行してきたプロセスを終了する。すなわち図7のアルゴリズムは、訂正結果登録要求を受け入れて、実行可能な状態まで処理をするものである。最終的な訂正処理は、データベース管理部102で実行される。「未処理」の全文テキストには、データベース管理部102において、訂正用待ち行列の順番が来ると、訂正処理が実行される。そしてその結果がテキストデータ記憶手段7に記憶されているテキストデータに反映される。訂正が反映されると、データベース管理部102の訂正処理状況は、「処理済み」となる。
図8に示す詳細モードでは、横一列に並んだ認識結果の各単語区間の下に、それぞれの競合候補のリストが表示される。なおこの表示態様は、特開2006−146008号公報に詳しく説明されている。このように競合候補が常に表示されているため、誤り箇所をクリックして候補を確認する手間が省け、正しい単語を次々と選択するだけで訂正できる。この表示で、競合候補の個数が多い箇所は認識時の曖昧性が高かった(音声認識器にとって自信がなかった)ことを表している。したがって詳細モードで表示すると、候補の個数に注意しながら作業することで、誤り箇所を見逃しにくいという利点が得られる。また各区間の競合候補は信頼度の高い順に並んでおり、通常は上から下へ候補を見ていくと、早く正解にたどり着けることが多い。また、競合候補には必ず空白の候補が含まれる。これは「スキップ候補」と呼ばれ、その区間の認識結果をないものとする役割を持つ。つまりこれをクリックするだけで、余分な単語が挿入されている箇所を容易に削除できる。なおこのスキップ候補に関しても、特開2006−146008号公報に詳しく説明されている。
二種類のモードは、訂正中のカーソル位置を保存したまま自由に切り替えられる。全文モードは、テキストの閲覧が主目的なユーザにとって有用であり、普段は閲覧の邪魔にならないように競合候補は見えない。しかし、ユーザが認識誤りに気付いたときに、そこだけ気軽に訂正できる利点がある。一方、詳細モードは、認識誤りの訂正が主目的なユーザにとって有用である。詳細モードでは、前後の競合候補やそれらの個数も見ながら、見通し良く効率的な訂正ができる利点がある。
ユーザに対して音声認識の結果を訂正可能な状態で公開することにより、テキストデータの訂正の協力をユーザから得る本実施の形態のシステムでは、悪意を持ったユーザによる訂正でいたずらが行われることも考えられる。そこで本実施の形態では、図1に示すように、訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段10を備えている。訂正判定手段10を設けているため、テキストデータ訂正手段9は、訂正判定手段10が正しい訂正であるとみなした訂正事項だけを訂正に反映するように構成されている。
訂正判定手段10の構成は任意である。本実施の形態では、図10に示すように、訂正判定手段10を、言語照合技術を用いていたずらによる訂正であるか否かを判定する技術と、音声照合技術を用いていたずらによる訂正であるか否かを判定する技術とを組み合わせて構成した。図11は、訂正判定手段10を実現するソフトウエアの基本アルゴリズムを示しており、図12は言語照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示しており、図13は音声照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示している。図10に示すように、訂正判定手段10は、言語照合技術を用いていたずらによる訂正を判定するために、第1及び第2の文スコア算出手段10A及び10Bと、言語照合手段10Cを備えており、音響照合技術を用いていたずらによる訂正を判定するために、第1及び第2の音響尤度算出手段10D及び10Eと、音響照合手段10Fとを備えている。
第1の文スコア算出手段10Aは、図12に示すように、予め用意した言語モデル(本実施例ではN−gramを用いる)に基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列Aの言語的な確からしさを示す第1の文スコアa(言語的接続確率)を求める。第2の文スコア算出手段10Bも、予め用意した同じ言語モデルに基づいて、訂正単語列Aに対応するテキストデータに含まれる訂正前の所定の長さの単語列Bの言語的な確からしさを示す第2の文スコアb(言語的接続確率)を求める。そして言語照合手段10Cは、第1及び第2の文スコアの差(b−a)が予め定めた基準値(閾値)よりも小さい場合には、訂正事項を正しい訂正であるとみなす。また第1及び第2の文スコアの差(b−a)が予め定めた基準値(閾値)以上ある場合には、訂正事項をいたずらによる訂正であるとみなす。
本例では、言語照合技術により訂正事項が正しいと判断された音声認識結果(テキストデータ)を、音響照合技術により再度判定する。そこで第1の音響尤度算出手段10Dは、図13に示すように、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列Aを音素列に変換して第1の音素列Cを得る。また第1の音響尤度算出手段10Dは、音声データから音素タイプライタを用いて訂正単語列Bに対応する音声データ部分の音素列を作成する。そして第1の音響尤度算出手段10Dは、音響モデルを用いて音声データ部分の音素列と第1の音素列との間のViterbiアライメントを取り、第1の音響尤度cを求める。
第2の音響尤度算出手段10Eは、訂正単語列Bに対応するテキストデータに含まれる訂正前の所定の長さの単語列Aを音素列に変換した第2の音素列Dの音響的な確からしさを示す第2の音響尤度dを求める。第2の音響尤度算出手段10Eは、音響モデルを用いて前述の音声データ部分の音素列と第2の音素列との間のViterbiアライメントを取り、第2の音響尤度dを求める。そして音響照合手段10Fは、第1及び第2の音響尤度の差(d−c)が予め定めた基準値(閾値)よりも小さい場合には、訂正事項を正しい訂正であるとみなす。また音響照合手段10Fは、第1及び第2の音響尤度の差(d−c)が予め定めた基準値(閾値)以上ある場合には、訂正事項をいたずらによる訂正であるとみなす。
図14(A)は、「私は今日大学へ行く」の入力音声の音声認識結果の単語列を音素列に変換したものと、この入力音声を音素タイプライタで音素列に変換したものとの間のViterbiアライメントを取って、計算した音響尤度が(−61.0730)であることを示している。また図14(B)は、「私は今日大学へ行く」の音声認識結果を、全く異なる「あいくえおかきくけこさしすせそ」に訂正した場合の音響尤度が(−65.9715)であることを示している。図14(C)は「私は今日大学へ行く」の音声認識結果を、全く異なる「産総研」に訂正した場合の音響尤度が(−65.5982)であることを示している。さらに図14(D)は、「私は今日大学へ行く」の音声認識結果を、全くことなる異なる「今日のニュースで小泉総理大臣は」と訂正した場合の音響尤度が(−67.5814)であることを示している。図14(B)乃至(D)のいたずらは、図14(A)の場合の音響尤度(−61.0730)と、いたずらの場合の音響尤度、例えば図14(B)の(−65.9715)との差(3.8985)が、予め定めた基準値(閾値)である2を越えていることから、いたずらと判断する。
本例のように、最初に言語照合技術を用いて訂正を判定を行い、言語照合技術では、いたずらによる訂正がないと判定されたテキストについてだけ、音響照合技術により訂正を判定すると、いたずらの判定精度が高くなる。また言語照合よりも、複雑な音響照合の対象テキストデータを減らすことができるので、訂正の判定を効率的に実施できる。
なお訂正判定手段10を用いる場合及び用いない場合のいずれでも、テキストデータ訂正手段9に、訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段9Aを設けることができる。この場合には、識別情報判定手段9Aが識別情報の一致を判定した訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにする。このようにすれば識別情報を有するユーザ以外はテキストデータの訂正を行うことができないので、いたずらによる訂正を大幅に低減することができる。
またテキストデータ訂正手段9内には、訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段9Bを設けることができる。そして訂正許容範囲決定手段9Bが決定した範囲の訂正結果登録要求だけを受け入れてテキストデータの訂正を行うようにしてもよい。具体的には、訂正結果登録要求を送信してきたユーザの信頼度を識別情報から判断する。そしてこの信頼度に応じて訂正を受け入れのための重み付けを変えることにより、新規別情報に応じて訂正を許容する範囲を変更することができる。このようにするとユーザによる訂正を可能な限り、有効に利用できる。
また上記実施の形態において、テキストデータ記憶手段7内には、ユーザの訂正に対する興味を増進させるために、テキストデータ訂正手段9により訂正された回数が多いテキストデータのランキングを集計してその結果をユーザ端末機からの要求に応じてユーザ端末機に送信するランキング集計手段7Aを更に設けてもよい。
音響認識に用いる音響モデルとしては、日本語話し言葉コーパス(CSJ)などの一般的な音声コーパスから学習したtriphoneモデルを用いることができる。しかしポッドキャストの場合、音声が収録されているだけでなく、背景に音楽や雑音を含む場合がある。そうした音声認識が困難な状況に対処するためには、ETSI Advanced Front−End[ETSIES202050v1.1.1STQ;distributed speech recognition;advanced front−endfeature extraction algorithm;compression algorithms.2002.]に代表される雑音抑圧手法を用いて、学習と認識の前処理の音響分析を行えば、性能を改善することができる。
また上記実施の形態では、言語モデルには、CSRCソフトウェア2003年度版[河原、武田、伊藤、李、鹿野、山田:連続音声認識コンソーシアムの活動報告及び最終版ソフトウェアの概要。信学技報、SP2003−169、2003]の中から、1991年から2002年までの新聞記事テキストより学習された60000語のbigramを用いた。しかしポッドキャストの場合、最近の話題や語彙を含むものが多く、学習データとの違いからそうした音声を認識することが難しい。そこで、日々更新されているWEB上のニュースサイトのテキストを、言語モデルの学習に利用して、性能を改善した。具体的には、総合的な日本語ニュースサイトであるGoogleニュースとYahoo!ニュースに掲載された記事のテキストを毎日収集し、学習に用いた。
なおユーザが訂正機能で訂正した結果は、音声認識性能を向上させるために様々な方法での利用が考えられる。例えば、音声データ全体に対する正しいテキスト(書き起こし)が得られるので、音声認識の一般的な方法で音響モデルや言語モデルを再学習すれば、性能向上が期待できる。例えば、音声認識器が誤りを起こした発声区間が、どのような正解単語へ訂正されたのかがわかるので、その区間の実際の発声(発音系列)が推定できれば、正解単語との対応が得られる。一般に音声認識では、事前に登録した各単語の発音系列の辞書を用いて認識する。しかし実環境での音声は予測困難な発音変形を含むことがあり、辞書の発音系列と一致せずに誤認識を引き起こす原因となっていた。そこで、誤りを起こした発声区間の発音系列(音素列)を、音素タイプライタ(音素を認識単位とした特殊な音声認識器)により自動推定し、その実際の発音系列と正解単語の対応を辞書に追加登録する。こうすることで、同じように変形した発声(発音系列)に対して辞書が適切に参照でき、同じ誤認識を再び起こさないことが期待できる。また、ユーザがタイプして訂正した、事前に辞書に登録されていなかった単語(未知語)も認識できるようになる。
図15は、訂正結果を利用して、未知語の追加登録と、発音の追加登録を行える音声認識手段の構成を説明するための図である。図15において、図1に示した手段と同じ手段には、図1に付した符号と同じ符号を付す。この音声認識手段5′は、音声認識実行手段51と、音声認識辞書52と、テキストデータ記憶手段7と、テキストデータ訂正手段9が兼務するデータ訂正手段57と、ユーザ端末機15と、音素列変換手段53と、音素列部分抽出手段54と、発音決定手段55と、追加登録手段56とを備えた本発明の音声認識システムの他の実施の形態の構成をブロック図で示している。また図16は、図15の実施の形態をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムの一例を示すフローチャートである。
この音声認識手段5′は、単語と該単語に対する1以上の音素からなる1以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書52を利用して、音声データをテキストデータに変換する音声認識実行手段51と、音声認識実行手段51によって音声認識された結果得られるテキストデータを記憶するテキストデータ記憶手段7とを備えている。なお音素列変換手段53は、テキストデータに含まれる各単語に対応する音声データ中の単語区間の開始時刻と終了時刻をテキストデータに付加する機能を有している。この機能は、音声認識実行手段51で音声認識を実行する際に同時に実行される。音声認識技術としては、種々の公知の音声認識技術を用いることができる。特に、本実施の形態では、音声認識実行手段51として、音声認識により得たテキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているものを用いる。
テキストデータ訂正手段9が兼務するデータ訂正手段57は、前述のように、音声認識実行手段51から得てテキストデータ記憶手段7に記憶され、ユーザ端末機15上に表示されるテキストデータ中の各単語に対して競合候補を提示する。前述のように、音声認識手段から得たテキストデータ中の各単語に対して競合候補を提示する。そしてテキストデータ訂正手段9は、競合候補中に正しい単語があるときには、競合候補から正しい単語を選択により訂正することを許容し、競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容する。
具体的に、音声認識実行手段51で使用する音声認識技術及びデータ訂正手段57で使用する単語訂正技術としては、発明者が2004年に特許出願してすでに特開2006−146008号として公開されている、信頼度付き競合候補(コンフュージョンネットワーク)を生成できる機能を持った、大語彙連続音声認識器を用いている。なおこの音声認識器では、競合候補を提示して訂正を行っている。データ訂正手段57の内容は、特開2006−146008号公報に詳細に説明されているので説明は省略する。
音素列変換手段53は、音声データ記憶手段3から得た音声データを音素単位で認識して複数の音素から構成される音素列に変換する。そして音素列変換手段53は、音素列に含まれる各音素に対応する音声データ中の各音素単位の開始時刻と終了時刻を音素列に付加する機能を有する。音素列変換手段としては、公知の音素タイプライタを用いることができる。図17は、後に説明する発音の追加登録の例を説明するための図である。図17中の「funabanotaimuri」の表記が、音素タイプライタで音素データを音素列に変換した結果を示している。そして「funabanotaimuri」の下のt〜t15が、それぞれ各音素単位の開始時刻および/または終了時刻である。すなわち最初の音素単位「f」の開始時刻はtであり、終了時刻はtである。
音素列部分抽出手段54は、音素列中から、データ訂正手段57により訂正された単語の単語区間の開始時刻から終了時刻までに対応する区間内に存在する1以上の音素からなる音素列部分を抽出する。図17の例で説明すると、訂正された単語は「船田」であり、船田の単語区間の開始時刻は「船田」の文字の上のTであり、終了時刻はTである。そしてこの「船田」の単語区間に存在する音素列部分は「funaba」である。したがって音素列部分抽出手段54は、訂正された単語「船田」の発音を示す音素列部分「funaba」を音素列から抽出する。図17の例では、「船田」が「船橋」にデータ訂正手段57によって訂正される。
発音決定手段55は、この音素列部分「funaba」をデータ訂正手段57により訂正された訂正後の単語に対する発音と定める。
追加登録手段56は、訂正後の単語が、音声認識辞書52に登録されていないことを判定すると、訂正後の単語と発音決定手段55が決定した発音とを組みあわせて新たな発音単語データとして音声認識辞書52に追加登録する。また追加登録手段56は、訂正後の単語が、音声認識辞書52に既に登録されている既登録単語であることを判定すると、既登録単語の別の発音として、発音決定手段55が決定した発音を追加登録する。
例えば、図18に示すように、「駒大」の文字がマニュアル入力で訂正された未知語の単語であるとすると、訂正の対象となった単語「駒大」について、音素列部分「komadai」がその発音となる。追加登録手段56は、単語「駒大」が音声認識辞書52に登録されていない未知語であれば、その単語「駒大」と発音「komadai」とを音声認識辞書52に登録する。訂正された単語と発音とを対応させるために、単語区間の時刻T〜Tと音素列中の時刻t70〜t77とが利用されている。このように本実施の形態によれば、未知語登録をすることができるので、未知語の訂正をすればするほど、音声認識辞書52への未知語登録が増えて、音声認識精度が上がることになる。また図17に示すように、訂正の対象となった単語「船田」が既登録の単語「船橋」に訂正された場合には、単語「船橋」の新たな発音として「funaba」が音声認識辞書に登録されることになる。すなわち図17に示すように、すでに単語「船橋」の発音として「funabshi」と「funebashi」が音声認識辞書52に登録されている場合に、「funaba」が音声認識辞書に登録される。既登録の単語と新たな発音とを対応させるために、単語区間の時刻T〜Tと音素列中の時刻t〜tとが利用されている。このようにすると、訂正後の新たな音声認識では、再度同じ発音の音声「funaba」が入力されたときに、「船橋」と音声認識ができるようになる。その結果、本発明によれば、音声認識により得たテキストデータの訂正結果を音声認識辞書52の高精度化に利用することができる。よって、従来の音声認識技術と比べて、音声認識の精度を上げることができる。
テキストデータの訂正が完了する前であれば、音声認識辞書52に新たに追加された未知語や発音を利用して、まだ訂正していない部分を再度音声認識することが好ましい。すなわち音声認識手段5′を、追加登録手段56が新たな追加登録を行うたびに、テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識するように構成するのが好ましい。このようにすると音声認識辞書52に新たに登録がなされると直ぐに音声認識の更新が行われて、新たな登録を音声認識に即座に反映させることができる。その結果、未訂正部分に対する音声認識精度が直ぐに上がって、テキストデータの修正箇所を減らすことができる。
図16のアルゴリズムは、WEB上から入手した音声データを音声データ記憶手段3に記憶しておき、この音声データを音声認識によりテキストデータに変換したものを、一般のユーザ端末機からの訂正指令に応じて訂正する場合に、本実施の形態を適用する場合を例にして記載してある。したがってこの例では、データ訂正手段57の訂正入力部は、ユーザ端末機となる。なおユーザに訂正させるのではなく、システムの管理者が訂正を行ってもよいのは勿論である。この場合には、訂正入力部を含むデータ訂正手段57のすべてがシステム内に存在することになる。図16のアルゴリズムでは、最初に、ステップST101で音声データを入力する。ステップST102では、音声認識を実行する。そして後の訂正のために、競合候補を得るためにコンフュージョンネットワークを生成する。コンフュージョンネットワークについては、特開2006−146008号公報に詳しく説明されているので省略する。ステップST102では、認識結果と競合候補とを保存し、また各単語の単語区間の開始時刻及び終了時刻を保存する。そしてステップST103で、訂正画面(インタフェース)を表示する。次にステップST104で、訂正動作が行われる。ステップST104では、ユーザが端末機から単語区間を訂正する訂正要求を作成する。訂正要求の内容は、(1)競合候補の中から選択する要求と、(2)単語区間に対して、新たな単語を追加入力する要求である。この訂正要求が完了すると、ユーザはユーザ端末機15から訂正要求を音声認識手段のデータ訂正手段57に送信し、データ訂正手段57はこの要求を実行する。
ステップST105では、ステップST102〜ステップST104までのステップと並行して、音声データを音素タイプライタを用いて音素列に変換する。すなわち「音素単位の音声認識」を行う。このとき同時に、各音素の開始時刻と終了時刻も、音声認識結果と一緒に保存する。そしてステップST106では、全体の音素列から、訂正の対象となる単語の単語区間にあたる時間(単語区間の開始時刻tsから終了時刻teまでの時間)の音素列部分を抽出する。
ステップST107では、抽出した音素列部分を、訂正語の単語の発音とする。そしてステップST108へと進み、訂正後の単語が音声認識辞書2に登録されているか否か(すなわちその単語が未知語であるか否か)の判定が行われる。未知語であると判定した場合には、ステップST109へと進み、訂正後の単語とその発音を、音声認識辞書2に新たな単語として登録する。また未知語ではなく、既登録の単語であると判定した場合には、ステップST110へと進む。ステップST110では、ステップST107で決定した発音が新たな発音のバリエーションとして音声認識辞書2に追加登録される。
そして追加登録が完了したらステップST111で、ユーザによる訂正処理がすべて終了しているか、すなわち未訂正の音声認識区間があるか否かの判定が行われる。未訂正の音声認識区間がなければ、終了する。未訂正の音声認識区間がある場合には、ステップST112へと進んで、未訂正の音声認識区間を再度音声認識をする。そして再度ステップST103へと戻る。
図16のアルゴリズムのようにユーザが訂正した結果は、音声認識性能を向上させるために様々な方法での利用が考えられる。例えば、音声データ全体に対する正しいテキスト(書き起こし)が得られるので、音声認識の一般的な方法で音響モデルや言語モデルを再学習すれば、性能向上が期待できる。本実施の形態では、音声認識器が誤りを起こした発声区間が、どのような正解単語へ訂正されたのかがわかるので、その区間の実際の発声(発音系列)を推定して、正解単語との対応を取っている。一般に音声認識では、事前に登録した各単語の発音系列の辞書を用いて認識するが、実環境での音声は予測困難な発音変形を含むことがあり、辞書の発音系列と一致せずに誤認識を引き起こす原因となっていた。そこで、本実施の形態では、誤りを起こした発声区間(単語区間)の発音系列(音素列)を音素タイプライタ(音素を認識単位とした特殊な音声認識器)により自動推定し、その実際の発音系列と正解単語の対応を辞書に追加登録する。こうすることで、同じように変形した発声(発音系列)に対して辞書が適切に参照でき、同じ誤認識を再び起こさないことが期待できる。また、ユーザがタイプして訂正した、事前に辞書に登録されていなかった単語(未知語)も認識できるようになる。
上記の追加機能を有する音声認識器を用いる場合に、特に、テキストデータ記憶手段7として、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータを記憶するものを用いてもよい。そしてテキストデータ訂正手段、検索手段13及び閲覧手段14として、特別テキストデータの閲覧、検索及び訂正を、予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有しているものを用いる。このようにすると、特定のユーザにのみ特別テキストデータの訂正を認める際に、一般ユーザの訂正によって高精度化した音声認識辞書を用いて音声認識を実施することができるので、高精度の音声認識システムを特定のユーザにのみ非公開で提供することができる利点が得られる。
なお上記図1に示した実施の形態において、テキストデータ訂正手段9を、テキストデータをユーザ端末機15で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、訂正結果登録要求に従ってテキストデータ記憶手段7に記憶されているテキストデータを訂正するように構成することができる。例えば、訂正された単語の色を訂正されていない単語の色と異ならせる色を利用して、両単語を区別できるようにすることができる。また両単語の書体を異ならせることにより、両単語を区別できるようにすることができる。このようにすると、訂正された単語と訂正されていない単語を一目で確認することができるので、訂正作業が容易になる。また訂正が途中で中止されていることも確認することができる。
また上記図1のに示した実施の形態において、音声認識手段5を、テキストデータをユーザ端末機15で表示したときに、競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、競合候補を表示するためのデータをテキストデータに付加する機能を有するものとして構成することができる。この場合には、例えば、競合候補を有する単語の色の明度や色度を変えることにより、その単語には競合候補があることを明示することができる。競合候補の数により定まる信頼度を、語の色の明度や色度の差により表示するようにしてもよいのは勿論である。
本発明の実施の形態をコンピュータを用いて実現する場合に必要となる機能実現手段をブロック図で示した図である。 図1の実施の形態を、実際に実現する場合に使用するハードウエアの構成を示す図である。 コンピュータを用いてWEBクローラを実現する場合に用いるソフトウエアのアルゴリズムを示すフローチャートである。 音声認識状態管理部を実現するソフトウエアのアルゴリズムを示す図である。 検索サーバを用いて独自の検索機能をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを示す図である。 検索サーバを用いて独自の閲覧機能をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを示す図である。 検索サーバを用いて訂正機能をコンピュータで実現する場合に用いるソフトウエアのアルゴリズムを示す図である。 ユーザ端末機の表示画面上に表示されるテキストを訂正するために用いるインタフェースの一例を示す図である。 訂正機能を説明するために用いる訂正前のテキストの一部を示す図である。 訂正判定手段の構成の一例を示す図である。 訂正判定手段を実現するソフトウエアの基本アルゴリズムを示す図である。 言語照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示す図である。 音声照合技術を用いて、いたずらによる訂正であるか否かを判定する場合の詳細なアルゴリズムを示す図である。 (A)乃至(D)は、いたずらによる訂正を音声照合技術を用いて判定する際に用いる、音響尤度の計算のシミュレーション例を説明するために用いる計算結果を示す図である。 追加機能を有する音声認識器の構成を示すブロック図である。 図15の音声認識器をコンピュータを用いて実現する場合に用いるソフトウエアのアルゴリズムの一例を示すフローチャートである。 発音のバリエーションの追加登録を説明するために用いる図である。 未知語の追加登録を説明するために用いる図である。
1 音声データ収集手段
3 音声データ記憶手段
5 音声認識手段
7 テキストデータ記憶手段
9 テキストデータ訂正手段
10 訂正判定手段
11 テキストデータ公開手段
13 検索手段
14 閲覧手段
15 ユーザ端末機

Claims (53)

  1. インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用WEBサイトシステムであって、
    前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともURLを含む複数の関連情報とを収集する音声データ収集手段と、
    前記音声データ収集手段が収集した複数の音声データと前記複数の関連情報とを記憶する音声データ記憶手段と、
    前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識手段と、
    前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けて記憶するテキストデータ記憶手段と、
    前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正手段と、
    前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開手段と、
    前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段とを備え、
    前記テキストデータ訂正手段は、前記訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映することを特徴とする音声データ検索用WEBサイトシステム。
  2. 前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段を更に備えている請求項1に記載の音声データ検索用WEBサイトシステム。
  3. 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
    前記インターネットを介してユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータ及び前記競合候補から、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段を更に備えている請求項1に記載の音声データ検索用WEBサイトシステム。
  4. 前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧手段を更に備えている請求項1または2に記載の音声データ検索用WEBサイトシステム。
  5. 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
    前記閲覧手段は、前記ユーザ端末機の表示画面上で前記競合候補が存在する前記単語であることを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項4に記載の音声データ検索用WEBサイトシステム。
  6. 前記閲覧手段は、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項5に記載の音声データ検索用WEBサイトシステム。
  7. 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しており、
    前記閲覧手段は、前記ユーザ端末機の表示画面上で前記音声データが再生される際に、前記音声データが再生されている位置を前記ユーザ端末機の前記表示画面上に表示されている前記テキストデータ上に表示できるように、前記対応関係時間情報を含む前記テキストデータを送信する機能を有している請求項4または5に記載の音声データ検索用WEBサイトシステム。
  8. 前記テキストデータ公開手段は、前記テキストデータの全部または一部を公開する請求項1または7に記載の音声データ検索用WEBサイトシステム。
  9. 前記音声データ収集手段は、音声データの内容の分野別に前記音声データを複数のグループに分けて記憶するように構成されており、
    前記音声認識手段は、前記複数のグループに対応した複数の音声認識器を備えており、1つの前記グループに属する前記音声データを前記1つのグループに対応する前記音声認識器を用いて音声認識する請求項1に記載の音声データ検索用WEBサイトシステム。
  10. 前記音声データ収集手段は、音声データの話者のタイプを判別して前記音声データを複数の話者のタイプに分けて記憶するように構成されており、
    前記音声認識手段は、前記複数の話者のタイプに対応した複数の音声認識器を備えており、1つの前記話者のタイプに属する前記音声データを前記1つの話者のタイプに対応する前記音声認識器を用いて音声認識する請求項1に記載の音声データ検索用WEBサイトシステム。
  11. 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める機能を有している請求項1に記載の音声データ検索用WEBサイトシステム。
  12. 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声認識をする機能を有しており、
    前記テキストデータ公開手段は前記競合候補を含んた前記複数のテキストデータを公開する請求項1に記載の音声データ検索用WEBサイトシステム。
  13. ダウンロードされる前記テキストデータには該テキストデータを訂正するために必要な訂正用プログラムが付随している請求項1に記載の音声データ検索用WEBサイトシステム。
  14. 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、前記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段とを備えている請求項に記載の音声データ検索用WEBサイトシステム。
  15. 前記訂正判定手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす音響照合手段とを備えている請求項に記載の音声データ検索用WEBサイトシステム。
  16. 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段と、
    予め用意した音響モデルに基づいて、前記言語照合手段により正しい訂正であると判断された前記訂正事項を含んだ前記所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる前記訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合に、前記訂正事項を最終的に正しい訂正であるとみなす音響照合手段とを備えている請求項に記載の音声データ検索用WEBサイトシステム。
  17. 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を備えており、前記識別情報判定手段が識別情報の一致を判定した前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項1に記載の音声データ検索用WEBサイトシステム。
  18. 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を備えており、前記訂正許容範囲決定手段が決定した範囲の前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項1に記載の音声データ検索用WEBサイトシステム。
  19. 前記テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信するランキング集計手段を更に備えている請求項1に記載の音声データ検索用WEBサイトシ
  20. 前記音声認識手段は、前記テキストデータ訂正手段による訂正に基づいて、内蔵する音
    ステム。
    声認識辞書に未知語の追加登録及び新たな発音の追加登録をする機能を有している請求項1に記載の音声データ検索用WEBサイトシステム。
  21. 前記テキストデータ記憶手段には、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータが記憶されており、
    前記テキストデータ訂正手段、前記検索手段及び前記閲覧手段は、前記特別テキストデータの閲覧、検索及び訂正を、前記予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有している請求項20に記載の音声データ検索用WEBサイトシステム。
  22. 前記音声認識手段は、
    単語と該単語に対する1以上の音素からなる1以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻および/または終了時刻を前記テキストデータに付加する機能を有する音声認識実行手段と、
    前記音声認識実行手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容し、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正するように構成されたデータ訂正手段と、
    前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
    前記音素列中から、前記データ訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する1以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
    前記音素列部分を前記テキストデータ訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
    前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記発音とを組みあわせて新たな発音単語データとして前記音声認識辞書に追加登録し、前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した発音を追加登録する追加登録手段とを有することを特徴とする請求項20に記載の音声データ検索用WEBサイトシステム。
  23. 前記テキストデータ訂正手段は、前記テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、前記訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正する請求項1に記載の音声データ検索用WEBサイトシステム。
  24. 前記音声認識手段は、前記テキストデータをユーザ端末機で表示したときに、前記競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、前記競合候補を表示するためのデータを前記テキストデータに付加する機能を有している請求項6に記載の音声データ検索用WEBサイトシステム。
  25. インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用WEBサイトシステムを、コンピュータを用いて実現するために、前記コンピュータを、
    前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともURLを含む複数の関連情報とを収集する音声データ収集手段と、
    前記音声データ収集手段収集した複数の音声データと前記複数の関連情報とを記憶する音声データ記憶手段と、
    前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識手段と、
    前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けて記憶するテキストデータ記憶手段と、
    前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正手段と、
    前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開手段と、
    前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段として機能させ、
    前記テキストデータ訂正手段を、前記訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映するように機能させるためのプログラム。
  26. 前記コンピュータを、前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段として機能させるための請求項25に記載のプログラム。
  27. 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
    前記コンピュータを、前記インターネットを介してユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータ及び前記競合候補から、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段として機能させるための請求項25に記載のプログラム。
  28. 前記コンピュータを、前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧手段として機能させるための請求項25または26に記載のプログラム。
  29. 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
    前記閲覧手段は、前記ユーザ端末機の表示画面上で前記競合候補が存在する前記単語であることを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項28に記載のプログラム。
  30. 前記閲覧手段は、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項29に記載のプログラム。
  31. 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しており、
    前記閲覧手段は、前記ユーザ端末機の表示画面上で前記音声データが再生される際に、前記音声データが再生されている位置を前記ユーザ端末機の前記表示画面上に表示されている前記テキストデータ上に表示できるように、前記対応関係時間情報を含む前記テキストデータを送信する機能を有している請求項28または29に記載のプログラム。
  32. 前記音声データ収集手段は、音声データの内容の分野別に前記音声データを複数のグループに分けて記憶するように構成されており、
    前記音声認識手段は、前記複数のグループに対応した複数の音声認識器を備えており、1つの前記グループに属する前記音声データを前記1つのグループに対応する前記音声認識器を用いて音声認識する請求項25に記載のプログラム。
  33. 前記音声データ収集手段は、音声データの話者のタイプを判別して前記音声データを複数の話者のタイプに分けて記憶するように構成されており、
    前記音声認識手段は、前記複数の話者のタイプに対応した複数の音声認識器を備えており、1つの前記話者のタイプに属する前記音声データを前記1つの話者のタイプに対応する前記音声認識器を用いて音声認識する請求項25に記載のプログラム。
  34. 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める機能を有している請求項25に記載のプログラム。
  35. 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声認識をする機能を有しており、
    前記テキストデータ公開手段は前記競合候補を含んた前記複数のテキストデータを公開する請求項25に記載のプログラム。
  36. 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、前記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段とを備えている請求項25にプログラム。
  37. 前記訂正判定手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす音響照合手段とを備えている請求項25に記載のプログラム。
  38. 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、前記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段と、
    予め用意した音響モデルに基づいて、前記言語照合手段により正しい訂正であると判断された前記訂正事項を含んだ前記所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる前記訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合に、前記訂正事項を最終的に正しい訂正であるとみなす音響照合手段とを備えている請求項25に記載のプログラム。
  39. 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を備えており、前記識別情報判定手段が識別情報の一致を判定した前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項25に記載のプログラム。
  40. 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を備えており、前記訂正許容範囲決定手段が決定した範囲の前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項25に記載のプログラム。
  41. 前記テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信するランキング集計手段を更に備えている請求項25に記載のプログラム。
  42. 前記音声認識手段は、前記テキストデータ訂正手段による訂正に基づいて、内蔵する音声認識辞書に未知語の追加登録及びあらたな発音の追加登録をする機能を有している請求項25に記載のプログラム。
  43. 前記テキストデータ記憶手段には、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータが記憶されており、
    前記テキストデータ訂正手段、前記検索手段及び前記閲覧手段は、前記特別テキストデータの閲覧、検索及び訂正を、前記予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有している請求項42に記載のプログラム。
  44. 前記音声認識手段は、
    単語と該単語に対する1以上の音素からなる1以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻と終了時刻を前記テキストデータに付加する機能を有する音声認識実行手段と、
    前記音声認識実行手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容し、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正するように構成されたデータ訂正手段と、
    前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
    前記音素列中から、前記データ訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する1以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
    前記音素列部分を前記データ訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
    前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記発音とを組みあわせて新たな発音単語データとして前記音声認識辞書に追加登録し、前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した発音を追加登録する追加登録手段とを有することを特徴とする請求項42に記載のプログラム。
  45. 前記テキストデータ訂正手段は、前記テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、前記訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正する請求項25に記載のプログラム。
  46. 前記音声認識手段は、前記テキストデータをユーザ端末機で表示したときに、前記競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、前記競合候補を表示するためのデータを前記テキストデータに付加する機能を有している請求項29に記載のプログラム。
  47. インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用WEBサイトシステムの構築運営方法であって、
    前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともURLを含む複数の関連情報とを収集する音声データ収集ステップと、
    前記音声データ収集手段収集した複数の音声データと前記複数の関連情報とを音声データ記憶手段に記憶する音声データ記憶ステップと、
    前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識ステップと、
    前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けてテキストデータ記憶手段に記憶するテキストデータ記憶ステップと、
    前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正ステップと、
    前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開ステップと、
    前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定ステップを更に備え、
    前記テキストデータ訂正ステップでは、前記訂正判定ステップにおいて正しい訂正であるとみなした訂正事項だけを訂正に反映することを特徴とする音声データ検索用WEBサイトシステムの構築運営方法。
  48. 前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索ステップを更に備えている請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
  49. 前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧ステップを更に備えている請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
  50. 前記閲覧ステップは、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する請求項49に記載の音声データ検索用WEBサイトシステムの構築運営方法。
  51. 前記音声認識ステップでは、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
  52. 前記音声認識ステップでは、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声変換し、
    前記テキストデータ公開ステップでは、前記競合候補を含んた前記複数のテキストデータを公開する請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
  53. 前記テキストデータ訂正ステップで訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信する請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
JP2007310696A 2006-11-30 2007-11-30 音声データ検索用webサイトシステム Active JP4997601B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007310696A JP4997601B2 (ja) 2006-11-30 2007-11-30 音声データ検索用webサイトシステム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006324499 2006-11-30
JP2006324499 2006-11-30
JP2007310696A JP4997601B2 (ja) 2006-11-30 2007-11-30 音声データ検索用webサイトシステム

Publications (2)

Publication Number Publication Date
JP2008158511A JP2008158511A (ja) 2008-07-10
JP4997601B2 true JP4997601B2 (ja) 2012-08-08

Family

ID=39467952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007310696A Active JP4997601B2 (ja) 2006-11-30 2007-11-30 音声データ検索用webサイトシステム

Country Status (4)

Country Link
US (1) US20100070263A1 (ja)
JP (1) JP4997601B2 (ja)
GB (1) GB2458238B (ja)
WO (1) WO2008066166A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2458238B (en) * 2006-11-30 2011-03-23 Nat Inst Of Advanced Ind Scien Web site system for voice data search
WO2008069139A1 (ja) * 2006-11-30 2008-06-12 National Institute Of Advanced Industrial Science And Technology 音声認識システム及び音声認識システム用プログラム
US10002192B2 (en) * 2009-09-21 2018-06-19 Voicebase, Inc. Systems and methods for organizing and analyzing audio content derived from media files
US20120029918A1 (en) * 2009-09-21 2012-02-02 Walter Bachtiger Systems and methods for recording, searching, and sharing spoken content in media files
US20130311181A1 (en) * 2009-09-21 2013-11-21 Walter Bachtiger Systems and methods for identifying concepts and keywords from spoken words in text, audio, and video content
US20130138438A1 (en) * 2009-09-21 2013-05-30 Walter Bachtiger Systems and methods for capturing, publishing, and utilizing metadata that are associated with media files
US9201871B2 (en) * 2010-06-11 2015-12-01 Microsoft Technology Licensing, Llc Joint optimization for machine translation system combination
JP2012022053A (ja) * 2010-07-12 2012-02-02 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
CN102411563B (zh) 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
WO2013003772A2 (en) 2011-06-30 2013-01-03 Google Inc. Speech recognition using variable-length context
JP5751627B2 (ja) * 2011-07-28 2015-07-22 国立研究開発法人産業技術総合研究所 音声データ書き起こし用webサイトシステム
US20130035936A1 (en) * 2011-08-02 2013-02-07 Nexidia Inc. Language transcription
US9129606B2 (en) * 2011-09-23 2015-09-08 Microsoft Technology Licensing, Llc User query history expansion for improving language model adaptation
CN103092855B (zh) * 2011-10-31 2016-08-24 国际商业机器公司 探测地址更新的方法及装置
FR2991805B1 (fr) * 2012-06-11 2016-12-09 Airbus Dispositif d'aide a la communication dans le domaine aeronautique.
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
KR20150024188A (ko) * 2013-08-26 2015-03-06 삼성전자주식회사 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치
JP5902359B2 (ja) * 2013-09-25 2016-04-13 株式会社東芝 方法、電子機器およびプログラム
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
KR20160098910A (ko) * 2015-02-11 2016-08-19 한국전자통신연구원 음성 인식 데이터 베이스 확장 방법 및 장치
JP6200450B2 (ja) * 2015-04-30 2017-09-20 シナノケンシ株式会社 教育支援システム及び端末装置
JP6200449B2 (ja) * 2015-04-30 2017-09-20 シナノケンシ株式会社 教育支援システム及び端末装置
CN105138541B (zh) * 2015-07-08 2018-02-06 广州酷狗计算机科技有限公司 音频指纹匹配查询的方法和装置
JP6687358B2 (ja) * 2015-10-19 2020-04-22 株式会社日立情報通信エンジニアリング コールセンタシステム、および、その音声認識制御方法
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
JP6922920B2 (ja) * 2016-08-26 2021-08-18 ソニーグループ株式会社 情報処理装置及び情報処理方法
US10810995B2 (en) * 2017-04-27 2020-10-20 Marchex, Inc. Automatic speech recognition (ASR) model training
CN111147444B (zh) * 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US6782510B1 (en) * 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6834264B2 (en) * 2001-03-29 2004-12-21 Provox Technologies Corporation Method and apparatus for voice dictation and document production
US7117144B2 (en) * 2001-03-31 2006-10-03 Microsoft Corporation Spell checking for text input via reduced keypad keys
US7003725B2 (en) * 2001-07-13 2006-02-21 Hewlett-Packard Development Company, L.P. Method and system for normalizing dirty text in a document
WO2003102920A1 (en) * 2002-05-30 2003-12-11 Custom Speech Usa, Inc. A method for locating an audio segment within an audio file
AU2003256313A1 (en) * 2002-06-26 2004-01-19 William Ii Harbison A method for comparing a transcribed text file with a previously created file
JP2004152063A (ja) * 2002-10-31 2004-05-27 Nec Corp マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
JP3986015B2 (ja) * 2003-01-27 2007-10-03 日本放送協会 音声認識誤り修正装置、音声認識誤り修正方法および音声認識誤り修正プログラム
WO2004077404A1 (en) * 2003-02-21 2004-09-10 Voice Signal Technologies, Inc. Method of producing alternate utterance hypotheses using auxilia ry information on close competitors
US7809565B2 (en) * 2003-03-01 2010-10-05 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7363228B2 (en) * 2003-09-18 2008-04-22 Interactive Intelligence, Inc. Speech recognition system and method
JP5255769B2 (ja) * 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US7440895B1 (en) * 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
JP2005284880A (ja) * 2004-03-30 2005-10-13 Nec Corp 音声認識サービスシステム
US20070299664A1 (en) * 2004-09-30 2007-12-27 Koninklijke Philips Electronics, N.V. Automatic Text Correction
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US20070118364A1 (en) * 2005-11-23 2007-05-24 Wise Gerald B System for generating closed captions
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
GB2458238B (en) * 2006-11-30 2011-03-23 Nat Inst Of Advanced Ind Scien Web site system for voice data search

Also Published As

Publication number Publication date
WO2008066166A1 (fr) 2008-06-05
US20100070263A1 (en) 2010-03-18
JP2008158511A (ja) 2008-07-10
GB0911366D0 (en) 2009-08-12
GB2458238A (en) 2009-09-16
GB2458238B (en) 2011-03-23

Similar Documents

Publication Publication Date Title
JP4997601B2 (ja) 音声データ検索用webサイトシステム
US7729913B1 (en) Generation and selection of voice recognition grammars for conducting database searches
Chelba et al. Retrieval and browsing of spoken content
CN105408890B (zh) 基于声音输入执行与列表数据有关的操作
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
US8312022B2 (en) Search engine optimization
KR100760301B1 (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
US9159316B2 (en) Automatic language model update
CN102119385B (zh) 用于在内容检索服务系统内检索媒体内容的方法和子系统
US20030149564A1 (en) User interface for data access and entry
CN102081634B (zh) 语音检索装置和语音检索方法
JP2022191422A (ja) マルチメディア会話からの意図発見のためのシステムおよび方法
JP2002524806A (ja) 音声認識および自然言語処理を使用したネットワーク用対話型ユーザ・インタフェース
JP2017509049A (ja) 検索結果におけるコヒーレントな質問回答
US20100312778A1 (en) Predictive person name variants for web search
CN101952824A (zh) 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统
CN109791761A (zh) 使用校正的术语的声学模型训练
US8200485B1 (en) Voice interface and methods for improving recognition accuracy of voice search queries
US20100153392A1 (en) Consolidating Tags
JP2006302024A (ja) 関連文書表示方法及びプログラム
US7359858B2 (en) User interface for data access and entry
LawTo et al. A scalable video search engine based on audio content indexing and topic segmentation
CN109710844A (zh) 基于搜索引擎的快速准确定位文件的方法和设备
WO2008044669A1 (fr) Programme de recherche d'informations audio et son support d'enregistrement, système de recherche d'informations audio, et procédé de recherche d'informations audio
Bendib et al. Semantic ontologies for multimedia indexing (SOMI) Application in the e-library domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120426

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4997601

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250