JP4997601B2 - 音声データ検索用webサイトシステム - Google Patents
音声データ検索用webサイトシステム Download PDFInfo
- Publication number
- JP4997601B2 JP4997601B2 JP2007310696A JP2007310696A JP4997601B2 JP 4997601 B2 JP4997601 B2 JP 4997601B2 JP 2007310696 A JP2007310696 A JP 2007310696A JP 2007310696 A JP2007310696 A JP 2007310696A JP 4997601 B2 JP4997601 B2 JP 4997601B2
- Authority
- JP
- Japan
- Prior art keywords
- text data
- correction
- data
- word
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 claims abstract description 390
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000013500 data storage Methods 0.000 claims abstract description 82
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 83
- 230000002860 competitive effect Effects 0.000 claims description 34
- 238000013480 data collection Methods 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 37
- 238000012545 processing Methods 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 239000000126 substance Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007429 general method Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
http://www.podscope.com/ http://www.podzinger.com/
WEBクローラで取得しに行くボッドキャストのURLリストである。
(2-1) 取得済みRSSデータ(実体:XMLファイル)
ここではRSSの数kを、k=1...N(Nは正の整数)とする。
ここではURLの数sを、s=1...Sn(Snは正の整数)とする。
ここでは関連情報のリストの数sはs=1...Sn(Snは正の整数)で
ある。
とその関連ファイル)
(3-1) 音声データ(実体:MP3ファイル)
これが図1の音声データ記憶手段3に相当する。
音声認識結果のバージョンの番号vはv=1...Vとする。
(3-3-1) 作成日時
(3-3-2) 全文テキスト(FText:各単語の時刻情報が付いているテキスト)
これが図1のテキストデータ記憶手段7に相当する。
これがテキストデータを訂正するために単語の競合候補を提示するシス
テムである。
の状況として示す)
1. 未処理
2. 処理中
3. 処理済み
(4)音声認識すべきポッドキャストの番号(n)
(5)訂正処理待ち行列(queue)
(5-1) 訂正すべきstoryの番号(何番目か:s)
(5-2) 処理内容
1. 通常の音声認識結果
2. 訂正結果の反映
(5-3) 訂正処理状況(下記の1〜3の状況として示す)
1. 未処理
2. 処理中
3. 処理済み
図3は、コンピュータを用いてWEBクローラ101を実現する場合に用いるソフトウエア(プログラム)のアルゴリズムを示すフローチャートである。このフローチャートでは、前提として以下の準備がなされているものとする。なお図3のフローチャート及び以下の説明中において、データベース管理部102をDBと略して示すことがある。
b. 管理者によって新規に追加されるとき
c. 既にDBにあるRSSでも、更新されてstoryが増えていないかを
チェックするために、定期的に自動追加されるとき
図3のステップST1では、データベース管理部の取得対象ポッドキャストのURLのリスト(実体:RSSのURLリスト)から、次のRSSのURLを取得する。そしてステップST2で、そのRSSのURLから、RSSをダウンロードする。次にステップST3で、データベース管理部102の前述の(2-1)取得済みRSSデータ(実体: XMLファイル)にRSSを登録する。そしてステップST4で、RSSを解析(XMLファイルを解析)する。次にステップST5で、RSS中に記述されている音声データのMP3ファイルのURLとタイトルのリストを取得する。次にで、個々のMP3ファイルのURLに関して以下のステップST6乃至ST13を実行する。
3 音声データ記憶手段
5 音声認識手段
7 テキストデータ記憶手段
9 テキストデータ訂正手段
10 訂正判定手段
11 テキストデータ公開手段
13 検索手段
14 閲覧手段
15 ユーザ端末機
Claims (53)
- インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用WEBサイトシステムであって、
前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともURLを含む複数の関連情報とを収集する音声データ収集手段と、
前記音声データ収集手段が収集した複数の音声データと前記複数の関連情報とを記憶する音声データ記憶手段と、
前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識手段と、
前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けて記憶するテキストデータ記憶手段と、
前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正手段と、
前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開手段と、
前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段とを備え、
前記テキストデータ訂正手段は、前記訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映することを特徴とする音声データ検索用WEBサイトシステム。 - 前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段を更に備えている請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記インターネットを介してユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータ及び前記競合候補から、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段を更に備えている請求項1に記載の音声データ検索用WEBサイトシステム。 - 前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧手段を更に備えている請求項1または2に記載の音声データ検索用WEBサイトシステム。
- 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記競合候補が存在する前記単語であることを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項4に記載の音声データ検索用WEBサイトシステム。 - 前記閲覧手段は、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項5に記載の音声データ検索用WEBサイトシステム。
- 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記音声データが再生される際に、前記音声データが再生されている位置を前記ユーザ端末機の前記表示画面上に表示されている前記テキストデータ上に表示できるように、前記対応関係時間情報を含む前記テキストデータを送信する機能を有している請求項4または5に記載の音声データ検索用WEBサイトシステム。 - 前記テキストデータ公開手段は、前記テキストデータの全部または一部を公開する請求項1または7に記載の音声データ検索用WEBサイトシステム。
- 前記音声データ収集手段は、音声データの内容の分野別に前記音声データを複数のグループに分けて記憶するように構成されており、
前記音声認識手段は、前記複数のグループに対応した複数の音声認識器を備えており、1つの前記グループに属する前記音声データを前記1つのグループに対応する前記音声認識器を用いて音声認識する請求項1に記載の音声データ検索用WEBサイトシステム。 - 前記音声データ収集手段は、音声データの話者のタイプを判別して前記音声データを複数の話者のタイプに分けて記憶するように構成されており、
前記音声認識手段は、前記複数の話者のタイプに対応した複数の音声認識器を備えており、1つの前記話者のタイプに属する前記音声データを前記1つの話者のタイプに対応する前記音声認識器を用いて音声認識する請求項1に記載の音声データ検索用WEBサイトシステム。 - 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める機能を有している請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声認識をする機能を有しており、
前記テキストデータ公開手段は前記競合候補を含んた前記複数のテキストデータを公開する請求項1に記載の音声データ検索用WEBサイトシステム。 - ダウンロードされる前記テキストデータには該テキストデータを訂正するために必要な訂正用プログラムが付随している請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、前記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段とを備えている請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記訂正判定手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす音響照合手段とを備えている請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段と、
予め用意した音響モデルに基づいて、前記言語照合手段により正しい訂正であると判断された前記訂正事項を含んだ前記所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる前記訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合に、前記訂正事項を最終的に正しい訂正であるとみなす音響照合手段とを備えている請求項1に記載の音声データ検索用WEBサイトシステム。 - 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を備えており、前記識別情報判定手段が識別情報の一致を判定した前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を備えており、前記訂正許容範囲決定手段が決定した範囲の前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信するランキング集計手段を更に備えている請求項1に記載の音声データ検索用WEBサイトシ
- 前記音声認識手段は、前記テキストデータ訂正手段による訂正に基づいて、内蔵する音
ステム。
声認識辞書に未知語の追加登録及び新たな発音の追加登録をする機能を有している請求項1に記載の音声データ検索用WEBサイトシステム。 - 前記テキストデータ記憶手段には、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータが記憶されており、
前記テキストデータ訂正手段、前記検索手段及び前記閲覧手段は、前記特別テキストデータの閲覧、検索及び訂正を、前記予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有している請求項20に記載の音声データ検索用WEBサイトシステム。 - 前記音声認識手段は、
単語と該単語に対する1以上の音素からなる1以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻および/または終了時刻を前記テキストデータに付加する機能を有する音声認識実行手段と、
前記音声認識実行手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容し、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正するように構成されたデータ訂正手段と、
前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
前記音素列中から、前記データ訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する1以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
前記音素列部分を前記テキストデータ訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記発音とを組みあわせて新たな発音単語データとして前記音声認識辞書に追加登録し、前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した発音を追加登録する追加登録手段とを有することを特徴とする請求項20に記載の音声データ検索用WEBサイトシステム。 - 前記テキストデータ訂正手段は、前記テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、前記訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正する請求項1に記載の音声データ検索用WEBサイトシステム。
- 前記音声認識手段は、前記テキストデータをユーザ端末機で表示したときに、前記競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、前記競合候補を表示するためのデータを前記テキストデータに付加する機能を有している請求項6に記載の音声データ検索用WEBサイトシステム。
- インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用WEBサイトシステムを、コンピュータを用いて実現するために、前記コンピュータを、
前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともURLを含む複数の関連情報とを収集する音声データ収集手段と、
前記音声データ収集手段が収集した複数の音声データと前記複数の関連情報とを記憶する音声データ記憶手段と、
前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識手段と、
前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けて記憶するテキストデータ記憶手段と、
前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正手段と、
前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開手段と、
前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定手段として機能させ、
前記テキストデータ訂正手段を、前記訂正判定手段が正しい訂正であるとみなした訂正事項だけを訂正に反映するように機能させるためのプログラム。 - 前記コンピュータを、前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段として機能させるための請求項25に記載のプログラム。
- 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記コンピュータを、前記インターネットを介してユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータ及び前記競合候補から、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索手段として機能させるための請求項25に記載のプログラム。 - 前記コンピュータを、前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧手段として機能させるための請求項25または26に記載のプログラム。
- 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補を表示するためのデータを前記テキストデータに付加する機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記競合候補が存在する前記単語であることを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項28に記載のプログラム。 - 前記閲覧手段は、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する機能を有している請求項29に記載のプログラム。
- 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データ中のどの区間に対応するのかを示す対応関係時間情報を含める機能を有しており、
前記閲覧手段は、前記ユーザ端末機の表示画面上で前記音声データが再生される際に、前記音声データが再生されている位置を前記ユーザ端末機の前記表示画面上に表示されている前記テキストデータ上に表示できるように、前記対応関係時間情報を含む前記テキストデータを送信する機能を有している請求項28または29に記載のプログラム。 - 前記音声データ収集手段は、音声データの内容の分野別に前記音声データを複数のグループに分けて記憶するように構成されており、
前記音声認識手段は、前記複数のグループに対応した複数の音声認識器を備えており、1つの前記グループに属する前記音声データを前記1つのグループに対応する前記音声認識器を用いて音声認識する請求項25に記載のプログラム。 - 前記音声データ収集手段は、音声データの話者のタイプを判別して前記音声データを複数の話者のタイプに分けて記憶するように構成されており、
前記音声認識手段は、前記複数の話者のタイプに対応した複数の音声認識器を備えており、1つの前記話者のタイプに属する前記音声データを前記1つの話者のタイプに対応する前記音声認識器を用いて音声認識する請求項25に記載のプログラム。 - 前記音声認識手段は、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める機能を有している請求項25に記載のプログラム。
- 前記音声認識手段は、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声認識をする機能を有しており、
前記テキストデータ公開手段は前記競合候補を含んた前記複数のテキストデータを公開する請求項25に記載のプログラム。 - 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、前記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段とを備えている請求項25にプログラム。
- 前記訂正判定手段は、予め用意した音響モデルと音声データとに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす音響照合手段とを備えている請求項25に記載のプログラム。
- 前記訂正判定手段は、予め用意した言語モデルに基づいて、訂正結果登録要求により訂正される訂正事項を含んだ所定の長さの訂正単語列の言語的な確からしさを示す第1の文スコアを求める第1の文スコア算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる訂正前の所定の長さの単語列の言語的な確からしさを示す第2の文スコアを求める第2の文スコア算出手段と、前記第2の文スコアから前記第1の文スコアを引いて得た差が予め定めた基準値よりも小さい場合には、前記訂正事項を正しい訂正であるとみなす言語照合手段と、
予め用意した音響モデルに基づいて、前記言語照合手段により正しい訂正であると判断された前記訂正事項を含んだ前記所定の長さの訂正単語列を音素列に変換した第1の音素列の音響的な確からしさを示す第1の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第1の音響尤度算出手段と、前記訂正単語列に対応する前記テキストデータに含まれる前記訂正前の所定の長さの単語列を音素列に変換した第2の音素列の音響的な確からしさを示す第2の音響尤度を、予め定めた音響モデルと前記音声データとに基づいて求める第2の音響尤度算出手段と、前記第2の音響尤度から前記第1の音響尤度を引いて得た差が予め定めた基準値よりも小さい場合に、前記訂正事項を最終的に正しい訂正であるとみなす音響照合手段とを備えている請求項25に記載のプログラム。 - 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報が予め登録された識別情報と一致するか否かを判断する識別情報判定手段を備えており、前記識別情報判定手段が識別情報の一致を判定した前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項25に記載のプログラム。
- 前記テキストデータ訂正手段は、前記訂正結果登録要求に付随した識別情報に基づいて、訂正を許容する範囲を定める訂正許容範囲決定手段を備えており、前記訂正許容範囲決定手段が決定した範囲の前記訂正結果登録要求だけを受け入れて前記テキストデータの訂正を行う請求項25に記載のプログラム。
- 前記テキストデータ訂正手段により訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信するランキング集計手段を更に備えている請求項25に記載のプログラム。
- 前記音声認識手段は、前記テキストデータ訂正手段による訂正に基づいて、内蔵する音声認識辞書に未知語の追加登録及びあらたな発音の追加登録をする機能を有している請求項25に記載のプログラム。
- 前記テキストデータ記憶手段には、予め登録した識別情報を送信するユーザ端末機のみに閲覧、検索及び訂正が許可された複数の特別テキストデータが記憶されており、
前記テキストデータ訂正手段、前記検索手段及び前記閲覧手段は、前記特別テキストデータの閲覧、検索及び訂正を、前記予め登録した識別情報を送信するユーザ端末機からの要求にのみ応じて許可する機能を有している請求項42に記載のプログラム。 - 前記音声認識手段は、
単語と該単語に対する1以上の音素からなる1以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻と終了時刻を前記テキストデータに付加する機能を有する音声認識実行手段と、
前記音声認識実行手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容し、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正するように構成されたデータ訂正手段と、
前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
前記音素列中から、前記データ訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する1以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
前記音素列部分を前記データ訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記発音とを組みあわせて新たな発音単語データとして前記音声認識辞書に追加登録し、前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した発音を追加登録する追加登録手段とを有することを特徴とする請求項42に記載のプログラム。 - 前記テキストデータ訂正手段は、前記テキストデータをユーザ端末機で表示したときに、訂正された単語と訂正されていない単語とを区別できる態様で表示できるように、前記訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正する請求項25に記載のプログラム。
- 前記音声認識手段は、前記テキストデータをユーザ端末機で表示したときに、前記競合候補を有する単語を競合候補を有しない単語と区別できる態様で表示できるように、前記競合候補を表示するためのデータを前記テキストデータに付加する機能を有している請求項29に記載のプログラム。
- インターネットを介してアクセス可能な複数の音声データから、所望の音声データをテキストデータの検索エンジンにより検索することを可能にするために、音声認識技術により変換された前記音声データのテキストデータを複数のユーザが訂正できるようにした音声データ検索用WEBサイトシステムの構築運営方法であって、
前記インターネットを介して、前記複数の音声データと、前記複数の音声データにそれぞれ付随する少なくともURLを含む複数の関連情報とを収集する音声データ収集ステップと、
前記音声データ収集手段が収集した複数の音声データと前記複数の関連情報とを音声データ記憶手段に記憶する音声データ記憶ステップと、
前記音声データ記憶手段に記憶した前記複数の音声データを音声認識技術により複数のテキストデータに変換する音声認識ステップと、
前記複数の音声データに付随する前記複数の関連情報と前記複数の音声データに対応する前記複数のテキストデータとを関連付けてテキストデータ記憶手段に記憶するテキストデータ記憶ステップと、
前記インターネットを介してユーザ端末機から入力された訂正結果登録要求に従って前記テキストデータ記憶手段に記憶されている前記テキストデータを訂正するテキストデータ訂正ステップと、
前記テキストデータ記憶手段に記憶されている前記複数のテキストデータを、前記検索エンジンにより検索可能で、しかも前記複数のテキストデータに対応する前記複数の関連情報と一緒にダウンロード可能且つ訂正可能な状態で前記インターネットを介して公開するテキストデータ公開ステップと、
前記訂正結果登録要求により要求された訂正事項が、正しい訂正であるとみなすことができるか否かを判定する訂正判定ステップを更に備え、
前記テキストデータ訂正ステップでは、前記訂正判定ステップにおいて正しい訂正であるとみなした訂正事項だけを訂正に反映することを特徴とする音声データ検索用WEBサイトシステムの構築運営方法。 - 前記インターネットを介して前記ユーザ端末機から入力された検索語に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、所定の条件を満たす1以上の前記テキストデータを検索し、検索により得られた前記1以上のテキストデータの少なくとも一部と該1以上のテキストデータに付随する1以上の前記関連情報とを前記ユーザ端末機に送信する検索ステップを更に備えている請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
- 前記インターネットを介してユーザ端末機から入力された閲覧要求に基づいて、前記テキストデータ記憶手段に記憶されている前記複数のテキストデータから、閲覧要求された前記テキストデータを検索し、検索により得られた前記テキストデータの少なくとも一部を前記ユーザ端末機に送信する閲覧ステップを更に備えている請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
- 前記閲覧ステップは、前記ユーザ端末機の表示画面上に前記競合候補を含めて前記テキストデータを表示できるように、前記テキストデータに前記競合候補を含めて送信する請求項49に記載の音声データ検索用WEBサイトシステムの構築運営方法。
- 前記音声認識ステップでは、前記音声データを前記テキストデータに変換する際に、前記テキストデータに含まれる複数の単語が、対応する前記音声データのどの区間に前記単語が対応するのかを示す対応関係時間情報を含める請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
- 前記音声認識ステップでは、前記テキストデータ中の単語と競合する競合候補が前記テキストデータ中に含まれるように音声変換し、
前記テキストデータ公開ステップでは、前記競合候補を含んた前記複数のテキストデータを公開する請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。 - 前記テキストデータ訂正ステップで訂正された回数が多いテキストデータのランキングを集計してその結果を前記ユーザ端末機からの要求に応じて前記ユーザ端末機に送信する請求項47に記載の音声データ検索用WEBサイトシステムの構築運営方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007310696A JP4997601B2 (ja) | 2006-11-30 | 2007-11-30 | 音声データ検索用webサイトシステム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006324499 | 2006-11-30 | ||
JP2006324499 | 2006-11-30 | ||
JP2007310696A JP4997601B2 (ja) | 2006-11-30 | 2007-11-30 | 音声データ検索用webサイトシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008158511A JP2008158511A (ja) | 2008-07-10 |
JP4997601B2 true JP4997601B2 (ja) | 2012-08-08 |
Family
ID=39467952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007310696A Active JP4997601B2 (ja) | 2006-11-30 | 2007-11-30 | 音声データ検索用webサイトシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100070263A1 (ja) |
JP (1) | JP4997601B2 (ja) |
GB (1) | GB2458238B (ja) |
WO (1) | WO2008066166A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2458238B (en) * | 2006-11-30 | 2011-03-23 | Nat Inst Of Advanced Ind Scien | Web site system for voice data search |
WO2008069139A1 (ja) * | 2006-11-30 | 2008-06-12 | National Institute Of Advanced Industrial Science And Technology | 音声認識システム及び音声認識システム用プログラム |
US10002192B2 (en) * | 2009-09-21 | 2018-06-19 | Voicebase, Inc. | Systems and methods for organizing and analyzing audio content derived from media files |
US20120029918A1 (en) * | 2009-09-21 | 2012-02-02 | Walter Bachtiger | Systems and methods for recording, searching, and sharing spoken content in media files |
US20130311181A1 (en) * | 2009-09-21 | 2013-11-21 | Walter Bachtiger | Systems and methods for identifying concepts and keywords from spoken words in text, audio, and video content |
US20130138438A1 (en) * | 2009-09-21 | 2013-05-30 | Walter Bachtiger | Systems and methods for capturing, publishing, and utilizing metadata that are associated with media files |
US9201871B2 (en) * | 2010-06-11 | 2015-12-01 | Microsoft Technology Licensing, Llc | Joint optimization for machine translation system combination |
JP2012022053A (ja) * | 2010-07-12 | 2012-02-02 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
CN102411563B (zh) | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
WO2013003772A2 (en) | 2011-06-30 | 2013-01-03 | Google Inc. | Speech recognition using variable-length context |
JP5751627B2 (ja) * | 2011-07-28 | 2015-07-22 | 国立研究開発法人産業技術総合研究所 | 音声データ書き起こし用webサイトシステム |
US20130035936A1 (en) * | 2011-08-02 | 2013-02-07 | Nexidia Inc. | Language transcription |
US9129606B2 (en) * | 2011-09-23 | 2015-09-08 | Microsoft Technology Licensing, Llc | User query history expansion for improving language model adaptation |
CN103092855B (zh) * | 2011-10-31 | 2016-08-24 | 国际商业机器公司 | 探测地址更新的方法及装置 |
FR2991805B1 (fr) * | 2012-06-11 | 2016-12-09 | Airbus | Dispositif d'aide a la communication dans le domaine aeronautique. |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
JP2014202848A (ja) * | 2013-04-03 | 2014-10-27 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
KR20150024188A (ko) * | 2013-08-26 | 2015-03-06 | 삼성전자주식회사 | 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치 |
JP5902359B2 (ja) * | 2013-09-25 | 2016-04-13 | 株式会社東芝 | 方法、電子機器およびプログラム |
CN104142909B (zh) * | 2014-05-07 | 2016-04-27 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US11289077B2 (en) * | 2014-07-15 | 2022-03-29 | Avaya Inc. | Systems and methods for speech analytics and phrase spotting using phoneme sequences |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
KR20160098910A (ko) * | 2015-02-11 | 2016-08-19 | 한국전자통신연구원 | 음성 인식 데이터 베이스 확장 방법 및 장치 |
JP6200450B2 (ja) * | 2015-04-30 | 2017-09-20 | シナノケンシ株式会社 | 教育支援システム及び端末装置 |
JP6200449B2 (ja) * | 2015-04-30 | 2017-09-20 | シナノケンシ株式会社 | 教育支援システム及び端末装置 |
CN105138541B (zh) * | 2015-07-08 | 2018-02-06 | 广州酷狗计算机科技有限公司 | 音频指纹匹配查询的方法和装置 |
JP6687358B2 (ja) * | 2015-10-19 | 2020-04-22 | 株式会社日立情報通信エンジニアリング | コールセンタシステム、および、その音声認識制御方法 |
JP6744025B2 (ja) * | 2016-06-21 | 2020-08-19 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
JP6922920B2 (ja) * | 2016-08-26 | 2021-08-18 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
US10810995B2 (en) * | 2017-04-27 | 2020-10-20 | Marchex, Inc. | Automatic speech recognition (ASR) model training |
CN111147444B (zh) * | 2019-11-20 | 2021-08-06 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US6782510B1 (en) * | 1998-01-27 | 2004-08-24 | John N. Gross | Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
US7644057B2 (en) * | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US6834264B2 (en) * | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
US7117144B2 (en) * | 2001-03-31 | 2006-10-03 | Microsoft Corporation | Spell checking for text input via reduced keypad keys |
US7003725B2 (en) * | 2001-07-13 | 2006-02-21 | Hewlett-Packard Development Company, L.P. | Method and system for normalizing dirty text in a document |
WO2003102920A1 (en) * | 2002-05-30 | 2003-12-11 | Custom Speech Usa, Inc. | A method for locating an audio segment within an audio file |
AU2003256313A1 (en) * | 2002-06-26 | 2004-01-19 | William Ii Harbison | A method for comparing a transcribed text file with a previously created file |
JP2004152063A (ja) * | 2002-10-31 | 2004-05-27 | Nec Corp | マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法 |
JP3986015B2 (ja) * | 2003-01-27 | 2007-10-03 | 日本放送協会 | 音声認識誤り修正装置、音声認識誤り修正方法および音声認識誤り修正プログラム |
WO2004077404A1 (en) * | 2003-02-21 | 2004-09-10 | Voice Signal Technologies, Inc. | Method of producing alternate utterance hypotheses using auxilia ry information on close competitors |
US7809565B2 (en) * | 2003-03-01 | 2010-10-05 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7363228B2 (en) * | 2003-09-18 | 2008-04-22 | Interactive Intelligence, Inc. | Speech recognition system and method |
JP5255769B2 (ja) * | 2003-11-21 | 2013-08-07 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル |
US7440895B1 (en) * | 2003-12-01 | 2008-10-21 | Lumenvox, Llc. | System and method for tuning and testing in a speech recognition system |
JP2005284880A (ja) * | 2004-03-30 | 2005-10-13 | Nec Corp | 音声認識サービスシステム |
US20070299664A1 (en) * | 2004-09-30 | 2007-12-27 | Koninklijke Philips Electronics, N.V. | Automatic Text Correction |
JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US7412387B2 (en) * | 2005-01-18 | 2008-08-12 | International Business Machines Corporation | Automatic improvement of spoken language |
US20060293889A1 (en) * | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
US9697231B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for providing virtual media channels based on media search |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
US20070118364A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | System for generating closed captions |
US20070179784A1 (en) * | 2006-02-02 | 2007-08-02 | Queensland University Of Technology | Dynamic match lattice spotting for indexing speech content |
US20070208567A1 (en) * | 2006-03-01 | 2007-09-06 | At&T Corp. | Error Correction In Automatic Speech Recognition Transcripts |
GB2458238B (en) * | 2006-11-30 | 2011-03-23 | Nat Inst Of Advanced Ind Scien | Web site system for voice data search |
-
2007
- 2007-11-30 GB GB0911366A patent/GB2458238B/en not_active Expired - Fee Related
- 2007-11-30 JP JP2007310696A patent/JP4997601B2/ja active Active
- 2007-11-30 WO PCT/JP2007/073211 patent/WO2008066166A1/ja active Application Filing
- 2007-11-30 US US12/516,883 patent/US20100070263A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2008066166A1 (fr) | 2008-06-05 |
US20100070263A1 (en) | 2010-03-18 |
JP2008158511A (ja) | 2008-07-10 |
GB0911366D0 (en) | 2009-08-12 |
GB2458238A (en) | 2009-09-16 |
GB2458238B (en) | 2011-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4997601B2 (ja) | 音声データ検索用webサイトシステム | |
US7729913B1 (en) | Generation and selection of voice recognition grammars for conducting database searches | |
Chelba et al. | Retrieval and browsing of spoken content | |
CN105408890B (zh) | 基于声音输入执行与列表数据有关的操作 | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US8312022B2 (en) | Search engine optimization | |
KR100760301B1 (ko) | 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치 | |
US9159316B2 (en) | Automatic language model update | |
CN102119385B (zh) | 用于在内容检索服务系统内检索媒体内容的方法和子系统 | |
US20030149564A1 (en) | User interface for data access and entry | |
CN102081634B (zh) | 语音检索装置和语音检索方法 | |
JP2022191422A (ja) | マルチメディア会話からの意図発見のためのシステムおよび方法 | |
JP2002524806A (ja) | 音声認識および自然言語処理を使用したネットワーク用対話型ユーザ・インタフェース | |
JP2017509049A (ja) | 検索結果におけるコヒーレントな質問回答 | |
US20100312778A1 (en) | Predictive person name variants for web search | |
CN101952824A (zh) | 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统 | |
CN109791761A (zh) | 使用校正的术语的声学模型训练 | |
US8200485B1 (en) | Voice interface and methods for improving recognition accuracy of voice search queries | |
US20100153392A1 (en) | Consolidating Tags | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
US7359858B2 (en) | User interface for data access and entry | |
LawTo et al. | A scalable video search engine based on audio content indexing and topic segmentation | |
CN109710844A (zh) | 基于搜索引擎的快速准确定位文件的方法和设备 | |
WO2008044669A1 (fr) | Programme de recherche d'informations audio et son support d'enregistrement, système de recherche d'informations audio, et procédé de recherche d'informations audio | |
Bendib et al. | Semantic ontologies for multimedia indexing (SOMI) Application in the e-library domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120424 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120426 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4997601 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150525 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |