JP5235210B2 - 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 - Google Patents
音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 Download PDFInfo
- Publication number
- JP5235210B2 JP5235210B2 JP2010500522A JP2010500522A JP5235210B2 JP 5235210 B2 JP5235210 B2 JP 5235210B2 JP 2010500522 A JP2010500522 A JP 2010500522A JP 2010500522 A JP2010500522 A JP 2010500522A JP 5235210 B2 JP5235210 B2 JP 5235210B2
- Authority
- JP
- Japan
- Prior art keywords
- label
- unit
- query
- confusion network
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 142
- 230000008569 process Effects 0.000 claims description 76
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 230000008878 coupling Effects 0.000 claims description 14
- 238000010168 coupling process Methods 0.000 claims description 14
- 238000005859 coupling reaction Methods 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 230000003796 beauty Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Forward (G)
1 S←I
2 Q←I
3 for each q∈I do
4 α(q)=1
5 while S≠Φ do
6 q←HEAD(S)
7 DEQUEUE(S)
8 for each e∈E[q] do
9 α(n[e])←α(n[e])+f(q)*w(e)
10 If not n[e]∈Q then
11 Q←Q∪{n[e]}
12 ENQUEUE(S, n[e])
13 α←0
14 for each q∈F do
15 α←α+α(q)
ここで、グラフGは、ノードの集合V、アークの集合E、始端ノードの集合I、終端ノードの集合Fを有し、アークの集合E(v)はノードvから出て行くアークの集合、k[e]はアークeの先行ノード、n[e]はアークeの後続ノード、l[e]はアークeのラベル、w[e]はアークeの重み、HEAD(S)は待ち行列Sの先頭の要素を返す関数、DEQUEUE(S)は待ち行列Sの先頭の要素を削除する関数、ENQUEUE(S, x)は待ち行列Sの最後に要素xを挿入する関数である。
Backward (G)
1 S←F
2 Q←F
3 for each q∈F do
4 β(q)=1
5 while S≠Φ do
6 q←HEAD(S)
7 DEQUEUE(S)
8 for each e∈H[q] do
9 β(k[e])←β(k[e])+w(e)*β(q)
10 if not k[e]∈Q then
11 Q←Q∪{k[e]}
12 ENQUEUE(S, k[e])
13 β←0
14 for each q∈I do
15 β←β+β(q)
ここで、グラフGは、ノードの集合V、アークの集合H、始端ノードの集合I、終端ノードの集合Fを有し、アークの集合H(v)はノードvに入ってくるアークの集合、k[e]はアークeの先行ノード、n[e]はアークeの後続ノード、l[e]はアークeのラベル、w[e]はアークeの重み、HEAD(S)は待ち行列Sの先頭の要素を返す関数、DEQUEUE(S)は待ち行列Sの先頭の要素を削除する関数、ENQUEUE(S, x)は待ち行列Sの最後に要素xを挿入する関数である。
f(k[e])= α(k[e])×β(k[e])/β(始端ノード)
p(e|k[e])= w[e]×β(n[e])/β(k[e])
ある発話のラティスにおいて、クエリのラベル列L1,L2,…,LMに対応するアーク列e1,e2,…,eMが見付かると、出現確率は次の式に従って計算される。
P(e1,e2,…,eM)=f(k[e1])×p(e1|k[e1])×p(e2|k[e2])×・・・×p(eM|k[eM])
出現確率P(e1,e2,…,eM)は、ノードk[e1]が出現し、かつ、アーク列e1,e2,…,eMが、k[e1]からアークe1を通り、k[e2]からアークe2を通り、…、k [eM]からアークeMを通る確率である。ただし、アーク列e1,e2,…,eMにおいて、n[em-1]はk[em]であり、l[em]はLmである(1≦m≦M)。ある発話のラティスにおいて、クエリのラベル列に対応する全てのアーク列の出現確率の総和は、その発話におけるクエリのラベル列の出現確率になる。
図9乃至16を参照して、本発明の第1実施形態を説明する。
P(e|G)=α(k[e])×w[e]×β(n[e])/β(始端ノード)
それから、コンフュージョンネットワーク生成部3は、アーク間の類似度が一定値以上の値を有する2つ以上のアーク、又はアーク間の類似度が最も高い値を有する2つのアークを縮約して、1つのアークを生成する。なお、アーク間の類似度は、時間区間の重複度や発音の類似度などに基づいた尺度である。2つ以上のアーク(又は2つのアーク)を縮約するとき、コンフュージョンネットワーク生成部3は、2つ以上のアーク(又は2つのアーク)の事後確率を加えた値を、縮約されたアークの事後確率とする。
1 − (対立候補グループに含まれるアークの事後確率の総和)
転置索引テーブル生成部4は、コンフュージョンネットワーク生成部3から出力された各コンフュージョンネットワークの各アーク情報を、各アークに付与されたラベルごとに分類して、転置索引テーブルを構築する。コンフュージョンネットワークに基づいて転置索引テーブルを構築する手順は、ラティスに基づいて転置索引テーブルを構築する手順と同じである。
k[e](先行ノード番号) = n[e](後続ノード番号)−1
この関係から、転置索引テーブル生成部4は、先行ノード番号k[e]と後続ノード番号n[e]の両方ではなく、先行ノード番号k[e]だけを転置索引テーブルに登録しておけばよい。すなわち、ラティスをコンフュージョンネットワークに変換することにより、転置索引テーブルに登録するアークの数を削減でき、かつ、アークの情報を削減できる。
Intersection (G1, G2)
1 V←I1 × I2
2 S←I1 × I2
3 while S≠Φ do
4 (v1, v2)←HEAD(S)
5 DEQUEUE(S)
6 if (v1, v2) ∈ I1 × I2 then
7 I←I∪{(v1, v2)}
8 if (v1, v2) ∈ F1 × F2 then
9 F←F∪{(v1, v2)}
10 for each (e1, e2)∈E[v1] × E[v2] such that l[e1] =l[e2] do
11 if not (n[e1], n[e2]) ∈ V then
12 V←V∪{(n[e1], n[e2])}
13 ENQUEUE(S, (n[e1], n[e2]))
14 E←E∪{((v1,v2),(n[e1],n[e2]),l[e1],w[e1]×w[e2])}
15 return G
ここで、グラフGは、ノードの集合V、アークの集合H、始端ノードの集合I、終端ノードの集合Fを有し、アークの集合H(v)はノードvに入ってくるアークの集合、k[e]はアークeの先行ノード、n[e]をアークeの後続ノード、l[e]をアークeのラベル、w[e]をアークeの重み、HEAD(S)は待ち行列Sの先頭の要素を返す関数、DEQUEUE(S)は待ち行列Sの先頭の要素を削除する関数、ENQUEUE(S, x)は待ち行列Sの最後に要素xを挿入する関数である。なお、2つのグラフG1, G2に対応するノードとアークを区別するために、各アルファベットに添え字“1”,“2”を付している。
(第2実施形態)
図17及び18を参照して、本発明の第2実施形態を説明する。第1実施形態の音声データ検索装置10は、1種類の有向グラフ(音素ラティス、音節ラティス、又は単語ラティス)を用いて音声データを検索している。これに対して、第2実施形態の音声データ検索装置30は、N(N≧2)種類の有向グラフを用いて音声データを検索する。
(第3実施形態)
図19及び23を参照して、本発明の第3実施形態を説明する。第2実施形態の音声データ検索装置20は、ラベル体系ごとに独立して音声データを検索している。これに対して、本実施形態の音声データ検索装置50は、全てのラベル体系を結合した結合ネットワークを用いて音声データを検索する。本実施形態の音声データ検索方法は、クエリとして入力される文字列が、音声認識部2で使用される発音辞書と言語モデルに登録されていない未登録単語を含む場合に有効である。
Composition (G1, G2)
1 V←I1 × I2
2 S←I1 × I2
3 while S≠Φ do
4 (v1, v2)←HEAD(S)
5 DEQUEUE(S)
6 if (v1, v2) ∈ I1 × I2 then
7 I←I∪{(v1, v2)}
8 if (v1, v2) ∈ F1 × F2 then
9 F←F∪{(v1, v2)}
10 for each (e1, e2)∈E[v1] × E[v2] such that o[e1] = i[e2] do
11 if not (n[e1], n[e2]) ∈ V then
12 V←V∪{(n[e1], n[e2])}
13 ENQUEUE(S, (n[e1], n[e2]))
14 E←E∪{((v1, v2),(n[e1],n[e2]), i[e1],o[e2])}
15 return G
ここで、グラフGは、ノードの集合V、アークの集合H、始端ノードの集合I、終端ノードの集合Fを有し、アークの集合H(v)はノードvに入ってくるアークの集合、k[e]はアークeの先行ノード、n[e]をアークeの後続ノード、i[e]をアークeの入力ラベル、o[e]をアークeの出力ラベル、HEAD(S)は待ち行列Sの先頭の要素を返す関数、DEQUEUE(S)は待ち行列Sの先頭の要素を削除する関数、ENQUEUE(S, x)は待ち行列Sの最後に要素xを加える関数である。なお、2つのグラフG1, G2は有限状態変換器を表している。2つのグラフG1, G2に対応するノードとアークを区別するために、各アルファベットに添え字“1”,“2”を付している。
Claims (8)
- 複数の音声データを記憶する音声データベースと、
前記音声データベースから音声データを読み出し、前記読み出された音声データに対して音声認識処理を実行して、前記音声認識処理の結果を、音素、音節、又は単語を基本単位とするラティスとして出力する音声認識部と、
前記音声認識部から出力されたラティスに基づいてコンフュージョンネットワークを生成して、前記音声認識処理の結果を前記コンフュージョンネットワークとして出力するコンフュージョンネットワーク生成部と、
前記コンフュージョンネットワーク生成部から出力された前記コンフュージョンネットワークに基づいて転置索引テーブルを生成する転置索引テーブル生成部と、
ユーザにより入力されたクエリを受け付けて、前記受け付けたクエリに対して音声認識処理を実行して、音声認識処理の結果を文字列として出力するクエリ入力部と、
前記クエリ入力部から出力された文字列を、音素、音節、又は単語を基本単位とするラベル列に変換するクエリ変換部と、
前記クエリ変換部から読み出したラベル列を前記転置索引テーブル生成部から読み出した転置索引テーブルと照合して、前記ラベル列と前記音声データベースの両方に含まれる音声データを検索して、前記検索された音声データが記憶された前記音声データベース内のアドレスを示すポインタのリストを出力するラベル列照合部と、
を備え、
前記ラベル列照合部は、前記転置索引テーブルに基づいて、前記ラベル列に含まれるラベルを有するアークのみからなる部分コンフュージョンネットワークを生成し、前記ラベル列からクエリのグラフを生成し、前記部分コンフュージョンネットワークと前記クエリのグラフとの間でインターセクションを計算することを特徴とする音声データ検索装置。 - 前記ラベル列照合部は、前記転置索引テーブルを参照して、前記ラベル列に含まれる1つ以上のラベルに割り当てられた1つ以上のアークによって構成されるように前記部分コンフュージョンネットワークを生成し、前記ラベル列を1次元配列のグラフで表し、自身のノードに戻るアークを前記1次元配列のグラフの各ノードに付与して前記クエリのグラフを生成し、前記部分コンフュージョンネットワークと前記クエリのグラフとの間でインターセクションを計算することを特徴とする請求項1に記載の音声データ検索装置。
- 複数の音声データを記憶する音声データベースと、
2つ以上の音声認識部と、
各音声認識部は、前記音声データベースから音声データを読み出し、前記読み出された音声データに対して音声認識処理を実行して、前記音声認識処理の結果を、音素、音節、又は単語を基本単位とするラティスとして出力し、
ある音声認識部から出力されるあるラティスの基本単位は、他の音声認識部から出力される他のラティスの基本単位とは異なり、
前記2つ以上の音声認識部にそれぞれ接続された2つ以上のコンフュージョンネットワーク生成部と、
各コンフュージョンネットワーク生成部は、前記各音声認識部から出力されたラティスに基づいてコンフュージョンネットワークを生成して、前記音声認識処理の結果をコンフュージョンネットワークとして出力し、
前記2つ以上のコンフュージョンネットワーク生成部にそれぞれ接続された2つ以上の転置索引テーブル生成部と、
各転置索引テーブル生成部は、前記各コンフュージョンネットワーク生成部から出力された前記コンフュージョンネットワークに基づいて転置索引テーブルを生成し、
ユーザにより入力されたクエリを受け付けて、前記受け付けたクエリに対して音声認識処理を実行して、音声認識処理の結果を文字列として出力するクエリ入力部と、
2つ以上のクエリ変換部と、
各クエリ変換部は、前記クエリ入力部から出力された文字列を、音素、音節、又は単語を基本単位とするラベル列に変換し、
あるクエリ変換部で変換されるあるラベル列の基本単位は、他のクエリ変換部で変換される他のラベル列の基本単位とは異なり、
前記2つ以上の転置索引テーブル生成部及び前記2つ以上のクエリ変換部にそれぞれ接続された2つ以上のラベル列照合部と、
各ラベル列照合部は、前記各クエリ変換部から読み出したラベル列を前記各転置索引テーブル生成部から読み出した転置索引テーブルと照合して、前記ラベル列と前記音声データベースの両方に含まれる音声データを検索し、
前記2つ以上のラベル列照合部から検索結果を読み出して、前記読み出された検索結果を統合して検索結果リストを生成して、前記検索結果リストに含まれる音声データが記憶された前記音声データベース内のアドレスを示すポインタのリストを出力する検索結果統合部と、
を備え、
前記各ラベル列照合部は、前記各転置索引テーブルに基づいて、前記ラベル列に含まれるラベルを有するアークのみからなる部分コンフュージョンネットワークを生成し、前記ラベル列からクエリのグラフを生成し、前記部分コンフュージョンネットワークと前記クエリのグラフとの間でインターセクションを計算することを特徴とする音声データ検索装置。 - 複数の音声データを記憶する音声データベースと、
2つの音声認識部と、
各音声認識部は、前記音声データベースから音声データを読み出し、前記読み出された音声データに対して音声認識処理を実行して、前記音声認識処理の結果を、音素又は単語を基本単位とするラティスとして出力し、
一方の音声認識部から出力されるあるラティスの基本単位は、他方の音声認識部から出力される他のラティスの基本単位とは異なり、
前記2つの音声認識部にそれぞれ接続された2つのコンフュージョンネットワーク生成部と、
各コンフュージョンネットワーク生成部は、前記各音声認識部から出力されたラティスに基づいてコンフュージョンネットワークを生成して、前記音声認識処理の結果を前記コンフュージョンネットワークとして出力し、
前記2つのコンフュージョンネットワーク生成部から出力された音素コンフュージョンネットワークと単語コンフュージョンネットワークを結合して、音素‐単語結合ネットワークを生成し、前記音素‐単語結合ネットワークを出力するコンフュージョンネットワーク結合部と、
前記コンフュージョンネットワーク結合部は、前記音素コンフュージョンネットワークの各音素ラベルを第1入力ラベルと第1出力ラベルの組に変換して第1有限状態変換器を生成し、
前記第1入力ラベルは、対応する音素ラベルと、前記対応する音素ラベルが付与されたアークの始端ノードと終端ノードの番号からなり、
前記第1出力ラベルは、前記対応する音素ラベルからなり、
前記コンフュージョンネットワーク結合部は、前記単語コンフュージョンネットワークの各単語ラベルと前記単語ラベルのアークを、前記単語の発音を表す音素列ラベルと前記音素列ラベルを構成する音素ラベルが付与されたアークにそれぞれ置き換えて、更に各音素ラベルを第2入力ラベルと第2出力ラベルの組に変換して第2有限状態変換器を生成し、
前記第2入力ラベルは、対応する音素ラベルからなり、
前記第2出力ラベルは、対応する単語ラベルと、前記対応する単語ラベルの位置情報からなり、
前記コンフュージョンネットワーク結合部は、前記第1有限状態変換器と前記第2有限状態変換器を合成して、前記音素−単語結合ネットワークを生成し、
前記コンフュージョンネットワーク結合部から出力された音素‐単語結合ネットワークに基づいて転置索引テーブルを生成する転置索引テーブル生成部と、
ユーザにより入力されたクエリを受け付けて、前記受け付けたクエリに対して音声認識処理を実行して、音声認識処理の結果を文字列として出力するクエリ入力部と、
前記クエリ入力部から出力された文字列を、音素及び単語を基本単位とするラベル列に変換するクエリ変換部と、
前記クエリ変換部から読み出したラベル列を前記転置索引テーブル生成部から読み出した転置索引テーブルと照合して、前記ラベル列と前記音声データベースの両方に含まれる音声データを検索して、前記検索された音声データが記憶された前記音声データベース内のアドレスを示すポインタのリストを出力するラベル列照合部と、
を備えることを特徴とする音声データ検索装置。 - コンピュータにより、複数の音声データを記憶した音声データベースから音声データを読み出し、
前記コンピュータにより、前記読み出された音声データに対して音声認識処理を実行し、
前記コンピュータにより、前記音声認識処理の結果を、音素、音節、又は単語を基本単位とするラティスとして出力し、
前記コンピュータにより、前記出力されたラティスに基づいてコンフュージョンネットワークを生成し、
前記コンピュータにより、前記音声認識処理の結果を前記コンフュージョンネットワークとして出力し、
前記コンピュータにより、前記出力されたコンフュージョンネットワークに基づいて転置索引テーブルを生成し、
前記コンピュータにより、ユーザにより入力されたクエリを受け付けて、
前記コンピュータにより、前記受け付けたクエリに対して音声認識処理を実行し、
前記コンピュータにより、音声認識処理の結果を文字列として出力し、
前記コンピュータにより、前記出力された文字列を、音素、音節、又は単語を基本単位とするラベル列に変換し、
前記コンピュータにより、前記ラベル列を前記転置索引テーブルと照合し、
前記コンピュータにより、前記転置索引テーブルに基づいて、前記ラベル列に含まれるラベルを有するアークのみからなる部分コンフュージョンネットワークを生成し、
前記コンピュータにより、前記ラベル列からクエリのグラフを生成し、
前記コンピュータにより、前記ラベル列と前記音声データベースの両方に含まれる音声データを検索するために、前記部分コンフュージョンネットワークと前記クエリのグラフとの間でインターセクションを計算し、
前記コンピュータにより、前記検索された音声データが記憶された前記音声データベース内のアドレスを示すポインタのリストを出力することを特徴とする音声データ検索方法。 - コンピュータに対して、複数の音声データを記憶した音声データベースから音声データを読み出させる第1音声データ検索プログラムコードと、
前記コンピュータに対して、前記読み出された音声データに対して音声認識処理を実行させる第2音声データ検索プログラムコードと、
前記コンピュータに対して、音声認識処理の結果を、音素、音節、又は単語を基本単位とするラティスとして出力させる第3音声データ検索プログラムコードと、
前記コンピュータに対して、前記出力されたラティスに基づいてコンフュージョンネットワークを生成させる第4音声データ検索プログラムコードと、
前記コンピュータに対して、前記音声認識処理の結果を前記コンフュージョンネットワークとして出力させる第5音声データ検索プログラムコードと、
前記コンピュータに対して、前記出力されたコンフュージョンネットワークに基づいて転置索引テーブルを生成させる第6音声データ検索プログラムコードと、
前記コンピュータに対して、ユーザにより入力されたクエリを受け付けさせる第7音声データ検索プログラムコードと、
前記コンピュータに対して、前記受け付けたクエリに対して音声認識処理を実行させる第8音声データ検索プログラムコードと、
前記コンピュータに対して、音声認識処理の結果を文字列として出力させる第9音声データ検索プログラムコードと、
前記コンピュータに対して、前記出力された文字列を、音素、音節、又は単語を基本単位とするラベル列に変換させる第10音声データ検索プログラムコードと、
前記コンピュータに対して、前記ラベル列を前記転置索引テーブルと照合させる第11音声データ検索プログラムコードと、
前記コンピュータに対して、前記転置索引テーブルに基づいて、前記ラベル列に含まれるラベルを有するアークのみからなる部分コンフュージョンネットワークを生成させ、前記ラベル列からクエリのグラフを生成させ、前記部分コンフュージョンネットワークと前記クエリのグラフとの間でインターセクションを計算させることにより、前記ラベル列と前記音声データベースの両方に含まれる音声データを検索させる第12音声データ検索プログラムコードと、
前記コンピュータに対して、前記検索された音声データが記憶された前記音声データベース内のアドレスを示すポインタのリストを出力させる第13音声データ検索プログラムコードと、
を備えることを特徴とする音声データ検索プログラム。 - コンピュータが読み取り可能な音声データ検索プログラムを内蔵する前記コンピュータが使用可能な記録媒体であって、前記音声データ検索プログラムは、
コンピュータに対して、複数の音声データを記憶した音声データベースから音声データを読み出させる第1音声データ検索プログラムコードと、
前記コンピュータに対して、前記読み出された音声データに対して音声認識処理を実行させる第2音声データ検索プログラムコードと、
前記コンピュータに対して、音声認識処理の結果を、音素、音節、又は単語を基本単位とするラティスとして出力させる第3音声データ検索プログラムコードと、
前記コンピュータに対して、前記出力されたラティスに基づいてコンフュージョンネットワークを生成させる第4音声データ検索プログラムコードと、
前記コンピュータに対して、前記音声認識処理の結果を前記コンフュージョンネットワークとして出力させる第5音声データ検索プログラムコードと、
前記コンピュータに対して、前記出力されたコンフュージョンネットワークに基づいて転置索引テーブルを生成させる第6音声データ検索プログラムコードと、
前記コンピュータに対して、ユーザにより入力されたクエリを受け付けさせる第7音声データ検索プログラムコードと、
前記コンピュータに対して、前記受け付けたクエリに対して音声認識処理を実行させる第8音声データ検索プログラムコードと、
前記コンピュータに対して、音声認識処理の結果を文字列として出力させる第9音声データ検索プログラムコードと、
前記コンピュータに対して、前記出力された文字列を、音素、音節、又は単語を基本単位とするラベル列に変換させる第10音声データ検索プログラムコードと、
前記コンピュータに対して、前記ラベル列を前記転置索引テーブルと照合させる第11音声データ検索プログラムコードと、
前記コンピュータに対して、前記転置索引テーブルに基づいて、前記ラベル列に含まれるラベルを有するアークのみからなる部分コンフュージョンネットワークを生成させ、前記ラベル列からクエリのグラフを生成させ、前記部分コンフュージョンネットワークと前記クエリのグラフとの間でインターセクションを計算させることにより、前記ラベル列と前記音声データベースの両方に含まれる音声データを検索させる第12音声データ検索プログラムコードと、
前記コンピュータに対して、前記検索された音声データが記憶された前記音声データベース内のアドレスを示すポインタのリストを出力させる第13音声データ検索プログラムコードと、
を備えることを特徴とする記録媒体。 - 複数の音声データを記憶する音声データベースと、
2つ以上の音声認識部と、
各音声認識部は、前記音声データベースから音声データを読み出し、前記読み出された音声データに対して音声認識処理を実行して、前記音声認識処理の結果を、音素、音節、又は単語を基本単位とするラティスとして出力し、
ある音声認識部から出力されるあるラティスの基本単位は、他の音声認識部から出力される他のラティスの基本単位とは異なり、
前記2つ以上の音声認識部にそれぞれ接続された2つ以上のコンフュージョンネットワーク生成部と、
各コンフュージョンネットワーク生成部は、前記各音声認識部から出力されたラティスに基づいてコンフュージョンネットワークを生成して、前記音声認識処理の結果を前記コンフュージョンネットワークとして出力し、
前記2つ以上のコンフュージョンネットワーク生成部から出力されたコンフュージョンネットワークを結合して、結合ネットワーク生成し、前記結合ネットワークを出力するコンフュージョンネットワーク結合部と、
前記コンフュージョンネットワーク結合部から出力された結合ネットワークに基づいて転置索引テーブルを生成する転置索引テーブル生成部と、
ユーザにより入力されたクエリを受け付けて、前記受け付けたクエリに対して音声認識処理を実行して、音声認識処理の結果を文字列として出力するクエリ入力部と、
前記クエリ入力部から出力された文字列を、音素、音節、及び単語のうち2つ以上を基本単位とするラベル列に変換するクエリ変換部と、
前記クエリ変換部から読み出したラベル列を前記転置索引テーブル生成部から読み出した転置索引テーブルと照合して、前記ラベル列と前記音声データベースの両方に含まれる音声データを検索して、前記検索された音声データが記憶された前記音声データベース内のアドレスを示すポインタのリストを出力するラベル列照合部と、
を備え、
前記ラベル列照合部は、前記転置索引テーブルに基づいて、前記ラベル列に含まれるラベルを有するアークのみからなる部分コンフュージョンネットワークを生成し、前記ラベル列からクエリのグラフを生成し、前記部分コンフュージョンネットワークと前記クエリのグラフとの間でインターセクションを計算することを特徴とする音声データ検索装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US91173107P | 2007-04-13 | 2007-04-13 | |
US60/911,731 | 2007-04-13 | ||
PCT/JP2008/057554 WO2008130018A1 (en) | 2007-04-13 | 2008-04-11 | Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010522923A JP2010522923A (ja) | 2010-07-08 |
JP5235210B2 true JP5235210B2 (ja) | 2013-07-10 |
Family
ID=39651247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010500522A Active JP5235210B2 (ja) | 2007-04-13 | 2008-04-11 | 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8386264B2 (ja) |
EP (1) | EP2137641B1 (ja) |
JP (1) | JP5235210B2 (ja) |
CN (1) | CN101647021B (ja) |
WO (1) | WO2008130018A1 (ja) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270344A1 (en) * | 2007-04-30 | 2008-10-30 | Yurick Steven J | Rich media content search engine |
US7983915B2 (en) * | 2007-04-30 | 2011-07-19 | Sonic Foundry, Inc. | Audio content search engine |
US20080270110A1 (en) * | 2007-04-30 | 2008-10-30 | Yurick Steven J | Automatic speech recognition with textual content input |
EP2522012A1 (en) * | 2010-05-27 | 2012-11-14 | Nuance Communications, Inc. | Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition |
US8880399B2 (en) * | 2010-09-27 | 2014-11-04 | Rosetta Stone, Ltd. | Utterance verification and pronunciation scoring by lattice transduction |
US9600565B2 (en) * | 2010-10-15 | 2017-03-21 | Nec Corporation | Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium |
CN102122506B (zh) * | 2011-03-08 | 2013-07-31 | 天脉聚源(北京)传媒科技有限公司 | 一种语音识别的方法 |
WO2013043165A1 (en) * | 2011-09-21 | 2013-03-28 | Nuance Communications, Inc. | Efficient incremental modification of optimized finite-state transducers (fsts) for use in speech applications |
US9081578B1 (en) * | 2011-10-04 | 2015-07-14 | Amazon Technologies, Inc. | System and method for graph conditioning with non-overlapping orderable values for efficient graph evaluation |
CN102521262A (zh) * | 2011-11-21 | 2012-06-27 | 广东国笔科技股份有限公司 | 实现语音智能索引的数据处理设备、系统及方法 |
JP5679345B2 (ja) * | 2012-02-22 | 2015-03-04 | 日本電信電話株式会社 | 音声認識精度推定装置、音声認識精度推定方法、プログラム |
JP5679346B2 (ja) * | 2012-02-22 | 2015-03-04 | 日本電信電話株式会社 | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム |
US8832108B1 (en) * | 2012-03-28 | 2014-09-09 | Emc Corporation | Method and system for classifying documents that have different scales |
US8595235B1 (en) * | 2012-03-28 | 2013-11-26 | Emc Corporation | Method and system for using OCR data for grouping and classifying documents |
US9069768B1 (en) * | 2012-03-28 | 2015-06-30 | Emc Corporation | Method and system for creating subgroups of documents using optical character recognition data |
US8843494B1 (en) * | 2012-03-28 | 2014-09-23 | Emc Corporation | Method and system for using keywords to merge document clusters |
US9396540B1 (en) | 2012-03-28 | 2016-07-19 | Emc Corporation | Method and system for identifying anchors for fields using optical character recognition data |
JP5526209B2 (ja) * | 2012-10-09 | 2014-06-18 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
US8972243B1 (en) * | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
CN103354089B (zh) * | 2013-06-25 | 2015-10-28 | 天津三星通信技术研究有限公司 | 一种语音通信管理方法及其装置 |
JP6193736B2 (ja) * | 2013-11-15 | 2017-09-06 | 日本電信電話株式会社 | 同音異義語除去方法と複合語除去方法と同音異義語・複合語除去方法とそれらの装置とプログラム |
CN104142974B (zh) * | 2014-01-20 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 一种语音文件查询方法和装置 |
US9727548B2 (en) | 2014-02-28 | 2017-08-08 | Ricoh Company, Ltd. | Cloud service for hospital form auto filling system |
US20150248391A1 (en) * | 2014-02-28 | 2015-09-03 | Ricoh Company, Ltd. | Form auto-filling using a mobile device |
US9196243B2 (en) | 2014-03-31 | 2015-11-24 | International Business Machines Corporation | Method and system for efficient spoken term detection using confusion networks |
JP6400936B2 (ja) * | 2014-04-21 | 2018-10-03 | シノイースト・コンセプト・リミテッド | 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム |
KR102117082B1 (ko) * | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9384188B1 (en) * | 2015-01-27 | 2016-07-05 | Microsoft Technology Licensing, Llc | Transcription correction using multi-token structures |
US10019514B2 (en) * | 2015-03-19 | 2018-07-10 | Nice Ltd. | System and method for phonetic search over speech recordings |
TWI607325B (zh) * | 2016-07-21 | 2017-12-01 | 虹光精密工業股份有限公司 | 檢索索引產生方法及應用此方法之伺服器 |
JP6585022B2 (ja) * | 2016-11-11 | 2019-10-02 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
JP6852167B2 (ja) * | 2017-09-04 | 2021-03-31 | 日本電信電話株式会社 | コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム |
CN109903758B (zh) | 2017-12-08 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 音频处理方法、装置及终端设备 |
CN108415898B (zh) * | 2018-01-19 | 2021-09-24 | 思必驰科技股份有限公司 | 深度学习语言模型的词图重打分方法和系统 |
US11276390B2 (en) * | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
JP7009338B2 (ja) * | 2018-09-20 | 2022-01-25 | Tvs Regza株式会社 | 情報処理装置、情報処理システム、および映像装置 |
JP7014142B2 (ja) * | 2018-11-30 | 2022-02-01 | 日本電信電話株式会社 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
CN109902100A (zh) * | 2019-01-31 | 2019-06-18 | 平安科技(深圳)有限公司 | 报表查询方法、装置及存储介质 |
US11145296B1 (en) * | 2019-03-25 | 2021-10-12 | Amazon Technologies, Inc. | Language and grammar model adaptation |
US20240202234A1 (en) * | 2021-06-23 | 2024-06-20 | Sri International | Keyword variation for querying foreign language audio recordings |
WO2023209857A1 (ja) * | 2022-04-27 | 2023-11-02 | ファナック株式会社 | 機械動作指令プログラム検索装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6198479B1 (en) * | 1997-06-25 | 2001-03-06 | Samsung Electronics Co., Ltd | Home network, browser based, command and control |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6615172B1 (en) * | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US7904296B2 (en) * | 2003-07-23 | 2011-03-08 | Nexidia Inc. | Spoken word spotting queries |
US7912699B1 (en) * | 2004-08-23 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
US8150872B2 (en) * | 2005-01-24 | 2012-04-03 | The Intellection Group, Inc. | Multimodal natural language query system for processing and analyzing voice and proximity-based queries |
US7634407B2 (en) | 2005-05-20 | 2009-12-15 | Microsoft Corporation | Method and apparatus for indexing speech |
US7809568B2 (en) * | 2005-11-08 | 2010-10-05 | Microsoft Corporation | Indexing and searching speech with text meta-data |
-
2008
- 2008-04-11 JP JP2010500522A patent/JP5235210B2/ja active Active
- 2008-04-11 CN CN2008800107285A patent/CN101647021B/zh active Active
- 2008-04-11 EP EP08740611.2A patent/EP2137641B1/en active Active
- 2008-04-11 US US12/593,636 patent/US8386264B2/en active Active
- 2008-04-11 WO PCT/JP2008/057554 patent/WO2008130018A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US8386264B2 (en) | 2013-02-26 |
CN101647021B (zh) | 2013-03-27 |
CN101647021A (zh) | 2010-02-10 |
EP2137641A1 (en) | 2009-12-30 |
US20100121642A1 (en) | 2010-05-13 |
JP2010522923A (ja) | 2010-07-08 |
WO2008130018A1 (en) | 2008-10-30 |
EP2137641B1 (en) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5235210B2 (ja) | 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体 | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
JP4887264B2 (ja) | 音声データ検索システム | |
US7634407B2 (en) | Method and apparatus for indexing speech | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
JP2002063199A (ja) | インデックス方法及び装置 | |
WO2004034378A1 (ja) | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 | |
JPWO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
JP5740368B2 (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP5360414B2 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
JP5436307B2 (ja) | 類似文書検索装置 | |
JP3950957B2 (ja) | 言語処理装置および方法 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
KR101072890B1 (ko) | 데이터베이스 정제 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법 | |
JP2022067223A (ja) | 生成装置および生成方法 | |
Pilar | Knowledge-driven subword grammar modeling for automatic speech recognition in tamil and kannada | |
Arora et al. | An investigative study of multi-modal cross-lingual retrieval | |
JP2008242607A (ja) | 言語処理結果から妥当な候補を選択する装置、方法およびプログラム | |
JP4511274B2 (ja) | 音声データ検索装置 | |
JP2006084942A (ja) | 変換情報生成方法、音素系列生成方法、音声認識方法、ならびにこれらの装置、及びプログラム | |
JP5679345B2 (ja) | 音声認識精度推定装置、音声認識精度推定方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120509 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5235210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |