JP2000267693A - 音声処理装置及び索引作成装置 - Google Patents

音声処理装置及び索引作成装置

Info

Publication number
JP2000267693A
JP2000267693A JP11067056A JP6705699A JP2000267693A JP 2000267693 A JP2000267693 A JP 2000267693A JP 11067056 A JP11067056 A JP 11067056A JP 6705699 A JP6705699 A JP 6705699A JP 2000267693 A JP2000267693 A JP 2000267693A
Authority
JP
Japan
Prior art keywords
syllables
phonemes
syllable
graph
directed graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11067056A
Other languages
English (en)
Inventor
Nobuyuki Saito
伸行 斎藤
Takeshi Mizunashi
豪 水梨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP11067056A priority Critical patent/JP2000267693A/ja
Publication of JP2000267693A publication Critical patent/JP2000267693A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声データから音素や音節等の候補を精度よ
く抽出する音声処理装置及び索引作成装置を提供する。 【解決手段】 音声認識処理の結果として、音素や音節
を単位とする第1の有向グラフと、単語を単位とする第
2の有向グラフを作成する。音素や音節の列と単語との
間の対応によって2つの有向グラフ間には写像関係が構
成される。音素や音節のレベルでの認識結果は単語のレ
ベルでの認識結果に比べて曖昧性が大きいので、音素や
音節の有向グラフの上には単語との対応関係のない候補
が多数存在する。対応関係のある候補だけを抽出するこ
とで、正解確率の高い音素や音節を効率的に選択する。
他方、単語との対応関係がない音素や音節であっても、
正しい候補の一部分になっていることがある。この場合
には、未登録語の近辺において音響的な尤度は高いにも
拘らず言語的な尤度は低いという現象を利用して、対応
関係のない音素や音節の中からも正解確率の高い候補を
抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の音声データ
からなる音声データベースの中から所望の音声データを
探し出す音声検索技術に係り、特に、音声検索に使用す
る索引の作成に適用可能な音声処理装置及び索引作成装
置に関する。更に詳しくは、本発明は、音声データに含
まれる音素や音節・単語などの出現頻度を的確に計算し
て、出現頻度に基づいて音声データの検索を正確且つ確
実に行なう音声処理装置及び音声データ検索装置に関す
る。
【0002】
【従来の技術】昨今の情報処理技術の発展に伴い、高機
能で且つ強力な演算能力を持つ汎用コンピュータ・シス
テムが、各種研究機関や企業内のオフィス、一般家庭へ
と広汎に普及してきている。また、コンピュータの適用
業務分野も拡大し、テキスト・データのみならず、画像
(静止画と動画の双方を含む)や音声など、様々のデー
タが電子化されコンピュータ上で扱われるようになって
きた。
【0003】特に最近では、キーボードを介したキャラ
クタ入力やマウスを介した指示座標入力に代わって、音
声によるコンピュータ入力を実現する音声入力や音声認
識に関する技術の開発や関連製品の発表が盛んになされ
ている。また、膨大サイズの音声データを扱うことに伴
ない、複数の音声データからなる音声データベースの中
から所望の音声データを検索する「音声データ検索」に
対する要望も高まってきている。
【0004】音声データベースの中から所望の音声デー
タを探し出すためには音声データベースへの索引付けを
行なう必要がある。しかしながら、この索引付け作業に
要するコストの高さが、音声検索分野において重要な問
題となっている。いわゆる音声認識技術を用いて音声デ
ータから音素や音節・単語等の候補を抽出し、これら候
補を基に索引を作るという方法は、大量のデータを自動
的に処理できるので、この索引付けの問題に対する有望
なアプローチと言える。
【0005】現在の音声認識技術には、認識可能な語彙
数が限られていたり、認識誤りを完全に回避することは
困難であるなど、幾つかの限界がある。このため、ただ
単に音声認識技術を用いて音声データからテキスト・デ
ータを書き起こしたならば、テキスト・データから抽出
した音素や音節・単語等の中に正解が含まれていない、
あるいは、誤った候補が混じっている、といった問題が
起こり得る。但し、これらの問題は、音声認識技術の特
性を充分に考慮し、適切な候補の抽出方法を工夫するこ
とで解消することができるし、また、索引の精度に及ぼ
す悪影響を抑制することができるであろう。
【0006】従来から、音声データベースに対する検索
用の索引を作ることを目的として、音声データを認識し
音素や音節・単語等の列を抽出する方法が幾つか提案さ
れている。
【0007】例えば、特開平7−219957号公報に
は、音声を認識して音素列を求め、これを形態素解析し
て名詞等のキーワードを取り出す方法が開示されてい
る。
【0008】また、A.G.Hauptmann外著
の”Experiments ininformati
on retrieval from spoken
documents”(DARPA Broadcas
t news transcription and
understanding workshop,19
98)には、正解候補の抽出漏れを減らすために、複数
の単語列(N−best解)を認識結果として導出する
方法を試み、その有効性を確認した旨が記述されてい
る。
【0009】また、K.Ng外著の”Phonetic
recognition forspoken do
cument retrieval”(ICASSP,
pp325−328, 1998)は、未登録語に対す
る検索要求にも対応できるように、認識結果として音素
列を求め、そこから音素列(tri−phone)を抽
出する方法を提案している。
【0010】音声データから音素や音節・単語等の候補
を精度よく抽出するためには、正しい候補を漏れなく検
出しつつ余計な候補の湧き出しは抑えるという、一見し
て相反する条件の双方を満足する手法を用いる必要があ
る。
【0011】未登録語や認識誤りの存在が不可避である
ことを考慮すると、音素や音節といった単語以下の単位
で索引を作成する方法は、単語を構成する音素や音節を
全て認識できなくても検索ができるという点で、単語を
単位として索引を作成する方法に比べて有利である。そ
の反面、正しい単語を抽出できる場合には、単語以下を
単位として検索する方法は、単語を単位とする方法より
も検索の速度や精度の点で劣ってしまうであろう。上記
した従来の方法はいずれも、このような問題を充分に解
決できるものではなかった。
【0012】特開平7−219957号公報に開示され
た方法では、音素列をまず求めて、これを形態素解析し
てキーワードを取り出すという手法を取っている。この
ために、音素列推定と形態素解析を同時に行う手法に比
べて音素列に誤りが生じ易い。また、認識誤りを補償す
る手段も持ち合わせていないので、結果としてキーワー
ドの抽出漏れを多数生じさせてしまう。
【0013】また、A.G.Hauptmann外著に
よる上記の方法では、単語を単位として索引を作成して
いるために、未登録語の問題には原理的に対処すること
ができない。さらに、N−Best解から候補を抽出す
る方法であるが故に、音声データの長さに応じて”N”
の値を増やさないと正解候補を検出するのが難しい。逆
に、”N”を増やすと、重複した候補が多数生成され
て、計算量が膨大になってしまう。
【0014】また、K.Ng外著による上記の方法で
は、tri−phoneを単位として索引を作成してい
るので、単語を単位とする場合と比べて登録語に対する
検索性能が劣るという問題がある。
【0015】
【発明が解決しようとする課題】本発明は上記従来の事
情を考慮してなされたもので、音声データから音素や音
節等の候補を精度よく抽出することができる音声処理装
置及び索引作成装置を提供することを目的とする。
【0016】また、本発明は、音素や音節と併せて単語
の単位でも候補を抽出することで、上記索引の単位に関
する問題を解決することができる音声処理装置及び索引
作成装置を提供することも目的とする。
【0017】また、本発明は、高性能の音声検索を実現
するために必要な、精度の高い索引を作成することがで
きる音声処理装置及び索引作成装置を提供することを目
的とする。
【0018】
【課題を解決するための手段】本発明は、上記課題を参
酌してなされたものであり、その第1の側面は、音声を
認識して音素や音節の列を出力する音声処理装置であっ
て、(a)音素や音節を単位とする第1の有向グラフを
作成する手段と、(b)単語を単位とする第2の有向グ
ラフを作成する手段と、(c)第1及び第2の有向グラ
フ間の写像関係を求める手段と、(d)写像関係を基に
第1の有向グラフを変更する手段と、(e)変更された
第1の有向グラフから音素や音節の列を抽出する手段
と、(f)抽出結果を出力する手段と、を具備すること
を特徴とする音声処理装置である。
【0019】本発明の第1の側面に係る音声処理装置に
おいて、前記変更する手段(d)は、音素や音節の認識
尤度に基づいて音素や音節の有向グラフを拡大する手段
を含んでいてもよい。
【0020】また、本発明の第2の側面は、音声を認識
して音素や音節及び単語の列を出力する音声処理装置で
あって、(a)音素や音節を単位とする第1の有向グラ
フを作成する手段と、(b)単語を単位とする第2の有
向グラフを作成する手段と、(c)第1及び第2の有向
グラフ間の写像関係を求める手段と、(d)写像関係と
音素や音節の認識尤度を基に第1及び第2の有向グラフ
を変更する手段と、(e)変更された各有向グラフから
音素や音節および単語の列を抽出する手段と、(f)抽
出結果を出力する手段と、を具備することを特徴とする
音声処理装置である。
【0021】また、本発明の第3の側面は、音声検索の
ための索引を作成する索引作成装置であって、(a)音
素や音節を単位とする第1の有向グラフを作成する手段
と、(b)単語を単位とする第2の有向グラフを作成す
る手段と、(c)第1及び第2の有向グラフ間の写像関
係を求める手段と、(d)写像関係を基に第1の有向グ
ラフを変更する手段と、(e)変更された第1の有向グ
ラフから音素や音節の列を抽出する手段と、(f)抽出
結果を出力する手段とを備え、前記抽出する手段(e)
はさらに音素や音節の列の出現位置、又は所定の区間内
での出現頻度を算出し、前記出力する手段(f)は音声
に対する索引を出力する、ことを特徴とする索引作成装
置である。
【0022】また、本発明の第4の側面は、音声検索の
ための索引を作成する索引作成装置であって、(a)音
素や音節を単位とする第1の有向グラフを作成する手段
と、(b)単語を単位とする第2の有向グラフを作成す
る手段と、(c)第1及び第2の有向グラフ間の写像関
係を求める手段と、(d)写像関係と音素や音節の認識
尤度を基に第1及び第2の有向グラフを変更する手段
と、(e)変更された各有向グラフから音素や音節およ
び単語の列を抽出する手段と、(f)抽出結果を出力す
る手段とを備え、前記抽出する手段(e)はさらに音素
や音節及び単語等の列の出現位置、又は所定の区間内で
の出現頻度を算出し、前記出力する手段(f)は音声に
対する索引を出力する、ことを特徴とする索引作成装置
である。
【0023】
【作用】本発明では、音声認識の結果を有向グラフ型の
データ構造を用いて表現する。ここでは、まず、有向グ
ラフについて簡単に説明することにする。
【0024】図1は、有向グラフの一例として、音節の
認識候補系列を表現した有向グラフを示したものであ
る。一般に、グラフは、ノード(すなわち接点)の集合
と、2つのノードを結ぶアーク(すなわち枝)の集合と
して定義される。図1に示すように各アークが向きを有
するもののことを、特に「有向グラフ」と呼ぶ。
【0025】音声認識処理の結果として有向グラフ型の
データ構造を用いる場合には、通常、ノードは、時刻又
は時刻と状態を1組とした属性を有する。また、アーク
は、認識候補の音素、音節、単語等を示すラベル(o,
mo,si,ro,i,無音を表す#など)と、その尤
度(すなわち確からしさ)という属性を持つ。
【0026】アークの始点を表すノードのことをそのア
ークの「インノード」と呼び、アークの終点を表すノー
ドのことをそのアークの「アウトノード」と呼ぶ。ま
た、発話開始時刻のノードのことを「開始ノード」と呼
び、発話終了時刻のノードのことを「終了ノード」と呼
ぶ。
【0027】図1に示すような有向グラフでは、隣り合
ったアークどうしをアークの向きに従って連結していく
ことで、ノードとノードを結ぶ経路(パス)を考えるこ
とができる。有向グラフが音声認識処理の結果を表して
いる場合には、1つのパスには認識候補の系列、この系
列に対する累積尤度(そのパス上にあるアークの尤度の
和)、及び、この系列がいつからいつまで存在するとい
うデータが、アークとノードが持つ属性に従って、一意
に対応する。
【0028】特に、開始ノードと終了ノードを結ぶパス
は1つの音声認識結果を表すものとして重要である。こ
のようなパスが複数存在する場合には、各パスを累積尤
度により順序付けることで、対応する音素、音節、単語
等の認識候補系列の中から認識結果として妥当なものを
求めることができる。
【0029】なお、有向グラフの特殊な形態として、グ
ラフがツリー状であることもある。このようなツリー状
の有向グラフでは、異なったアークが共通のアウトノー
ドを持たない構造となっている。また、有向グラフの他
の特殊な場合として、開始ノードと終了ノードを結ぶパ
スが一つしかないということもある。
【0030】有向グラフ型のデータ構造は、莫大な数の
音素、音節、単語等の認識候補の系列をコンパクトに表
現できる、という特徴を持っている。したがって、この
ような有向グラフ型のデータ構造を利用することで、正
解候補の抽出漏れを減らし、さらに、同じ候補を重複し
て数え上げるという無駄も抑えることができる。
【0031】なお、本出願人に既に譲渡されている特開
平8−202384号公報(発明の名称:「音声認識方
法および装置」)や、H.Ney及びX.Aubert
共著の論文”A word graph algori
thm for largevocabulary,
continuous speech recogni
tion”(ICSLP, pp1355−1358,
1994)などには、有向グラフを作成する具体的な
アルゴリズムが記載されている。
【0032】本発明では、有向グラフを、従来の音声認
識技術のように、高次の言語的知識の適用を容易にする
ために、認識処理の途中で作成する一時的なデータ構造
として用いるのではなく、異なったレベルでの認識結果
を対比させるためのツールとして捉えることにした。よ
り具体的には、音素や音節を単位とする第1の有向グラ
フと、単語を単位とする第2の有向グラフとをともに求
める。そして、音素や音節の列と単語との間の対応か
ら、2つの有向グラフの間に写像関係を構成する。有向
グラフの写像関係を用いると、異なった単語を構成して
いる単一の音素や音節を効率的に同定できる、という利
点がある。
【0033】通常、音素や音節のレベルでの認識結果は
単語のレベルでの認識結果に比べて曖昧性が大きいの
で、音素や音節の有向グラフの上には単語との対応関係
のない候補が多数存在する。これら対応関係のない候補
は、単語及びその連鎖に関する言語的な知識との整合性
が悪いために、対応関係を構成できなかったものであ
る。このような性質を逆に利用して、対応関係のある候
補だけを抽出すれば、正解である可能性が高い音素や音
節を効率的に選択することができる。
【0034】他方、単語との対応関係を持たない音素や
音節であっても、それが正しい候補の一部分になってい
ることがある。これは、未登録の単語を含んでいるな
ど、予め用意しておいた言語的な知識では対応できない
音声が発声された場合に起こり易い。このようなケース
は、未登録語の近辺において、音響的な尤度は高いにも
拘らず言語的な尤度は低い、という現象として観測され
る。かかる現象に関する知識を利用することで、対応関
係のない音素や音節の中からも正解確率の高い候補を抽
出することができる。
【0035】音素や音節の有向グラフを用いれば、開始
ノードや終了ノードに至る経路が複数存在するときに、
最初にどのアークを通ると尤度は最大でどれだけになる
かという情報を、各ノードに対して予め計算して備えて
おくことができる。このような情報を参照して、対応関
係がある音素や音節だけから構成される有向グラフ上の
各ノードから対応関係のない音素や音節からなる経路を
辿ることができれば、その経路上にある音素や音節は未
登録語を構成している可能性が高いと言える。したがっ
て、この新しい経路の上にある音素や音節も候補として
抽出することで、未登録語があると推測される区間から
も候補を適切に抽出することができる。
【0036】また、新しい経路が辿ることのなかった領
域は、言語的な知識との不整合がない領域であるとも考
えられる。そのような領域では、音素や音節の代わりに
単語を候補として抽出しておくと、より検索能力の高い
索引を作成できるようになる。
【0037】なお、有向グラフ上の各ノードには、時刻
を表す情報が付与されている。したがって、候補を抽出
する際に、アークのインノードとアウトノードを参照す
れば、候補の種類だけでなく、その出現時間帯も併せて
求めることができる。また、さらに所定の区間内で統計
を取れば、候補の出現頻度を算出することも可能であ
る。これら候補の出現位置や出現頻度の値は、音声検索
のための索引を構成するのに充分な情報を提供するであ
ろう。
【0038】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施例や添付する図面に基づくより詳
細な説明によって明らかになるであろう。
【0039】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施例を詳解する。
【0040】図2には、本発明の第1の実施例に係る音
声処理装置10の構成を模式的に示している。この音声
処理装置10は、音節グラフと単語グラフを用いて音節
候補集合を抽出するものであるが、音声信号を入力する
ための入力部1と、入力部1からの音声信号を分析して
特徴パラメータ系列を得る音響分析部2と、音響分析部
2からの特徴パラメータ系列を音節の認識候補系列とし
て認識して認識結果を有向グラフ型のデータ構造として
出力する音節グラフ作成部3と、音節グラフ作成部3か
ら出力された音節グラフの中にある音節列を単語の認識
候補系列として認識して認識結果を有向グラフ型のデー
タ構造として出力する単語グラフ作成部4と、音節グラ
フと単語グラフとの間の写像関係を求める写像部5と、
この写像関係に基づいて音節グラフを変更する音節グラ
フ変更部6と、変更された音節グラフから音素や音節の
列を抽出する音節列抽出部7と、抽出部7の結果を出力
する結果出力部(図示しない)とで構成される。
【0041】入力部1、及び図示しない結果出力部は、
いわゆるユーザ・インターフェースであり、キーボード
やマウスなどの入力装置と、CRT(Cathode
Ray Tube)ディスプレイなどの出力装置で構成
される。
【0042】音響分析部2は、入力された音声信号を分
析して特徴パラメータ系列を得るための機能モジュール
である。例えば線形予測分析法やフーリエ分析法などの
公知の手法を用いて音声信号を周波数分析し、短時間ス
ペクトルの時系列に変換する。次いで、スペクトルの時
間変化量、あるいは、さらに時間変化量の時間変化量な
どを計算し、これらを統合して音声の特徴パラメータ系
列を作成する。
【0043】音節グラフ作成部3は、音響分析部2から
受け取った特徴パラメータ系列を音節の認識候補系列と
して認識して認識結果を有向グラフ型のデータ構造とし
て出力するための機能モジュールである。例えば、隠れ
マルコフ・モデルや音節N−gramなどの音節及び音
節の連鎖に関する音声のモデルを参照して、特徴パラメ
ータ系列を音節の列として認識し、その結果を音節グラ
フとして出力する。なお、特開平8−202384号公
報(前述)に開示されたグラフ作成アルゴリズムを用い
る場合には、音節列の候補がツリー状に発展しながら、
枝の共通化と刈り込みによって整形する、という手順の
繰り返しにより音節グラフが作成される。
【0044】ここで、音節グラフ作成部3によって作成
された音節グラフのデータ構造について簡単に説明して
おく。この音節グラフは、総アーク数(numAcr
s)および総ノード数(numNodes)と、アーク
及びノードの各々の属性に関して以下の[数1]及び
[数2]に示すような情報を保持している。すなわち、
【0045】
【数1】
【0046】
【数2】
【0047】[数1]に示した式は、アークの属性情報
が、アークID、音節名及び認識尤度、そのアークのイ
ンノードとアウトノードで構成されることを意味する。
また、[数2]に示した式は、ノードの属性情報が、ノ
ードID、時刻、左側のアークの数とID及び開始ノー
ドまでの最尤経路の尤度、右側のアークの数とID及び
終了ノードまでの最尤経路の尤度で構成されることを意
味する。
【0048】単語グラフ作成部4は、音節グラフ作成部
3から出力された音節グラフの中にある音節列を単語の
認識候補系列として認識して認識結果を有向グラフ型の
データ構造として出力する機能モジュールである。すな
わち、単語グラフ作成部4は、作成された音節グラフを
読み込んで、単語辞書や単語N−gramといった単語
及び単語の連鎖に関する音声のモデルを参照して、音節
グラフの中に含まれる音節列を単語の列として認識し、
その結果を単語グラフとして出力する。単語グラフは、
例えば以下の手順に従って作成される。
【0049】(ステップ1)未展開のノードの集合を保
持するスタックを作成して、音節グラフの開始ノードを
挿入する。また、単語の集合を保持する領域を確保す
る。 (ステップ2)スタックの中から、時刻の値が最小のノ
ードを取り出す。 (ステップ3)音節列のツリーで表現された単語辞書を
参照して、スタックから取り出したノードを出発点とす
る単語を全て求めて、各単語の名前と対応する音節グラ
フ上の経路からなる2項組を単語集合に加えるととも
に、単語が終了する音節グラフ上のノードをスタックに
戻す。 (ステップ4)スタックにノードが残っていれば、ノー
ドの重複をなくし、ステップ2に戻る。 (ステップ5)単語集合から単語グラフを作成する。 (ステップ6)単語N−gramを使ってアークを枝刈
りして、言語的に不適当な単語列をグラフから削除す
る。
【0050】写像部5は、単語グラフ作成部4が求め
た、各単語に対応する音節グラフ上の経路に関する情報
を用いて、音節グラフと単語グラフとの間の写像関係を
求める。但し、単語グラフから音節グラフへの写像は既
に求められているので、ここでは音節グラフから単語グ
ラフへの写像だけを求めればよい。先述した経路に関す
る情報を用いて、各音節アークに対応関係のある単語ア
ークを数え上げることで、音声グラフから単語グラフへ
の写像を計算することができる。
【0051】音節グラフ変更部6が、音節グラフ上のア
ークの中から単語グラフへの対応関係のないアークを削
除する。最後に、抽出部7が、小さくなった音節グラフ
の中から連続するN個の音節列を取り出す(但し、Nは
1以上の整数)。
【0052】なお、単語グラフへの対応関係がない音節
グラフ上のアークであっても、削除せずに残すことで、
未登録語を構成する音節列等を抽出できるようにするこ
とがある。これは、[数2]で示した属性情報、すなわ
ち、グラフ上のノードに保持されている開始ノードや終
了ノードまでの最尤経路の尤度に関する属性情報を用い
ることで、比較的簡単に実行できる。以下に、終了ノー
ドまでの尤度情報を用いて音節列等を抽出するための実
行手順を示す。
【0053】(ステップ1)未展開のノードの集合を保
持するスタックを作成して、対応関係のないアークを削
除して得た音節グラフの上にあるノードを全てこのスタ
ックに挿入する。また、音節アークの集合を保持する領
域を確保する。 (ステップ2)スタックの中から、時刻の値が最小のノ
ードを取り出す。 (ステップ3)アークを削除して得た音節グラフについ
て、スタックから取り出したノードの右側にあるアーク
に注目して、終了ノードまでの最尤経路が最も高い経路
の尤度を選択する。 (ステップ4)アークを削除する前の音節グラフについ
て、スタックから取り出したノードの右側にあるアーク
に注目して、そのアークが単語アークへの対応関係を持
たず且つ終了ノードまでの最尤経路がステップ3で求め
た値よりも大きければ、そのアークを音節アーク集合に
加えるとともに、アークのアウトノードをスタックに戻
す。 (ステップ5)スタックにノードが残っていれば、ノー
ドの重複をなくし、ステップ2に戻る。 (ステップ6)アークを削除して得た音節グラフに音節
アーク集合中のアークを加える。
【0054】音節とともに単語の候補も抽出する場合に
は、音節グラフと単語グラフの双方について新たにアー
クを削減する処理を行う。これは、先の音節アーク集合
中のアークについて、その存在区間に関する分布を計算
し、分布が疎な領域を見出すことで、実行することがで
きる。すなわち、音節グラフについては、分布が疎な領
域にある音節アークを、単語グラフについては、分布が
疎でない領域にある単語アークを、夫々削除することに
すれば、未登録語等があると推測される区間では音節列
を、そうでない区間では単語を候補として抽出すること
ができる。
【0055】さらに、候補の種類だけでなくその出現位
置や出現頻度も抽出し、音声検索用の索引を作成する場
合には、候補のアークの端にあるノードの時刻に関する
情報を参照する。候補の出現位置を表した索引は、この
時刻を候補毎にまとめて保持させることで作成できる。
また、候補の出現頻度を表した索引は、候補が所定の区
間内にある回数を数え、これをその区間内にある候補の
数で規格化すればよい。
【0056】なお、本実施例では音節グラフを特開平8
−202384号公報(前述)に開示された方法に基づ
いて作成しているが、勿論、他の方法を使用してグラフ
を作成することもできる。
【0057】また、本実施例では音節グラフを基に単語
グラフを作成しているが、図3に示す音声処理装置10
−2のように、グラフ作成アルゴリズムによって音節グ
ラフと単語グラフの双方を特徴パラメータから直接的に
作成するようにしてもよい。この場合、単語を構成する
音節が全て音節グラフの中に現れるとは限らなくなる
が、音節グラフ変更部6において、欠失している音節の
アークを音節グラフに追加する処理を加えればよい。な
お、音声処理装置10−2を構成する各ブロックの構成
及び動作特性は、図2中において夫々に対応するブロッ
クと略同一なので、ここでは説明を省略する。
【0058】[追補]以上、特定の実施例を参照しなが
ら、本発明について詳解してきた。しかしながら、本発
明の要旨を逸脱しない範囲で当業者が該実施例の修正や
代用を成し得ることは自明である。すなわち、例示とい
う形態で本発明を開示してきたのであり、限定的に解釈
されるべきではない。本発明の要旨を判断するために
は、冒頭に記載した特許請求の範囲の欄を参酌すべきで
ある。
【0059】
【発明の効果】以上詳記したように、本発明によれば、
音声データから音素や音節等の候補を精度よく抽出する
ことができる、優れた音声処理装置及び索引作成装置を
提供することができる。
【0060】また、本発明によれば、音素や音節と併せ
て単語の単位でも候補を抽出することで、上記索引の単
位に関する問題を解決することができる、優れた音声処
理装置及び索引作成装置を提供することができる。
【0061】また、本発明によれば、高性能の音声検索
を実現するために必要な、精度の高い索引を作成するこ
とができる、優れた音声処理装置及び索引作成装置を提
供することができる。
【図面の簡単な説明】
【図1】 音節有向グラフの一例を示す概念図である。
【図2】 本発明の一実施例に係る音声認識装置10の
構成図である。
【図3】 本発明の他の実施例に係る音声認識装置10
−2の構成図である。
【符号の説明】
1…入力部 2…音響分析部 3…音節グラフ作成部 4…単語グラフ作成部 5…写像部 6…音節グラフ変更部 7…候補抽出部 10…音声処理装置
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND14 PP02 PP03 PP07 PQ02 PR04 PR06 QM08 5D015 HH04 HH15 HH23 9A001 GZ05 HH11 HH17

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】音声を認識して音素や音節の列を出力する
    音声処理装置であって、(a)音素や音節を単位とする
    第1の有向グラフを作成する手段と、(b)単語を単位
    とする第2の有向グラフを作成する手段と、(c)第1
    及び第2の有向グラフ間の写像関係を求める手段と、
    (d)写像関係を基に第1の有向グラフを変更する手段
    と、(e)変更された第1の有向グラフから音素や音節
    の列を抽出する手段と、(f)抽出結果を出力する手段
    と、を具備することを特徴とする音声処理装置。
  2. 【請求項2】前記変更する手段(d)は、音素や音節の
    認識尤度に基づいて音素や音節の有向グラフを拡大する
    手段を含むことを特徴とする請求項1に記載の音声処理
    装置。
  3. 【請求項3】音声を認識して音素や音節及び単語の列を
    出力する音声処理装置であって、(a)音素や音節を単
    位とする第1の有向グラフを作成する手段と、(b)単
    語を単位とする第2の有向グラフを作成する手段と、
    (c)第1及び第2の有向グラフ間の写像関係を求める
    手段と、(d)写像関係と音素や音節の認識尤度を基に
    第1及び第2の有向グラフを変更する手段と、(e)変
    更された各有向グラフから音素や音節および単語の列を
    抽出する手段と、(f)抽出結果を出力する手段と、を
    具備することを特徴とする音声処理装置。
  4. 【請求項4】音声検索のための索引を作成する索引作成
    装置であって、(a)音素や音節を単位とする第1の有
    向グラフを作成する手段と、(b)単語を単位とする第
    2の有向グラフを作成する手段と、(c)第1及び第2
    の有向グラフ間の写像関係を求める手段と、(d)写像
    関係を基に第1の有向グラフを変更する手段と、(e)
    変更された第1の有向グラフから音素や音節の列を抽出
    する手段と、(f)抽出結果を出力する手段とを備え、 前記抽出する手段(e)はさらに音素や音節の列の出現
    位置、又は所定の区間内での出現頻度を算出し、 前記出力する手段(f)は音声に対する索引を出力す
    る、ことを特徴とする索引作成装置。
  5. 【請求項5】音声検索のための索引を作成する索引作成
    装置であって、(a)音素や音節を単位とする第1の有
    向グラフを作成する手段と、(b)単語を単位とする第
    2の有向グラフを作成する手段と、(c)第1及び第2
    の有向グラフ間の写像関係を求める手段と、(d)写像
    関係と音素や音節の認識尤度を基に第1及び第2の有向
    グラフを変更する手段と、(e)変更された各有向グラ
    フから音素や音節および単語の列を抽出する手段と、
    (f)抽出結果を出力する手段とを備え、 前記抽出する手段(e)はさらに音素や音節及び単語等
    の列の出現位置、又は所定の区間内での出現頻度を算出
    し、 前記出力する手段(f)は音声に対する索引を出力す
    る、ことを特徴とする索引作成装置。
JP11067056A 1999-03-12 1999-03-12 音声処理装置及び索引作成装置 Pending JP2000267693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11067056A JP2000267693A (ja) 1999-03-12 1999-03-12 音声処理装置及び索引作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11067056A JP2000267693A (ja) 1999-03-12 1999-03-12 音声処理装置及び索引作成装置

Publications (1)

Publication Number Publication Date
JP2000267693A true JP2000267693A (ja) 2000-09-29

Family

ID=13333813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11067056A Pending JP2000267693A (ja) 1999-03-12 1999-03-12 音声処理装置及び索引作成装置

Country Status (1)

Country Link
JP (1) JP2000267693A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625797B1 (en) * 2000-02-10 2003-09-23 Xilinx, Inc. Means and method for compiling high level software languages into algorithmically equivalent hardware representations
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008262279A (ja) * 2007-04-10 2008-10-30 Mitsubishi Electric Corp 音声検索装置
JP2009518677A (ja) * 2005-12-08 2009-05-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 莫大な語彙を有する音声認識システム
JP2011505027A (ja) * 2008-02-25 2011-02-17 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2011175046A (ja) * 2010-02-23 2011-09-08 Toyohashi Univ Of Technology 音声検索装置および音声検索方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625797B1 (en) * 2000-02-10 2003-09-23 Xilinx, Inc. Means and method for compiling high level software languages into algorithmically equivalent hardware representations
JP2009518677A (ja) * 2005-12-08 2009-05-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 莫大な語彙を有する音声認識システム
US8140336B2 (en) 2005-12-08 2012-03-20 Nuance Communications Austria Gmbh Speech recognition system with huge vocabulary
US8417528B2 (en) 2005-12-08 2013-04-09 Nuance Communications Austria Gmbh Speech recognition system with huge vocabulary
JP2013068970A (ja) * 2005-12-08 2013-04-18 Nuance Communications Austria Gmbh 単語識別方法、単語識別装置、及びコンピュータ可読コード
US8666745B2 (en) 2005-12-08 2014-03-04 Nuance Communications, Inc. Speech recognition system with huge vocabulary
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2008262279A (ja) * 2007-04-10 2008-10-30 Mitsubishi Electric Corp 音声検索装置
JP2011505027A (ja) * 2008-02-25 2011-02-17 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2011175046A (ja) * 2010-02-23 2011-09-08 Toyohashi Univ Of Technology 音声検索装置および音声検索方法

Similar Documents

Publication Publication Date Title
US6456971B1 (en) Systems and methods for determinizing and minimizing a finite state transducer for pattern recognition
US7542966B2 (en) Method and system for retrieving documents with spoken queries
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
CA2539877A1 (en) Dynamic match lattice spotting for indexing speech content
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
Hakkinen et al. N-gram and decision tree based language identification for written words
Hacioglu et al. On lexicon creation for turkish LVCSR.
Nakagawa et al. A robust/fast spoken term detection method based on a syllable n-gram index with a distance metric
Ghannay et al. Acoustic Word Embeddings for ASR Error Detection.
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR20090063546A (ko) 음성인식 장치 및 방법
JPWO2008150003A1 (ja) キーワード抽出モデル学習システム、方法およびプログラム
JP2000267693A (ja) 音声処理装置及び索引作成装置
JP5590549B2 (ja) 音声検索装置および音声検索方法
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
Wang Mandarin spoken document retrieval based on syllable lattice matching
JP2938865B1 (ja) 音声認識装置
Maskey et al. A phrase-level machine translation approach for disfluency detection using weighted finite state transducers
JP2965529B2 (ja) 音声認識装置
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Brants Estimating HMM topologies