JPH09134191A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH09134191A
JPH09134191A JP7289818A JP28981895A JPH09134191A JP H09134191 A JPH09134191 A JP H09134191A JP 7289818 A JP7289818 A JP 7289818A JP 28981895 A JP28981895 A JP 28981895A JP H09134191 A JPH09134191 A JP H09134191A
Authority
JP
Japan
Prior art keywords
voice
speaker
voice recognition
sentence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7289818A
Other languages
English (en)
Other versions
JP2871557B2 (ja
Inventor
Hitoshi Iida
仁 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP7289818A priority Critical patent/JP2871557B2/ja
Publication of JPH09134191A publication Critical patent/JPH09134191A/ja
Application granted granted Critical
Publication of JP2871557B2 publication Critical patent/JP2871557B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力される発声音声文の話者又は種類によら
ず、従来例に比較して高い音声認識率で音声認識するこ
とができる音声認識装置を提供する。 【解決手段】 入力される発声音声文の音声信号に基づ
いて所定の言語モデルを用いて音声認識して音声認識結
果を出力する音声認識部6又は9を備えた音声認識装置
において、音声認識部6又は9は、複数の話者又は発声
音声文の複数の種類に対応する複数の言語モデル12
a,12b又は22a,22bをスイッチSWを用いて
選択的に切り換えて、入力される発声音声文の音声信号
を音声認識する。複数の言語モデルに対応した話者又は
種類を識別して識別結果を出力する話者識別部7をさら
に備え、音声認識部6又は9は、話者識別部7によって
識別された話者又は種類に対応する言語モデルを用いて
入力される発声音声文の音声信号を音声認識する。話者
識別部7に代えて入力スイッチを用いてもよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される発声音
声文に基づいて所定の言語モデルを用いて音声認識する
音声認識装置に関する。
【0002】
【従来の技術】従来から、音声認識のための統計的言語
情報として、単語間の連接関係を利用することが研究さ
れており、単語のbigram(バイグラム)、tri
gram(トライグラム)などの連鎖統計モデルを用い
て音声認識することが有効であることが知られている。
【0003】例えば、単語のN−gram(ここで、N
は自然数である。)を用いた音声認識方法(以下、第1
の従来例という。)が、「中川聖一著,“確率モデルに
よる音声認識”の“第5章確率的文音声認識アルゴリズ
ム”,電子情報通信学会,pp.109−121,19
88年7月1日」において開示されており、この第1の
従来例では、最大N=3までの音声認識方法について説
明されている。この単語N−gramモデルは統計的言
語モデルの代表的なものであり、構文規則によるものに
比べ、モデルの構築、利用が容易であるという利点を有
している。しかしながら、Nの値は実用上3程度(tr
igram)であり、単語間の局所的な制約を捕らえる
ことはできるが、より大局的な単語間の構文的、意味的
関係を制約として表現することはできない。ここで、N
を大きくすると推定すべきパラメータ数が多くなり、テ
キストデータベースからパラメータを推定する際に推定
精度が悪くなり、また音声認識時の計算量及びメモリ量
も増大し、装置規模が大型になるという問題点があっ
た。
【0004】以上の問題点を解決するために、特開平7
−104784号公報において、統計的言語モデルを用
いた音声認識方法(以下、第2の従来例という。)が開
示されており、この音声認識方法では、複数の単語から
なる単語列が順次発声された後にある1つの発声単語が
発声される確率が、上記1つの発声単語とその直前の予
め決められた自然数個の単語と、上記単語列内の単語の
カテゴリ毎の直前の予め決められた自然数個ずつの単語
とによって決定された統計的言語モデルを参照して、入
力された単語列を音声認識することを特徴としている。
【0005】
【発明が解決しようとする課題】上記第1又は第2の従
来例の音声認識装置においては、本発明者の実験によれ
ば、統計的言語モデルを学習するための学習データとし
て、例えばホテルの宿泊予約を中心とする音声対話にお
けるホテルの宿泊受付係と客との対話のデータを用いた
認識結果の分析において、客が多分に口にすることがな
い句が認識結果にたびたび現れるという問題点があっ
た。すなわち、入力される発声音声文の話者又は種類が
変化した場合に、音声認識結果の品質が低下するという
問題点があった。
【0006】本発明の目的は以上の問題点を解決し、入
力される発声音声文の話者又は種類によらず、従来例に
比較して高い音声認識率で音声認識することができる音
声認識装置を提供することにある。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、入力される発声音声文の音声信号
に基づいて所定の言語モデルを用いて音声認識して音声
認識結果を出力する音声認識手段を備えた音声認識装置
において、上記音声認識手段は、複数の話者又は発声音
声文の複数の種類に対応する複数の言語モデルを選択的
に切り換えて、上記入力される発声音声文の音声信号を
音声認識することを特徴とする。
【0008】また、請求項2記載の音声認識装置は、請
求項1記載の音声認識装置において、入力される発声音
声文の音声信号に基づいて、上記複数の言語モデルに対
応した話者又は種類を識別して識別結果を出力する識別
手段をさらに備え、上記音声認識手段は、上記識別手段
によって識別された話者又は種類に対応する言語モデル
を用いて、上記入力される発声音声文の音声信号を音声
認識することを特徴とする。
【0009】さらに、請求項3記載の音声認識装置は、
請求項1記載の音声認識装置において、入力される発声
音声文の話者又は種類を入力する入力手段をさらに備
え、上記音声認識手段は、上記入力手段によって入力さ
れた話者又は種類に対応する言語モデルを用いて、上記
入力される発声音声文の音声信号を音声認識することを
特徴とする。
【0010】また、請求項4記載の音声認識装置は、請
求項1乃至3のうちの1つに記載の音声認識装置におい
て、上記複数の話者は、社会的立場が互いに異なる少な
くとも二人であることを特徴とする。
【0011】さらに、請求項5記載の音声認識装置は、
請求項1乃至3のうちの1つに記載の音声認識装置にお
いて、上記複数の種類は、(1)所定の文章を読み上げ
た発声音声文と、(2)複数の話者による対話の発声音
声文と、を含むことを特徴とする。
【0012】また、請求項6記載の音声認識装置は、請
求項1乃至5のうちの1つに記載の音声認識装置におい
て、上記複数の言語モデルはそれぞれ、統計的言語モデ
ルであることを特徴とする。
【0013】さらに、請求項7記載の音声認識装置は、
請求項1乃至5のうちの1つに記載の音声認識装置にお
いて、上記複数の言語モデルはそれぞれ、構文規則に基
づいた言語モデルであることを特徴とする。
【0014】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。 <第1の実施形態>図1は、本発明に係る第1の実施形
態である対話型音声認識装置のブロック図である。この
第1の実施形態の対話型音声認識装置は、入力される発
声音声が話者Aの発声音声であるか否かを話者識別する
話者識別部7を備え、話者識別部7が話者Aの発声音声
であると判断したときに、One pass DP音声
認識部(以下、音声認識部という。)6に接続されるべ
き統計的言語モデルとして、話者Bの統計的言語モデル
12bから話者Aの統計的言語モデル12aに切り換え
るスイッチSWを備えたことを特徴とする。
【0015】この第1の実施形態では、ホテルの宿泊予
約を中心とする音声対話において、ホテルの受け付け係
を話者Aとし、ホテルの客を話者Bとした場合の対話型
音声認識装置を構成した一例について、以下、図1を参
照して説明する。対話システムは一般には、人と機械
(電子計算機システム)との対話を取り扱う。話者Aと
話者bとの人と人との対話システムは、音声翻訳システ
ムなどに代表され、人と機械との対話を含む。
【0016】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
音素照合部4に接続される隠れマルコフモデル(以下、
HMMという。)5は音素認識のためのいわゆる音素H
MMであって、複数の状態と、各状態間の遷移を示す弧
から構成され、各弧には状態間の遷移確率と入力コード
に対する出力確率を有している。音素照合部4は、入力
されたデータに基づいてHMM5を参照して音素照合処
理を実行して音素データを、音声認識部6に出力する。
【0017】話者識別部7はいわゆる発声内容独立型の
話者識別装置であって、特徴抽出部2からバッファメモ
リ3を介して入力される発声音声文の特徴パラメータの
時系列に基づいて、話者Aの音素HMM8を参照して、
例えば動的計画法を用いて時間圧縮又は伸長をするとと
もに、例えばクラスタ化した標準パターンを用いる従来
方法を用いて両者の距離を計算し、計算された距離が所
定のしきい値よりも小さいか否かを判断することによ
り、入力された特徴パラメータの時系列が話者Aのもの
であるか否かを判断する。話者識別部7は、計算された
距離が所定のしきい値よりも小さいとき、話者Aである
と判断し、スイッチSWを接点bから接点aに切り換え
る一方、計算された距離が所定のしきい値以上のとき、
話者Aではないと判断し、スイッチSWを接点aから接
点bに切り換える。ここで、音素HMM8は、話者Aに
よって発声された15単語程度の単語の音声信号データ
に基づいて作成された、クラスタ化した標準パターンの
音素HMMである。なお、話者識別部7において、テキ
ストの識別は、所定のキーワードの検出によりテキスト
の分野を識別することにより行う。
【0018】それぞれ音声認識部6に接続され、単語の
N−gramを含む話者A及び話者Bの統計的言語モデ
ル12a,12bは以下のように作成される。ホテルの
宿泊予約を中心とする音声対話において、ホテルの受け
付け係が発声する発声音声文を書き下したテキストデー
タ10aと、ホテルの客が発声する発声音声文を書き下
したテキストデータ10bとを用意する。上記テキスト
データ10aには、例えば、「お待たせ」、「お仕
事」、「ご滞在」、「ご到着」、「ご希望」、「お電
話」、「一名様で」、「何名様」、「はいございま
す」、「お待ちしています」などの句を含むが、テキス
トデータ10bには、これらの句は含まない。すなわ
ち、テキストデータ10aには、客が話すことが皆無と
考えられる尊敬表現や謙譲表現、サービス提供を勧める
表現が含まれる。
【0019】言語モデル作成部11aは、テキストデー
タ10aに基づいて、例えば、第2の従来例で開示され
た方法で、単語間の連接確率を示すN−gram(ここ
で、Nは自然数である。)を含む話者Aの統計的言語モ
デル12aを作成してメモリに格納する。一方、言語モ
デル作成部11bは、テキストデータ10bに基づい
て、言語モデル作成部11aと同様に、単語間の連接確
率を示すN−gramを含む話者Bの統計的言語モデル
12bを作成してメモリに格納する。
【0020】音声認識部6は、スイッチSWを介して接
続された統計的言語モデル12a又は12bを参照し
て、入力される音声スペクトルに関するベクトルのフレ
ームに同期して処理するリアルタイム処理用アルゴリズ
ムである公知のOne Pass DP(Dynamic Prog
ramming)アルゴリズム(One−stage DPア
ルゴリズムともいう;例えば、第1の従来例の文献のp
p.20−26参照。)を用いて、入力された音素デー
タについて左から右方向に、後戻りなしに処理してより
高い生起確率の単語を音声認識結果データと決定するこ
とにより音声認識の処理を実行して、決定された音声認
識結果データ(文字列データ)を出力する。
【0021】以上説明したように、本実施形態によれ
ば、発声する話者に対応して統計的言語モデル12a又
は12bを選択的に切り換えて参照して音声認識処理を
行うので、従来例のように、例えばホテルの受け付け係
と客とを混同して音声認識することを防止することがで
き、従来例に比較して音声認識率を高くすることができ
る。
【0022】以上の第1の実施形態において、統計的言
語モデル12aは話者Aにより話者適応化された言語モ
デルであり、統計的言語モデル12bは不特定話者のテ
キストデータに基づいた統計的言語モデルであってもよ
い。言い換えれば、話者Aは予め登録された登録話者で
ある一方、話者Bは予め登録されない未登録話者であ
る。
【0023】以上の第1の実施形態において、話者Aの
みの音素HMM8を用意しているが、話者Bの音素HM
Mなどの複数の話者の音素HMMを用いて話者識別を行
ってもよい。
【0024】<第2の実施形態>図2は、本発明に係る
第2の実施形態である対話型音声認識装置のブロック図
であり、図2において図1と同一のものについては同一
の符号を付している。この第2の実施形態の対話型音声
認識装置は、図1の第1の実施形態に比較して、(1)
統計的言語モデル12a,12bに代えて、話者A,B
の文脈自由文法に基づいて作成された、構文規則に基づ
いた言語モデルであるLRテーブル22a,22bを用
いたこと、並びに、(2)音声認識部6に代えて、音素
コンテキスト依存型LRパーザ(以下、LRパーザとい
う。)9を用い、SSS−LR(left-to-right right
most型)連続音声認識装置を構成したこと、を特徴とす
る。以下、第1の実施形態との相違点について詳述す
る。なお、この第2の実施形態においても、第1の実施
形態と同様に、ホテルの宿泊予約を中心とする音声対話
において、ホテルの受け付け係を話者Aとし、ホテルの
客を話者Bとした場合の対話型音声認識装置を構成した
一例について説明する。
【0025】話者Aの文脈自由文法データ20aの一例
を表1に示す。
【0026】
【表1】 話者Aの文脈自由文法データの一例 ─────────────────────────────────── (1)V→PF V 例:お送り(します) (2)V→V HAUXVP 例:承ります、お待ち致しております、 振り込み下さい (3)NP→N SF 例:何名様 ───────────────────────────────────
【0027】表1から明らかなように、表1の(1)の
例は、動詞が、敬語の接頭辞(PF:prefix)と
動詞とに分解することができ、(2)の例は、動詞が、
動詞と尊敬の補助動詞句(HAUXVP:honori
fic auxiliaryverb phrase)
とに分解することができ、(3)の例は、名詞句が、名
詞とその接尾辞(SF:suffix)とに分解できる
ことを示す。すなわち、話者Aの文脈自由文法データ2
0aには、尊敬、謙譲などの表現の文脈自由文法データ
を含む一方、話者Bの文脈自由文法データ20bは上記
表1に示したような尊敬、謙譲などの表現を含まない文
脈自由文法データを含む。LRテーブル作成部21a
は、話者Aの文脈自由文法データ20aに基づいて、例
えば文献「北研二,“確率文法を用いた音声言語処
理”,人工知能学会研究会資料,SIG−SLUD−9
204−6(2/5),1992年」に開示された言語
モデル作成方法を用いて、任意の導出木に対してその導
出木の生成確率を定義しながら上記各文脈自由文法デー
タに対応する生成確率付き導出木を生成し、生成した導
出木に基づいて、確率付きLR構文解析表、すなわち話
者AのLRテーブル22aを作成してメモリに記憶す
る。一方、LRテーブル作成部21bは、LRテーブル
作成部21bと同様に、話者BのLRテーブル22aを
作成してメモリに記憶する。
【0028】本実施形態において用いられるSSS−L
R連続音声認識装置においては、音素の特徴空間上に割
り当てられた確率的定常信号源(状態)の間の確率的な
遷移により音声パラメータの時間的な推移を表現した確
率モデルに対して、尤度最大化の基準に基づいて個々の
状態をコンテキスト方向又は時間方向へ分割するという
操作を繰り返すことによって、モデルの精密化を逐次的
に実行する。
【0029】音素照合部4は、音素コンテキスト依存型
LRパーザ9からの音素照合要求に応じて音素照合処理
を実行する。そして、不特定話者のHMM5を用いて音
素照合区間内のデータに対する尤度が計算され、この尤
度の値が音素照合スコアとしてLRパーザ9に返され
る。このときに用いられるモデルは、HMMと等価であ
るために、尤度の計算には通常のHMMで用いられてい
る前向きパスアルゴリズムをそのまま使用する。LRパ
ーザ9は、第1の実施形態と同様に話者識別部7によっ
て選択的に切り換えられた1つのLRテーブル22a又
は22bを参照して、入力された音素予測データについ
て左から右方向に、後戻りなしに処理する。構文的にあ
いまいさがある場合は、スタックを分割してすべての候
補の解析が平行して処理される。LRパーザ9は、LR
テーブル22a又は22bに基づいて次にくる音素を予
測して音素予測データを音素照合部4に出力する。これ
に応答して、音素照合部4は、その音素に対応するHM
M5の情報を参照して照合し、その尤度を音声認識スコ
アとしてLRパーザ9に戻し、順次音素を連接していく
ことにより、連続音声の認識を行い、その音声認識結果
データを出力する。上記連続音声の認識において、複数
の音素が予測された場合は、これらすべての存在をチェ
ックし、ビームサーチの方法により、部分的な音声認識
の尤度の高い部分木を残すという枝刈りを行って高速処
理を実現する。
【0030】以上説明したように、本実施形態によれ
ば、発声する話者に対応して構文規則に基づいた言語モ
デルであるLRテーブル22a,22bを選択的に切り
換えて参照して音声認識処理を行うので、従来例のよう
に、例えばホテルの受け付け係と客とを混同して音声認
識することを防止することができ、従来例に比較して音
声認識率を高くすることができる。
【0031】以上の第2の実施形態において、LRテー
ブル22aは話者Aにより話者適応化された言語モデル
であり、LRテーブル22bは不特定話者により適応化
された言語モデルであってもよい。言い換えれば、話者
Aは予め登録された登録話者である一方、話者Bは予め
登録されない未登録話者である。
【0032】以上の第2の実施形態において、話者Aの
みの音素HMM8を用意しているが、話者Bの音素HM
Mなどの複数の話者の音素HMMを用いて話者識別を行
ってもよい。
【0033】以上の第1と第2の実施形態において、特
徴抽出部2と音素照合部4と音声認識部6と話者識別部
7と言語モデル作成部11a,11bとLRパーザ9と
LRテーブル作成部21a,21bとはそれぞれ、例え
ば、デジタル電子計算機で構成される。また、HMM5
と音素HMM8と統計的言語モデル12a,12bとテ
キストデータ10a,10bとLRテーブル22a,2
2bと文脈自由文法データ20a,20bとは、例えば
ハードディスクメモリである記憶装置に記憶される。
【0034】<変形例>以上の実施形態において、話者
識別部7を用いてスイッチSWを切り換えているが、本
発明はこれに限らず、異なる話者が発声する度に、もし
くは、異なる種類の発声音声文を発声する度に別の入力
スイッチなどの入力手段をオンして、スイッチSWを切
り換えてもよい。
【0035】以上の実施形態においては、一例として、
話者としてホテルの受け付け係と客とを仮定している
が、本発明はこれに限らず、複数の話者は、社会的立場
が互いに異なる少なくとも二人であってもよい。この場
合において、話者Aのテキストデータ11a又は話者A
の文脈自由文法20aには、客が話すことが皆無と考え
られる尊敬表現や、謙譲表現、サービス提供を勧める表
現を含む。また、社会的立場が互いに異なる少なくとも
二人は、例えば、教授場面における教える側の先生と教
えられる側の生徒又は学生であって、話者Aのテキスト
データ11a又は話者Aの文脈自由文法20aには、例
えば「してみたら」、「こうした方がいいよ」などの提
案、教示、指示、勧誘の表現を含む一方、話者Bのテキ
ストデータ11b又は話者Bの文脈自由文法20bに
は、例えば「わかりました」、「わかりません」、「そ
うしてます」、「何してもできません」などの承諾又は
了解や報告の表現を含む。
【0036】以上の実施形態においては、複数の話者に
対応する複数の言語モデルを選択的に切り換えている
が、本発明はこれに限らず、発声音声文の複数の種類に
対応する複数の言語モデルを選択的に切り換えてもよ
い。ここで、上記複数の種類は、(1)所定の文章を読
み上げた発声音声文と、(2)複数の話者による対話の
発声音声文と、を含む。
【0037】以上の実施形態において、HMM5を用い
ているが、本発明はこれに限らず、HMM5を代えて隠
れマルコフ網を用いてもよい。
【0038】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識装置によれば、入力される発声音声文
の音声信号に基づいて所定の言語モデルを用いて音声認
識して音声認識結果を出力する音声認識手段を備えた音
声認識装置において、上記音声認識手段は、複数の話者
又は発声音声文の複数の種類に対応する複数の言語モデ
ルを選択的に切り換えて、上記入力される発声音声文の
音声信号を音声認識する。従って、入力される発声音声
文の話者又は種類によらず、従来例に比較して高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。
【0039】また、請求項2記載の音声認識装置におい
ては、請求項1記載の音声認識装置において、入力され
る発声音声文の音声信号に基づいて、上記複数の言語モ
デルに対応した話者又は種類を識別して識別結果を出力
する識別手段をさらに備え、上記音声認識手段は、上記
識別手段によって識別された話者又は種類に対応する言
語モデルを用いて、上記入力される発声音声文の音声信
号を音声認識する。従って、入力される発声音声文の話
者又は種類によらず、従来例に比較してさらに高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。
【0040】さらに、請求項3記載の音声認識装置にお
いては、請求項1記載の音声認識装置において、入力さ
れる発声音声文の話者又は種類を入力する入力手段をさ
らに備え、上記音声認識手段は、上記入力手段によって
入力された話者又は種類に対応する言語モデルを用い
て、上記入力される発声音声文の音声信号を音声認識す
る。従って、入力される発声音声文の話者又は種類によ
らず、従来例に比較してさらに高い音声認識率で音声認
識することができる音声認識装置を提供することができ
る。
【0041】また、請求項4記載の音声認識装置におい
ては、請求項1乃至3のうちの1つに記載の音声認識装
置において、上記複数の話者は、社会的立場が互いに異
なる少なくとも二人である。従って、入力される発声音
声文の話者によらず、従来例に比較してさらに高い音声
認識率で音声認識することができる音声認識装置を提供
することができる。
【0042】さらに、請求項5記載の音声認識装置にお
いては、請求項1乃至3のうちの1つに記載の音声認識
装置において、上記複数の種類は、(1)所定の文章を
読み上げた発声音声文と、(2)複数の話者による対話
の発声音声文と、を含む。従って、入力される発声音声
文の種類によらず、従来例に比較してさらに高い音声認
識率で音声認識することができる音声認識装置を提供す
ることができる。
【0043】また、請求項6記載の音声認識装置におい
ては、請求項1乃至5のうちの1つに記載の音声認識装
置において、上記複数の言語モデルはそれぞれ、統計的
言語モデルである。従って、入力される発声音声文の話
者又は種類によらず、統計的言語モデルを用いて、従来
例に比較してさらに高い音声認識率で音声認識すること
ができる音声認識装置を提供することができる。
【0044】さらに、請求項7記載の音声認識装置にお
いては、請求項1乃至5のうちの1つに記載の音声認識
装置において、上記複数の言語モデルはそれぞれ、構文
規則に基づいた言語モデルである。従って、入力される
発声音声文の話者又は種類によらず、構文規則に基づい
た言語モデルを用いて、従来例に比較してさらに高い音
声認識率で音声認識することができる音声認識装置を提
供することができる。
【図面の簡単な説明】
【図1】 本発明に係る第1の実施形態である対話型音
声認識装置のブロック図である。
【図2】 本発明に係る第2の実施形態である対話型音
声認識装置のブロック図である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…隠れマルコフモデル(HMM)、 6…One pass DP音声認識部、 7…話者識別部、 8…音素隠れマルコフモデル(音素HMM)、 9…LRパーザ、 10a,10b…発声音声文のテキストデータ 11a,11b…言語モデル作成部、 12a,12b…統計的言語モデル、 20a,20b…文脈自由文法データ、 21a,21b…LRテーブル作成部、 22a,22b…LRテーブル、 SW…スイッチ。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力される発声音声文の音声信号に基づ
    いて所定の言語モデルを用いて音声認識して音声認識結
    果を出力する音声認識手段を備えた音声認識装置におい
    て、 上記音声認識手段は、複数の話者又は発声音声文の複数
    の種類に対応する複数の言語モデルを選択的に切り換え
    て、上記入力される発声音声文の音声信号を音声認識す
    ることを特徴とする音声認識装置。
  2. 【請求項2】 入力される発声音声文の音声信号に基づ
    いて、上記複数の言語モデルに対応した話者又は種類を
    識別して識別結果を出力する識別手段をさらに備え、 上記音声認識手段は、上記識別手段によって識別された
    話者又は種類に対応する言語モデルを用いて、上記入力
    される発声音声文の音声信号を音声認識することを特徴
    とする請求項1記載の音声認識装置。
  3. 【請求項3】 入力される発声音声文の話者又は種類を
    入力する入力手段をさらに備え、 上記音声認識手段は、上記入力手段によって入力された
    話者又は種類に対応する言語モデルを用いて、上記入力
    される発声音声文の音声信号を音声認識することを特徴
    とする請求項1記載の音声認識装置。
  4. 【請求項4】 上記複数の話者は、社会的立場が互いに
    異なる少なくとも二人であることを特徴とする請求項1
    乃至3のうちの1つに記載の音声認識装置。
  5. 【請求項5】 上記複数の種類は、(1)所定の文章を
    読み上げた発声音声文と、(2)複数の話者による対話
    の発声音声文と、を含むことを特徴とする請求項1乃至
    3のうちの1つに記載の音声認識装置。
  6. 【請求項6】 上記複数の言語モデルはそれぞれ、統計
    的言語モデルであることを特徴とする1乃至5のうちの
    1つに記載の音声認識装置。
  7. 【請求項7】 上記複数の言語モデルはそれぞれ、構文
    規則に基づいた言語モデルであることを特徴とする1乃
    至5のうちの1つに記載の音声認識装置。
JP7289818A 1995-11-08 1995-11-08 音声認識装置 Expired - Lifetime JP2871557B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7289818A JP2871557B2 (ja) 1995-11-08 1995-11-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7289818A JP2871557B2 (ja) 1995-11-08 1995-11-08 音声認識装置

Publications (2)

Publication Number Publication Date
JPH09134191A true JPH09134191A (ja) 1997-05-20
JP2871557B2 JP2871557B2 (ja) 1999-03-17

Family

ID=17748173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7289818A Expired - Lifetime JP2871557B2 (ja) 1995-11-08 1995-11-08 音声認識装置

Country Status (1)

Country Link
JP (1) JP2871557B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003515778A (ja) * 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2004325560A (ja) * 2003-04-22 2004-11-18 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
CN100351775C (zh) * 2005-01-27 2007-11-28 台达电子工业股份有限公司 可选择句型的语音输入方法及装置
JP2013195823A (ja) * 2012-03-21 2013-09-30 Toshiba Corp 対話支援装置、対話支援方法および対話支援プログラム
KR20200026574A (ko) * 2018-09-03 2020-03-11 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
JP2021026050A (ja) * 2019-07-31 2021-02-22 株式会社リコー 音声認識システム、情報処理装置、音声認識方法、プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003515778A (ja) * 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2004325560A (ja) * 2003-04-22 2004-11-18 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP4587015B2 (ja) * 2003-04-22 2010-11-24 ソニー株式会社 音声認識装置および方法、プログラム、並びに記録媒体
CN100351775C (zh) * 2005-01-27 2007-11-28 台达电子工业股份有限公司 可选择句型的语音输入方法及装置
JP2013195823A (ja) * 2012-03-21 2013-09-30 Toshiba Corp 対話支援装置、対話支援方法および対話支援プログラム
KR20200026574A (ko) * 2018-09-03 2020-03-11 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
WO2020050595A1 (ko) * 2018-09-03 2020-03-12 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11222624B2 (en) 2018-09-03 2022-01-11 Lg Electronics Inc. Server for providing voice recognition service
JP2021026050A (ja) * 2019-07-31 2021-02-22 株式会社リコー 音声認識システム、情報処理装置、音声認識方法、プログラム

Also Published As

Publication number Publication date
JP2871557B2 (ja) 1999-03-17

Similar Documents

Publication Publication Date Title
Zissman et al. Automatic language identification
US10482885B1 (en) Speaker based anaphora resolution
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
Navratil Spoken language recognition-a step toward multilinguality in speech processing
US6937983B2 (en) Method and system for semantic speech recognition
CA2680304C (en) Decoding-time prediction of non-verbalized tokens
JP2001005488A (ja) 音声対話システム
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2002520664A (ja) 言語に依存しない音声認識
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
EP2842124A1 (en) Negative example (anti-word) based performance improvement for speech recognition
Kadambe et al. Language identification with phonological and lexical models
JP2871557B2 (ja) 音声認識装置
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
JP2886117B2 (ja) 音声認識装置
JP2871420B2 (ja) 音声対話システム
JPH08123470A (ja) 音声認識装置
JP2905686B2 (ja) 音声認識装置
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
JPH09114484A (ja) 音声認識装置
JP2999727B2 (ja) 音声認識装置
Brenner et al. Word recognition in continuous speech using a phonological based two-network matching parser and a synthesis based prediction
JP3110025B2 (ja) 発声変形検出装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110108

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120108

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140108

Year of fee payment: 15

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term