JP2000242295A - 音声認識装置および音声対話装置 - Google Patents

音声認識装置および音声対話装置

Info

Publication number
JP2000242295A
JP2000242295A JP11046069A JP4606999A JP2000242295A JP 2000242295 A JP2000242295 A JP 2000242295A JP 11046069 A JP11046069 A JP 11046069A JP 4606999 A JP4606999 A JP 4606999A JP 2000242295 A JP2000242295 A JP 2000242295A
Authority
JP
Japan
Prior art keywords
vocabulary
voice
speech
standard pattern
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11046069A
Other languages
English (en)
Inventor
Jun Ishii
純 石井
Toshiyuki Hanazawa
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11046069A priority Critical patent/JP2000242295A/ja
Publication of JP2000242295A publication Critical patent/JP2000242295A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 再発声時の誤認識を減少し、音声認識の精度
を向上できると共に、予め定められた認識対象語彙以外
の語彙についても正しい音節系列の認識結果が得られる
音声認識装置およびこの音声認識装置を用いた音声対話
装置を得る。 【解決手段】 発声された音声入力を音響分析し、音声
の特徴を示す音声特徴量を抽出する音声特徴量抽出手段
と、同様の意味内容を持つ語彙の発声回数が所定回数未
満の通常発声時には、上記音声特徴量抽出手段で抽出さ
れた音声特徴量と予め定められた認識対象語彙の標準パ
タンとを用いて照合を行い、上記語彙の発声回数が所定
回数以降の再発声時には、上記音声特徴量抽出手段で抽
出された再発声時の音声特徴量と無音の挿入を許す語彙
の標準パタンとを用いて照合を行い、音声認識結果を出
力する音声照合手段とを備えたものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、人間(ユーザ)が
発声した音声を認識する音声認識装置と、人間が発声し
た音声に対して応答し、対話を行う上記音声認識装置を
用いた音声対話装置に関するものである。
【0002】
【従来の技術】音声対話装置は、人間(ユーザ)と機械
(装置)が音声によって対話するシステムのことを言
い、予約受付自動化など実用性が高い。従来の音声対話
装置に関しては、例えば、「音声認識の基礎」L.RABINE
R、B.H.JUANG、古井貞煕 監訳、1995年11月、NTTアドバ
ンステクノロジ(以下、文献1とする。)や、「小特集
−音声対話システムの実力と課題−」中川聖一他、日本
音響学会誌、VOL.54、NO.11、1998、pp.783-822、1998
年11月、(社)日本音響学会(以下、文献2とする。)に
詳細が記されている。
【0003】以下に、上記文献1に記載されている従来
の音声対話装置を説明する。図10は、従来の音声対話
装置の構成を示すブロック図である。
【0004】図10において、音声対話装置を使用する
ユーザ1001が、該音声対話装置に対する所望の動作
の要求を音声入力1002として発声すると、音声認識
手段1003が、上記ユーザ1001から発声された音
声入力1002から音声特徴量を抽出すると共に、予め
定められた単語や文の認識対象語彙の標準パタンを用い
て照合を行い、音声認識結果1004をテキストで出力
する。そして、意味理解手段1005が、上記音声認識
手段1003から出力された音声認識結果1004のテ
キストを入力し、意味的な規則を用いて上記音声入力1
002の意味1006を抽出する。
【0005】すると、対話管理手段1007が、上記意
味理解手段1005で抽出された意味1006を入力し
て、予め登録されている動作のうち上記ユーザ1001
から要求されている動作を選択し、図示しない動作部に
該動作を実行させる指令を発すると共に、上記動作部か
ら上記指令の状態に関するデータを受取り、上記ユーザ
1001に対する返答テキスト1008を生成する。
【0006】また、対話管理手段1007は、上記音声
認識手段1003において適正な認識結果が得られない
場合、または上記意味理解手段1005において意味が
抽出できなかった場合は、上記ユーザ1001に対する
再発声要求の返答テキスト1008を生成する。
【0007】その後、音声合成手段1009は、対話管
理手段1007で生成された返答テキスト1008を入
力して、該テキストを合成音声1010に変換してユー
ザ1001へ伝える。
【0008】図11は、上記音声認識手段1003の内
部の構成を示すブロック図である。図11において、音
声特徴量抽出手段1101は、音響分析を行って音声入
力1002の音声特徴量を抽出する。認識辞書1102
は、予め定められた認識対象語彙をテキスト表記で格納
している。例えば、都市名を認識対象語彙とした場合
は、「とうきょう」、「おおさか」、...を格納してい
る。サブワード音声単位標準パタン1103は、上記認
識対象語彙を構成する予め定められたサブワード音声単
位の標準パタンとそのラベル表記を格納している。
【0009】認識語彙標準パタン生成手段1104は、
上記認識辞書1102に格納されている認識対象語彙を
テキスト表記からサブワード音声単位のラベル表記へ変
換し、当該ラベル表記に対応したサブワード音声単位の
標準パタンを上記サブワード音声単位標準パタン110
3から抽出し、連結して上記認識対象語彙の標準パタン
を生成する。照合手段1105は、上記音声特徴量抽出
手段1101から出力された音声特徴量と上記認識語彙
標準パタン生成手段1104で生成された認識対象語彙
の標準パタンを用いて照合を行い、テキスト表記の音声
認識結果1004を出力する。
【0010】動作について説明する。上記音声入力10
02が入力されると、音声特徴量抽出手段1101が、
音響分析を行って上記音声入力1002の音声特徴量を
抽出する。また、認識語彙標準パタン生成手段1104
が、認識辞書1102およびサブワード音声単位標準パ
タン1103を用いて認識対象語彙の標準パタンを生成
する。すると、照合手段1105が、上記音声特徴量抽
出手段1101から出力された音声特徴量と上記認識語
彙標準パタン生成手段1104で生成された認識対象語
彙の標準パタンを用いて照合を行い、テキスト表記の音
声認識結果1004を出力する。
【0011】以上のように、従来の音声対話装置は、ユ
ーザが発声した音声入力の音声特徴量と予め定められた
認識対象語彙の標準パタンとを用いて照合を行い、発声
された音声を認識し、その認識結果に基づいてユーザに
対して返答すると共に、ユーザ所望の動作を実行するも
のである。
【0012】
【発明が解決しようとする課題】しかしながら、従来の
音声対話装置は、ユーザに対して再発声を要求する返答
をした後に発声された再発声時の音声入力を誤認識する
という問題があった。従来の音声対話装置は、認識辞書
に格納されている予め定められた認識対象語彙、または
それらを連続した語彙に対する照合を行なって認識結果
を出力するものであるが、例えば、再発声を要求された
人間(ユーザ)は明瞭に伝えようとする意図から語彙を
音節や複数の音節を連結した単位に区切って離散発声す
る場合がある。この場合、音節等で区切った発声は上記
認識対象語彙とは異なるため、誤認識となるのである。
【0013】また、従来の音声対話装置は、上記認識対
象語彙のみを認識辞書に登録し、この認識対象語彙、ま
たはそれらを連続した語彙に対する照合を行なって認識
結果を出力するものであるため、認識辞書に登録されて
いない単語や文が発声された場合には、再発声を要求し
ても誤認識となるという問題があった。
【0014】本発明は上記のような問題点を解決するた
めになされたもので、同様の意味内容を持つ語彙の発声
回数が所定回数以降の再発声時の誤認識を減少し、音声
認識の精度を向上できると共に、予め定められた認識対
象語彙以外の語彙についても正しい音節系列の認識結果
が得られる音声認識装置、および、この音声認識装置を
用いた音声対話装置を得ることを目的とする。
【0015】
【課題を解決するための手段】
【0016】本発明に係る音声認識装置は、発声された
音声入力を音響分析し、音声の特徴を示す音声特徴量を
抽出する音声特徴量抽出手段と、同様の意味内容を持つ
語彙の発声回数が所定回数未満の通常発声時には、上記
音声特徴量抽出手段で抽出された音声入力の音声特徴量
と予め定められた認識対象語彙の標準パタンとを用いて
照合を行い、上記語彙の発声回数が所定回数以降の再発
声時には、上記音声特徴量抽出手段で抽出された再発声
時の音声入力の音声特徴量と無音の挿入を許す語彙の標
準パタンとを用いて照合を行い、音声認識結果を出力す
る音声照合手段とを備えたものである。
【0017】次の発明に係る音声認識装置は、上記無音
の挿入を許す語彙の標準パタンは、上記認識対象語彙を
単音節毎に分割し、当該単音節の間に無音の挿入を許す
ように構成された単音節連鎖の語彙の標準パタンとした
ものである。
【0018】次の発明に係る音声認識装置は、上記無音
の挿入を許す語彙の標準パタンは、上記認識対象語彙を
仮名1文字毎に分割し、当該文字の間に無音の挿入を許
すように構成された文字連鎖の語彙の標準パタンとした
ものである。
【0019】次の発明に係る音声認識装置は、上記無音
の挿入を許す語彙の標準パタンは、全ての単音節同士の
接続を許し、接続された上記単音節の間に無音の挿入を
許するように構成された全音節接続連鎖の語彙の標準パ
タンとしたものである。
【0020】次の発明に係る音声認識装置は、上記音声
照合手段は、上記再発声時に、上記音声特徴量抽出手段
で抽出された再発声時の音声入力の音声特徴量と、上記
無音の挿入を許す語彙の標準パタンおよび上記認識対象
語彙の標準パタンの両方を用いて照合を行うように構成
されたものである。
【0021】さらに次の発明に係る音声対話装置は、発
声された音声入力を音響分析し、音声の特徴を示す音声
特徴量を抽出する音声特徴量抽出手段と、同様の意味内
容を持つ語彙の発声回数が所定回数未満の通常発声時に
は、上記音声特徴量抽出手段で抽出された音声入力の音
声特徴量と予め定められた認識対象語彙の標準パタンと
を用いて照合を行い、上記語彙の発声回数が所定回数以
降の再発声時には、上記音声特徴量抽出手段で抽出され
た再発声時の音声入力の音声特徴量と無音の挿入を許す
語彙の標準パタンとを用いて照合を行い、音声認識結果
を出力する音声照合手段とを有する音声認識装置と、上
記音声認識装置から適正な音声認識結果が出力されなか
った場合に、再発声要求の返答テキストを生成する対話
管理手段と、当該対話管理手段で生成された返答テキス
トを上記音声入力の発声者に認識可能に出力する出力手
段とを備えたものである。
【0022】次の発明に係る音声対話装置は、上記対話
管理手段で生成される再発声要求の返答テキストは、離
散発声の再発声要求の返答テキストとしたものである。
【0023】
【発明の実施の形態】実施の形態1.以下、本発明の実
施の形態1について説明する。図1は、実施の形態1の
音声対話装置の構成を示すブロック図である。図1にお
いて、ユーザ1001は、この音声対話装置を使用する
人間であり、該音声対話装置に音声入力1002を発声
する。音声認識手段1003は、上記ユーザ1001が
発声した音声入力1002の音声波形をA/D変換して音
声特徴量を抽出し、当該音声特徴量と語彙の標準パタン
とを用いて照合を行い、音声認識結果1004をテキス
トで出力する。意味理解手段1005は、上記音声認識
手段1003から出力された音声認識結果1004のテ
キストを入力し、意味的な規則を用いて上記音声入力1
002の意味1006を抽出する。
【0024】対話管理手段1007は、上記意味理解手
段1005で上記音声入力1002の意味1006を抽
出できた場合は、当該意味1006に基づいて、予め登
録されている動作のうち上記ユーザ1001から要求さ
れている動作を選択し、図示しない動作部に該動作を実
行させる指令を発すると共に、上記動作部から上記指令
の状態に関するデータを受取り、上記ユーザ1001に
対する返答テキスト1008を生成する。また、上記音
声認識手段1003において適正な認識結果が得られな
かった場合、または上記意味理解手段1005において
意味が抽出できなかった場合は、上記ユーザ1001に
対する再発声要求の返答テキスト1008を生成すると
共に、同様の意味内容を持つ語彙の発声回数が所定回数
以降となる場合に上記音声認識手段1003に対して再
発声信号101を出力する。ここで、同様の意味内容を
持つ語彙とは、同一の語彙、もしくは、語彙の表す意味
内容が同一または類似なものであり、例えば、同一の動
作の要求を表す語彙である。
【0025】音声合成手段1009は、上記対話管理手
段1007で生成された返答テキスト1008を入力し
て、上記ユーザ1001に認識可能に出力する出力手段
であり、ここでは、上記返答テキスト1008を合成音
声1010に変換してユーザ1001に認識可能な音声
で出力する。
【0026】図2は、上記音声認識手段1003の内部
の構成を示すブロック図である。従来技術と異る本実施
の形態の特徴的な部分は認識辞書登録語彙音節離散発声
用辞書201と辞書切替スイッチ202を備えたことで
ある。
【0027】図2において、音声特徴量抽出手段110
1は、上記音声入力1002の音声信号をA/D変換し、A
/D変換された信号を5ミリ秒〜20ミリ秒程度の一定時
間間隔のフレームで切り出し、音響分析を行って音声特
徴量、例えば、音声特徴量の時系列 O = [o(1), o(2),
... , o(T)](Tは総フレーム数)を抽出する。ここで
音声特徴量とは、少ない情報量で音声の特徴を表現でき
るものであり、例えばケプストラム、ケプストラムの動
的特徴の物理量で構成する特徴量ベクトルである。
【0028】認識辞書1102は、予め定められた単語
や文などの認識対象語彙をテキスト表記、例えば、テキ
スト表記[wt(1),wt(2), ..., wt(N)](括弧内は単語番
号)で格納している。例えば、都市名を認識対象語彙と
した場合はwt(1)は「とうきょう」、wt(2)は「おおさ
か」、...となる。
【0029】認識辞書登録語彙音節離散発声用辞書20
1は、無音の挿入を許す語彙、ここでは、上記予め定め
られた認識対象語彙を単音節毎に分割し、当該音節の間
に無音の挿入を許すように構成された単音節連鎖の語彙
を格納している。ここで音節の間に無音の挿入を許すと
は、音節の間のいずれかまたはすべてに無音が挿入され
たものを表す。また、音節とは、1つの母音と1つまた
は複数の子音からなり、日本語には101種類の音節が
ある。例えば、認識対象語彙として音素表記で/tookyoo
/という単語があった場合には、認識辞書登録語彙音節
離散発声用辞書201には、単音節毎に分割した/to/、
/o/、/kyo/、/o/の音節の間に無音の挿入を許す語彙が
格納されている。図3は、この音節の間に無音の挿入を
許す語彙をネットワーク記述したものである。図3のよ
うに構成することで、音節毎の離散発声や、/too/、/ky
oo/のような複数音節を組とした離散発声も認識可能と
なる。
【0030】サブワード音声単位標準パタン1103
は、上記認識対象語彙を構成する予め定められたサブワ
ード音声単位の標準パタン、例えば、標準パタン[λl1,
λl2,... , λlM](l1, l2, ... lMはラベル名、Mは総
ラベル数)と、そのラベル表記を格納している。例え
ば、サブワード音声単位を前後音素環境依存の音素と
し、多数の話者の音声データでパラメータ学習を行った
HMM (Hidden Markov Models) を標準パタンとする。HMM
は状態単位で以下(a)〜(e)の情報をパラメータとして有
することで複数のサブワード音声単位の標準パタンを形
成する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率確率及び後続状態への遷移確率
【0031】辞書切替スイッチ202は、上記対話管理
手段1007から出力された再発声信号101に基づい
て、同様の意味内容を持つ語彙の発声回数が所定回数未
満の通常発声時は接点Aに接続して上記認識語彙標準パ
タン生成手段1104と上記認識辞書1102とを接続
し、上記語彙の発声回数が所定回数以降の再発声時は接
点Bに接続して上記認識語彙標準パタン生成手段110
4と上記認識辞書登録語彙音節離散発声用辞書201と
を接続する。ここでは、上記語彙の発声回数の所定回数
を2回とし、初回発声時を通常発声時、2回目以降を再
発声時とする。
【0032】認識語彙標準パタン生成手段1104は、
上記辞書切替スイッチ202によって接続されている上
記認識辞書1102または上記認識辞書登録語彙音節離
散発声用辞書201に格納されている語彙をテキスト表
記から上記サブワード音声単位のラベル表記へ変換し、
当該ラベル表記に対応したサブワード音声単位の標準パ
タンを上記サブワード音声単位標準パタン1103から
抽出し、連結して上記語彙の標準パタン、例えば、標準
パタン[Λ(1), Λ(2), ... , Λ(N)](括弧内は単語番
号)を生成する。
【0033】照合手段1105は、上記音声特徴量抽出
手段1101で抽出された音声特徴量と上記認識語彙標
準パタン生成手段1104で生成された語彙の標準パタ
ンを用いて照合を行い、音声認識結果1004を出力す
る。ここでは、音声特徴量の時系列 O = [o(1), o(2),
... , o(T)](Tは総フレーム数)と認識対象語彙の標
準パタン[Λ(1), Λ(2), ... , Λ(N)](括弧内は単語番
号)を用いて照合を行い、単語系列 W'を抽出し、当該単
語系列 W'のテキスト表記を音声認識結果1004とし
て出力する。
【0034】次に、図1および図2を用いて上記音声対
話装置の動作について説明する。図1において、音声対
話装置を使用するユーザ1001が、該音声対話装置に
対する所望の動作の要求を音声入力1002として発声
すると、音声認識手段1003が、上記ユーザ1001
から発声された音声入力1002の音声波形をA/D変換
して音声特徴量を抽出し、予め登録された単語や文の認
識対象語彙の標準パタンを用いて音声認識結果1004
をテキストで出力する。
【0035】このとき、音声認識手段1003において
は、ユーザ1001が発声した上記音声入力1002が
入力されると、音声特徴量抽出手段1101が、該音声
入力1002の音声信号をA/D変換し、A/D変換された信
号を5ミリ秒〜20ミリ秒程度の一定時間間隔のフレー
ムで切り出し、音響分析を行って音声特徴量の時系列O
= [o(1), o(2), ... , o(T)](Tは総フレーム数)を抽
出する。
【0036】また、辞書切替スイッチ202が、1回目
の発声、すなわち通常発声時であるので、接点Aに接続
して認識語彙標準パタン生成手段1104と認識辞書1
102とを接続する。そして、認識語彙標準パタン生成
手段1104が、上記認識辞書1102およびサブワー
ド音声単位標準パタン1103を用いて認識対象語彙の
標準パタンを生成する。
【0037】すなわち、上記認識語彙標準パタン生成手
段1104は、上記認識辞書1102に格納されている
テキスト表記、例えば、テキスト表記[wt(1), wt(2),
...,wt(N)](括弧内は単語番号)の認識対象語彙を予め
定められたサブワード音声単位に分割し、当該サブワー
ド音声単位のラベル表記へ変換する。そして、当該ラベ
ル表記に対応したサブワード音声単位の標準パタンを上
記サブワード音声単位標準パタン1103から抽出し、
連結して上記認識対象語彙の標準パタン、例えば、標準
パタン[Λ(1), Λ(2), ... , Λ(N)](括弧内は単語番
号)を生成する。
【0038】前後環境依存の音素をサブワード音声単位
とした標準パタンの場合を例に説明する。認識辞書11
02のn番目に認識対象語彙として「あお」が存在する
ならば、これは音素系列で/ao/であり、「あお」のサブ
ワード音声単位のラベル表記は中心音素が/a/であり、
先行音素が無音、後続音素が/o/である{-ao}と、中心音
素が/o/であり、先行音素が/a/、後続音素が無音のラベ
ル{ao-}となる。これらのサブワード音声単位のラベル
表記にそれぞれ対応する標準パタンλ-aoと、標準パタ
ンλao-とが連結されて認識対象語彙「あお」の標準パ
タンΛ(n)が生成される。最近では前後音素環境依存の
音素のサブワード音声単位標準パタンを用いて、認識対
象語彙が数万単語以上の音声認識システムの検討が行わ
れている。
【0039】このように、上記音声特徴量抽出手段11
01で音声入力1002から音声特徴量の時系列 O =
[o(1), o(2), ... , o(T)](Tは総フレーム数)が抽出
され、上記認識語彙標準パタン生成手段1104で標準
パタン[Λ(1), Λ(2), ... ,Λ(N)](括弧内は単語番号)
が生成されると、照合手段1105が、上記音声特徴量
の時系列 O = [o(1), o(2), ... , o(T)](Tは総フレー
ム数)と標準パタン[Λ(1), Λ(2), ... , Λ(N)](括弧
内は単語番号)を用いて単語系列 W'を抽出し、当該単語
系列 W'のテキスト表記を音声認識結果1004として
出力する。
【0040】ここでは、上記照合手段1105は、上記
音声特徴量の時系列Oに対して、数式1によって、上記
単語系列W'を抽出する。数式1において、第一項 P(O|
W)は音響モデルと呼ばれ、認識語彙標準パタン生成手段
1104で生成された認識対象語彙の標準パタン [Λ
(1), Λ(2), ... , Λ(N)] (括弧内は単語番号)を連
結して単語系列 W を仮定した確率で評価する。また第
二項 P(W) は仮定された単語系列 W の確率を表すもの
で言語モデルと呼ばれる。
【0041】
【数1】
【0042】そして、上記照合手段1105から音声認
識結果1004が出力されると、意味理解手段1005
が、上記音声認識結果1004のテキストを入力し、意
味的な規則を用いて上記音声入力1002の意味100
6を抽出する。
【0043】すると、対話管理手段1007が、上記意
味理解手段1005で抽出された意味1006を入力し
て、予め登録されている動作のうち上記ユーザ1001
から要求されている動作を選択し、図示しない動作部に
該動作を実行させる指令を発すると共に、上記動作部か
ら上記指令の状態に関するデータを受取り、上記ユーザ
1001に対する返答テキスト1008を生成する。そ
して、音声合成手段1009が、対話管理手段1007
で生成された返答テキスト1008を入力して、該テキ
ストを合成音声1010に変換してユーザ1001へ伝
える。
【0044】しかしここで、例えば、予め定められた認
識対象語彙以外の単語が発声されたり、発声変形が大き
かったり等の理由によって、上記音声認識手段1003
において適正な認識結果が得られなかった場合、または
上記意味理解手段1005において意味が抽出できなか
った場合は、対話管理手段1007は、上記ユーザ10
01に対する再発声要求の返答テキスト1008、例え
ば「もう一度発声してください」を生成する。また、こ
の再発声要求により、次に発声される音声入力1002
が、同様の意味内容を持つ語彙に対する2回目の発声と
なるため、対話管理手段1007は上記音声認識手段1
003に対して再発声信号101を出力する。そして、
音声合成手段1009が、対話管理手段1007で生成
された再発声要求の返答テキスト1008を入力して、
該返答テキスト1008を合成音声1010に変換して
ユーザ1001へ伝える。
【0045】すると、上記再発声要求の合成音声101
0を聞いた上記ユーザ1001は、これに応じて、再
度、所望の動作の要求を音声入力1002として発声す
る。このように、再発声された音声入力1002は、音
声認識手段1003に入力され、当該音声認識手段10
03においては、前述の通常発声時と同様に、上記音声
特徴量抽出手段1101が、上記音声入力1002の音
声特徴量の時系列 O = [o(1), o(2), ... , o(T)](Tは
総フレーム数)を抽出する。
【0046】一方、辞書切替スイッチ202は、上記対
話管理手段1007から出力された再発声信号101に
基づいて、2回目の発声、すなわち再発声時であること
を検出し、接点Bに接続して認識語彙標準パタン生成手
段1104と認識辞書登録語彙音節離散発声用辞書20
1とを接続する。そして、認識語彙標準パタン生成手段
1104が、上記認識辞書登録語彙音節離散発声用辞書
201およびサブワード音声単位標準パタン1103を
用いて、音節の間に無音の挿入を許す上記認識対象語彙
の標準パタン[Λ'(1), Λ'(2), ... , Λ'(N)](括弧内
は単語番号)を生成する。
【0047】このように、上記音声特徴量抽出手段11
01で再発声された音声入力1002から音声特徴量の
時系列 O = [o(1), o(2), ... , o(T)](Tは総フレーム
数)が抽出され、上記認識語彙標準パタン生成手段11
04で音節の間に無音の挿入を許す認識対象語彙の標準
パタン[Λ'(1), Λ'(2), ... , Λ'(N)](括弧内は単語
番号)が生成されると、前述のように、照合手段110
5が、上記音声特徴量の時系列 O = [o(1), o(2), ...
, o(T)](Tは総フレーム数)と標準パタン[Λ'(1),
Λ'(2), ... , Λ'(N)](括弧内は単語番号)を用いて単
語系列 W'を抽出し、当該単語系列 W'のテキスト表記を
音声認識結果1004として出力する。
【0048】以降前述と同様に、意味理解手段1005
が、上記音声認識結果1004から意味1006を抽出
し、対話管理手段1007が、上記意味1006に基づ
いて、図示しない動作部に該動作を実行させる指令を発
すると共に、上記動作部から上記指令の状態に関するデ
ータを受取り、上記ユーザ1001に対する返答テキス
ト1008を生成する。そして、音声合成手段1009
が、上記返答テキスト1008を入力して、該テキスト
を合成音声1010に変換してユーザ1001へ伝え
る。
【0049】以上のように、本実施の形態1によれば、
同様の意味内容を持つ語彙の発声回数が2回以降の再発
声時には、単語や文等の予め定められた認識対象語彙を
単音節毎に分割し、当該音節の間に無音の挿入を許すよ
うに構成された単音節連鎖の上記認識対象語彙を格納し
ている認識辞書登録語彙音節離散発声用辞書を用い、再
発声された音声入力の音声特徴量と、上記音節の間に無
音の挿入を許すように構成された単音節連鎖の認識対象
語彙の標準パタンとを用いて音声認識結果を抽出するの
で、音声対話装置を使用中における再発声時に生じやす
い音節で区切った離散発声の認識が可能となり、音声認
識の精度を向上させることができる。
【0050】なお、本実施の形態1では、辞書切替スイ
ッチは、対話管理手段から出力される再発声信号に基づ
いて、再発声時であることを検知する場合について説明
したが、これに限るものではない。例えば、音声対話装
置に、押下されると再発声信号を発生するボタンを備
え、自らの意志でユーザが再発声する際に、上記ボタン
を押下し、上記辞書切替スイッチを切りかえるように構
成しても、本実施の形態と同様の効果を得ることができ
る。
【0051】また、対話管理手段で生成された返答テキ
ストを音声入力の発声者(ユーザ)に認識可能に出力す
る出力手段として、テキストを音声に変換する音声合成
手段を用いる場合について説明したが、例えば、上記返
答テキストを文字、図、絵などで表示することにより、
上記発声者に認識可能に出力する表示手段であっても、
本実施の形態と同様の効果を得ることができる。
【0052】また、音声認識手段は、認識辞書、認識辞
書登録語彙音節離散発声用辞書、サブワード音声単位標
準パタンおよび認識語彙標準パタン生成手段を備え、照
合を行う際に標準パタンを生成する場合について説明し
たが、これに限定されるものではない。上記音声認識手
段は、音声入力の音声特徴量と、予め定められた認識対
象語彙の標準パタンまたは無音の挿入を許す語彙の標準
パタンとを用いて照合を行うことができれば良く、例え
ば、辞書容量が膨大になるが、上記認識辞書、認識辞書
登録語彙音節離散発声用辞書、サブワード音声単位標準
パタンおよび認識語彙標準パタン生成普段に替えて、上
記予め定められた認識対象語彙の標準パタンを格納した
辞書、および、無音の挿入を許す語彙の標準パタンを格
納した辞書とを備えるように構成しても、本実施の形態
と同様の効果を得ることができる。
【0053】また、同様の意味内容を持つ語彙の発声回
数の所定回数が2回である場合について説明したが、こ
れに限るものではない。例えば、上記所定回数は3回で
あっても本実施の形態と同様の効果を得ることができ
る。この場合、対話管理手段は、再発声要求により、同
様の意味内容を持つ語彙の発声回数が3回以降となる場
合に、再発声信号を出力するように構成されると共に、
辞書切替スイッチは、上記語彙の発声回数が3回以降と
なる場合に、接点Bに接続するように構成される。
【0054】実施の形態2.以上の実施の形態1は、再
発声時に、認識対象語彙を単音節毎に分割し、音節の間
に無音の挿入を許す語彙を格納した認識辞書登録語彙音
節離散発声用辞書を用いて音声認識する場合であるが、
次に、上記認識対象語彙の仮名表記を1仮名文字毎に分
割し、仮名の間に無音の挿入を許す語彙を格納した認識
辞書登録語彙仮名表記離散発声用辞書を用いる場合の実
施の形態2を説明する。
【0055】図4は、本発明の実施の形態2の音声認識
手段1003の内部の構成を示すブロック図である。図
4において、実施の形態1と同一の機能ブロックは同一
の符号を付し説明を省略する。本実施の形態の特徴的な
部分は、認識辞書登録語彙仮名表記離散発声用辞書40
1を備えることである。
【0056】認識辞書登録語彙仮名表記離散発声用辞書
401は、無音の挿入を許す語彙、ここでは、上記予め
定められた認識対象語彙の仮名表記を1仮名文字毎に分
割し、当該仮名の間に無音の挿入を許すように構成され
た文字連鎖の語彙を格納している。ここで仮名は日本語
の平仮名を指し、例えば、認識対象語彙として仮名表記
で「とうきょう」という単語があった場合には、認識辞
書登録語彙仮名表記離散発声用辞書401には、1仮名
毎に分割した「と」、「う」、「き」、「よ」、「う」
(音素表記では/to/、/u/、/ki/、/yo/、/u/)の間に無音
の挿入を許す語彙が格納されている。図5は、この仮名
の間に無音の挿入を許す語彙をネットワーク記述したも
のである。図5のように構成することで、1仮名文字毎
の離散発声や「とう」、「きょう」(音素表記では/tou
/、/kiyou/)のような複数仮名文字を組とした離散発声
も認識可能となる。
【0057】次に、動作について説明する。図4におい
て、前述の実施の形態1と同様に、再発声時には、辞書
切替スイッチ202が接点Bに接続する。これにより、
認識語彙標準パタン生成手段1104と認識辞書登録語
彙仮名表記離散発声用辞書401とが接続されると、認
識語彙標準パタン生成手段1104が、上記認識辞書登
録語彙仮名離散発声用辞書401およびサブワード音声
単位標準パタン1103を用いて、仮名の間に無音の挿
入を許す上記認識対象語彙の標準パタンを生成する。
【0058】そして、照合手段1105が、上記音声特
徴量抽出手段1101で抽出された再発声時の音声入力
1002の音声特徴量と、上記認識語彙標準パタン生成
手段1104で生成された上記仮名の間に無音の挿入を
許す認識対象語彙の標準パタンを用いて単語系列を抽出
し、当該単語系列のテキスト表記を音声認識結果100
4として出力する。
【0059】以上のように、本実施の形態2によれば、
同様の意味内容を持つ語彙の発声回数が2回以降の再発
声時には、単語や文等の予め定められた認識対象語彙の
仮名表記を1仮名文字毎に分割し、当該仮名の間に無音
の挿入を許すように構成された文字連鎖の上記認識対象
語彙を格納している認識辞書登録語彙仮名離散発声用辞
書を用い、再発声された音声入力の音声特徴量と、上記
仮名の間に無音の挿入を許すように構成された文字連鎖
の認識対象語彙の標準パタンとを用いて音声認識結果を
抽出するので、音声対話装置を使用中における再発声時
に生じやすい1仮名表記毎に区切った離散発声の認識が
可能となり、音声認識の精度を向上させることができ
る。
【0060】なお、本実施の形態においても、前述の実
施の形態1のように種々の構成の変更が可能であり、本
実施の形態と同様の効果を得ることができる。
【0061】実施の形態3.以上の実施の形態2は、再
発声時に、認識対象語彙の仮名表記を1仮名文字毎に分
割し、仮名の間に無音の挿入を許す語彙を格納した認識
辞書登録語彙仮名表記離散発声用辞書を用いて音声認識
する場合であるが、次に、全ての単音節同士の接続を許
し、接続された上記単音節の間に無音の挿入を許す語彙
を格納した音節全接続辞書を用いる場合の実施の形態3
を説明する。
【0062】図6は、本発明の実施の形態3の音声認識
手段1003の内部の構成を示すブロック図である。図
6において、実施の形態1と同一の機能ブロックは同一
の符号を付し説明を省略する。本実施の形態の特徴的な
部分は、音節全接続辞書601を備えることである。
【0063】音節全接続辞書601は、無音の挿入を許
す語彙、ここでは、全ての単音節同士の接続を許し、接
続された上記単音節の間に無音の挿入を許するように構
成された全音節接続連鎖の語彙を格納している。図7
は、この全ての単音節同士の接続を許し、接続された上
記単音節の間に無音の挿入を許す語彙をネットワーク記
述したものである。このように、音節全接続辞書601
には、現在の音節からの遷移は無音か全ての音節とした
語彙が格納されている。図7のように構成することで、
予め定められた認識対象語彙に関係なく、音節毎の離散
発声や、複音節を組とした離散発声も認識可能となる。
【0064】次に、動作について説明する。図6におい
て、前述の実施の形態1と同様に、再発声時には、辞書
切替スイッチ202が接点Bに接続する。これにより、
認識語彙標準パタン生成手段1104と音節全接続辞書
601とが接続されると、認識語彙標準パタン生成手段
1104が、上記音節全接続辞書601およびサブワー
ド音声単位標準パタン1103を用いて、全ての単音節
同士の接続を許し、接続された上記単音節の間に無音の
挿入を許す語彙の標準パタンを生成する。
【0065】そして、照合手段1105が、上記音声特
徴量抽出手段1101で抽出された再発声時の音声入力
1002の音声特徴量と、上記認識語彙標準パタン生成
手段1104で生成された上記全ての単音節同士の接続
を許し、接続された上記単音節の間に無音の挿入を許す
語彙の標準パタンを用いて単語系列を抽出し、当該単語
系列のテキスト表記を音声認識結果1004として出力
する。
【0066】以上のように、本実施の形態3によれば、
同様の意味内容を持つ語彙の発声回数が2回以降の再発
声時には、全ての単音節同士の接続を許し、接続された
上記単音節の間に無音の挿入を許すように構成された全
音節接続連鎖の語彙を格納している音節全接続辞書を用
い、再発声された音声入力の音声特徴量と、上記全ての
単音節同士の接続を許し、接続された上記単音節の間に
無音の挿入を許すように構成された全音節接続連鎖の語
彙の標準パタンとを用いて音声認識結果を抽出するの
で、音声対話装置を使用中における再発声時に生じやす
い音節で区切った離散発声の認識が可能となり、音声認
識の精度を向上させることができる。また、認識辞書に
登録されていない語彙、すなわち、予め定められた認識
対象語彙以外の語彙の発声であっても音節の全接続によ
って正しい音節系列を認識することが可能となる。
【0067】なお、本実施の形態においても、前述の実
施の形態1のように種々の構成の変更が可能であり、本
実施の形態と同様の効果を得ることができる。
【0068】実施の形態4.以上の実施の形態は、再発
声時に、音節または1仮名毎の間に無音の挿入を許す語
彙を格納した辞書を用いる場合であるが、次に、再発声
時に認識対象語彙を格納した認識辞書と音節または1仮
名毎の間に無音の挿入を許す語彙を格納した辞書の両方
を用いる場合の実施の形態4を説明する。
【0069】図8は、本発明の実施の形態4の音声認識
手段1003の内部の構成を示すブロック図である。図
8において、実施の形態1と同一の機能ブロックは同一
の符号を付し説明を省略する。本実施の形態の特徴的な
部分は、再発声時に、認識辞書1102と認識辞書登録
語彙音節離散発声用辞書201とが認識語彙標準パタン
生成手段1104に接続するように構成されることであ
る。
【0070】辞書切替スイッチ202が接点Aに接続す
ると、認識語彙標準パタン生成手段1104と認識辞書
1102とが接続され、上記辞書切替スイッチ202が
接点Bに接続すると、上記認識語彙標準パタン生成手段
1104と、上記認識辞書1102および認識辞書登録
語彙音節離散発声用辞書201とが接続される。
【0071】次に、動作について説明する。図8におい
て、前述の実施の形態1と同様に、再発声時には、辞書
切替スイッチ202が接点Bに接続する。これにより、
認識語彙標準パタン生成手段1104と、上記認識辞書
1102および認識辞書登録語彙音節離散発声用辞書2
01とが接続されると、認識語彙標準パタン生成手段1
104が、上記認識辞書1102、認識辞書登録語彙音
節離散発声用辞書201およびサブワード音声単位標準
パタン1103を用いて、予め定められた認識対象語彙
の標準パタン、および、音節の間に無音の挿入を許す上
記認識対象語彙の標準パタンを生成する。
【0072】そして、照合手段1105が、上記音声特
徴量抽出手段1101で抽出された再発声時の音声入力
1002の音声特徴量と、上記認識語彙標準パタン生成
手段1104で生成された上記標準パタンを用いて単語
系列を抽出し、当該単語系列のテキスト表記を音声認識
結果1004として出力する。
【0073】以上のように、本実施の形態4によれば、
同様の意味内容を持つ語彙の発声回数が2回以降の再発
声時には、予め定められた認識対象語彙を格納している
認識辞書、および、上記認識対象語彙を単音節毎に分割
し、音節の間に無音の挿入を許すように構成された単音
節連鎖の上記認識対象語彙を格納している認識辞書登録
語彙音節離散発声用辞書を用い、再発声された音声入力
の音声特徴量と、上記認識対象語彙の標準パタンおよび
上記認識対象語彙を単音節毎に分割し、音節の間に無音
の挿入を許すように構成された単音節連鎖の認識対象語
彙の標準パタンとを用いて音声認識結果を抽出するの
で、音声対話装置を使用中における再発声時に生じやす
い音節で区切った離散発声の認識が可能となると共に、
通常の連続発声も認識が可能となる。
【0074】なお、本実施の形態4では、認識語彙標準
パタン生成手段は、再発声時にすべての辞書、すなわ
ち、認識辞書および認識辞書登録語彙音節離散発声用辞
書を用いて標準パタンを生成する実施の形態であった
が、これに限定されるものではない。例えば、図9は、
本発明の実施の形態4の音声認識手段1003の別の構
成を示すブロック図である。
【0075】図9において、図8と同一の機能ブロック
は同一の符号を付し説明を省略する。再発声用辞書選択
手段901は、再発声の時間長が予め定められた閾値以
下の場合は単語発声であるとして認識辞書1102を選
択し、上記閾値より大きければ離散発声であるとして認
識辞書登録語彙音節離散発声用辞書201を選択する。
認識語彙標準パタン生成手段1104は、上記再発声用
辞書選択手段901に選択された辞書およびサブワード
音声単位標準パタン1103を用いて標準パタンを生成
する。
【0076】このように、上記再発声用辞書選択手段
が、照合に用いる辞書としていずれかの辞書を選択する
ことによって、すべての辞書に格納されている語彙の標
準パタンを用いて音声認識結果を抽出する場合と比較し
て照合手段による処理時間を短縮することができ、音声
認識時間を短縮することができる。
【0077】また、本実施の形態においても、前述の実
施の形態1のように種々の構成の変更が可能であり、本
実施の形態と同様の効果を得ることができる。
【0078】実施の形態5.以上の実施の形態は、音声
認識手段で妥当な認識結果が得られなかった場合に、対
話管理手段が再発声を要求する場合であるが、次に、再
発声を要求する際に離散発声を要求する実施の形態5を
説明する。
【0079】図1において、対話管理手段1007は1
回目の発声において、音声認識手段1003で適正な認
識結果が得られなかった場合、または意味理解手段10
05で意味が抽出できなかった場合の再発声を要求する
際に、例えば「1文字づつ区切って発声して下さい」と
離散発声を要求する返答テキスト1008を作成する。
そして、音声合成手段1009が、上記離散発声を要求
する返答テキスト1008を入力し、該テキストを合成
音声1010に変換してユーザ1001へ伝える。
【0080】以上のように、本実施の形態5によれば、
対話管理手段が、再発声を要求する際に、離散発声を要
求する返答テキストを作成し、該離散発声を要求するテ
キストを音声合成してユーザに伝えることにより、再発
声時は仮名の1文字毎の離散発声となるので、1回目の
発声が発声変形が大きいことが原因で認識結果が得られ
なかった場合には、認識辞書登録語彙仮名表記離散発声
用辞書を用いるように構成すれば認識が可能となる。ま
た、1回目の発声で予め定められた認識対象語彙以外の
語彙が発声されたことが原因で認識結果が得られなかっ
た場合には、音節全接続辞書を用いるように構成すれ
ば、再発声時に正しい音節系列の認識が可能となる。
【0081】
【発明の効果】以上のように、本発明の音声認識装置に
よれば、発声された音声入力を音響分析し、音声の特徴
を示す音声特徴量を抽出する音声特徴量抽出手段と、同
様の意味内容を持つ語彙の発声回数が所定回数未満の通
常発声時には、上記音声特徴量抽出手段で抽出された音
声入力の音声特徴量と予め定められた認識対象語彙の標
準パタンとを用いて照合を行い、上記語彙の発声回数が
所定回数以降の再発声時には、上記音声特徴量抽出手段
で抽出された再発声時の音声入力の音声特徴量と無音の
挿入を許す語彙の標準パタンとを用いて照合を行い、音
声認識結果を出力する音声照合手段とを備えたことによ
り、再発声時に生じやすい離散発声の認識が可能とな
り、音声認識の精度を向上させることができるという効
果がある。
【0082】また、次の発明の音声認識装置によれば、
上記無音の挿入を許す語彙の標準パタンは、上記認識対
象語彙を単音節毎に分割し、当該単音節の間に無音の挿
入を許すように構成された単音節連鎖の語彙の標準パタ
ンであることにより、再発声時に生じやすい音節で区切
った離散発声の認識が可能となり、音声認識の精度を向
上させることができるという効果がある。
【0083】また、次の発明の音声認識装置によれば、
上記無音の挿入を許す語彙の標準パタンは、上記認識対
象語彙を仮名1文字毎に分割し、当該文字の間に無音の
挿入を許すように構成された文字連鎖の語彙の標準パタ
ンであることにより、再発声時に生じやすい仮名で区切
った離散発声の認識が可能となり、音声認識の精度を向
上させることができるという効果がある。
【0084】また、次の発明の音声認識装置によれば、
上記無音の挿入を許す語彙の標準パタンは、全ての単音
節同士の接続を許し、接続された上記単音節の間に無音
の挿入を許するように構成された全音節接続連鎖の語彙
の標準パタンであることにより、再発声時に生じやすい
離散発声の認識が可能となり、音声認識の精度を向上さ
せることができると共に、予め定められた認識対象語彙
以外の語彙の発声であっても音節の全接続によって正し
い音節系列を認識することが可能となるという効果があ
る。
【0085】また、次の発明の音声認識装置によれば、
上記音声照合手段は、上記再発声時に、上記音声特徴量
抽出手段で抽出された再発声時の音声入力の音声特徴量
と、上記無音の挿入を許す語彙の標準パタンおよび上記
認識対象語彙の標準パタンの両方を用いて照合を行うよ
うに構成されたことにより、再発声時に生じやすい離散
発声の認識が可能となると共に、通常の連続発声も認識
が可能となり、音声認識の精度を向上させることができ
るという効果がある。
【0086】さらにまた、次の発明の音声対話装置によ
れば、発声された音声入力を音響分析し、音声の特徴を
示す音声特徴量を抽出する音声特徴量抽出手段と、同様
の意味内容を持つ語彙の発声回数が所定回数未満の通常
発声時には、上記音声特徴量抽出手段で抽出された音声
入力の音声特徴量と予め定められた認識対象語彙の標準
パタンとを用いて照合を行い、上記語彙の発声回数が所
定回数以降の再発声時には、上記音声特徴量抽出手段で
抽出された再発声時の音声入力の音声特徴量と無音の挿
入を許す語彙の標準パタンとを用いて照合を行い、音声
認識結果を出力する音声照合手段とを有する音声認識装
置と、上記音声認識装置から適正な音声認識結果が出力
されなかった場合に、再発声要求の返答テキストを生成
する対話管理手段と、当該対話管理手段で生成された返
答テキストを上記音声入力の発声者に認識可能に出力す
る出力手段とを備えたことにより、再発声時に生じやす
い離散発声の音声認識が可能となり、音声認識の精度が
向上するため、高性能の音声対話装置を得ることができ
るという効果がある。
【0087】また、次の発明の音声対話装置によれば、
上記対話管理手段で生成される再発声要求の返答テキス
トは、離散発声の再発声要求の返答テキストであること
により、再発声時は離散発声となるので、より音声認識
の精度を向上させることができるという効果がある。
【図面の簡単な説明】
【図1】 実施の形態1の音声対話装置の構成を示すブ
ロック図である。
【図2】 実施の形態1の音声認識手段の構成を示すブ
ロック図である。
【図3】 音節の間に無音の挿入を許す語彙をネットワ
ーク記述した概念図である。
【図4】 実施の形態2の音声認識手段の構成を示すブ
ロック図である。
【図5】 仮名の間に無音の挿入を許す語彙をネットワ
ーク記述した概念図である。
【図6】 実施の形態3の音声認識手段の構成を示すブ
ロック図である。
【図7】 全ての単音節同士の接続を許し、接続された
上記単音節の間に無音の挿入を許す語彙をネットワーク
記述した概念図である。
【図8】 実施の形態4の音声認識手段の構成を示すブ
ロック図である。
【図9】 実施の形態4の音声認識手段の別の構成を示
すブロック図である。
【図10】 従来の音声対話装置の構成を示すブロック
図である。
【図11】 従来の音声認識手段の構成を示すブロック
図である。
【符号の説明】
101 再発声信号 201 認識辞書登録語
彙音節離散発声用辞書 202 辞書切替スイッチ 401 認識辞書登録語彙仮名表記離散発声用辞書 6
01 音節全接続辞書 901 再発声用辞書選択手段 1001 ユーザ 1002 音声入力 1003 音声認識
手段 1004 音声認識結果 1005 意味理解
手段 1006 意味 1007 対話管理
手段 1008 返答テキスト 1009 音声合成
手段 1010 合成音声 1101 音声特徴
量抽出手段 1102認識辞書 1103 サブワー
ド音声単位標準パタン 1104 認識語彙標準パタン生成手段 11
05 照合手段

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 発声された音声入力を音響分析し、音声
    の特徴を示す音声特徴量を抽出する音声特徴量抽出手段
    と、同様の意味内容を持つ語彙の発声回数が所定回数未
    満の通常発声時には、上記音声特徴量抽出手段で抽出さ
    れた音声入力の音声特徴量と予め定められた認識対象語
    彙の標準パタンとを用いて照合を行い、上記語彙の発声
    回数が所定回数以降の再発声時には、上記音声特徴量抽
    出手段で抽出された再発声時の音声入力の音声特徴量と
    無音の挿入を許す語彙の標準パタンとを用いて照合を行
    い、音声認識結果を出力する音声照合手段とを備えたこ
    とを特徴とする音声認識装置。
  2. 【請求項2】 上記無音の挿入を許す語彙の標準パタン
    は、上記認識対象語彙を単音節毎に分割し、当該単音節
    の間に無音の挿入を許すように構成された単音節連鎖の
    語彙の標準パタンであることを特徴とする請求項1に記
    載の音声認識装置。
  3. 【請求項3】 上記無音の挿入を許す語彙の標準パタン
    は、上記認識対象語彙を仮名1文字毎に分割し、当該文
    字の間に無音の挿入を許すように構成された文字連鎖の
    語彙の標準パタンであることを特徴とする請求項1に記
    載の音声認識装置。
  4. 【請求項4】 上記無音の挿入を許す語彙の標準パタン
    は、全ての単音節同士の接続を許し、接続された上記単
    音節の間に無音の挿入を許するように構成された全音節
    接続連鎖の語彙の標準パタンであることを特徴とする請
    求項1に記載の音声認識装置。
  5. 【請求項5】 上記音声照合手段は、上記再発声時に、
    上記音声特徴量抽出手段で抽出された再発声時の音声入
    力の音声特徴量と、上記無音の挿入を許す語彙の標準パ
    タンおよび上記認識対象語彙の標準パタンの両方を用い
    て照合を行うように構成されたことを特徴とする請求項
    1に記載の音声認識装置。
  6. 【請求項6】 発声された音声入力を音響分析し、音声
    の特徴を示す音声特徴量を抽出する音声特徴量抽出手段
    と、同様の意味内容を持つ語彙の発声回数が所定回数未
    満の通常発声時には、上記音声特徴量抽出手段で抽出さ
    れた音声入力の音声特徴量と予め定められた認識対象語
    彙の標準パタンとを用いて照合を行い、上記語彙の発声
    回数が所定回数以降の再発声時には、上記音声特徴量抽
    出手段で抽出された再発声時の音声入力の音声特徴量と
    無音の挿入を許す語彙の標準パタンとを用いて照合を行
    い、音声認識結果を出力する音声照合手段とを有する音
    声認識装置と、上記音声認識装置から適正な音声認識結
    果が出力されなかった場合に、再発声要求の返答テキス
    トを生成する対話管理手段と、当該対話管理手段で生成
    された返答テキストを上記音声入力の発声者に認識可能
    に出力する出力手段とを備えたことを特徴とする音声対
    話装置。
  7. 【請求項7】 上記対話管理手段で生成される再発声要
    求の返答テキストは、離散発声の再発声要求の返答テキ
    ストであることを特徴とする請求項6に記載の音声対話
    装置。
JP11046069A 1999-02-24 1999-02-24 音声認識装置および音声対話装置 Pending JP2000242295A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11046069A JP2000242295A (ja) 1999-02-24 1999-02-24 音声認識装置および音声対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11046069A JP2000242295A (ja) 1999-02-24 1999-02-24 音声認識装置および音声対話装置

Publications (1)

Publication Number Publication Date
JP2000242295A true JP2000242295A (ja) 2000-09-08

Family

ID=12736722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11046069A Pending JP2000242295A (ja) 1999-02-24 1999-02-24 音声認識装置および音声対話装置

Country Status (1)

Country Link
JP (1) JP2000242295A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084590A (ja) * 2003-09-11 2005-03-31 Nissan Motor Co Ltd 音声認識装置
JP2009210976A (ja) * 2008-03-06 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、方法、プログラム及びその記録媒体
JP2009210975A (ja) * 2008-03-06 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、方法、プログラム及びその記録媒体
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084590A (ja) * 2003-09-11 2005-03-31 Nissan Motor Co Ltd 音声認識装置
JP2009210976A (ja) * 2008-03-06 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、方法、プログラム及びその記録媒体
JP2009210975A (ja) * 2008-03-06 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、方法、プログラム及びその記録媒体
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US10074369B2 (en) Voice-based communications
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US10163436B1 (en) Training a speech processing system using spoken utterances
US6937983B2 (en) Method and system for semantic speech recognition
Rabiner et al. An overview of automatic speech recognition
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP5660441B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JPH09500223A (ja) 多言語音声認識システム
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
JP2011504624A (ja) 自動同時通訳システム
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US10143027B1 (en) Device selection for routing of communications
JP2004163541A (ja) 音声応答装置
JP2010197644A (ja) 音声認識システム
US20040006469A1 (en) Apparatus and method for updating lexicon
Digalakis et al. Large vocabulary continuous speech recognition in greek: corpus and an automatic dictation system.
JP2000242295A (ja) 音声認識装置および音声対話装置
US11172527B2 (en) Routing of communications to a device
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
US10854196B1 (en) Functional prerequisites and acknowledgments
JP2004252121A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070314

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070417