JP2003330488A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2003330488A
JP2003330488A JP2002135083A JP2002135083A JP2003330488A JP 2003330488 A JP2003330488 A JP 2003330488A JP 2002135083 A JP2002135083 A JP 2002135083A JP 2002135083 A JP2002135083 A JP 2002135083A JP 2003330488 A JP2003330488 A JP 2003330488A
Authority
JP
Japan
Prior art keywords
voice
input
word
output
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002135083A
Other languages
English (en)
Inventor
Mitsunobu Kaminuma
充伸 神沼
Takeshi Mitamura
健 三田村
Goji Suda
剛司 寸田
Hiroshi Watanabe
博司 渡辺
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2002135083A priority Critical patent/JP2003330488A/ja
Publication of JP2003330488A publication Critical patent/JP2003330488A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】入力された音声の音声認識に誤りが生じた場合
に、容易に入力内容の一部を修正することができるよう
にする。 【解決手段】連続的な複数の単語を認識する音声認識装
置において、音声入力装置10に入力された音声を、音
声認識ユニット20にて音声認識処理を行う。音声認識
結果は、音声出力装置50から音声にて出力される。操
作者は、音声出力される認識結果が誤りであると判断す
ると、認識音声が出力されている間に、誤認識された単
語を修正するための音声入力を行う。すなわち、認識結
果が音声出力されている間に、再度入力される音声があ
った場合には、音声認識ユニット20は、再度入力され
た音声に基づいて最初に入力された音声の部分的な単語
修正を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された音声を
認識して、入力された実際の音声に対する認識候補を表
示する音声認識装置に関する。
【0002】
【従来の技術】人間が発話した音声を認識する音声認識
技術を用いた音声認識装置が知られており、カーナビゲ
ーション装置等のハンドフリー操作が必要なシステムに
用いられている。音声認識技術としては様々な方法が知
られているが、カーナビゲーション装置では、主に連続
単語音声認識システムが用いられている。例えば、目的
地を音声入力できるカーナビゲーション装置において、
「神奈川県横須賀市夏島町1番地」のような階層的な地
名を音声で入力する場合、図4に示すように、県名、市
区町村名、町域名などのカテゴリに区分された言語辞書
が用意される。
【0003】上述した連続単語音声認識システムとは別
のシステムである、小語彙の単語を単独で認識する孤立
単語音声認識では、認識したい地名すべてを組み合わせ
た言語辞書を用意しておく必要があるため、比較対照と
なる単語が多くなり、認識率の低下を招く。これに対し
て、連続単語音声認識システムでは、入力された音声に
対して各カテゴリに含まれている単語と順次比較するこ
とにより、入力された音声を認識する。この場合、カテ
ゴリごとに比較する単語は、県名であれば50程度、各
県ごとの市区町村名では約100程度、各市区町村の町
域名称も約100程度であり、各カテゴリごとの単語比
較を同時に行うために、孤立単語音声認識システムのよ
うに認識率が低下することはない。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
連続単語認識システムでは、連続的に長い音声を入力す
ることができるという長所を持つ反面、音声入力された
単語と音声認識装置により認識されたあるカテゴリに属
する単語とが一致しない場合に、音声入力者が初めから
音声入力をしなおさなければならないというわずらわし
さがあった。
【0005】本発明の目的は、入力された音声の音声認
識に誤りが生じた場合に、容易に入力内容の一部を修正
することができる音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】本発明は、連続的な複数
の単語を認識する音声認識装置において、音声を入力す
る音声入力手段と、音声入力手段により入力された音声
を認識する音声認識手段と、音声認識手段により認識さ
れた音声を出力する音声出力手段と、音声出力手段によ
り認識音声が出力されている間に、再度入力される音声
があるか否かを判定する判定手段とを備え、音声認識手
段は、認識音声が出力されている間に再度入力された音
声があると判定手段により判定された場合に、再度入力
された音声に基づいて単語修正を行うことにより、上記
目的を達成する。
【0007】
【発明の効果】本発明によれば、音声出力手段から音声
認識された結果が出力されている間に再度音声入力があ
った場合には、再度入力された音声に基づいて部分的な
単語修正を行うので、操作者は、音声認識手段による認
識結果を音声により確認しながら容易に誤認識された単
語を修正することができる。
【0008】
【発明の実施の形態】図1は、本発明による音声認識装
置の一実施の形態の構成を示す図である。この音声認識
装置100は、音声入力装置10と、音声認識ユニット
20と、入力装置30と、記憶装置40と、音声出力装
置50とを有する。音声入力装置10は、操作者が音声
入力を行うための装置であり、マイクロホン11と、音
増幅部12と、A/D変換部13とを備える。操作者が
入力した音声は、マイクロホン11にて収集されて音増
幅部12に送られる。音増幅部12は、入力された音声
を所定のレベルの信号に増幅してA/D変換部13に出
力する。A/D変換部13は、音増幅部12から送られ
てきたアナログ信号をデジタル信号に変換して、音声認
識ユニット20に出力する。
【0009】入力装置30は、操作者が音声入力を開始
する際に、発話のタイミングを図るための信号を音声認
識ユニット20に送信する。すなわち、操作者が音声入
力を開始する際に入力装置30により所定の操作を行う
と、音声認識ユニット20は音声認識を行うための待ち
受け処理を行う。操作者は、入力装置30を用いて音声
入力を開始するための所定の操作を行った後に、音声入
力装置20を用いて音声入力を行う。入力装置30は、
例えば、タッチパネル、ジョグダイヤル、キーボードで
ある。また、音声入力を開始する際に用いるボタンを設
けてもよい。
【0010】音声認識ユニット20は、図示しないCP
U、ROM、RAM等を備え、A/D変換部130でデ
ジタル変換された音声信号に基づいて、音声信号の内容
を解析する。音声認識の方法は、従来から多く提案され
ている音声認識システムによる方法を用いることができ
る(例えば、日本音響学会秋期大会講演論文集,p11
1−p112,(2001))。音声認識ユニット20
の図示しないROMには、操作者が発する発話内容が格
納されている言語辞書が格納されている。例えば、図1
に示す音声認識装置100をカーナビゲーション装置に
適用する場合には、図4を用いて説明したように、県
名、市区町村名、町域名ごとに階層化された言語辞書が
格納される。
【0011】音声出力装置50は、音声変換部51と、
D/A変換部52と、音出力制御部53と、スピーカ5
4とを備える。音声変換部51は、音声認識ユニット2
0により認識された発話内容を音声として出力するため
の信号に変換する。D/A変換部52は、音声変換部5
1にて変換された音声信号をアナログ信号に変換する。
D/A変換部52にてアナログ信号に変換された電気信
号は、音出力制御部53にて出力制御が行われて、スピ
ーカ54から音声出力される。これにより、操作者は、
音声認識ユニット20による音声認識結果を聴覚的に確
認することができる。
【0012】操作者は、音声認識ユニット20にて認識
された結果がスピーカ54から音声出力されている間に
発話することにより、音声認識ユニット20による認識
結果を変更することができる。記憶装置40には操作者
が音声入力した発話内容が記憶されており、音声認識ユ
ニット20は、記憶装置40に記憶されている内容と、
操作者が認識結果を修正するために再度入力した発話内
容とに基づいて、発話内容のいずれの単語を修正するの
かを判断する。すなわち、本発明による音声認識装置1
00によれば、音声認識ユニット20により入力された
音声を誤認識した場合でも、操作者は音声入力した一連
の言葉を全て再入力する必要がない。音声認識ユニット
20が誤認識した単語を修正する方法について、図2の
フローチャートを用いて説明する。
【0013】図2は、音声認識ユニット20により行わ
れる処理手順と操作者により行われる処理手順とを示す
一実施の形態のフローチャートである。以下では、本発
明による音声認識装置100をカーナビゲーション装置
に適用した場合について説明する。すなわち、カーナビ
ゲーション装置がルート検索を行うために操作者が目的
地を入力する際に、操作者が音声にて目的地の住所を入
力するものとする。住所を音声入力する際には、言語辞
書の階層構造に応じて、県名、市区町村名、町域名を順
次入力する必要がある。
【0014】操作者が音声入力を開始する時は、入力装
置30を用いて音声入力を開始する旨の指令を入力す
る。音声入力を開始する旨の指令が入力されることによ
り、音声認識ユニット20は音声認識を行うための待ち
受け状態に入るとともに、操作者に対して指令を受信し
た旨の確認応答を提示する。確認応答の提示は、例えば
スピーカ54から「ピッ」という音を発したり、図示し
ないディスプレイ、LEDを用いて視覚的に行うことが
できる。操作者は、この確認応答の提示を確認してか
ら、音声入力を開始する。ステップS100では、操作
者が音声入力装置10を用いて目的地の住所を音声入力
する。
【0015】音声認識ユニット20は、ステップS10
にて、音声入力があったか否かを判定する。音声信号を
検出して音声入力があったと判定するとステップS20
に進み、音声入力がないと判定するとステップS10で
待機する。ステップS20では、入力された音声に基づ
いて発話内容を解析する音声認識処理を行う。次のステ
ップS30では、ステップS20で音声認識処理を行っ
た結果を操作者に提示する。すなわち、音声認識ユニッ
ト20で音声認識処理が行われた結果は、テキスト信号
として音声出力装置50の音声変換部51に送られ、音
声変換部51にて公知の方法により音声信号に変換され
た後、スピーカ54から音声出力される。
【0016】スピーカ54から出力される音声は、言語
辞書と同じように階層構造に区切られる。例えば、音声
認識ユニット20が認識した音声が、「神奈川県横須賀
市夏島町1番地」の場合には、「神奈川県」と、「横須
賀市」と、「夏島町1番地」との間で区切られ、区切ら
れた箇所にポーズ(空白)が挿入されて音声出力され
る。後述するように、操作者は誤認識された単語が音声
出力されている間、もしくは、音声出力された後のポー
ズの間に正しい単語を再入力するため、ポーズの時間
は、操作者が誤認識された単語を訂正入力しやすいよう
に定めておく必要がある。
【0017】操作者は、ステップS30でスピーカ54
から出力される音声に基づいて、音声認識ユニット20
による認識結果が正しいか否かを判断する。すなわち、
ステップS110では、ステップS30で操作者が入力
した音声と、ステップS30でスピーカ54から出力さ
れる音声とが等しいか否かを判定する。操作者が認識結
果が正しくないと判定すると、ステップS120におい
て、音声による訂正入力を行う。すなわち、誤認識され
ている単語がスピーカ54から出力されている間、また
は、誤認識されている単語が出力されて次の単語が音声
出力されるまでのポーズの間に、音声入力を開始する旨
の指令を入力装置30を用いて入力した後、音声による
訂正入力を行う。一方、音声認識ユニット20による認
識結果が正しいと判断すると、操作者が訂正入力を行う
必要がない。
【0018】音声認識ユニット20は、ステップS40
にて再度音声入力があったか否か、すなわち、訂正入力
があったか否かを検出する。ステップS120で操作者
が音声による訂正入力を行うと、音声認識ユニット20
は、訂正入力された音声信号を検知してステップS50
に進む。一方、ステップS120で操作者による訂正入
力がなかった場合には、ステップS10に戻る。ステッ
プS50では、検出した音声信号に基づいて、再度音声
認識処理を行う。音声認識ユニット20は、操作者が音
声による訂正入力を行ったタイミングに基づいて、誤認
識した単語を検出するとともに、再入力された単語に基
づいて誤認識した単語を再度認識する。再認識の詳しい
方法は、図3を用いて後述する。再度音声認識処理を行
うとステップS60に進む。ステップS60では、ステ
ップS50で行った再音声認識処理結果を操作者に提示
する。
【0019】操作者は、ステップS60でスピーカ54
から出力される音声に基づいて、音声認識ユニット20
による認識結果が正しいか否かを判断する。すなわち、
ステップS130では、ステップS30で操作者が入力
した音声と、ステップS60でスピーカ54から出力さ
れる音声とが等しいか否かを判断する。操作者が、音声
認識ユニット20による再音声認識処理結果が正しいと
判断すると、音声認識処理を終了し、正しくないと判断
するとステップS120において、再度音声による訂正
入力を行う。
【0020】上述したフローチャートによる処理のう
ち、音声認識ユニット20による音声認識処理が誤りで
あった場合の訂正入力方法について説明する。図3は、
音声認識ユニット20が入力された音声を誤認識した場
合に、操作者が誤認識された単語を訂正入力する方法を
説明するための図である。図3の「処理1」に示すよう
に、操作者は「神奈川県横須賀市夏島町1番地」と音声
入力したが、音声認識ユニット20は「神奈川県横浜市
金沢区六浦町」と誤認識した。この場合、スピーカ54
からは、誤認識された「神奈川県横浜市金沢区六浦町」
が音声出力されるが、「神奈川県横浜市かなざ」まで音
声出力された時に操作者が認識結果の誤りに気付いたと
する。
【0021】音声認識ユニット20は、入力装置30に
より音声入力を開始する旨の指令があった時に音声出力
している単語を誤認識した単語と判断する。また、ポー
ズの間に音声入力を開始する旨の指令があった場合に
は、ポーズの直前に出力されていた単語を誤認識した単
語と判断する。従って、操作者は、「金沢区」と音声出
力されている間、または、「金沢区」と「六浦町」との
間のポーズの間に、入力装置30を用いて、音声入力を
開始する旨の指令を入力した後に、正しい単語を音声入
力する。図3の「処理2」では、「金沢区」と音声出力
されている間に「横須賀市」と音声入力している(処理
2)。
【0022】音声入力装置20は、「金沢区」と音声出
力している間に操作者から訂正入力があったので、市区
町村名階層辞書に登録されていた「横浜市金沢区」が誤
認識であると判断するとともに、1階層上位の「県名階
層辞書」に登録されていた「神奈川県」の音声認識は正
しいと判断する。従って、音声認識ユニット20は、神
奈川県の市区町村名階層辞書の中から、訂正入力された
「横須賀市」に対応する単語を検索する。図3の処理2
では、訂正入力された音声に対して「神奈川県横須賀
市」と再認識して音声出力している。
【0023】操作者は、スピーカ54から「神奈川県横
須賀市」と正しい認識結果が出力っされたのを確認した
後に、音声入力の開始指令に続いて「夏島町1番地」と
音声入力する(処理3)。この時、スピーカ54から
は、訂正入力された「神奈川県横須賀市」までしか音声
出力できないため、その後に入力された「夏島町1番
地」が直前に音声出力された「横須賀市」の訂正入力な
のか、「横須賀市」に続く音声入力なのかを判断するこ
とができない。従って、音声認識ユニット20は、「横
須賀市」が格納されている市区町村名階層辞書と、1つ
下位の階層の町域階層辞書とを用いて検索する。この時
に、入力された「夏島町1番地」に対して、例えば、市
区町村名階層辞書を用いて検索した結果が「中井町」で
あり、町域階層辞書を用いて検索した結果が「夏島町1
番地」であったとする。この場合、音声認識ユニット2
0は、音声入力された「夏島町1番地」と検索結果とし
て挙げられた両者の単語との一致度(認識スコア)を比
較し、一致度の高い「夏島町1番地」を入力された音声
と認識する。
【0024】図3の処理4では、訂正入力された音声の
認識結果である「神奈川県横須賀市夏島町1番地」をス
ピーカ54から音声出力している。操作者は、音声出力
された「神奈川県横須賀市夏島町1番地」が入力した音
声と同一であることを確認する。この場合、操作者が入
力装置30を用いて音声入力を開始する旨の指令を入力
しなければ、音声認識処理は終了する。
【0025】本実施の形態における音声認識装置100
によれば、操作者は、スピーカ54から出力される認識
結果に基づいて、音声認識処理結果が正しいか否かを確
認することができるとともに、誤認識された単語がある
場合に、入力装置30等を用いて訂正すべき単語を指定
することなく部分的な単語の修正入力を行うことができ
る。すなわち、本実施の形態における音声認識装置10
0が車に搭載されて使用される場合、操作者(運転者)
は、運転操作を行っている状態で、特別な操作を行うこ
となく、誤認識された単語を容易に修正することができ
る。
【0026】また、特開2000−56795号公報に
は、音声入力者が音声認識結果の一部を訂正することが
できる音声認識装置が開示されているが、ディスプレイ
に表示された認識結果のうち、訂正する箇所をマウス等
を用いて指示する必要があった。本実施の形態における
音声認識装置100によれば、訂正箇所をわざわざマウ
ス等を用いて指示する必要もなく、容易に修正をするこ
とができる。
【0027】本発明は、上述した一実施の形態に限定さ
れることはない。例えば、操作者が音声入力を開始する
際には、入力装置30を用いて音声入力を開始する旨の
信号を音声認識ユニット20に送信してから音声入力を
開始したが、操作者がそのような操作をすることなく、
音声入力を開始する構成としてもよい。この場合、音声
入力装置10は、音声出力装置50から認識音声等を出
力中でも、操作者の発話内容(入力音声)を正しく認識
するBarge-in機能を備えることが必要である。
【0028】操作者が入力装置30を操作することなく
音声入力を開始するシステムの場合、音声認識ユニット
20は、音声入力装置10を用いて音声による訂正入力
があった時に音声出力している単語を誤認識した単語と
判断する。また、ポーズの間に音声による訂正入力があ
った場合には、ポーズの直前に出力されていた単語を誤
認識した単語と判断する。
【0029】また、音声出力装置50から認識音声等を
出力中に操作者が音声入力を行う場合として、誤認識さ
れた単語を修正するための訂正入力を行う場合の他に、
新たな単語を入力する場合も考えられる。従って、音声
認識ユニット20は、音声出力装置50から認識音声が
出力されている間に音声入力された単語を、音声出力さ
れた単語が格納されている階層より下位の階層の言語辞
書を用いて検索し、入力された単語と一致する単語が存
在する場合には、修正のための単語ではなく、新たに入
力(追加)された単語と判断することもできる。
【0030】同様に、音声出力装置50から認識音声等
を出力された後に操作者が音声入力が行われる場合とし
て、誤認識された単語を修正するための訂正入力を行う
場合の他に、新たな単語を入力する場合も考えられる。
従って、音声認識ユニット20は、音声出力装置50か
ら認識音声が出力された後に音声入力された単語を、音
声出力された単語が格納されている階層より下位の階層
の言語辞書を用いて検索し、入力された単語と一致する
単語が存在する場合には、修正のための単語ではなく、
新たに入力(追加)された単語と判断することもでき
る。
【0031】音声認識ユニット20は、誤認識された単
語の再認識処理による認識結果の信頼性が低い場合、す
なわち、認識スコアが低い場合には、再認識処理に用い
られた階層より1つ上位の階層の言語辞書を用いて再認
識処理を行うようにしてもよい。この場合、1つ上位の
階層の言語辞書を用いた場合でも認識結果の信頼性が低
い場合には、さらに1つ上位の階層の言語辞書を用いて
再認識処理を行うこともできる。このような構成にすれ
ば、修正すべき単語と判断された単語が、操作者が修正
したい単語ではない場合に、1つ上位の階層、およびさ
らに上位の階層の言語辞書を用いて再帰的に再認識処理
を行うことができる。
【0032】音声認識処理が行われた結果は、テキスト
信号として音声出力装置の音声変換部51に送られた
が、音声合成にそのまま用いられる信号、例えば、メル
ケプストラム信号や周波数信号等を音声変換部51に送
ってもよい。さらに、テキスト信号を音声変換部51に
送る場合には、音声出力装置50による自然な音声出力
を実現するために、発話者(操作者)の韻律情報等をテ
キスト信号に付加することもできる。
【0033】音声認識ユニット20により認識された音
声は、言語辞書と同じように階層構造に区切られ、区切
られた箇所にポーズ(空白)が挿入されて音声出力され
たが、ポーズを挿入することなく連続した音声として出
力することもできる。ただし、操作者の訂正入力の容易
性を考慮すると、ポーズを挿入して音声出力することが
好ましい。
【0034】特許請求の範囲の構成要素と一実施の形態
の構成要素との対応関係は次の通りである。すなわち、
音声入力装置10が音声入力手段を、音声認識ユニット
20が音声認識手段および判定手段を、音声出力装置5
0が音声出力手段を、入力装置30が開始指示入力手段
を、記憶装置40が記憶手段をそれぞれ構成する。な
お、本発明の特徴的な機能を損なわない限り、各構成要
素は上記構成に限定されるものではない。
【図面の簡単な説明】
【図1】本発明による音声認識装置の一実施の形態の構
成を示す図
【図2】音声認識装置および操作者による処理手順を示
す一実施の形態のフローチャート
【図3】誤認識された単語の修正方法を説明するための
【図4】階層構造を有する言語辞書を示す図
【符号の説明】
10…音声入力装置、11…マイクロホン、12…音増
幅部、13…A/D変換部、20…音声認識装置、30
…入力装置、40…記憶装置、50…音声出力装置、5
1…音声変換部、52…D/A変換部、53…音出力制
御部、54…スピーカ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 寸田 剛司 神奈川県横浜市神奈川区宝町2番地 日産 自動車株式会社内 (72)発明者 渡辺 博司 神奈川県横浜市神奈川区宝町2番地 日産 自動車株式会社内 (72)発明者 大野 健 神奈川県横浜市神奈川区宝町2番地 日産 自動車株式会社内 Fターム(参考) 5D015 BB01 KK02 KK04 LL03 LL04 LL05 LL06

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】連続的な複数の単語を認識する音声認識装
    置において、 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声を認識する音声
    認識手段と、 前記音声認識手段により認識された音声を出力する音声
    出力手段と、 前記音声出力手段により認識音声が出力されている間
    に、再度入力される音声があるか否かを判定する判定手
    段とを備え、 前記音声認識手段は、前記認識音声が出力されている間
    に再度入力された音声があると前記判定手段により判定
    された場合に、前記再度入力された音声に基づいて単語
    修正を行うことを特徴とする音声認識装置。
  2. 【請求項2】請求項1に記載の音声認識装置において、 前記音声入力手段により音声入力を開始する際に用いら
    れ、前記音声入力を開始する旨の信号を前記音声認識手
    段に伝えるための開始指示入力手段をさらに備え、 前記音声認識手段は、前記音声出力手段により認識音声
    が出力されている間に、前記開始指示入力手段から前記
    音声入力を開始する旨の信号が入力された時に前記音声
    出力手段から出力されている単語を修正単語と判定する
    ことを特徴とする音声認識装置。
  3. 【請求項3】請求項1に記載の音声認識装置において、 前記音声入力手段により音声入力を開始する際に用いら
    れ、前記音声入力を開始する旨の信号を前記音声認識手
    段に伝えるための開始指示入力手段をさらに備え、 前記音声認識手段は、前記音声出力手段により認識音声
    が出力されている間に、前記開始指示入力手段から前記
    音声入力を開始する旨の信号が入力された時に前記音声
    出力手段から出力されている単語より以前に出力されて
    いる単語を修正すべき単語と判定することを特徴とする
    音声認識装置。
  4. 【請求項4】請求項1に記載の音声認識装置において、 前記音声認識手段は、前記音声出力手段により認識音声
    が出力されている間に前記音声入力手段により音声入力
    された時に、前記音声出力手段から出力されている単語
    を修正すべき単語と判定することを特徴とする音声認識
    装置。
  5. 【請求項5】請求項1に記載の音声認識装置において、 前記音声認識手段は、前記音声出力手段により認識音声
    が出力されている間に前記音声入力手段により再度音声
    入力された時に、前記音声出力手段から出力されている
    単語より以前に出力されている単語を修正すべき単語と
    判定することを特徴とする音声認識装置。
  6. 【請求項6】請求項1〜5のいずれかに記載の音声認識
    装置において、 前記連続的に音声入力される複数の単語が単語ごとに階
    層構造にて格納されている言語辞書と、 前記音声入力された連続的な単語を一時的に記憶する記
    憶手段とをさらに備え、 前記音声認識手段は、前記記憶手段により記憶されてい
    る単語と、前記修正すべき単語と判断された単語が記憶
    されている階層の言語辞書とを用いて、再認識処理を行
    うことを特徴とする音声認識装置。
  7. 【請求項7】請求項6に記載の音声認識装置において、 前記音声認識手段は、前記再認識処理による認識結果の
    信頼性が低い場合には、前記再認識処理に用いられた言
    語辞書よりも一つ上の階層の言語辞書を用いて再認識処
    理を行うことを特徴とする音声認識装置。
  8. 【請求項8】請求項6に記載の音声認識装置において、 前記音声認識手段は、前記再認識処理による認識結果の
    信頼性が低く、さらに一つ上の階層の言語辞書を用いて
    再認識処理を行った場合でも認識結果の信頼性が低い場
    合には、さらに一つ上の階層の言語辞書を用いて再帰的
    に再認識処理を行うことを特徴とする音声認識装置。
  9. 【請求項9】請求項6〜8のいずれかに記載の音声認識
    装置において、 前記音声出力手段は、前記認識音声を出力する際に、前
    記言語辞書の階層ごとに記憶されている単語間にポーズ
    を挿入することを特徴とする音声認識装置。
  10. 【請求項10】請求項9に記載の音声認識装置におい
    て、 前記音声出力手段は、前記ポーズの間に前記開始指示入
    力手段から前記音声入力を開始する旨の信号が入力され
    た時に、前記ポーズの前に前記音声出力手段から出力さ
    れていた単語を修正すべき単語と判定することを特徴と
    する音声認識装置。
  11. 【請求項11】請求項9に記載の音声認識装置におい
    て、 前記音声出力手段は、前記ポーズの間に前記音声入力手
    段により再度音声入力された時に、前記ポーズの前に前
    記音声出力手段から出力されていた単語を修正すべき単
    語と判定することを特徴とする音声認識装置。
  12. 【請求項12】請求項6〜11のいずれかに記載の音声
    認識装置において、 前記音声出力手段により認識音声が出力されている間に
    前記音声入力手段により入力された単語があり、前記音
    声出力手段より出力されている単語が格納されている階
    層より下位の階層の言語辞書に前記入力された単語が存
    在する場合には、前記入力された単語は修正のための単
    語ではなく、新たに追加された単語であると判定するこ
    とを特徴とする音声認識装置。
  13. 【請求項13】請求項6〜12のいずれかに記載の音声
    認識装置において、 前記音声出力手段により認識音声が出力された後に前記
    音声入力手段より入力された単語があり、前記音声出力
    手段より出力された単語が格納されている階層より下位
    の階層の言語辞書に前記入力された単語が存在する場合
    には、前記入力された単語は修正のための単語ではな
    く、新たに追加された単語であると判定することを特徴
    とする音声認識装置。
  14. 【請求項14】請求項6〜13のいずれかに記載の音声
    認識装置において、 前記音声認識手段は、前記再度入力された音声に対し
    て、前記各階層ごとの言語辞書を用いて認識処理を行っ
    た結果、最も信頼性の高い認識結果を正しい認識結果と
    判定することを特徴とする音声認識装置。
JP2002135083A 2002-05-10 2002-05-10 音声認識装置 Pending JP2003330488A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002135083A JP2003330488A (ja) 2002-05-10 2002-05-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002135083A JP2003330488A (ja) 2002-05-10 2002-05-10 音声認識装置

Publications (1)

Publication Number Publication Date
JP2003330488A true JP2003330488A (ja) 2003-11-19

Family

ID=29697499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002135083A Pending JP2003330488A (ja) 2002-05-10 2002-05-10 音声認識装置

Country Status (1)

Country Link
JP (1) JP2003330488A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7310602B2 (en) 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
JP2008145697A (ja) * 2006-12-08 2008-06-26 Mitsubishi Electric Corp 音声情報選択装置及び音声情報選択方法
JP2009047920A (ja) * 2007-08-20 2009-03-05 Toshiba Corp ユーザと音声により対話する装置および方法
KR101042917B1 (ko) 2009-05-27 2011-06-20 디브이에스 코리아 주식회사 음성 및 번호 입력을 통한 주소 검색장치 및 방법
JP2019008274A (ja) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体
WO2023163489A1 (ko) * 2022-02-25 2023-08-31 삼성전자 주식회사 사용자의 음성 입력을 처리하는 방법 및 이를 위한 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7310602B2 (en) 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
JP2008145697A (ja) * 2006-12-08 2008-06-26 Mitsubishi Electric Corp 音声情報選択装置及び音声情報選択方法
JP2009047920A (ja) * 2007-08-20 2009-03-05 Toshiba Corp ユーザと音声により対話する装置および方法
KR101042917B1 (ko) 2009-05-27 2011-06-20 디브이에스 코리아 주식회사 음성 및 번호 입력을 통한 주소 검색장치 및 방법
JP2019008274A (ja) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体
WO2023163489A1 (ko) * 2022-02-25 2023-08-31 삼성전자 주식회사 사용자의 음성 입력을 처리하는 방법 및 이를 위한 장치

Similar Documents

Publication Publication Date Title
EP1050872B1 (en) Method and system for selecting recognized words when correcting recognized speech
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
JP4790024B2 (ja) 音声認識装置
JP4859982B2 (ja) 音声認識装置
US7617106B2 (en) Error detection for speech to text transcription systems
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2005503590A (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
JP3702867B2 (ja) 音声制御装置
US20070005358A1 (en) Method for determining a list of hypotheses from a vocabulary of a voice recognition system
US20030065516A1 (en) Voice recognition system, program and navigation system
US6879953B1 (en) Speech recognition with request level determination
US6721702B2 (en) Speech recognition method and device
JP2003330488A (ja) 音声認識装置
JP4262837B2 (ja) 音声認識機能を用いたナビゲーション方法
JP4604377B2 (ja) 音声認識装置
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP3718088B2 (ja) 音声認識修正方式
JP3849283B2 (ja) 音声認識装置
JP4212947B2 (ja) 音声認識システムおよび音声認識の訂正・学習方法
JP4736423B2 (ja) 音声認識装置および音声認識方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
JPH11109989A (ja) 音声認識装置
JPH11184495A (ja) 音声認識装置
JP2005114964A (ja) 音声認識方法および音声認識処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071030