JPH11338493A - 情報処理装置および方法、並びに提供媒体 - Google Patents
情報処理装置および方法、並びに提供媒体Info
- Publication number
- JPH11338493A JPH11338493A JP14374598A JP14374598A JPH11338493A JP H11338493 A JPH11338493 A JP H11338493A JP 14374598 A JP14374598 A JP 14374598A JP 14374598 A JP14374598 A JP 14374598A JP H11338493 A JPH11338493 A JP H11338493A
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- recognition result
- correction
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【課題】 音声認識結果の修正をより迅速に行えるよう
にする。 【解決手段】 入力キー4−2は、新規に音声を入力す
るとき操作される。修正キー4−3は、表示部3−1に
表示されている未確定の認識結果を修正するための音声
を入力するとき操作される。いまの場合、表示部3−1
には、入力された2つの文章が表示されており、2つの
文章のうち、上側に表示されている文章は、既に確定さ
れているものである。一方、その下に反転表示されてい
る文章は、ユーザが入力キー4−2を操作して音声で入
力した直後の未確定のものであり、修正することが可能
な状態とされている。この状態で修正を行う場合、ユー
ザは、修正キー4−3を操作しながら、修正したい箇所
のみを発話する。例えば、「今日は5時から開始です」
の「開始」の部分を「会議」に修正する場合、ユーザ
は、修正キー4−3を操作している間に、「会議」と発
話する。
にする。 【解決手段】 入力キー4−2は、新規に音声を入力す
るとき操作される。修正キー4−3は、表示部3−1に
表示されている未確定の認識結果を修正するための音声
を入力するとき操作される。いまの場合、表示部3−1
には、入力された2つの文章が表示されており、2つの
文章のうち、上側に表示されている文章は、既に確定さ
れているものである。一方、その下に反転表示されてい
る文章は、ユーザが入力キー4−2を操作して音声で入
力した直後の未確定のものであり、修正することが可能
な状態とされている。この状態で修正を行う場合、ユー
ザは、修正キー4−3を操作しながら、修正したい箇所
のみを発話する。例えば、「今日は5時から開始です」
の「開始」の部分を「会議」に修正する場合、ユーザ
は、修正キー4−3を操作している間に、「会議」と発
話する。
Description
【0001】
【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに提供媒体に関し、特に、音声認識の認識
結果を修正する場合において、より容易に修正箇所を指
定し、もって、より迅速に誤りを修正することができる
ようにした、情報処理装置および方法、並びに提供媒体
に関する。
び方法、並びに提供媒体に関し、特に、音声認識の認識
結果を修正する場合において、より容易に修正箇所を指
定し、もって、より迅速に誤りを修正することができる
ようにした、情報処理装置および方法、並びに提供媒体
に関する。
【0002】
【従来の技術】最近、スケジュールや、住所録などの個
人情報を管理するためのPIM(Personal Information Ma
nager)としては、電子手帳やPDA(Personal Digital A
ssistant)などがある。また、ソフトウェアで構成され
たPIMをパーソナルコンピュータで実行させて使用する
場合もある。本明細書では、これらを個人情報管理装置
と総称する。
人情報を管理するためのPIM(Personal Information Ma
nager)としては、電子手帳やPDA(Personal Digital A
ssistant)などがある。また、ソフトウェアで構成され
たPIMをパーソナルコンピュータで実行させて使用する
場合もある。本明細書では、これらを個人情報管理装置
と総称する。
【0003】これらの個人情報管理装置では、ユーザイ
ンタフェースの向上のため、表示部と一体に形成された
タッチパネル(タッチタブレット)を備えるものや、音
声認識機能を備えるものが実用化されている。音声認識
機能を備える個人情報管理装置では、ユーザは、管理し
たい情報やコマンドなどを音声で入力することができ
る。
ンタフェースの向上のため、表示部と一体に形成された
タッチパネル(タッチタブレット)を備えるものや、音
声認識機能を備えるものが実用化されている。音声認識
機能を備える個人情報管理装置では、ユーザは、管理し
たい情報やコマンドなどを音声で入力することができ
る。
【0004】ところが、実際には、100%の精度の音
声認識は難しく、通常、認識結果をユーザに提示し、そ
の正誤を確認させるようになされている。認識結果に誤
りがある場合、ユーザがその一部または全部を修正する
必要がある。
声認識は難しく、通常、認識結果をユーザに提示し、そ
の正誤を確認させるようになされている。認識結果に誤
りがある場合、ユーザがその一部または全部を修正する
必要がある。
【0005】従来では、認識結果を表示部に表示させ、
その認識結果に誤りがある場合、ユーザが、装置に備え
付けのボタンやキー等の操作部を操作して修正箇所を指
定したり、タッチペン(または指)を用いて上述したタ
ッチパネルを介して修正箇所を指定していた。
その認識結果に誤りがある場合、ユーザが、装置に備え
付けのボタンやキー等の操作部を操作して修正箇所を指
定したり、タッチペン(または指)を用いて上述したタ
ッチパネルを介して修正箇所を指定していた。
【0006】
【発明が解決しようとする課題】しかしながら、このよ
うな修正箇所の指定操作は煩雑であり、情報の迅速な入
力が妨げられてしまう課題があった。
うな修正箇所の指定操作は煩雑であり、情報の迅速な入
力が妨げられてしまう課題があった。
【0007】本発明はこのような状況に鑑みてなされた
ものであり、より迅速に認識結果の修正をできるように
するものである。
ものであり、より迅速に認識結果の修正をできるように
するものである。
【0008】
【課題を解決するための手段】請求項1に記載の情報処
理装置は、音声を入力する第1の入力手段と、第1の入
力手段により入力された音声から特徴量を抽出する抽出
手段と、抽出手段により抽出された特徴量に対応して、
音声を認識する認識手段と、認識手段による認識結果に
修正すべき部分が存在する場合において、修正すべき部
分に対する音声を入力する第2の入力手段と、第2の入
力手段により入力された音声に対応して、認識結果を修
正する修正手段とを備えることを特徴とする。
理装置は、音声を入力する第1の入力手段と、第1の入
力手段により入力された音声から特徴量を抽出する抽出
手段と、抽出手段により抽出された特徴量に対応して、
音声を認識する認識手段と、認識手段による認識結果に
修正すべき部分が存在する場合において、修正すべき部
分に対する音声を入力する第2の入力手段と、第2の入
力手段により入力された音声に対応して、認識結果を修
正する修正手段とを備えることを特徴とする。
【0009】請求項5に記載の情報処理方法は、音声を
入力する第1の入力ステップと、第1の入力ステップで
入力された音声から特徴量を抽出する抽出ステップと、
抽出ステップで抽出された特徴量に対応して、音声を認
識する認識ステップと、認識ステップにおける認識結果
に修正すべき部分が存在する場合において、修正すべき
部分に対する音声を入力する第2の入力ステップと、第
2の入力ステップで入力された音声に対応して、認識結
果を修正する修正ステップとを含むことを特徴とする。
入力する第1の入力ステップと、第1の入力ステップで
入力された音声から特徴量を抽出する抽出ステップと、
抽出ステップで抽出された特徴量に対応して、音声を認
識する認識ステップと、認識ステップにおける認識結果
に修正すべき部分が存在する場合において、修正すべき
部分に対する音声を入力する第2の入力ステップと、第
2の入力ステップで入力された音声に対応して、認識結
果を修正する修正ステップとを含むことを特徴とする。
【0010】請求項6に記載の提供媒体は、音声を入力
する第1の入力ステップと、第1の入力ステップで入力
された音声から特徴量を抽出する抽出ステップと、抽出
ステップで抽出された特徴量に対応して、音声を認識す
る認識ステップと、認識ステップにおける認識結果に修
正すべき部分が存在する場合において、修正すべき部分
に対する音声を入力する第2の入力ステップと、第2の
入力ステップで入力された音声に対応して、認識結果を
修正する修正ステップとを含む処理を情報処理装置に実
行させるコンピュータが読み取り可能なプログラムを提
供することを特徴とする。
する第1の入力ステップと、第1の入力ステップで入力
された音声から特徴量を抽出する抽出ステップと、抽出
ステップで抽出された特徴量に対応して、音声を認識す
る認識ステップと、認識ステップにおける認識結果に修
正すべき部分が存在する場合において、修正すべき部分
に対する音声を入力する第2の入力ステップと、第2の
入力ステップで入力された音声に対応して、認識結果を
修正する修正ステップとを含む処理を情報処理装置に実
行させるコンピュータが読み取り可能なプログラムを提
供することを特徴とする。
【0011】請求項1に記載の情報処理装置、請求項5
に記載の情報処理方法、および請求項6に記載の提供媒
体においては、入力された音声から特徴が抽出され、抽
出された特徴量に対応して音声が認識され、認識結果に
修正すべき部分が存在する場合において、修正すべき部
分に対する音声が入力され、それに対応して、認識結果
が修正される。
に記載の情報処理方法、および請求項6に記載の提供媒
体においては、入力された音声から特徴が抽出され、抽
出された特徴量に対応して音声が認識され、認識結果に
修正すべき部分が存在する場合において、修正すべき部
分に対する音声が入力され、それに対応して、認識結果
が修正される。
【0012】
【発明の実施の形態】以下に本発明の実施の形態を説明
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態(但し一例)を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。
するが、特許請求の範囲に記載の発明の各手段と以下の
実施の形態との対応関係を明らかにするために、各手段
の後の括弧内に、対応する実施の形態(但し一例)を付
加して本発明の特徴を記述すると、次のようになる。但
し勿論この記載は、各手段を記載したものに限定するこ
とを意味するものではない。
【0013】請求項1に記載の情報処理装置は、音声を
入力する第1の入力手段(例えば、図2の入力キー4−
2)と、第1の入力手段により入力された音声から特徴
量を抽出する抽出手段(例えば、図2の音声分析部1
2)と、抽出手段により抽出された特徴量に対応して、
音声を認識する認識手段(例えば、図2のCPU13)
と、認識手段による認識結果に修正すべき部分が存在す
る場合において、修正すべき部分に対する音声を入力す
る第2の入力手段(例えば、図2の修正キー4−3)
と、第2の入力手段により入力された音声に対応して、
認識結果を修正する修正手段(例えば、図2のCPU1
3)とを備えることを特徴とする。
入力する第1の入力手段(例えば、図2の入力キー4−
2)と、第1の入力手段により入力された音声から特徴
量を抽出する抽出手段(例えば、図2の音声分析部1
2)と、抽出手段により抽出された特徴量に対応して、
音声を認識する認識手段(例えば、図2のCPU13)
と、認識手段による認識結果に修正すべき部分が存在す
る場合において、修正すべき部分に対する音声を入力す
る第2の入力手段(例えば、図2の修正キー4−3)
と、第2の入力手段により入力された音声に対応して、
認識結果を修正する修正手段(例えば、図2のCPU1
3)とを備えることを特徴とする。
【0014】請求項4に記載の情報処理装置は、認識結
果の修正を命令するための特定のコマンドを予め記憶す
る記憶手段(例えば、図2のROM14)をさらに備え、
修正手段は、記憶手段に記憶されているコマンドに対応
する音声が第1の入力手段または第2の入力手段により
入力された場合、コマンドに対応する音声に継続して入
力される音声を認識結果の修正箇所として、認識結果を
修正することを特徴とする。
果の修正を命令するための特定のコマンドを予め記憶す
る記憶手段(例えば、図2のROM14)をさらに備え、
修正手段は、記憶手段に記憶されているコマンドに対応
する音声が第1の入力手段または第2の入力手段により
入力された場合、コマンドに対応する音声に継続して入
力される音声を認識結果の修正箇所として、認識結果を
修正することを特徴とする。
【0015】図1は、本発明の情報処理装置を適用した
個人情報管理装置の構成例を示す外観図である。この個
人情報管理装置の本体1には、音声を入力するためのマ
イクロフォン2、所定の画像を表示するための表示部3
−1、および操作キー4が設けられている。表示部3−
1の表面上には、ユーザがタッチペン5または指などを
用いて接触することにより指示された位置に対応する信
号を出力する、いわゆるタッチパネル3−2が配置され
ている。このタッチパネル3−2は、ガラスまたは樹脂
等の透明な材料により構成されており、ユーザは、表示
部3−1に表示される画像を、タッチパネル3−2を介
して見ることができる。また、ユーザは、タッチペン5
を用いて、タッチパネル3−2に所定の文字を入力(記
述)したり、表示部3−1に表示されている所定のオブ
ジェクト(アイコン)の選択または実行などを行うこと
ができる。
個人情報管理装置の構成例を示す外観図である。この個
人情報管理装置の本体1には、音声を入力するためのマ
イクロフォン2、所定の画像を表示するための表示部3
−1、および操作キー4が設けられている。表示部3−
1の表面上には、ユーザがタッチペン5または指などを
用いて接触することにより指示された位置に対応する信
号を出力する、いわゆるタッチパネル3−2が配置され
ている。このタッチパネル3−2は、ガラスまたは樹脂
等の透明な材料により構成されており、ユーザは、表示
部3−1に表示される画像を、タッチパネル3−2を介
して見ることができる。また、ユーザは、タッチペン5
を用いて、タッチパネル3−2に所定の文字を入力(記
述)したり、表示部3−1に表示されている所定のオブ
ジェクト(アイコン)の選択または実行などを行うこと
ができる。
【0016】操作部4は、確定キー4−1、入力キー4
−2、および修正キー4−3の3つのキーにより構成さ
れている。確定キー4−1は、表示部3−1に表示され
ている未確定状態の認識結果を確定するとき操作され
る。入力キー4−2は、新規に音声を入力するとき操作
される。修正キー4−3は、表示部3−1に表示されて
いる未確定の認識結果を修正するための音声を入力する
とき操作される。
−2、および修正キー4−3の3つのキーにより構成さ
れている。確定キー4−1は、表示部3−1に表示され
ている未確定状態の認識結果を確定するとき操作され
る。入力キー4−2は、新規に音声を入力するとき操作
される。修正キー4−3は、表示部3−1に表示されて
いる未確定の認識結果を修正するための音声を入力する
とき操作される。
【0017】図1の表示例の場合、表示部3−1には、
ユーザが入力キー4−2を操作して入力した音声が認識
された2つの文章が表示されており、2つの文章のう
ち、上側に表示されている文章(黒字)は、既に確定さ
れているものである。一方、その下に反転表示されてい
る文章は、ユーザが入力キー4−2を操作して音声を入
力した直後の未確定のものであり、修正することが可能
な状態とされている。この状態で修正を行う場合、ユー
ザは、修正キー4−3を操作(押下)しながら、修正し
たい箇所のみを発話する。例えば、「今日は5時から開
始です」の「開始」の部分を「会議」に修正する場合、
ユーザは、修正キー4−3を操作しながら、「会議」と
発話し、発話が終了したら、修正キー4−3の操作を停
止する(押下していた修正キー4−3を戻す)。
ユーザが入力キー4−2を操作して入力した音声が認識
された2つの文章が表示されており、2つの文章のう
ち、上側に表示されている文章(黒字)は、既に確定さ
れているものである。一方、その下に反転表示されてい
る文章は、ユーザが入力キー4−2を操作して音声を入
力した直後の未確定のものであり、修正することが可能
な状態とされている。この状態で修正を行う場合、ユー
ザは、修正キー4−3を操作(押下)しながら、修正し
たい箇所のみを発話する。例えば、「今日は5時から開
始です」の「開始」の部分を「会議」に修正する場合、
ユーザは、修正キー4−3を操作しながら、「会議」と
発話し、発話が終了したら、修正キー4−3の操作を停
止する(押下していた修正キー4−3を戻す)。
【0018】図2は、図1の個人情報管理装置の内部の
電気的な構成例を示すブロック図である。この例におい
て、マイクロフォン2は、ユーザが発話した音声をアナ
ログの電圧信号に変換し、音声信号としてA/D変換部
11に出力する。A/D変換部11は、マイクロフォン
2より供給された音声信号をA/D変換し、音声分析部
12に出力するようになされている。音声分析部12
は、A/D変換部11より供給された音声信号から、音
声認識に必要な特徴量の抽出を行い、分析データとして
CPU13に出力する。
電気的な構成例を示すブロック図である。この例におい
て、マイクロフォン2は、ユーザが発話した音声をアナ
ログの電圧信号に変換し、音声信号としてA/D変換部
11に出力する。A/D変換部11は、マイクロフォン
2より供給された音声信号をA/D変換し、音声分析部
12に出力するようになされている。音声分析部12
は、A/D変換部11より供給された音声信号から、音
声認識に必要な特徴量の抽出を行い、分析データとして
CPU13に出力する。
【0019】特徴量の抽出としては、例えば、音声信号
のエネルギー、零交差数、またはピッチなどの抽出を行
ったり、線形予測分析(LPC:Linear Predictive Codin
g)、高速フーリエ変換(FFT:Fast Fourie Transfor
m)、バンドパスフィルタ群によるフィルタバンク分
析、またはWavlet変換などを用いて周波数分析し、帯域
分割されたエネルギーを要素とするベクトル時系列を特
徴量として抽出することが考えられる。また、得られた
特徴量に対し、K-L(Karhunen-Loeve)変換や、ニュー
ラルネットワーク等の写像を施すことで、分離度のより
大きな特徴量に変換する場合もある。さらに、特徴量
(特徴ベクトル)を圧縮し、量子化する場合もある。
のエネルギー、零交差数、またはピッチなどの抽出を行
ったり、線形予測分析(LPC:Linear Predictive Codin
g)、高速フーリエ変換(FFT:Fast Fourie Transfor
m)、バンドパスフィルタ群によるフィルタバンク分
析、またはWavlet変換などを用いて周波数分析し、帯域
分割されたエネルギーを要素とするベクトル時系列を特
徴量として抽出することが考えられる。また、得られた
特徴量に対し、K-L(Karhunen-Loeve)変換や、ニュー
ラルネットワーク等の写像を施すことで、分離度のより
大きな特徴量に変換する場合もある。さらに、特徴量
(特徴ベクトル)を圧縮し、量子化する場合もある。
【0020】ROM14またはRAM15には、学習用の音声
信号を音響分析して得られる特徴量をもとに作成された
パラメータ(音声学習データ)と、音声認識用辞書デー
タが記憶されている。CPU13は、音声分析部12より
供給された分析データを一旦RAM15に格納し、これに
対して、ROM14またはRAM15に記憶されている音声学
習データと音声認識用辞書を参照して認識処理を行い、
認識結果に対応するテキストデータを作成する。認識処
理としては、例えば、DP(Dynamic Programming)マ
ッチング、ニューラルネットワーク、またはHMM(Hi
dden Markov Model)などを用いたものが考えられる。
また、文章全体を認識対象とする場合、2レベルDPマ
ッチングを適用することも考えられる。CPU13により
作成されたテキストデータは、表示制御部16に出力さ
れ、表示部3−1に表示される。また、CPU13は、ROM
14に記憶されているアプリケーションプログラムを実
行するようになされている。
信号を音響分析して得られる特徴量をもとに作成された
パラメータ(音声学習データ)と、音声認識用辞書デー
タが記憶されている。CPU13は、音声分析部12より
供給された分析データを一旦RAM15に格納し、これに
対して、ROM14またはRAM15に記憶されている音声学
習データと音声認識用辞書を参照して認識処理を行い、
認識結果に対応するテキストデータを作成する。認識処
理としては、例えば、DP(Dynamic Programming)マ
ッチング、ニューラルネットワーク、またはHMM(Hi
dden Markov Model)などを用いたものが考えられる。
また、文章全体を認識対象とする場合、2レベルDPマ
ッチングを適用することも考えられる。CPU13により
作成されたテキストデータは、表示制御部16に出力さ
れ、表示部3−1に表示される。また、CPU13は、ROM
14に記憶されているアプリケーションプログラムを実
行するようになされている。
【0021】表示制御部16は、認識結果としてのテキ
ストデータや、図形、記号などのデータをCPU13から
受け取り、これらを用いて表示すべき画像を描画し、表
示部3−1に表示させるようになされている。入力検出
部17は、タッチタブレット3−2、確定キー4−1、
入力キー4−2、および修正キー4−3が接続されてお
り、ユーザによるこれらの操作を検出し、対応する信号
をCPU13に出力するようになされている。
ストデータや、図形、記号などのデータをCPU13から
受け取り、これらを用いて表示すべき画像を描画し、表
示部3−1に表示させるようになされている。入力検出
部17は、タッチタブレット3−2、確定キー4−1、
入力キー4−2、および修正キー4−3が接続されてお
り、ユーザによるこれらの操作を検出し、対応する信号
をCPU13に出力するようになされている。
【0022】図3は、図2の個人情報管理装置の他の構
成例を示す図であり、図2に示した場合と対応する部分
には、同一の符号を付してあり、その説明は適宜省略す
る。この例においては、さらに、音声合成部18とスピ
ーカ19が新たに設けられている。音声合成部18は、
例えば、CPU13が出力したテキストデータ(認識結
果)に対応する音声信号を合成し、スピーカ19を介し
て出力するようになされている。ユーザは、スピーカ1
9より出力される音声に対応して、認識結果の正誤を判
断することができる。なお、その他の構成は、図2に示
した場合と同様とされている。
成例を示す図であり、図2に示した場合と対応する部分
には、同一の符号を付してあり、その説明は適宜省略す
る。この例においては、さらに、音声合成部18とスピ
ーカ19が新たに設けられている。音声合成部18は、
例えば、CPU13が出力したテキストデータ(認識結
果)に対応する音声信号を合成し、スピーカ19を介し
て出力するようになされている。ユーザは、スピーカ1
9より出力される音声に対応して、認識結果の正誤を判
断することができる。なお、その他の構成は、図2に示
した場合と同様とされている。
【0023】次に、図4のフローチャートを参照して、
図2に示した個人情報管理装置の動作を説明する。ま
ず、ステップS1において、ユーザによる操作部4の所
定のキーの操作が待機される。操作部4が操作される
と、ステップS2に進み、ユーザにより操作されたキー
が、入力キー4−2であるか否かが判定され、ユーザが
入力キー4−2を操作したと判定された場合、ステップ
S3に進む。ステップS3において、表示部3−1に表
示されている認識結果の中に、未確定の認識結果がある
か否かが判定され、未確定の認識結果は存在しないと判
定された場合、ステップS5に進む。一方、ステップS
3において、未確定の認識結果が存在すると判定された
場合、ステップS4で、未確定の認識結果が確定された
後、ステップS5に進む。即ち、未確定の認識結果が存
在する状態において、ユーザが入力キー4−1を操作し
て新たな音声を入力すると、未確定認識結果が自動的に
確定される。
図2に示した個人情報管理装置の動作を説明する。ま
ず、ステップS1において、ユーザによる操作部4の所
定のキーの操作が待機される。操作部4が操作される
と、ステップS2に進み、ユーザにより操作されたキー
が、入力キー4−2であるか否かが判定され、ユーザが
入力キー4−2を操作したと判定された場合、ステップ
S3に進む。ステップS3において、表示部3−1に表
示されている認識結果の中に、未確定の認識結果がある
か否かが判定され、未確定の認識結果は存在しないと判
定された場合、ステップS5に進む。一方、ステップS
3において、未確定の認識結果が存在すると判定された
場合、ステップS4で、未確定の認識結果が確定された
後、ステップS5に進む。即ち、未確定の認識結果が存
在する状態において、ユーザが入力キー4−1を操作し
て新たな音声を入力すると、未確定認識結果が自動的に
確定される。
【0024】ステップS5において、入力キー4−2が
継続して操作されている間にユーザが発話した音声が、
マイクロフォン2とA/D変換部11を介して、音声分
析部11に入力され、音声分析部11は、入力された音
声信号から特徴量を抽出し、分析データとしてCPU13
に出力する。入力キー4−2の操作が戻されると、音声
の入力が停止され、ステップS6に進む。
継続して操作されている間にユーザが発話した音声が、
マイクロフォン2とA/D変換部11を介して、音声分
析部11に入力され、音声分析部11は、入力された音
声信号から特徴量を抽出し、分析データとしてCPU13
に出力する。入力キー4−2の操作が戻されると、音声
の入力が停止され、ステップS6に進む。
【0025】ステップS6において、CPU13は、音声
分析部11より供給される分析データに対して音声認識
処理を実行し、認識結果を表示制御部16に出力する。
ステップS7において、表示制御部16は、CPU13よ
り供給された認識結果を未確定状態で表示部3−1に表
示する(反転表示する)。その後、ステップS1に戻
り、以降の処理が再び実行される。
分析部11より供給される分析データに対して音声認識
処理を実行し、認識結果を表示制御部16に出力する。
ステップS7において、表示制御部16は、CPU13よ
り供給された認識結果を未確定状態で表示部3−1に表
示する(反転表示する)。その後、ステップS1に戻
り、以降の処理が再び実行される。
【0026】ステップS2において、ユーザにより操作
されたキーが、入力キー4−2ではないと判定された場
合、ステップS8に進み、操作されたキーが修正キー4
−3であるか否かが判定される。ステップS8におい
て、ユーザにより操作されたキーが修正キー4−3であ
ると判定された場合、ステップS9に進み、修正キー4
−3が操作されている間にユーザが発話した音声が、マ
イクロフォン2とA/D変換部11を介して、音声分析
部11に入力され、音声分析部11は、入力された音声
信号から特徴量を抽出し、分析データとしてCPU13に
出力する。
されたキーが、入力キー4−2ではないと判定された場
合、ステップS8に進み、操作されたキーが修正キー4
−3であるか否かが判定される。ステップS8におい
て、ユーザにより操作されたキーが修正キー4−3であ
ると判定された場合、ステップS9に進み、修正キー4
−3が操作されている間にユーザが発話した音声が、マ
イクロフォン2とA/D変換部11を介して、音声分析
部11に入力され、音声分析部11は、入力された音声
信号から特徴量を抽出し、分析データとしてCPU13に
出力する。
【0027】ステップS10に進み、CPU13は、RAM1
5に記憶されている未確定の認識結果の特徴量と、音声
分析部11より供給された分析データの特徴量を比較
し、修正部分を決定する。いま、ユーザが入力キー4−
2を操作して入力した音声「今日は5時から会議です」
が、「今日は5時から開始です」と誤って認識され、未
確定の認識結果として、表示部3−1に表示されている
ものとする。RAM15に記憶されている未確定の認識結
果の特徴量(パワー成分)の波形の例は図5(A)に示
されている。いまの場合、ユーザは、「開始」を「会
議」に変更したいので、修正キー4−3を操作しなが
ら、音声「会議」を入力する。この「会議」に対応する
特徴量の波形は、図5(B)に示されている。
5に記憶されている未確定の認識結果の特徴量と、音声
分析部11より供給された分析データの特徴量を比較
し、修正部分を決定する。いま、ユーザが入力キー4−
2を操作して入力した音声「今日は5時から会議です」
が、「今日は5時から開始です」と誤って認識され、未
確定の認識結果として、表示部3−1に表示されている
ものとする。RAM15に記憶されている未確定の認識結
果の特徴量(パワー成分)の波形の例は図5(A)に示
されている。いまの場合、ユーザは、「開始」を「会
議」に変更したいので、修正キー4−3を操作しなが
ら、音声「会議」を入力する。この「会議」に対応する
特徴量の波形は、図5(B)に示されている。
【0028】CPU13は、この2つの特徴量を比較(照
合)し、最も近似している波形の対応付け(キーワード
スポッティング)の決定を行う。対応付けを決定する方
法としては、例えば、連続DPマッチングを用いること
が考えられる。連続DPマッチングは、単語音声認識の
ための手法として知られているDPマッチング法を応用
したものであり、照合の対称となるデータの始端と終端
が不明な場合に用いられる手法である。これを用いた場
合、CPU13は、未確定状態の音声データの特徴量(図
5(A))に対して、その始端から終端まで、単位時間
づつ照合位置をずらしながら、修正のための音声の特徴
量(図5(B))とのDPマッチングを行う。なお、対
応付けの決定は、連続DPマッチング以外の方法を用い
るようにしてもよい。
合)し、最も近似している波形の対応付け(キーワード
スポッティング)の決定を行う。対応付けを決定する方
法としては、例えば、連続DPマッチングを用いること
が考えられる。連続DPマッチングは、単語音声認識の
ための手法として知られているDPマッチング法を応用
したものであり、照合の対称となるデータの始端と終端
が不明な場合に用いられる手法である。これを用いた場
合、CPU13は、未確定状態の音声データの特徴量(図
5(A))に対して、その始端から終端まで、単位時間
づつ照合位置をずらしながら、修正のための音声の特徴
量(図5(B))とのDPマッチングを行う。なお、対
応付けの決定は、連続DPマッチング以外の方法を用い
るようにしてもよい。
【0029】図4の説明に戻り、ステップS11におい
て、CPU13は、決定された修正箇所の音声認識を行
う。このとき、対応付けられた2つの特徴量をデータと
し、また、「開始」という単語を認識対象語彙から除外
する。これにより、1回目の認識より精度が向上する。
ステップS12に進み、CPU13は、RAM14に記憶され
ている未確定の認識結果を変更し、それに対応してステ
ップS13において、未確定結果の表示が表示制御部1
6により更新され、ステップS1に戻り、以降の処理が
繰り返される。
て、CPU13は、決定された修正箇所の音声認識を行
う。このとき、対応付けられた2つの特徴量をデータと
し、また、「開始」という単語を認識対象語彙から除外
する。これにより、1回目の認識より精度が向上する。
ステップS12に進み、CPU13は、RAM14に記憶され
ている未確定の認識結果を変更し、それに対応してステ
ップS13において、未確定結果の表示が表示制御部1
6により更新され、ステップS1に戻り、以降の処理が
繰り返される。
【0030】ステップS8において、ユーザにより操作
されたキーが修正キー4−3ではないと判定された場
合、ステップS14において、ユーザにより操作された
キーが確定キー4−1であるか否かが判定される。ステ
ップS14において、ユーザにより操作されたキーが確
定キー4−1ではないと判定された場合、ステップS1
に戻り、以降の処理が再び実行される。一方、ステップ
S14において、ユーザにより操作されたキーが確定キ
ー4−1であると判定された場合、ステップS15に進
み、まだ確定されていない認識結果が存在するか否かが
判定される。
されたキーが修正キー4−3ではないと判定された場
合、ステップS14において、ユーザにより操作された
キーが確定キー4−1であるか否かが判定される。ステ
ップS14において、ユーザにより操作されたキーが確
定キー4−1ではないと判定された場合、ステップS1
に戻り、以降の処理が再び実行される。一方、ステップ
S14において、ユーザにより操作されたキーが確定キ
ー4−1であると判定された場合、ステップS15に進
み、まだ確定されていない認識結果が存在するか否かが
判定される。
【0031】ステップS15において、まだ確定されて
いない認識結果が存在すると判定された場合、ステップ
S16に進み、未確定の認識結果が確定された後、ステ
ップS1に戻り、以降の処理が実行される。ステップS
15において、確定されていない認識結果は存在しない
と判定された場合(即ち、全ての認識結果は確定されて
いると判定された場合)、ステップS17において、音
声認識を終了するか否かが判定される。ステップS17
において、まだ音声認識の終了ではないと判定された
(ユーザにより音声認識の終了はしないと指示された)
場合、ステップS1に戻り、以降の処理が実行される。
ステップS17において、音声認識を終了すると判定さ
れた場合、処理が終了される。
いない認識結果が存在すると判定された場合、ステップ
S16に進み、未確定の認識結果が確定された後、ステ
ップS1に戻り、以降の処理が実行される。ステップS
15において、確定されていない認識結果は存在しない
と判定された場合(即ち、全ての認識結果は確定されて
いると判定された場合)、ステップS17において、音
声認識を終了するか否かが判定される。ステップS17
において、まだ音声認識の終了ではないと判定された
(ユーザにより音声認識の終了はしないと指示された)
場合、ステップS1に戻り、以降の処理が実行される。
ステップS17において、音声認識を終了すると判定さ
れた場合、処理が終了される。
【0032】図6は、ユーザが「今日は5時から会議で
す」という文章を入力するときのユーザと個人情報管理
装置の間の動作を説明する図である。この例において
は、ステップS31において、ユーザは、入力キー4−
2を操作しながら、「今日は5時から会議です」と発話
する。個人情報管理装置は、ステップS32で、ユーザ
が発話した音声を音声認識し、ステップS33で、その
認識結果「今日は5時から開始です」を未確定状態で表
示部3−1に表示させる。ステップS34において、ユ
ーザは表示部3−1に表示された認識結果を確認し、い
まの場合、「開始」の部分が誤っているので、ステップ
S35において、修正キー4−3を操作しながら、「会
議」と発話する。
す」という文章を入力するときのユーザと個人情報管理
装置の間の動作を説明する図である。この例において
は、ステップS31において、ユーザは、入力キー4−
2を操作しながら、「今日は5時から会議です」と発話
する。個人情報管理装置は、ステップS32で、ユーザ
が発話した音声を音声認識し、ステップS33で、その
認識結果「今日は5時から開始です」を未確定状態で表
示部3−1に表示させる。ステップS34において、ユ
ーザは表示部3−1に表示された認識結果を確認し、い
まの場合、「開始」の部分が誤っているので、ステップ
S35において、修正キー4−3を操作しながら、「会
議」と発話する。
【0033】ステップS36において、個人情報管理装
置は、ユーザの発話に対応して、未確定認識結果の修正
箇所を決定し、修正箇所の音声認識を再度行う。このと
き、修正箇所の認識結果が「会議」であるものとする。
ステップS37において、個人情報管理装置は、「今日
は5時から開始です」の表示を、「今日は5時から会議
です」の表示に変更する。いまの場合、1回の修正で正
しい結果を得ることができたが、もし、修正結果が再び
誤っていても、ユーザは、何度でも修正を行うことが可
能である。この場合、上述したように、一度誤った表現
は除外されるので、再び同じ誤りが発生することはな
い。
置は、ユーザの発話に対応して、未確定認識結果の修正
箇所を決定し、修正箇所の音声認識を再度行う。このと
き、修正箇所の認識結果が「会議」であるものとする。
ステップS37において、個人情報管理装置は、「今日
は5時から開始です」の表示を、「今日は5時から会議
です」の表示に変更する。いまの場合、1回の修正で正
しい結果を得ることができたが、もし、修正結果が再び
誤っていても、ユーザは、何度でも修正を行うことが可
能である。この場合、上述したように、一度誤った表現
は除外されるので、再び同じ誤りが発生することはな
い。
【0034】図7は、図6の他の例を示した図である。
この例では、ユーザがステップS41で「今日は5時か
ら会議です」と発話したのに対し、個人情報管理装置
が、ステップS42で「今日は5時か高い木です」と誤
認識した場合を示している。この例において、個人情報
管理装置が誤認識した未確定認識結果と、ユーザが修正
するために発話した「会議」の特徴量の対応関係は、図
8に示すようになる。この場合、「高い木」の「カイ
キ」と、「会議」の「カイギ」が対応しているものと考
えることができる。ところが、この部分を修正箇所とし
て、未確定認識結果を修正すると、「今日は5時かた会
議です」となり、日本語としての意味を成さなくなる。
このように、未確定認識結果と、修正するために発話さ
れた単語の対応付けの結果、単語の境界を変更する必要
性が生じる場合がある。この場合、ステップS46にお
いて、CPU13は、修正するために発話された単語「会
議」に対応する「カイキ」と、その周囲の部分(いまの
場合、「ゴジカタ」)についても再度音声認識するよう
になされている。なお、その他のステップは、図6に示
した場合と同様とされており、その説明は省略する。
この例では、ユーザがステップS41で「今日は5時か
ら会議です」と発話したのに対し、個人情報管理装置
が、ステップS42で「今日は5時か高い木です」と誤
認識した場合を示している。この例において、個人情報
管理装置が誤認識した未確定認識結果と、ユーザが修正
するために発話した「会議」の特徴量の対応関係は、図
8に示すようになる。この場合、「高い木」の「カイ
キ」と、「会議」の「カイギ」が対応しているものと考
えることができる。ところが、この部分を修正箇所とし
て、未確定認識結果を修正すると、「今日は5時かた会
議です」となり、日本語としての意味を成さなくなる。
このように、未確定認識結果と、修正するために発話さ
れた単語の対応付けの結果、単語の境界を変更する必要
性が生じる場合がある。この場合、ステップS46にお
いて、CPU13は、修正するために発話された単語「会
議」に対応する「カイキ」と、その周囲の部分(いまの
場合、「ゴジカタ」)についても再度音声認識するよう
になされている。なお、その他のステップは、図6に示
した場合と同様とされており、その説明は省略する。
【0035】以上の実施の形態においては、通常の音声
と、修正のための音声の入力を区別するために、入力キ
ー4−2と修正キー4−3の2つのキーを設けるように
したが、修正を指示するためのコマンドとしての特定の
語句を、ROM14またはRAM15に予め予約(記憶)させ
ておき、このコマンドに対応する音声が入力されたとき
に、この後に続く音声を未確定認識結果に対する修正箇
所として認識させるようにしてもよい。例えば、このコ
マンドを「違う」という単語に定めておき、上述のよう
に「開始」を「会議」に修正する場合、「違う、会議」
のように発話する。
と、修正のための音声の入力を区別するために、入力キ
ー4−2と修正キー4−3の2つのキーを設けるように
したが、修正を指示するためのコマンドとしての特定の
語句を、ROM14またはRAM15に予め予約(記憶)させ
ておき、このコマンドに対応する音声が入力されたとき
に、この後に続く音声を未確定認識結果に対する修正箇
所として認識させるようにしてもよい。例えば、このコ
マンドを「違う」という単語に定めておき、上述のよう
に「開始」を「会議」に修正する場合、「違う、会議」
のように発話する。
【0036】また、以上においては、未確定状態の認識
結果を確定するための確定キー4−1を設けた場合を示
したが、例えば、一定の時間が経過したときに、未確定
の認識結果が確定されるようにしてもよい。
結果を確定するための確定キー4−1を設けた場合を示
したが、例えば、一定の時間が経過したときに、未確定
の認識結果が確定されるようにしてもよい。
【0037】さらに、以上においては、本発明の情報処
理装置を、携帯型の個人情報処理に適用した場合を示し
たが、勿論、他の装置にも適用することができる。
理装置を、携帯型の個人情報処理に適用した場合を示し
たが、勿論、他の装置にも適用することができる。
【0038】以上の各処理を実行するコンピュータプロ
グラムをユーザに提供する提供媒体としては、磁気ディ
スク、CD-ROM、固体メモリなどの記録媒体の他、ネット
ワーク、衛星などの通信媒体を利用することができる。
グラムをユーザに提供する提供媒体としては、磁気ディ
スク、CD-ROM、固体メモリなどの記録媒体の他、ネット
ワーク、衛星などの通信媒体を利用することができる。
【0039】
【発明の効果】以上の如く、請求項1に記載の情報処理
装置、請求項5に記載の情報処理方法、および請求項6
に記載の提供媒体によれば、入力された音声から特徴を
抽出し、抽出した特徴量に対応して音声を認識し、認識
結果に修正すべき部分が存在する場合において、修正す
べき部分に対する音声を入力し、それに対応して認識結
果を修正するようにしたので、ユーザを煩わすことな
く、認識結果の修正をより迅速に行うことが可能とな
る。
装置、請求項5に記載の情報処理方法、および請求項6
に記載の提供媒体によれば、入力された音声から特徴を
抽出し、抽出した特徴量に対応して音声を認識し、認識
結果に修正すべき部分が存在する場合において、修正す
べき部分に対する音声を入力し、それに対応して認識結
果を修正するようにしたので、ユーザを煩わすことな
く、認識結果の修正をより迅速に行うことが可能とな
る。
【図1】本発明の情報処理装置を適用した個人情報管理
装置の外観の構成例を示す図である。
装置の外観の構成例を示す図である。
【図2】図1の個人情報管理装置の電気的な構成例を示
すブロック図である。
すブロック図である。
【図3】図2の個人情報管理装置の他の構成例を示すブ
ロック図である。
ロック図である。
【図4】図2の個人情報管理装置の動作を説明するフロ
ーチャートである。
ーチャートである。
【図5】修正箇所の対応付けを説明する図である
【図6】ユーザと個人情報管理装置の間の動作を示す図
である。
である。
【図7】図6の他の例を示す図である。
【図8】図5の修正箇所の対応付けの他の例を示してい
る。
る。
1 本体, 2 マイクロフォン, 3−1 表示部,
3−2 タッチパネル, 4−1 確定キー, 4−
2 入力キー, 4−3 修正キー, 5 タッチペ
ン, 11 A/D変換部, 12 音声分析部, 1
3 CPU, 14ROM, 15 RAM, 16 表示制御
部, 17 入力検出部
3−2 タッチパネル, 4−1 確定キー, 4−
2 入力キー, 4−3 修正キー, 5 タッチペ
ン, 11 A/D変換部, 12 音声分析部, 1
3 CPU, 14ROM, 15 RAM, 16 表示制御
部, 17 入力検出部
Claims (6)
- 【請求項1】 音声を入力する第1の入力手段と、 前記第1の入力手段により入力された音声から特徴量を
抽出する抽出手段と、 前記抽出手段により抽出された前記特徴量に対応して、
前記音声を認識する認識手段と、 前記認識手段による前記認識結果に修正すべき部分が存
在する場合において、前記修正すべき部分に対する音声
を入力する第2の入力手段と、 前記第2の入力手段により入力された前記音声に対応し
て、前記認識結果を修正する修正手段とを備えることを
特徴とする情報処理装置。 - 【請求項2】 前記修正手段は、前記認識結果に対応す
る特徴量と、前記第2の入力手段により入力された前記
音声に対応する特徴量とを比較し、その比較結果に対応
して、前記認識結果の修正箇所を決定することを特徴と
する請求項1に記載の情報処理装置。 - 【請求項3】 前記修正手段は、前記認識結果の前記修
正個所を修正した場合において、前記修正箇所の前後の
整合性が取れなくなったとき、前記修正箇所の周囲の部
分も同時に修正することを特徴とする請求項3に記載の
情報処理装置。 - 【請求項4】 前記認識結果の修正を命令するための特
定のコマンドを予め記憶する記憶手段をさらに備え、 前記修正手段は、前記記憶手段に記憶されている前記コ
マンドに対応する音声が前記第1の入力手段または前記
第2の入力手段により入力された場合、前記コマンドに
対応する音声に継続して入力される音声を、前記認識結
果の修正箇所として、前記認識結果を修正することを特
徴とする請求項1に記載の情報処理装置。 - 【請求項5】 音声を入力する第1の入力ステップと、 前記第1の入力ステップで入力された音声から特徴量を
抽出する抽出ステップと、 前記抽出ステップで抽出された前記特徴量に対応して、
前記音声を認識する認識ステップと、 前記認識ステップにおける前記認識結果に修正すべき部
分が存在する場合において、前記修正すべき部分に対す
る音声を入力する第2の入力ステップと、 前記第2の入力ステップで入力された前記音声に対応し
て、前記認識結果を修正する修正ステップとを含むこと
を特徴とする情報処理方法。 - 【請求項6】 音声を入力する第1の入力ステップと、 前記第1の入力ステップで入力された音声から特徴量を
抽出する抽出ステップと、 前記抽出ステップで抽出された前記特徴量に対応して、
前記音声を認識する認識ステップと、 前記認識ステップにおける前記認識結果に修正すべき部
分が存在する場合において、前記修正すべき部分に対す
る音声を入力する第2の入力ステップと、 前記第2の入力ステップで入力された前記音声に対応し
て、前記認識結果を修正する修正ステップとを含む処理
を情報処理装置に実行させるコンピュータが読み取り可
能なプログラムを提供することを特徴とする提供媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14374598A JPH11338493A (ja) | 1998-05-26 | 1998-05-26 | 情報処理装置および方法、並びに提供媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14374598A JPH11338493A (ja) | 1998-05-26 | 1998-05-26 | 情報処理装置および方法、並びに提供媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11338493A true JPH11338493A (ja) | 1999-12-10 |
Family
ID=15346037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14374598A Withdrawn JPH11338493A (ja) | 1998-05-26 | 1998-05-26 | 情報処理装置および方法、並びに提供媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11338493A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006505002A (ja) * | 2002-11-02 | 2006-02-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識の方法およびシステム |
JP2007256836A (ja) * | 2006-03-24 | 2007-10-04 | Toshiba Corp | 音声認識装置、音声認識方法および音声認識プログラム |
-
1998
- 1998-05-26 JP JP14374598A patent/JPH11338493A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006505002A (ja) * | 2002-11-02 | 2006-02-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識の方法およびシステム |
JP2007256836A (ja) * | 2006-03-24 | 2007-10-04 | Toshiba Corp | 音声認識装置、音声認識方法および音声認識プログラム |
US7974844B2 (en) | 2006-03-24 | 2011-07-05 | Kabushiki Kaisha Toshiba | Apparatus, method and computer program product for recognizing speech |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7260529B1 (en) | Command insertion system and method for voice recognition applications | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
JP4516112B2 (ja) | 音声認識プログラム | |
JPS62239231A (ja) | 口唇画像入力による音声認識方法 | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
US20020091520A1 (en) | Method and apparatus for text input utilizing speech recognition | |
JP3476007B2 (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
JP2002116793A (ja) | データ入力システム及びその方法 | |
US7181397B2 (en) | Speech dialog method and system | |
JPH0713591A (ja) | 音声認識装置および音声認識方法 | |
JP2002221989A (ja) | テキスト入力方法及びその装置 | |
JP2007127896A (ja) | 音声認識装置及び音声認識方法 | |
JP4230142B2 (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
JPH1124695A (ja) | 音声認識処理装置および音声認識処理方法 | |
JPH11338493A (ja) | 情報処理装置および方法、並びに提供媒体 | |
CN115019787A (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
JP3588975B2 (ja) | 音声入力装置 | |
JP3254977B2 (ja) | 音声認識方法及び音声認識装置 | |
JPH064264A (ja) | 音声入出力システム | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
WO2009147745A1 (ja) | 検索装置 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050802 |