JP2002116797A - 音声処理装置、音声処理方法及び記憶媒体 - Google Patents
音声処理装置、音声処理方法及び記憶媒体Info
- Publication number
- JP2002116797A JP2002116797A JP2000311098A JP2000311098A JP2002116797A JP 2002116797 A JP2002116797 A JP 2002116797A JP 2000311098 A JP2000311098 A JP 2000311098A JP 2000311098 A JP2000311098 A JP 2000311098A JP 2002116797 A JP2002116797 A JP 2002116797A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- input
- keyword
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 ネットワークに接続された複数の音声認識装
置を利用して高精度な音声認識を効率的に行う。 【解決手段】 通信端末装置101は、ネットワーク1
04に接続された高精度な音声認識装置102又は10
3を指定する指定情報をユーザが発声した音声の中から
検出する。指定情報が検出された場合には、検出された
指定情報に対応する音声認識装置102又は103を用
いてユーザが発声した音声を音声認識する。
置を利用して高精度な音声認識を効率的に行う。 【解決手段】 通信端末装置101は、ネットワーク1
04に接続された高精度な音声認識装置102又は10
3を指定する指定情報をユーザが発声した音声の中から
検出する。指定情報が検出された場合には、検出された
指定情報に対応する音声認識装置102又は103を用
いてユーザが発声した音声を音声認識する。
Description
【0001】
【発明の属する技術分野】本発明は、ネットワークに接
続された複数の音声認識装置を利用する音声処理装置、
音声処理方法及び記憶媒体に関する。
続された複数の音声認識装置を利用する音声処理装置、
音声処理方法及び記憶媒体に関する。
【0002】
【従来の技術】近年、人間が発声した音声を所定の規則
に従って電子計算機上で認識する技術(所謂、音声認識
技術)が実用化されている。更に、近年では、この音声
認識技術を用いて、従来手動で電子計算機に入力してい
たコマンドや文字情報を音声で入力する技術が開発され
ている。
に従って電子計算機上で認識する技術(所謂、音声認識
技術)が実用化されている。更に、近年では、この音声
認識技術を用いて、従来手動で電子計算機に入力してい
たコマンドや文字情報を音声で入力する技術が開発され
ている。
【0003】
【発明が解決しようとする課題】しかしながら、音声認
識は比較的計算量の多い処理であるので、ユーザが発声
した全ての音声を実時間で認識するためには高価で高性
能な電子計算機が必要となる。そのため、このような音
声認識をモバイルコンピュータや携帯電話等の小型で安
価な携帯端末装置に適用することは困難であるという問
題があった。
識は比較的計算量の多い処理であるので、ユーザが発声
した全ての音声を実時間で認識するためには高価で高性
能な電子計算機が必要となる。そのため、このような音
声認識をモバイルコンピュータや携帯電話等の小型で安
価な携帯端末装置に適用することは困難であるという問
題があった。
【0004】本発明は前述の問題に鑑みてなされたもの
であり、ネットワークに接続された複数の音声認識装置
を利用して高精度な音声認識を効率的に行うことを目的
とする。
であり、ネットワークに接続された複数の音声認識装置
を利用して高精度な音声認識を効率的に行うことを目的
とする。
【0005】
【課題を解決するための手段】本発明の音声処理装置
は、音声を入力する音声入力手段と、ネットワークに接
続された複数の音声認識装置の中の一つを指定する指定
情報を前記音声入力手段に入力された音声から検出する
検出手段と、前記検出手段で検出された指定情報に対応
する音声認識装置を用いて前記音声入力手段に入力され
た音声を音声認識する音声認識手段とを有することを特
徴とする。
は、音声を入力する音声入力手段と、ネットワークに接
続された複数の音声認識装置の中の一つを指定する指定
情報を前記音声入力手段に入力された音声から検出する
検出手段と、前記検出手段で検出された指定情報に対応
する音声認識装置を用いて前記音声入力手段に入力され
た音声を音声認識する音声認識手段とを有することを特
徴とする。
【0006】また、本発明の音声処理方法は、音声を入
力する音声入力工程と、ネットワークに接続された複数
の音声認識装置の中の一つを指定する指定情報を前記音
声入力工程で入力された音声から検出する検出工程と、
前記検出工程で検出された指定情報に対応する音声認識
装置を用いて前記音声入力工程で入力された音声を音声
認識する音声認識工程とを有することを特徴とする。
力する音声入力工程と、ネットワークに接続された複数
の音声認識装置の中の一つを指定する指定情報を前記音
声入力工程で入力された音声から検出する検出工程と、
前記検出工程で検出された指定情報に対応する音声認識
装置を用いて前記音声入力工程で入力された音声を音声
認識する音声認識工程とを有することを特徴とする。
【0007】また、本発明の記憶媒体は、上記音声処理
方法を実現するためのプログラムを記憶したことを特徴
とする。
方法を実現するためのプログラムを記憶したことを特徴
とする。
【0008】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。図1は、本実施の形態に係
る音声認識システムの基本構成を示す図である。
施の形態を詳細に説明する。図1は、本実施の形態に係
る音声認識システムの基本構成を示す図である。
【0009】図1において、101はモバイルコンピュ
ータや携帯電話等の通信端末装置であり、小語彙辞書を
持つ音声認識プログラムを内蔵する。102及び103
は大語彙辞書を持つ高性能な音声認識装置であり、それ
ぞれ採用する文法規則が異なる。104はインターネッ
ト,移動体通信網等のネットワークである。
ータや携帯電話等の通信端末装置であり、小語彙辞書を
持つ音声認識プログラムを内蔵する。102及び103
は大語彙辞書を持つ高性能な音声認識装置であり、それ
ぞれ採用する文法規則が異なる。104はインターネッ
ト,移動体通信網等のネットワークである。
【0010】通信端末装置101は、演算量が少なく安
価で簡易な音声認識装置であり、主に「戻る(モド
ル)」,「進む(ススム)」等の単純で短い単語を簡易
に音声認識する機能を有する。これに対して、音声認識
装置102及び103は、演算量が多く高価で高精度な
音声認識装置であり、主に住所,氏名等の複雑で長い連
続文を高精度に音声認識する機能を有する。このよう
に、本実施の形態の音声認識システムでは、音声認識の
機能を分散化することによって、ユーザに提供する情報
端末装置の認識効率を落とすことなく安価に構成し、利
便性や携帯性を高めている。
価で簡易な音声認識装置であり、主に「戻る(モド
ル)」,「進む(ススム)」等の単純で短い単語を簡易
に音声認識する機能を有する。これに対して、音声認識
装置102及び103は、演算量が多く高価で高精度な
音声認識装置であり、主に住所,氏名等の複雑で長い連
続文を高精度に音声認識する機能を有する。このよう
に、本実施の形態の音声認識システムでは、音声認識の
機能を分散化することによって、ユーザに提供する情報
端末装置の認識効率を落とすことなく安価に構成し、利
便性や携帯性を高めている。
【0011】通信端末装置101と音声認識装置102
及び103とは、ネットワーク104を介してデータ通
信可能である。通信端末装置101に入力されたユーザ
の音声は、ユーザがキーワードで指定する音声認識装置
102又は103に伝送される。本実施例では、音声認
識装置102を指定するキーワードを「入力1(ニュウ
リョクイチ)」とし、音声認識装置103を指定するキ
ーワードを「入力2(ニュウリョクニ)」とする。音声
認識装置102又は103は、通信端末装置101から
の音声(キーワードの部分を除く)を音声認識し、音声
認識によって得られた文字列を通信端末装置101に返
信する。
及び103とは、ネットワーク104を介してデータ通
信可能である。通信端末装置101に入力されたユーザ
の音声は、ユーザがキーワードで指定する音声認識装置
102又は103に伝送される。本実施例では、音声認
識装置102を指定するキーワードを「入力1(ニュウ
リョクイチ)」とし、音声認識装置103を指定するキ
ーワードを「入力2(ニュウリョクニ)」とする。音声
認識装置102又は103は、通信端末装置101から
の音声(キーワードの部分を除く)を音声認識し、音声
認識によって得られた文字列を通信端末装置101に返
信する。
【0012】次に、図2を用いて、本実施の形態に係る
通信端末装置101の構成を説明する。
通信端末装置101の構成を説明する。
【0013】図2において、201は制御部、202は
記憶部、203は通信部、204は音声入力部、205
は操作部、206は音声出力部、207は表示部であ
る。また、208はアプリケーションプログラム、20
9は音声認識プログラム、210はユーザインタフェー
ス制御プログラム、211はキーワード登録部である。
記憶部、203は通信部、204は音声入力部、205
は操作部、206は音声出力部、207は表示部であ
る。また、208はアプリケーションプログラム、20
9は音声認識プログラム、210はユーザインタフェー
ス制御プログラム、211はキーワード登録部である。
【0014】制御部201は、ワークメモリやマイクロ
コンピュータ等から構成され、記憶部202に記憶され
たアプリケーションプログラム208,音声認識プログ
ラム209及びユーザインタフェース制御プログラム2
10を読み出して実行する。
コンピュータ等から構成され、記憶部202に記憶され
たアプリケーションプログラム208,音声認識プログ
ラム209及びユーザインタフェース制御プログラム2
10を読み出して実行する。
【0015】記憶部202は、磁気ディスク、光ディス
ク、ハードディスク装置等の記憶媒体から構成され、ア
プリケーションプログラム208,音声認識プログラム
209,ユーザインタフェース制御プログラム210及
びキーワード登録部211を所定の領域に記憶する。通
信部203は、ネットワーク104に接続された音声認
識装置102及び103とデータ通信を行う。
ク、ハードディスク装置等の記憶媒体から構成され、ア
プリケーションプログラム208,音声認識プログラム
209,ユーザインタフェース制御プログラム210及
びキーワード登録部211を所定の領域に記憶する。通
信部203は、ネットワーク104に接続された音声認
識装置102及び103とデータ通信を行う。
【0016】音声入力部204は、マイクロフォン等か
ら構成され、ユーザが発声した音声を入力する。操作部
205は、キーボード,マウス,タッチパネル,ジョイ
スティック,ペン,タブレット等から構成され、アプリ
ケーションプログラム208のグラフィカルユーザイン
タフェースを操作する。
ら構成され、ユーザが発声した音声を入力する。操作部
205は、キーボード,マウス,タッチパネル,ジョイ
スティック,ペン,タブレット等から構成され、アプリ
ケーションプログラム208のグラフィカルユーザイン
タフェースを操作する。
【0017】音声出力部206は、スピーカやヘッドフ
ォン等から構成される。表示部207は、液晶ディスプ
レイ等の表示器から構成され、アプリケーションプログ
ラム208のグラフィカルユーザインタフェースを表示
する。
ォン等から構成される。表示部207は、液晶ディスプ
レイ等の表示器から構成され、アプリケーションプログ
ラム208のグラフィカルユーザインタフェースを表示
する。
【0018】アプリケーションプログラム208は、ネ
ットワーク104上の情報(ホームページや各種のデー
タファイル等のウェブコンテンツ)を閲覧するためのウ
ェブブラウザの機能とこの機能を操作するためのグラフ
ィカルユーザインタフェースを有する。音声認識プログ
ラム209は、主に「戻る(モドル)」,「進む(スス
ム)」等の単純で短い単語を簡易に音声認識する機能を
有するプログラムである。ユーザインタフェース制御プ
ログラム210は、音声認識プログラム209を用いて
音声認識して得た文字列を所定のコマンドに変換してア
プリケーションプログラム208に入力したり、音声認
識装置102又は103を用いて音声認識して得た文字
列をアプリケーションプログラム208に入力したりす
る。キーワード登録部211は、ネットワーク104に
接続された音声認識装置102及び103を指定するた
めのキーワードを登録する。
ットワーク104上の情報(ホームページや各種のデー
タファイル等のウェブコンテンツ)を閲覧するためのウ
ェブブラウザの機能とこの機能を操作するためのグラフ
ィカルユーザインタフェースを有する。音声認識プログ
ラム209は、主に「戻る(モドル)」,「進む(スス
ム)」等の単純で短い単語を簡易に音声認識する機能を
有するプログラムである。ユーザインタフェース制御プ
ログラム210は、音声認識プログラム209を用いて
音声認識して得た文字列を所定のコマンドに変換してア
プリケーションプログラム208に入力したり、音声認
識装置102又は103を用いて音声認識して得た文字
列をアプリケーションプログラム208に入力したりす
る。キーワード登録部211は、ネットワーク104に
接続された音声認識装置102及び103を指定するた
めのキーワードを登録する。
【0019】次に、図3を参照しながら、本実施の形態
に係る通信端末装置101が音声認識装置102及び1
03を指定するキーワードを登録する手順を説明する。
この手順は、制御部201が記憶部202に記憶された
ユーザインタフェース制御プログラム210に従って実
行する。
に係る通信端末装置101が音声認識装置102及び1
03を指定するキーワードを登録する手順を説明する。
この手順は、制御部201が記憶部202に記憶された
ユーザインタフェース制御プログラム210に従って実
行する。
【0020】ステップS301において、制御部201
は、表示部207を用いてキーワードの登録されていな
い音声認識装置をユーザに通知する。ユーザは、操作部
205を用いて音声認識装置102又は103を指定す
るキーワードを入力する。本実施例では、音声認識装置
102を指定するキーワードを「入力1(ニュウリョク
イチ)」とし、音声認識装置103を指定するキーワー
ドを「入力2(ニュウリョクニ)」とする。
は、表示部207を用いてキーワードの登録されていな
い音声認識装置をユーザに通知する。ユーザは、操作部
205を用いて音声認識装置102又は103を指定す
るキーワードを入力する。本実施例では、音声認識装置
102を指定するキーワードを「入力1(ニュウリョク
イチ)」とし、音声認識装置103を指定するキーワー
ドを「入力2(ニュウリョクニ)」とする。
【0021】ステップS302において、制御部201
は、音声認識装置102又は103を指定するキーワー
ドをキーワード登録部211に登録する。ステップS3
03において、制御部201は、音声認識装置102及
び103のキーワードを登録したか否かを判定する。全
ての音声認識装置のキーワードを登録した場合には登録
の処理を終了する。
は、音声認識装置102又は103を指定するキーワー
ドをキーワード登録部211に登録する。ステップS3
03において、制御部201は、音声認識装置102及
び103のキーワードを登録したか否かを判定する。全
ての音声認識装置のキーワードを登録した場合には登録
の処理を終了する。
【0022】次に、図4を参照しながら、本実施の形態
に係る通信端末装置101が、ネットワーク104に接
続された音声認識装置102又は103を用いて、入力
音声を音声認識する手順を説明する。この手順は、制御
部201が記憶部202に記憶されたユーザインタフェ
ース制御プログラム210に従って実行する。
に係る通信端末装置101が、ネットワーク104に接
続された音声認識装置102又は103を用いて、入力
音声を音声認識する手順を説明する。この手順は、制御
部201が記憶部202に記憶されたユーザインタフェ
ース制御プログラム210に従って実行する。
【0023】ステップS401において、制御部201
は、音声入力部204に入力されたユーザの音声を音声
認識プログラム209に入力する。本実施の形態では、
外部の音声認識装置102又は103を用いて音声認識
を行う場合には、認識対象となる文字列を発声する前に
必ずキーワードを発声するようにする。例えば、音声認
識装置102を用いて音声認識を行う場合、ユーザは
「ニュウリョクイチ(ポーズ)カワサキシ」と発声す
る。このように構成することにより、ユーザとってはど
の音声認識装置を使用したいかを意識して選択すること
ができ、通信端末装置101にとってはキーワードの検
出が容易となり、検出処理の高速化を図ることができ
る。
は、音声入力部204に入力されたユーザの音声を音声
認識プログラム209に入力する。本実施の形態では、
外部の音声認識装置102又は103を用いて音声認識
を行う場合には、認識対象となる文字列を発声する前に
必ずキーワードを発声するようにする。例えば、音声認
識装置102を用いて音声認識を行う場合、ユーザは
「ニュウリョクイチ(ポーズ)カワサキシ」と発声す
る。このように構成することにより、ユーザとってはど
の音声認識装置を使用したいかを意識して選択すること
ができ、通信端末装置101にとってはキーワードの検
出が容易となり、検出処理の高速化を図ることができ
る。
【0024】ステップS402において、制御部201
は音声認識プログラム209を用いてステップS401
で入力された音声を簡易に音声認識し、認識した文字列
からキーワード登録部211に登録されたキーワードを
検出する。
は音声認識プログラム209を用いてステップS401
で入力された音声を簡易に音声認識し、認識した文字列
からキーワード登録部211に登録されたキーワードを
検出する。
【0025】ステップS403において、制御部201
は、ステップS403でキーワードが検出された否かを
判定する。検出された場合にはステップS404に進
み、検出されなかった場合にはステップS407に進
む。例えば、ユーザが「ニュウリョクイチ(ポーズ)カ
ワサキシナカハラクイマイカミマチキヤノンコスギジギ
ョウショ」と発声した場合には、音声認識装置102を
指定するキーワード「ニュウリョクイチ」が検出される
ので、ステップS404に進む。また例えば、ユーザが
「モドル」や「ススム」と発声した場合には、キーワー
ド登録部211に登録されたキーワードは検出されない
ので、ステップS407に進む。
は、ステップS403でキーワードが検出された否かを
判定する。検出された場合にはステップS404に進
み、検出されなかった場合にはステップS407に進
む。例えば、ユーザが「ニュウリョクイチ(ポーズ)カ
ワサキシナカハラクイマイカミマチキヤノンコスギジギ
ョウショ」と発声した場合には、音声認識装置102を
指定するキーワード「ニュウリョクイチ」が検出される
ので、ステップS404に進む。また例えば、ユーザが
「モドル」や「ススム」と発声した場合には、キーワー
ド登録部211に登録されたキーワードは検出されない
ので、ステップS407に進む。
【0026】ステップS404において、制御部201
は、ステップS402で検出されたキーワードに対応す
る音声認識装置102又は103を選択する。つまり、
通信端末装置101は、キーワード登録部211に登録
されたキーワードが検出された場合には、ネットワーク
104に接続された複数の音声認識装置の中の一つを選
択して音声認識を行う。従って、ユーザが「ニュウリョ
クイチ(ポーズ)カワサキシナカハラクイマイカミマチ
キヤノンコスギジギョウショ」と発声した場合には、音
声認識装置102を選択する。
は、ステップS402で検出されたキーワードに対応す
る音声認識装置102又は103を選択する。つまり、
通信端末装置101は、キーワード登録部211に登録
されたキーワードが検出された場合には、ネットワーク
104に接続された複数の音声認識装置の中の一つを選
択して音声認識を行う。従って、ユーザが「ニュウリョ
クイチ(ポーズ)カワサキシナカハラクイマイカミマチ
キヤノンコスギジギョウショ」と発声した場合には、音
声認識装置102を選択する。
【0027】ステップS405において、制御部201
は、ステップS403で選択された音声認識装置102
又は103にステップS401で入力された音声(但
し、キーワードの部分を除く)を送信する。このよう
に、キーワードの部分を除いた音声を送信することによ
り、通信効率を高め、音声認識装置102及び103が
不要な音声認識を行うことを防止する。音声認識装置1
02又は103は、通信端末装置101からの音声を音
声認識し、認識した文字列を通信端末装置101に返信
する。ユーザが「ニュウリョクイチ(ポーズ)カワサキ
シナカハラクイマイカミマチキヤノンコスギジギョウシ
ョ」と発声した場合、音声認識装置102は、文字列
「川崎市中原区今井上町キヤノン小杉事業所」を音声認
識し、この文字列を通信端末装置101に返信する。
は、ステップS403で選択された音声認識装置102
又は103にステップS401で入力された音声(但
し、キーワードの部分を除く)を送信する。このよう
に、キーワードの部分を除いた音声を送信することによ
り、通信効率を高め、音声認識装置102及び103が
不要な音声認識を行うことを防止する。音声認識装置1
02又は103は、通信端末装置101からの音声を音
声認識し、認識した文字列を通信端末装置101に返信
する。ユーザが「ニュウリョクイチ(ポーズ)カワサキ
シナカハラクイマイカミマチキヤノンコスギジギョウシ
ョ」と発声した場合、音声認識装置102は、文字列
「川崎市中原区今井上町キヤノン小杉事業所」を音声認
識し、この文字列を通信端末装置101に返信する。
【0028】ステップS406において、制御部201
は、音声認識装置102又は103で認識された文字列
をアプリケーションプログラム208に入力する。アプ
リケーションプログラム208は、入力された文字列を
表示部207に表示されたグラフィカルユーザインタフ
ェース上の予め選択された入力フィールドに出力する。
は、音声認識装置102又は103で認識された文字列
をアプリケーションプログラム208に入力する。アプ
リケーションプログラム208は、入力された文字列を
表示部207に表示されたグラフィカルユーザインタフ
ェース上の予め選択された入力フィールドに出力する。
【0029】一方、ステップS407において、制御部
201は、音声認識プログラム209を用いてステップ
S401で入力された音声の音声認識を行う。つまり、
通信端末装置101は、キーワード登録部211に登録
されたキーワードが検出されなかった場合には、内部の
音声認識プログラム209を用いて自動的に音声認識を
行う。従って、ユーザが「モドル」や「ススム」と発声
した場合には、キーワードは検出されないので音声認識
プログラム209を用いて自動的に音声認識し、文字列
「戻る」や「進む」を得る。
201は、音声認識プログラム209を用いてステップ
S401で入力された音声の音声認識を行う。つまり、
通信端末装置101は、キーワード登録部211に登録
されたキーワードが検出されなかった場合には、内部の
音声認識プログラム209を用いて自動的に音声認識を
行う。従って、ユーザが「モドル」や「ススム」と発声
した場合には、キーワードは検出されないので音声認識
プログラム209を用いて自動的に音声認識し、文字列
「戻る」や「進む」を得る。
【0030】ステップS408において、制御部201
は、音声認識プログラム209で認識された文字列を所
定のコマンドに変換し、変換されたコマンドをアプリケ
ーションプログラム208に入力する。例えば、文字列
「戻る」は、現在閲覧中のページを一つ前に戻すという
意味のコマンドに変換され、文字列「進む」は、現在閲
覧中のページを一つ前に進めるという意味のコマンドに
変換される。アプリケーションプログラム208は、入
力されたコマンドに対応する処理を実行し、実行された
結果を表示部207に表示する。
は、音声認識プログラム209で認識された文字列を所
定のコマンドに変換し、変換されたコマンドをアプリケ
ーションプログラム208に入力する。例えば、文字列
「戻る」は、現在閲覧中のページを一つ前に戻すという
意味のコマンドに変換され、文字列「進む」は、現在閲
覧中のページを一つ前に進めるという意味のコマンドに
変換される。アプリケーションプログラム208は、入
力されたコマンドに対応する処理を実行し、実行された
結果を表示部207に表示する。
【0031】以上説明したように、本実施の形態によれ
ば、演算量が少なく安価で簡易な音声認識についてはユ
ーザに提供する通信端末装置で実行し、演算量が多く高
価で高精度な音声認識についてはネットワークに接続さ
れた複数の音声認識装置の何れかで実行するので、ユー
ザに提供する通信端末装置を、認識効率を落とすことな
く安価に構成することができる。
ば、演算量が少なく安価で簡易な音声認識についてはユ
ーザに提供する通信端末装置で実行し、演算量が多く高
価で高精度な音声認識についてはネットワークに接続さ
れた複数の音声認識装置の何れかで実行するので、ユー
ザに提供する通信端末装置を、認識効率を落とすことな
く安価に構成することができる。
【0032】また、本実施の形態によれば、ネットワー
クに接続された複数の高精度な音声認識装置の一つをユ
ーザが発声するキーワードによって指定できるので、手
による煩雑な操作を削減することができる。また、専用
の操作ボタン等を設けなくてもよくなるため、ユーザに
提供する通信端末装置を小型に構成することができる。
特に、モバイルコンピュータや携帯電話等の携帯端末装
置では、利便性や携帯性を高めることができる。
クに接続された複数の高精度な音声認識装置の一つをユ
ーザが発声するキーワードによって指定できるので、手
による煩雑な操作を削減することができる。また、専用
の操作ボタン等を設けなくてもよくなるため、ユーザに
提供する通信端末装置を小型に構成することができる。
特に、モバイルコンピュータや携帯電話等の携帯端末装
置では、利便性や携帯性を高めることができる。
【0033】また、本実施の形態によれば、入力音声に
キーワードが含まれているか否かに応じて入力音声の内
部の音声認識プログラムで認識するか、外部の音声認識
装置で認識するかを簡単に判別することができる。
キーワードが含まれているか否かに応じて入力音声の内
部の音声認識プログラムで認識するか、外部の音声認識
装置で認識するかを簡単に判別することができる。
【0034】本実施の形態では、ネットワーク104に
接続された2つの音声認識装置102及び103を用い
て音声認識システムを構成する例について説明したが、
本発明はこのような構成に限るものではない。2つ以上
の音声認識装置を用いて音声認識システムを構成するこ
とも可能である。この場合、ユーザは各音声認識装置を
指定するキーワードをキーワード登録部211に登録す
る。これらの音声認識装置を利用する場合にはキーワー
ド登録部211に登録されたキーワードを発声する。ま
た、複数の異なる音声認識ユニットを有する音声認識装
置を用いて音声認識システムを構成することも可能であ
る。この場合、ユーザは1つの装置が有する複数の異な
る音声認識ユニットの夫々を指定するキーワードをキー
ワード登録部211に登録する。これらの音声認識ユニ
ットを利用する場合にはキーワード登録部211に登録
されたキーワードを発声する。
接続された2つの音声認識装置102及び103を用い
て音声認識システムを構成する例について説明したが、
本発明はこのような構成に限るものではない。2つ以上
の音声認識装置を用いて音声認識システムを構成するこ
とも可能である。この場合、ユーザは各音声認識装置を
指定するキーワードをキーワード登録部211に登録す
る。これらの音声認識装置を利用する場合にはキーワー
ド登録部211に登録されたキーワードを発声する。ま
た、複数の異なる音声認識ユニットを有する音声認識装
置を用いて音声認識システムを構成することも可能であ
る。この場合、ユーザは1つの装置が有する複数の異な
る音声認識ユニットの夫々を指定するキーワードをキー
ワード登録部211に登録する。これらの音声認識ユニ
ットを利用する場合にはキーワード登録部211に登録
されたキーワードを発声する。
【0035】(その他の実施の形態)本発明は、上記実
施の形態に限るものではなく、様々な形態で実施するこ
とができる。
施の形態に限るものではなく、様々な形態で実施するこ
とができる。
【0036】例えば、制御部201が読み出したユーザ
インタフェース制御プログラム210の指示に基づき、
制御部201上で稼働しているOS(オペレーティング
システム)などが上記実施の形態の処理の一部または全
部を行い、その処理によって上記実施の形態が実現され
る場合にも本発明は適用可能である。
インタフェース制御プログラム210の指示に基づき、
制御部201上で稼働しているOS(オペレーティング
システム)などが上記実施の形態の処理の一部または全
部を行い、その処理によって上記実施の形態が実現され
る場合にも本発明は適用可能である。
【0037】また、記憶部202から読み出されたユー
ザインタフェース制御プログラム210が、情報端末装
置101に接続された機能拡張ユニットに備わるメモリ
に書き込まれた後、そのプログラム210の指示に基づ
いてその機能拡張ユニットに備わる制御部などが実際の
処理の一部または全部を行い、その処理によって上記実
施の形態が実現される場合にも本発明は適用可能であ
る。
ザインタフェース制御プログラム210が、情報端末装
置101に接続された機能拡張ユニットに備わるメモリ
に書き込まれた後、そのプログラム210の指示に基づ
いてその機能拡張ユニットに備わる制御部などが実際の
処理の一部または全部を行い、その処理によって上記実
施の形態が実現される場合にも本発明は適用可能であ
る。
【0038】
【発明の効果】以上説明したように、本発明によれば、
ネットワークに接続された複数の音声認識装置を利用し
て高精度な音声認識を効率的に行うことができる。
ネットワークに接続された複数の音声認識装置を利用し
て高精度な音声認識を効率的に行うことができる。
【図1】本実施の形態に係る音声認識システムの構成を
示す図である。
示す図である。
【図2】本実施の形態に係る通信端末装置の構成を示す
ブロック図である。
ブロック図である。
【図3】本実施の形態に係る通信端末装置がキーワード
を登録する手順を説明するフローチャートである。
を登録する手順を説明するフローチャートである。
【図4】本実施の形態に係る通信端末装置が入力音声を
音声認識する手順を説明するフローチャートである。
音声認識する手順を説明するフローチャートである。
101 通信端末装置 102,103 音声認識装置 104 ネットワーク 201 制御部 202 記憶部 203 通信部 204 音声入力部 205 操作部 206 音声出力部 207 表示部 208 アプリケーションプログラム 209 音声認識プログラム 210 ユーザインタフェース制御プログラム 211 キーワード登録部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 池田 裕治 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 Fターム(参考) 5D015 AA04 BB01 KK01 KK02 LL02 LL05 LL10
Claims (5)
- 【請求項1】 音声を入力する音声入力手段と、 ネットワークに接続された複数の音声認識装置の中の一
つを指定する指定情報を前記音声入力手段に入力された
音声から検出する検出手段と、 前記検出手段で検出された指定情報に対応する音声認識
装置を用いて前記音声入力手段に入力された音声を音声
認識する音声認識手段とを有することを特徴とする音声
処理装置。 - 【請求項2】 前記音声認識手段は更に、前記指定情報
が検出されなかった場合には、前記複数の音声認識装置
を用いることなく前記音声入力手段に入力された音声を
音声認識することを特徴とする請求項1に記載の音声処
理装置。 - 【請求項3】 音声を入力する音声入力工程と、 ネットワークに接続された複数の音声認識装置の中の一
つを指定する指定情報を前記音声入力工程で入力された
音声から検出する検出工程と、 前記検出工程で検出された指定情報に対応する音声認識
装置を用いて前記音声入力工程で入力された音声を音声
認識する音声認識工程とを有することを特徴とする音声
処理方法。 - 【請求項4】 前記音声認識工程は更に、前記指定情報
が検出されなかった場合には、前記複数の音声認識装置
を用いることなく前記音声入力工程で入力された音声を
音声認識することを特徴とする請求項3に記載の音声処
理方法。 - 【請求項5】 請求項3または4に記載の音声処理方法
を実現するためのプログラムを記憶したこと特徴とする
記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000311098A JP2002116797A (ja) | 2000-10-11 | 2000-10-11 | 音声処理装置、音声処理方法及び記憶媒体 |
US09/972,996 US7174299B2 (en) | 1995-08-18 | 2001-10-10 | Speech recognition system, speech recognition apparatus, and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000311098A JP2002116797A (ja) | 2000-10-11 | 2000-10-11 | 音声処理装置、音声処理方法及び記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002116797A true JP2002116797A (ja) | 2002-04-19 |
Family
ID=18790922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000311098A Pending JP2002116797A (ja) | 1995-08-18 | 2000-10-11 | 音声処理装置、音声処理方法及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002116797A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002182688A (ja) * | 2000-12-18 | 2002-06-26 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム |
JP2002182679A (ja) * | 2000-12-18 | 2002-06-26 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
JP2011232619A (ja) * | 2010-04-28 | 2011-11-17 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
JP2014089437A (ja) * | 2012-10-29 | 2014-05-15 | Samsung Electronics Co Ltd | 音声認識装置及び音声認識方法 |
KR20140094330A (ko) * | 2013-01-22 | 2014-07-30 | 삼성전자주식회사 | 전자장치 및 그 음성 처리 방법 |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
JP2015091077A (ja) * | 2013-11-07 | 2015-05-11 | 日本電信電話株式会社 | 情報表示装置、方法及びプログラム |
JP2016151608A (ja) * | 2015-02-16 | 2016-08-22 | アルパイン株式会社 | 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法 |
JPWO2014203495A1 (ja) * | 2013-06-19 | 2017-02-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び機器 |
JP2019086535A (ja) * | 2017-11-01 | 2019-06-06 | ソフトバンク株式会社 | 送信制御装置及びプログラム |
JP2019533182A (ja) * | 2016-08-05 | 2019-11-14 | ソノズ インコーポレイテッド | 複数の音声サービス |
JP2021117296A (ja) * | 2020-01-23 | 2021-08-10 | トヨタ自動車株式会社 | エージェントシステム、端末装置およびエージェントプログラム |
-
2000
- 2000-10-11 JP JP2000311098A patent/JP2002116797A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002182688A (ja) * | 2000-12-18 | 2002-06-26 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム |
JP2002182679A (ja) * | 2000-12-18 | 2002-06-26 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
JP2011232619A (ja) * | 2010-04-28 | 2011-11-17 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
JP2014089437A (ja) * | 2012-10-29 | 2014-05-15 | Samsung Electronics Co Ltd | 音声認識装置及び音声認識方法 |
KR20140094330A (ko) * | 2013-01-22 | 2014-07-30 | 삼성전자주식회사 | 전자장치 및 그 음성 처리 방법 |
KR102112742B1 (ko) * | 2013-01-22 | 2020-05-19 | 삼성전자주식회사 | 전자장치 및 그 음성 처리 방법 |
JPWO2014203495A1 (ja) * | 2013-06-19 | 2017-02-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び機器 |
CN108806690A (zh) * | 2013-06-19 | 2018-11-13 | 松下电器(美国)知识产权公司 | 声音对话方法及声音对话代理服务器 |
JP2018189984A (ja) * | 2013-06-19 | 2018-11-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び、音声対話エージェントサーバ |
JP2020173477A (ja) * | 2013-06-19 | 2020-10-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び音声対話エージェントサーバ |
USRE49014E1 (en) | 2013-06-19 | 2022-04-05 | Panasonic Intellectual Property Corporation Of America | Voice interaction method, and device |
JP7072610B2 (ja) | 2013-06-19 | 2022-05-20 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声対話方法、及び音声対話エージェントサーバ |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
JP2015091077A (ja) * | 2013-11-07 | 2015-05-11 | 日本電信電話株式会社 | 情報表示装置、方法及びプログラム |
JP2016151608A (ja) * | 2015-02-16 | 2016-08-22 | アルパイン株式会社 | 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法 |
JP2019533182A (ja) * | 2016-08-05 | 2019-11-14 | ソノズ インコーポレイテッド | 複数の音声サービス |
JP2019086535A (ja) * | 2017-11-01 | 2019-06-06 | ソフトバンク株式会社 | 送信制御装置及びプログラム |
JP2021117296A (ja) * | 2020-01-23 | 2021-08-10 | トヨタ自動車株式会社 | エージェントシステム、端末装置およびエージェントプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
US7010490B2 (en) | Method, system, and apparatus for limiting available selections in a speech recognition system | |
US7684985B2 (en) | Techniques for disambiguating speech input using multimodal interfaces | |
US20200234695A1 (en) | Determining phonetic relationships | |
RU2349969C2 (ru) | Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения | |
US20190005954A1 (en) | Wake-on-voice method, terminal and storage medium | |
RU2352979C2 (ru) | Синхронное понимание семантических объектов для высокоинтерактивного интерфейса | |
EP3091535A2 (en) | Multi-modal input on an electronic device | |
US5893063A (en) | Data processing system and method for dynamically accessing an application using a voice command | |
JP2019046468A (ja) | インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム | |
KR20150036643A (ko) | 내추럴 동작 입력을 사용한 문맥 관련 쿼리 조정 | |
US20140365215A1 (en) | Method for providing service based on multimodal input and electronic device thereof | |
US20160372110A1 (en) | Adapting voice input processing based on voice input characteristics | |
JP6150268B2 (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
US20150169551A1 (en) | Apparatus and method for automatic translation | |
JP3476007B2 (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
JP2002116797A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
TW541470B (en) | Computer motherboard architecture with integrated DSP for continuous and command and control speech processing | |
JPH07222248A (ja) | 携帯型情報端末における音声情報の利用方式 | |
WO2019169722A1 (zh) | 快捷键识别方法、装置、设备以及计算机可读存储介质 | |
WO2021147417A1 (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
JP3411198B2 (ja) | 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体 | |
JPS60146327A (ja) | 計算機対話方法 | |
JP2015052744A (ja) | 情報処理装置、制御方法、及びプログラム | |
JPH07219586A (ja) | 情報処理方法及び装置 |