JP2002116796A - 音声処理装置、音声処理方法及び記憶媒体 - Google Patents

音声処理装置、音声処理方法及び記憶媒体

Info

Publication number
JP2002116796A
JP2002116796A JP2000311097A JP2000311097A JP2002116796A JP 2002116796 A JP2002116796 A JP 2002116796A JP 2000311097 A JP2000311097 A JP 2000311097A JP 2000311097 A JP2000311097 A JP 2000311097A JP 2002116796 A JP2002116796 A JP 2002116796A
Authority
JP
Japan
Prior art keywords
voice
recognition
speech
speech recognition
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000311097A
Other languages
English (en)
Inventor
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Tetsuo Kosaka
哲夫 小坂
Shigeki Shibayama
茂樹 柴山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000311097A priority Critical patent/JP2002116796A/ja
Priority to US09/970,986 priority patent/US20020055845A1/en
Publication of JP2002116796A publication Critical patent/JP2002116796A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 ネットワークに接続された複数の音声認識装
置を利用して高精度な音声認識を効率的に行う。 【解決手段】 通信端末装置101は、ネットワーク1
04に接続された高精度な音声認識装置102及び10
3を用いてユーザが発声した音声を音声認識する。その
後、通信端末装置101は、音声認識装置102及び1
03のそれぞれから得られた認識結果のスコアを比較
し、1つの認識結果を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークに接
続された複数の音声認識装置を利用した音声処理装置、
音声処理方法及び記憶媒体に関する。
【0002】
【従来の技術】近年、人間が発声した音声を所定の規則
に従って電子計算機上で認識する技術(所謂、音声認識
技術)が実用化されている。更に、近年では、この音声
認識技術を用いて、従来手動で電子計算機に入力してい
たコマンドや文字情報を音声で入力する技術が開発され
ている。
【0003】
【発明が解決しようとする課題】しかしながら、音声認
識は比較的計算量の多い処理であるので、ユーザが発声
した全ての音声を実時間で認識するためには高価で高性
能な電子計算機が必要となる。そのため、このような音
声認識をモバイルコンピュータや携帯電話等の小型で安
価な携帯端末装置に適用することは困難であるという問
題があった。
【0004】本発明は前述の問題に鑑みてなされたもの
であり、ネットワークに接続された複数の音声認識装置
を利用して高精度な音声認識を効率的に行うことを目的
とする。
【0005】
【課題を解決するための手段】本発明の音声処理装置
は、音声を入力する音声入力手段と、ネットワークに接
続された複数の音声認識装置を用いて前記音声入力手段
に入力された音声を音声認識する音声認識手段と、前記
複数の音声認識装置から得られた認識結果の確信度に基
づいて前記複数の音声認識装置の中の一つから得られた
認識結果を選択する選択手段とを有することを特徴とす
る。
【0006】また、本発明の音声処理方法は、音声を入
力する音声入力工程と、ネットワークに接続された複数
の音声認識装置を用いて前記音声入力工程で入力された
音声を音声認識する音声認識工程と、前記複数の音声認
識装置から得られた認識結果の確信度に基づいて前記複
数の音声認識装置の中の一つから得られた認識結果を選
択する選択工程とを有することを特徴とする。
【0007】また、本発明の記憶媒体は、上記音声処理
方法を実行するためのプログラムを記憶したことを特徴
とする。
【0008】
【発明の実施の形態】(第1の実施の形態)以下、図面
を参照して本発明の第1の実施の形態を詳細に説明す
る。図1は、本実施の形態に係る音声認識システムの基
本構成を示す図である。
【0009】図1において、101はモバイルコンピュ
ータや携帯電話等の通信端末装置であり、小語彙辞書を
持つ音声認識プログラムを内蔵する。102及び103
は大語彙辞書を持つ高性能な音声認識装置であり、それ
ぞれ採用する文法規則が異なる。104はインターネッ
ト,移動体通信網等のネットワークである。
【0010】通信端末装置101は、演算量が少なく安
価で簡易な音声認識装置であり、主に「戻る」,「進
む」等の単純で短い単語を簡易に音声認識する機能を有
する。これに対して、音声認識装置102及び103
は、演算量が多く高価で高精度な音声認識装置であり、
主に住所,氏名等の複雑で長い連続文を高精度に音声認
識する機能を有する。このように、本実施の形態の音声
認識システムでは、音声認識の機能を分散化することに
よって、ユーザに提供する情報端末装置を認識効率を落
とすことなく安価に構成し、利便性や携帯性を高めてい
る。
【0011】通信端末装置101と音声認識装置102
及び103とは、ネットワーク104を介してデータ通
信可能である。通信端末装置101に入力されたユーザ
の音声は、音声認識装置102及び103のそれぞれに
伝送される。音声認識装置102及び103は、通信端
末装置101からの音声を音声認識し、音声認識して得
た文字列及びスコアを通信端末装置101に返信する。
【0012】次に、図2を用いて、第1の実施の形態に
係る通信端末装置101の構成を説明する。
【0013】図2において、201は制御部、202は
記憶部、203は通信部、204は音声入力部、205
は操作部、206は音声出力部、207は表示部であ
る。また、208はアプリケーションプログラム、20
9は音声認識プログラム、210はユーザインタフェー
ス制御プログラム、211は認識結果格納部である。
【0014】制御部201は、ワークメモリやマイクロ
コンピュータ等から構成され、記憶部202に記憶され
たアプリケーションプログラム208,音声認識プログ
ラム209及びユーザインタフェース制御プログラム2
10を読み出して実行する。
【0015】記憶部202は、磁気ディスク、光ディス
ク、ハードディスク装置等の記憶媒体から構成され、ア
プリケーションプログラム208,音声認識プログラム
209,ユーザインタフェース制御プログラム210及
び認識結果格納部211を所定の領域に記憶する。通信
部203は、ネットワーク104に接続された音声認識
装置102及び103とデータ通信を行う。
【0016】音声入力部204は、マイクロフォン等か
ら構成され、ユーザが発声した音声を入力する。操作部
205は、キーボード,マウス,タッチパネル,ジョイ
スティック,ペン,タブレット等から構成され、アプリ
ケーションプログラム208のグラフィカルユーザイン
タフェースを操作する。
【0017】音声出力部206は、スピーカやヘッドフ
ォン等から構成される。表示部207は、液晶ディスプ
レイ等の表示器から構成され、アプリケーションプログ
ラム208及び212のグラフィカルユーザインタフェ
ースを表示する。
【0018】アプリケーションプログラム208は、ネ
ットワーク104上の情報(ホームページや各種のデー
タファイル等のウェブコンテンツ)を閲覧するためのウ
ェブブラウザの機能とこの機能を操作するためのグラフ
ィカルユーザインタフェースを有する。音声認識プログ
ラム209は、主に「中止」,「戻る」,「進む」等の
単純で短い単語を音声認識する機能を有するプログラム
である。
【0019】ユーザインタフェース制御プログラム21
0は、音声認識プログラム209を用いて音声認識して
得た文字列を所定のコマンドに変換してアプリケーショ
ンプログラム208に入力したり、音声認識装置102
及び103を用いて音声認識して得た文字列の一つをア
プリケーションプログラム208に入力したりする。認
識結果格納部211は、音声認識装置102及び103
のそれぞれで音声認識して得た文字列及びスコアを格納
する。
【0020】本実施の形態において、スコアとは、音声
認識装置102及び103が音声認識して得た文字列に
対する確信度(或いは尤度)である。音声認識装置10
2又は103が採用する大語彙辞書と文法規則に従って
ユーザが発声した音声に含まれる語句のほぼ全ての部分
を正しく認識できる場合にはスコアは高くなり、ほとん
どの部分を正しく認識できない場合にはスコアは低くな
る。
【0021】次に、図3を参照しながら、第1の実施の
形態に係る通信端末装置101が、ネットワーク104
に接続された音声認識装置102及び103を用いて、
入力音声を音声認識する手順を説明する。この手順は、
制御部201が記憶部202に記憶されたユーザインタ
フェース制御プログラム210に従って実行する。
【0022】ステップS301において、制御部201
は、音声入力部204に入力されたユーザの音声を音声
認識プログラム209に入力する。
【0023】ステップS302において、制御部201
は、記憶部202に記憶された音声認識プログラム20
9を用いてステップS301で入力された音声を音声認
識する。
【0024】ステップS303において、制御部201
は、音声認識プログラム209を用いて音声認識して得
た文字列のスコアが所定値以上であるか否かを判断す
る。所定値以上である場合には正しく認識できたと判定
してステップS304に進み、所定値以上でない場合に
は正しく認識できなかったと判定してステップS305
に進む。
【0025】ステップS304において、制御部201
は、音声認識プログラム209で得られた文字列を所定
のコマンドに変換し、変換されたコマンドをアプリケー
ションプログラム208に入力する。例えば、文字列
「戻る」は、現在閲覧中のページを一つ前のページに戻
すという意味のコマンドに変換され、文字列「進む」
は、現在閲覧中のページを一つ前のページに進めるとい
う意味のコマンドに変換される。アプリケーションプロ
グラム208は、入力されたコマンドに対応する処理を
実行し、実行された結果を表示部207に表示する。
【0026】一方、ステップS305において、制御部
201は、ステップS301で入力された音声をネット
ワーク104に接続された音声認識装置102及び10
3のそれぞれに送信する。音声認識装置102及び10
3は、通信端末装置101からの音声を音声認識し、音
声認識して得た文字列及びスコアを通信端末装置101
に返信する。音声認識装置102及び103から所定期
間内に返信された文字列及びスコアは認識結果格納部2
11に格納される。このように、通信端末装置101内
部の音声認識プログラム209で正しく認識できないと
判定された音声を外部の音声認識装置102及び103
を用いて音声認識することによって、ユーザに提供する
通信端末装置の認識効率を向上させることができる。
【0027】ステップS306において、制御部201
は、認識結果格納部211に格納された各文字列のスコ
アを比較し、最も高いスコアに対応する文字列を選択す
る。例えば、ステップS301で入力された音声が「川
崎市中原区今井上町」である場合について説明する。こ
の場合において、音声認識装置102で得られた文字列
が「川崎」でそのスコアが「0.3」であり、音声認識
装置103で得られた文字列が「川崎市中原区今井上
町」でそのスコアが「0.9」である場合には、音声認
識装置103で得られた文字列「川崎市中原区今井上
町」を選択する。
【0028】ステップS307において、制御部201
は、ステップS306で選択された文字列をアプリケー
ションプログラム208に入力する。アプリケーション
プログラム208は、入力された文字列を表示部207
に表示されたグラフィカルユーザインタフェース上の予
め選択された入力フィールドに出力する。
【0029】以上説明したように、第1の実施の形態に
よれば、演算量が少なく安価で簡易な音声認識について
はユーザに提供する通信端末装置で実行し、演算量が多
く高価で高精度な音声認識についてはネットワークに接
続された複数の音声認識装置で実行するので、ユーザに
提供する通信端末装置を認識効率を落とすことなく安価
に構成することができる。
【0030】また、第1の実施の形態によれば、文法規
則や語彙辞書の異なる高精度な音声認識装置を複数個併
用するので、ユーザに提供する情報端末装置の認識効率
をより一層高めることができる。また、これらの音声認
識装置を複数個併用する場合であっても、ユーザに意識
させることなく自動的に最適な認識結果を得ることがで
きるので、高度な音声認識システムを非常に簡便に利用
することができる。
【0031】また、第1の実施の形態によれば、ネット
ワークに接続された高精度な音声認識装置を複数個併用
する場合であっても、自動的に最適な認識結果を得るこ
とができるので、手による煩雑な操作を削減することが
できる。また、専用の操作ボタン等を設けなくてもよく
なるため、ユーザに提供する通信端末装置を小型に構成
することができる。特に、モバイルコンピュータや携帯
電話等の携帯端末装置に適用する場合には、利便性や携
帯性を高めることができる。
【0032】第1の実施の形態では、ネットワーク10
4に接続された2つの音声認識装置102及び103を
用いて音声認識システムを構成する例について説明した
が、本発明はこのような構成に限るものではない。2つ
以上の音声認識装置を用いて音声認識システムを構成す
ることも可能である。
【0033】また、第1の実施の形態では、音声認識装
置102及び103で得られた認識結果のスコアを単純
に比較する例について説明したが、本発明はこのような
構成に限るものではない。各スコアに所定の重み付けを
行ってから比較してもよい。
【0034】また、第1の実施の形態では、ネットワー
ク104に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク104
に接続された音声認識装置がM(Mは2以上の整数)あ
る場合には、通信端末装置101の近くに存在するN個
(Nは1以上の整数)の音声認識装置を用いて入力音声
を音声認識してもよい。また、負荷の小さいN個(Nは
1以上の整数)の音声認識装置を用いて入力音声を音声
認識してもよい。
【0035】また、第1の実施の形態では、ネットワー
ク104に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク104
に接続された音声認識装置がM(Mは2以上の整数)あ
る場合には、過去に認識結果が採用した音声認識装置の
履歴を記録し、最近利用された上位N個(Nは1以上の
整数)の音声認識装置を用いて入力音声を音声認識して
もよい。また、利用回数の多い上位N個(Nは1以上の
整数)の音声認識装置を用いて入力音声を音声認識して
もよい。
【0036】(第2の実施の形態)以下、図1,2及び
4を用いて本発明の第2の実施の形態を詳細に説明す
る。
【0037】図4を参照しながら、第2の実施の形態に
係る通信端末装置101が、ネットワーク104に接続
された音声認識装置102及び103を用いて、入力音
声を音声認識する手順を説明する。この手順は、制御部
201が記憶部202に記憶されたユーザインタフェー
ス制御プログラム210に従って実行する。
【0038】ステップS401において、制御部201
は、音声入力部204に入力されたユーザの音声を音声
認識プログラム209に入力する。
【0039】ステップS402において、制御部201
は、記憶部202に記憶された音声認識プログラム20
9を用いてステップS401で入力された音声を音声認
識する。
【0040】ステップS403において、制御部201
は、音声認識プログラム209を用いて音声認識して得
た文字列のスコアが所定値以上であるか否かを判断す
る。所定値以上である場合には正しく認識できたと判定
してステップS404に進み、所定値以上でない場合に
は正しく認識できなかったと判定してステップS405
に進む。
【0041】ステップS404において、制御部201
は、音声認識プログラム209で得られた文字列を所定
のコマンドに変換し、変換されたコマンドをアプリケー
ションプログラム208に入力する。例えば、文字列
「戻る」は、現在閲覧中のページを一つ前のページに戻
すという意味のコマンドに変換され、文字列「進む」
は、現在閲覧中のページを一つ前のページに進めるとい
う意味のコマンドに変換される。アプリケーションプロ
グラム208は、入力されたコマンドに対応する処理を
実行し、実行された結果を表示部207に表示する。
【0042】一方、ステップS405において、制御部
201は、ステップS401で入力された音声をネット
ワーク104に接続された音声認識装置102及び10
3のそれぞれに送信する。音声認識装置102及び10
3は、通信端末装置101からの音声を音声認識し、音
声認識して得た文字列及びスコアを通信端末装置101
に返信する。音声認識装置102及び103から所定期
間内に返信された文字列及びスコアは認識結果格納部2
11に格納される。このように、通信端末装置101内
部の音声認識プログラム209で正しく認識できないと
判断された音声を外部の音声認識装置102及び103
を用いて音声認識することによって、ユーザに提供する
通信端末装置の認識効率を向上させることができる。
【0043】ステップS406において、制御部201
は、認識結果格納部211に格納された文字列の中から
所定値以上のスコアに対応する文字列を検出する。所定
値以上のスコアを有する文字列が複数個ある場合にはス
テップS407に進み、1つしかない場合にはステップ
S408に進む。例えば、ステップS401で入力され
た音声が「川崎市中原区今井上町」である場合について
説明する。この場合において、音声認識装置102で得
られた文字列が「川崎市中原区今井上町」でそのスコア
が「0.9」であり、音声認識装置103で得られた文
字列が「川崎市中原区今井上町」でそのスコアが「0.
9」であり、所定値が「0.9」である場合には、所定
値以上のスコアに対応する文字列が2つあるのでステッ
プS407に進む。
【0044】ステップS407において、制御部201
は、ステップS406で検出された文字列を表示部20
7を用いてスコア順に並べてユーザに通知する。スコア
順に並べてユーザに通知することによってユーザの操作
性を向上させることができる。ユーザは、スコア順に並
べて表示或いは音声で通知された選択候補の中の一つを
操作部205或いは音声入力部204を用いて選択す
る。このように構成することによって、所定値以上のス
コアに対応する文字列が複数個ある場合でも、常に正し
い結果を選択することができる。
【0045】ステップS408において、制御部201
は、ステップS406で検出された文字列或いはステッ
プS407で選択された文字列をアプリケーションプロ
グラム208に入力する。アプリケーションプログラム
208は、入力された文字列を表示部207に表示され
たグラフィカルユーザインタフェース上の予め選択され
た入力フィールドに出力する。
【0046】以上説明したように、第2の実施の形態に
よれば、第1の実施の形態と同様に、演算量が少なく安
価で簡易な音声認識についてはユーザに提供する通信端
末装置で実行し、演算量が多く高価で高精度な音声認識
についてはネットワークに接続された複数の音声認識装
置で実行するので、ユーザに提供する通信端末装置を認
識効率を落とすことなく安価に構成することができる。
【0047】また、第2の実施の形態によれば、文法規
則や語彙辞書の異なる高精度な音声認識装置を複数個併
用するので、ユーザに提供する情報端末装置の認識効率
をより一層高めることができる。また、これらの音声認
識装置を複数個併用する場合であっても、ユーザに意識
させることなく自動的に最適な認識結果を得ることがで
きるので、高度な音声認識システムを非常に簡便に利用
することができる。また、複数の音声認識装置で得られ
た認識結果のスコアが所定値以上である場合にはこれら
の認識結果をユーザに選択させるので、常に正しい結果
を選択することができる。
【0048】第2の実施の形態では、ネットワーク10
4に接続された2つの音声認識装置102及び103を
用いて音声認識システムを構成する例について説明した
が、本発明はこのような構成に限るものではない。2つ
以上の音声認識装置を用いて音声認識システムを構成す
ることも可能である。
【0049】また、第2の実施の形態では、音声認識装
置102及び103で得られた認識結果のスコアを単純
に所定値と比較する例について説明したが、本発明はこ
のような構成に限るものではない。各スコアに所定の重
み付けを行ってから所定値と比較してもよい。
【0050】また、第2の実施の形態では、音声認識装
置102及び103で得られた認識結果のスコアがとも
に所定値以上の場合には、ユーザに何れか一方を選択さ
せる例について説明したが、本発明はこのような構成に
限るものではない。例えば、音声認識装置102及び1
03の間に予め優先度を設定しておき、この優先度に基
づいて自動的に1つの認識結果を選択するように構成す
ることもできる。
【0051】また、第2の実施の形態では、音声認識装
置102及び103で得られた認識結果のスコアがとも
に所定値以上の場合には、ユーザに何れか一方を選択さ
せる例について説明したが、本発明はこのような構成に
限るものではない。例えば、過去に認識結果が採用した
音声認識装置の履歴を記録しておき、この履歴に基づい
て自動的に1つの認識結果を選択するように構成するこ
ともできる。
【0052】また、第2の実施の形態では、ネットワー
ク104に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク104
に接続された音声認識装置がM(Mは2以上の整数)あ
る場合には、通信端末装置101の近くに存在するN個
(Nは1以上の整数)の音声認識装置を用いて入力音声
を音声認識してもよい。また、負荷の小さいN個(Nは
1以上の整数)の音声認識装置を用いて入力音声を音声
認識してもよい。
【0053】また、第2の実施の形態では、ネットワー
ク104に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク104
に接続された音声認識装置がM(Mは2以上の整数)あ
る場合には、過去に認識結果が採用した音声認識装置の
履歴を記録しておき、最近利用された上位N個(Nは1
以上の整数)の音声認識装置を用いて入力音声を音声認
識してもよい。また、利用回数の多い上位N個(Nは1
以上の整数)の音声認識装置を用いて入力音声を音声認
識してもよい。
【0054】(他の実施の形態)本発明は、上記実施の
形態に限るものではなく、様々な形態で実施することが
できる。
【0055】例えば、制御部201が読み出したユーザ
インタフェース制御プログラム210の指示に基づき、
制御部201上で稼働しているOS(オペレーティング
システム)などが上記実施の形態の処理の一部または全
部を行い、その処理によって上記実施の形態が実現され
る場合にも本発明は適用可能である。
【0056】また、記憶部202から読み出されたユー
ザインタフェース制御プログラム210が、情報端末装
置101に接続された機能拡張ユニットに備わるメモリ
に書き込まれた後、そのプログラム210の指示に基づ
いてその機能拡張ユニットに備わる制御部などが実際の
処理の一部または全部を行い、その処理によって上記実
施の形態が実現される場合にも本発明は適用可能であ
る。
【0057】
【発明の効果】以上説明したように、本発明によれば、
ネットワークに接続された複数の音声認識装置を利用し
て高精度な音声認識を効率的に行うことができる。
【図面の簡単な説明】
【図1】第1の実施の形態に係る音声認識システムの構
成を示す図である。
【図2】第1の実施の形態に係る通信端末装置の構成を
示すブロック図である。
【図3】第1の実施の形態に係る通信端末装置が入力音
声を音声認識する手順を説明するフローチャートであ
る。
【図4】第2の実施の形態に係る通信端末装置が入力音
声を音声認識する手順を説明するフローチャートであ
る。
【符号の説明】
101 通信端末装置 102,103 音声認識装置 104 ネットワーク 201 制御部 202 記憶部 203 通信部 204 音声入力部 205 操作部 206 音声出力部 207 表示部 208 アプリケーションプログラム 209 音声認識プログラム 210 ユーザインタフェース制御プログラム 211 認識結果格納部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小坂 哲夫 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 柴山 茂樹 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 Fターム(参考) 5D015 KK02 LL05

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力手段と、 ネットワークに接続された複数の音声認識装置を用いて
    前記音声入力手段に入力された音声を音声認識する音声
    認識手段と、 前記複数の音声認識装置から得られた認識結果の確信度
    に基づいて前記複数の音声認識装置の中の一つから得ら
    れた認識結果を選択する選択手段とを有することを特徴
    とする音声処理装置。
  2. 【請求項2】 前記音声認識手段は更に、前記複数の音
    声認識装置を用いることなく前記音声入力手段に入力さ
    れた音声を音声認識することを特徴とする請求項1に記
    載の音声処理装置。
  3. 【請求項3】 前記複数の音声認識装置の少なくとも一
    つは、他の音声認識装置とは異なる文法規則を有するこ
    とを特徴とする請求項1または2に記載の音声処理装
    置。
  4. 【請求項4】 前記音声認識手段は、前記複数の音声認
    識装置の中から選択された所定数の音声認識装置を用い
    て前記音声入力手段に入力された音声を音声認識するこ
    とを特徴とする請求項1〜3の何れか1項に記載の音声
    処理装置。
  5. 【請求項5】 音声を入力する音声入力工程と、 ネットワークに接続された複数の音声認識装置を用いて
    前記音声入力工程で入力された音声を音声認識する音声
    認識工程と、 前記複数の音声認識装置から得られた認識結果の確信度
    に基づいて前記複数の音声認識装置の中の一つから得ら
    れた認識結果を選択する選択工程とを有することを特徴
    とする音声処理方法。
  6. 【請求項6】 前記音声認識工程は更に、前記複数の音
    声認識装置とは別の音声処理部を用いて前記音声入力手
    段に入力された音声を音声認識することを特徴とする請
    求項5に記載の音声処理方法。
  7. 【請求項7】 前記複数の音声認識装置の少なくとも一
    つは、他の音声認識装置とは異なる文法規則を有するこ
    とを特徴とする請求項5または6項に記載の音声処理方
    法。
  8. 【請求項8】 前記音声認識工程では、前記複数の音声
    認識装置の中から選択された所定数の音声認識装置を用
    いて前記音声入力工程で入力された音声を音声認識する
    ことを特徴とする請求項5〜7の何れか1項に記載の音
    声処理方法。
  9. 【請求項9】 請求項5〜8のいずれか1項に記載の音
    声処理方法を実行するためのプログラムを記憶したこと
    を特徴とする記憶媒体。
JP2000311097A 2000-10-11 2000-10-11 音声処理装置、音声処理方法及び記憶媒体 Pending JP2002116796A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000311097A JP2002116796A (ja) 2000-10-11 2000-10-11 音声処理装置、音声処理方法及び記憶媒体
US09/970,986 US20020055845A1 (en) 2000-10-11 2001-10-05 Voice processing apparatus, voice processing method and memory medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000311097A JP2002116796A (ja) 2000-10-11 2000-10-11 音声処理装置、音声処理方法及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2002116796A true JP2002116796A (ja) 2002-04-19

Family

ID=18790921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000311097A Pending JP2002116796A (ja) 2000-10-11 2000-10-11 音声処理装置、音声処理方法及び記憶媒体

Country Status (2)

Country Link
US (1) US20020055845A1 (ja)
JP (1) JP2002116796A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2005181439A (ja) * 2003-12-16 2005-07-07 Nissan Motor Co Ltd 音声認識装置
KR100728620B1 (ko) 2005-02-07 2007-06-14 한국정보통신대학교 산학협력단 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법
WO2010003109A3 (en) * 2008-07-02 2010-03-18 Google Inc. Speech recognition with parallel recognition tasks
WO2013154010A1 (ja) 2012-04-09 2013-10-17 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
US8606570B2 (en) 2008-06-25 2013-12-10 Canon Kabushiki Kaisha Imaging apparatus, method of controlling same and computer program therefor
KR101736109B1 (ko) * 2015-08-20 2017-05-16 현대자동차주식회사 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법
WO2020065840A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム
CN112820287A (zh) * 2020-12-31 2021-05-18 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
CN114879526A (zh) * 2022-05-31 2022-08-09 四川虹美智能科技有限公司 智能家居系统及其应答控制方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
EP1922717A4 (en) * 2005-08-09 2011-03-23 Mobile Voice Control Llc USE OF MULTIPLE VOICE RECOGNITION SOFTWARE
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
US7959598B2 (en) 2008-08-20 2011-06-14 Asante Solutions, Inc. Infusion pump systems and methods
CN103038818B (zh) 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
US9412369B2 (en) * 2011-06-17 2016-08-09 Microsoft Technology Licensing, Llc Automated adverse drug event alerts
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9561324B2 (en) 2013-07-19 2017-02-07 Bigfoot Biomedical, Inc. Infusion pump system and method
US10569015B2 (en) 2013-12-02 2020-02-25 Bigfoot Biomedical, Inc. Infusion pump system and method
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9878097B2 (en) 2015-04-29 2018-01-30 Bigfoot Biomedical, Inc. Operating an infusion pump system
AU2016385454B2 (en) 2016-01-05 2021-12-16 Bigfoot Biomedical, Inc. Operating multi-modal medicine delivery systems

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5749070A (en) * 1993-09-09 1998-05-05 Apple Computer, Inc. Multi-representational data structure for recognition in computer systems
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system
US5677991A (en) * 1995-06-30 1997-10-14 Kurzweil Applied Intelligence, Inc. Speech recognition system using arbitration between continuous speech and isolated word modules
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6629075B1 (en) * 2000-06-09 2003-09-30 Speechworks International, Inc. Load-adjusted speech recogintion
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2005181439A (ja) * 2003-12-16 2005-07-07 Nissan Motor Co Ltd 音声認識装置
KR100728620B1 (ko) 2005-02-07 2007-06-14 한국정보통신대학교 산학협력단 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법
US8606570B2 (en) 2008-06-25 2013-12-10 Canon Kabushiki Kaisha Imaging apparatus, method of controlling same and computer program therefor
US10699714B2 (en) 2008-07-02 2020-06-30 Google Llc Speech recognition with parallel recognition tasks
WO2010003109A3 (en) * 2008-07-02 2010-03-18 Google Inc. Speech recognition with parallel recognition tasks
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US9373329B2 (en) 2008-07-02 2016-06-21 Google Inc. Speech recognition with parallel recognition tasks
US11527248B2 (en) 2008-07-02 2022-12-13 Google Llc Speech recognition with parallel recognition tasks
US10049672B2 (en) 2008-07-02 2018-08-14 Google Llc Speech recognition with parallel recognition tasks
WO2013154010A1 (ja) 2012-04-09 2013-10-17 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
US9524718B2 (en) 2012-04-09 2016-12-20 Clarion Co., Ltd. Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method
US9704487B2 (en) 2015-08-20 2017-07-11 Hyundai Motor Company Speech recognition solution based on comparison of multiple different speech inputs
KR101736109B1 (ko) * 2015-08-20 2017-05-16 현대자동차주식회사 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법
WO2020065840A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム
JPWO2020065840A1 (ja) * 2018-09-27 2021-08-30 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム
JP7121461B2 (ja) 2018-09-27 2022-08-18 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム
CN112820287A (zh) * 2020-12-31 2021-05-18 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
CN114879526A (zh) * 2022-05-31 2022-08-09 四川虹美智能科技有限公司 智能家居系统及其应答控制方法
CN114879526B (zh) * 2022-05-31 2023-08-18 四川虹美智能科技有限公司 智能家居系统及其应答控制方法

Also Published As

Publication number Publication date
US20020055845A1 (en) 2002-05-09

Similar Documents

Publication Publication Date Title
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
US9117445B2 (en) System and method for audibly presenting selected text
US7010490B2 (en) Method, system, and apparatus for limiting available selections in a speech recognition system
US11450313B2 (en) Determining phonetic relationships
US6363347B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
US7624018B2 (en) Speech recognition using categories and speech prefixing
EP2339576B1 (en) Multi-modal input on an electronic device
KR101042119B1 (ko) 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체
US5893063A (en) Data processing system and method for dynamically accessing an application using a voice command
US7299187B2 (en) Voice command processing system and computer therefor, and voice command processing method
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US20140316764A1 (en) Clarifying natural language input using targeted questions
JP2006023860A (ja) 情報閲覧装置、情報閲覧プログラム、情報閲覧プログラム記録媒体及び情報閲覧システム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2001184088A (ja) コンピュータ読取自在の記録媒体、及びバックグランド・オーディオ・リカバリー・システム
JP2006053906A (ja) コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
US5897618A (en) Data processing system and method for switching between programs having a same title using a voice command
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
WO2019169722A1 (zh) 快捷键识别方法、装置、设备以及计算机可读存储介质
JP2002116797A (ja) 音声処理装置、音声処理方法及び記憶媒体
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JPS60146327A (ja) 計算機対話方法