JP2003308088A - 音声認識装置及びその方法、プログラム - Google Patents

音声認識装置及びその方法、プログラム

Info

Publication number
JP2003308088A
JP2003308088A JP2002116307A JP2002116307A JP2003308088A JP 2003308088 A JP2003308088 A JP 2003308088A JP 2002116307 A JP2002116307 A JP 2002116307A JP 2002116307 A JP2002116307 A JP 2002116307A JP 2003308088 A JP2003308088 A JP 2003308088A
Authority
JP
Japan
Prior art keywords
voice recognition
voice
vocabulary
external data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002116307A
Other languages
English (en)
Other versions
JP2003308088A5 (ja
JP3943983B2 (ja
Inventor
Kenichiro Nakagawa
賢一郎 中川
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002116307A priority Critical patent/JP3943983B2/ja
Priority to US10/414,228 priority patent/US20030200089A1/en
Publication of JP2003308088A publication Critical patent/JP2003308088A/ja
Publication of JP2003308088A5 publication Critical patent/JP2003308088A5/ja
Application granted granted Critical
Publication of JP3943983B2 publication Critical patent/JP3943983B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 認識語彙を容易に拡張でき、より操作性を向
上することができる音声認識装置及びその方法、プログ
ラムを提供する。 【解決手段】 音声データを音声取込部105より入力
する。次に、語彙情報を含む外部データを外部データ取
得部112から読み込む。次に、外部データ中の語彙情
報と、認識語彙データベース111中の認識語彙情報を
用いて、音声データの音声認識を音声認識部106で行
い、その音声認識結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された音声を
認識する音声認識装置及びその方法、プログラムに関す
るものである。
【0002】
【従来の技術】近年では、小型携帯端末が普及し、高度
な情報処理活動を場所を選ばずに行うことができるよう
になった。このような小型携帯端末は、スケジューラや
インターネットブラウザ、電子メールツールとして一般
ユーザに利用されている他にも、業務用として商品管理
や検針サービス、金融セールスなどに使われている。ま
た、これらの小型携帯端末の中には、小型プリンタやス
キャナを装備したものがあり、2次元バーコードと呼ば
れる高密度のデータを紙面等を介して読み書きできるも
のがある。
【0003】小型携帯端末は、その小型性から、キーボ
ードのような多数のキーをつけるのが難しく、複雑な入
力に対して不向きな面があった。これに対し、音声を用
いた入力は、マイク以外のスペースを必要とせず、機器
の小型化に大きく貢献することができる。また、近年の
小型携帯端末の性能は、計算量が多いとされている不特
定話者の音声認識処理にも十分に対応できるほどに向上
している。これらのことから、小型携帯端末における音
声認識処理は今後重要な要素となることが予想される。
【0004】
【発明が解決しようとする課題】しかしながら、音声認
識には誤認識が発生するものであり、一般に認識対象の
語彙(認識語彙)の数が増えるほど頻繁になる。このた
め、ユーザが発声するであろう内容の認識語彙を切り替
え、一度の認識処理で用いる認識語彙数を少なくするこ
とで誤認識を減らすことが課題となる。
【0005】2次元バーコードのような外部データを読
み込むことで、認識語彙を切り替えることができる音声
認識装置が提案されている。これは、前もって発声され
ることが予想される語彙全てを認識語彙として情報機器
端末側に持ち、外部データの内容により認識語彙の一部
を活性化させて音声認識をする手法である。例えば、特
開平09−006798号では、外部データ(カラーコ
ード)に対応する分野の認識語彙を活性化させ、音声認
識を行っている。
【0006】この方法は、外部データに語彙情報を含め
る必要がないため、外部データに含めるデータ量を抑え
ることができる。しかし、認識語彙が情報機器端末側に
あるため、全く新しい(端末の認識語彙にない)語彙を
認識することができないという課題があった。
【0007】本発明は上記の課題に鑑みてなされたもの
であり、認識語彙を容易に拡張でき、より操作性を向上
することができる音声認識装置及びその方法、プログラ
ムを提供することができる。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声認識装置は以下の構成を備える。
即ち、入力された音声を認識する音声認識装置であっ
て、音声認識の認識語彙情報を格納する格納手段と、音
声データを入力する入力手段と、語彙情報を含む外部デ
ータを読み込む読込手段と、前記読み込まれた外部デー
タ中の語彙情報と、前記認識語彙情報を用いて、前記音
声データの音声認識を行う音声認識手段と、前記音声認
識手段による音声認識結果を出力する出力手段とを備え
る。
【0009】また、好ましくは、前記語彙情報は、語彙
の発声情報を含む。
【0010】また、好ましくは、前記外部データは、記
録媒体に印刷可能な形態である。
【0011】また、好ましくは、前記外部データは、2
次元バーコードである。
【0012】また、好ましくは、前記外部データは、前
記語彙情報が電子透かし技術によって生成された情報を
含む画像である。
【0013】また、好ましくは、前記認識語彙情報を管
理する管理手段と、前記管理手段に対する処理の指示を
入力する入力手段とを更に備える。
【0014】また、好ましくは、前記管理手段は、前記
入力手段から入力される指示に基づいて、前記認識語彙
情報の少なくとも一部を削除する。
【0015】上記の目的を達成するための本発明による
音声認識方法は以下の構成を備える。即ち、入力された
音声を認識する音声認識方法であって、音声データを入
力する入力工程と、語彙情報を含む外部データを読み込
む読込工程と、前記読み込まれた外部データ中の語彙情
報と、認識語彙データベースに格納されている認識語彙
情報を用いて、前記音声データの音声認識を行う音声認
識工程と、前記音声認識工程による音声認識結果を出力
する出力工程とを備える。
【0016】上記の目的を達成するための本発明による
プログラムは以下の構成を備える。即ち、入力された音
声を認識する音声認識をコンピュータに機能させるため
のプログラムであって、音声データを入力する入力工程
のプログラムコードと、語彙情報を含む外部データを読
み込む読込工程のプログラムコードと、前記読み込まれ
た外部データ中の語彙情報と、認識語彙データベースに
格納されている認識語彙情報を用いて、前記音声データ
の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識工程による音声認識結果を出力する出力工
程のプログラムコードとを備える。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。
【0018】<実施形態1>図1は本発明の実施形態1
の音声認識装置の機能構成図である。
【0019】音声認識装置104は、マイク101等の
音声入力デバイスからユーザの音声データを取り込み、
その音声データを音声認識処理によりコマンドに変換し
て外部機器115に送信する。
【0020】音声認識装置104には、外部にマイク1
01、スイッチ102、外部データ読取装置103、外
部機器115が接続されている。マイク101には音声
認識装置104内の音声取込部105、スイッチ102
にはスイッチ状態取得部109、外部データ読取装置1
03には外部データ取得部112、外部機器115には
コマンド送信部108がそれぞれ接続されている。
【0021】スイッチ102は、単純な押ボタン式のも
のでもよいし、タッチパネルのようなものでもよい。ス
イッチ102は、少なくとも以下の4つのスイッチを有
している。つまり、語彙情報を追加するために外部デー
タ読取装置103を動作させるための外部データ取得ス
イッチ102a、音声認識装置104内の認識語彙デー
タベース111をクリアするための認識語彙クリアスイ
ッチ102b、音声認識処理を実行するために音声取込
を開始させる認識開始スイッチ102c、音声認識処理
の終了を指示するための終了スイッチ102dが構成さ
れている。
【0022】外部データ取得スイッチ102aが押下さ
れると、スイッチ状態取得部109は外部データ取得部
112を動作させる。外部データ取得部112は、外部
データ読取装置103を動作させ、外部データの読取を
実行する。
【0023】尚、外部データ読取装置103としては、
紙のみならず、広く布、プラスチックフィルム、金属板
等の記録媒体に印刷可能な形態で構成される外部データ
を読み取ることが可能な読取装置であれば、どのような
ものでも良く、例えば、スキャナ、バーコードリーダ、
2次元バーコードリーダ等が挙げられる。
【0024】また、実施形態1では、外部データ読取装
置103は、2次元バーコードからなる外部データを読
み取る2次元バーコードリーダを例に挙げて説明する。
【0025】読み取られた外部データ(2次元バーコー
ド)は、外部データ解析部113に送られ、その内容が
解析される。外部データ(2次元バーコード)の解析に
関しては、公知の技術を用いるものとして、ここでは説
明を省略する。この2次元バーコードには語彙情報が登
録されていたものとする。読み取られた語彙情報は、認
識語彙管理部114に送られる。ここでは、表記情報と
発声情報からなる認識語彙データを管理する認識語彙デ
ータベース111にアクセスし、新たに読み取られた語
彙情報を音声認識の認識語彙データとして追加する。こ
の認識語彙データベース111で管理される認識語彙デ
ータは、音声認識時に用いられるため、この認識語彙デ
ータの追加は、ユーザ発声可能語彙の追加と同等の機能
を実現することができる。
【0026】認識語彙クリアスイッチ102bが押下さ
れると、スイッチ状態取得部109は認識語彙管理部1
14を動作させる。認識語彙管理部114は、認識語彙
データベース111のクリアを行う。この処理は、認識
語彙データベース111に登録されている認識語彙全て
を消去してもよいし、「はい」、「いいえ」、「ゼロ」
〜「キュー」等の基本的な認識語彙データ以外の認識語
彙データを消去するようにしても良い。
【0027】認識開始スイッチ102cが押下される
と、スイッチ状態取得部109は、音声取込部105を
動作させる。音声取込部105は、マイク101から音
声取込を開始する。取り込まれた音声データは、音声認
識部106に送られ、音響モデルデータベース110中
の音響モデルデータと認識語彙データベース111中の
認識語彙データを用いて、音声認識処理が行われる。こ
こでの音声認識処理は、公知である音声認識技術を用い
るものとして、詳しい説明は省略する。
【0028】音声認識結果は、コマンド生成部107に
送られ、音声認識結果に対応するコマンドに変換され
る。このコマンドは、コマンド送信部108に送られ、
これを介して外部機器115にコマンドが送信される。
【0029】尚、音声認識装置104は、汎用コンピュ
ータに搭載される標準的な構成要素(例えば、CPU、
RAM、ROM、ハードディスク、外部記憶装置、ネッ
トワークインタフェース、ディスプレイ、キーボード、
マウス等)を有している。
【0030】また、上記各構成要素は、音声認識装置1
04内部のROMや外部記憶装置に記憶されるプログラ
ムがCPUによって実行されることによって実現されて
も良いし、専用のハードウエアで実現されても良い。
【0031】更に、外部機器115としては、例えば、
ディスプレイ装置、パーソナルコンピュータ、スキャ
ナ、プリンタ、デジタルカメラ、ファクシミリ、複写機
等の本音声認識装置104と直接あるいはネットワーク
を介して接続可能な各種機器が挙げられ、これ以外にも
端末上で動作する外部プログラムであっても良い。
【0032】次に、実施形態1の外部データの一例につ
いて、図2を用いて説明する。
【0033】図2は本発明の実施形態1の外部データの
例を示す図である。
【0034】ここでは例として、1つの2次元バーコー
ドからなる外部データ201に、語彙情報として、1つ
のテーブル202が表現されているものとする。このテ
ーブル202には、ユーザが発声する音声を想定した音
声に対応するいくつかの表記情報と、それぞれの表記情
報に対応する一つ以上の発声情報から構成されている。
【0035】音声認識処理では、ユーザが発声した音声
データは認識語彙データ中の全発声情報と比較され、最
も近いと判断された発声情報を持つ表記情報を認識結果
として出力する。特に、テーブル202では、表記情報
に対し、それが発声されると考えられる全ての略称(例
えば、「一日骨太」に対して「ホネブト」、「ホネタ」
等)の発声情報を対応づけて管理している。これによ
り、ユーザが発声した音声データを認識可能な認識語彙
のバリエーションを増やしておくことができ、ユーザの
使い勝手を向上させることができる。
【0036】尚、実施形態1では、外部データ201を
2次元バーコードで表現しているが、通常のバーコード
のような、語彙情報を表現可能なコード体系であればど
のようなものでも良い。
【0037】次に、実施形態1の音声認識装置104で
実行される処理について、図3を用いて説明する。
【0038】図3は本発明の実施形態1の音声認識装置
で実行される処理を示すフローチャートである。
【0039】本音声認識装置104が起動すると、スイ
ッチ状態取得部109は、ユーザからなんらかのスイッ
チの押下の有無を判定する(ステップS301)。スイ
ッチの押下がない場合(ステップS301でNO)、ス
イッチの押下が発生するまで待機する。一方、スイッチ
の押下がある場合(ステップS301でYES)、ステ
ップS302に進む。
【0040】次に、スイッチ状態取得部109は、押下
されたスイッチの種類が外部データ取得スイッチ102
aであるか否かを判定する(ステップS302)。外部
データ取得スイッチ102aである場合(ステップS3
02でYES)、ステップS306に進み、スイッチ状
態取得部109は、外部データ取得部112を動作さ
せ、外部データ取得処理を行う。この外部データ取得処
理は、外部データ読取装置103を利用して外部から語
彙情報を含む外部データを読み取り、その外部データ中
の語彙情報を認識語彙データベース111に追加する処
理である。この処理の詳細については、図4を用いて後
述する。
【0041】一方、外部データ取得スイッチ102aで
ない場合(ステップS302でNO)、スイッチ状態取
得部109は、押下されたスイッチの種類が認識語彙ク
リアスイッチ102bであるか否かを判定する(ステッ
プS303)。認識語彙クリアスイッチ102bである
場合(ステップS303でYES)、ステップS307
に進み、スイッチ状態取得部109は、認識語彙管理部
114を動作させ、装置内の認識語彙データをクリアす
る。このとき、認識語彙データ全てをクリアしてもよい
が、ある特定の認識語彙データだけはクリアせずに残し
てもよい。
【0042】一方、認識語彙クリアスイッチ102bで
ない場合(ステップS303でNO)、スイッチ状態取
得部109は、押下されたスイッチの種類が認識開始ス
イッチ102cであるか否かを判定する(ステップS3
04)。認識開始スイッチ102cである場合(ステッ
プS304でYES)、ステップS308に進み、スイ
ッチ状態取得部109は、音声取込部105を動作させ
てマイク101より音声データを取り込む。続いて、音
声認識部106は、その取り込んだ音声データの音声認
識処理を行う。この音声認識処理は、公知の技術である
音声認識処理を用いている。具体的には、ユーザの発声
から音響的制約・言語的制約を考慮して、認識語彙(認
識文法)の中で最も適する語彙を選択する処理である。
この処理の詳細については、図5を用いて後述する。
【0043】音声認識処理が終了すると、コマンド生成
部107は、その音声認識結果の有無を判定する(ステ
ップS309)。音声認識が失敗し、音声認識結果が得
られない場合(ステップS309でNO)、ステップS
301に戻る。一方、音声認識結果が得られる場合(ス
テップS309でYES)、ステップS310に進み、
コマンド生成部107は、その音声認識結果をコマンド
に変換し、コマンド送信部108を介して外部機器11
5に送信する。
【0044】一方、認識開始スイッチ102cでない場
合(ステップS304でNO)、スイッチ状態取得部1
09は、押下されたスイッチの種類が終了スイッチ10
2dであるか否かを判定する(ステップS305)。終
了スイッチ102dでない場合(ステップS305でN
O)、ステップS301に戻る。一方、終了スイッチ1
02dである場合(ステップS305でYES)、処理
を終了する。
【0045】次に、ステップS306の外部データ取得
処理の詳細について、図4を用いて説明する。
【0046】図4は本発明の実施形態1の外部データ取
得処理の詳細を示すフローチャートである。
【0047】この処理は、外部データ取得装置103を
用い、外部データ中の語彙情報を認識語彙データベース
111に追加する処理である。
【0048】本処理が起動すると、外部データ取得部1
12は、外部データ読取装置103を動作させ、外部デ
ータを取得する(ステップS401)。
【0049】次に、読み込まれた外部データを評価し、
外部データの読取の成功の是非を判定する(ステップS
402)。読取が失敗である場合(ステップS402で
NO)、ステップS406に進み、その旨をユーザに提
示して、本処理を終了する。このときの提示は、本音声
認識装置104に付属したディスプレイ装置に読取失敗
の旨を表示してもよいし、エラー用のビープ音で報知し
てもよい。
【0050】一方、読取が成功である場合(ステップS
402でYES)、ステップS403に進み、外部デー
タ解析部113は、外部データ中の語彙情報を取得す
る。その後、認識語彙管理部114は、取得した語彙情
報を認識語彙データとして認識語彙データベース111
に全て追加する(ステップS404)。
【0051】そして、追加が完了すると、認識語彙デー
タベース111に外部データ中の語彙情報が正常に追加
された旨をユーザに提示して(ステップS405)、本
処理を終了する。このときの提示は、本音声認識装置1
04に付属したディスプレイ装置に読取失敗の旨を表示
してもよいし、エラー用とは異なるビープ音で報知して
もよい。
【0052】次に、ステップS308の音声認識処理の
詳細について、図5を用いて説明する。
【0053】図5は本発明の実施形態1の音声認識処理
の詳細を示すフローチャートである。
【0054】本処理に入ると、音声認識部106は、音
響モデルデータベース110から音響モデルデータ、認
識語彙データベース111から認識語彙データの読込を
行う(ステップS501)。次に、音声取込部105を
動作させ、マイク101からの音声取込を開始する(ス
テップS502)。次に、音声認識部106は、取り込
んだ音声データから一定区間(例えば、1/100秒程
度)の音声データを取得する(ステップS503)。次
に、取り込んだ一定区間の音声データで音声認識処理が
終了したか否かを判定する(ステップS504)。一般
的に、音声認識処理は利用者の発声が終了したと判断さ
れた時点で終了する。音声認識処理が終了していない
(利用者がまだ発声中であると判断された)場合(ステ
ップS504でNO)、ステップS505に進み、次の
一定区間の音声データの音声認識処理を実行し、その一
定区間の音声データの音声認識処理が終了すると、ステ
ップS503に戻る。
【0055】一方、音声認識処理が終了した(利用者の
発声が終了したと判断された)場合(ステップS504
でYES)、マイク101からの音声取込を終了する
(ステップS506)。次に、音声認識部106は、音
声認識結果に対する認識語彙中で最もスコア(尤度)の
高い音声認識候補(発声情報の発声表記)を選択する
(ステップS507)。次に、このときのスコアを閾値
と比較し、スコアが閾値より大きいか否かを判定する
(ステップS508)。スコアが閾値より大きい場合
(ステップS508でYES)、ステップS509に進
み、選択した発声表記を音声認識結果としてユーザに提
示する。
【0056】一方、スコアが閾値以下である場合(ステ
ップS508でNO)、ステップS510に進み、音声
認識に失敗したとして、その旨をユーザに提示する(ス
テップS510)。
【0057】このステップS508によるスコアと閾値
の比較処理により、ユーザの発声間違い、咳などの入力
を棄却することが可能になる。
【0058】次に、認識語彙データベース111の構成
例について、図6を用いて説明する。
【0059】図6は本発明の実施形態1の認識語彙デー
タベースの構成例を示す図である。
【0060】認識語彙データベース111は、外部デー
タ中の語彙情報と同様に、表記情報と発声情報から成り
立つ認識語彙データを有している。特に、認識語彙デー
タベース111は、初めから音声認識装置104が有し
ている基本語彙601と外部データによって追加された
追加語彙602に分けて認識語彙データを管理してい
る。
【0061】尚、認識語彙クリアスイッチ102bが押
下された場合には、認識語彙管理部114は、基本語彙
601及び追加語彙602の両方あるいは追加語彙60
2だけをクリアするようにしてもよい。
【0062】以上説明したように、実施形態1によれ
ば、ユーザが発声すると予想される語彙情報が表現され
ている外部データを読み取り、その外部データ中の語彙
情報と、予め装置内に構成されている認識語彙データベ
ース111の認識語彙データを組み合わせて音声認識処
理を行う。これにより、音声認識処理時の無駄な認識語
彙を抑えることが可能になり、音声認識率の向上を図る
ことができる。また、全く新しい認識語彙も外部データ
から読み込むことで、認識語彙データベース111に登
録されていない認識語彙データ以外の音声認識が可能に
なる。
【0063】<実施形態2>現在、例えば、清涼飲料水
の配送作業や運送会社の配送等の一日に複数の拠点を巡
り、各拠点で作業を行うような業務には、その業務管理
を行うツールとして、例えば、携帯電話やPDA等の携
帯端末が用いられている。例えば、清涼飲料水の配送作
業の一つには、自動販売機の補充がある。配送作業者は
各自動販売機を回り、飲料水を補充するのだが、そのと
きに補充した飲料水の種類と本数を記録する必要があ
る。このときに音声を用いて入力すると便利であるが、
この音声を認識するための認識語彙の管理を、携帯端末
に行わせようとする負荷が大きい場合がある。
【0064】そこで、実施形態2では、実施形態1で説
明される構成を、例えば、清涼飲料水の配送作業で用い
られる携帯端末に適用する例について説明する。
【0065】図7は本発明の実施形態2の音声認識装置
の構成図であり、特に、携帯端末に認識語彙を登録して
音声認識に利用する例を示すものである。
【0066】商品の入った梱包材700に、商品名と製
造会社名の語彙情報からなる2次元バーコード701を
印刷しておく。配送作業者は、その梱包材700を、配
送車の荷台に積み込む際、記録された2次元バーコード
701を、2次元バーコードリーダ702によって各自
の携帯端末705に読み込む。これを繰り返すことによ
り、積荷となる各梱包材700に梱包されている商品名
と製造会社名を認識語彙として、携帯端末705に登録
することができる。
【0067】この認識語彙を用いることにより、配送作
業者は受け持ちの自動販売機の補充時に、その補充商品
名(例えば、「スーパーカライ3本」等)をマイク70
3に対して発声することで、携帯端末706に入力する
ことができる。この音声入力の音声認識結果は、例え
ば、ディスプレイ704に表示される。また、必要に応
じて、テンキー706を用いて音声認識結果を編集でき
ることは言うまでもない。
【0068】特に、清涼飲料水の配送作業の認識語彙
は、その日の積荷に限定されているため、認識率の低下
を防ぐことが可能であり、また、作業が完了すれば、携
帯端末705に登録しておく必要がないので、携帯端末
705の記憶資源を有効利用することができる。
【0069】<実施形態3>実施形態3では、実施形態
1で説明される構成を、例えば、携帯型ゲーム機に適用
する例について説明する。
【0070】図8は本発明の実施形態3の音声認識装置
の構成図であり、特に、携帯型ゲーム機に認識語彙を登
録して音声認識に利用する例を示すものである。
【0071】携帯型ゲーム機801には、カードスキャ
ナ805が内蔵されており、ユーザはこのカードスキャ
ナ805に市販されるカード807を規定枚数挿入して
ゲームを行う。各カードは、例えば、ゲームに登場する
キャラクタを表し、そのキャラクタの名前や技等のゲー
ム進行上に必要なゲーム関連情報を記録することが可能
であるが、特に、そのゲーム関連情報に対応する語彙情
報を記録しておき、これを携帯型ゲーム機801に取り
込むことで、その語彙情報に対応する音声の音声認識を
実現することが可能になる。
【0072】実施形態3では、この語彙情報を電子透か
し技術によって生成された埋込データ810を、カード
807上のキャラクタ画像808に埋め込む。
【0073】尚、電子透かし技術は、人間には識別でき
ないように有用なデータを画像等に埋め込む技術であ
り、カードの美術性を損ねることなく語彙情報を埋め込
むことができる。また、携帯型ゲーム機801が、この
電子透かし技術によって生成されたデータの認識機能を
有していることは言うまでもない。
【0074】そして、ユーザは、コントローラ804を
操作して、このカード807をカードスキャナ805に
よって各自の携帯型ゲーム機801に読み込む。これを
繰り返すことにより、ゲーム進行上に必要なゲーム関連
情報を認識語彙として、携帯型ゲーム機801に登録す
ることができる。
【0075】これにより、ユーザは、携帯型ゲーム機8
01のコントローラ804で目的のキャラクタや技を選
択することも可能であるが、マイク802に対応する音
声を入力することで、ゲーム関連情報を選択することが
可能となる。そして、この音声入力の音声認識結果は、
例えば、ディスプレイ903に表示されたり、その音声
認識結果に対するコマンドが実行されることになる。
【0076】このように新しいゲーム関連情報に対応す
る語彙情報を含んだカードを発売し、ユーザがそれを適
宜携帯型ゲーム機801に登録することで、当初には予
想できなかった新しい認識語彙による音声入力環境をユ
ーザに提供することができる。
【0077】<実施形態4>実施形態4では、実施形態
1で説明される構成を、例えば、携帯電話に適用する例
について説明する。
【0078】図9は本発明の実施形態4の音声認識装置
の構成図であり、特に、携帯電話に認識語彙を登録して
音声認識に利用する例を示すものである。
【0079】携帯電話機901の底部には、小型ハンデ
ィースキャナ906が内蔵されており、例えば、ゲーム
センター等で作成できる写真シール907を読み込むこ
とができる。この写真シールには、作成時に電子透かし
技術を用いて、被写体の名前の表記情報、名前の発声情
報、電話番号等の語彙情報を記録することが可能である
とし、これを携帯電話901に取り込むことで、その語
彙情報に対応する音声の音声認識を実現することが可能
になる。
【0080】実施形態4では、この語彙情報を電子透か
し技術によって生成された埋込データ908を、写真シ
ール907上の被写体画像909に埋め込む。また、実
施形態3と同様に、携帯型電話901が、この電子透か
しデータの認識機能を有していることは言うまでもな
い。
【0081】そして、この写真シール907を手に入れ
たユーザは、操作部903を操作して、この写真シール
907をスキャナ906によって携帯電話906に読み
込む。尚、このスキャナ906の読取部の両端には、読
取動作を容易にするためのローラー905が配置されて
いる。
【0082】これにより、読み取った被写体画像909
中の埋込データ908の電話番号、名前の表記情報、名
前の発声情報は携帯電話901に登録することができ
る。
【0083】ユーザは、例えば、携帯電話901のマイ
ク902に写真シール907上の被写体画像909の名
前に対応する音声を入力することで、その被写体の電話
番号へ電話をかけたり、その被写体画像909を表示部
902に提示することができる。
【0084】尚、実施形態1で説明される構成の適用例
については、実施形態2乃至実施形態4に限定されず、
音声入力による操作が可能な他の情報機器、例えば、プ
リンタ、スキャナ、デジタルカメラ、ファクシミリ、複
写機等にも適宜適用できることは言うまでもない。
【0085】以上、実施形態例を詳述したが、本発明
は、複数の機器から構成されるシステムに適用しても良
いし、また、一つの機器からなる装置に適用しても良
い。
【0086】尚、本発明は、前述した実施形態の機能を
実現するソフトウェアのプログラム(実施形態では図に
示すフローチャートに対応したプログラム)を、システ
ム或いは装置に直接或いは遠隔から供給し、そのシステ
ム或いは装置のコンピュータが該供給されたプログラム
コードを読み出して実行することによっても達成される
場合を含む。その場合、プログラムの機能を有していれ
ば、形態は、プログラムである必要はない。
【0087】従って、本発明の機能処理をコンピュータ
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明は、本発明の機能処理を実現するた
めのコンピュータプログラム自体も含まれる。
【0088】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
【0089】プログラムを供給するための記録媒体とし
ては、例えば、フロッピー(登録商標)ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、MO、CD
−ROM、CD−R、CD−RW、磁気テープ、不揮発
性のメモリカード、ROM、DVD(DVD−ROM,
DVD−R)などがある。
【0090】その他、プログラムの供給方法としては、
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるWWWサーバ
も、本発明に含まれるものである。
【0091】また、本発明のプログラムを暗号化してC
D−ROM等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。
【0092】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているOSなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。
【0093】さらに、記録媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。
【0094】
【発明の効果】以上説明したように、本発明によれば、
認識語彙を容易に拡張でき、より操作性を向上すること
ができる音声認識装置及びその方法、プログラムを提供
する。
【図面の簡単な説明】
【図1】本発明の実施形態1の音声認識装置の機能構成
図である。
【図2】本発明の実施形態1の外部データの例を示す図
である。
【図3】本発明の実施形態1の音声認識装置で実行され
る処理を示すフローチャートである。
【図4】本発明の実施形態1の外部データ取得処理の詳
細を示すフローチャートである。
【図5】本発明の実施形態1の音声認識処理の詳細を示
すフローチャートである。
【図6】本発明の実施形態1の認識語彙データベースの
構成例を示す図である。
【図7】本発明の実施形態2の音声認識装置の構成図で
ある。
【図8】本発明の実施形態3の音声認識装置の構成図で
ある。
【図9】本発明の実施形態4の音声認識装置の構成図で
ある。
【符号の説明】
101 マイク 102 スイッチ 102a 外部データ取得スイッチ 102b 認識語彙クリアスイッチ 102c 認識開始スイッチ 102d 終了スイッチ 103 外部データ読取装置 104 音声認識装置 105 音声取込部 106 音声認識部 107 コマンド生成部 108 コマンド送信部 109 スイッチ状態取得部 110 音響モデル 111 認識語彙データ 112 外部データ取得部 113 外部データ解析部 114 認識語彙管理部 115 外部機器
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 561A

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を認識する音声認識装置
    であって、 音声認識の認識語彙情報を格納する格納手段と、 音声データを入力する入力手段と、 語彙情報を含む外部データを読み込む読込手段と、 前記読み込まれた外部データ中の語彙情報と、前記認識
    語彙情報を用いて、前記音声データの音声認識を行う音
    声認識手段と、 前記音声認識手段による音声認識結果を出力する出力手
    段とを備えることを特徴とする音声認識装置。
  2. 【請求項2】 前記語彙情報は、語彙の発声情報を含む
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 前記外部データは、記録媒体に印刷可能
    な形態であることを特徴とする請求項1に記載の音声認
    識装置。
  4. 【請求項4】 前記外部データは、2次元バーコードで
    あることを特徴とする請求項3に記載の音声認識装置。
  5. 【請求項5】 前記外部データは、前記語彙情報が電子
    透かし技術によって生成された情報を含む画像であるこ
    とを特徴とする請求項3に記載の音声認識装置。
  6. 【請求項6】 前記認識語彙情報を管理する管理手段
    と、 前記管理手段に対する処理の指示を入力する入力手段と
    を更に備えることを特徴とする請求項1に記載の音声認
    識装置。
  7. 【請求項7】 前記管理手段は、前記入力手段から入力
    される指示に基づいて、前記認識語彙情報の少なくとも
    一部を削除することを特徴とする請求項6に記載の音声
    認識装置。
  8. 【請求項8】 入力された音声を認識する音声認識方法
    であって、 音声データを入力する入力工程と、 語彙情報を含む外部データを読み込む読込工程と、 前記読み込まれた外部データ中の語彙情報と、認識語彙
    データベースに格納されている認識語彙情報を用いて、
    前記音声データの音声認識を行う音声認識工程と、 前記音声認識工程による音声認識結果を出力する出力工
    程とを備えることを特徴とする音声認識方法。
  9. 【請求項9】 前記語彙情報は、語彙の発声情報を含む
    ことを特徴とする請求項8に記載の音声認識方法。
  10. 【請求項10】 前記外部データは、記録媒体に印刷可
    能な形態であることを特徴とする請求項8に記載の音声
    認識方法。
  11. 【請求項11】 前記外部データは、2次元バーコード
    であることを特徴とする請求項10に記載の音声認識方
    法。
  12. 【請求項12】 前記外部データは、前記語彙情報が電
    子透かし技術によって生成された情報を含む画像である
    ことを特徴とする請求項10に記載の音声認識方法。
  13. 【請求項13】 前記認識語彙情報を管理する管理工程
    と、 前記管理工程に対する処理の指示を入力する入力工程と
    を更に備えることを特徴とする請求項8に記載の音声認
    識方法。
  14. 【請求項14】 前記管理工程は、前記入力工程から入
    力される指示に基づいて、前記認識語彙情報の少なくと
    も一部を削除することを特徴とする請求項13に記載の
    音声認識方法。
  15. 【請求項15】 入力された音声を認識する音声認識を
    コンピュータに機能させるためのプログラムであって、 音声データを入力する入力工程のプログラムコードと、 語彙情報を含む外部データを読み込む読込工程のプログ
    ラムコードと、 前記読み込まれた外部データ中の語彙情報と、認識語彙
    データベースに格納されている認識語彙情報を用いて、
    前記音声データの音声認識を行う音声認識工程のプログ
    ラムコードと、 前記音声認識工程による音声認識結果を出力する出力工
    程のプログラムコードとを備えることを特徴とするプロ
    グラム。
JP2002116307A 2002-04-18 2002-04-18 音声認識装置及びその方法、プログラム Expired - Fee Related JP3943983B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002116307A JP3943983B2 (ja) 2002-04-18 2002-04-18 音声認識装置及びその方法、プログラム
US10/414,228 US20030200089A1 (en) 2002-04-18 2003-04-16 Speech recognition apparatus and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002116307A JP3943983B2 (ja) 2002-04-18 2002-04-18 音声認識装置及びその方法、プログラム

Publications (3)

Publication Number Publication Date
JP2003308088A true JP2003308088A (ja) 2003-10-31
JP2003308088A5 JP2003308088A5 (ja) 2005-04-07
JP3943983B2 JP3943983B2 (ja) 2007-07-11

Family

ID=29207746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002116307A Expired - Fee Related JP3943983B2 (ja) 2002-04-18 2002-04-18 音声認識装置及びその方法、プログラム

Country Status (2)

Country Link
US (1) US20030200089A1 (ja)
JP (1) JP3943983B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136081A1 (ja) * 2007-04-20 2008-11-13 Mitsubishi Electric Corporation ユーザインタフェース装置及びユーザインタフェース設計装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123575A1 (ja) * 2005-05-19 2006-11-23 Kenji Yoshida 音声情報記録装置
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
CN101377797A (zh) * 2008-09-28 2009-03-04 腾讯科技(深圳)有限公司 一种应用语音控制游戏系统的方法和游戏系统
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
EP2519934A4 (en) 2009-12-31 2015-12-16 Digimarc Corp METHOD AND ARRANGEMENTS WITH SMARTPHONES WITH SENSORS
CN103971687B (zh) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 一种语音识别系统中的负载均衡实现方法和装置
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
JP6479478B2 (ja) * 2014-01-07 2019-03-06 株式会社神戸製鋼所 超音波探傷方法
CN105100352B (zh) * 2015-06-24 2018-09-25 小米科技有限责任公司 获取联系人信息的方法及装置
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6244874A (ja) * 1985-08-22 1987-02-26 Toshiba Corp 機械翻訳装置
US5698834A (en) * 1993-03-16 1997-12-16 Worthington Data Solutions Voice prompt with voice recognition for portable data collection terminal
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US6947571B1 (en) * 1999-05-19 2005-09-20 Digimarc Corporation Cell phones with optical capabilities, and related applications
US5546145A (en) * 1994-08-30 1996-08-13 Eastman Kodak Company Camera on-board voice recognition
US6031914A (en) * 1996-08-30 2000-02-29 Regents Of The University Of Minnesota Method and apparatus for embedding data, including watermarks, in human perceptible images
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US7224995B2 (en) * 1999-11-03 2007-05-29 Digimarc Corporation Data entry method and system
JP3542026B2 (ja) * 2000-05-02 2004-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
CN1236422C (zh) * 2001-05-02 2006-01-11 索尼公司 机器人装置、字符识别方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136081A1 (ja) * 2007-04-20 2008-11-13 Mitsubishi Electric Corporation ユーザインタフェース装置及びユーザインタフェース設計装置

Also Published As

Publication number Publication date
US20030200089A1 (en) 2003-10-23
JP3943983B2 (ja) 2007-07-11

Similar Documents

Publication Publication Date Title
JP3943983B2 (ja) 音声認識装置及びその方法、プログラム
JP5146479B2 (ja) 文書管理装置、文書管理方法、文書管理プログラム
JP2006101521A (ja) 入力メディアオブジェクトの視覚的表現を決定する方法、コンピュータプログラム及びデータ処理システム
JPH113353A (ja) 情報処理方法及び装置
JP2006135939A (ja) 入力メディアオブジェクトをエンコードする方法、コンピュータプログラム及びデータ処理システム
JP2001265753A (ja) 文書への注釈付与方法、システム及びコンピュータ読み取り可能な記録媒体
JP2006155580A (ja) メディアオブジェクトを生成する方法、コンピュータプログラム及びデータ処理システム
JP2009064439A (ja) カスタム化マルチメディア・グリーティング・カードを生成するシステムおよび方法
JP2002140085A (ja) 文書読み上げ装置及び方法、コンピュータプログラム並びに記憶媒体
JP4154015B2 (ja) 情報処理装置およびその方法
JP7314499B2 (ja) 情報処理システム、情報処理装置、ジョブ制御方法およびジョブ制御プログラム
JP2005345632A (ja) 印刷システム
WO2010032373A1 (ja) 動画記録再生装置、動画記録再生方法および動画記録再生プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009042984A (ja) 画像処理システム、データ処理方法、記憶媒体、プログラム
JP7205308B2 (ja) ジョブ生成装置、画像処理装置、ジョブ生成方法およびジョブ生成プログラム
JP4626297B2 (ja) 画像形成装置および画像処理プログラム
JP2000089789A (ja) 音声認識装置及び記録媒体
JP2008108216A (ja) 情報処理装置、情報処理方法、情報処理プログラム、および情報処理プログラムを記録したコンピュータ読取り可能な記録媒体
JP2020181044A (ja) 情報処理装置、その制御方法、およびプログラム
JP4562547B2 (ja) 画像形成装置、プログラムおよび記録媒体
US20050102438A1 (en) Operation parameter determination apparatus and method
JP2005196481A (ja) 画像形成装置、画像形成方法、およびプログラム
JP2006099456A (ja) コンテンツ登録配信機能付きアルバム提供システム
JP4319334B2 (ja) 音声・画像処理装置
JP3953060B2 (ja) 情報処理方法、及び情報処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060619

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070214

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees