JP2003157095A - 音声認識装置及びその方法、プログラム - Google Patents
音声認識装置及びその方法、プログラムInfo
- Publication number
- JP2003157095A JP2003157095A JP2001357746A JP2001357746A JP2003157095A JP 2003157095 A JP2003157095 A JP 2003157095A JP 2001357746 A JP2001357746 A JP 2001357746A JP 2001357746 A JP2001357746 A JP 2001357746A JP 2003157095 A JP2003157095 A JP 2003157095A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- input
- input field
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000000605 extraction Methods 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000448472 Gramma Species 0.000 description 1
- 241000102542 Kara Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
る音声認識装置及びその方法、プログラムを提供する。 【解決手段】 入力欄を表示するための記述と、前記入
力欄に対する入力音声に適用する音声認識文法データに
関する記述を含むハイパーテキスト文書データ100を
文書読込部101で読み込む。ハイパーテキスト文書デ
ータ100に基づいて表示される複数の入力欄に対応す
る音声認識文法データ110を用いて、入力された音声
の音声認識を音声認識部106で行う。その音声認識文
法データ110に基づいて、音声認識結果から得られる
単語群それぞれの入力先の入力欄を複数の入力欄から決
定し、対応する入力欄に表示する。
Description
認識し、その音声認識結果に基づいて処理を実行する音
声認識装置及びその方法、プログラムに関するものであ
る。
は、プログラムを作成することにより行うことが一般的
であった。しかし、近年では、VoiceXMLなどハイパーテ
キスト文書の利用により音声認識技術のインプリメント
をすることが行われるようになってきている。VoiceXML
では、入出力の手段として基本的には音声のみが使用さ
れているが(厳密にはDTMFなども使用)、特開20
01−166915、特開平10−154063などの
ように音声入出力のみならずGUIも併用したUIの記
述にハイパーテキスト文書を用いることも考案されてい
る。
TMLのようなマークアップ言語を用い、さらに音声入
出力を可能にするために、音声入力や音声出力に対応す
るいくつかのタグを追加して実施している。
わゆる、マルチモーダル・ユーザインタフェースにおい
ては、音声認識による音声入力、音声合成による音声出
力、GUIによるユーザからの入力や情報のグラフィッ
クによる提示など各モダリティがどのように連動するか
の記述が必要となる。例えば、特開2001−0428
90においては、ボタンと入力欄及び音声入力が関連づ
けられており、ボタンを押すと関連づけられた入力欄が
選択され音声認識結果がその欄に入力される方法が開示
されている。
開2001−042890における装置では、どれか1
項目をボタンで選択すると、それに対応する入力欄に音
声入力することができる。音声認識においては単語のみ
ならず、文など自由な発声を入力できるという特徴があ
る。例えば、マルチモーダル・ユーザインタフェースを
利用した切符の販売システムにおいては、「東京から大
阪まで、大人一枚」の1発声を行うと、その1発声中の
4つの情報、つまり、出発地、到着地、切符の種別、枚
数という情報が一括入力可能となる。
とも可能である。このような連続入力をGUIの入力欄
に対応させようとしたとき、一発声が一つの入力欄に限
らず複数の入力欄を同時に埋めるなど自由度のある対応
づけが必要となるが、上記提案では、このような入力方
法に対応ができない。
れたものであり、自由度のある音声入力を実現すること
ができる音声認識装置及びその方法、プログラムを提供
することを目的とする。
めの本発明による音声認識装置は以下の構成を備える。
即ち、入力された音声を認識し、その音声認識結果に基
づいて処理を実行する音声認識装置であって、入力欄を
表示するための記述と、前記入力欄に対する入力音声に
適用する音声認識文法データに関する記述を含むハイパ
ーテキスト文書データを読み込む読込手段と、前記ハイ
パーテキスト文書データに基づいて表示される複数の入
力欄に対応する音声認識文法データを用いて、前記入力
された音声の音声認識を行う音声認識手段と、前記音声
認識文法データに基づいて、前記音声認識手段の音声認
識結果から得られる単語群それぞれの入力先の入力欄を
前記複数の入力欄から決定し、対応する入力欄に表示す
る表示手段と、を備える。
文書データに基づいて表示される複数の入力欄を指定す
る指定手段とを更に備え、前記音声認識手段は、前記指
定手段で指定された複数の入力欄に対応する音声認識文
法データを用いて、前記入力された音声の音声認識を行
う。
複数の入力欄を同時に指定可能である。
音声認識文法データに基づいて、前記音声認識手段の音
声認識結果から得られる単語群それぞれの入力先の入力
欄を前記複数の入力欄から決定し、対応する入力欄に同
時表示する。
文書データ及び前記音声認識文法データは、当該音声認
識装置とネットワークを介して接続される外部端末で管
理されている。
文書データを解析する解析手段と、前記解析手段の解析
結果から前記入力欄に対応する前記音声認識文法データ
を取得して、該入力欄と該音声認識文法データとを対応
づけて保持する第1保持手段と、前記入力欄と、該入力
欄に入力された単語とを対応づけて保持する第2保持手
段とを更に備える。
態素解析する形態素解析手段を更に備え、前記表示手段
は、前記音声認識文法データと、前記音声認識手段の音
声認識結果に対する前記形態素解析手段による形態素解
析結果に基づいて、該音声認識結果から得られる単語群
それぞれの入力先の入力欄を前記複数の入力欄から決定
し、対応する入力欄に表示する。
音声認識装置は以下の構成を備える。即ち、入力された
音声を認識し、その音声認識結果に基づいて処理を実行
する音声認識装置であって、入力欄を表示するための記
述と、前記入力欄に対する入力音声に適用する音声認識
文法データに関する記述を含むハイパーテキスト文書デ
ータを読み込む読込手段と、前記ハイパーテキスト文書
を解析する解析手段と、前記解析手段の解析結果に基づ
いて、前記ハイパーテキスト文書中の複数の入力欄から
なる所定入力欄に対応する音声認識文法データを生成す
る生成手段と、前記ハイパーテキスト文書データに基づ
いて表示される前記所定入力欄に対応する音声認識文法
データを用いて、前記入力された音声の音声認識を行う
音声認識手段と、前記音声認識文法データに基づいて、
前記音声認識手段の音声認識結果から得られる単語群そ
れぞれの入力先の入力欄を前記所定入力欄を構成する複
数の入力欄から決定し、対応する入力欄に表示する表示
手段と、を備える。
ハイパーテキスト文書中の入力欄を表示するための記述
の内、対応する音声認識文法データがない記述を抽出す
る抽出手段とを備え、前記生成手段は、前記抽出手段で
抽出された記述に基づいて、該記述に対応する入力欄に
対応する音声認識文法データを生成する。
ハイパーテキスト文書中の音声認識文法データを生成す
るための所定記述を抽出する抽出手段とを備え、前記生
成手段は、前記抽出手段で抽出された所定記述に基づい
て特定される音声認識文法データに基づいて、前記所定
入力欄に対応する音声認識文法データを生成する。
ハイパーテキスト文書中の表示対象のテキストデータを
音声認識対象とする記述を抽出する抽出手段と、前記生
成手段は、前記抽出手段で抽出された記述に基づいて、
該記述に対応する入力欄に対応する前記テキストデータ
を含む音声認識文法データを生成する。
音声認識方法は以下の構成を備える。即ち、入力された
音声を認識し、その音声認識結果に基づいて処理を実行
する音声認識方法であって、入力欄を表示するための記
述と、前記入力欄に対する入力音声に適用する音声認識
文法データに関する記述を含むハイパーテキスト文書デ
ータを読み込む読込工程と、前記ハイパーテキスト文書
データに基づいて表示される複数の入力欄に対応する音
声認識文法データを用いて、前記入力された音声の音声
認識を行う音声認識工程と、前記音声認識文法データに
基づいて、前記音声認識工程の音声認識結果から得られ
る単語群それぞれの入力先の入力欄を前記複数の入力欄
から決定し、対応する入力欄に表示する表示工程と、を
備える。
音声認識方法は以下の構成を備える。即ち、入力された
音声を認識し、その音声認識結果に基づいて処理を実行
する音声認識方法であって、入力欄を表示するための記
述と、前記入力欄に対する入力音声に適用する音声認識
文法データに関する記述を含むハイパーテキスト文書デ
ータを読み込む読込工程と、前記ハイパーテキスト文書
を解析する解析工程と、前記解析工程の解析結果に基づ
いて、前記ハイパーテキスト文書中の複数の入力欄から
なる所定入力欄に対応する音声認識文法データを生成す
る生成工程と、前記ハイパーテキスト文書データに基づ
いて表示される前記所定入力欄に対応する音声認識文法
データを用いて、前記入力された音声の音声認識を行う
音声認識工程と、前記音声認識文法データに基づいて、
前記音声認識工程の音声認識結果から得られる単語群そ
れぞれの入力先の入力欄を前記所定入力欄を構成する複
数の入力欄から決定し、対応する入力欄に表示する表示
工程と、を備える。
プログラムは以下の構成を備える。即ち、入力された音
声を認識し、その音声認識結果に基づいて処理を実行す
る音声認識をコンピュータに機能させるためのプログラ
ムであって、入力欄を表示するための記述と、前記入力
欄に対する入力音声に適用する音声認識文法データに関
する記述を含むハイパーテキスト文書データを読み込む
読込工程のプログラムコードと、前記ハイパーテキスト
文書データに基づいて表示される複数の入力欄に対応す
る音声認識文法データを用いて、前記入力された音声の
音声認識を行う音声認識工程のプログラムコードと、前
記音声認識文法データに基づいて、前記音声認識工程の
音声認識結果から得られる単語群それぞれの入力先の入
力欄を前記複数の入力欄から決定し、対応する入力欄に
表示する表示工程のプログラムコードと、を備える。
プログラムは以下の構成を備える。即ち、入力された音
声を認識し、その音声認識結果に基づいて処理を実行す
る音声認識をコンピュータに機能させるためのプログラ
ムであって、入力欄を表示するための記述と、前記入力
欄に対する入力音声に適用する音声認識文法データに関
する記述を含むハイパーテキスト文書データを読み込む
読込工程のプログラムコードと、前記ハイパーテキスト
文書を解析する解析工程のプログラムコードと、前記解
析工程の解析結果に基づいて、前記ハイパーテキスト文
書中の複数の入力欄からなる所定入力欄に対応する音声
認識文法データを生成する生成工程のプログラムコード
と、前記ハイパーテキスト文書データに基づいて表示さ
れる前記所定入力欄に対応する音声認識文法データを用
いて、前記入力された音声の音声認識を行う音声認識工
程のプログラムコードと、前記音声認識文法データに基
づいて、前記音声認識工程の音声認識結果から得られる
単語群それぞれの入力先の入力欄を前記所定入力欄を構
成する複数の入力欄から決定し、対応する入力欄に表示
する表示工程のプログラムコードと、を備える。
適な実施形態を詳細に説明する。 <実施形態1>図1は本発明の実施形態1の音声認識シ
ステムの構成を示す図である。また、図2は本発明の実
施形態1の音声認識システムの動作フローを示すフロー
チャートである。以下、動作例について、図1及び図2
を用いて説明する。
無線LAN等とのネットワークを介して、データ通信を
行うことができ、汎用コンピュータや携帯端末に搭載さ
れる標準的な構成要素(例えば、CPU、RAM、RO
M、ハードディスク、外部記憶装置、ネットワークイン
タフェース、ディスプレイ、キーボード、マウス等)で
構成されている。また、以下に説明する音声認識システ
ムで実現される各種機能は、システム内部のROMや外
部記憶装置に記憶されるプログラムがCPUによって実
行されることによって実現されても良いし、専用のハー
ドウェアで実現されても良い。
00の読み込みを文書読込部101を用いて行う。文書
データは、マークアップ言語等の記述言語の記述からな
るハイパーテキスト文書であり、その文書データ中に
は、GUIのデザイン、音声認識合成の動作、音声認識
文法の位置(格納場所)を示す記述や表示対象/音声出
力対象のテキストデータ等で構成されている。
書データ100の解析を文書解析部102を用いて行
う。ここでは、文書データ100中のマークアップ言語
の解析を行い、文書データ100がどのような構造にな
っているかの解析を行う。
を図3に示す。また、これをGUIで表示した例を図4
に示す。
4のGUIにおいては、入力欄502及び503として
表示される。また、図3のformタグ401及び404
は、図4の入力欄502及び502を囲む枠501で表
示され、どの入力要素(例えば、input)がformに含ま
れるのかを表示する。formタグ401は、複数のinput
タグで表される入力欄に対する属性を設定できる。図3
の場合、formタグ401及び404で囲まれる2つのin
putタグ402及び403がform名”keiro”に含まれ
る。formタグ401やinputタグ402及び403にあ
る属性grammarは、音声認識文法(以下、単に、文法と
省略する)が保持される位置を示す。この文法データ
は、音声認識システム内あるいは外部のネットワーク上
の外部端末で管理されていても構わない。
書解析部102の解析結果に基づいて、入力欄と文法の
対応関係を求める。実施形態1では、”keiro”という
名称のformに対し文法http://temp/long.grm#keiroが対
応し、”departure”という名称のinputに対し文法htt
p://temp/station.grm#stationが対応し、”destinatio
n”という名称のinputに対し文法http://temp/station.
grm#stationが対応する。これらの対応関係は、記憶装
置103の文法/入力欄対応保持部130に、例えば、
図7に示す形で保持される。
より、文法データ110の読み込みを行い、記憶装置1
03に記憶する。読み込まれる文法データ110は、文
書データ100に記述された文法すべてである。実施形
態1では、図3のタグ401、402及び403におい
て、grammar=で示される3つの文法データ110を、そ
の記述されている位置から読み込み、記憶装置103に
記憶する。但し、402と403のように同一の文法の
場合は二重に読み込む必要はない。尚、それぞれ読み込
んだ文法データ110は、121、122、‥‥、12
nとする。
解析結果に基づく画像を表示部/入力部104に表示す
る。この時の表示例を図4に示す。表示部/入力部10
4の表示部は、一般的にはコンピュータディスプレであ
るが、視覚的に表示できるものであれば、どのようなも
のでも構わない。
力指示を待機する。ユーザからの音声入力指示は、表示
部/入力部104において行う。音声入力指示は、マイ
ク105等を用いて、例えば、図4の枠501、入力欄
502あるいは503等の入力要素に対する入力である
かを示す入力指示を行う。また、音声入力指示の代わり
に、物理的なボタンで入力指示を行ってもよいし、表示
部/入力部104に表示されるGUI中の入力要素をポ
インティングデバイスにより押下することで入力指示を
実現しても構わない。
の一部をポインティングデバイスで押せばよいし、入力
欄502や503を選択したい場合は、その一部をポイ
ンティングデバイスで押下する。以上のようにして、ユ
ーザからの入力指示があれば、ステップS106へ進
む。
た欄に対応する文法をアクティブにする。ここで、文法
をアクティブにするとは、音声認識部106にて、その
文法を使用可能にする(有効にする)ことを意味する。
選択された欄と文法の対応関係は、文法/入力欄対応保
持部130で保持されている対応関係に従って取得す
る。
れた場合は、文法long.grmがアクティブとなる。また、
同様に、入力欄502が選択された場合は文法station.
grmが、入力欄503が選択された場合も文法station.g
rmがアクティブになる。また、文法long.grmの記述例を
図5に、文法station.grmの記述例を図6に示す。
まで」、「××から」、「○○まで」などの発声を認識
することができる。ここで、「××」や「○○」はstat
ion.grmに記述される内容を発声できる。即ち、「東京
から大阪まで」というような1発声、あるいは「名古屋
から」、「東京まで」というような断続発声を認識する
ことができる。また、図6の文法station.grmでは、
「東京」、「大阪」、「名古屋」というような1発声を
認識することができる。
て、アクティブな文法を用いて、ユーザがマイク105
で入力する音声の音声認識を行う。
及び保持を行う。音声認識結果は、基本的には、ステッ
プS105でユーザが選択した入力欄に表示される。ま
た、複数の入力欄が選択されている場合には、その複数
の入力欄に対応する文法データ110に基づいて、音声
認識結果から得られる単語群それぞれの入力先の入力欄
をその複数の入力欄から決定し、対応する入力欄に表示
する。
「東京」と発声すると、入力欄502にその発声に対応
するテキストデータ(東京)が表示される。しかし、fo
rmタグで表される枠501が選択された状態で発声があ
る場合は、枠501は入力欄502及び503という複
数の入力欄を含むので、以下の方法で、発声に対応する
テキストデータを表示する入力欄を決定する。ここで
は、図5の文法記述に従い説明を行う。
分を解析し、{}に記述されている欄に対し入力を行う。
例えば、「東京から大阪まで」と1発声した場合、「東
京」は{departure}に対応し、「大阪」は{destination}
に対応する。この対応関係から「東京」は”deparatur
e”と名づけられた入力欄502に、「大阪」は”desti
nation”と名づけられた入力欄503に表示される。ま
た、「名古屋から」と発声した場合は、{departure}に
対応づけられるため入力欄502に、「東京まで」と発
声した場合は{destination}に対応づけられるため入力
欄503に表示される。
合、発声内容に従って、入力欄502、続いて入力欄5
03、あるいは入力欄502及び503に同時に発声内
容に対応するテキストデータが表示される。さらに、入
力データ保持部131に各欄の入力データ(テキストデ
ータ)が、入力欄の対応関係と共に保持される。例え
ば、「東京から大阪まで」と発声された場合、入力デー
タ保持部131に保持される入力データの例を、図8に
示す。
ータ送信の指示があった時点で、入力データ保持部13
1に保持された入力データが入力データ送信部107に
よりアプリケーション108へ送信する。この場合、例
えば、図8に示す入力データが送信される。
をもとにアプリケーション108の動作を行う。例え
ば、東京から大阪までの鉄道経路の検索を行い、その検
索結果を表示部/入力部104に表示する。
ば、GUI及び音声認識を併用するマルチモーダルイン
タフェースにおいて、複数の情報を音声で一括入力した
場合でも、GUIにおける最適な入力欄に各情報を入力
することができる。さらに、このマルチモーダルインタ
フェースは、マークアップ言語などの記述言語で提供さ
れるため、簡単にUIをカスタマイズすることができ
る。 <実施形態2>実施形態1においては、入力欄をユーザ
が選択する場合について説明したが、ユーザが選択しな
い方法も可能である。この場合の文書データ100の例
を図9に示す。また。これをGUIで表示した例を図1
0に示す。
については、実施形態1と全く同様の動作となるため説
明は省略する。これに対し、601に記述されている文
法は、動作が実施形態1と異なるため図11のフローチ
ャートを用いて、以下に説明する。
ステムの動作フローを示すフローチャートである。
びステップS201は、実施形態1のステップS100
及びステップS101に対応し、その動作は同じである
ので、ここでは、説明を省略する。
書解析部102の解析結果に基づいて、入力欄と文法の
対応関係を求める。但し、対応関係は、実施形態1の図
7とは異なり、http://temp/long.grm#keiroに対応する
タグの名称は空欄となる。
により、文法データ110の読み込みを行う。実施形態
2では、図9のhttp://temp/long.grm#keiroも含め文書
データ100中に記述される文法すべてを読み込む。
解析結果に基づく画像を表示部/入力部104に表示す
る。この時の表示例を図10に示す。
力指示を待機する。ここでは、実施形態1と同様、ユー
ザは入力欄702及び703を選択可能であるが、両者
をまとめて選択することはできない。そして、ユーザか
らの入力指示があれば、ステップS206に進む。
た欄に対応する文法をアクティブにする。選択された欄
と文法の対応関係は、文法/入力欄対応保持部130で
保持されている対応関係に従って取得する。尚、文法に
対応するタグの名称が空欄になっている文法は、常にア
クティブにする。即ち、実施形態2においては、http:/
/temp/long.grm#keiroがアクティブとなる。
0は、実施形態1の図2のステップS107及びステッ
プS110に対応し、その動作は同じであるので、ここ
では、説明を省略する。
ば、GUI及び音声認識を併用するマルチモーダルイン
タフェースにおいて、予め入力位置が確定している場合
や意図的にユーザによる入力欄の選択を禁止したい場合
等には、入力欄の選択を禁止した状態で、複数の情報を
音声で一括入力した場合でも、GUIにおける最適な入
力欄に各情報を入力することができる。 <実施形態3>実施形態1では、音声認識結果をどの入
力欄に表示させるかについては、文法記述において{}で
囲まれる部分を解析し、{}に記述されている欄に対し入
力を行う構成とした。しかしながら、{}の記述がない場
合でも、同様のことが実現可能である。例えば、図5の
文法を使用すると「東京から大阪まで」、「名古屋か
ら」、「東京まで」等の認識が可能である。つまり、ユ
ーザの発声に対する音声認識結果に形態素解析を施し、
音声認識結果として得られる文を単語に区分する。例え
ば、音声認識結果が「東京から大阪まで」である場合、
形態素解析によって、その音声認識結果を「東京/から
/大阪/まで」、「名古屋/から」、「東京/まで」の
ように区分する。
し、「から」及び「まで」に前置されているinputタグ
を決定する。この結果、departureと名前のついたinput
タグは「から」に対応し、destinationと名前のついたi
nputタグは「まで」に対応することが分かる。この結果
を用い、形態素解析結果で「から」の前に前置する単語
をdepartureの入力欄に対応させ、「まで」の前に前置
する単語をdestinationの入力欄に対応させそれぞれの
入力欄を埋める。以上により、{}の記述が文法になくと
も各欄への入力が可能となる。 <実施形態4>実施形態1では、複数の入力欄に音声入
力を行う一括入力用の文法を指定するために、あらかじ
め対応する文法を用意しているが、入力欄の組み合わせ
や語順を変更する場合には、対応した文法を新たに作成
する必要がある。
用例として、各入力欄ごとに文法が用意されている場合
に、これらの項目を一括で入力するための文法を自動で
生成することにより、入力項目の組み合わせや語順の変
更を容易にする構成について説明する。
構成を示す図である。
ステムの構成を示す図である。また、図13は本発明の
実施形態4の音声認識システムの動作フローを示すフロ
ーチャートである。以下、動作例について、図12及び
図13を用いて説明する。
識システムの構成に対して、文法マージ部1211を追
加した構成であり、構成要素1200〜1210、12
30、1231、1221、1222、…、122n
は、図1の構成要素100〜110、130、131、
121、122、…、12nに対応する。
及びステップS301は、実施形態1のステップS10
0及びステップS101に対応し、その動作は同じであ
るので、ここでは、説明を省略する。
析対象の文書データ100の例を図14に示す。これを
GUIで表示した例は、上述の図4のようになる。図1
4の文書データ100と実施形態1の図3の文書データ
100との相違点は、1401のgrammarの指定の部分
である。つまり、実施形態1のように、あらかじめ用意
した文法を指定するのではなく、”merge”と記述され
ている点である。
文書解析部1202の解析結果に基づいて、入力欄と文
法の対応関係を求める。尚、各inputタグ1402及び
1403に対する処理は、実施形態1のinputタグ40
2及び403に対する処理同様なので省略する。特に、
実施形態4では、”keiro”という名称のformの属性gra
mmarに対し、mergeが指定されている。このmergeが指定
された場合に、以降の処理で、form内に記述された文法
を用いて作成するform用の文法を対応付ける。この段階
では、form用の文法は存在しない。そして、文法/入力
欄対応保持部1230に保持される対応関係は、例え
ば、図15に示す形で保持される。図15では、form用
の文法をformの名称を用いて”keiro.grm”としてい
る。
により、文法データ1210の読み込みを行い、記憶装
置103に記憶する。読み込まれる文法データ1210
は、文書データ100に記述された文法すべてである。
の解析結果、formの属性grammarにmergeが指定されてい
た場合、文法マージ部1211において、form内の各in
putへの個別の入力および全inputの一括入力を受容する
from用の文法を新たに作成する。form内に記述されてい
る”input”タグの属性情報を用いて、例えば、図16
Aのようなform用の文法を作成する。また、図16Bの
ように、図5で示したlong.grmと同様に、「から」、
「まで」のようなfrom内に記述された表示用の語句を含
む文法を含む文法を作成してもよい。文書データ120
0を解析してタグ以外の部分を文法内に取り込むこと
で、このような文法を自動的に生成することは可能であ
る。
0及びステップS304で作成した文法データを122
1、1222、‥‥、122nとする。また、ステップ
S304で作成した文法データ、”keiro.grm”は、実
施形態1で説明したformに対応した文法”long.grm”に
相当し、”keiro.gra”をformに対応した文法とする
と、以降、ステップS307〜ステップS311の処理
は、実施形態1の図2のステップS106〜ステップS
110に対応し、その動作は同じであるので、ここで
は、説明を省略する。
ば、formに対応する文法をあらかじめ準備して指定しな
くても、form内のinputなどで使用される文法からform
用の文法を自動で生成することができる。また、実施形
態1で用いた図3の文書データのように、あらかじめ作
成された文法が指定される場合は、実施形態1と同様の
振る舞いをすることができる。
ルチモーダルインタフェースにおいて、複数の項目を音
声で一括入力するための文法を各項目に対応付けられた
文法から自動的に生成することにより、事前に対応する
文法を用意することなく複数項目の一括入力を実現する
ことができる。さらに、このマルチモーダルインタフェ
ースは、マークアップ言語などの記述言語で提供される
ため、簡単にUIをカスタマイズすることができる。 <実施形態5>実施形態4では、ステップS301で、
文書データ1200を解析した際に、formの属性gramma
rに明示的に文法をマージする記述(実施形態4では”m
erge”)がある場合に、文法データのマージを行った
が、これに限定されるものではない。例えば、formの属
性grammarの指定がない場合に、自動的に文法のマージ
を行うようにしてもよい。 <実施形態6>実施形態4では、formの属性grammarの
値を見て、form内に記述された文法データ全てをマージ
した文法データを生成したが、これに限定されるもので
はない。例えば、文法をマージする範囲の開始位置・終
了位置を指定するタグをあらかじめ決めておき、このタ
グで囲まれた範囲のみ文法をマージするようにしても良
い。この場合の文書データの例を図17に示す。
にmergeが指定されており、実施形態6では、form内で
使用される文法を全てマージした文法をformに対応付け
る。また、文法を部分的にマージする範囲の開始点と終
了点を1702と1705で指定している。そして、”
<merge-grammar>”〜”</merge-grammar>”で囲ま
れた範囲に記述された文法をマージした文法を作成し、
対応する入力範囲に用いる文法として用いる。図17を
GUIとして表示した例を図18に示す。
たinputに対応する入力欄はそれぞれ1801、180
2、1803である。また、”<merge-grammar>”
〜”</merge-grammar>”で囲む文法をマージした範囲
が枠1804で囲まれる。さらに、formに属する領域が
枠1805で表示される。実施形態1と同様に、これら
のうち、どの領域をユーザが選択するかによってアクテ
ィブにする文法を変更する。例えば、入力欄1804が
選択されている場合は、「○○から」及び「××ま
で」、「○○から××まで」という入力が可能になり、
form全体(1805)が選択されている場合は、これら
に加えて、「△枚」、「○○から××まで△枚」という
入力が可能になる。 <実施形態7>実施形態4の図13のステップS304
において、「から」、「まで」のようなform内に記述さ
れた表示用の語句を認識対象語として文法内に取り込む
例(図16B)を示す。これを明示的に指定する方法と
して、ステップS301において、文法をマージする際
に認識対象語として取り込む語句を指定するタグを抽出
し、このタグに囲まれた範囲の語句だけ文法内に取り込
むようにしても良い。その場合の文書データの例を、図
19に示す。この例では、1901および1902で示
した”<add-grammar>”〜”</add-grammar>”が、
文法内に取り込まれる語句の範囲を指定するタグで、文
書解析部1202がこれらのタグを抽出した場合に、マ
ージした文法を生成する際にタグに囲まれた範囲の語句
を文法内に取り込んで認識対象語とする。”<add-gram
mar>”〜”<add-grammar>”に文法に取り込む語句の
指定方法は、図19のように語句ごとにタグで囲んでも
良いし、図20のように、取り込む語句が記述されてい
る範囲の開始位置(2001)・終了位置(2002)
を指定するようにしても良い。
00を解析した結果に従って生成されるform用の文法
は、図16Bに示した文法と同じになる。また、表示用
語句を取り込むためのタグが記述されていない文書デー
タ(即ち、図14に示した文書データ)の場合は、「か
ら」、「まで」はマージした文法内に取り込まれず、図
16Aに示した文法が生成される。
実現するソフトウェアのプログラム(実施形態では図に
示すフローチャートに対応したプログラム)を、システ
ム或いは装置に直接或いは遠隔から供給し、そのシステ
ム或いは装置のコンピュータが該供給されたプログラム
コードを読み出して実行することによっても達成される
場合を含む。その場合、プログラムの機能を有していれ
ば、形態は、プログラムである必要はない。
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明は、本発明の機能処理を実現するた
めのコンピュータプログラム自体も含まれる。
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、OSに供給するスクリプトデータ等、プ
ログラムの形態を問わない。
ては、例えば、フロッピー(登録商標)ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、MO、CD
−ROM、CD−R、CD−RW、磁気テープ、不揮発
性のメモリカード、ROM、DVD(DVD−ROM,
DVD−R)などがある。
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるWWWサーバ
も、本発明に含まれるものである。
D−ROM等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているOSなどが、実際の処理の一
部または全部を行い、その処理によっても前述した実施
形態の機能が実現され得る。
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるCPU
などが実際の処理の一部または全部を行い、その処理に
よっても前述した実施形態の機能が実現される。
自由度のある音声入力を実現することができる音声認識
装置及びその方法、プログラムを提供できる。
を示す図である。
フローを示すフローチャートである。
である。
る。
である。
す図である。
に保持されるデータの例を示す図である。
されるデータの例を示す図である。
である。
ある。
作フローを示すフローチャートである。
成を示す図である。
作フローを示すフローチャートである。
図である。
部に保持されるデータの例を示す図である。
す図である。
す図である。
図である。
ある。
図である。
示す図である。
Claims (24)
- 【請求項1】 入力された音声を認識し、その音声認識
結果に基づいて処理を実行する音声認識装置であって、 入力欄を表示するための記述と、前記入力欄に対する入
力音声に適用する音声認識文法データに関する記述を含
むハイパーテキスト文書データを読み込む読込手段と、 前記ハイパーテキスト文書データに基づいて表示される
複数の入力欄に対応する音声認識文法データを用いて、
前記入力された音声の音声認識を行う音声認識手段と、 前記音声認識文法データに基づいて、前記音声認識手段
の音声認識結果から得られる単語群それぞれの入力先の
入力欄を前記複数の入力欄から決定し、対応する入力欄
に表示する表示手段と、 を備えることを特徴とする音声認識装置。 - 【請求項2】 前記ハイパーテキスト文書データに基づ
いて表示される複数の入力欄を指定する指定手段とを更
に備え、 前記音声認識手段は、前記指定手段で指定された複数の
入力欄に対応する音声認識文法データを用いて、前記入
力された音声の音声認識を行うことを特徴とする請求項
1に記載の音声認識装置。 - 【請求項3】 前記指定手段は、前記複数の入力欄を同
時に指定可能であることを特徴とする請求項2に記載の
音声認識装置。 - 【請求項4】 前記表示手段は、前記音声認識文法デー
タに基づいて、前記音声認識手段の音声認識結果から得
られる単語群それぞれの入力先の入力欄を前記複数の入
力欄から決定し、対応する入力欄に同時表示することを
特徴とする請求項1に記載の音声認識装置。 - 【請求項5】 前記ハイパーテキスト文書データ及び前
記音声認識文法データは、当該音声認識装置とネットワ
ークを介して接続される外部端末で管理されていること
を特徴とする請求項1に記載の音声認識装置。 - 【請求項6】 前記ハイパーテキスト文書データを解析
する解析手段と、 前記解析手段の解析結果から前記入力欄に対応する前記
音声認識文法データを取得して、該入力欄と該音声認識
文法データとを対応づけて保持する第1保持手段と、 前記入力欄と、該入力欄に入力された単語とを対応づけ
て保持する第2保持手段とを更に備えることを特徴とす
る請求項1に記載の音声認識装置。 - 【請求項7】 前記音声認識結果を形態素解析する形態
素解析手段を更に備え、 前記表示手段は、前記音声認識文法データと、前記音声
認識手段の音声認識結果に対する前記形態素解析手段に
よる形態素解析結果に基づいて、該音声認識結果から得
られる単語群それぞれの入力先の入力欄を前記複数の入
力欄から決定し、対応する入力欄に表示することを特徴
とする請求項1に記載の音声認識装置。 - 【請求項8】 入力された音声を認識し、その音声認識
結果に基づいて処理を実行する音声認識装置であって、 入力欄を表示するための記述と、前記入力欄に対する入
力音声に適用する音声認識文法データに関する記述を含
むハイパーテキスト文書データを読み込む読込手段と、 前記ハイパーテキスト文書を解析する解析手段と、 前記解析手段の解析結果に基づいて、前記ハイパーテキ
スト文書中の複数の入力欄からなる所定入力欄に対応す
る音声認識文法データを生成する生成手段と、 前記ハイパーテキスト文書データに基づいて表示される
前記所定入力欄に対応する音声認識文法データを用い
て、前記入力された音声の音声認識を行う音声認識手段
と、 前記音声認識文法データに基づいて、前記音声認識手段
の音声認識結果から得られる単語群それぞれの入力先の
入力欄を前記所定入力欄を構成する複数の入力欄から決
定し、対応する入力欄に表示する表示手段と、 を備えることを特徴とする音声認識装置。 - 【請求項9】 前記解析手段は、前記ハイパーテキスト
文書中の入力欄を表示するための記述の内、対応する音
声認識文法データがない記述を抽出する抽出手段とを備
え、 前記生成手段は、前記抽出手段で抽出された記述に基づ
いて、該記述に対応する入力欄に対応する音声認識文法
データを生成することを特徴とする請求項8に記載の音
声認識装置。 - 【請求項10】 前記解析手段は、前記ハイパーテキス
ト文書中の音声認識文法データを生成するための所定記
述を抽出する抽出手段とを備え、 前記生成手段は、前記抽出手段で抽出された所定記述に
基づいて特定される音声認識文法データに基づいて、前
記所定入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項8に記載の音声認識装置。 - 【請求項11】 前記生成手段は、前記ハイパーテキス
ト文書中の表示対象のテキストデータを音声認識対象と
する記述を抽出する抽出手段と、 前記生成手段は、前記抽出手段で抽出された記述に基づ
いて、該記述に対応する入力欄に対応する前記テキスト
データを含む音声認識文法データを生成することを特徴
とする請求項8に記載の音声認識装置。 - 【請求項12】 入力された音声を認識し、その音声認
識結果に基づいて処理を実行する音声認識方法であっ
て、 入力欄を表示するための記述と、前記入力欄に対する入
力音声に適用する音声認識文法データに関する記述を含
むハイパーテキスト文書データを読み込む読込工程と、 前記ハイパーテキスト文書データに基づいて表示される
複数の入力欄に対応する音声認識文法データを用いて、
前記入力された音声の音声認識を行う音声認識工程と、 前記音声認識文法データに基づいて、前記音声認識工程
の音声認識結果から得られる単語群それぞれの入力先の
入力欄を前記複数の入力欄から決定し、対応する入力欄
に表示する表示工程と、 を備えることを特徴とする音声認識方法。 - 【請求項13】 前記ハイパーテキスト文書データに基
づいて表示される複数の入力欄を指定する指定工程とを
更に備え、 前記音声認識工程は、前記指定工程で指定された複数の
入力欄に対応する音声認識文法データを用いて、前記入
力された音声の音声認識を行うことを特徴とする請求項
12に記載の音声認識方法。 - 【請求項14】 前記指定工程は、前記複数の入力欄を
同時に指定可能であることを特徴とする請求項13に記
載の音声認識方法。 - 【請求項15】 前記表示工程は、前記音声認識文法デ
ータに基づいて、前記音声認識工程の音声認識結果から
得られる単語群それぞれの入力先の入力欄を前記複数の
入力欄から決定し、対応する入力欄に同時表示すること
を特徴とする請求項12に記載の音声認識方法。 - 【請求項16】 前記ハイパーテキスト文書データ及び
前記音声認識文法データは、当該音声認識装置とネット
ワークを介して接続される外部端末で管理されているこ
とを特徴とする請求項12に記載の音声認識方法。 - 【請求項17】 前記ハイパーテキスト文書データを解
析する解析工程と、 前記解析工程の解析結果から前記入力欄に対応する前記
音声認識文法データを取得して、該入力欄と該音声認識
文法データとを対応づけて保持する第1保持工程と、 前記入力欄と、該入力欄に入力された単語とを対応づけ
て保持する第2保持工程とを更に備えることを特徴とす
る請求項12に記載の音声認識方法。 - 【請求項18】 前記音声認識結果を形態素解析する形
態素解析工程を更に備え、 前記表示工程は、前記音声認識文法データと、前記音声
認識工程の音声認識結果に対する前記形態素解析工程に
よる形態素解析結果に基づいて、該音声認識結果から得
られる単語群それぞれの入力先の入力欄を前記複数の入
力欄から決定し、対応する入力欄に表示することを特徴
とする請求項12に記載の音声認識方法。 - 【請求項19】 入力された音声を認識し、その音声認
識結果に基づいて処理を実行する音声認識方法であっ
て、 入力欄を表示するための記述と、前記入力欄に対する入
力音声に適用する音声認識文法データに関する記述を含
むハイパーテキスト文書データを読み込む読込工程と、 前記ハイパーテキスト文書を解析する解析工程と、 前記解析工程の解析結果に基づいて、前記ハイパーテキ
スト文書中の複数の入力欄からなる所定入力欄に対応す
る音声認識文法データを生成する生成工程と、 前記ハイパーテキスト文書データに基づいて表示される
前記所定入力欄に対応する音声認識文法データを用い
て、前記入力された音声の音声認識を行う音声認識工程
と、 前記音声認識文法データに基づいて、前記音声認識工程
の音声認識結果から得られる単語群それぞれの入力先の
入力欄を前記所定入力欄を構成する複数の入力欄から決
定し、対応する入力欄に表示する表示工程と、 を備えることを特徴とする音声認識方法。 - 【請求項20】 前記解析工程は、前記ハイパーテキス
ト文書中の入力欄を表示するための記述の内、対応する
音声認識文法データがない記述を抽出する抽出工程とを
備え、 前記生成工程は、前記抽出工程で抽出された記述に基づ
いて、該記述に対応する入力欄に対応する音声認識文法
データを生成することを特徴とする請求項19に記載の
音声認識方法。 - 【請求項21】 前記解析工程は、前記ハイパーテキス
ト文書中の音声認識文法データを生成するための所定記
述を抽出する抽出工程とを備え、 前記生成工程は、前記抽出工程で抽出された所定記述に
基づいて特定される音声認識文法データに基づいて、前
記所定入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項19に記載の音声認識方法。 - 【請求項22】 前記生成工程は、前記ハイパーテキス
ト文書中の表示対象のテキストデータを音声認識対象と
する記述を抽出する抽出工程と、 前記生成工程は、前記抽出工程で抽出された記述に基づ
いて、該記述に対応する入力欄に対応する前記テキスト
データを含む音声認識文法データを生成することを特徴
とする請求項19に記載の音声認識方法。 - 【請求項23】 入力された音声を認識し、その音声認
識結果に基づいて処理を実行する音声認識をコンピュー
タに機能させるためのプログラムであって、 入力欄を表示するための記述と、前記入力欄に対する入
力音声に適用する音声認識文法データに関する記述を含
むハイパーテキスト文書データを読み込む読込工程のプ
ログラムコードと、 前記ハイパーテキスト文書データに基づいて表示される
複数の入力欄に対応する音声認識文法データを用いて、
前記入力された音声の音声認識を行う音声認識工程のプ
ログラムコードと、 前記音声認識文法データに基づいて、前記音声認識工程
の音声認識結果から得られる単語群それぞれの入力先の
入力欄を前記複数の入力欄から決定し、対応する入力欄
に表示する表示工程のプログラムコードと、 を備えることを特徴とするプログラム。 - 【請求項24】 入力された音声を認識し、その音声認
識結果に基づいて処理を実行する音声認識をコンピュー
タに機能させるためのプログラムであって、 入力欄を表示するための記述と、前記入力欄に対する入
力音声に適用する音声認識文法データに関する記述を含
むハイパーテキスト文書データを読み込む読込工程のプ
ログラムコードと、 前記ハイパーテキスト文書を解析する解析工程のプログ
ラムコードと、 前記解析工程の解析結果に基づいて、前記ハイパーテキ
スト文書中の複数の入力欄からなる所定入力欄に対応す
る音声認識文法データを生成する生成工程のプログラム
コードと、 前記ハイパーテキスト文書データに基づいて表示される
前記所定入力欄に対応する音声認識文法データを用い
て、前記入力された音声の音声認識を行う音声認識工程
のプログラムコードと、 前記音声認識文法データに基づいて、前記音声認識工程
の音声認識結果から得られる単語群それぞれの入力先の
入力欄を前記所定入力欄を構成する複数の入力欄から決
定し、対応する入力欄に表示する表示工程のプログラム
コードと、 を備えることを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001357746A JP3542578B2 (ja) | 2001-11-22 | 2001-11-22 | 音声認識装置及びその方法、プログラム |
PCT/JP2002/011822 WO2003044772A1 (en) | 2001-11-22 | 2002-11-13 | Speech recognition apparatus and its method and program |
AU2002347629A AU2002347629A1 (en) | 2001-11-22 | 2002-11-13 | Speech recognition apparatus and its method and program |
US10/490,696 US20050086057A1 (en) | 2001-11-22 | 2002-11-13 | Speech recognition apparatus and its method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001357746A JP3542578B2 (ja) | 2001-11-22 | 2001-11-22 | 音声認識装置及びその方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003157095A true JP2003157095A (ja) | 2003-05-30 |
JP3542578B2 JP3542578B2 (ja) | 2004-07-14 |
Family
ID=19169042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001357746A Expired - Fee Related JP3542578B2 (ja) | 2001-11-22 | 2001-11-22 | 音声認識装置及びその方法、プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050086057A1 (ja) |
JP (1) | JP3542578B2 (ja) |
AU (1) | AU2002347629A1 (ja) |
WO (1) | WO2003044772A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005351980A (ja) * | 2004-06-08 | 2005-12-22 | Canon Inc | 音声認識文法作成装置、音声認識文法作成方法、プログラムおよび記憶媒体 |
JP2007010971A (ja) * | 2005-06-30 | 2007-01-18 | Canon Inc | 音声認識方法及び音声認識装置 |
JP2009236960A (ja) * | 2008-03-25 | 2009-10-15 | Nec Corp | 音声認識装置、音声認識方法及びプログラム |
JP2019185474A (ja) * | 2018-04-12 | 2019-10-24 | 株式会社Nttドコモ | 情報処理装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7634720B2 (en) * | 2003-10-24 | 2009-12-15 | Microsoft Corporation | System and method for providing context to an input method |
JP4822829B2 (ja) * | 2005-12-14 | 2011-11-24 | キヤノン株式会社 | 音声認識装置および方法 |
US8417529B2 (en) * | 2006-12-27 | 2013-04-09 | Nuance Communications, Inc. | System and methods for prompting user speech in multimodal devices |
US8010465B2 (en) | 2008-02-26 | 2011-08-30 | Microsoft Corporation | Predicting candidates using input scopes |
US9582498B2 (en) | 2014-09-12 | 2017-02-28 | Microsoft Technology Licensing, Llc | Actions on digital document elements from voice |
JP7243106B2 (ja) * | 2018-09-27 | 2023-03-22 | 富士通株式会社 | 修正候補提示方法、修正候補提示プログラムおよび情報処理装置 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0427485B1 (en) * | 1989-11-06 | 1996-08-14 | Canon Kabushiki Kaisha | Speech synthesis apparatus and method |
JPH03150599A (ja) * | 1989-11-07 | 1991-06-26 | Canon Inc | 日本語音節の符号化方式 |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
JP3066920B2 (ja) * | 1991-06-11 | 2000-07-17 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH04362698A (ja) * | 1991-06-11 | 1992-12-15 | Canon Inc | 音声認識方法及び装置 |
JP3526101B2 (ja) * | 1995-03-14 | 2004-05-10 | 株式会社リコー | 音声認識装置 |
US6965864B1 (en) * | 1995-04-10 | 2005-11-15 | Texas Instruments Incorporated | Voice activated hypermedia systems using grammatical metadata |
JP3397568B2 (ja) * | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH09258771A (ja) * | 1996-03-25 | 1997-10-03 | Canon Inc | 音声処理方法及び装置 |
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
JP3962445B2 (ja) * | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
US6101473A (en) * | 1997-08-08 | 2000-08-08 | Board Of Trustees, Leland Stanford Jr., University | Using speech recognition to access the internet, including access via a telephone |
US5995918A (en) * | 1997-09-17 | 1999-11-30 | Unisys Corporation | System and method for creating a language grammar using a spreadsheet or table interface |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6012030A (en) * | 1998-04-21 | 2000-01-04 | Nortel Networks Corporation | Management of speech and audio prompts in multimodal interfaces |
JP2000047696A (ja) * | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
US6513063B1 (en) * | 1999-01-05 | 2003-01-28 | Sri International | Accessing network-based electronic information through scripted online interfaces using spoken input |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
JP3814459B2 (ja) * | 2000-03-31 | 2006-08-30 | キヤノン株式会社 | 音声認識方法及び装置と記憶媒体 |
JP3762191B2 (ja) * | 2000-04-20 | 2006-04-05 | キヤノン株式会社 | 情報入力方法、情報入力装置及び記憶媒体 |
JP3728177B2 (ja) * | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
US6728708B1 (en) * | 2000-06-26 | 2004-04-27 | Datria Systems, Inc. | Relational and spatial database management system and method for applications having speech controlled data input displayable in a form and a map having spatial and non-spatial data |
AU2001294222A1 (en) * | 2000-10-11 | 2002-04-22 | Canon Kabushiki Kaisha | Information processing device, information processing method, and storage medium |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
JP3482398B2 (ja) * | 2000-12-19 | 2003-12-22 | 株式会社第一興商 | 音声入力式楽曲検索システム |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
KR100549482B1 (ko) * | 2001-03-22 | 2006-02-08 | 캐논 가부시끼가이샤 | 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체 |
US6834264B2 (en) * | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7020841B2 (en) * | 2001-06-07 | 2006-03-28 | International Business Machines Corporation | System and method for generating and presenting multi-modal applications from intent-based markup scripts |
US6996528B2 (en) * | 2001-08-03 | 2006-02-07 | Matsushita Electric Industrial Co., Ltd. | Method for efficient, safe and reliable data entry by voice under adverse conditions |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
JP3799280B2 (ja) * | 2002-03-06 | 2006-07-19 | キヤノン株式会社 | 対話システムおよびその制御方法 |
JP2004020613A (ja) * | 2002-06-12 | 2004-01-22 | Canon Inc | サーバ、受信端末 |
JP3814566B2 (ja) * | 2002-06-20 | 2006-08-30 | キヤノン株式会社 | 情報処理装置、情報処理方法、制御プログラム |
JP3885002B2 (ja) * | 2002-06-28 | 2007-02-21 | キヤノン株式会社 | 情報処理装置およびその方法 |
-
2001
- 2001-11-22 JP JP2001357746A patent/JP3542578B2/ja not_active Expired - Fee Related
-
2002
- 2002-11-13 AU AU2002347629A patent/AU2002347629A1/en not_active Abandoned
- 2002-11-13 WO PCT/JP2002/011822 patent/WO2003044772A1/en active Application Filing
- 2002-11-13 US US10/490,696 patent/US20050086057A1/en not_active Abandoned
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005351980A (ja) * | 2004-06-08 | 2005-12-22 | Canon Inc | 音声認識文法作成装置、音声認識文法作成方法、プログラムおよび記憶媒体 |
JP4579585B2 (ja) * | 2004-06-08 | 2010-11-10 | キヤノン株式会社 | 音声認識文法作成装置、音声認識文法作成方法、プログラムおよび記憶媒体 |
JP2007010971A (ja) * | 2005-06-30 | 2007-01-18 | Canon Inc | 音声認識方法及び音声認識装置 |
JP4667138B2 (ja) * | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
JP2009236960A (ja) * | 2008-03-25 | 2009-10-15 | Nec Corp | 音声認識装置、音声認識方法及びプログラム |
JP2019185474A (ja) * | 2018-04-12 | 2019-10-24 | 株式会社Nttドコモ | 情報処理装置 |
JP7114307B2 (ja) | 2018-04-12 | 2022-08-08 | 株式会社Nttドコモ | 情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20050086057A1 (en) | 2005-04-21 |
WO2003044772A1 (en) | 2003-05-30 |
AU2002347629A1 (en) | 2003-06-10 |
JP3542578B2 (ja) | 2004-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6801897B2 (en) | Method of providing concise forms of natural commands | |
JP4263181B2 (ja) | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム | |
US8290775B2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
KR100661687B1 (ko) | 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템 | |
EP1405169B1 (en) | Information processing apparatus and method, and program product | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
JP2004310748A (ja) | ユーザ入力に基づくデータの提示 | |
JP3814566B2 (ja) | 情報処理装置、情報処理方法、制御プログラム | |
JP2006185426A (ja) | Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体 | |
JP2018060568A (ja) | 音声を利用できるテルネットインターフェイス | |
JP7200533B2 (ja) | 情報処理装置およびプログラム | |
JP2005043461A (ja) | 音声認識方法及び音声認識装置 | |
JP3542578B2 (ja) | 音声認識装置及びその方法、プログラム | |
JP2008234427A (ja) | ユーザ間の対話を支援する装置、方法およびプログラム | |
JP3927800B2 (ja) | 音声認識装置及び方法、プログラム、並びに記憶媒体 | |
WO2020017151A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN111095237A (zh) | 对话处理装置及对话处理系统 | |
JP2004334369A (ja) | 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム | |
JP2009116107A (ja) | 情報処理装置及び方法 | |
JP2007164732A (ja) | コンピュータ実行可能なプログラム、および情報処理装置 | |
US7054813B2 (en) | Automatic generation of efficient grammar for heading selection | |
JP2005322148A (ja) | ブラウザ装置 | |
JP2005181358A (ja) | 音声認識合成システム | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
WO2022054286A1 (ja) | 言語リソースのデータ構造及びこれを用いた発話理解支援のための装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040331 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090409 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090409 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100409 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110409 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |