JP2006011271A - 音声認識文法作成装置及びその制御方法 - Google Patents

音声認識文法作成装置及びその制御方法 Download PDF

Info

Publication number
JP2006011271A
JP2006011271A JP2004191596A JP2004191596A JP2006011271A JP 2006011271 A JP2006011271 A JP 2006011271A JP 2004191596 A JP2004191596 A JP 2004191596A JP 2004191596 A JP2004191596 A JP 2004191596A JP 2006011271 A JP2006011271 A JP 2006011271A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition grammar
components
component
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004191596A
Other languages
English (en)
Other versions
JP2006011271A5 (ja
JP4579595B2 (ja
Inventor
Kazue Kaneko
和恵 金子
Michio Aizawa
道雄 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004191596A priority Critical patent/JP4579595B2/ja
Priority to US11/169,550 priority patent/US7603269B2/en
Publication of JP2006011271A publication Critical patent/JP2006011271A/ja
Publication of JP2006011271A5 publication Critical patent/JP2006011271A5/ja
Application granted granted Critical
Publication of JP4579595B2 publication Critical patent/JP4579595B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 従来の、構成要素の順番を入れ替え且つ省略可能な構成要素の組み合わせも考慮したルールを全て作成しなければならない、という煩雑な手間を解消可能とした音声認識文法作成装置を提供する。
【解決手段】 音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素をグループ化し、前記省略してはならない構成要素を含む構成要素の組み合わせを展開して音声認識文法を作成する。
【選択図】 図1

Description

本発明は、音声認識可能な語や文を記述して音声認識文法として作成する音声認識文法作成装置及びその制御方法に関する。
従来、音声認識装置において、予め音声認識できる内容を音声認識文法として記述しておく場合、音声認識文法を構文記述用の表記方法である拡張BNF(Augmented Backus Naur Format)形式で記述することが一般的に行われている。拡張BNF形式の音声認識文法では、省略可能な部分の記述が可能であるが、省略可能部分は、ある範囲について指定するもので、省略可能部分が全て省略されるか、全て発話されるかのどちらかの記述しかできない。
他方、音声認識対象の文を構成する構成要素(単語)の順序が固定でない場合の、構成要素の組み合わせについて、機能を拡張した音声認識文法を記述することができる音声認識装置に関する技術が提案されている(例えば、特許文献1参照)。しかし、該提案は構成要素の省略について扱うものではない。
また、音声認識文法は、テキストとしてテキストエディタで記述することが一般的ではあるが、現在では、GUI(Graphical User Interface)を使用することにより音声認識文法をグラフィカルに記述するものもある。しかし、省略可能な構成要素の組み合わせを扱うものはない。
特開2001−188560号公報
上述した音声認識文法を記述する際、何らかのデフォルト値が想定されており、音声認識対象の文を構成する構成要素(単語)全てをユーザが発声しなくても機能するようなルールを記述したい場合が往々にして出てくる。例えば、時刻を表すルールを記述する場合、音声認識装置側でユーザが「○時○分○秒」と構成要素全てを発声した場合を受け入れるだけでなく、「○時○分」、「○時○秒」、「○分○秒」、「○時」、「○分」、「○秒」などの発声も受け入れるルールを記述したいとする。
その場合、以下に示すように構成要素それぞれを省略可能にしてしまうと、そのルールでは、全ての構成要素が省略可能となり、何も発声がない場合にもマッチングするルールを記述することになる。
<時刻>=[<時>][<分>][<秒>]
上記表記において、< >内はノンターミナルノード(ルール名)を示し、[ ]内は省略可能を示す。
ルールを厳密に記述しようとすると、以下に示す3種類の組み合わせを作成しなければならず、構成要素の数が増えれば増えるほど組み合わせの数も増える。
<時刻>=<時>[<分>][<秒>] | <分>[<秒>] | <秒>
上記表記において、| はOR結合を示し、構成要素の並びはAND結合を示す。
また、順序が不定で省略可能な構成要素からなるルールを記述する場合は、構成要素の順序の組み合わせについても考慮してルールを作成しなければならず、順序の組み合わせの数は更に増える。
例えば、音声入力により複写動作に対する各種指定を行うことが可能な複写機の操作タスクにおいて、<用紙選択> <拡大縮小> <片面両面> <ソータ> <濃さ> <部数> などの指定要素があり、それぞれの指定要素に省略された際のデフォルトが設定されている場合を想定する。この場合には、ユーザは、指定要素の順番を入れ替えると共に省略可能な指定要素の組み合わせも考慮したルールを全て作成しなくてはならず、極めて煩雑であり手間がかかるという問題がある。
本発明の目的は、従来の、構成要素の順番を入れ替え且つ省略可能な構成要素の組み合わせも考慮したルールを全て作成しなければならない、という煩雑な手間を解消することを可能とした音声認識文法作成装置及びその制御方法を提供することにある。
上述の目的を達成するために、本発明は、音声認識対象を音声認識文法として記述する音声認識文法作成装置において、音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素をグループ化するグループ化手段と、前記省略してはならない構成要素を含む構成要素の組み合わせを展開して音声認識文法を作成する作成手段とを備えることを特徴とする。

上述の目的を達成するために、本発明は、音声認識対象を音声認識文法として記述する音声認識文法作成装置の制御方法において、音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素をグループ化するグループ化工程と、前記省略してはならない構成要素を含む構成要素の組み合わせを展開して音声認識文法を作成する作成工程とを備えることを特徴とする。
本発明により、省略可能な構成要素を含むグループを音声認識文法として記述する際に、構成要素の組み合わせについて重複やルールとしての適切さ等を考慮せずに直感的に記述することができるようになる。
以下、本発明の実施の形態を図面に基づき説明する。
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る音声認識文法作成装置の構成を示すブロック図である。
図1において、音声認識文法作成装置は、文字・操作入力部101、画像表示部102、画像編集部103、拡張BNF変換部104、ファイル入出力部105を備えている。
文字・操作入力部101は、キーボードやマウス等から構成されており、ユーザが音声認識文法作成装置に対する音声認識文法の作成指示や編集操作等を行う際に用いる。画像表示部102は、メタ言語(言語記述言語)形式の代表的なものである拡張BNF形式のルールの組により定義される編集中の音声認識文法(図4、図6、図7参照)をグラフィカルに表示すると共に、画像表示部102の表示内容に応じたユーザによる文字・操作入力部101を介した操作に従い編集作業過程を表示することが可能である。
画像編集部103は、ユーザによる文字・操作入力部101を介した編集操作を受け入れて編集中の画像(図4、図6、図7参照)の変更を行う。拡張BNF変換部104は、画像表示部102の表示内容に応じたユーザによる文字・操作入力部101を介した操作に従い、グラフィカルな表示の音声認識文法を拡張BNF形式に変換する。ファイル入出力部105は、画像表示部102にグラフィカルに表示されている編集した音声認識文法や、拡張BNF形式に変換された音声認識文法をファイルとして入出力する。
音声認識文法作成装置は、具体的にはコンピュータ等の情報処理装置から構成されており、情報処理装置に装備されているCPU、ROM、RAM、コントローラ、ハードディスク、ディスプレイ、キーボード、マウス等が図1の各部の機能に対応している。即ち、文字・操作入力部101は、キーボードやマウス等に対応し、画像表示部102は、ディスプレイに対応し、画像編集部103、拡張BNF変換部104、ファイル入出力部105は、CPU、メモリコントローラ、制御プログラムの機能等に対応する。CPUはROM或いはハードディスクに格納された制御プログラムに基づき図3のフローチャートに示す処理を実行する。
図2は、従来扱われている拡張BNF形式で表現可能な音声認識文法の例を示す図である。
図2において、201、202、203は、音声認識文法を画像表示部102にグラフィカルに表示したものと、音声認識文法を拡張BNF形式で表現したものとを対にして示したものである。
音声認識文法のグラフィカルな表記については、以下の表記方法をとる。角の丸い長方形はノンターミナルノード(ルール名)を示し、角の尖った長方形はターミナルノード(単語)を示す。一番左端の角の丸い長方形がルールの左辺を示し、それより矢印で示される角の尖った長方形がルールの右辺を示す。枠線が点線になっている長方形はその箇所が省略可能であることを示す。矢印(→)で直列に接続されている部分はAND結合を示し、矢印(→)で並列に接続されている部分はOR結合を示す。
音声認識文法の拡張BNF形式での表記については、以下の表記方法をとる。< >で囲まれたものがノンターミナルノード(ルール名)を示し、“”で囲まれたものがターミナルノード(単語)を示す。=の左側がルールの左辺を示し、=の右側がルールの右辺を示す。[ ]で囲まれている部分は省略可能な部分を示す。ルールの右辺の|は OR結合を示し、|がない場合はAND結合を示す。
201のルール1は、音声認識装置がユーザの「おはよう みなさん」という発声を受け入れることを示す。202のルール2は、音声認識装置がユーザの「おはよう みなさん」と「おはよう」という発声を受け入れることを示す。203のルール3とルール4は、音声認識装置がユーザの「おはよう みなさん」、「こんにちは みなさん」、「おはよう」、「こんにちは」という発声を受け入れることを示す。
次に、本実施の形態の音声認識文法作成装置における特徴的な処理を図3及び図4を参照しながら説明する。
図3は、少なくとも1つの構成要素は省略できない(最低1つの構成要素を残して他の構成要素を省略可能な)省略可能グループの拡張BNF形式への変換処理を示すフローチャートである。本フローチャートに示す処理は、省略可能グループの内部展開についてのみ示すものであり、図2に示したような従来のルールについて拡張BNF形式へ変換する手法については省略する。
図3において、まず、拡張BNF変換部104は、n個の構成要素のうち当該構成要素(ノード)が省略可能グループであるかどうかの判定を行う(ステップS301)。当該構成要素(ノード)が省略可能グループでないと判定した場合は、拡張BNF変換部104は、本処理をそのまま終了する。当該構成要素(ノード)が省略可能グループであると判定した場合は、拡張BNF変換部104は、構成要素に順序指定があるかどうかの判定を行う(ステップS302)。
構成要素に順序指定があると判定した場合は、拡張BNF変換部104は、n個の構成要素について1〜n個までの順列の作成を行う(ステップS303)。構成要素に順序指定がないと判定した場合は、拡張BNF変換部104は、n個の構成要素について1〜n個までの組み合わせの作成を行う(ステップS304)。これにより、本処理を終了する。
図4は、省略可能グループを拡張BNF形式に変換した例を示す図である。
図4において、401は、時刻を示すルールの例であり、構成要素の順序は指定されているが、最低(少なくとも)1つの構成要素を残して他の構成要素を省略可能なグループの例を示すものである。時、分、秒を囲んだ実線の長方形はグループを示す。尚、具体的な<時>や<分>や<秒>のルール定義は省略する。
401の例では、拡張BNF形式の記述で省略可能な記号[ ]を用いているので、構成要素の組み合わせは3通りであるが、拡張BNF形式の記述で省略可能な記号[ ]を用いない場合は、構成要素の組み合わせは以下に示すように3*2*1=6通りとなる。
<時刻>=<時><分><秒>
|<時><分>
|<時><秒>
|<分><秒>
|<分>
|<秒>
402は、朝食のオーダーを示すルールの例であり、構成要素の順序が指定されていない例を示すものである。<飲み物>には“コーヒー”、“紅茶”など、<パン>には“トースト”、“クロワッサン”など、<卵>には“オムレツ”、“目玉焼き”などが考えられるが、具体例は省略する。
402の例では、拡張BNF形式の記述で省略可能な記号[ ]を用いているので、構成要素の組み合わせは9通りであるが、拡張BNF形式の記述で省略可能な記号[ ]を用いない場合は、構成要素の組み合わせは以下に示すように3*2*1+3*2+3=15通りとなる。
<朝食>=<飲み物><パン><卵>
|<飲み物><パン>
|<飲み物><卵><パン>
|<飲み物><卵>
|<飲み物>
|<パン><飲み物><卵>
|<パン><飲み物>
|<パン><卵><飲み物>
|<パン><卵>
|<パン>
|<卵><飲み物><パン>
|<卵><飲み物>
|<卵><パン><飲み物>
|<卵><パン>
|<卵>
本実施の形態では、音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素を拡張BNF変換部104によりグループ化し、グループ化された前記省略してはならない構成要素を含む構成要素を画像表示部102によりグラフィカルに表示し、表示内容に応じたユーザ操作に基づき、拡張BNF変換部104により前記省略してはならない構成要素を含む構成要素の組み合わせを展開して拡張BNF形式の音声認識文法を作成し出力する。
以上説明したように、本実施の形態によれば、省略可能な構成要素を含むグループを音声認識文法として記述する際に、構成要素の組み合わせについて重複やルールとしての適切さ等を考慮せずに直感的に記述することができるようになる。この結果、従来の、構成要素の順番を入れ替え且つ省略可能な構成要素の組み合わせも考慮したルールを全て作成しなければならない、という煩雑な手間を解消することが可能となり、ユーザに対し効率的な音声認識文法の作成を支援できるという効果を奏する。
[第2の実施の形態]
本発明の第2の実施の形態は、上述した第1の実施の形態に対して、音声認識文法作成装置が拡張BNF変換部の代わりに遷移ネットワーク変換部を備える点において相違する。本実施の形態のその他の要素は、上述した第1の実施の形態(図1)の対応するものと同一なので、説明を省略する。
上述した第1の実施の形態では、拡張BNF形式の音声認識文法に変換した例を説明したが、本実施の形態では、遷移ネットワークの形式に変換する例を説明する。
図5は、本実施の形態に係る音声認識文法作成装置の構成を示すブロック図である。
図5において、音声認識文法作成装置は、文字・操作入力部501、画像表示部502、画像編集部503、遷移ネットワーク変換部504、ファイル入出力部505を備えている。
遷移ネットワーク変換部504は、省略可能グループを下記の図6に示す遷移ネットワーク形式に変換する。遷移ネットワーク形式とは、組み合わせ対象となる構成要素を矢印で結合して形成した構成要素結合関係を示すネットワークにより、構成要素の組み合わせを表す形式である。
図6は、省略可能グループの遷移ネットワーク形式への変換例を示す図である。
図6において、601は、時刻を示すルールの例を示すものである。時刻を示すルール601の構成要素の組み合わせは、図示の遷移ネットワーク形式への変換により、<時><分><秒>、<時><分>、<時><秒>、<時>、<分><秒>、<分>、<秒>となる。
602は、朝食のオーダーを示すルールの例を示すものである。朝食のオーダーを示すルール602の構成要素の組み合わせは、図示の遷移ネットワーク形式への変換により、<飲み物><パン><卵>、<飲み物><パン>、<飲み物><卵><パン>、<飲み物><卵>、<飲み物>、<パン><飲み物><卵>、<パン><飲み物>、<パン><卵><飲み物>、<パン><卵>、<パン>、<卵><パン><飲み物>、<卵><飲み物><パン>、<卵><パン>、<卵><飲み物>、<卵>となる。
本実施の形態では、音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素を遷移ネットワーク変換部504によりグループ化し、グループ化された前記省略してはならない構成要素を含む構成要素を画像表示部502によりグラフィカルに表示し、表示内容に応じたユーザ操作に基づき、遷移ネットワーク変換部504により前記省略してはならない構成要素を含む構成要素の組み合わせを展開して遷移ネットワーク形式の音声認識文法を作成し出力する。
以上説明したように、本実施の形態によれば、第1の実施の形態と同様に、従来の、構成要素の順番を入れ替え且つ省略可能な構成要素の組み合わせも考慮したルールを全て作成しなければならない、という煩雑な手間を解消することが可能となり、ユーザに対し効率的な音声認識文法の作成を支援できるという効果を奏する。
[第3の実施の形態]
本発明の第3の実施の形態は、上述した第1及び第2の実施の形態に対して、下記の点において相違する。本実施の形態のその他の要素は、上述した第1及び第2の実施の形態(図1、図5)の対応するものと同一なので、説明を省略する。
上述した第1の実施の形態では、省略可能なグループの内部の順序指定を全部に行うか全部に行わないかの例を説明したが、本実施の形態では、省略可能なグループの内部を部分的に順序指定できるようにする例を説明する。
図7は、本実施の形態に係る省略可能グループの構成要素の部分的順序指定例を示す図である。
図7において、701は、構成要素A〜Cに対するルールaの例を示すものである。701は、構成要素A→構成要素Bへの順序を指定しており、構成要素Aもしくは構成要素Bの省略は可能であるが、構成要素Aと構成要素Bとの間には他のものが挿入されてはならない例であり、構成要素Aと構成要素Bの接続を実線の矢印で表現している。
702は、構成要素A〜Cに対するルールbの例を示すものである。702は、構成要素Aと構成要素Bの順序が逆にならない限り、構成要素Aと構成要素Bとの間に構成要素Cの挿入が可能な例であり、構成要素Aと構成要素Bの接続を点線の矢印で表現している。
本実施の形態では、音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素の順序を指定して拡張BNF変換部104(または遷移ネットワーク変換部504)によりグループ化し、グループ化された前記省略してはならない構成要素を含む構成要素を画像表示部102(または画像表示部502)によりグラフィカルに表示し、表示内容に応じたユーザ操作に基づき、拡張BNF変換部104(または遷移ネットワーク変換部504)により前記省略してはならない構成要素を含む構成要素の組み合わせを展開して拡張BNF形式(または遷移ネットワーク形式)の音声認識文法を作成し出力する。
以上説明したように、本実施の形態によれば、第1の実施の形態と同様に、従来の、構成要素の順番を入れ替え且つ省略可能な構成要素の組み合わせも考慮したルールを全て作成しなければならない、という煩雑な手間を解消することが可能となり、ユーザに対し効率的な音声認識文法の作成を支援できるという効果を奏する。
[他の実施の形態]
上記第1乃至第3の実施の形態では、グループ化された省略してはならない構成要素を含む構成要素をグラフィカルに表示し、表示内容に応じたユーザ操作に基づいて音声認識文法を作成する例を説明したが、本発明はこれに限定されるものではなく、グラフィカルに表示せずに、グループ化された省略してはならない構成要素を含む構成要素に基づいて音声認識文法を作成するよう構成しても構わない。
上記第1乃至第3の実施の形態では、省略可能な構成要素を点線の枠線で表現し、構成要素のグループを実線の長方形で表現しているが、線の種類や形状は特定のものに限定されるものではない。構成要素については、例えば、枠線の太さや色や背景の色等で構成要素の区別をつけるようにしてもよい。また、グループ化については、例えば、構成要素を四角や円で囲むことでグループ化する方法や、構成要素の連続に下線を引くことでグループ化する方法などを用いてもよい。
上記第1乃至第3の実施の形態では、音声認識文法作成機能のみに限定し、音声認識部分については省略しているが、音声認識文法作成ツールの機能として、音声認識文法を使用して音声認識が試せるような構成にしてもよい。音声認識文法を使用して音声認識を試す構成(音声認識装置)を実現する場合、音声認識文法作成装置の他に音声入力装置が必要となる。この場合は、音声認識文法をファイルとして出力しなくても音声認識文法を利用することが可能となる。
上記第1乃至第3の実施の形態では、音声認識文法作成装置の適用分野については特に言及しなかったが、例えば音声入力機能を有する画像形成装置(プリンタ、複写機、複合機等)における操作タスクの指定要素(用紙選択、拡大縮小、部数等)の組み合わせ等、種々の分野に適用することが可能である。
本発明は、上述した実施の形態の機能を実現するソフトウェアのプログラム(図3のフローチャート)をコンピュータ又はCPUに供給し、そのコンピュータ又はCPUが該供給されたプログラムを読出して実行することによって、達成することができる。
この場合、上記プログラムは、該プログラムを記録した記憶媒体から直接供給されるか、又はインターネット、商用ネットワーク、若しくはローカルエリアネットワーク等に接続される不図示の他のコンピュータやデータベース等からダウンロードすることにより供給される。
上記プログラムの形態は、オブジェクトコード、インタプリタにより実行されるプログラムコード、OS(オペレーティングシステム)に供給されるスクリプトデータ等の形態から成ってもよい。
また、本発明は、上述した実施の形態の機能を実現するソフトウェアのプログラムを記憶した記憶媒体をコンピュータ又はCPUに供給し、そのコンピュータ又はCPUが記憶媒体に記憶されたプログラムを読出して実行することによっても、達成することができる。
この場合、格納媒体から読出されたプログラムコード自体が上述した各実施の形態の機能を実現すると共に、そのプログラムコードを記憶した記憶媒体は本発明を構成する。
プログラムコードを記憶する記憶媒体としては、例えば、ROM、RAM、NV−RAM、フロッピー(登録商標)ディスク、ハードディスク、光ディスク(登録商標)、光磁気ディスク、CD−ROM、MO、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード等がある。
上述した実施の形態の機能は、コンピュータから読出されたプログラムコードを実行することによるばかりでなく、コンピュータ上で稼動するOS等がプログラムコードの指示に基づいて実際の処理の一部又は全部を行うことによっても実現することができる。
本発明の第1の実施の形態に係る音声認識文法作成装置の構成を示すブロック図である。 従来扱われている拡張BNF形式で表現可能な音声認識文法の例を示す図である。 少なくとも1つの構成要素は省略できない省略可能グループの拡張BNF形式への変換処理を示すフローチャートである。 省略可能グループを拡張BNF形式に変換した例を示す図である。 本発明の第2の実施の形態に係る音声認識文法作成装置の構成を示すブロック図である。 省略可能グループの遷移ネットワーク形式への変換例を示す図である。 本発明の第3の実施の形態に係る省略可能グループの構成要素の部分的順序指定例を示す図である。
符号の説明
101 文字・操作入力部
102 画像表示部(提示手段に対応)
103 画像編集部
104 拡張BNF変換部(グループ化手段、作成手段に対応)
105 ファイル入出力部
501 文字・操作入力部
502 画像表示部(提示手段に対応)
503 画像編集部
504 遷移ネットワーク変換部(グループ化手段、作成手段に対応)
505 ファイル入出力部

Claims (12)

  1. 音声認識対象を音声認識文法として記述する音声認識文法作成装置において、
    音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素をグループ化するグループ化手段と、
    前記省略してはならない構成要素を含む構成要素の組み合わせを展開して音声認識文法を作成する作成手段とを備えることを特徴とする音声認識文法作成装置。
  2. 前記グループ化手段でグループ化された前記省略してはならない構成要素を含む構成要素を提示する提示手段を更に備え、
    前記作成手段は、前記提示手段の提示内容に応じたユーザ操作に基づいて、前記省略してはならない構成要素を含む構成要素の組み合わせを展開して音声認識文法を作成することを特徴とする請求項1記載の音声認識文法作成装置。
  3. 前記作成手段は、前記省略してはならない構成要素を含む構成要素の組み合わせを展開してメタ言語形式の音声認識文法を作成することを特徴とする請求項1記載の音声認識文法作成装置。
  4. 前記作成手段は、前記省略してはならない構成要素を含む構成要素の組み合わせを展開して遷移ネットワーク形式の音声認識文法を作成することを特徴とする請求項1記載の音声認識文法作成装置。
  5. 前記グループ化手段は、音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素の順序を指定してグループ化することを特徴とする請求項1記載の音声認識文法作成装置。
  6. 前記メタ言語形式は、拡張BNF(Augmented Backus Naur Format)形式であることを特徴とする請求項3記載の音声認識文法作成装置。
  7. 前記遷移ネットワーク形式は、組み合わせ対象となる構成要素を矢印で結合して形成した構成要素結合関係を示すネットワークにより、構成要素の組み合わせを表す形式であることを特徴とする請求項4記載の音声認識文法作成装置。
  8. 前記提示手段は、グループ化された前記省略してはならない構成要素を含む構成要素をグラフィカルに表示することを特徴とする請求項2記載の音声認識文法作成装置。
  9. 前記提示手段は、前記提示手段の提示内容に応じたユーザ操作に基づく編集作業過程を表示可能であることを特徴とする請求項2記載の音声認識文法作成装置。
  10. 音声認識対象を音声認識文法として記述する音声認識文法作成装置の制御方法において、
    音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素をグループ化するグループ化工程と、
    前記省略してはならない構成要素を含む構成要素の組み合わせを展開して音声認識文法を作成する作成工程とを備えることを特徴とする制御方法。
  11. 音声認識対象を音声認識文法として記述する音声認識文法作成装置の制御方法をコンピュータに実行させるプログラムにおいて、
    音声認識対象としての少なくとも1つの省略してはならない構成要素を含む構成要素をグループ化するモジュールと、
    前記省略してはならない構成要素を含む構成要素の組み合わせを展開して音声認識文法を作成するモジュールとを備えることを特徴とするプログラム。
  12. 請求項11記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2004191596A 2004-06-29 2004-06-29 音声認識文法作成装置、音声認識文法作成方法、プログラム、及び記憶媒体 Expired - Fee Related JP4579595B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004191596A JP4579595B2 (ja) 2004-06-29 2004-06-29 音声認識文法作成装置、音声認識文法作成方法、プログラム、及び記憶媒体
US11/169,550 US7603269B2 (en) 2004-06-29 2005-06-29 Speech recognition grammar creating apparatus, control method therefor, program for implementing the method, and storage medium storing the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004191596A JP4579595B2 (ja) 2004-06-29 2004-06-29 音声認識文法作成装置、音声認識文法作成方法、プログラム、及び記憶媒体

Publications (3)

Publication Number Publication Date
JP2006011271A true JP2006011271A (ja) 2006-01-12
JP2006011271A5 JP2006011271A5 (ja) 2007-08-30
JP4579595B2 JP4579595B2 (ja) 2010-11-10

Family

ID=35507165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004191596A Expired - Fee Related JP4579595B2 (ja) 2004-06-29 2004-06-29 音声認識文法作成装置、音声認識文法作成方法、プログラム、及び記憶媒体

Country Status (2)

Country Link
US (1) US7603269B2 (ja)
JP (1) JP4579595B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006508448A (ja) 2002-11-28 2006-03-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ワードクラス情報を割り当てる方法
US9713774B2 (en) 2010-08-30 2017-07-25 Disney Enterprises, Inc. Contextual chat message generation in online environments
US9552353B2 (en) * 2011-01-21 2017-01-24 Disney Enterprises, Inc. System and method for generating phrases
US9176947B2 (en) 2011-08-19 2015-11-03 Disney Enterprises, Inc. Dynamically generated phrase-based assisted input
US9245253B2 (en) 2011-08-19 2016-01-26 Disney Enterprises, Inc. Soft-sending chat messages
US9165329B2 (en) 2012-10-19 2015-10-20 Disney Enterprises, Inc. Multi layer chat detection and classification
US10303762B2 (en) 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
US10742577B2 (en) 2013-03-15 2020-08-11 Disney Enterprises, Inc. Real-time search and validation of phrases using linguistic phrase components
CN109841210B (zh) * 2017-11-27 2024-02-20 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质
US11100917B2 (en) * 2019-03-27 2021-08-24 Adobe Inc. Generating ground truth annotations corresponding to digital image editing dialogues for training state tracking models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05150966A (ja) * 1991-11-26 1993-06-18 Toshiba Corp Bnfにおける言語情報抽出装置
JPH08123805A (ja) * 1994-10-20 1996-05-17 Canon Inc 音声認識方法とその装置
JP2000029490A (ja) * 1998-07-15 2000-01-28 Denso Corp 音声認識装置用の単語辞書データ構築方法、音声認識装置及びナビゲーションシステム
JP2002041082A (ja) * 2000-07-28 2002-02-08 Hitachi Ltd 音声認識装置
WO2003096217A2 (en) * 2002-05-07 2003-11-20 International Business Machines Corporation Integrated development tool for building a natural language understanding application
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434523B1 (en) * 1999-04-23 2002-08-13 Nuance Communications Creating and editing grammars for speech recognition graphically
US6549943B1 (en) * 1999-06-16 2003-04-15 Cisco Technology, Inc. Network management using abstract device descriptions
FR2801716B1 (fr) 1999-11-30 2002-01-04 Thomson Multimedia Sa Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation
US20030009331A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Grammars for speech recognition
FR2857528B1 (fr) * 2003-07-08 2006-01-06 Telisma Reconnaissance vocale pour les larges vocabulaires dynamiques

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05150966A (ja) * 1991-11-26 1993-06-18 Toshiba Corp Bnfにおける言語情報抽出装置
JPH08123805A (ja) * 1994-10-20 1996-05-17 Canon Inc 音声認識方法とその装置
JP2000029490A (ja) * 1998-07-15 2000-01-28 Denso Corp 音声認識装置用の単語辞書データ構築方法、音声認識装置及びナビゲーションシステム
JP2002041082A (ja) * 2000-07-28 2002-02-08 Hitachi Ltd 音声認識装置
WO2003096217A2 (en) * 2002-05-07 2003-11-20 International Business Machines Corporation Integrated development tool for building a natural language understanding application
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置

Also Published As

Publication number Publication date
US20050288931A1 (en) 2005-12-29
JP4579595B2 (ja) 2010-11-10
US7603269B2 (en) 2009-10-13

Similar Documents

Publication Publication Date Title
US7603269B2 (en) Speech recognition grammar creating apparatus, control method therefor, program for implementing the method, and storage medium storing the program
US8340956B2 (en) Information provision system, information provision method, information provision program, and information provision program recording medium
JP2005031882A (ja) 情報処理方法及び情報処理装置
JP4872323B2 (ja) Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体
JP2007272870A (ja) 印刷制御装置、gui表示方法、プリンタドライバ及び記録媒体
US20060293896A1 (en) User interface apparatus and method
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
EP1662382A2 (en) Method for constructing user interface
JPH06259420A (ja) 文章編集支援装置
JP2006106845A (ja) 文書概要作成装置、表示装置、情報処理装置、プレゼンテーションシステム、文書概要作成プログラム、文書概要作成装置制御プログラム、表示装置制御プログラム、情報処理装置制御プログラム、文書概要作成方法、文書概要作成装置制御方法、表示装置制御方法及び情報処理装置制御方法
JP2003167600A (ja) 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム
US8346560B2 (en) Dialog design apparatus and method
JPH06231224A (ja) 操作ガイダンス生成装置および操作ガイダンスの生成方法
JP5082971B2 (ja) 音声合成装置およびそれを用いた読み上げシステム。
JP2006276912A (ja) 文書編集装置、文書編集方法およびプログラム
JP2005032047A (ja) ファイル自動生成装置、方法、プログラム及び記憶媒体
JP2003280687A (ja) シナリオ作成支援装置及びプログラム
KR20170092284A (ko) 문서 형식 자동 변환 시스템 및 방법
KR101102212B1 (ko) 사용자전용 전자책 컨텐츠 제작 시스템 및 그 방법
JPH08272388A (ja) 音声合成装置及びその方法
WO2023248307A1 (ja) 操作支援システム、操作支援方法および操作支援プログラム
JP2002268664A (ja) 音声変換装置及びプログラム
JP2009080614A (ja) 表示制御装置、プログラム及び表示システム
JP2004287192A (ja) 合成音声編集装置及び合成音声編集プログラム
JP2004287756A (ja) 電子メール作成装置及び電子メール作成方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060419

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100826

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees