JP5754177B2

JP5754177B2 - 音声認識装置、音声認識システム、音声認識方法及びプログラム

Info

Publication number: JP5754177B2
Application number: JP2011046724A
Authority: JP
Inventors: 広志今城
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-03-03
Filing date: 2011-03-03
Publication date: 2015-07-29
Anticipated expiration: 2031-03-03
Also published as: JP2012185225A

Description

本発明は、音声認識装置、端末装置、音声認識システム、音声認識方法、入力方法及びプログラムに関する。

音声認識技術を利用し、ユーザ入力を支援する技術がある。

特許文献１には、入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示手段と、を備えた音声認識装置が開示されている。

非特許文献１には、ウェブページの入力フォームへの入力に、音声認識技術を利用した以下のような技術が開示されている。すなわち、ウェブページを表示している端末装置上で、Java（登録商標） scriptが、ユーザからのアクションを監視しておき、ウェブページ上の入力フォームを選択する入力があると、録音パネル（Java（登録商標） applet）を呼び出す。録音パネルは、ユーザから受付けた音声データを音声認識サーバに送信する。すると、音声認識サーバは、受信した音声データに対して音声認識処理を行い、認識結果文字列を端末装置の録音パネルに送信する。録音パネルは、受信した認識結果文字列を、Java（登録商標） scriptの変数に格納する。そして、Java（登録商標） scriptが認識結果文字列を、ブラウザに反映する。

特開２００３−１５７０９５号公報

西村竜一"音声入力Webシステムを用いた辞書共有型音声認識サービス"［online］、２００７年９月、日本音響学会講演論文集、［２０１１年２月１５日検索］、インターネット<URL: http://www.netsoc.tcd.ie/~fastnet/cd_paper/ASJ/meeting/200709/pdf/0248_2-3-4.pdf>

入力フォームに入力される情報の範囲は、入力フォームごとに特定することができる。例えば、電話番号を入力する入力フォームには、数字が入力される。

しかし、非特許文献１に記載の技術のように、ウェブページを提供するサーバとは別に音声認識サーバを設け、当該音声認識サーバを利用してウェブページの入力フォームへの入力を支援する場合、音声認識サーバ側では、各入力フォームに入力される情報の範囲を、音声認識処理時に特定できない。このため、音声認識サーバによる音声認識処理は、汎用的な辞書データを利用し、当該辞書データ全体を網羅する検索とならざるを得ず、音声認識の精度が低くなるという問題が発生し得る。

本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
を有する音声認識装置が提供される。

また、本発明によれば、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段と、前記ウェブページをディスプレイに表示する端末表示手段と、前記入力フォームに入力する情報を音声で受付ける端末受付手段と、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段と、を有する端末装置が提供される。

また、本発明によれば、上記音声認識装置と、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、を有する音声認識システムが提供される。

また、本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、コンピュータを、文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、として機能させるためのプログラムが提供される。

また、本発明によれば、コンピュータを、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、前記ウェブページをディスプレイに表示する端末表示手段、前記入力フォームに入力する情報を音声で受付ける端末受付手段、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、として機能させるためのプログラムが提供される。

また、本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、文字列とその読みがなとを対応付けた音声認識辞書を保持する辞書保持手段と、前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、を備えておき、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、を音声認識装置が実行する音声認識方法が提供される。

また、本発明によれば、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信ステップと、前記ウェブページをディスプレイに表示する端末表示ステップと、前記入力フォームに入力する情報を音声で受付ける端末受付ステップと、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信ステップと、を端末装置が実行する入力方法が提供される。

本発明によれば、音声認識技術を利用してウェブページの入力フォームへの入力を支援する技術において、音声認識の精度を高めることができる。

本実施形態の音声認識システムの機能ブロック図の一例である。本実施形態の辞書保持部が保持する音声認識辞書の一例を模式的に示した図である。本実施形態のルール保持部が保持するデータの一例を模式的に示した図である。本実施形態の音声認識装置の処理の流れの一例を示したフローチャートである。本実施形態の音声認識システムの機能ブロック図の一例である。本実施形態の音声認識装置の処理の流れの一例を示したフローチャートである。

以下、本発明の実施の形態について図面を用いて説明する。

なお、本実施形態の各部は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラム（あらかじめ機器を出荷する段階からメモリ内に格納されているプログラムのほか、ＣＤ等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む）、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、機器にはいろいろな変形例があることは、当業者には理解されるところである。

また、本実施形態の説明において利用する機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、本実施形態の各装置は１つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。

＜第１の実施形態＞
図１は、本実施形態の音声認識システムの構成の一例を示す機能ブロック図である。図示するように、本実施形態の音声認識システムは、音声認識装置１０と、端末装置３０と、ウェブページを端末装置３０に提供するサーバ４０とを有する。

まず、音声認識装置１０について説明する。音声認識装置１０は、端末装置３０で表示されるウェブページの入力フォームへの入力を支援するため、図１に示すように、辞書保持部１１と、ルール保持部１２と、受信部１３と、変換部１４と、ルール取得部１５と、検索部１６と、送信部１７とを有する。

辞書保持部１１は、文字列と、当該文字列の読みがなと、当該文字列の属性情報とを対応付けた音声認識辞書を保持する。文字列は、１つまたは２つ以上の文字、数字、記号で構成される。また、文字列は、文字、数字及び記号の中の２つ以上が混在したものであってもよいし、これらの中の１つのみで構成されたものであってもよい。属性情報は、例えば、数字、記号、アルファベット、数字＋記号、数字＋記号＋アルファベットなど、文字列自体の属性を示す情報の他、都道府県、市区町村など、文字列が備えた意味の属性を示す情報であってもよい。

図２に、音声認識辞書の一例を示す。図示する音声認識辞書には、音声認識テキスト４５２の欄に文字列が記載されている。そして、音声読みがな４５３の欄に、各文字列に対応付けて当該文字列の読みがなが記載されている。図示するように、１つの文字列には、１つまたは２つ以上の読みがなを対応付けることができる。また、テキスト分類４５１の欄に、各文字列に対応付けて、当該文字列の属性情報が記載されている。１つの文字列には、１つまたは２つ以上の属性情報を対応付けることができる。

なお、図示した文字列、読みがな及び属性情報はあくまで一例であり、これらに限定されない。

図１に戻り、ルール保持部１２は、入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持する。図３に、ルール保持部１２が保持するデータの一例を示す。図示するルール４４２の欄に入力ルールが記載され、ルールＩＤ４４１の欄に、各入力ルールと対応付けてルール識別情報が記載されている。

入力ルールは、図示するように、音声認識辞書に記載された属性情報（図２のテキスト分類４５１の欄参照）を利用して、情報の範囲を規定したルールとすることができる。

ルール識別情報「１」に対応付けられた入力ルール、［数字］｛３｝［−］？［数字］｛４｝によれば、入力される情報は、前から順に数字が３つ連続した後、「−」（ハイフン）が入り、その後、数字が４つ連続した情報となる。例えば、「１２３−４５６７」などである。なお、「−」（ハイフン）の後に「？」があるので、「−」（ハイフン）はあってもなくてもよい。すなわち、ルール識別情報「１」に対応付けられた入力ルールによれば、入力される情報は、「前から順に数字が３つ連続した後、「−」（ハイフン）が入り、その後に数字が４つ連続した情報」、または、「数字が７つ連続した情報」となる。

ここで、ルール識別情報「１」に対応付けられた入力ルールは、音声認識辞書に記載された属性情報の他、音声認識辞書に記載された文字列「−」（ハイフン）をも利用して、情報の範囲を規定している。このように、入力ルールは、音声認識辞書に記載された文字列を利用して、情報の範囲を規定してもよい。

なお、図示した入力ルールの表記方法はあくまで一例であり、これに限定されるものではない。

図１に戻り、受信部１３は、入力フォームにルール識別情報を対応付けたウェブページを受信した複数の端末装置３０各々から、ルール識別情報と、音声データとを対応付けて受信する。なお、ルール識別情報及び音声データには、さらに、ウェブページの入力フォームを識別する情報が対応付けられていてもよい。

例えば、端末装置３０が受信するウェブページのＨＴＭＬ文書には、入力フォームに対応付けてルール識別情報が記載されている。すべての入力フォームにルール識別情報が対応付けられていてもよいし、一部の入力フォームのみにルール識別情報が対応付けられていてもよい。端末装置３０は、ディスプレイに当該ウェブページを表示した状態で、ユーザから、１つの入力フォームを特定する入力を受付けた後、例えばマイクを介して音声データの入力を受付けると、受付けた音声データに、特定された入力フォームに対応付けられているルール識別情報を対応付けて、音声認識装置１０に送信する。そして、受信部１３は、当該ルール識別情報と音声データを受信する。

ルール取得部１５は、受信部１３が受信したルール識別情報をキーとしてルール保持部１２（図３参照）を検索し、当該キーに対応付けられた入力ルールを取得する。

検索部１６は、ルール取得部１５が取得した入力ルールに含まれる属性情報をキーとして辞書保持部１１が保持する音声認識辞書を検索し、当該キーに対応付けられている読みがなを抽出する。例えば、ルール取得部１５が図３に示すルール識別情報１に対応付けられた入力ルールを取得した場合、検索部１６は、当該入力ルールに含まれる属性情報「数字」をキーとして音声認識辞書（図２参照）を検索し、属性情報「数字」に対応付けられている読みがな「ぜろ」、「れい」、「まる」、「いち」等を抽出する。また、ルール取得部１５が図３に示すルール識別情報２に対応付けられた入力ルールを取得した場合には、検索部１６は、当該入力ルールに含まれる属性情報「都道府県」、「市区町村」、「数字」、「丁目」等各々をキーとして音声認識辞書（図２参照）を検索し、属性情報に対応付けられている読みがなを抽出する。

変換部１４は、音声データを複数の候補が含まれる読みがなのデータに変換する。例えば、音声データが「いちにさん（１２３）」であった場合、変換部１４は当該音声データと、あらかじめ保持している音素、音節等の周波数パターンとをマッチングして、頭から１番目、２番目、３番目、４番目、５番目各々の文字の候補を複数含んだ結果を作成する。例えば１番目の文字候補には、「い」、「き」、「ひ」などが含まれる。なお、各候補文字には、認識率が対応付けられていてもよい。

上記変換の後、変換部１４は、検索部１６が抽出した読みがな、および、ルール取得部１５が取得した入力ルールを利用して、複数の候補の中から１つの読みがなを特定する。例えば、音声データが「いちにさん（１２３）」であり、入力ルールが「数字３つ」である場合を考える。かかる場合、上記１番目の文字候補「い」、「き」、「ひ」の中の、「い」は例えば「いち（１）」、「ひ」は例えば「ひち（７）」と数字の頭の文字になる可能性はあるが、「き」は数字の頭の文字になることはない。よって、変換部１４は、検索部１６が抽出した数字の読みがなを利用して「き」が１番目の文字となることがないことを特定し、当該文字を１番目の文字の候補から除去する。変換部１４は、例えばこのような処理により、上記１乃至５番目各々の文字の候補を絞り込んで、１つの文字を特定する。なお、検索部１６が抽出した数字の読みがなを利用した絞り込みの後も、複数の候補が残っている場合には、例えば、変換部１４は、前後の文字関係や、認識率等を利用して、１つの文字を特定することができる。

このような変換部１４の処理によれば、変換処理の前に、入力ルールを利用して、音声データの内容は例えば「数字が５つ連続するもの」と把握できるので、変換処理において、数字の読みでない「べろ」や「いし」などに変換される不都合を抑制することができる。

変換部１４は、例えば上述のようにして複数の候補の中から１つの読みがなを特定した後、音声認識辞書（図２参照）を検索して、特定した読みがなに対応づけられている文字列を取得する。

送信部１７は、変換部１４が取得した文字列（認識結果）を、端末装置３０に送信する。なお、送信部１７は、認識結果に、受信部１３が受信した入力フォームを識別する情報を対応付けて、端末装置３０に送信してもよい。

次に、端末装置３０について説明する。端末装置３０は、図１に示すように、端末受信部３１と、端末表示部３２と、端末受付部３３と、端末送信部３４とを有する。

端末受信部３１は、入力フォームにルール識別情報を対応付けたウェブページを、サーバ４０から受信する。また、端末受信部３１は、音声認識装置１０の送信部１７から、認識結果を受信する。当該認識結果には、入力フォームを識別する情報が対応付けられていてもよい。

端末表示部３２は、端末受信部３１が受信したウェブページをディスプレイに表示する。また、端末表示部３２は、端末受信部３１が受信した認識結果を、ウェブページの所定の入力フォームに表示する。認識結果を表示する入力フォームを特定する手段は特段制限されず、例えば、端末表示部３２は、認識結果に対応付けられた入力フォームを識別する情報を利用して、認識結果を表示する入力フォームを特定してもよい。

端末受付部３３は、入力フォームに入力する情報を、例えばマイクを介して音声で受付ける。例えば、端末受付部３３は、ウェブページに含まれる１つまたは２つ以上の入力フォームの中の１つを特定する入力をユーザから受付けた後、マイクを介して音声データの入力を受付けてもよい。入力フォームを特定する入力を受付ける手段は特段制限されない。

端末送信部３４は、特定された入力フォームに対応付けられたルール識別情報と、当該特定後に端末受付部３３が入力を受付けた音声データとを対応付けて、音声認識装置１０に送信する。ルール識別情報は、ウェブページのＨＴＭＬ文書に、入力フォームに対応付けて記載されている。

次に、本実施形態の処理の流れの一例について、図１及び図４のフローチャートを用いて説明する。図４は、音声認識装置１０の処理の流れを示している。

まず、図１に示す端末装置３０の端末受信部３１が、サーバ４０からウェブページを受信する（端末受信ステップ）。すると、端末表示部３２がウェブページをディスプレイに表示する（端末表示ステップ）。そして、端末受付部３３が、ユーザから、当該ウェブページの中の１つの入力フォームを特定する入力および音声データの入力を受付ける（端末受付ステップ）。次いで、端末送信部３４が、特定された入力フォームに対応付けられているルール識別情報、及び、端末受付部３３が受付けた音声データを対応付けて、音声認識装置１０に送信する（端末送信ステップ）。

すると、音声認識装置１０の受信部１３がルール識別情報及び音声データを受信する（図４のＳ１０：受信ステップ）。次に、ルール取得部１５が、Ｓ１０で受信部１３が受信したルール識別情報をキーとしてルール保持部１２（図３参照）を検索し、キーに対応付けられた入力ルールを取得する（図４のＳ１１：ルール取得ステップ）。

次に、検索部１６が、Ｓ１１でルール取得部１５が取得した入力ルールに含まれる属性情報をキーとして音声認識辞書（図２参照）を検索し、対応付けられている読みがなを抽出する（図４のＳ１２：検索ステップ）。

その後、変換部１４が、音声データを複数の候補が含まれる読みがなのデータに変換した後、Ｓ１１でルール取得部１５が取得した入力ルール、及び、Ｓ１２で検索部１６が抽出した読みがなを利用して、複数の候補の中から１つの読みがなを特定する。その後、変換部１４は、特定した読みがなをキーとして辞書保持部１１が保持する音声認識辞書（図２参照）を検索し、キーに対応付けられている文字列を、認識結果として取得する（図４のＳ１３：変換ステップ）。

その後、送信部１７が、認識結果を端末装置３０に送信する（図４のＳ１４）。すると、端末装置３０の端末受信部３１が、認識結果を受信する。そして、端末表示部３２が、認識結果を、ディスプレイに表示しているウェブページの所定の入力フォームに表示する。

なお、音声認識装置１０、端末装置３０及びサーバ４０間のデータの送受信は、インターネットやＬＡＮなどのネットワークを介して行うことができる。当該前提は、他の実施形態においても同様である。

また、本実施形態では、辞書保持部１１、受信部１３、変換部１４、ルール取得部１５、検索部１６及び送信部１７を有する音声認識装置１０が、ルール保持部１２をさらに備えた例を説明したが、その他、辞書保持部１１、受信部１３、変換部１４、ルール取得部１５、検索部１６及び送信部１７を有する音声認識装置１０とは別に、ルール保持部１２を有するルール保持装置を構成することも可能である。当該ルール保持装置は、辞書保持部１１、受信部１３、変換部１４、ルール取得部１５、検索部１６及び送信部１７を有さなくてもよい。かかる場合、ルール保持装置は、声認識装置１０と有線／無線で繋がり、音声認識装置１０がルール保持装置のルール保持部１２にアクセスできるように構成する。

本実施形態の音声認識装置１０は、例えば以下のプログラムをコンピュータにインストールすることで実現することができる。
端末装置３０で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
コンピュータを、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
として機能させるためのプログラム。

また、本実施形態の端末装置３０は、例えば以下のプログラムをコンピュータにインストールすることで実現することができる。
コンピュータを、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、
前記ウェブページをディスプレイに表示する端末表示手段、
前記入力フォームに入力する情報を音声で受付ける端末受付手段、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、
として機能させるためのプログラム。

本実施形態によれば、ウェブページを提供するサーバとは別に音声認識サーバを設け、当該音声認識サーバを利用してウェブページの入力フォームへの入力を支援する技術において、音声認識サーバが、各入力フォームに入力される情報の範囲を、音声認識処理時に特定できる。このため、音声認識サーバは、各入力フォームに入力される情報の範囲に限定した音声認識処理を行うことができる。すなわち、音声データを読みがなに変換する際、入力フォームに入力される情報の範囲に限定して、変換処理を行うことができるので、音声認識の精度を高めることができる。

＜第２の実施形態＞
本実施形態は、第１の実施形態の構成に加えて、さらに、ルール保持部１２に新たな入力ルールを記憶する手段、及び、音声認識装置１０がサーバ４０にウェブページのＨＴＭＬ文書に記載するルール識別情報を提供する手段を備える。

図５は、本実施形態の音声認識システムの構成の一例を示す機能ブロック図である。図示するように、本実施形態の音声認識システムは、音声認識装置１０と、端末装置３０と、ウェブページを端末装置３０に提供するサーバ４０とを有する。

図５に示すように、音声認識装置１０は、辞書保持部１１と、ルール保持部１２と、受信部１３と、変換部１４と、ルール取得部１５と、検索部１６と、送信部１７と、ルール受信部１８と、判別部１９と、更新部２０とを有する。辞書保持部１１、ルール保持部１２、受信部１３、変換部１４、ルール取得部１５、検索部１６、及び、送信部１７の構成は、第１の実施形態と同様であるので、ここでの説明は省略する。

ルール受信部１８は、サーバ４０から、入力ルールを受信する。例えば、サーバ４０は、入力フォームにルール識別情報を対応付けたウェブページ（ＨＴＭＬ文書）を作成する際であって、当該ウェブページに含まれる入力フォームに入力される情報の範囲を規定した入力ルールは認識できるが、当該入力ルールに対応付けられたルール識別情報を認識できない際に、当該入力ルールをルール受信部１８に送信する。

判別部１９は、ルール受信部１８が受信した入力ルールが、すでにルール保持部１２に保持されているか判別する。例えば、判別部１９は、ルール受信部１８が受信した入力ルールをキーとして、ルール保持部１２を検索することで、当該入力ルールがすでに保持されているか否かを判別する。

更新部２０は、判別部１９の判別結果に応じて、以下の処理を実行する。

ルール受信部１８が受信した入力ルールが、すでにルール保持部１２に保持されている場合には、更新部２０は、その入力ルールに対応付けてルール保持部１２が保持しているルール識別情報を、サーバ４０に送信する。

一方、ルール受信部１８が受信した入力ルールが、ルール保持部１２に保持されていない場合には、更新部２０は、その入力ルールに新たなルール識別情報を対応付けてルール保持部１２に保持させると共に、当該新たなルール識別情報をサーバ４０に送信する。

更新部２０による当該処理により、サーバ４０は、音声認識装置１０に送信した入力ルールに対応付けられているルール識別情報を認識することができる。

次に、本実施形態の処理の流れの一例について、図５及び図６のフローチャートを用いて説明する。図６は、音声認識装置１０の処理の流れを示している。

まず、例えば、サーバ４０は、入力フォームにルール識別情報を対応付けたウェブページ（ＨＴＭＬ文書）を作成する際であって、当該ウェブページに含まれる入力フォームに入力される情報の範囲を規定した入力ルールは認識できるが、当該入力ルールに対応付けられたルール識別情報を認識できない際に、当該入力ルールを音声認識装置１０に送信する。

すると、サーバ４０が送信した入力ルールを、音声認識装置１０のルール受信部１８が受信する（図６のＳ２０）。次いで、判別部１９が、Ｓ２０でルール受信部１８が受信した入力ルールがすでにルール保持部１２に保持されているか判別する（図６のＳ２１）。

Ｓ２１での判別の結果、ルール受信部１８が受信した入力ルールが、すでにルール保持部１２に保持されている場合には（図６のＳ２２：Ｙｅｓ）、更新部２０は、その入力ルールに対応付けてルール保持部１２が保持しているルール識別情報を、サーバ４０に送信する（図６のＳ２３）。

一方、Ｓ２１での判別の結果、ルール受信部１８が受信した入力ルールが、ルール保持部１２に保持されていない場合には（図６のＳ２２：Ｎｏ）、更新部２０は、その入力ルールに新たなルール識別情報を対応付けてルール保持部１２に保持させると共に（図６のＳ２４）、当該新たなルール識別情報をサーバ４０に送信する（図６のＳ２５）。

Ｓ２３またはＳ２５で更新部２０が送信したルール識別情報を受信したサーバ４０は、受信したルール識別情報を所定の入力フォームに対応付けたウェブページ（ＨＴＭＬ文書）を作成し、端末装置３０に送信する。

本実施形態の端末装置３０の構成は、第１の実施形態の構成と同様である。

なお、本実施形態では、辞書保持部１１、受信部１３、変換部１４、ルール取得部１５、検索部１６及び送信部１７を有する音声認識装置１０が、ルール保持部１２、ルール受信部１８、判別部１９及び更新部２０をさらに備えた例を説明したが、その他、辞書保持部１１、受信部１３、変換部１４、ルール取得部１５、検索部１６及び送信部１７を有する音声認識装置１０とは別に、ルール保持部１２、ルール受信部１８、判別部１９及び更新部２０を有するルール保持装置を構成することも可能である。当該ルール保持装置は、辞書保持部１１、受信部１３、変換部１４、ルール取得部１５、検索部１６及び送信部１７を有さなくてもよい。かかる場合、ルール保持装置は、声認識装置１０と有線／無線で繋がり、音声認識装置１０がルール保持装置のルール保持部１２にアクセスできるように構成する。

本実施形態によれば、第１の実施形態で説明した作用効果に加えて、さらに、次のような作用効果を実現することができる。すなわち、本実施形態によれば、ルール識別情報を認識できないサーバ４０であっても、入力フォームに入力される情報の範囲を規定した入力ルールを音声認識装置１０に送信すれば、その入力ルールに対応付けられたルール識別情報の返信により、所望のルール識別情報を認識することができる。

また、本実施形態によれば、音声認識装置１０は、実際に使用される有用な入力ルールを蓄積していくことができる。

このように、本実施形態によれば、汎用性の高いシステムが実現される。
以下、参考形態の例を付記する。
１．端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
を有する音声認識装置。
２．１に記載の音声認識装置において、
前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信手段と、
前記入力ルールが前記ルール保持手段に保持されているか判別する判別手段と、
前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新手段と、
を有する音声認識装置。
３．入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段と、
前記ウェブページをディスプレイに表示する端末表示手段と、
前記入力フォームに入力する情報を音声で受付ける端末受付手段と、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段と、
を有する端末装置。
４．１または２に記載の音声認識装置と、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、
を有する音声認識システム。
５．４に記載の音声認識システムにおいて、
さらに、３に記載の端末装置を有する音声認識システム。
６．端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
コンピュータを、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
として機能させるためのプログラム。
７．コンピュータを、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、
前記ウェブページをディスプレイに表示する端末表示手段、
前記入力フォームに入力する情報を音声で受付ける端末受付手段、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、
として機能させるためのプログラム。
８．端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、
文字列とその読みがなとを対応付けた音声認識辞書を保持する辞書保持手段と、
前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
を備えておき、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、
前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、
前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、
を音声認識装置が実行する音声認識方法。
９．入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信ステップと、
前記ウェブページをディスプレイに表示する端末表示ステップと、
前記入力フォームに入力する情報を音声で受付ける端末受付ステップと、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信ステップと、
を端末装置が実行する入力方法。

１０音声認識装置
１１辞書保持部
１２ルール保持部
１３受信部
１４変換部
１５ルール取得部
１６検索部
１７送信部
１８ルール受信部
１９判別部
２０更新部
３０端末装置
３１端末受信部
３２端末表示部
３３端末受付部
３４端末送信部
４０サーバ
４４１ルールＩＤ
４４２ルール
４５１テキスト分類
４５２音声認識テキスト
４５３音声読みがな

Claims

端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信手段と、
前記入力ルールが前記ルール保持手段に保持されているか判別する判別手段と、
前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新手段と、
を有する音声認識装置。
請求項１に記載の音声認識装置と、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、
を有する音声認識システム。
端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
コンピュータを、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信手段と、
前記入力ルールが前記ルール保持手段に保持されているか判別する判別手段と、
前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新手段と、
として機能させるためのプログラム。
端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、
前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
を備えておき、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、
前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、
前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から１つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、
前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信ステップと、
前記入力ルールが前記ルール保持手段に保持されているか判別する判別ステップと、
前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新ステップと、
を音声認識装置が実行する音声認識方法。