JP5754177B2 - 音声認識装置、音声認識システム、音声認識方法及びプログラム - Google Patents

音声認識装置、音声認識システム、音声認識方法及びプログラム Download PDF

Info

Publication number
JP5754177B2
JP5754177B2 JP2011046724A JP2011046724A JP5754177B2 JP 5754177 B2 JP5754177 B2 JP 5754177B2 JP 2011046724 A JP2011046724 A JP 2011046724A JP 2011046724 A JP2011046724 A JP 2011046724A JP 5754177 B2 JP5754177 B2 JP 5754177B2
Authority
JP
Japan
Prior art keywords
rule
input
identification information
speech recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011046724A
Other languages
English (en)
Other versions
JP2012185225A (ja
Inventor
広志 今城
広志 今城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011046724A priority Critical patent/JP5754177B2/ja
Publication of JP2012185225A publication Critical patent/JP2012185225A/ja
Application granted granted Critical
Publication of JP5754177B2 publication Critical patent/JP5754177B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置、端末装置、音声認識システム、音声認識方法、入力方法及びプログラムに関する。
音声認識技術を利用し、ユーザ入力を支援する技術がある。
特許文献1には、入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示手段と、を備えた音声認識装置が開示されている。
非特許文献1には、ウェブページの入力フォームへの入力に、音声認識技術を利用した以下のような技術が開示されている。すなわち、ウェブページを表示している端末装置上で、Java(登録商標) scriptが、ユーザからのアクションを監視しておき、ウェブページ上の入力フォームを選択する入力があると、録音パネル(Java(登録商標) applet)を呼び出す。録音パネルは、ユーザから受付けた音声データを音声認識サーバに送信する。すると、音声認識サーバは、受信した音声データに対して音声認識処理を行い、認識結果文字列を端末装置の録音パネルに送信する。録音パネルは、受信した認識結果文字列を、Java(登録商標) scriptの変数に格納する。そして、Java(登録商標) scriptが認識結果文字列を、ブラウザに反映する。
特開2003−157095号公報
西村竜一"音声入力Webシステムを用いた辞書共有型音声認識サービス"[online]、2007年9月、日本音響学会講演論文集、[2011年2月15日検索]、インターネット<URL: http://www.netsoc.tcd.ie/~fastnet/cd_paper/ASJ/meeting/200709/pdf/0248_2-3-4.pdf>
入力フォームに入力される情報の範囲は、入力フォームごとに特定することができる。例えば、電話番号を入力する入力フォームには、数字が入力される。
しかし、非特許文献1に記載の技術のように、ウェブページを提供するサーバとは別に音声認識サーバを設け、当該音声認識サーバを利用してウェブページの入力フォームへの入力を支援する場合、音声認識サーバ側では、各入力フォームに入力される情報の範囲を、音声認識処理時に特定できない。このため、音声認識サーバによる音声認識処理は、汎用的な辞書データを利用し、当該辞書データ全体を網羅する検索とならざるを得ず、音声認識の精度が低くなるという問題が発生し得る。
本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
を有する音声認識装置が提供される。
また、本発明によれば、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段と、前記ウェブページをディスプレイに表示する端末表示手段と、前記入力フォームに入力する情報を音声で受付ける端末受付手段と、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段と、を有する端末装置が提供される。
また、本発明によれば、上記音声認識装置と、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、を有する音声認識システムが提供される。
また、本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、コンピュータを、文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、として機能させるためのプログラムが提供される。
また、本発明によれば、コンピュータを、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、前記ウェブページをディスプレイに表示する端末表示手段、前記入力フォームに入力する情報を音声で受付ける端末受付手段、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、として機能させるためのプログラムが提供される。
また、本発明によれば、端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、文字列とその読みがなとを対応付けた音声認識辞書を保持する辞書保持手段と、前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、を備えておき、前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、を音声認識装置が実行する音声認識方法が提供される。
また、本発明によれば、入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信ステップと、前記ウェブページをディスプレイに表示する端末表示ステップと、前記入力フォームに入力する情報を音声で受付ける端末受付ステップと、前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信ステップと、を端末装置が実行する入力方法が提供される。
本発明によれば、音声認識技術を利用してウェブページの入力フォームへの入力を支援する技術において、音声認識の精度を高めることができる。
本実施形態の音声認識システムの機能ブロック図の一例である。 本実施形態の辞書保持部が保持する音声認識辞書の一例を模式的に示した図である。 本実施形態のルール保持部が保持するデータの一例を模式的に示した図である。 本実施形態の音声認識装置の処理の流れの一例を示したフローチャートである。 本実施形態の音声認識システムの機能ブロック図の一例である。 本実施形態の音声認識装置の処理の流れの一例を示したフローチャートである。
以下、本発明の実施の形態について図面を用いて説明する。
なお、本実施形態の各部は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム(あらかじめ機器を出荷する段階からメモリ内に格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、機器にはいろいろな変形例があることは、当業者には理解されるところである。
また、本実施形態の説明において利用する機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、本実施形態の各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
<第1の実施形態>
図1は、本実施形態の音声認識システムの構成の一例を示す機能ブロック図である。図示するように、本実施形態の音声認識システムは、音声認識装置10と、端末装置30と、ウェブページを端末装置30に提供するサーバ40とを有する。
まず、音声認識装置10について説明する。音声認識装置10は、端末装置30で表示されるウェブページの入力フォームへの入力を支援するため、図1に示すように、辞書保持部11と、ルール保持部12と、受信部13と、変換部14と、ルール取得部15と、検索部16と、送信部17とを有する。
辞書保持部11は、文字列と、当該文字列の読みがなと、当該文字列の属性情報とを対応付けた音声認識辞書を保持する。文字列は、1つまたは2つ以上の文字、数字、記号で構成される。また、文字列は、文字、数字及び記号の中の2つ以上が混在したものであってもよいし、これらの中の1つのみで構成されたものであってもよい。属性情報は、例えば、数字、記号、アルファベット、数字+記号、数字+記号+アルファベットなど、文字列自体の属性を示す情報の他、都道府県、市区町村など、文字列が備えた意味の属性を示す情報であってもよい。
図2に、音声認識辞書の一例を示す。図示する音声認識辞書には、音声認識テキスト452の欄に文字列が記載されている。そして、音声読みがな453の欄に、各文字列に対応付けて当該文字列の読みがなが記載されている。図示するように、1つの文字列には、1つまたは2つ以上の読みがなを対応付けることができる。また、テキスト分類451の欄に、各文字列に対応付けて、当該文字列の属性情報が記載されている。1つの文字列には、1つまたは2つ以上の属性情報を対応付けることができる。
なお、図示した文字列、読みがな及び属性情報はあくまで一例であり、これらに限定されない。
図1に戻り、ルール保持部12は、入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持する。図3に、ルール保持部12が保持するデータの一例を示す。図示するルール442の欄に入力ルールが記載され、ルールID441の欄に、各入力ルールと対応付けてルール識別情報が記載されている。
入力ルールは、図示するように、音声認識辞書に記載された属性情報(図2のテキスト分類451の欄参照)を利用して、情報の範囲を規定したルールとすることができる。
ルール識別情報「1」に対応付けられた入力ルール、[数字]{3}[−]?[数字]{4}によれば、入力される情報は、前から順に数字が3つ連続した後、「−」(ハイフン)が入り、その後、数字が4つ連続した情報となる。例えば、「123−4567」などである。なお、「−」(ハイフン)の後に「?」があるので、「−」(ハイフン)はあってもなくてもよい。すなわち、ルール識別情報「1」に対応付けられた入力ルールによれば、入力される情報は、「前から順に数字が3つ連続した後、「−」(ハイフン)が入り、その後に数字が4つ連続した情報」、または、「数字が7つ連続した情報」となる。
ここで、ルール識別情報「1」に対応付けられた入力ルールは、音声認識辞書に記載された属性情報の他、音声認識辞書に記載された文字列「−」(ハイフン)をも利用して、情報の範囲を規定している。このように、入力ルールは、音声認識辞書に記載された文字列を利用して、情報の範囲を規定してもよい。
なお、図示した入力ルールの表記方法はあくまで一例であり、これに限定されるものではない。
図1に戻り、受信部13は、入力フォームにルール識別情報を対応付けたウェブページを受信した複数の端末装置30各々から、ルール識別情報と、音声データとを対応付けて受信する。なお、ルール識別情報及び音声データには、さらに、ウェブページの入力フォームを識別する情報が対応付けられていてもよい。
例えば、端末装置30が受信するウェブページのHTML文書には、入力フォームに対応付けてルール識別情報が記載されている。すべての入力フォームにルール識別情報が対応付けられていてもよいし、一部の入力フォームのみにルール識別情報が対応付けられていてもよい。端末装置30は、ディスプレイに当該ウェブページを表示した状態で、ユーザから、1つの入力フォームを特定する入力を受付けた後、例えばマイクを介して音声データの入力を受付けると、受付けた音声データに、特定された入力フォームに対応付けられているルール識別情報を対応付けて、音声認識装置10に送信する。そして、受信部13は、当該ルール識別情報と音声データを受信する。
ルール取得部15は、受信部13が受信したルール識別情報をキーとしてルール保持部12(図3参照)を検索し、当該キーに対応付けられた入力ルールを取得する。
検索部16は、ルール取得部15が取得した入力ルールに含まれる属性情報をキーとして辞書保持部11が保持する音声認識辞書を検索し、当該キーに対応付けられている読みがなを抽出する。例えば、ルール取得部15が図3に示すルール識別情報1に対応付けられた入力ルールを取得した場合、検索部16は、当該入力ルールに含まれる属性情報「数字」をキーとして音声認識辞書(図2参照)を検索し、属性情報「数字」に対応付けられている読みがな「ぜろ」、「れい」、「まる」、「いち」等を抽出する。また、ルール取得部15が図3に示すルール識別情報2に対応付けられた入力ルールを取得した場合には、検索部16は、当該入力ルールに含まれる属性情報「都道府県」、「市区町村」、「数字」、「丁目」等各々をキーとして音声認識辞書(図2参照)を検索し、属性情報に対応付けられている読みがなを抽出する。
変換部14は、音声データを複数の候補が含まれる読みがなのデータに変換する。例えば、音声データが「いちにさん(123)」であった場合、変換部14は当該音声データと、あらかじめ保持している音素、音節等の周波数パターンとをマッチングして、頭から1番目、2番目、3番目、4番目、5番目各々の文字の候補を複数含んだ結果を作成する。例えば1番目の文字候補には、「い」、「き」、「ひ」などが含まれる。なお、各候補文字には、認識率が対応付けられていてもよい。
上記変換の後、変換部14は、検索部16が抽出した読みがな、および、ルール取得部15が取得した入力ルールを利用して、複数の候補の中から1つの読みがなを特定する。例えば、音声データが「いちにさん(123)」であり、入力ルールが「数字3つ」である場合を考える。かかる場合、上記1番目の文字候補「い」、「き」、「ひ」の中の、「い」は例えば「いち(1)」、「ひ」は例えば「ひち(7)」と数字の頭の文字になる可能性はあるが、「き」は数字の頭の文字になることはない。よって、変換部14は、検索部16が抽出した数字の読みがなを利用して「き」が1番目の文字となることがないことを特定し、当該文字を1番目の文字の候補から除去する。変換部14は、例えばこのような処理により、上記1乃至5番目各々の文字の候補を絞り込んで、1つの文字を特定する。なお、検索部16が抽出した数字の読みがなを利用した絞り込みの後も、複数の候補が残っている場合には、例えば、変換部14は、前後の文字関係や、認識率等を利用して、1つの文字を特定することができる。
このような変換部14の処理によれば、変換処理の前に、入力ルールを利用して、音声データの内容は例えば「数字が5つ連続するもの」と把握できるので、変換処理において、数字の読みでない「べろ」や「いし」などに変換される不都合を抑制することができる。
変換部14は、例えば上述のようにして複数の候補の中から1つの読みがなを特定した後、音声認識辞書(図2参照)を検索して、特定した読みがなに対応づけられている文字列を取得する。
送信部17は、変換部14が取得した文字列(認識結果)を、端末装置30に送信する。なお、送信部17は、認識結果に、受信部13が受信した入力フォームを識別する情報を対応付けて、端末装置30に送信してもよい。
次に、端末装置30について説明する。端末装置30は、図1に示すように、端末受信部31と、端末表示部32と、端末受付部33と、端末送信部34とを有する。
端末受信部31は、入力フォームにルール識別情報を対応付けたウェブページを、サーバ40から受信する。また、端末受信部31は、音声認識装置10の送信部17から、認識結果を受信する。当該認識結果には、入力フォームを識別する情報が対応付けられていてもよい。
端末表示部32は、端末受信部31が受信したウェブページをディスプレイに表示する。また、端末表示部32は、端末受信部31が受信した認識結果を、ウェブページの所定の入力フォームに表示する。認識結果を表示する入力フォームを特定する手段は特段制限されず、例えば、端末表示部32は、認識結果に対応付けられた入力フォームを識別する情報を利用して、認識結果を表示する入力フォームを特定してもよい。
端末受付部33は、入力フォームに入力する情報を、例えばマイクを介して音声で受付ける。例えば、端末受付部33は、ウェブページに含まれる1つまたは2つ以上の入力フォームの中の1つを特定する入力をユーザから受付けた後、マイクを介して音声データの入力を受付けてもよい。入力フォームを特定する入力を受付ける手段は特段制限されない。
端末送信部34は、特定された入力フォームに対応付けられたルール識別情報と、当該特定後に端末受付部33が入力を受付けた音声データとを対応付けて、音声認識装置10に送信する。ルール識別情報は、ウェブページのHTML文書に、入力フォームに対応付けて記載されている。
次に、本実施形態の処理の流れの一例について、図1及び図4のフローチャートを用いて説明する。図4は、音声認識装置10の処理の流れを示している。
まず、図1に示す端末装置30の端末受信部31が、サーバ40からウェブページを受信する(端末受信ステップ)。すると、端末表示部32がウェブページをディスプレイに表示する(端末表示ステップ)。そして、端末受付部33が、ユーザから、当該ウェブページの中の1つの入力フォームを特定する入力および音声データの入力を受付ける(端末受付ステップ)。次いで、端末送信部34が、特定された入力フォームに対応付けられているルール識別情報、及び、端末受付部33が受付けた音声データを対応付けて、音声認識装置10に送信する(端末送信ステップ)。
すると、音声認識装置10の受信部13がルール識別情報及び音声データを受信する(図4のS10:受信ステップ)。次に、ルール取得部15が、S10で受信部13が受信したルール識別情報をキーとしてルール保持部12(図3参照)を検索し、キーに対応付けられた入力ルールを取得する(図4のS11:ルール取得ステップ)。
次に、検索部16が、S11でルール取得部15が取得した入力ルールに含まれる属性情報をキーとして音声認識辞書(図2参照)を検索し、対応付けられている読みがなを抽出する(図4のS12:検索ステップ)。
その後、変換部14が、音声データを複数の候補が含まれる読みがなのデータに変換した後、S11でルール取得部15が取得した入力ルール、及び、S12で検索部16が抽出した読みがなを利用して、複数の候補の中から1つの読みがなを特定する。その後、変換部14は、特定した読みがなをキーとして辞書保持部11が保持する音声認識辞書(図2参照)を検索し、キーに対応付けられている文字列を、認識結果として取得する(図4のS13:変換ステップ)。
その後、送信部17が、認識結果を端末装置30に送信する(図4のS14)。すると、端末装置30の端末受信部31が、認識結果を受信する。そして、端末表示部32が、認識結果を、ディスプレイに表示しているウェブページの所定の入力フォームに表示する。
なお、音声認識装置10、端末装置30及びサーバ40間のデータの送受信は、インターネットやLANなどのネットワークを介して行うことができる。当該前提は、他の実施形態においても同様である。
また、本実施形態では、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10が、ルール保持部12をさらに備えた例を説明したが、その他、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10とは別に、ルール保持部12を有するルール保持装置を構成することも可能である。当該ルール保持装置は、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有さなくてもよい。かかる場合、ルール保持装置は、声認識装置10と有線/無線で繋がり、音声認識装置10がルール保持装置のルール保持部12にアクセスできるように構成する。
本実施形態の音声認識装置10は、例えば以下のプログラムをコンピュータにインストールすることで実現することができる。
端末装置30で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
コンピュータを、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
として機能させるためのプログラム。
また、本実施形態の端末装置30は、例えば以下のプログラムをコンピュータにインストールすることで実現することができる。
コンピュータを、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、
前記ウェブページをディスプレイに表示する端末表示手段、
前記入力フォームに入力する情報を音声で受付ける端末受付手段、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、
として機能させるためのプログラム。
本実施形態によれば、ウェブページを提供するサーバとは別に音声認識サーバを設け、当該音声認識サーバを利用してウェブページの入力フォームへの入力を支援する技術において、音声認識サーバが、各入力フォームに入力される情報の範囲を、音声認識処理時に特定できる。このため、音声認識サーバは、各入力フォームに入力される情報の範囲に限定した音声認識処理を行うことができる。すなわち、音声データを読みがなに変換する際、入力フォームに入力される情報の範囲に限定して、変換処理を行うことができるので、音声認識の精度を高めることができる。
<第2の実施形態>
本実施形態は、第1の実施形態の構成に加えて、さらに、ルール保持部12に新たな入力ルールを記憶する手段、及び、音声認識装置10がサーバ40にウェブページのHTML文書に記載するルール識別情報を提供する手段を備える。
図5は、本実施形態の音声認識システムの構成の一例を示す機能ブロック図である。図示するように、本実施形態の音声認識システムは、音声認識装置10と、端末装置30と、ウェブページを端末装置30に提供するサーバ40とを有する。
図5に示すように、音声認識装置10は、辞書保持部11と、ルール保持部12と、受信部13と、変換部14と、ルール取得部15と、検索部16と、送信部17と、ルール受信部18と、判別部19と、更新部20とを有する。辞書保持部11、ルール保持部12、受信部13、変換部14、ルール取得部15、検索部16、及び、送信部17の構成は、第1の実施形態と同様であるので、ここでの説明は省略する。
ルール受信部18は、サーバ40から、入力ルールを受信する。例えば、サーバ40は、入力フォームにルール識別情報を対応付けたウェブページ(HTML文書)を作成する際であって、当該ウェブページに含まれる入力フォームに入力される情報の範囲を規定した入力ルールは認識できるが、当該入力ルールに対応付けられたルール識別情報を認識できない際に、当該入力ルールをルール受信部18に送信する。
判別部19は、ルール受信部18が受信した入力ルールが、すでにルール保持部12に保持されているか判別する。例えば、判別部19は、ルール受信部18が受信した入力ルールをキーとして、ルール保持部12を検索することで、当該入力ルールがすでに保持されているか否かを判別する。
更新部20は、判別部19の判別結果に応じて、以下の処理を実行する。
ルール受信部18が受信した入力ルールが、すでにルール保持部12に保持されている場合には、更新部20は、その入力ルールに対応付けてルール保持部12が保持しているルール識別情報を、サーバ40に送信する。
一方、ルール受信部18が受信した入力ルールが、ルール保持部12に保持されていない場合には、更新部20は、その入力ルールに新たなルール識別情報を対応付けてルール保持部12に保持させると共に、当該新たなルール識別情報をサーバ40に送信する。
更新部20による当該処理により、サーバ40は、音声認識装置10に送信した入力ルールに対応付けられているルール識別情報を認識することができる。
次に、本実施形態の処理の流れの一例について、図5及び図6のフローチャートを用いて説明する。図6は、音声認識装置10の処理の流れを示している。
まず、例えば、サーバ40は、入力フォームにルール識別情報を対応付けたウェブページ(HTML文書)を作成する際であって、当該ウェブページに含まれる入力フォームに入力される情報の範囲を規定した入力ルールは認識できるが、当該入力ルールに対応付けられたルール識別情報を認識できない際に、当該入力ルールを音声認識装置10に送信する。
すると、サーバ40が送信した入力ルールを、音声認識装置10のルール受信部18が受信する(図6のS20)。次いで、判別部19が、S20でルール受信部18が受信した入力ルールがすでにルール保持部12に保持されているか判別する(図6のS21)。
S21での判別の結果、ルール受信部18が受信した入力ルールが、すでにルール保持部12に保持されている場合には(図6のS22:Yes)、更新部20は、その入力ルールに対応付けてルール保持部12が保持しているルール識別情報を、サーバ40に送信する(図6のS23)。
一方、S21での判別の結果、ルール受信部18が受信した入力ルールが、ルール保持部12に保持されていない場合には(図6のS22:No)、更新部20は、その入力ルールに新たなルール識別情報を対応付けてルール保持部12に保持させると共に(図6のS24)、当該新たなルール識別情報をサーバ40に送信する(図6のS25)。
S23またはS25で更新部20が送信したルール識別情報を受信したサーバ40は、受信したルール識別情報を所定の入力フォームに対応付けたウェブページ(HTML文書)を作成し、端末装置30に送信する。
本実施形態の端末装置30の構成は、第1の実施形態の構成と同様である。
なお、本実施形態では、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10が、ルール保持部12、ルール受信部18、判別部19及び更新部20をさらに備えた例を説明したが、その他、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有する音声認識装置10とは別に、ルール保持部12、ルール受信部18、判別部19及び更新部20を有するルール保持装置を構成することも可能である。当該ルール保持装置は、辞書保持部11、受信部13、変換部14、ルール取得部15、検索部16及び送信部17を有さなくてもよい。かかる場合、ルール保持装置は、声認識装置10と有線/無線で繋がり、音声認識装置10がルール保持装置のルール保持部12にアクセスできるように構成する。
本実施形態によれば、第1の実施形態で説明した作用効果に加えて、さらに、次のような作用効果を実現することができる。すなわち、本実施形態によれば、ルール識別情報を認識できないサーバ40であっても、入力フォームに入力される情報の範囲を規定した入力ルールを音声認識装置10に送信すれば、その入力ルールに対応付けられたルール識別情報の返信により、所望のルール識別情報を認識することができる。
また、本実施形態によれば、音声認識装置10は、実際に使用される有用な入力ルールを蓄積していくことができる。
このように、本実施形態によれば、汎用性の高いシステムが実現される。
以下、参考形態の例を付記する。
1. 端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
を有する音声認識装置。
2. 1に記載の音声認識装置において、
前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信手段と、
前記入力ルールが前記ルール保持手段に保持されているか判別する判別手段と、
前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新手段と、
を有する音声認識装置。
3. 入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段と、
前記ウェブページをディスプレイに表示する端末表示手段と、
前記入力フォームに入力する情報を音声で受付ける端末受付手段と、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段と、
を有する端末装置。
4. 1または2に記載の音声認識装置と、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、
を有する音声認識システム。
5. 4に記載の音声認識システムにおいて、
さらに、3に記載の端末装置を有する音声認識システム。
6. 端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
コンピュータを、
文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
として機能させるためのプログラム。
7. コンピュータを、
入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信手段、
前記ウェブページをディスプレイに表示する端末表示手段、
前記入力フォームに入力する情報を音声で受付ける端末受付手段、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信手段、
として機能させるためのプログラム。
8. 端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、
文字列とその読みがなとを対応付けた音声認識辞書を保持する辞書保持手段と、
前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
を備えておき、
前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、
前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、
前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、
前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、
を音声認識装置が実行する音声認識方法。
9. 入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを受信する端末受信ステップと、
前記ウェブページをディスプレイに表示する端末表示ステップと、
前記入力フォームに入力する情報を音声で受付ける端末受付ステップと、
前記入力フォームに対応付けられた前記ルール識別情報と、前記音声のデータとを対応付けて音声認識装置に送信する端末送信ステップと、
を端末装置が実行する入力方法。
10 音声認識装置
11 辞書保持部
12 ルール保持部
13 受信部
14 変換部
15 ルール取得部
16 検索部
17 送信部
18 ルール受信部
19 判別部
20 更新部
30 端末装置
31 端末受信部
32 端末表示部
33 端末受付部
34 端末送信部
40 サーバ
441 ルールID
442 ルール
451 テキスト分類
452 音声認識テキスト
453 音声読みがな

Claims (4)

  1. 端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識装置であって、
    文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、
    前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
    前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段と、
    前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段と、
    前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段と、
    前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段と、
    前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信手段と、
    前記入力ルールが前記ルール保持手段に保持されているか判別する判別手段と、
    前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新手段と、
    を有する音声認識装置。
  2. 請求項に記載の音声認識装置と、
    入力フォームに入力される情報の範囲を規定する入力ルールを識別するためのルール識別情報を、入力フォームに対応付けたウェブページを、端末装置に送信するサーバと、
    を有する音声認識システム。
  3. 端末装置で表示されるウェブページの入力フォームへの入力を支援するためのプログラムであって、
    コンピュータを、
    文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段、
    前記属性情報を利用して前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段、
    前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信手段、
    前記受信手段が受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられている前記入力ルールを取得するルール取得手段、
    前記ルール取得手段が取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索手段、
    前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索手段が抽出した前記読みがな及び前記ルール取得手段が取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換手段、
    前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信手段と、
    前記入力ルールが前記ルール保持手段に保持されているか判別する判別手段と、
    前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新手段と、
    として機能させるためのプログラム。
  4. 端末装置で表示されるウェブページの入力フォームへの入力を支援する音声認識方法であって、
    文字列と、前記文字列の読みがなと、前記文字列の属性を示す属性情報とを対応付けた音声認識辞書を保持する辞書保持手段と、
    前記入力フォームに入力される情報の範囲を規定する複数の入力ルール各々を、ルール識別情報と対応付けて保持するルール保持手段と、
    を備えておき、
    前記入力フォームに前記ルール識別情報を対応付けた前記ウェブページを受信した複数の前記端末装置各々から、前記ルール識別情報と、音声データとを対応付けて受信する受信ステップと、
    前記受信ステップで受信した前記ルール識別情報をキーとして前記ルール保持手段を検索し、対応付けられた前記入力ルールを取得するルール取得ステップと、
    前記ルール取得ステップで取得した前記入力ルールに含まれる前記属性情報をキーとして、前記音声認識辞書を検索し、対応付けられている前記読みがなを抽出する検索ステップと、
    前記音声データを複数の候補が含まれる読みがなのデータに変換した後、前記検索ステップで抽出した前記読みがな及び前記ルール取得ステップで取得した前記入力ルールを利用して、前記複数の候補の中から1つの読みがなを特定し、特定した読みがなに対応付けられている前記文字列を、前記辞書保持手段から取得する変換ステップと、
    前記ウェブページを前記端末装置に送信するサーバから、入力ルールを受信するルール受信ステップと、
    前記入力ルールが前記ルール保持手段に保持されているか判別する判別ステップと、
    前記入力ルールが前記ルール保持手段に保持されている場合には、その入力ルールに対応付けられている前記ルール識別情報を前記サーバに送信し、前記入力ルールが前記ルール保持手段に保持されていない場合には、その入力ルールに新たな前記ルール識別情報を対応付けて前記ルール保持手段に保持させると共に、前記新たなルール識別情報を前記サーバに送信する更新ステップと、
    を音声認識装置が実行する音声認識方法。
JP2011046724A 2011-03-03 2011-03-03 音声認識装置、音声認識システム、音声認識方法及びプログラム Expired - Fee Related JP5754177B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011046724A JP5754177B2 (ja) 2011-03-03 2011-03-03 音声認識装置、音声認識システム、音声認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011046724A JP5754177B2 (ja) 2011-03-03 2011-03-03 音声認識装置、音声認識システム、音声認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012185225A JP2012185225A (ja) 2012-09-27
JP5754177B2 true JP5754177B2 (ja) 2015-07-29

Family

ID=47015392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011046724A Expired - Fee Related JP5754177B2 (ja) 2011-03-03 2011-03-03 音声認識装置、音声認識システム、音声認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5754177B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410632B2 (en) 2016-09-14 2019-09-10 Kabushiki Kaisha Toshiba Input support apparatus and computer program product

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9996517B2 (en) * 2015-11-05 2018-06-12 Lenovo (Singapore) Pte. Ltd. Audio input of field entries
JP6712940B2 (ja) * 2016-10-27 2020-06-24 トッパン・フォームズ株式会社 音声入力装置、音声入力方法
CN112068793A (zh) * 2019-06-11 2020-12-11 北京搜狗科技发展有限公司 一种语音输入方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005322148A (ja) * 2004-05-11 2005-11-17 Mitsubishi Electric Corp ブラウザ装置
JP4731174B2 (ja) * 2005-02-04 2011-07-20 Kddi株式会社 音声認識装置、音声認識システム及びコンピュータプログラム
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410632B2 (en) 2016-09-14 2019-09-10 Kabushiki Kaisha Toshiba Input support apparatus and computer program product

Also Published As

Publication number Publication date
JP2012185225A (ja) 2012-09-27

Similar Documents

Publication Publication Date Title
JP5965175B2 (ja) 応答生成装置、応答生成方法および応答生成プログラム
CN1752975B (zh) 用于支持话音的自动填充的方法和系统
EP3021321B1 (en) Display apparatus and method for question and answer
JP5042799B2 (ja) 音声チャットシステム、情報処理装置およびプログラム
US7818170B2 (en) Method and apparatus for distributed voice searching
US20070061146A1 (en) Retrieval and Presentation of Network Service Results for Mobile Device Using a Multimodal Browser
US20120296653A1 (en) Speech recognition of character sequences
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
CN103377028A (zh) 用于以语音启动人机界面的方法和系统
CN102144228A (zh) 根据输入字符序列的资源定位符建议
JP5754177B2 (ja) 音声認識装置、音声認識システム、音声認識方法及びプログラム
CN102799603A (zh) 提供链接列表的方法和应用所述方法的显示设备
US20160078083A1 (en) Image display device, method for driving the same, and computer readable recording medium
CN104282301A (zh) 一种语音命令处理方法以及系统
CN101218625A (zh) 用于移动设备的使用拼写识别的字典查找
WO2016041428A1 (zh) 一种英文的输入方法和装置
JP2007323558A (ja) キーワード生成装置、文書検索装置、その方法、およびそのプログラム
JP4962416B2 (ja) 音声認識システム
CN104731918A (zh) 一种语音搜索方法及装置
JP2005215726A (ja) 話者に対する情報提示システム及びプログラム
KR20010064061A (ko) 음성 인식 기능을 갖는 검색 엔진
JP5300576B2 (ja) 検索装置、検索方法、および検索プログラム
JP4808763B2 (ja) 音声情報収集装置、その方法およびそのプログラム
JP2008171173A (ja) 文書検索方法および装置、プログラム
JP4515186B2 (ja) 音声辞書作成装置、音声辞書作成方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150511

R150 Certificate of patent or registration of utility model

Ref document number: 5754177

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees