JP2018132626A

JP2018132626A - 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法

Info

Publication number: JP2018132626A
Application number: JP2017025725A
Authority: JP
Inventors: 浩明小窪; Hiroaki Kokubo; 松本　卓也; Takuya Matsumoto; 卓也松本; 則男度會; Norio Watarai; 睿張; Toru Cho; 和憲中山; Kazunori Nakayama; 本間　健; Takeshi Honma; 健本間
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2017-02-15
Filing date: 2017-02-15
Publication date: 2018-08-23
Anticipated expiration: 2037-02-15
Also published as: JP6833203B2

Abstract

【課題】端末装置側の音声辞書に語句を効率的に追加し、ユーザの利便性を向上する。【解決手段】各ユーザの音声データを音声認識する複数の端末装置と通信する音声認識サーバであって、前記各端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記音声データの送信元の前記端末装置に送信する音声認識部と、前記各端末装置の音声認識辞書に前記認識結果に基づいて登録された語句に関する情報を受信し、前記語句に関する情報を語句リストに登録する語句管理部と、前記語句リストに登録された語句に関する情報を、前記複数の端末装置のうち１つ以上の端末装置に配信する語句配信部とを備える。【選択図】図１

Description

本発明は、音声認識システム、音声認識サーバ、端末装置、及び語句管理方法に関する。

近年、スマートフォンやカーナビゲーション等の端末装置には、サーバ側に搭載された音声認識エンジンを使用した音声入力機能を有するものがある。サーバ側の音声認識エンジンは、端末装置に比べて豊富な計算機リソース（例えば、演算処理速度や記憶容量）を活用することができる。これにより、サーバ側の音声認識エンジンは、幅広い語彙を認識できる可能性を持っており、また、さまざまな音環境で入力された音声を精度よく認識できる可能性を持っている。

しかし、サーバ側の音声認識エンジンは、過疎地やトンネル内などの端末装置とデータ通信を確立できない環境では、使用することができない。そこで、端末装置側にも音声認識エンジンを搭載し、状況に応じて音声認識処理を端末装置側又はサーバ側に振り分けるように、システムを構成することもできる。

特許文献１には、「振り分け判定部１０２は、解析した入力モードが該当項目選択モードであるか否かを判定する（ステップ１０４）。現在の入力モードが該当項目選択モードである場合には肯定判断が行われる。次に、車載装置１に内蔵された音声認識処理部１００は、マイクロホン２２によって集音された利用者の音声に対して音声認識処理を行う（ステップ１０６）。」、「一方、現在の入力モードがテキスト入力モードである場合にはステップ１０４の判定において否定判断が行われる。次に、音声データ送信部５６は、マイクロホン２２から入力されて圧縮処理部２６によって圧縮処理された音声データをネットワーク３を介してサーバ２に向けて送信して、サーバ２内の音声認識処理部２００による音声認識処理を依頼する（ステップ１１０）。」と記載されている。

特開２０１３−８８４７７号公報

端末装置に搭載される音声認識エンジンは、当該端末装置の計算リソースの制約のため、サーバ側の音声認識エンジンに比べて、認識できる語句が少ない。一方、サーバ側の音声認識エンジンは、端末装置と比べて自由にメンテナンス可能であることから、語句を新たに音声認識辞書に追加することが容易である。そのため、サーバ側の音声認識エンジンでは正しく認識できるものの、端末装置側の音声認識エンジンでは認識できない語句が多く存在する。このような語句は、サーバ側の音声認識エンジンを使用することができない環境では、端末装置によって認識されず、端末装置のユーザは不便を強いられることになる。

ここで、サーバ側の音声認識エンジンで認識された語句のうちユーザの使用頻度が高い語句を、そのユーザの端末装置側の音声認識辞書に追加すれば、端末装置側で音声認識可能な語彙を増やすことができる。しかしながら、そのユーザが使用したことがない又は使用頻度が低い語句は、音声認識辞書に追加されない又は追加が遅れる。そのため、新しくオープンした店舗の名称などの新しい語句については、ユーザが使用する可能性があってもユーザが使用しない限り音声認識辞書に追加されず、ユーザの利便性を向上できない。

本発明は、上記の問題に鑑みてなされたものであり、好適な音声認識システム、音声認識サーバ、端末装置、及び語句管理方法を提供することを目的とする。

本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。

本発明の一態様は、ユーザの音声データを音声認識する端末装置と、前記端末装置と通信し前記ユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムである。前記音声認識サーバは、前記端末装置と通信するサーバ側通信制御部と、前記端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記端末装置に送信するサーバ側音声認識部と、前記サーバ側通信制御部を用いて取得した前記端末装置から送信された前記語句に関する情報と、他の端末装置から送信された語句に関する情報とを、語句リストに登録する語句管理部と、前記語句リストに登録された語句に関する情報を、前記端末装置及び前記他の端末装置の少なくとも一方に前記サーバ側通信制御部を用いて配信する語句配信部と、を備える。前記端末装置は、前記音声認識サーバと通信する端末側通信制御部と、音声認識するための音声認識辞書を記憶する音声認識辞書記憶部と、前記ユーザの音声データを前記音声認識辞書記憶部に記憶されている音声認識辞書を用いて音声認識し、その認識結果を得る端末側音声認識部と、前記ユーザの音声データを、前記端末側通信制御部を用いて前記音声認識サーバに送信する音声送信部と、前記端末側音声認識部からの認識結果と、前記端末側通信制御部を用いて取得した前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部と、前記選択された認識結果が示す語句が、前記音声認識辞書記憶部に記憶されている音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録する辞書管理部と、前記辞書管理部によって前記音声認識辞書に登録された語句に関する情報を、前記端末側通信制御部を用いて前記音声認識サーバに送信する語句送信部と、を備える。前記辞書管理部は、前記端末側通信制御部を用いて取得した前記音声認識サーバから配信された語句を前記音声認識辞書に登録する。

本発明によれば、好適な音声認識システム、音声認識サーバ、端末装置、及び語句管理方法を提供することができる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明の第１実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。音声認識システムにより実行される処理の概要を示すシーケンス図である。語句リストのデータ構成の一例を示す図である。音声認識サーバを実現するコンピュータのハードウェア構成の一例を示す図である。端末装置の音声認識処理および新規語句送信処理の一例を示すフローチャートである。音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。端末装置の新規語句登録処理の一例を示すフローチャートである。本発明の第２実施形態に係る語句リストのデータ構成の一例を示す図である。音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。

以下、本発明の複数の実施形態について、図面を参照して説明する。

［第１実施形態］
図１は、第１実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。

音声認識システム１は、複数の端末装置１０（図１では１台のみを図示）と、音声認識サーバ２０とを含む。各端末装置１０と音声認識サーバ２０は、例えば携帯電話網、インターネット等の通信ネットワークＮを介して、互いに通信することができる。

端末装置１０は、例えばスマートフォン、フィーチャーフォン、タブレットコンピュータ、ＰＣ（Personal Computer）、ウェアラブルデバイス、車載カーナビゲーション機、車載オーディオ機器、車載ＥＣＵ（Electronic Control Unit）などの情報通信機器である。音声認識サーバ２０は、例えばサーバコンピュータなどの情報通信機器である。

端末装置１０は、音声認識機能を有する。また、端末装置１０は、音声認識辞書に新しく語句を登録する機能を有する。音声認識サーバ２０は、音声認識機能を有する。また、音声認識サーバ２０は、各端末装置１０から送信された語句を、各端末装置１０に配信する機能を有する。図２を参照して、この音声認識システム１の処理の概要を説明する。

図２は、音声認識システムにより実行される処理の概要を示すシーケンス図である。

ある端末装置１０は、ユーザの音声データの入力を受け付けて（ステップＳ１）、当該音声データを音声認識サーバ２０に送信する（ステップＳ２）。端末装置１０は、入力された音声データに対して音声認識処理を実行して、認識結果を得る（ステップＳ３）。一方、音声認識サーバ２０は、端末装置１０から送信された音声データに対して音声認識処理を実行して、認識結果を得て（ステップＳ４）、認識結果を音声データの送信元の端末装置１０に送信する（ステップＳ５）。

ユーザの入力音声データに対して２つの認識結果を取得した端末装置１０は、いずれの認識結果を採用するかを判定する（ステップＳ６）。そして、端末装置１０は、採用した認識結果が示す認識語句が、自身の備える音声認識辞書に登録されていない場合には、当該認識語句を音声認識辞書に登録する（ステップＳ７）。このようにして、新規語句が端末装置１０の音声認識辞書に追加される。

新規語句を音声認識辞書に登録した端末装置１０は、当該新規語句を音声認識サーバ２０に送信（通知）する（ステップＳ８）。音声認識サーバ２０は、端末装置１０から通知された新規語句を、自身の備える語句リストに登録する（ステップＳ９）。ステップＳ１〜Ｓ９の処理は、それぞれの端末装置１０と音声認識サーバ２０との間で実行される。つまり、語句リストには、複数の端末装置１０から通知された新規語句が登録される。

音声認識サーバ２０は、語句リストに登録した新規語句を、当該新規語句を通知した端末装置１０以外の１つ以上の端末装置１０に対して配信する（ステップＳ１０）。ここで、音声認識サーバ２０は、所定の規則に従って、例えば複数のユーザの間で使用頻度が高い新規語句を、配信対象の語句として選択する。

配信された新規語句を受信した各端末装置１０は、受信した新規語句が、自身の備える音声認識辞書に登録されていない場合には、当該新規語句を音声認識辞書に登録する（ステップＳ１１）。このようにして、ステップＳ７において端末装置１０の音声認識辞書に追加された新規語句が、ステップＳ１１において他の端末装置１０の音声認識辞書にも追加される。

端末装置１０は、音声認識サーバ２０と比べて、計算機リソース（例えば、演算処理速度や記憶容量）が少ない。そのため、端末装置１０における音声認識機能は、音声認識辞書に登録されている語句数が少ないことや処理速度が遅いことにより、認識能力が低く制限される。一方で、音声認識サーバ２０における音声認識機能は、音声認識辞書に登録されている語句数が多いことや処理速度が速いことにより、認識能力が高い。ただし、端末装置１０と音声認識サーバ２０の通信を確立できない場合には、音声認識サーバ２０における音声認識機能を利用できないというデメリットはある。

そこで、本実施形態の音声認識システム１では、音声認識サーバ２０が各端末装置１０から新規語句を収集するとともに、収集した新規語句を各端末装置１０に配信して、各端末装置１０の音声認識辞書に登録させる。これにより、各端末装置１０の音声認識辞書に、各ユーザによって使用される可能性の高い語句を効率的に追加し、音声認識サーバ２０と通信を確立できない環境でも、ユーザの利便性を向上することができる。

図１の説明に戻り、端末装置１０及び音声認識サーバ２０の機能についてより詳細に説明する。

端末装置１０は、音声送信部１１と、音声認識部１２と、音声認識辞書１３（ユーザ辞書１４を含む）と、認識結果取得部１５と、インターフェイス制御部１６と、辞書管理部１７と、語句送信部１８と、通信制御部１９とを有する。また、端末装置１０は、内蔵あるいは外部に接続されるマイクロフォンＭを有する。

音声送信部１１は、マイクロフォンＭを介してユーザの音声データの入力を受け付ける。また、音声送信部１１は、入力された音声データを、通信制御部１９を介して音声認識サーバ２０に送信する。なお、音声送信部１１は、送信する音声データに圧縮処理を施してデータサイズを小さくしてもよい。

音声認識部１２は、ユーザの音声データの入力をマイクロフォンＭを介して受け付け、その音声データの音声認識処理を実行し、認識結果として例えば認識された語句（文字列）とその信頼度を出力する。具体的には、音声認識部１２は、音声認識辞書１３を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する。また、音声認識部１２は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。

音声認識辞書１３は、予め登録された複数の語句を含む標準辞書（図示せず）を有する。また、音声認識辞書１３は、端末装置１０のユーザにより使用されたあるいは他の端末装置１０のユーザにより使用された新規語句を登録するためのユーザ辞書１４を有する。標準辞書及びユーザ辞書１４には、語句の文字列とともにその語句の読みデータやパラメータが登録されてもよい。本実施形態では、音声認識部１２は、標準辞書及びユーザ辞書１４を用いて音声認識処理を実行する。

認識結果取得部１５は、音声認識部１２から出力される認識結果を取得する。また、認識結果取得部１５は、音声送信部１１により送信された音声データの認識結果を、通信制御部１９を介して音声認識サーバ２０から取得する。また、認識結果取得部１５は、取得した２つの認識結果のいずれかを選択し、辞書管理部１７に出力する。認識結果取得部１５は、例えば各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。

なお、認識結果取得部１５は、選択した認識結果をインターフェイス制御部１６を介してユーザに提示し、当該認識結果を許可するかキャンセルするかを、インターフェイス制御部１６を介してユーザから受け付けてもよい。

インターフェイス制御部１６は、端末装置１０の備えるディスプレイやスピーカ等の出力装置（図示せず）を介してユーザに情報を出力する。また、インターフェイス制御部１６は、端末装置１０の備えるソフトキーやハードキー等の入力装置（図示せず）を介してユーザからの情報の入力を受け付ける。

辞書管理部１７は、ユーザ辞書１４の内容を管理する。具体的には、辞書管理部１７は、認識結果取得部１５から出力された認識結果を参照し、当該認識結果が示す語句が音声認識辞書１３（標準辞書及びユーザ辞書１４）に登録されているか否かを判定する。認識語句が音声認識辞書１３に登録されていない場合、辞書管理部１７は、当該語句を新規語句としてユーザ辞書１４に登録する。

また、辞書管理部１７は、音声認識サーバ２０から配信された新規語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、通信制御部１９を介して受信する。辞書管理部１７は、当該新規語句が音声認識辞書１３（標準辞書及びユーザ辞書１４）に登録されているか否かを判定する。当該新規語句が音声認識辞書１３に登録されていない場合、辞書管理部１７は、当該新規語句をユーザ辞書１４に登録する。

語句送信部１８は、認識結果取得部１５により取得され、辞書管理部１７によりユーザ辞書１４に新しく登録された語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、通信制御部１９を介して音声認識サーバ２０に送信（通知）する。

通信制御部１９は、端末装置１０の備える通信装置（図示せず）を介して音声認識サーバ２０と通信し、他の機能（音声送信部１１、語句送信部１８等）からを出力された情報を音声認識サーバ２０に送信したり、音声認識サーバ２０から受信した情報を他の機能（認識結果取得部１５、辞書管理部１７等）に出力したりする。もちろん、音声認識サーバ２０以外の機器と通信してもよい。

音声認識サーバ２０は、音声認識部２１と、音声認識辞書２２と、語句管理部２３と、語句配信部２４と、語句リスト２５と、通信制御部２６とを有する。音声認識部２１、音声認識辞書２２、及び通信制御部２６を含む部分を音声認識サーバとして構築し、語句管理部２３、語句配信部２４、語句リスト２５、及び通信制御部２６を含む部分を語句管理サーバとして構築してもよい。

音声認識部２１は、各端末装置１０のユーザの音声データを、通信制御部２６を介して受信し、その音声データの音声認識処理を実行し、認識結果として例えば認識された語句（文字列）とその信頼度を出力する。具体的には、音声認識部２１は、音声認識辞書２２を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する。また、音声認識部２１は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。なお、音声認識部２１は、得られた認識結果を、対応する音声データの送信元の端末装置１０に通信制御部２６を介して送信する。

音声認識辞書２２は、音声認識部２１により参照される。音声認識辞書２２は、予め複数の語句が登録されている。音声認識辞書２２には、例えば管理者によってあるいはプログラムによって自動的に新しい語句が追加される。また、音声認識辞書２２に登録されている語句は、例えば管理者によってあるいはプログラムによって自動的に更新される。

語句管理部２３は、語句リスト２５の内容を管理する。具体的には、語句管理部２３は、各端末装置１０から送信（通知）された新規語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、通信制御部２６を介して受信する。語句管理部２３は、受信した新規語句が語句リスト２５に登録されているか否かを判定する。当該新規語句が語句リスト２５に登録されていない場合、語句管理部２３は、当該新規語句を語句リスト２５に登録し、登録回数を１に設定する。当該新規語句が既に語句リスト２５に登録されている場合、語句管理部２３は、当該新規語句の登録回数を１カウントアップする。

語句配信部２４は、語句リスト２５に登録されている各語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、通信制御部２６を介して各端末装置１０に配信する。具体的には、語句配信部２４は、配信対象の語句の登録回数に基づいて、当該語句を配信するか否かを決定する。例えば、語句配信部２４は、当該登録回数が所定の閾値を超えているか否かを判定し、当該閾値を超えている場合に配信すると決定する。当該所定閾値は、例えば、登録回数が当該閾値を超えた場合は当該語句が不特定多数のユーザによって頻繁に使われる可能性がある語句であると推定するための設計値である。

語句リスト２５は、各端末装置１０から通知された新規語句のリストであり、例えば図３に示すように構成される。

図３は、語句リストのデータ構成の一例を示す図である。語句リスト２５は、語句２５ａと、属性２５ｂと、総登録回数２５ｃとを関連付けたレコードを、語句ごとに格納することができる。語句２５ａは、語句に関する情報であり、例えば、当該語句、読みデータ、パラメータを含む。属性２５ｂは、語句２５ａが示す語句の属性であり、例えば、当該語句が施設の名称である場合はその位置情報（例えば所在地や地図上の座標情報など）であり、当該語句が楽曲の名称である場合はその楽曲に関連するアーティストの名称等の識別子である。図３の例では、施設の名称とその所在地を含むレコードが示されている。総登録回数２５ｃは、語句２５ａが示す語句の総登録回数である。総登録回数２５ｃは、当該語句を新規語句として通知したユーザの数（端末装置１０の数）に相当する。

図１の説明に戻り、通信制御部２６は、音声認識サーバ２０の備える通信装置（図示せず）を介して各端末装置１０と通信し、他の機能（音声認識部２１、語句配信部２４等）からを出力された情報を各端末装置１０に送信したり、各端末装置１０から受信した情報を他の機能（音声認識部２１、語句管理部２３等）に出力したりする。もちろん、端末装置１０以外の機器と通信してもよい。

図４は、音声認識サーバを実現するコンピュータのハードウェア構成の一例を示す図である。音声認識サーバ２０は、例えば、図４に示すようなコンピュータ９０により実現することができる。音声認識サーバ２０は、複数のコンピュータ９０により構成されてもよい。

コンピュータ９０は、例えば、演算装置９１と、主記憶装置９２と、外部記憶装置９３と、通信装置９４と、入力装置９５と、出力装置９６とを含む。

演算装置９１は、例えば、ＣＰＵ（Central Processing Unit）などの装置である。主記憶装置９２は、例えば、ＲＡＭ（Random Access Memory）などの記憶装置である。外部記憶装置９３は、例えば、ハードディスクやＳＳＤ（Solid State Drive）、あるいはフラッシュＲＯＭ（Read Only Memory）などの記憶装置である。

通信装置９４は、ネットワークケーブルを介して有線通信を行う通信装置、アンテナを介して無線通信を行う通信装置を含む、情報を送受信する装置である。入力装置９５は、キーボードやマウスなどのポインティングデバイス、タッチパネル、マイクロフォンなどを含む、入力情報を受け付ける装置である。出力装置９６は、ディスプレイ、プリンタ、スピーカなどを含む、出力情報を出力する装置である。

音声認識サーバ２０の各機能は、例えば、演算装置９１が所定のアプリケーションプログラムを実行することによって実現することができる。このアプリケーションプログラムは、例えば、主記憶装置９２又は外部記憶装置９３内に記憶され、実行にあたって主記憶装置９２上にロードされ、演算装置９１によって実行される。音声認識辞書２２及び語句リスト２５は、例えば、主記憶装置９２及び外部記憶装置９３の少なくとも一方の記憶部によって実現される。音声認識辞書２２及び語句リスト２５の少なくとも一部は、例えば、通信装置９４を介して接続されるネットワーク上の記憶部により実現されてもよい。

各端末装置１０も、例えば、図４に示すようなコンピュータ９０により実現することができる。すなわち、端末装置１０の各機能は、例えば、演算装置９１が所定のアプリケーションプログラムを実行することによって実現することができる。音声認識辞書１３は、例えば、主記憶装置９２及び外部記憶装置９３の少なくとも一方の記憶部によって実現される。

図５は、端末装置の音声認識処理および新規語句送信処理の一例を示すフローチャートである。本フローチャートは、音声データの入力及びその音声認識処理が実行された後の処理を示している。端末装置１０と音声認識サーバ２０の通信は確立されているものとする。

まず、認識結果取得部１５は、入力された音声データの音声認識結果を取得したか否かを判定する（ステップＳ１０１）。具体的には、認識結果取得部１５は、音声認識部１２及び音声認識サーバ２０のそれぞれから認識結果を取得したか否かを判定する。２つの認識結果を取得していないと判定した場合（ステップＳ１０１：ＮＯ）、認識結果取得部１５は、ステップＳ１０１の処理を継続する。

２つの認識結果を取得したと判定した場合（ステップＳ１０１：ＹＥＳ）、認識結果取得部１５は、認識結果を選択する（ステップＳ１０２）。具体的には、認識結果取得部１５は、ステップＳ１０１で取得した２つの認識結果うち、各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。信頼度の範囲が最小値０〜最大値１である場合を考える。例えば、音声認識部１２から得られた認識結果が「東京国際空港」（信頼度０．９２）、音声認識サーバ２０から得られた認識結果が「東京国際空港」（信頼度０．９７）の場合は、どちらの認識結果も信頼度が高いが、より信頼度が高い方が選択される。また例えば、音声認識部１２から得られた認識結果が「成田国際空港」（信頼度０．３２）、音声認識サーバ２０から得られた認識結果が「セントレア国際空港」（信頼度０．９４）の場合は、異なる語句の信頼度ではあるが、音声認識部１２の認識結果は誤っている可能性が高いため、信頼度が高い方が選択される。

それから、認識結果取得部１５は、選択した認識結果がキャンセルされたか否かを判定する（ステップＳ１０３）。具体的には、インターフェイス制御部１６は、ステップＳ１０２で選択された認識結果が示す語句（あるいは当該語句に対応する操作コマンド）を、ディスプレイやスピーカを介してユーザに提示するとともに、当該語句（あるいは操作コマンド）を許可するかキャンセルするかの選択を、入力装置を介してユーザから受け付ける。インターフェイス制御部１６は、提示した語句（あるいは操作コマンド）の修正をユーザから受け付けてもよい。

インターフェイス制御部１６がキャンセルの選択を受け付けた場合、認識結果取得部１５は、認識結果がキャンセルされたと判定し（ステップＳ１０３：ＹＥＳ）、処理をステップＳ１０１に戻し、次の音声データに関する処理を実行する。

インターフェイス制御部１６が許可の選択を受け付けた場合、認識結果取得部１５は、認識結果が許可されたと判定し（ステップＳ１０３：ＮＯ）、処理をＳ１０４に進める。このとき、認識結果取得部１５は、ステップＳ１０２で選択されかつステップＳ１０３で許可された認識結果を辞書管理部１７に出力する。ステップＳ１０３で語句が修正された場合には、認識結果取得部１５は、その修正後の認識結果を辞書管理部１７に出力すればよい。なお、ユーザに提示した語句（あるいは操作コマンド）が許可された場合、端末装置１０の処理部（図示せず）は、当該語句（あるいは操作コマンド）に対応付けられた機能を実行してもよい。

それから、辞書管理部１７は、認識語句が音声認識辞書１３に登録済であるか否かを判定する（ステップＳ１０４）。具体的には、辞書管理部１７は、ステップＳ１０３で認識結果取得部１５から出力された認識結果を参照し、当該認識結果が示す語句が音声認識辞書１３（標準辞書及びユーザ辞書１４）に登録されているか否かを判定する。認識語句が音声認識辞書１３に登録済であると判定された場合（ステップＳ１０４：ＹＥＳ）、処理はステップＳ１０１に戻り、認識結果取得部１５は次の音声データに関する処理を実行する。

認識語句が音声認識辞書１３に登録済でないと判定された場合（ステップＳ１０４：ＮＯ）、辞書管理部１７は、当該認識語句をユーザ辞書１４に登録するか否かを判定する（ステップＳ１０５）。具体的には、辞書管理部１７は、同一の認識語句について、ステップＳ１０４で登録されていないと判定した回数を記録する。そして、辞書管理部１７は、当該認識語句の回数が所定閾値を超えた場合に、ユーザ辞書１４に登録すると判定する。このようにすれば、少ない回数しか認識されていない語句（すなわち、使用頻度が低いと推測される語句）が、即座にユーザ辞書１４に登録されてしまうのを避けることができる。

ステップＳ１０５の判定方法は、上述の例に限られない。例えば、辞書管理部１７は、当該認識語句の信頼度を参照してもよい。そして、辞書管理部１７は、当該信頼度が所定閾値より大きい場合に、ユーザ辞書１４に登録すると判定する。このようにすれば、認識の信頼度が低い語句が、ユーザ辞書１４に登録されてしまうのを避けることができる。もちろん、ステップＳ１０５の処理を省略して、辞書管理部１７は、無条件で認識語句をユーザ辞書１４に登録してもよい。

認識語句をユーザ辞書１４に登録しないと判定された場合（ステップＳ１０５：ＮＯ）、処理はステップＳ１０１に戻り、認識結果取得部１５は次の音声データに関する処理を実行する。

認識語句をユーザ辞書１４に登録すると判定した場合（ステップＳ１０５：ＹＥＳ）、辞書管理部１７は、認識語句を新規語句としてユーザ辞書１４に登録する（ステップＳ１０６）。具体的には、辞書管理部１７は、ステップＳ１０３で認識結果取得部１５から出力された認識結果が示す語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、ユーザ辞書１４に登録する。

それから、語句送信部１８は、新規語句を音声認識サーバ２０に送信する（ステップＳ１０７）。具体的には、語句送信部１８は、ステップＳ１０６でユーザ辞書１４に新しく登録された語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、通信制御部１９を介して音声認識サーバ２０に送信（通知）する。ステップＳ１０７の後、処理はステップＳ１０１に戻り、認識結果取得部１５は次の音声データに関する処理を実行する。

図６は、音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。少なくとも１つの端末装置１０と音声認識サーバ２０の通信は確立されているものとする。

まず、語句管理部２３は、新規語句を受信したか否かを判定する（ステップＳ２０１）。具体的には、語句管理部２３は、いずれかの端末装置１０から送信（通知）された新規語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、通信制御部２６を介して受信したか否かを判定する。新規語句を受信していないと判定した場合（ステップＳ２０１：ＮＯ）、語句管理部２３は、ステップＳ２０１の処理を継続する。

新規語句を受信したと判定した場合（ステップＳ２０１：ＹＥＳ）、語句管理部２３は、新規語句が語句リスト２５に登録済であるか否かを判定する（ステップＳ２０２）。具体的には、語句管理部２３は、ステップＳ２０１で受信した新規語句が語句リスト２５に登録されているか否かを判定する。

新規語句が語句リスト２５に登録済でないと判定した場合（ステップＳ２０２：ＮＯ）、語句管理部２３は、当該新規語句を語句リスト２５に登録する（ステップＳ２０３）。具体的には、語句管理部２３は、ステップＳ２０１で受信した新規語句に対応するレコードを生成し、語句リスト２５に追加する。語句管理部２３は、当該新規語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、語句２５ａに設定する。語句管理部２３は、新規語句の属性（位置情報やアーティストの識別子など）を判定し、属性２５ｂに設定する。新規語句の属性は、例えば新規語句をキーワードとして、予め用意されたデータベースやインターネット上を検索することで得ることができる。語句管理部２３は、総登録回数２５ｃに０を設定する。

新規語句が語句リスト２５に登録済であると判定した場合（ステップＳ２０２：ＹＥＳ）、又は、ステップＳ２０３の処理の後、語句管理部２３は、総登録回数をカウントアップする（ステップＳ２０４）。具体的には、語句管理部２３は、ステップＳ２０１で受信した新規語句（配信対象の語句）に対応するレコードの総登録回数２５ｃを１カウントアップする。

それから、語句配信部２４は、総登録回数が所定閾値を超えたか否かを判定する（ステップＳ２０５）。具体的には、語句配信部２４は、ステップＳ２０４でカウントアップした総登録回数２５ｃが、所定閾値を超えたか否かを判定する。総登録回数２５ｃが所定閾値を超えていないと判定された場合（ステップＳ２０５：ＮＯ）、処理はステップＳ２０１に戻り、語句管理部２３は次に受信する新規語句に関する処理を実行する。

総登録回数２５ｃが所定閾値を超えていると判定した場合（ステップＳ２０５：ＹＥＳ）、語句配信部２４は、新規語句を配信する（ステップＳ２０６）。具体的には、語句配信部２４は、予め配信先として登録された端末装置１０のうち、配信対象の語句の送信元の端末装置１０以外の端末装置１０を、配信先として決定する。もちろん、配信対象の語句の送信元の端末装置１０を配信先に含めてもよい。

配信先の決定方法は、上述の例に限られない。語句配信部２４は、当該配信対象の語句の属性２５ｂを参照してもよい。語句配信部２４は、例えば当該語句が施設の名称でありかつ当該属性２５ｂが施設の位置情報である場合、予め配信先として登録された端末装置１０のうち、当該施設の位置情報が示す位置と所定の関係にあるユーザを特定し、当該ユーザの端末装置１０を、配信先として決定する。所定の関係とは、例えば、地図上において当該施設の位置から所定範囲内に居住するユーザや、当該施設の位置する行政区画と同じ行政区画に居住するユーザである。ユーザに関する情報は、予め用意されたデータベースを参照して得ることができる。このようにすれば、配信対象の語句を、その使用頻度が高いあるいは使用される可能性が高いと推測されるユーザの端末装置１０に配信することができる。

また例えば、語句配信部２４は、当該語句が楽曲の名称でありかつ当該属性２５ｂがアーティストの名称等の識別子である場合、予め配信先として登録された端末装置１０のうち、当該アーティストの識別子が示すアーティストと所定の関係にあるユーザを特定し、当該ユーザの端末装置１０を、配信先として決定してもよい。所定の関係とは、例えば、当該アーティストをお気に入りとして登録しているユーザや、当該アーティストの楽曲を保有しているユーザである。ユーザに関する情報は、予め用意されたデータベースを参照して得ることができる。このようにすれば、配信対象の語句を、その使用頻度が高いあるいは使用される可能性が高いと推測されるユーザの端末装置１０に配信することができる。

語句配信部２４は、配信対象の語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、語句リスト２５から取得し、通信制御部２６を介して上記のように決定した配信先の端末装置１０に対して配信する。このように、総登録回数が所定閾値を超える場合に語句を配信することで、各ユーザに使用される可能性が高いと推測される語句が配信される。その後、処理はステップＳ２０１に戻り、語句管理部２３は次に受信する新規語句に関する処理を実行する。

図７は、端末装置の新規語句登録処理の一例を示すフローチャートである。端末装置１０と音声認識サーバ２０の通信は確立されているものとする。

まず、辞書管理部１７は、新規語句を受信したか否かを判定する（ステップＳ１１１）。具体的には、辞書管理部１７は、音声認識サーバ２０から配信された新規語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、通信制御部１９を介して受信したか否かを判定する。新規語句を受信していないと判定した場合（ステップＳ１１１：ＮＯ）、辞書管理部１７は、ステップＳ１１１の処理を継続する。

新規語句を受信したと判定した場合（ステップＳ１１１：ＹＥＳ）、辞書管理部１７は、ステップＳ１１１で受信した新規語句がユーザ辞書１４に登録済であるか否かを判定する（ステップＳ１１２）。新規語句がユーザ辞書１４に登録済であると判定した場合（ステップＳ１１２：ＹＥＳ）、辞書管理部１７は、処理をステップＳ１１１に戻し、次の新規語句に関する処理を実行する。

新規語句がユーザ辞書１４に登録済でないと判定した場合（ステップＳ１１２：ＮＯ）、辞書管理部１７は、新規語句をユーザ辞書１４に登録するか否かを判定する（ステップＳ１１３）。具体的には、辞書管理部１７は、ステップＳ１１１で受信した新規語句に類似する語句が、ユーザ辞書１４に登録済であるか否かを判定する。語句どうしが類似するか否かは、例えば読みデータの類似度を算出してこれに基づいて判定すればよい。そして、辞書管理部１７は、新規語句に類似する語句がユーザ辞書１４に登録済でない場合、新規語句をユーザ辞書１４に登録すると判定する。このようにすれば、新規語句と既に登録済の語句との間で、音声認識の誤りが発生するのを防ぐことができる。もちろん、ステップＳ１１３の処理を省略して、辞書管理部１７は、無条件で新規語句をユーザ辞書１４に登録してもよい。

新規語句をユーザ辞書１４に登録しないと判定した場合（ステップＳ１１３：ＮＯ）、辞書管理部１７は、処理をステップＳ１１１に戻し、次の新規語句に関する処理を実行する。

新規語句をユーザ辞書１４に登録すると判定した場合（ステップＳ１１３：ＹＥＳ）、辞書管理部１７は、新規語句をユーザ辞書１４に登録する（ステップＳ１１４）。具体的には、辞書管理部１７は、ステップＳ１１１で受信した新規語句に関する情報（例えば、当該語句、読みデータ、パラメータを含む）を、ユーザ辞書１４に登録する。そして、辞書管理部１７は、処理をステップＳ１１１に戻し、次の新規語句に関する処理を実行する。

以上、本発明の第１実施形態について説明した。本実施形態によれば、端末装置側の音声認識辞書に語句を効率的に追加してユーザの利便性を向上することができる。

［第２実施形態］
第２実施形態では、語句リスト２５に登録された語句を分類し、この分類に基づいて配信するか否かの条件を決定する。以下、第１実施形態と同様の構成は同一の符号を付して説明を省略し、第１実施形態と異なる構成を中心に説明する。

新規語句として想定される語句には、例えば新しくオープンした施設の名称や新しくリリースされた楽曲の名称などのように新たに作成された語句（原語句）もあれば、原名称の略称、愛称、誤用されている他の名称などの言い換え語句もある。原語句（言い換え語句に対して正式語句と呼んでもよい）については、複数のユーザに使用される可能性が高いため、音声認識サーバ２０から各端末装置１０に配信してユーザ辞書１４に登録させることで、ユーザの利便性が向上する。

しかしながら、言い換え語句は、原語句と比べると、複数のユーザに使用される可能性が低い。ユーザによっては全く使わない可能性もある。そのため、言い換え語句を原語句と同様の条件で配信すると、ユーザ辞書１４の容量を浪費し、却ってユーザの利便性に悪影響を与えるおそれがある。また、音声認識の精度の低下を不必要に発生させるおそれもある。例えば、ある施設の原名称「シアターコクーン」の言い換え名称「コクーンシアター」が、ユーザ辞書１４に登録されたとする。この場合、端末装置１０は、ユーザの発音した「コクーンシティ」を、誤って類似する「コクーンシアター」と認識する可能性が高まってしまう。

そこで、第２実施形態の音声認識サーバ２０は、語句リスト２５に登録された語句を、原語句と言い換え語句に分類し、当該語句を配信するか否かを決定する際に、種類に応じた条件を用いる。

図８は、第２実施形態に係る語句リストのデータ構成の一例を示す図である。語句リスト２５の各レコードは、語句２５ａ、属性２５ｂ、及び総登録回数２５ｃに加え、月別登録回数２５ｄを含む。月別登録回数２５ｄは、語句２５ａが示す語句の月別の登録回数である。月別登録回数２５ｄには、例えば、直近１２ヵ月の各月の登録回数が登録される。もちろん、単位期間は、月に限定されるものでなく、任意の月数、週数、日数などの他の単位期間であってもよい。

図９は、音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。図９のステップＳ２０１〜Ｓ２０３の処理は、図６のステップＳ２０１〜Ｓ２０３の処理と同様なので、説明を省略する。

ステップＳ２０２又はステップＳ２０３の後、語句管理部２３は、登録回数をカウントアップする（ステップＳ２１０）。具体的には、語句管理部２３は、ステップＳ２０１で受信した新規語句（配信対象の語句）に対応するレコードの総登録回数２５ｃを１カウントアップする。また、語句管理部２３は、当該新規語句に対応するレコードの月別登録回数２５ｄのうち、当該新規語句の受信時の月に対応する登録回数を１カウントアップする。

それから、語句配信部２４は、新規語句を分類する（ステップＳ２１１）。本実施形態では、語句配信部２４は、新規語句の月別登録回数２５ｄが示す各月の登録回数の時系列推移に基づいて、新規語句が原語句であるかその言い換え語句であるかを判定する。

例えば、原語句が新しくオープンした施設の名称や新しく発売された楽曲の名称であれば、ある時点から登録回数が増加傾向になると考えられる。一方、当該原語句の言い換え語句の場合、当該言い換え語句を使用するユーザは少ないため、ある時点から登録回数が増加傾向になるとは考えられない。このような性質に基づけば、語句配信部２４は、例えば、新規語句の登録回数の時系列推移のパターンを統計的に分析することで、当該新規語句が原語句であるか言い換え語句であるか、さらに他の種類の語句であるかを判定することができる。

新規語句の種類の判定方法は、上述の例に限られない。例えば、語句配信部２４は、新規語句をキーワードとして、予め用意されたデータベースやインターネット上を検索することで、当該新規語句が原語句であるか言い換え語句であるか、さらには他の種類の語句であるかを判定してもよい。

それから、語句配信部２４は、新規語句の種類が第１の種類であるか否かを判定する（ステップＳ２１２）。具体的には、語句配信部２４は、ステップＳ２１１で分類した新規語句の種類（原語句、言い換え語句、又は他の語句）が、第１の種類（原語句）又は第２の種類（言い換え語句、他の語句）であるかを判定する。

新規語句の種類が第１の種類であると判定した場合（ステップＳ２１２：ＹＥＳ）、語句配信部２４は、総登録回数が第１の閾値を超えたか否かを判定する（ステップＳ２１３）。具体的には、語句配信部２４は、ステップＳ２１０でカウントアップした総登録回数２５ｃが、原語句のための第１の閾値を超えたか否かを判定する。第１の閾値は、例えば、総登録回数が当該閾値を超えた場合は当該原語句が不特定多数のユーザによって使われる可能性がある語句であると推定するための設計値である。総登録回数２５ｃが第１の閾値を超えていないと判定された場合（ステップＳ２１３：ＮＯ）、処理はステップＳ２０１に戻り、語句管理部２３は次に受信する新規語句に関する処理を実行する。

新規語句の種類が第２の種類であると判定した場合（ステップＳ２１２：ＮＯ）、語句配信部２４は、総登録回数が第２の閾値を超えたか否かを判定する（ステップＳ２１４）。具体的には、語句配信部２４は、ステップＳ２１０でカウントアップした総登録回数２５ｃが、言い換え語句又は他の種類の語句のための第２の閾値を超えたか否かを判定する。第２の閾値は、例えば、総登録回数が当該閾値を超えた場合は当該言い換え語句又は他の種類の語句が不特定多数のユーザによって使われる可能性がある語句であると推定するための設計値である。総登録回数２５ｃが第２の閾値を超えていないと判定された場合（ステップＳ２１４：ＮＯ）、処理はステップＳ２０１に戻り、語句管理部２３は次に受信する新規語句に関する処理を実行する。

総登録回数２５ｃが第１の閾値を超えていると判定した場合（ステップＳ２１３：ＹＥＳ）、又は、総登録回数２５ｃが第２の閾値を超えていると判定した場合（ステップＳ２１４：ＹＥＳ）、語句配信部２４は、新規語句を配信する（ステップＳ２１５）。ステップＳ２１５の処理は、図６のステップＳ２０６の処理と同様なので、説明を省略する。

図９のフローでは、語句を２つの種類に分類しているが、例えば、原語句、言い換え語句、及びその他の語句の３つ以上に分類してもよい。また、種類ごとに閾値を用意して、総登録回数を判定してもよい。

以上、本発明の第２実施形態について説明した。本実施形態によれば、言い換え語句を原語句よりも音声認識辞書に登録し難くすることで、音声認識辞書に追加される語句を制御して、辞書の容量の浪費や音声認識の精度の低下を防ぐことができる。

本発明は、上述の実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。実施形態および各変形例を適宜組み合わせることもできる。

ある変形例では、図９のステップＳ２１５において、語句配信部２４は、新規語句の種類（原語句又は言い換え語句）を各端末装置１０に配信してもよい。この場合、新規語句を受信した端末装置１０の辞書管理部１７は、図７のステップＳ１１３において、他の語句と類似であると判定をするための基準を、受信した新規語句が言い換え語句である場合は原語句である場合よりも厳しく設定する。例えば、類似度が所定の閾値を超える場合に類似すると判定する場合は、言い換え語句に用いる閾値を、原語句に用いる閾値よりも高く設定すればよい。このようにすれば、端末装置１０側において、新規語句の種類に応じて、ユーザ辞書１４に登録する条件を決定することができる。各端末装置１０において新規語句の種類に応じて条件を決定する場合は、図９のステップＳ２１２からステップＳ２１４の処理は図６のステップＳ２０５の処理と置き換えてもよい。

他の変形例では、語句送信部１８が新規語句を音声認識サーバ２０に送信するタイミングは、図５のフローチャート内に限られず、別のタイミングであってもよい。またさらに他の変形例では、語句配信部２４が新規語句を端末装置１０に配信するタイミングは、図６及び図９のフローチャート内に限られず、別のタイミングであってもよい。

図１の端末装置１０及び音声認識サーバ２０の構成は、当該これらの装置の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方や名称によって、本発明が制限されることはない。端末装置１０及び音声認識サーバ２０の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。また、各構成要素の処理は、１つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。また、各構成要素の処理又は機能の分担は、本発明の目的及び効果を達成できるのであれば、上述したものに限られない。また、図３及び図８に示すデータ構成は、一例であり、本発明の目的を達成することができるのであれば、図示した例に限定されない。

図５〜７、及び図９で示したフローチャートの処理単位は、端末装置１０及び音声認識サーバ２０の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本発明が制限されることはない。端末装置１０及び音声認識サーバ２０の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、１つの処理単位がさらに多くの処理を含むように分割することもできる。さらに、本発明の目的及び効果を達成できるのであれば、上記のフローチャートの処理順序も、図示した例に限られるものではない。

上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態や変形例の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態や変形例の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部及び処理手段などは、それらの一部又は全部を、プロセッサが各々の機能を実現するプログラムにより実現しても良い。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの記憶装置、又は、ＩＣカード、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリカード、ＤＶＤなどの記憶媒体に置くことができる。なお、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。

本発明は、音声認識システム、音声認識サーバ、端末装置に限らず、語句管理方法、コンピュータ読み取り可能なプログラム等の様々な形態で提供することができる。

１…音声認識システム、１０…端末装置、１１…音声送信部、１２…音声認識部、１３…音声認識辞書、１４…ユーザ辞書、１５…認識結果取得部、１６…インターフェイス制御部、１７…辞書管理部、１８…語句送信部、１９…通信制御部、２０…音声認識サーバ、２１…音声認識部、２２…音声認識辞書、２３…語句管理部、２４…語句配信部、２５…語句リスト、２５ａ…語句、２５ｂ…属性、２５ｃ…総登録回数、２５ｄ…月別登録回数、２６…通信制御部、９０…コンピュータ、９１…演算装置、９２…主記憶装置、９３…外部記憶装置、９４…通信装置、９５…入力装置、９６…出力装置、Ｍ…マイクロフォン、Ｎ…通信ネットワーク

Claims

ユーザの音声データを音声認識する端末装置と、前記端末装置と通信し前記ユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムであって、
前記音声認識サーバは、
前記端末装置と通信するサーバ側通信制御部と、
前記端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記端末装置に送信するサーバ側音声認識部と、
前記サーバ側通信制御部を用いて取得した前記端末装置から送信された前記語句に関する情報と、他の端末装置から送信された語句に関する情報とを、語句リストに登録する語句管理部と、
前記語句リストに登録された語句に関する情報を、前記端末装置及び前記他の端末装置の少なくとも一方に前記サーバ側通信制御部を用いて配信する語句配信部と、を備え、
前記端末装置は、
前記音声認識サーバと通信する端末側通信制御部と、
音声認識するための音声認識辞書を記憶する音声認識辞書記憶部と、
前記ユーザの音声データを前記音声認識辞書記憶部に記憶されている音声認識辞書を用いて音声認識し、その認識結果を得る端末側音声認識部と、
前記ユーザの音声データを、前記端末側通信制御部を用いて前記音声認識サーバに送信する音声送信部と、
前記端末側音声認識部からの認識結果と、前記端末側通信制御部を用いて取得した前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部と、
前記選択された認識結果が示す語句が、前記音声認識辞書記憶部に記憶されている音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録する辞書管理部と、
前記辞書管理部によって前記音声認識辞書に登録された語句に関する情報を、前記端末側通信制御部を用いて前記音声認識サーバに送信する語句送信部と、を備え、
前記辞書管理部は、前記端末側通信制御部を用いて取得した前記音声認識サーバから配信された語句を前記音声認識辞書に登録する
音声認識システム。
請求項１に記載の音声認識システムであって、
前記語句管理部は、前記語句ごとにその登録回数を前記語句リストに記録し、
前記語句配信部は、前記語句をその登録回数に基づいて配信するか否かを決定する
音声認識システム。
請求項１に記載の音声認識システムであって、
前記語句管理部は、前記語句ごとにその登録回数を前記語句リストに記録し、
前記語句配信部は、前記語句の種類を判定し、当該語句の登録回数と前記判定した種類に応じた条件とに基づいて当該語句を配信するか否かを決定する
音声認識システム。
請求項３に記載の音声認識システムであって、
前記語句管理部は、前記語句ごとにその単位期間別の登録回数を前記語句リストに記録し、
前記語句配信部は、前記語句の前記単位期間別の登録回数の時系列推移に基づいて、当該語句の種類を判定する
音声認識システム。
請求項３に記載の音声認識システムであって、
前記語句配信部は、前記語句を正式語句又は言い換え語句に分類する
音声認識システム。
請求項１に記載の音声認識システムであって、
前記語句管理部は、前記語句ごとにその属性を関連付けて前記語句リストに記録し、
前記語句配信部は、前記語句の属性に基づいて当該語句の配信先の端末装置を決定する
音声認識システム。
請求項６に記載の音声認識システムであって、
前記属性は、前記語句に関連する位置情報であり、
前記語句配信部は、前記位置情報が示す位置と所定の関係にあるユーザを特定し、前記特定したユーザの端末装置を前記配信先として決定する
音声認識システム。
請求項６に記載の音声認識システムであって、
前記語句は、楽曲の名称であり、
前記属性は、前記楽曲に関連するアーティストの識別子であり、
前記語句配信部は、前記アーティストの識別子が示すアーティストと所定の関係にあるユーザを特定し、前記特定したユーザの端末装置を前記配信先として決定する
音声認識システム。
請求項１に記載の音声認識システムであって、
前記辞書管理部は、前記配信された語句と、前記音声認識辞書に登録されている各語句との類似度を算出し、前記類似度に基づいて前記配信された語句を登録するか否かを決定する
音声認識システム。
各ユーザの音声データを音声認識する複数の端末装置と通信する音声認識サーバであって、
前記各端末装置と通信するサーバ側通信制御部と、
前記各端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記音声データの送信元の前記端末装置に送信するサーバ側音声認識部と、
前記各端末装置の音声認識辞書に前記認識結果に基づいて登録された語句に関する情報を前記サーバ側通信制御部を用いて受信し、前記語句に関する情報を語句リストに登録する語句管理部と、
前記語句リストに登録された語句に関する情報を、前記複数の端末装置のうち１つ以上の端末装置に前記サーバ側通信制御部を用いて配信する語句配信部と
を備える音声認識サーバ。
ユーザの音声データを音声認識する音声認識サーバと通信する端末装置であって、
前記音声認識サーバと通信する端末側通信制御部と、
音声認識するための音声認識辞書を記憶する音声認識辞書記憶部と、
前記ユーザの音声データを前記音声認識辞書記憶部に記憶されている音声認識辞書を用いて音声認識し、その認識結果を得る端末側音声認識部と、
前記ユーザの音声データを、前記端末側通信制御部を用いて前記音声認識サーバに送信する音声送信部と、
前記端末側音声認識部からの認識結果と、前記端末側通信制御部を用いて取得した前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部と、
前記選択された認識結果が示す語句が、前記音声認識辞書記憶部に記憶されている音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録する辞書管理部と、
前記辞書管理部によって前記音声認識辞書に登録された語句に関する情報を、前記端末側通信制御部を用いて前記音声認識サーバに送信する語句送信部と、を備え、
前記辞書管理部は、前記端末側通信制御部を用いて前記音声認識サーバから配信された語句を前記音声認識辞書に登録する
端末装置。
ユーザの音声データを音声認識する端末装置と、前記端末装置と通信し前記ユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムの語句管理方法であって、
前記端末装置が、前記端末装置が備える音声認識辞書を用いて前記ユーザの音声データを音声認識し、その認識結果を得るステップと、
前記端末装置が、前記ユーザの音声データを、前記音声認識サーバに送信するステップと、
前記音声認識サーバが、前記端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記端末装置に送信するステップと、
前記端末装置が、前記端末装置からの認識結果と、前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択するステップと、
前記端末装置が、前記選択された認識結果が示す語句が、前記音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録するステップと、
前記端末装置が、前記登録ステップで前記音声認識辞書に登録された語句に関する情報を、前記音声認識サーバに送信するステップと、
前記音声認識サーバが、前記端末装置から送信された前記語句に関する情報と、他の端末装置から送信された語句に関する情報とを、語句リストに登録するステップと、
前記音声認識サーバが、前記語句リストに登録された語句に関する情報を、前記端末装置及び前記他の端末装置の少なくとも一方に配信するステップと、
前記端末装置が、前記音声認識サーバから配信された語句を前記音声認識辞書に登録するステップと
を含む語句管理方法。