JP2018132626A - 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 - Google Patents

音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 Download PDF

Info

Publication number
JP2018132626A
JP2018132626A JP2017025725A JP2017025725A JP2018132626A JP 2018132626 A JP2018132626 A JP 2018132626A JP 2017025725 A JP2017025725 A JP 2017025725A JP 2017025725 A JP2017025725 A JP 2017025725A JP 2018132626 A JP2018132626 A JP 2018132626A
Authority
JP
Japan
Prior art keywords
phrase
terminal device
dictionary
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017025725A
Other languages
English (en)
Other versions
JP6833203B2 (ja
Inventor
浩明 小窪
Hiroaki Kokubo
浩明 小窪
松本 卓也
Takuya Matsumoto
卓也 松本
則男 度會
Norio Watarai
則男 度會
睿 張
Toru Cho
睿 張
和憲 中山
Kazunori Nakayama
和憲 中山
本間 健
Takeshi Honma
健 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP2017025725A priority Critical patent/JP6833203B2/ja
Publication of JP2018132626A publication Critical patent/JP2018132626A/ja
Application granted granted Critical
Publication of JP6833203B2 publication Critical patent/JP6833203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】端末装置側の音声辞書に語句を効率的に追加し、ユーザの利便性を向上する。【解決手段】各ユーザの音声データを音声認識する複数の端末装置と通信する音声認識サーバであって、前記各端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記音声データの送信元の前記端末装置に送信する音声認識部と、前記各端末装置の音声認識辞書に前記認識結果に基づいて登録された語句に関する情報を受信し、前記語句に関する情報を語句リストに登録する語句管理部と、前記語句リストに登録された語句に関する情報を、前記複数の端末装置のうち1つ以上の端末装置に配信する語句配信部とを備える。【選択図】図1

Description

本発明は、音声認識システム、音声認識サーバ、端末装置、及び語句管理方法に関する。
近年、スマートフォンやカーナビゲーション等の端末装置には、サーバ側に搭載された音声認識エンジンを使用した音声入力機能を有するものがある。サーバ側の音声認識エンジンは、端末装置に比べて豊富な計算機リソース(例えば、演算処理速度や記憶容量)を活用することができる。これにより、サーバ側の音声認識エンジンは、幅広い語彙を認識できる可能性を持っており、また、さまざまな音環境で入力された音声を精度よく認識できる可能性を持っている。
しかし、サーバ側の音声認識エンジンは、過疎地やトンネル内などの端末装置とデータ通信を確立できない環境では、使用することができない。そこで、端末装置側にも音声認識エンジンを搭載し、状況に応じて音声認識処理を端末装置側又はサーバ側に振り分けるように、システムを構成することもできる。
特許文献1には、「振り分け判定部102は、解析した入力モードが該当項目選択モードであるか否かを判定する(ステップ104)。現在の入力モードが該当項目選択モードである場合には肯定判断が行われる。次に、車載装置1に内蔵された音声認識処理部100は、マイクロホン22によって集音された利用者の音声に対して音声認識処理を行う(ステップ106)。」、「一方、現在の入力モードがテキスト入力モードである場合にはステップ104の判定において否定判断が行われる。次に、音声データ送信部56は、マイクロホン22から入力されて圧縮処理部26によって圧縮処理された音声データをネットワーク3を介してサーバ2に向けて送信して、サーバ2内の音声認識処理部200による音声認識処理を依頼する(ステップ110)。」と記載されている。
特開2013−88477号公報
端末装置に搭載される音声認識エンジンは、当該端末装置の計算リソースの制約のため、サーバ側の音声認識エンジンに比べて、認識できる語句が少ない。一方、サーバ側の音声認識エンジンは、端末装置と比べて自由にメンテナンス可能であることから、語句を新たに音声認識辞書に追加することが容易である。そのため、サーバ側の音声認識エンジンでは正しく認識できるものの、端末装置側の音声認識エンジンでは認識できない語句が多く存在する。このような語句は、サーバ側の音声認識エンジンを使用することができない環境では、端末装置によって認識されず、端末装置のユーザは不便を強いられることになる。
ここで、サーバ側の音声認識エンジンで認識された語句のうちユーザの使用頻度が高い語句を、そのユーザの端末装置側の音声認識辞書に追加すれば、端末装置側で音声認識可能な語彙を増やすことができる。しかしながら、そのユーザが使用したことがない又は使用頻度が低い語句は、音声認識辞書に追加されない又は追加が遅れる。そのため、新しくオープンした店舗の名称などの新しい語句については、ユーザが使用する可能性があってもユーザが使用しない限り音声認識辞書に追加されず、ユーザの利便性を向上できない。
本発明は、上記の問題に鑑みてなされたものであり、好適な音声認識システム、音声認識サーバ、端末装置、及び語句管理方法を提供することを目的とする。
本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。
本発明の一態様は、ユーザの音声データを音声認識する端末装置と、前記端末装置と通信し前記ユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムである。前記音声認識サーバは、前記端末装置と通信するサーバ側通信制御部と、前記端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記端末装置に送信するサーバ側音声認識部と、前記サーバ側通信制御部を用いて取得した前記端末装置から送信された前記語句に関する情報と、他の端末装置から送信された語句に関する情報とを、語句リストに登録する語句管理部と、前記語句リストに登録された語句に関する情報を、前記端末装置及び前記他の端末装置の少なくとも一方に前記サーバ側通信制御部を用いて配信する語句配信部と、を備える。前記端末装置は、前記音声認識サーバと通信する端末側通信制御部と、音声認識するための音声認識辞書を記憶する音声認識辞書記憶部と、前記ユーザの音声データを前記音声認識辞書記憶部に記憶されている音声認識辞書を用いて音声認識し、その認識結果を得る端末側音声認識部と、前記ユーザの音声データを、前記端末側通信制御部を用いて前記音声認識サーバに送信する音声送信部と、前記端末側音声認識部からの認識結果と、前記端末側通信制御部を用いて取得した前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部と、前記選択された認識結果が示す語句が、前記音声認識辞書記憶部に記憶されている音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録する辞書管理部と、前記辞書管理部によって前記音声認識辞書に登録された語句に関する情報を、前記端末側通信制御部を用いて前記音声認識サーバに送信する語句送信部と、を備える。前記辞書管理部は、前記端末側通信制御部を用いて取得した前記音声認識サーバから配信された語句を前記音声認識辞書に登録する。
本発明によれば、好適な音声認識システム、音声認識サーバ、端末装置、及び語句管理方法を提供することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の第1実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。 音声認識システムにより実行される処理の概要を示すシーケンス図である。 語句リストのデータ構成の一例を示す図である。 音声認識サーバを実現するコンピュータのハードウェア構成の一例を示す図である。 端末装置の音声認識処理および新規語句送信処理の一例を示すフローチャートである。 音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。 端末装置の新規語句登録処理の一例を示すフローチャートである。 本発明の第2実施形態に係る語句リストのデータ構成の一例を示す図である。 音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。
以下、本発明の複数の実施形態について、図面を参照して説明する。
[第1実施形態]
図1は、第1実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。
音声認識システム1は、複数の端末装置10(図1では1台のみを図示)と、音声認識サーバ20とを含む。各端末装置10と音声認識サーバ20は、例えば携帯電話網、インターネット等の通信ネットワークNを介して、互いに通信することができる。
端末装置10は、例えばスマートフォン、フィーチャーフォン、タブレットコンピュータ、PC(Personal Computer)、ウェアラブルデバイス、車載カーナビゲーション機、車載オーディオ機器、車載ECU(Electronic Control Unit)などの情報通信機器である。音声認識サーバ20は、例えばサーバコンピュータなどの情報通信機器である。
端末装置10は、音声認識機能を有する。また、端末装置10は、音声認識辞書に新しく語句を登録する機能を有する。音声認識サーバ20は、音声認識機能を有する。また、音声認識サーバ20は、各端末装置10から送信された語句を、各端末装置10に配信する機能を有する。図2を参照して、この音声認識システム1の処理の概要を説明する。
図2は、音声認識システムにより実行される処理の概要を示すシーケンス図である。
ある端末装置10は、ユーザの音声データの入力を受け付けて(ステップS1)、当該音声データを音声認識サーバ20に送信する(ステップS2)。端末装置10は、入力された音声データに対して音声認識処理を実行して、認識結果を得る(ステップS3)。一方、音声認識サーバ20は、端末装置10から送信された音声データに対して音声認識処理を実行して、認識結果を得て(ステップS4)、認識結果を音声データの送信元の端末装置10に送信する(ステップS5)。
ユーザの入力音声データに対して2つの認識結果を取得した端末装置10は、いずれの認識結果を採用するかを判定する(ステップS6)。そして、端末装置10は、採用した認識結果が示す認識語句が、自身の備える音声認識辞書に登録されていない場合には、当該認識語句を音声認識辞書に登録する(ステップS7)。このようにして、新規語句が端末装置10の音声認識辞書に追加される。
新規語句を音声認識辞書に登録した端末装置10は、当該新規語句を音声認識サーバ20に送信(通知)する(ステップS8)。音声認識サーバ20は、端末装置10から通知された新規語句を、自身の備える語句リストに登録する(ステップS9)。ステップS1〜S9の処理は、それぞれの端末装置10と音声認識サーバ20との間で実行される。つまり、語句リストには、複数の端末装置10から通知された新規語句が登録される。
音声認識サーバ20は、語句リストに登録した新規語句を、当該新規語句を通知した端末装置10以外の1つ以上の端末装置10に対して配信する(ステップS10)。ここで、音声認識サーバ20は、所定の規則に従って、例えば複数のユーザの間で使用頻度が高い新規語句を、配信対象の語句として選択する。
配信された新規語句を受信した各端末装置10は、受信した新規語句が、自身の備える音声認識辞書に登録されていない場合には、当該新規語句を音声認識辞書に登録する(ステップS11)。このようにして、ステップS7において端末装置10の音声認識辞書に追加された新規語句が、ステップS11において他の端末装置10の音声認識辞書にも追加される。
端末装置10は、音声認識サーバ20と比べて、計算機リソース(例えば、演算処理速度や記憶容量)が少ない。そのため、端末装置10における音声認識機能は、音声認識辞書に登録されている語句数が少ないことや処理速度が遅いことにより、認識能力が低く制限される。一方で、音声認識サーバ20における音声認識機能は、音声認識辞書に登録されている語句数が多いことや処理速度が速いことにより、認識能力が高い。ただし、端末装置10と音声認識サーバ20の通信を確立できない場合には、音声認識サーバ20における音声認識機能を利用できないというデメリットはある。
そこで、本実施形態の音声認識システム1では、音声認識サーバ20が各端末装置10から新規語句を収集するとともに、収集した新規語句を各端末装置10に配信して、各端末装置10の音声認識辞書に登録させる。これにより、各端末装置10の音声認識辞書に、各ユーザによって使用される可能性の高い語句を効率的に追加し、音声認識サーバ20と通信を確立できない環境でも、ユーザの利便性を向上することができる。
図1の説明に戻り、端末装置10及び音声認識サーバ20の機能についてより詳細に説明する。
端末装置10は、音声送信部11と、音声認識部12と、音声認識辞書13(ユーザ辞書14を含む)と、認識結果取得部15と、インターフェイス制御部16と、辞書管理部17と、語句送信部18と、通信制御部19とを有する。また、端末装置10は、内蔵あるいは外部に接続されるマイクロフォンMを有する。
音声送信部11は、マイクロフォンMを介してユーザの音声データの入力を受け付ける。また、音声送信部11は、入力された音声データを、通信制御部19を介して音声認識サーバ20に送信する。なお、音声送信部11は、送信する音声データに圧縮処理を施してデータサイズを小さくしてもよい。
音声認識部12は、ユーザの音声データの入力をマイクロフォンMを介して受け付け、その音声データの音声認識処理を実行し、認識結果として例えば認識された語句(文字列)とその信頼度を出力する。具体的には、音声認識部12は、音声認識辞書13を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する。また、音声認識部12は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。
音声認識辞書13は、予め登録された複数の語句を含む標準辞書(図示せず)を有する。また、音声認識辞書13は、端末装置10のユーザにより使用されたあるいは他の端末装置10のユーザにより使用された新規語句を登録するためのユーザ辞書14を有する。標準辞書及びユーザ辞書14には、語句の文字列とともにその語句の読みデータやパラメータが登録されてもよい。本実施形態では、音声認識部12は、標準辞書及びユーザ辞書14を用いて音声認識処理を実行する。
認識結果取得部15は、音声認識部12から出力される認識結果を取得する。また、認識結果取得部15は、音声送信部11により送信された音声データの認識結果を、通信制御部19を介して音声認識サーバ20から取得する。また、認識結果取得部15は、取得した2つの認識結果のいずれかを選択し、辞書管理部17に出力する。認識結果取得部15は、例えば各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。
なお、認識結果取得部15は、選択した認識結果をインターフェイス制御部16を介してユーザに提示し、当該認識結果を許可するかキャンセルするかを、インターフェイス制御部16を介してユーザから受け付けてもよい。
インターフェイス制御部16は、端末装置10の備えるディスプレイやスピーカ等の出力装置(図示せず)を介してユーザに情報を出力する。また、インターフェイス制御部16は、端末装置10の備えるソフトキーやハードキー等の入力装置(図示せず)を介してユーザからの情報の入力を受け付ける。
辞書管理部17は、ユーザ辞書14の内容を管理する。具体的には、辞書管理部17は、認識結果取得部15から出力された認識結果を参照し、当該認識結果が示す語句が音声認識辞書13(標準辞書及びユーザ辞書14)に登録されているか否かを判定する。認識語句が音声認識辞書13に登録されていない場合、辞書管理部17は、当該語句を新規語句としてユーザ辞書14に登録する。
また、辞書管理部17は、音声認識サーバ20から配信された新規語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、通信制御部19を介して受信する。辞書管理部17は、当該新規語句が音声認識辞書13(標準辞書及びユーザ辞書14)に登録されているか否かを判定する。当該新規語句が音声認識辞書13に登録されていない場合、辞書管理部17は、当該新規語句をユーザ辞書14に登録する。
語句送信部18は、認識結果取得部15により取得され、辞書管理部17によりユーザ辞書14に新しく登録された語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、通信制御部19を介して音声認識サーバ20に送信(通知)する。
通信制御部19は、端末装置10の備える通信装置(図示せず)を介して音声認識サーバ20と通信し、他の機能(音声送信部11、語句送信部18等)からを出力された情報を音声認識サーバ20に送信したり、音声認識サーバ20から受信した情報を他の機能(認識結果取得部15、辞書管理部17等)に出力したりする。もちろん、音声認識サーバ20以外の機器と通信してもよい。
音声認識サーバ20は、音声認識部21と、音声認識辞書22と、語句管理部23と、語句配信部24と、語句リスト25と、通信制御部26とを有する。音声認識部21、音声認識辞書22、及び通信制御部26を含む部分を音声認識サーバとして構築し、語句管理部23、語句配信部24、語句リスト25、及び通信制御部26を含む部分を語句管理サーバとして構築してもよい。
音声認識部21は、各端末装置10のユーザの音声データを、通信制御部26を介して受信し、その音声データの音声認識処理を実行し、認識結果として例えば認識された語句(文字列)とその信頼度を出力する。具体的には、音声認識部21は、音声認識辞書22を参照して、その中に登録されている語句の中から、入力された音声に最も類似する語句あるいは複数の語句により表現される語句を推定する。また、音声認識部21は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。なお、音声認識部21は、得られた認識結果を、対応する音声データの送信元の端末装置10に通信制御部26を介して送信する。
音声認識辞書22は、音声認識部21により参照される。音声認識辞書22は、予め複数の語句が登録されている。音声認識辞書22には、例えば管理者によってあるいはプログラムによって自動的に新しい語句が追加される。また、音声認識辞書22に登録されている語句は、例えば管理者によってあるいはプログラムによって自動的に更新される。
語句管理部23は、語句リスト25の内容を管理する。具体的には、語句管理部23は、各端末装置10から送信(通知)された新規語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、通信制御部26を介して受信する。語句管理部23は、受信した新規語句が語句リスト25に登録されているか否かを判定する。当該新規語句が語句リスト25に登録されていない場合、語句管理部23は、当該新規語句を語句リスト25に登録し、登録回数を1に設定する。当該新規語句が既に語句リスト25に登録されている場合、語句管理部23は、当該新規語句の登録回数を1カウントアップする。
語句配信部24は、語句リスト25に登録されている各語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、通信制御部26を介して各端末装置10に配信する。具体的には、語句配信部24は、配信対象の語句の登録回数に基づいて、当該語句を配信するか否かを決定する。例えば、語句配信部24は、当該登録回数が所定の閾値を超えているか否かを判定し、当該閾値を超えている場合に配信すると決定する。当該所定閾値は、例えば、登録回数が当該閾値を超えた場合は当該語句が不特定多数のユーザによって頻繁に使われる可能性がある語句であると推定するための設計値である。
語句リスト25は、各端末装置10から通知された新規語句のリストであり、例えば図3に示すように構成される。
図3は、語句リストのデータ構成の一例を示す図である。語句リスト25は、語句25aと、属性25bと、総登録回数25cとを関連付けたレコードを、語句ごとに格納することができる。語句25aは、語句に関する情報であり、例えば、当該語句、読みデータ、パラメータを含む。属性25bは、語句25aが示す語句の属性であり、例えば、当該語句が施設の名称である場合はその位置情報(例えば所在地や地図上の座標情報など)であり、当該語句が楽曲の名称である場合はその楽曲に関連するアーティストの名称等の識別子である。図3の例では、施設の名称とその所在地を含むレコードが示されている。総登録回数25cは、語句25aが示す語句の総登録回数である。総登録回数25cは、当該語句を新規語句として通知したユーザの数(端末装置10の数)に相当する。
図1の説明に戻り、通信制御部26は、音声認識サーバ20の備える通信装置(図示せず)を介して各端末装置10と通信し、他の機能(音声認識部21、語句配信部24等)からを出力された情報を各端末装置10に送信したり、各端末装置10から受信した情報を他の機能(音声認識部21、語句管理部23等)に出力したりする。もちろん、端末装置10以外の機器と通信してもよい。
図4は、音声認識サーバを実現するコンピュータのハードウェア構成の一例を示す図である。音声認識サーバ20は、例えば、図4に示すようなコンピュータ90により実現することができる。音声認識サーバ20は、複数のコンピュータ90により構成されてもよい。
コンピュータ90は、例えば、演算装置91と、主記憶装置92と、外部記憶装置93と、通信装置94と、入力装置95と、出力装置96とを含む。
演算装置91は、例えば、CPU(Central Processing Unit)などの装置である。主記憶装置92は、例えば、RAM(Random Access Memory)などの記憶装置である。外部記憶装置93は、例えば、ハードディスクやSSD(Solid State Drive)、あるいはフラッシュROM(Read Only Memory)などの記憶装置である。
通信装置94は、ネットワークケーブルを介して有線通信を行う通信装置、アンテナを介して無線通信を行う通信装置を含む、情報を送受信する装置である。入力装置95は、キーボードやマウスなどのポインティングデバイス、タッチパネル、マイクロフォンなどを含む、入力情報を受け付ける装置である。出力装置96は、ディスプレイ、プリンタ、スピーカなどを含む、出力情報を出力する装置である。
音声認識サーバ20の各機能は、例えば、演算装置91が所定のアプリケーションプログラムを実行することによって実現することができる。このアプリケーションプログラムは、例えば、主記憶装置92又は外部記憶装置93内に記憶され、実行にあたって主記憶装置92上にロードされ、演算装置91によって実行される。音声認識辞書22及び語句リスト25は、例えば、主記憶装置92及び外部記憶装置93の少なくとも一方の記憶部によって実現される。音声認識辞書22及び語句リスト25の少なくとも一部は、例えば、通信装置94を介して接続されるネットワーク上の記憶部により実現されてもよい。
各端末装置10も、例えば、図4に示すようなコンピュータ90により実現することができる。すなわち、端末装置10の各機能は、例えば、演算装置91が所定のアプリケーションプログラムを実行することによって実現することができる。音声認識辞書13は、例えば、主記憶装置92及び外部記憶装置93の少なくとも一方の記憶部によって実現される。
図5は、端末装置の音声認識処理および新規語句送信処理の一例を示すフローチャートである。本フローチャートは、音声データの入力及びその音声認識処理が実行された後の処理を示している。端末装置10と音声認識サーバ20の通信は確立されているものとする。
まず、認識結果取得部15は、入力された音声データの音声認識結果を取得したか否かを判定する(ステップS101)。具体的には、認識結果取得部15は、音声認識部12及び音声認識サーバ20のそれぞれから認識結果を取得したか否かを判定する。2つの認識結果を取得していないと判定した場合(ステップS101:NO)、認識結果取得部15は、ステップS101の処理を継続する。
2つの認識結果を取得したと判定した場合(ステップS101:YES)、認識結果取得部15は、認識結果を選択する(ステップS102)。具体的には、認識結果取得部15は、ステップS101で取得した2つの認識結果うち、各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。信頼度の範囲が最小値0〜最大値1である場合を考える。例えば、音声認識部12から得られた認識結果が「東京国際空港」(信頼度0.92)、音声認識サーバ20から得られた認識結果が「東京国際空港」(信頼度0.97)の場合は、どちらの認識結果も信頼度が高いが、より信頼度が高い方が選択される。また例えば、音声認識部12から得られた認識結果が「成田国際空港」(信頼度0.32)、音声認識サーバ20から得られた認識結果が「セントレア国際空港」(信頼度0.94)の場合は、異なる語句の信頼度ではあるが、音声認識部12の認識結果は誤っている可能性が高いため、信頼度が高い方が選択される。
それから、認識結果取得部15は、選択した認識結果がキャンセルされたか否かを判定する(ステップS103)。具体的には、インターフェイス制御部16は、ステップS102で選択された認識結果が示す語句(あるいは当該語句に対応する操作コマンド)を、ディスプレイやスピーカを介してユーザに提示するとともに、当該語句(あるいは操作コマンド)を許可するかキャンセルするかの選択を、入力装置を介してユーザから受け付ける。インターフェイス制御部16は、提示した語句(あるいは操作コマンド)の修正をユーザから受け付けてもよい。
インターフェイス制御部16がキャンセルの選択を受け付けた場合、認識結果取得部15は、認識結果がキャンセルされたと判定し(ステップS103:YES)、処理をステップS101に戻し、次の音声データに関する処理を実行する。
インターフェイス制御部16が許可の選択を受け付けた場合、認識結果取得部15は、認識結果が許可されたと判定し(ステップS103:NO)、処理をS104に進める。このとき、認識結果取得部15は、ステップS102で選択されかつステップS103で許可された認識結果を辞書管理部17に出力する。ステップS103で語句が修正された場合には、認識結果取得部15は、その修正後の認識結果を辞書管理部17に出力すればよい。なお、ユーザに提示した語句(あるいは操作コマンド)が許可された場合、端末装置10の処理部(図示せず)は、当該語句(あるいは操作コマンド)に対応付けられた機能を実行してもよい。
それから、辞書管理部17は、認識語句が音声認識辞書13に登録済であるか否かを判定する(ステップS104)。具体的には、辞書管理部17は、ステップS103で認識結果取得部15から出力された認識結果を参照し、当該認識結果が示す語句が音声認識辞書13(標準辞書及びユーザ辞書14)に登録されているか否かを判定する。認識語句が音声認識辞書13に登録済であると判定された場合(ステップS104:YES)、処理はステップS101に戻り、認識結果取得部15は次の音声データに関する処理を実行する。
認識語句が音声認識辞書13に登録済でないと判定された場合(ステップS104:NO)、辞書管理部17は、当該認識語句をユーザ辞書14に登録するか否かを判定する(ステップS105)。具体的には、辞書管理部17は、同一の認識語句について、ステップS104で登録されていないと判定した回数を記録する。そして、辞書管理部17は、当該認識語句の回数が所定閾値を超えた場合に、ユーザ辞書14に登録すると判定する。このようにすれば、少ない回数しか認識されていない語句(すなわち、使用頻度が低いと推測される語句)が、即座にユーザ辞書14に登録されてしまうのを避けることができる。
ステップS105の判定方法は、上述の例に限られない。例えば、辞書管理部17は、当該認識語句の信頼度を参照してもよい。そして、辞書管理部17は、当該信頼度が所定閾値より大きい場合に、ユーザ辞書14に登録すると判定する。このようにすれば、認識の信頼度が低い語句が、ユーザ辞書14に登録されてしまうのを避けることができる。もちろん、ステップS105の処理を省略して、辞書管理部17は、無条件で認識語句をユーザ辞書14に登録してもよい。
認識語句をユーザ辞書14に登録しないと判定された場合(ステップS105:NO)、処理はステップS101に戻り、認識結果取得部15は次の音声データに関する処理を実行する。
認識語句をユーザ辞書14に登録すると判定した場合(ステップS105:YES)、辞書管理部17は、認識語句を新規語句としてユーザ辞書14に登録する(ステップS106)。具体的には、辞書管理部17は、ステップS103で認識結果取得部15から出力された認識結果が示す語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、ユーザ辞書14に登録する。
それから、語句送信部18は、新規語句を音声認識サーバ20に送信する(ステップS107)。具体的には、語句送信部18は、ステップS106でユーザ辞書14に新しく登録された語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、通信制御部19を介して音声認識サーバ20に送信(通知)する。ステップS107の後、処理はステップS101に戻り、認識結果取得部15は次の音声データに関する処理を実行する。
図6は、音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。少なくとも1つの端末装置10と音声認識サーバ20の通信は確立されているものとする。
まず、語句管理部23は、新規語句を受信したか否かを判定する(ステップS201)。具体的には、語句管理部23は、いずれかの端末装置10から送信(通知)された新規語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、通信制御部26を介して受信したか否かを判定する。新規語句を受信していないと判定した場合(ステップS201:NO)、語句管理部23は、ステップS201の処理を継続する。
新規語句を受信したと判定した場合(ステップS201:YES)、語句管理部23は、新規語句が語句リスト25に登録済であるか否かを判定する(ステップS202)。具体的には、語句管理部23は、ステップS201で受信した新規語句が語句リスト25に登録されているか否かを判定する。
新規語句が語句リスト25に登録済でないと判定した場合(ステップS202:NO)、語句管理部23は、当該新規語句を語句リスト25に登録する(ステップS203)。具体的には、語句管理部23は、ステップS201で受信した新規語句に対応するレコードを生成し、語句リスト25に追加する。語句管理部23は、当該新規語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、語句25aに設定する。語句管理部23は、新規語句の属性(位置情報やアーティストの識別子など)を判定し、属性25bに設定する。新規語句の属性は、例えば新規語句をキーワードとして、予め用意されたデータベースやインターネット上を検索することで得ることができる。語句管理部23は、総登録回数25cに0を設定する。
新規語句が語句リスト25に登録済であると判定した場合(ステップS202:YES)、又は、ステップS203の処理の後、語句管理部23は、総登録回数をカウントアップする(ステップS204)。具体的には、語句管理部23は、ステップS201で受信した新規語句(配信対象の語句)に対応するレコードの総登録回数25cを1カウントアップする。
それから、語句配信部24は、総登録回数が所定閾値を超えたか否かを判定する(ステップS205)。具体的には、語句配信部24は、ステップS204でカウントアップした総登録回数25cが、所定閾値を超えたか否かを判定する。総登録回数25cが所定閾値を超えていないと判定された場合(ステップS205:NO)、処理はステップS201に戻り、語句管理部23は次に受信する新規語句に関する処理を実行する。
総登録回数25cが所定閾値を超えていると判定した場合(ステップS205:YES)、語句配信部24は、新規語句を配信する(ステップS206)。具体的には、語句配信部24は、予め配信先として登録された端末装置10のうち、配信対象の語句の送信元の端末装置10以外の端末装置10を、配信先として決定する。もちろん、配信対象の語句の送信元の端末装置10を配信先に含めてもよい。
配信先の決定方法は、上述の例に限られない。語句配信部24は、当該配信対象の語句の属性25bを参照してもよい。語句配信部24は、例えば当該語句が施設の名称でありかつ当該属性25bが施設の位置情報である場合、予め配信先として登録された端末装置10のうち、当該施設の位置情報が示す位置と所定の関係にあるユーザを特定し、当該ユーザの端末装置10を、配信先として決定する。所定の関係とは、例えば、地図上において当該施設の位置から所定範囲内に居住するユーザや、当該施設の位置する行政区画と同じ行政区画に居住するユーザである。ユーザに関する情報は、予め用意されたデータベースを参照して得ることができる。このようにすれば、配信対象の語句を、その使用頻度が高いあるいは使用される可能性が高いと推測されるユーザの端末装置10に配信することができる。
また例えば、語句配信部24は、当該語句が楽曲の名称でありかつ当該属性25bがアーティストの名称等の識別子である場合、予め配信先として登録された端末装置10のうち、当該アーティストの識別子が示すアーティストと所定の関係にあるユーザを特定し、当該ユーザの端末装置10を、配信先として決定してもよい。所定の関係とは、例えば、当該アーティストをお気に入りとして登録しているユーザや、当該アーティストの楽曲を保有しているユーザである。ユーザに関する情報は、予め用意されたデータベースを参照して得ることができる。このようにすれば、配信対象の語句を、その使用頻度が高いあるいは使用される可能性が高いと推測されるユーザの端末装置10に配信することができる。
語句配信部24は、配信対象の語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、語句リスト25から取得し、通信制御部26を介して上記のように決定した配信先の端末装置10に対して配信する。このように、総登録回数が所定閾値を超える場合に語句を配信することで、各ユーザに使用される可能性が高いと推測される語句が配信される。その後、処理はステップS201に戻り、語句管理部23は次に受信する新規語句に関する処理を実行する。
図7は、端末装置の新規語句登録処理の一例を示すフローチャートである。端末装置10と音声認識サーバ20の通信は確立されているものとする。
まず、辞書管理部17は、新規語句を受信したか否かを判定する(ステップS111)。具体的には、辞書管理部17は、音声認識サーバ20から配信された新規語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、通信制御部19を介して受信したか否かを判定する。新規語句を受信していないと判定した場合(ステップS111:NO)、辞書管理部17は、ステップS111の処理を継続する。
新規語句を受信したと判定した場合(ステップS111:YES)、辞書管理部17は、ステップS111で受信した新規語句がユーザ辞書14に登録済であるか否かを判定する(ステップS112)。新規語句がユーザ辞書14に登録済であると判定した場合(ステップS112:YES)、辞書管理部17は、処理をステップS111に戻し、次の新規語句に関する処理を実行する。
新規語句がユーザ辞書14に登録済でないと判定した場合(ステップS112:NO)、辞書管理部17は、新規語句をユーザ辞書14に登録するか否かを判定する(ステップS113)。具体的には、辞書管理部17は、ステップS111で受信した新規語句に類似する語句が、ユーザ辞書14に登録済であるか否かを判定する。語句どうしが類似するか否かは、例えば読みデータの類似度を算出してこれに基づいて判定すればよい。そして、辞書管理部17は、新規語句に類似する語句がユーザ辞書14に登録済でない場合、新規語句をユーザ辞書14に登録すると判定する。このようにすれば、新規語句と既に登録済の語句との間で、音声認識の誤りが発生するのを防ぐことができる。もちろん、ステップS113の処理を省略して、辞書管理部17は、無条件で新規語句をユーザ辞書14に登録してもよい。
新規語句をユーザ辞書14に登録しないと判定した場合(ステップS113:NO)、辞書管理部17は、処理をステップS111に戻し、次の新規語句に関する処理を実行する。
新規語句をユーザ辞書14に登録すると判定した場合(ステップS113:YES)、辞書管理部17は、新規語句をユーザ辞書14に登録する(ステップS114)。具体的には、辞書管理部17は、ステップS111で受信した新規語句に関する情報(例えば、当該語句、読みデータ、パラメータを含む)を、ユーザ辞書14に登録する。そして、辞書管理部17は、処理をステップS111に戻し、次の新規語句に関する処理を実行する。
以上、本発明の第1実施形態について説明した。本実施形態によれば、端末装置側の音声認識辞書に語句を効率的に追加してユーザの利便性を向上することができる。
[第2実施形態]
第2実施形態では、語句リスト25に登録された語句を分類し、この分類に基づいて配信するか否かの条件を決定する。以下、第1実施形態と同様の構成は同一の符号を付して説明を省略し、第1実施形態と異なる構成を中心に説明する。
新規語句として想定される語句には、例えば新しくオープンした施設の名称や新しくリリースされた楽曲の名称などのように新たに作成された語句(原語句)もあれば、原名称の略称、愛称、誤用されている他の名称などの言い換え語句もある。原語句(言い換え語句に対して正式語句と呼んでもよい)については、複数のユーザに使用される可能性が高いため、音声認識サーバ20から各端末装置10に配信してユーザ辞書14に登録させることで、ユーザの利便性が向上する。
しかしながら、言い換え語句は、原語句と比べると、複数のユーザに使用される可能性が低い。ユーザによっては全く使わない可能性もある。そのため、言い換え語句を原語句と同様の条件で配信すると、ユーザ辞書14の容量を浪費し、却ってユーザの利便性に悪影響を与えるおそれがある。また、音声認識の精度の低下を不必要に発生させるおそれもある。例えば、ある施設の原名称「シアターコクーン」の言い換え名称「コクーンシアター」が、ユーザ辞書14に登録されたとする。この場合、端末装置10は、ユーザの発音した「コクーンシティ」を、誤って類似する「コクーンシアター」と認識する可能性が高まってしまう。
そこで、第2実施形態の音声認識サーバ20は、語句リスト25に登録された語句を、原語句と言い換え語句に分類し、当該語句を配信するか否かを決定する際に、種類に応じた条件を用いる。
図8は、第2実施形態に係る語句リストのデータ構成の一例を示す図である。語句リスト25の各レコードは、語句25a、属性25b、及び総登録回数25cに加え、月別登録回数25dを含む。月別登録回数25dは、語句25aが示す語句の月別の登録回数である。月別登録回数25dには、例えば、直近12ヵ月の各月の登録回数が登録される。もちろん、単位期間は、月に限定されるものでなく、任意の月数、週数、日数などの他の単位期間であってもよい。
図9は、音声認識サーバの新規語句登録処理および新規語句配信処理の一例を示すフローチャートである。図9のステップS201〜S203の処理は、図6のステップS201〜S203の処理と同様なので、説明を省略する。
ステップS202又はステップS203の後、語句管理部23は、登録回数をカウントアップする(ステップS210)。具体的には、語句管理部23は、ステップS201で受信した新規語句(配信対象の語句)に対応するレコードの総登録回数25cを1カウントアップする。また、語句管理部23は、当該新規語句に対応するレコードの月別登録回数25dのうち、当該新規語句の受信時の月に対応する登録回数を1カウントアップする。
それから、語句配信部24は、新規語句を分類する(ステップS211)。本実施形態では、語句配信部24は、新規語句の月別登録回数25dが示す各月の登録回数の時系列推移に基づいて、新規語句が原語句であるかその言い換え語句であるかを判定する。
例えば、原語句が新しくオープンした施設の名称や新しく発売された楽曲の名称であれば、ある時点から登録回数が増加傾向になると考えられる。一方、当該原語句の言い換え語句の場合、当該言い換え語句を使用するユーザは少ないため、ある時点から登録回数が増加傾向になるとは考えられない。このような性質に基づけば、語句配信部24は、例えば、新規語句の登録回数の時系列推移のパターンを統計的に分析することで、当該新規語句が原語句であるか言い換え語句であるか、さらに他の種類の語句であるかを判定することができる。
新規語句の種類の判定方法は、上述の例に限られない。例えば、語句配信部24は、新規語句をキーワードとして、予め用意されたデータベースやインターネット上を検索することで、当該新規語句が原語句であるか言い換え語句であるか、さらには他の種類の語句であるかを判定してもよい。
それから、語句配信部24は、新規語句の種類が第1の種類であるか否かを判定する(ステップS212)。具体的には、語句配信部24は、ステップS211で分類した新規語句の種類(原語句、言い換え語句、又は他の語句)が、第1の種類(原語句)又は第2の種類(言い換え語句、他の語句)であるかを判定する。
新規語句の種類が第1の種類であると判定した場合(ステップS212:YES)、語句配信部24は、総登録回数が第1の閾値を超えたか否かを判定する(ステップS213)。具体的には、語句配信部24は、ステップS210でカウントアップした総登録回数25cが、原語句のための第1の閾値を超えたか否かを判定する。第1の閾値は、例えば、総登録回数が当該閾値を超えた場合は当該原語句が不特定多数のユーザによって使われる可能性がある語句であると推定するための設計値である。総登録回数25cが第1の閾値を超えていないと判定された場合(ステップS213:NO)、処理はステップS201に戻り、語句管理部23は次に受信する新規語句に関する処理を実行する。
新規語句の種類が第2の種類であると判定した場合(ステップS212:NO)、語句配信部24は、総登録回数が第2の閾値を超えたか否かを判定する(ステップS214)。具体的には、語句配信部24は、ステップS210でカウントアップした総登録回数25cが、言い換え語句又は他の種類の語句のための第2の閾値を超えたか否かを判定する。第2の閾値は、例えば、総登録回数が当該閾値を超えた場合は当該言い換え語句又は他の種類の語句が不特定多数のユーザによって使われる可能性がある語句であると推定するための設計値である。総登録回数25cが第2の閾値を超えていないと判定された場合(ステップS214:NO)、処理はステップS201に戻り、語句管理部23は次に受信する新規語句に関する処理を実行する。
総登録回数25cが第1の閾値を超えていると判定した場合(ステップS213:YES)、又は、総登録回数25cが第2の閾値を超えていると判定した場合(ステップS214:YES)、語句配信部24は、新規語句を配信する(ステップS215)。ステップS215の処理は、図6のステップS206の処理と同様なので、説明を省略する。
図9のフローでは、語句を2つの種類に分類しているが、例えば、原語句、言い換え語句、及びその他の語句の3つ以上に分類してもよい。また、種類ごとに閾値を用意して、総登録回数を判定してもよい。
以上、本発明の第2実施形態について説明した。本実施形態によれば、言い換え語句を原語句よりも音声認識辞書に登録し難くすることで、音声認識辞書に追加される語句を制御して、辞書の容量の浪費や音声認識の精度の低下を防ぐことができる。
本発明は、上述の実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。実施形態および各変形例を適宜組み合わせることもできる。
ある変形例では、図9のステップS215において、語句配信部24は、新規語句の種類(原語句又は言い換え語句)を各端末装置10に配信してもよい。この場合、新規語句を受信した端末装置10の辞書管理部17は、図7のステップS113において、他の語句と類似であると判定をするための基準を、受信した新規語句が言い換え語句である場合は原語句である場合よりも厳しく設定する。例えば、類似度が所定の閾値を超える場合に類似すると判定する場合は、言い換え語句に用いる閾値を、原語句に用いる閾値よりも高く設定すればよい。このようにすれば、端末装置10側において、新規語句の種類に応じて、ユーザ辞書14に登録する条件を決定することができる。各端末装置10において新規語句の種類に応じて条件を決定する場合は、図9のステップS212からステップS214の処理は図6のステップS205の処理と置き換えてもよい。
他の変形例では、語句送信部18が新規語句を音声認識サーバ20に送信するタイミングは、図5のフローチャート内に限られず、別のタイミングであってもよい。またさらに他の変形例では、語句配信部24が新規語句を端末装置10に配信するタイミングは、図6及び図9のフローチャート内に限られず、別のタイミングであってもよい。
図1の端末装置10及び音声認識サーバ20の構成は、当該これらの装置の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方や名称によって、本発明が制限されることはない。端末装置10及び音声認識サーバ20の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。また、各構成要素の処理は、1つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。また、各構成要素の処理又は機能の分担は、本発明の目的及び効果を達成できるのであれば、上述したものに限られない。また、図3及び図8に示すデータ構成は、一例であり、本発明の目的を達成することができるのであれば、図示した例に限定されない。
図5〜7、及び図9で示したフローチャートの処理単位は、端末装置10及び音声認識サーバ20の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本発明が制限されることはない。端末装置10及び音声認識サーバ20の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、1つの処理単位がさらに多くの処理を含むように分割することもできる。さらに、本発明の目的及び効果を達成できるのであれば、上記のフローチャートの処理順序も、図示した例に限られるものではない。
上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態や変形例の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態や変形例の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部及び処理手段などは、それらの一部又は全部を、プロセッサが各々の機能を実現するプログラムにより実現しても良い。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、SSD(Solid State Drive)などの記憶装置、又は、ICカード、SD(Secure Digital)メモリカード、DVDなどの記憶媒体に置くことができる。なお、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。
本発明は、音声認識システム、音声認識サーバ、端末装置に限らず、語句管理方法、コンピュータ読み取り可能なプログラム等の様々な形態で提供することができる。
1…音声認識システム、10…端末装置、11…音声送信部、12…音声認識部、13…音声認識辞書、14…ユーザ辞書、15…認識結果取得部、16…インターフェイス制御部、17…辞書管理部、18…語句送信部、19…通信制御部、20…音声認識サーバ、21…音声認識部、22…音声認識辞書、23…語句管理部、24…語句配信部、25…語句リスト、25a…語句、25b…属性、25c…総登録回数、25d…月別登録回数、26…通信制御部、90…コンピュータ、91…演算装置、92…主記憶装置、93…外部記憶装置、94…通信装置、95…入力装置、96…出力装置、M…マイクロフォン、N…通信ネットワーク

Claims (12)

  1. ユーザの音声データを音声認識する端末装置と、前記端末装置と通信し前記ユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムであって、
    前記音声認識サーバは、
    前記端末装置と通信するサーバ側通信制御部と、
    前記端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記端末装置に送信するサーバ側音声認識部と、
    前記サーバ側通信制御部を用いて取得した前記端末装置から送信された前記語句に関する情報と、他の端末装置から送信された語句に関する情報とを、語句リストに登録する語句管理部と、
    前記語句リストに登録された語句に関する情報を、前記端末装置及び前記他の端末装置の少なくとも一方に前記サーバ側通信制御部を用いて配信する語句配信部と、を備え、
    前記端末装置は、
    前記音声認識サーバと通信する端末側通信制御部と、
    音声認識するための音声認識辞書を記憶する音声認識辞書記憶部と、
    前記ユーザの音声データを前記音声認識辞書記憶部に記憶されている音声認識辞書を用いて音声認識し、その認識結果を得る端末側音声認識部と、
    前記ユーザの音声データを、前記端末側通信制御部を用いて前記音声認識サーバに送信する音声送信部と、
    前記端末側音声認識部からの認識結果と、前記端末側通信制御部を用いて取得した前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部と、
    前記選択された認識結果が示す語句が、前記音声認識辞書記憶部に記憶されている音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録する辞書管理部と、
    前記辞書管理部によって前記音声認識辞書に登録された語句に関する情報を、前記端末側通信制御部を用いて前記音声認識サーバに送信する語句送信部と、を備え、
    前記辞書管理部は、前記端末側通信制御部を用いて取得した前記音声認識サーバから配信された語句を前記音声認識辞書に登録する
    音声認識システム。
  2. 請求項1に記載の音声認識システムであって、
    前記語句管理部は、前記語句ごとにその登録回数を前記語句リストに記録し、
    前記語句配信部は、前記語句をその登録回数に基づいて配信するか否かを決定する
    音声認識システム。
  3. 請求項1に記載の音声認識システムであって、
    前記語句管理部は、前記語句ごとにその登録回数を前記語句リストに記録し、
    前記語句配信部は、前記語句の種類を判定し、当該語句の登録回数と前記判定した種類に応じた条件とに基づいて当該語句を配信するか否かを決定する
    音声認識システム。
  4. 請求項3に記載の音声認識システムであって、
    前記語句管理部は、前記語句ごとにその単位期間別の登録回数を前記語句リストに記録し、
    前記語句配信部は、前記語句の前記単位期間別の登録回数の時系列推移に基づいて、当該語句の種類を判定する
    音声認識システム。
  5. 請求項3に記載の音声認識システムであって、
    前記語句配信部は、前記語句を正式語句又は言い換え語句に分類する
    音声認識システム。
  6. 請求項1に記載の音声認識システムであって、
    前記語句管理部は、前記語句ごとにその属性を関連付けて前記語句リストに記録し、
    前記語句配信部は、前記語句の属性に基づいて当該語句の配信先の端末装置を決定する
    音声認識システム。
  7. 請求項6に記載の音声認識システムであって、
    前記属性は、前記語句に関連する位置情報であり、
    前記語句配信部は、前記位置情報が示す位置と所定の関係にあるユーザを特定し、前記特定したユーザの端末装置を前記配信先として決定する
    音声認識システム。
  8. 請求項6に記載の音声認識システムであって、
    前記語句は、楽曲の名称であり、
    前記属性は、前記楽曲に関連するアーティストの識別子であり、
    前記語句配信部は、前記アーティストの識別子が示すアーティストと所定の関係にあるユーザを特定し、前記特定したユーザの端末装置を前記配信先として決定する
    音声認識システム。
  9. 請求項1に記載の音声認識システムであって、
    前記辞書管理部は、前記配信された語句と、前記音声認識辞書に登録されている各語句との類似度を算出し、前記類似度に基づいて前記配信された語句を登録するか否かを決定する
    音声認識システム。
  10. 各ユーザの音声データを音声認識する複数の端末装置と通信する音声認識サーバであって、
    前記各端末装置と通信するサーバ側通信制御部と、
    前記各端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記音声データの送信元の前記端末装置に送信するサーバ側音声認識部と、
    前記各端末装置の音声認識辞書に前記認識結果に基づいて登録された語句に関する情報を前記サーバ側通信制御部を用いて受信し、前記語句に関する情報を語句リストに登録する語句管理部と、
    前記語句リストに登録された語句に関する情報を、前記複数の端末装置のうち1つ以上の端末装置に前記サーバ側通信制御部を用いて配信する語句配信部と
    を備える音声認識サーバ。
  11. ユーザの音声データを音声認識する音声認識サーバと通信する端末装置であって、
    前記音声認識サーバと通信する端末側通信制御部と、
    音声認識するための音声認識辞書を記憶する音声認識辞書記憶部と、
    前記ユーザの音声データを前記音声認識辞書記憶部に記憶されている音声認識辞書を用いて音声認識し、その認識結果を得る端末側音声認識部と、
    前記ユーザの音声データを、前記端末側通信制御部を用いて前記音声認識サーバに送信する音声送信部と、
    前記端末側音声認識部からの認識結果と、前記端末側通信制御部を用いて取得した前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部と、
    前記選択された認識結果が示す語句が、前記音声認識辞書記憶部に記憶されている音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録する辞書管理部と、
    前記辞書管理部によって前記音声認識辞書に登録された語句に関する情報を、前記端末側通信制御部を用いて前記音声認識サーバに送信する語句送信部と、を備え、
    前記辞書管理部は、前記端末側通信制御部を用いて前記音声認識サーバから配信された語句を前記音声認識辞書に登録する
    端末装置。
  12. ユーザの音声データを音声認識する端末装置と、前記端末装置と通信し前記ユーザの音声データを音声認識する音声認識サーバとを備える音声認識システムの語句管理方法であって、
    前記端末装置が、前記端末装置が備える音声認識辞書を用いて前記ユーザの音声データを音声認識し、その認識結果を得るステップと、
    前記端末装置が、前記ユーザの音声データを、前記音声認識サーバに送信するステップと、
    前記音声認識サーバが、前記端末装置から送信された前記ユーザの音声データを音声認識し、その認識結果を前記端末装置に送信するステップと、
    前記端末装置が、前記端末装置からの認識結果と、前記音声認識サーバからの認識結果とを比較し、いずれか一方の認識結果を選択するステップと、
    前記端末装置が、前記選択された認識結果が示す語句が、前記音声認識辞書に存在するか否かを判定し、存在しない場合に前記語句を前記音声認識辞書に登録するステップと、
    前記端末装置が、前記登録ステップで前記音声認識辞書に登録された語句に関する情報を、前記音声認識サーバに送信するステップと、
    前記音声認識サーバが、前記端末装置から送信された前記語句に関する情報と、他の端末装置から送信された語句に関する情報とを、語句リストに登録するステップと、
    前記音声認識サーバが、前記語句リストに登録された語句に関する情報を、前記端末装置及び前記他の端末装置の少なくとも一方に配信するステップと、
    前記端末装置が、前記音声認識サーバから配信された語句を前記音声認識辞書に登録するステップと
    を含む語句管理方法。
JP2017025725A 2017-02-15 2017-02-15 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 Active JP6833203B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017025725A JP6833203B2 (ja) 2017-02-15 2017-02-15 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017025725A JP6833203B2 (ja) 2017-02-15 2017-02-15 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法

Publications (2)

Publication Number Publication Date
JP2018132626A true JP2018132626A (ja) 2018-08-23
JP6833203B2 JP6833203B2 (ja) 2021-02-24

Family

ID=63249612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017025725A Active JP6833203B2 (ja) 2017-02-15 2017-02-15 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法

Country Status (1)

Country Link
JP (1) JP6833203B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697827A (zh) * 2018-12-29 2019-04-30 出门问问信息科技有限公司 智能报警方法、装置、设备及存储介质
JP2020160118A (ja) * 2019-03-25 2020-10-01 株式会社エヌ・ティ・ティ・データ 情報処理装置、情報処理方法およびプログラム
JP2022001930A (ja) * 2020-06-22 2022-01-06 徹 江崎 アクティブラーニングシステム及びアクティブラーニングプログラム

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327583A (ja) * 1998-03-27 1999-11-26 Internatl Business Mach Corp <Ibm> ネットワ―ク話し言葉語彙システム
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2002297181A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
JP2002341875A (ja) * 2001-05-11 2002-11-29 Fujitsu Ten Ltd 音楽データの配信方法
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2006059451A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 音声認識装置
JP2007213005A (ja) * 2006-01-10 2007-08-23 Nissan Motor Co Ltd 認識辞書システムおよびその更新方法
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
JP2013167739A (ja) * 2012-02-15 2013-08-29 Denso Corp 音声認識システム
JP2013178384A (ja) * 2012-02-28 2013-09-09 Nec Corp 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP2014048507A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology ローカル言語資源の補強装置及びサービス提供設備装置
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327583A (ja) * 1998-03-27 1999-11-26 Internatl Business Mach Corp <Ibm> ネットワ―ク話し言葉語彙システム
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2002297181A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
JP2002341875A (ja) * 2001-05-11 2002-11-29 Fujitsu Ten Ltd 音楽データの配信方法
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2006059451A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 音声認識装置
JP2007213005A (ja) * 2006-01-10 2007-08-23 Nissan Motor Co Ltd 認識辞書システムおよびその更新方法
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
JP2013167739A (ja) * 2012-02-15 2013-08-29 Denso Corp 音声認識システム
JP2013178384A (ja) * 2012-02-28 2013-09-09 Nec Corp 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP2014048507A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology ローカル言語資源の補強装置及びサービス提供設備装置
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697827A (zh) * 2018-12-29 2019-04-30 出门问问信息科技有限公司 智能报警方法、装置、设备及存储介质
JP2020160118A (ja) * 2019-03-25 2020-10-01 株式会社エヌ・ティ・ティ・データ 情報処理装置、情報処理方法およびプログラム
JP7406921B2 (ja) 2019-03-25 2023-12-28 株式会社Nttデータグループ 情報処理装置、情報処理方法およびプログラム
JP2022001930A (ja) * 2020-06-22 2022-01-06 徹 江崎 アクティブラーニングシステム及びアクティブラーニングプログラム

Also Published As

Publication number Publication date
JP6833203B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
US10380160B2 (en) Dynamic language model
US9129606B2 (en) User query history expansion for improving language model adaptation
US20200026704A1 (en) Query-time analytics on graph queries spanning subgraphs
CN107967135B (zh) 计算引擎实现方法、电子装置及存储介质
US20150046452A1 (en) Geotagging unstructured text
KR20110093785A (ko) 사용자 정의 언어 모델들
CN105431844A (zh) 用于搜索系统的第三方搜索应用
KR20150018474A (ko) 시맨틱 키워드를 추출하기 위한 방법, 비일시성의 시스템 및 컴퓨터 판독 가능한 기록 매체
JP6833203B2 (ja) 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
WO2017121355A1 (zh) 搜索处理方法以及装置
CN105229723A (zh) 完整语言序列的语言建模
CN110968686A (zh) 意图识别方法、装置、设备及计算机可读介质
CN109840120B (zh) 解耦微服务发布方法、电子装置及计算机可读存储介质
CN111899822B (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
WO2021143016A1 (zh) 近似数据处理方法、装置、介质及电子设备
US20170046435A1 (en) Search engine results system using entity density
CN110147223B (zh) 组件库的生成方法、装置及设备
KR102624149B1 (ko) 오디오 쿼리들의 오버랩핑 프로세싱의 조정
US9529855B2 (en) Systems and methods for point of interest data ingestion
US9336237B2 (en) Content distribution
US20140195561A1 (en) Search method and information managing apparatus
CN107220249B (zh) 基于分类的全文搜索
CN114048797A (zh) 确定地址相似度的方法、装置、介质及电子设备
CN113312540A (zh) 信息处理方法、装置、设备、系统及可读存储介质
CN110750555A (zh) 用于生成索引的方法、装置、计算设备以及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210120

R150 Certificate of patent or registration of utility model

Ref document number: 6833203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150