JP2014109601A

JP2014109601A - 音声処理システム、音声処理装置、音声処理方法及びプログラム

Info

Publication number: JP2014109601A
Application number: JP2012262402A
Authority: JP
Inventors: Toshiharu Kurisu; 俊治栗栖
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2014-06-12

Abstract

【課題】収音する環境の相違に起因する音質の相違を低減する。
【解決手段】移動通信端末は、所定のアプリケーションを起動すると（Ｓ１）、当該端末の識別情報を音声認識サーバに送信する（Ｓ２）。音声認識サーバは、この識別情報に応じたパラメータファイルを移動通信端末に送信する（Ｓ３）。このパラメータファイルは、収音条件に応じて異なる複数のパラメータを含んでいる。移動通信端末は、音声データを生成するに先立ち、収音条件を示す条件データを取得し（Ｓ４）、パラメータファイルに含まれる複数のパラメータの中から収音条件に応じたパラメータを特定する（Ｓ５）。そして、移動通信端末は、音声データを生成し（Ｓ６）、これを収音条件に応じたパラメータによって補正する（Ｓ７）。
【選択図】図６

Description

本発明は、音声認識に関する。

文字入力の代替手段としての音声入力の普及が進んでおり、情報の検索などに利用可能になっている。特に、携帯機器においては、ユーザが時間や場所を問わずにこれを利用することが可能である。しかし、時間も場所も一定でないということは、ユーザの音声を収音する環境も一定でないということである。そうすると、その環境によっては、ユーザの音声が適切に収音できず、音声認識の精度が低下する場合がある。

特許文献１には、オーディオ信号処理システムにおいて、マイクの識別情報をサーバに送信し、それぞれのマイクに応じた調整パラメータを設定することが記載されている。特許文献１に記載された技術によれば、マイクの機種が変わったりした場合であっても、ユーザが自ら設定することなく自動的に設定が行われるようにすることができる。

特開２０１０−１５２１５３号公報

特許文献１に記載された技術によれば、マイクの機種の相違に起因する音質の相違を低減させ得るといえるが、収音する環境の相違に起因する音質の相違を低減できるとはいえない。
一方、本発明の目的は、収音する環境の相違に起因する音質の相違を低減できる技術を提供することにある。

本発明は、ユーザの音声を示す音声データを取得する第１取得部と、前記音声データの収音条件を示す条件データを取得する第２取得部と、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、前記補正された音声データを出力する出力部とを備える音声処理システムを提供する。

また、前記条件データは、音声を収音する収音装置の収音時の状態を示すデータを含む構成であってもよい。
また、前記条件データは、前記収音装置の動き又は前記収音装置と前記ユーザとの位置関係を示すデータを含む構成であってもよい。
また、前記条件データは、音声を収音する収音装置の収音時の位置又は時間を示すデータを含み、前記補正部は、前記収音装置について取得された過去の条件データに基づいて、補正に用いる前記パラメータを選択する構成であってもよい。
また、前記音声処理システムは、前記出力部により出力された音声データに対応して行われた前記ユーザの操作を示す操作データを取得する第３取得部と、前記複数のパラメータのうち前記出力された音声データの補正に用いた前記パラメータを、前記取得された操作データに基づいて調整する調整部とを備える構成であってもよい。
また、前記音声処理システムは、前記出力部により出力された音声データをテキストデータに変換する音声変換部と、前記変換されたテキストデータに基づく処理を実行する処理実行部とを備え、前記第３取得部は、前記処理の実行結果に応じて行われた操作を示すデータを前記操作データとして取得する構成であってもよい。

また、本発明は、ユーザの音声を示す音声データを取得する第１取得部と、前記音声データの収音条件を示す条件データを取得する第２取得部と、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、前記補正された音声データを出力する出力部とを備える音声処理装置を提供する。

また、本発明は、ユーザの音声を示す音声データを取得するステップと、前記音声データの収音条件を示す条件データを取得するステップと、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、前記補正された音声データを出力するステップとを有する音声処理方法を提供する。

また、本発明は、コンピュータに、ユーザの音声を示す音声データを取得するステップと、前記音声データの収音条件を示す条件データを取得するステップと、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、前記補正された音声データを出力するステップとを実行させるためのプログラムを提供する。

本発明によれば、収音する環境の相違に起因する音質の相違を低減できる技術を提供することが可能である。

音声処理システムの全体構成を示すブロック図移動通信端末のハードウェア構成を示すブロック図音声認識サーバ、意図解釈サーバのハードウェア構成を示すブロック図音声認識サーバに記憶されているパラメータファイルを示す模式図移動通信端末、音声認識サーバ及び意図解釈サーバの機能的構成を示すブロック図音声エージェントサービスの利用時に実行される処理を示すシーケンスチャート音声エージェントサービスの利用時に実行される処理を示すシーケンスチャートパラメータファイルを例示する図パラメータファイルを例示する図

［実施例］
図１は、本発明の一実施例である音声処理システム１０の全体構成を示すブロック図である。音声処理システム１０は、移動通信端末１００と、音声認識サーバ２００Ａと、意図解釈サーバ２００Ｂとを備え、これらがネットワーク３００によって相互に通信可能に接続された構成を有する。ネットワーク３００は、移動体通信網やインターネットであるが、通信方式が異なる複数のネットワークを互いに接続したものであってもよい。なお、移動通信端末１００、音声認識サーバ２００Ａ、意図解釈サーバ２００Ｂは、図１にそれぞれ１つずつ図示されているが、複数あってもよい。

移動通信端末１００は、ユーザによって携帯されて使用される通信端末である。移動通信端末１００は、例えば、いわゆるスマートフォンやいわゆるタブレットＰＣ（Personal Computer）である。移動通信端末１００は、情報の検索やアプリケーションの実行などの指示を音声で受け付けることが可能である。すなわち、移動通信端末１００は、収音装置として機能することができる。

音声認識サーバ２００Ａは、音声認識処理を実行するためのサーバ装置である。ここにおいて、音声認識とは、音声データを解析してテキストデータに変換することをいう。また、意図解釈サーバ２００Ｂは、音声認識サーバ２００Ａにおける音声認識処理によって得られたテキストデータの構文等を解析し、ユーザの意図（要求）を解釈するためのサーバ装置である。

音声処理システム１０は、移動通信端末１００、音声認識サーバ２００Ａ及び意図解釈サーバ２００Ｂによって音声エージェントサービスを提供する。ここにおいて、音声エージェントサービスとは、ユーザが移動通信端末１００に話しかけることで情報の検索を実行したり、移動通信端末１００に対する操作を行ったりすることを可能にするサービスをいう。このサービスにより、ユーザは、文字入力を行わなくても（あるいは、少ない文字入力で）必要な機能を利用したり、ボタンの押下やアイコンのタップのような（手による）操作を音声入力で代替したりすることができるようになる。本実施例の音声エージェントサービスは、移動通信端末１００に所定のキャラクタ（著作物の実在又は架空の登場人物、動物など）を表示させ、このキャラクタと対話するような形態で提供されるものとする。

図２は、移動通信端末１００のハードウェア構成を示すブロック図である。同図に示すように、移動通信端末１００は、制御部１１０と、記憶部１２０と、通信部１３０と、表示部１４０と、操作部１５０と、音声入出力部１６０と、センサ部１７０と、測位部１８０とを備える。

制御部１１０は、移動通信端末１００の各部の動作を制御する手段である。制御部１１０は、ＣＰＵ（Central Processing Unit）等の演算処理装置とメモリとを備え、プログラムを実行することによって所定の機能を実現する。制御部１１０が実行するプログラムには、音声エージェントサービスを利用するためのアプリケーションプログラムが含まれる。以下においては、このアプリケーションプログラムのことを「音声エージェントアプリ」又は単に「アプリ」という。

記憶部１２０は、データを記憶する手段である。記憶部１２０は、フラッシュメモリ等の記憶媒体を備え、制御部１１０が必要とするデータを記憶する。記憶部１２０は、移動通信端末１００を識別するための識別情報を記憶している。この識別情報は、例えばＩＭＥＩ（International Mobile Equipment Identity）である。ＩＭＥＩは、各端末の製造者や機種を特定可能な情報である。

通信部１３０は、ネットワーク３００を介してデータを送受信する手段である。通信部１３０は、アンテナや、ネットワーク３００の通信方式に対応したモデムなどを備え、データの変調・復調といったデータ通信に必要な処理を実行する。

表示部１４０は、画像を表示する手段である。表示部１４０は、液晶素子や有機ＥＬ（electroluminescence）素子により構成された表示パネル（すなわち表示領域）とこれを駆動する駆動回路とを備え、画像データに応じた画像を表示する。
操作部１５０は、ユーザの操作を受け付ける手段である。操作部１５０は、テンキー等のボタンを備え、ユーザの操作に応じた操作データを制御部１１０に供給する。あるいは、操作部１５０は、表示部１４０の表示領域に対応して設けられるタッチスクリーンを備える構成であってもよい。

音声入出力部１６０は、音声を入力及び出力する手段である。音声入出力部１６０は、スピーカ及びマイクを備え、音声データに応じた音声を再生したり、音声を収音して音声データを生成したりする。なお、音声入出力部１６０は、スピーカ及びマイクに代えて、これを接続するための接続部（端子、無線通信部など）を備えてもよいし、スピーカ及びマイクと接続部の双方を備えてもよい。

センサ部１７０は、移動通信端末１００の状態を検出する手段である。センサ部１７０は、１又は複数のセンサを含んで構成される。センサ部１７０に含まれるセンサとしては、例えば、加速度を検出するための加速度センサ、地磁気を検出するための磁界センサ、方位を検出するための方位センサ、角度ないし角速度を検出するためのジャイロセンサ、明るさを検出するための輝度センサ、気圧を検出するための圧力センサ、気温を検出するための温度センサ、近接する物体（例えばユーザの顔）を検出するための近接センサなどが挙げられる。これらのセンサは、所期の状態を検出できるような適当な位置に設けられている。センサ部１７０は、このようなセンサの出力値を示すセンサデータを制御部１１０に供給する。

測位部１８０は、移動通信端末１００の位置を測定する手段である。測位部１８０は、ＧＰＳ（Global Positioning System）などの所定の測位方式によって移動通信端末１００の位置を測定し、その測定結果を示す位置データ（例えば、緯度と経度の組み合わせ）を制御部１１０に供給する。

図３は、音声認識サーバ２００Ａ、意図解釈サーバ２００Ｂのハードウェア構成を示すブロック図である。音声認識サーバ２００Ａ及び意図解釈サーバ２００Ｂは、その主要なハードウェア構成が共通している。そこで、ここでは、説明の重複を避けるため、これらのサーバ装置の構成を同一のブロック図によって説明する。

音声認識サーバ２００Ａ及び意図解釈サーバ２００Ｂは、それぞれ、制御部２１０と、記憶部２２０と、通信部２３０とを備える。制御部２１０は、演算処理装置やメモリを備え、所定のプログラムを実行することによって自装置の各部の動作を制御する。記憶部２２０は、ハードディスク等の記憶媒体を備え、制御部２１０が必要とするデータを記憶する。通信部２３０は、データの変調・復調といったデータ通信に必要な処理を実行し、ネットワーク３００を介して移動通信端末１００とデータを送受信する。

音声認識サーバ２００Ａは、音声認識に必要な言語モデルとパラメータファイルとを記憶している。言語モデルは、N-gramなどの周知のモデルを用いることができる。パラメータファイルは、音声データの補正に用いられるパラメータの集合であり、例えば、ゲイン（マイクゲイン）やフィルタ係数である。言語モデル及びパラメータファイルは、必要に応じて、所定のタイミング（例えば１日１回）で更新される。

図４は、音声認識サーバ２００Ａに記憶されているパラメータファイルを示す模式図である。同図に示すように、音声認識サーバ２００Ａは、移動通信端末１００の機種毎にパラメータファイルを記憶している。すなわち、パラメータファイルは、移動通信端末１００の機種に応じて異なる。また、それぞれのパラメータファイルには、収音条件毎のパラメータが記述されている。

ここにおいて、収音条件とは、音声を収音するときの条件をいい、収音装置（ここでは移動通信端末１００）がどのような状態又は環境でユーザの音声を収音したかを示すものである。本実施例の収音条件は、移動通信端末１００の収音時の位置又は状態を少なくとも含む。ここにおいて、移動通信端末１００の収音時の状態とは、移動通信端末１００の動きであってもよいし、移動通信端末１００とユーザとの位置関係であってもよい。

移動通信端末１００の収音時の位置は、位置データによって特定可能である。この場合、位置データは、音声データの収音条件を示す条件データに相当する。位置データは、他の事業者によって提供される地図データと照合することにより、その位置が屋内であるか屋外であるかが特定できるようになっている。例えば、位置データによって示される位置が路上などである場合には、当該位置が「屋外」であるとし、位置データによって示される位置が建物などと重なる場合には、当該位置が「屋内」であるとする。

また、移動通信端末１００の収音時の状態は、センサデータによって特定可能である。この場合、センサデータは、収音条件を示す条件データに相当する。例えば、近接センサの出力値によって、移動通信端末１００とユーザとの位置関係、すなわち、移動通信端末１００にユーザの顔が「近接」しているか「離間」しているかを判断することが可能であり、ユーザが移動通信端末１００に近付いて発声しているか否かを判断することができる。また、加速度センサやジャイロセンサの出力値によって、ユーザが移動通信端末１００を手で持っているか、あるいは机などの固定物の上に載置されているかを判断することができる。

上述したように、パラメータファイルに記述されたそれぞれのパラメータは、収音条件毎に異なる。パラメータファイルには、例えば、「屋外」用のパラメータと「屋内」用のパラメータとが記述される。なお、ここでいう収音条件は、複数の条件を組み合わせたものであってもよい。つまり、パラメータファイルには、移動通信端末１００が「屋内」でありかつ「（ユーザの顔に）近接」した場合のパラメータと、移動通信端末１００が「屋内」でありかつ「（ユーザの顔に）近接」している場合のパラメータと、「屋内」でありかつ「（ユーザの顔から）離間」している場合のパラメータとが用意されていてもよい。

図５は、移動通信端末１００、音声認識サーバ２００Ａ及び意図解釈サーバ２００Ｂの機能的構成を示すブロック図である。移動通信端末１００、音声認識サーバ２００Ａ及び意図解釈サーバ２００Ｂは、それぞれ所定のプログラムを実行することによって、同図に示す各部に相当する機能を実現する。

移動通信端末１００の制御部１１０は、取得部１１１、補正部１１２及び出力部１１３に相当する機能を実現する。音声認識サーバ２００Ａの制御部２１０は、取得部２１１、音声変換部２１２、調整部２１３、記憶制御部２１４及び出力部２１５に相当する機能を実現する。意図解釈サーバ２００Ｂの制御部２１０は、取得部２１６、意図解釈部２１７、処理実行部２１８及び出力部２１９に相当する機能を実現する。

取得部１１１、２１１、２１６は、データを取得する手段である。取得部１１１、２１１、２１６は、自装置の記憶媒体や他の装置からデータを取得することができる。出力部１１３、２１５、２１９は、データを出力する手段である。出力部１１３、２１５、２１９は、自装置の記憶媒体や他の装置からデータを取得することができる。

本実施例において、取得部１１１は、音声入出力部１６０を介して音声データを取得する手段（第１取得部）として機能するとともに、記憶部１２０に記憶された条件データを取得する手段（第２取得部）として機能する。また、取得部２１１は、ネットワーク３００を介して操作データを取得する手段（第３取得部）として機能する。

補正部１１２は、音声データを補正する手段である。補正部１１２は、取得部１１１により取得された音声データを、取得部１１１により取得されたパラメータを用いて補正する。このとき、補正部１１２は、取得部１１１により取得された条件データを用いて、パラメータファイルに含まれる複数のパラメータから音声データの収音時の収音条件に対応するパラメータを選択し、選択したパラメータによって音声データを補正する。

補正部１１２は、音声認識サーバ２００Ａにおいて音声認識される音声が（入力された音声によらず）一定の音質になるように音声データを補正する。補正部１１２による補正は、例えば、ゲインの補正である。音声データのゲインを収音条件に応じて補正することにより、ユーザの音声は、この補正を行わない場合に比べて収音条件の差に起因する音量の差が小さくなる。

音声変換部２１２は、音声認識によって音声データをテキストデータに変換する手段である。ここにおいて、テキストデータとは、所定の文字コードによって文字が記述されたデータをいう。音声変換部２１２による音声認識には、言語モデルを用いた周知の適当な手法が用いられればよい。音声変換部２１２は、音声認識によって得られたテキストデータを出力部２１５に供給する。

調整部２１３は、パラメータを調整する手段である。調整部２１３は、音声データの補正に用いたパラメータを、当該音声データを音声認識することによって実行された処理に対するユーザの操作に基づいて調整する。具体的には、調整部２１３は、ユーザの操作に基づいて音声認識に応じて実行した処理が適切であったか否かを判断し、適切でない場合にはパラメータを調整する。換言すれば、調整部２１３は、音声認識の結果として実行された処理がユーザが期待したものであったか否かを判断し、ユーザが期待した結果が得られなかった場合に音声認識が適切に行われなかったとみなし、パラメータを調整する。

記憶制御部２１４は、パラメータの読み書きを制御する手段である。記憶制御部２１４は、調整部２１３からの要求に応じて、音声認識サーバ２００Ａの記憶部２２０に記憶されたパラメータを読み出し、調整後のパラメータを再び記憶部２２０に記録する。

意図解釈部２１７は、テキストデータに変換された文章の意図を解釈する手段である。意図解釈部２１７は、テキストデータに変換された文章の構文を解析し、ユーザの意図、すなわち、ユーザが移動通信端末１００に対して要求している処理を解釈する。なお、構文解析には周知の適当な手法が用いられればよい。

処理実行部２１８は、ユーザの意図に応じた処理を実行する手段である。処理実行部２１８は、意図解釈部２１７により解釈された文章の意図に基づき、所定の処理を実行する。例えば、ユーザの意図が情報の検索である場合、処理実行部２１８は、意図解釈部２１７により解釈された文章からキーワードを特定するとともに、特定したキーワードによって検索を実行し、その検索結果を表示させるためのデータを移動通信端末１００に送信する処理を実行する。また、処理実行部２１８は、移動通信端末１００に所定のアプリケーションを起動させるなどの所定の処理を実行するための命令を移動通信端末１００に送信する処理を実行してもよい。

音声処理システム１０の構成は、以上のとおりである。ユーザは、このような構成を有する音声処理システム１０を用いて、音声エージェントサービスを利用することができる。ユーザは、例えば、富士山の高さを調べるといったような情報の検索を行う場合であれば、「富士山の高さは？」と移動通信端末１００に話しかければよい。この場合、移動通信端末１００は、音声データを音声認識サーバ２００Ａに送信する。音声認識サーバ２００Ａは、この音声データをテキストデータに変換し、意図解釈サーバ２００Ｂに送信する。意図解釈サーバ２００Ｂは、テキストデータに基づいて「富士山」の「高さ」を知ることがユーザの意図であると解釈し、これらをキーワードとして用いた検索を実行し、検索結果を音声及び画像（又はこれらの一方）で通知するためのデータを移動通信端末１００に送信する。この結果、移動通信端末１００においては、「富士山の高さは？」という問いかけに対し、例えば「富士山の高さは、３７７６メートルです。」といった回答を得ることができる。

あるいは、ユーザは、移動通信端末１００に特定の機能を実行させるための指示を音声で行うことも可能である。例えば、移動通信端末１００にアラーム機能がある場合に、ユーザが「１２時３０分にアラームをセット」と移動通信端末１００に話しかけると、１２時３０分にアラームが鳴るようにアラーム機能を制御することが可能である。

音声処理システム１０において、ユーザの意図を正確に把握するためには、音声データの音質がなるべく均質になることが望ましい。なぜならば、例えば、ユーザの音声が小さすぎたり、あるいは逆に大きすぎたりすると、音声データからテキストデータへの変換精度が低下する場合があるからである。そこで、音声処理システム１０においては、以下のような手順で処理を実行することにより、音声認識サーバ２００Ａにおいて音声認識される音声が一定の音質になるようにしている。

図６、図７は、音声エージェントサービスの利用時に移動通信端末１００、音声認識サーバ２００Ａ及び意図解釈サーバ２００Ｂにおいて実行される処理を示すシーケンスチャートである。音声エージェントサービスを利用するときには、ユーザは、音声エージェントアプリを移動通信端末１００に実行させる必要がある。移動通信端末１００は、ユーザから所定の操作を受け付けることにより、音声エージェントアプリを起動する（ステップＳ１）。

移動通信端末１００は、音声エージェントアプリを起動すると、自機の識別情報を音声認識サーバ２００Ａに送信する（ステップＳ２）。この識別情報は、移動通信端末１００の機種を特定可能な情報である。音声認識サーバ２００Ａは、識別情報を受信すると、受信した識別情報に応じたパラメータファイルを移動通信端末１００に送信する（ステップＳ３）。なお、パラメータファイルは、音声エージェントアプリの起動時のみに限らず、その後も適当なタイミングでそのときの最新のものを適宜受信するようにしてもよい。

また、移動通信端末１００は、必要な条件データを取得する（ステップＳ４）。例えば、必要な条件データが位置データである場合であれば、移動通信端末１００は測位を実行し、位置データを取得する。なお、移動通信端末１００は、センサデータを条件データとして取得してもよい。次いで、移動通信端末１００は、ステップＳ３において受信したパラメータファイルから現時点での収音条件に対応するパラメータを特定する（ステップＳ５）。移動通信端末１００は、ステップＳ４において取得した条件データに基づいて収音条件を特定し、特定した収音条件に応じたパラメータを特定することができる。

これらの処理により、音声を収音するための準備が整い、移動通信端末１００は音声入力を受け付けることができる状態になる。このような状態になったら、ユーザは、移動通信端末１００に向けて音声を発する。移動通信端末１００は、この音声を収音し、音声データを生成する（ステップＳ６）。次に、移動通信端末１００は、音声入出力部１６０を介して取得した補正前の音声データに対し、ステップＳ５において特定したパラメータを用いて補正を行う（ステップＳ７）。そして、移動通信端末１００は、補正後の音声データを音声認識サーバ２００Ａに送信する（ステップＳ８）。

音声認識サーバ２００Ａは、音声データを受信すると、音声認識処理を実行し、音声データをテキストデータに変換する（ステップＳ９）。そして、音声認識サーバ２００Ａは、変換後のテキストデータを移動通信端末１００に送信する（ステップＳ１０）。移動通信端末１００は、このテキストデータを意図解釈サーバ２００Ｂに送信する（ステップＳ１１）。なお、このとき移動通信端末１００は、音声認識されたテキストデータをいったん表示部１４０に表示してもよい。

意図解釈サーバ２００Ｂは、テキストデータを受信すると、意図解釈処理を実行し（ステップＳ１２）、解釈した意図に応じた処理を実行する（ステップＳ１３）。このとき、意図解釈サーバ２００Ｂは、情報の検索を行ったり、移動通信端末１００に所定の処理を実行させるためのコマンドを示すデータを生成したりする。そして、意図解釈サーバ２００Ｂは、ステップＳ１３において実行した処理に応じたデータ（以下「応答データ」という。）を移動通信端末１００に送信する（ステップＳ１４）。応答データは、音声や画像を再生するためのデータである。

移動通信端末１００は、応答データを受信すると、受信した応答データに応じた処理を実行する（ステップＳ１５）。ステップＳ１５の処理は、例えば、ユーザの問いかけに応じた情報（すなわち検索結果）を文字や音声によって再生する処理や、所定のアプリケーションプログラムを実行する処理である。このとき、移動通信端末１００は、表示部１４０にキャラクタを表示させ、あたかもキャラクタがユーザの問いかけに答えているように音声や画像を再生してもよい。

図７に示す処理は、パラメータの調整を行う場合に必要な処理であり、ステップＳ１５の処理の後に実行されるものである。ここにおいて、移動通信端末１００は、応答データが示す応答が適切であったか否かを示す操作データと、ステップＳ７の補正に用いたパラメータ（又は、当該パラメータを識別できる情報）を音声認識サーバ２００Ａに送信する（ステップＳ１６）。このとき送信する操作データは、例えば、ステップＳ１５の処理に合わせ、「この情報はあなたのお役に立ちましたか？」といった質問をユーザに行い、「はい」又は「いいえ」といった回答の入力を促すことで得られたものである。あるいは、移動通信端末１００は、所定の判断基準を用いて、例えば、応答データによって示される情報に対してユーザがより詳細な情報を求めるための操作を行った場合には応答が適切であったと判断し、ユーザが音声入力を再度実行した場合には応答が適切でなかったと判断してもよい。

音声認識サーバ２００Ａは、このような操作データを受信したら、パラメータの調整を実行するか否かを判断する（ステップＳ１７）。例えば、音声認識サーバ２００Ａは、同一の機種において同一の収音条件で得られた操作データを集計し、応答データが示す応答が適切であった場合とそうでなかった場合の比率を算出し、その比率が所定の割合を下回った場合にパラメータの調整を実行すると判断する。そして、音声認識サーバ２００Ａは、パラメータの調整を実行すると判断した場合に、該当するパラメータファイルを読み出し、調整が必要であると判断したパラメータを調整する（ステップＳ１８）。

以上のとおり、本実施例によれば、音声データに対して収音時の収音条件に応じた補正が行われることにより、音声認識サーバ２００Ａには均質な音質で音声データが入力されるようになる。したがって、音声認識サーバ２００Ａにおいては、このような補正を行わない場合よりも音声認識の精度の向上が期待できる。また、本実施例によれば、ユーザが移動するなどして収音条件が時々刻々と変化する場合であっても、そのときどきの状況に応じたパラメータで音声データを補正することが可能である。

また、本実施例によれば、ユーザからの操作データによってパラメータを調整することができるため、音声認識等の処理の結果をパラメータにフィードバックさせることが可能である。このとき、パラメータの調整が機種毎及び収音条件毎に行われるため、それぞれの機種及び収音条件に応じたきめ細かい調整を行うことが可能である。

［変形例］
本発明は、上述した実施例の態様に限らず、他の態様でも実施することができる。以下に示すのは、本発明の他の態様の一例である。なお、これらの変形例は、必要に応じて、各々を適宜組み合わせることも可能である。

（１）本発明のパラメータファイルは、機種毎に異なっていなくてもよい。例えば、同一のメーカー製の端末間において収音特性が類似ないし共通していると認められる場合であれば、これらの端末のパラメータファイルを共通にしてもよい。

また、本発明のパラメータファイルは、機種毎よりもさらに細かく分類されていてもよい。例えば、移動通信端末１００がアクセサリ（付属品）を装着可能である場合には、移動通信端末１００に装着されたアクセサリに応じたパラメータがそれぞれ用意されてもよい。

例えば、移動通信端末１００が外付けのマイク（すなわち収音装置）を装着可能である場合、マイクを装着した場合とそうでない場合とでは収音特性が当然異なり、結果として収音条件が変化する。そこで、このような場合には、マイクの装着の有無によってパラメータを異ならせてもよい。さらには、移動通信端末１００においてマイクの機種を識別可能である場合には、マイクの機種に応じてパラメータが異なってもよい。

また、移動通信端末１００に衝撃保護用等のカバーを装着可能である場合にも、カバーを装着したか否かによって収音特性が異なり得る。そこで、このような場合には、カバーの装着の有無によってパラメータを異ならせてもよい。また、カバーが複数種類ある場合には、カバーの種類に応じてパラメータが異なってもよい。

図８は、本変形例におけるパラメータファイルを例示する図である。この例において、パラメータＰ１は、ある機種の移動通信端末１００において、アクセサリを何も装着していない場合に用いられるパラメータである。また、パラメータＰ２は、同機種の移動通信端末１００においてあるマイク（マイク１）を装着した場合のパラメータであり、パラメータＰ３は、パラメータＰ２とは別の機種のマイク（マイク２）を装着した場合のパラメータである。なお、パラメータファイルは、同図のパラメータＰ６が示すように、複数のアクセサリ（マイク１とカバー２）を装着した場合に用いられるパラメータを含んでもよい。

なお、移動通信端末１００の収音特性は、ユーザによる筐体の持ち方によっても変化する。よって、パラメータファイルは、ユーザの持ち方に応じたパラメータを含むように構成されてもよい。ユーザの持ち方は、例えば、移動通信端末１００の筐体にセンサを設けることで判定することが可能である。

（２）ユーザの行動には、一定の規則性が認められる場合がある。例えば、労働者にあっては、平日の朝から夕方頃までは勤務地において労働し、その前後には電車や自動車によって移動（通勤）し、それ以外の時間帯には自宅にいる、といった行動をとる者も多い。このように、ユーザの行動と（１日の中の）時間との間に相関がある場合には、時間と収音条件との間にも相関性が認められる場合がある。また、同様に、ユーザの位置と収音条件との間にも相関性が認められる場合がある。

このような相関性がある場合には、音声データの収音時の時間を示す時刻データを条件データとして用い、収音条件を時刻データに基づいて特定することも可能である。この場合、パラメータファイルは、時間帯毎に異なるパラメータを含むように構成される。また、この場合のパラメータファイルは、移動通信端末１００の機種毎ではなく、ユーザ毎に異なるものになる。なお、時間帯と収音条件の相関性は、過去の条件データに基づいて特定することが可能である。例えば、移動通信端末１００は、過去のどの時刻に収音した音声データがどのような収音特性を示すかといった履歴を記録し、この履歴に基づいてそれぞれの時間帯に応じたパラメータを決定することが可能である。

図９は、本変形例におけるパラメータファイルを例示する図である。この例において、パラメータＰ１、Ｐ２、Ｐ３は、それぞれ、あるユーザの移動通信端末１００において朝（６時００分〜１０時５９分）、昼（１１時００分〜１７時５９分）、夜（１８時００分〜翌５時５９分）に用いられるパラメータである。

（３）上述した実施例は、本発明を音声エージェントサービスに適用したものである。しかし、本発明は、音声認識を利用する他のサービスにも利用可能である。例えば、本発明は、音声による文字入力、すなわち、音声データをテキストデータに変換するサービスにも適用可能である。この場合、本発明に係る処理実行部は、例えば、テキストデータを文字列として画面に表示させる処理を実行する手段である。また、本発明に係る調整部は、表示された文字列がユーザの意図どおりであるか否かを示す操作データを取得し、これに基づいてパラメータの調整を行うようにしてもよい。

（４）上述した実施例は、本発明に係る音声処理装置を移動通信端末１００が備える構成である。しかし、本発明に係る音声処理装置は、移動通信端末１００によってではなく、音声認識サーバ２００Ａによって実現されてもよい。例えば、移動通信端末１００が（補正前の）音声データと条件データを音声認識サーバ２００Ａに送信し、音声認識サーバ２００Ａがこれらを受信して取得するように構成されれば、音声認識サーバ２００Ａにおいて音声データを補正することが可能である。

また、音声認識サーバ２００Ａの機能と意図解釈サーバ２００Ｂの機能とは、それぞれ別体の装置において実現されなくてもよい。つまり、これらの機能は、同一の装置において実現することも可能である。したがって、図５に示した各機能（補正部１１２、音声変換部２１２、調整部２１３、処理実行部２１８など）は、同一の装置において実現されてもよいし、それぞれ別体の装置において実現されてもよいといえる。

（５）本発明において、ユーザに使用される通信端末は、スマートフォンやタブレットＰＣに限定されず、例えば、ゲーム機、音楽プレーヤなどにも適用可能である。また、本発明は、音声処理装置やこれを備えた音声処理システムとしてだけではなく、音声処理システムを用いた音声処理方法、コンピュータを本発明の音声処理装置として機能させるためのプログラムなどとして特定されてもよい。さらに、本発明に係るプログラムは、光ディスクなどの記録媒体に記録した形態や、インターネットなどのネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にする形態などでも提供することができる。

１０…音声処理システム、１００…移動通信端末、１１０…制御部、１１１…取得部、１１２…補正部、１１３…出力部、１２０…記憶部、１３０…通信部、１４０…表示部、１５０…操作部、１６０…音声入出力部、１７０…センサ部、１８０…測位部、２００Ａ…音声認識サーバ、２００Ｂ…意図解釈サーバ、２１０…制御部、２１１…取得部、２１２…音声変換部、２１３…調整部、２１４…記憶制御部、２１５…出力部、２１６…取得部、２１７…意図解釈部、２１８…処理実行部、２１９…出力部、２２０…記憶部、２３０…通信部、３００…ネットワーク

Claims

ユーザの音声を示す音声データを取得する第１取得部と、
前記音声データの収音条件を示す条件データを取得する第２取得部と、
収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、
前記補正された音声データを出力する出力部と
を備える音声処理システム。
前記条件データは、音声を収音する収音装置の収音時の状態を示すデータを含む
請求項１に記載の音声処理システム。
前記条件データは、前記収音装置の動き又は前記収音装置と前記ユーザとの位置関係を示すデータを含む
請求項２に記載の音声処理システム。
前記条件データは、音声を収音する収音装置の収音時の位置又は時間を示すデータを含み、
前記補正部は、前記収音装置について取得された過去の条件データに基づいて、補正に用いる前記パラメータを選択する
を備える請求項１ないし３のいずれか１項に記載の音声処理システム。
前記出力部により出力された音声データに対応して行われた前記ユーザの操作を示す操作データを取得する第３取得部と、
前記複数のパラメータのうち前記出力された音声データの補正に用いた前記パラメータを、前記取得された操作データに基づいて調整する調整部と
を備える請求項１ないし４のいずれか１項に記載の音声処理システム。
前記出力部により出力された音声データをテキストデータに変換する音声変換部と、
前記変換されたテキストデータに基づく処理を実行する処理実行部とを備え、
前記第３取得部は、前記処理の実行結果に応じて行われた操作を示すデータを前記操作データとして取得する
請求項５に記載の音声処理システム。
ユーザの音声を示す音声データを取得する第１取得部と、
前記音声データの収音条件を示す条件データを取得する第２取得部と、
収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、
前記補正された音声データを出力する出力部と
を備える音声処理装置。
ユーザの音声を示す音声データを取得するステップと、
前記音声データの収音条件を示す条件データを取得するステップと、
収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、
前記補正された音声データを出力するステップと
を有する音声処理方法。
コンピュータに、
ユーザの音声を示す音声データを取得するステップと、
前記音声データの収音条件を示す条件データを取得するステップと、
収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、
前記補正された音声データを出力するステップと
を実行させるためのプログラム。