JP2014109601A - 音声処理システム、音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理システム、音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
JP2014109601A
JP2014109601A JP2012262402A JP2012262402A JP2014109601A JP 2014109601 A JP2014109601 A JP 2014109601A JP 2012262402 A JP2012262402 A JP 2012262402A JP 2012262402 A JP2012262402 A JP 2012262402A JP 2014109601 A JP2014109601 A JP 2014109601A
Authority
JP
Japan
Prior art keywords
data
voice
condition
sound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012262402A
Other languages
English (en)
Inventor
Toshiharu Kurisu
俊治 栗栖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012262402A priority Critical patent/JP2014109601A/ja
Publication of JP2014109601A publication Critical patent/JP2014109601A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】収音する環境の相違に起因する音質の相違を低減する。
【解決手段】移動通信端末は、所定のアプリケーションを起動すると(S1)、当該端末の識別情報を音声認識サーバに送信する(S2)。音声認識サーバは、この識別情報に応じたパラメータファイルを移動通信端末に送信する(S3)。このパラメータファイルは、収音条件に応じて異なる複数のパラメータを含んでいる。移動通信端末は、音声データを生成するに先立ち、収音条件を示す条件データを取得し(S4)、パラメータファイルに含まれる複数のパラメータの中から収音条件に応じたパラメータを特定する(S5)。そして、移動通信端末は、音声データを生成し(S6)、これを収音条件に応じたパラメータによって補正する(S7)。
【選択図】図6

Description

本発明は、音声認識に関する。
文字入力の代替手段としての音声入力の普及が進んでおり、情報の検索などに利用可能になっている。特に、携帯機器においては、ユーザが時間や場所を問わずにこれを利用することが可能である。しかし、時間も場所も一定でないということは、ユーザの音声を収音する環境も一定でないということである。そうすると、その環境によっては、ユーザの音声が適切に収音できず、音声認識の精度が低下する場合がある。
特許文献1には、オーディオ信号処理システムにおいて、マイクの識別情報をサーバに送信し、それぞれのマイクに応じた調整パラメータを設定することが記載されている。特許文献1に記載された技術によれば、マイクの機種が変わったりした場合であっても、ユーザが自ら設定することなく自動的に設定が行われるようにすることができる。
特開2010−152153号公報
特許文献1に記載された技術によれば、マイクの機種の相違に起因する音質の相違を低減させ得るといえるが、収音する環境の相違に起因する音質の相違を低減できるとはいえない。
一方、本発明の目的は、収音する環境の相違に起因する音質の相違を低減できる技術を提供することにある。
本発明は、ユーザの音声を示す音声データを取得する第1取得部と、前記音声データの収音条件を示す条件データを取得する第2取得部と、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、前記補正された音声データを出力する出力部とを備える音声処理システムを提供する。
また、前記条件データは、音声を収音する収音装置の収音時の状態を示すデータを含む構成であってもよい。
また、前記条件データは、前記収音装置の動き又は前記収音装置と前記ユーザとの位置関係を示すデータを含む構成であってもよい。
また、前記条件データは、音声を収音する収音装置の収音時の位置又は時間を示すデータを含み、前記補正部は、前記収音装置について取得された過去の条件データに基づいて、補正に用いる前記パラメータを選択する構成であってもよい。
また、前記音声処理システムは、前記出力部により出力された音声データに対応して行われた前記ユーザの操作を示す操作データを取得する第3取得部と、前記複数のパラメータのうち前記出力された音声データの補正に用いた前記パラメータを、前記取得された操作データに基づいて調整する調整部とを備える構成であってもよい。
また、前記音声処理システムは、前記出力部により出力された音声データをテキストデータに変換する音声変換部と、前記変換されたテキストデータに基づく処理を実行する処理実行部とを備え、前記第3取得部は、前記処理の実行結果に応じて行われた操作を示すデータを前記操作データとして取得する構成であってもよい。
また、本発明は、ユーザの音声を示す音声データを取得する第1取得部と、前記音声データの収音条件を示す条件データを取得する第2取得部と、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、前記補正された音声データを出力する出力部とを備える音声処理装置を提供する。
また、本発明は、ユーザの音声を示す音声データを取得するステップと、前記音声データの収音条件を示す条件データを取得するステップと、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、前記補正された音声データを出力するステップとを有する音声処理方法を提供する。
また、本発明は、コンピュータに、ユーザの音声を示す音声データを取得するステップと、前記音声データの収音条件を示す条件データを取得するステップと、収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、前記補正された音声データを出力するステップとを実行させるためのプログラムを提供する。
本発明によれば、収音する環境の相違に起因する音質の相違を低減できる技術を提供することが可能である。
音声処理システムの全体構成を示すブロック図 移動通信端末のハードウェア構成を示すブロック図 音声認識サーバ、意図解釈サーバのハードウェア構成を示すブロック図 音声認識サーバに記憶されているパラメータファイルを示す模式図 移動通信端末、音声認識サーバ及び意図解釈サーバの機能的構成を示すブロック図 音声エージェントサービスの利用時に実行される処理を示すシーケンスチャート 音声エージェントサービスの利用時に実行される処理を示すシーケンスチャート パラメータファイルを例示する図 パラメータファイルを例示する図
[実施例]
図1は、本発明の一実施例である音声処理システム10の全体構成を示すブロック図である。音声処理システム10は、移動通信端末100と、音声認識サーバ200Aと、意図解釈サーバ200Bとを備え、これらがネットワーク300によって相互に通信可能に接続された構成を有する。ネットワーク300は、移動体通信網やインターネットであるが、通信方式が異なる複数のネットワークを互いに接続したものであってもよい。なお、移動通信端末100、音声認識サーバ200A、意図解釈サーバ200Bは、図1にそれぞれ1つずつ図示されているが、複数あってもよい。
移動通信端末100は、ユーザによって携帯されて使用される通信端末である。移動通信端末100は、例えば、いわゆるスマートフォンやいわゆるタブレットPC(Personal Computer)である。移動通信端末100は、情報の検索やアプリケーションの実行などの指示を音声で受け付けることが可能である。すなわち、移動通信端末100は、収音装置として機能することができる。
音声認識サーバ200Aは、音声認識処理を実行するためのサーバ装置である。ここにおいて、音声認識とは、音声データを解析してテキストデータに変換することをいう。また、意図解釈サーバ200Bは、音声認識サーバ200Aにおける音声認識処理によって得られたテキストデータの構文等を解析し、ユーザの意図(要求)を解釈するためのサーバ装置である。
音声処理システム10は、移動通信端末100、音声認識サーバ200A及び意図解釈サーバ200Bによって音声エージェントサービスを提供する。ここにおいて、音声エージェントサービスとは、ユーザが移動通信端末100に話しかけることで情報の検索を実行したり、移動通信端末100に対する操作を行ったりすることを可能にするサービスをいう。このサービスにより、ユーザは、文字入力を行わなくても(あるいは、少ない文字入力で)必要な機能を利用したり、ボタンの押下やアイコンのタップのような(手による)操作を音声入力で代替したりすることができるようになる。本実施例の音声エージェントサービスは、移動通信端末100に所定のキャラクタ(著作物の実在又は架空の登場人物、動物など)を表示させ、このキャラクタと対話するような形態で提供されるものとする。
図2は、移動通信端末100のハードウェア構成を示すブロック図である。同図に示すように、移動通信端末100は、制御部110と、記憶部120と、通信部130と、表示部140と、操作部150と、音声入出力部160と、センサ部170と、測位部180とを備える。
制御部110は、移動通信端末100の各部の動作を制御する手段である。制御部110は、CPU(Central Processing Unit)等の演算処理装置とメモリとを備え、プログラムを実行することによって所定の機能を実現する。制御部110が実行するプログラムには、音声エージェントサービスを利用するためのアプリケーションプログラムが含まれる。以下においては、このアプリケーションプログラムのことを「音声エージェントアプリ」又は単に「アプリ」という。
記憶部120は、データを記憶する手段である。記憶部120は、フラッシュメモリ等の記憶媒体を備え、制御部110が必要とするデータを記憶する。記憶部120は、移動通信端末100を識別するための識別情報を記憶している。この識別情報は、例えばIMEI(International Mobile Equipment Identity)である。IMEIは、各端末の製造者や機種を特定可能な情報である。
通信部130は、ネットワーク300を介してデータを送受信する手段である。通信部130は、アンテナや、ネットワーク300の通信方式に対応したモデムなどを備え、データの変調・復調といったデータ通信に必要な処理を実行する。
表示部140は、画像を表示する手段である。表示部140は、液晶素子や有機EL(electroluminescence)素子により構成された表示パネル(すなわち表示領域)とこれを駆動する駆動回路とを備え、画像データに応じた画像を表示する。
操作部150は、ユーザの操作を受け付ける手段である。操作部150は、テンキー等のボタンを備え、ユーザの操作に応じた操作データを制御部110に供給する。あるいは、操作部150は、表示部140の表示領域に対応して設けられるタッチスクリーンを備える構成であってもよい。
音声入出力部160は、音声を入力及び出力する手段である。音声入出力部160は、スピーカ及びマイクを備え、音声データに応じた音声を再生したり、音声を収音して音声データを生成したりする。なお、音声入出力部160は、スピーカ及びマイクに代えて、これを接続するための接続部(端子、無線通信部など)を備えてもよいし、スピーカ及びマイクと接続部の双方を備えてもよい。
センサ部170は、移動通信端末100の状態を検出する手段である。センサ部170は、1又は複数のセンサを含んで構成される。センサ部170に含まれるセンサとしては、例えば、加速度を検出するための加速度センサ、地磁気を検出するための磁界センサ、方位を検出するための方位センサ、角度ないし角速度を検出するためのジャイロセンサ、明るさを検出するための輝度センサ、気圧を検出するための圧力センサ、気温を検出するための温度センサ、近接する物体(例えばユーザの顔)を検出するための近接センサなどが挙げられる。これらのセンサは、所期の状態を検出できるような適当な位置に設けられている。センサ部170は、このようなセンサの出力値を示すセンサデータを制御部110に供給する。
測位部180は、移動通信端末100の位置を測定する手段である。測位部180は、GPS(Global Positioning System)などの所定の測位方式によって移動通信端末100の位置を測定し、その測定結果を示す位置データ(例えば、緯度と経度の組み合わせ)を制御部110に供給する。
図3は、音声認識サーバ200A、意図解釈サーバ200Bのハードウェア構成を示すブロック図である。音声認識サーバ200A及び意図解釈サーバ200Bは、その主要なハードウェア構成が共通している。そこで、ここでは、説明の重複を避けるため、これらのサーバ装置の構成を同一のブロック図によって説明する。
音声認識サーバ200A及び意図解釈サーバ200Bは、それぞれ、制御部210と、記憶部220と、通信部230とを備える。制御部210は、演算処理装置やメモリを備え、所定のプログラムを実行することによって自装置の各部の動作を制御する。記憶部220は、ハードディスク等の記憶媒体を備え、制御部210が必要とするデータを記憶する。通信部230は、データの変調・復調といったデータ通信に必要な処理を実行し、ネットワーク300を介して移動通信端末100とデータを送受信する。
音声認識サーバ200Aは、音声認識に必要な言語モデルとパラメータファイルとを記憶している。言語モデルは、N-gramなどの周知のモデルを用いることができる。パラメータファイルは、音声データの補正に用いられるパラメータの集合であり、例えば、ゲイン(マイクゲイン)やフィルタ係数である。言語モデル及びパラメータファイルは、必要に応じて、所定のタイミング(例えば1日1回)で更新される。
図4は、音声認識サーバ200Aに記憶されているパラメータファイルを示す模式図である。同図に示すように、音声認識サーバ200Aは、移動通信端末100の機種毎にパラメータファイルを記憶している。すなわち、パラメータファイルは、移動通信端末100の機種に応じて異なる。また、それぞれのパラメータファイルには、収音条件毎のパラメータが記述されている。
ここにおいて、収音条件とは、音声を収音するときの条件をいい、収音装置(ここでは移動通信端末100)がどのような状態又は環境でユーザの音声を収音したかを示すものである。本実施例の収音条件は、移動通信端末100の収音時の位置又は状態を少なくとも含む。ここにおいて、移動通信端末100の収音時の状態とは、移動通信端末100の動きであってもよいし、移動通信端末100とユーザとの位置関係であってもよい。
移動通信端末100の収音時の位置は、位置データによって特定可能である。この場合、位置データは、音声データの収音条件を示す条件データに相当する。位置データは、他の事業者によって提供される地図データと照合することにより、その位置が屋内であるか屋外であるかが特定できるようになっている。例えば、位置データによって示される位置が路上などである場合には、当該位置が「屋外」であるとし、位置データによって示される位置が建物などと重なる場合には、当該位置が「屋内」であるとする。
また、移動通信端末100の収音時の状態は、センサデータによって特定可能である。この場合、センサデータは、収音条件を示す条件データに相当する。例えば、近接センサの出力値によって、移動通信端末100とユーザとの位置関係、すなわち、移動通信端末100にユーザの顔が「近接」しているか「離間」しているかを判断することが可能であり、ユーザが移動通信端末100に近付いて発声しているか否かを判断することができる。また、加速度センサやジャイロセンサの出力値によって、ユーザが移動通信端末100を手で持っているか、あるいは机などの固定物の上に載置されているかを判断することができる。
上述したように、パラメータファイルに記述されたそれぞれのパラメータは、収音条件毎に異なる。パラメータファイルには、例えば、「屋外」用のパラメータと「屋内」用のパラメータとが記述される。なお、ここでいう収音条件は、複数の条件を組み合わせたものであってもよい。つまり、パラメータファイルには、移動通信端末100が「屋内」でありかつ「(ユーザの顔に)近接」した場合のパラメータと、移動通信端末100が「屋内」でありかつ「(ユーザの顔に)近接」している場合のパラメータと、「屋内」でありかつ「(ユーザの顔から)離間」している場合のパラメータとが用意されていてもよい。
図5は、移動通信端末100、音声認識サーバ200A及び意図解釈サーバ200Bの機能的構成を示すブロック図である。移動通信端末100、音声認識サーバ200A及び意図解釈サーバ200Bは、それぞれ所定のプログラムを実行することによって、同図に示す各部に相当する機能を実現する。
移動通信端末100の制御部110は、取得部111、補正部112及び出力部113に相当する機能を実現する。音声認識サーバ200Aの制御部210は、取得部211、音声変換部212、調整部213、記憶制御部214及び出力部215に相当する機能を実現する。意図解釈サーバ200Bの制御部210は、取得部216、意図解釈部217、処理実行部218及び出力部219に相当する機能を実現する。
取得部111、211、216は、データを取得する手段である。取得部111、211、216は、自装置の記憶媒体や他の装置からデータを取得することができる。出力部113、215、219は、データを出力する手段である。出力部113、215、219は、自装置の記憶媒体や他の装置からデータを取得することができる。
本実施例において、取得部111は、音声入出力部160を介して音声データを取得する手段(第1取得部)として機能するとともに、記憶部120に記憶された条件データを取得する手段(第2取得部)として機能する。また、取得部211は、ネットワーク300を介して操作データを取得する手段(第3取得部)として機能する。
補正部112は、音声データを補正する手段である。補正部112は、取得部111により取得された音声データを、取得部111により取得されたパラメータを用いて補正する。このとき、補正部112は、取得部111により取得された条件データを用いて、パラメータファイルに含まれる複数のパラメータから音声データの収音時の収音条件に対応するパラメータを選択し、選択したパラメータによって音声データを補正する。
補正部112は、音声認識サーバ200Aにおいて音声認識される音声が(入力された音声によらず)一定の音質になるように音声データを補正する。補正部112による補正は、例えば、ゲインの補正である。音声データのゲインを収音条件に応じて補正することにより、ユーザの音声は、この補正を行わない場合に比べて収音条件の差に起因する音量の差が小さくなる。
音声変換部212は、音声認識によって音声データをテキストデータに変換する手段である。ここにおいて、テキストデータとは、所定の文字コードによって文字が記述されたデータをいう。音声変換部212による音声認識には、言語モデルを用いた周知の適当な手法が用いられればよい。音声変換部212は、音声認識によって得られたテキストデータを出力部215に供給する。
調整部213は、パラメータを調整する手段である。調整部213は、音声データの補正に用いたパラメータを、当該音声データを音声認識することによって実行された処理に対するユーザの操作に基づいて調整する。具体的には、調整部213は、ユーザの操作に基づいて音声認識に応じて実行した処理が適切であったか否かを判断し、適切でない場合にはパラメータを調整する。換言すれば、調整部213は、音声認識の結果として実行された処理がユーザが期待したものであったか否かを判断し、ユーザが期待した結果が得られなかった場合に音声認識が適切に行われなかったとみなし、パラメータを調整する。
記憶制御部214は、パラメータの読み書きを制御する手段である。記憶制御部214は、調整部213からの要求に応じて、音声認識サーバ200Aの記憶部220に記憶されたパラメータを読み出し、調整後のパラメータを再び記憶部220に記録する。
意図解釈部217は、テキストデータに変換された文章の意図を解釈する手段である。意図解釈部217は、テキストデータに変換された文章の構文を解析し、ユーザの意図、すなわち、ユーザが移動通信端末100に対して要求している処理を解釈する。なお、構文解析には周知の適当な手法が用いられればよい。
処理実行部218は、ユーザの意図に応じた処理を実行する手段である。処理実行部218は、意図解釈部217により解釈された文章の意図に基づき、所定の処理を実行する。例えば、ユーザの意図が情報の検索である場合、処理実行部218は、意図解釈部217により解釈された文章からキーワードを特定するとともに、特定したキーワードによって検索を実行し、その検索結果を表示させるためのデータを移動通信端末100に送信する処理を実行する。また、処理実行部218は、移動通信端末100に所定のアプリケーションを起動させるなどの所定の処理を実行するための命令を移動通信端末100に送信する処理を実行してもよい。
音声処理システム10の構成は、以上のとおりである。ユーザは、このような構成を有する音声処理システム10を用いて、音声エージェントサービスを利用することができる。ユーザは、例えば、富士山の高さを調べるといったような情報の検索を行う場合であれば、「富士山の高さは?」と移動通信端末100に話しかければよい。この場合、移動通信端末100は、音声データを音声認識サーバ200Aに送信する。音声認識サーバ200Aは、この音声データをテキストデータに変換し、意図解釈サーバ200Bに送信する。意図解釈サーバ200Bは、テキストデータに基づいて「富士山」の「高さ」を知ることがユーザの意図であると解釈し、これらをキーワードとして用いた検索を実行し、検索結果を音声及び画像(又はこれらの一方)で通知するためのデータを移動通信端末100に送信する。この結果、移動通信端末100においては、「富士山の高さは?」という問いかけに対し、例えば「富士山の高さは、3776メートルです。」といった回答を得ることができる。
あるいは、ユーザは、移動通信端末100に特定の機能を実行させるための指示を音声で行うことも可能である。例えば、移動通信端末100にアラーム機能がある場合に、ユーザが「12時30分にアラームをセット」と移動通信端末100に話しかけると、12時30分にアラームが鳴るようにアラーム機能を制御することが可能である。
音声処理システム10において、ユーザの意図を正確に把握するためには、音声データの音質がなるべく均質になることが望ましい。なぜならば、例えば、ユーザの音声が小さすぎたり、あるいは逆に大きすぎたりすると、音声データからテキストデータへの変換精度が低下する場合があるからである。そこで、音声処理システム10においては、以下のような手順で処理を実行することにより、音声認識サーバ200Aにおいて音声認識される音声が一定の音質になるようにしている。
図6、図7は、音声エージェントサービスの利用時に移動通信端末100、音声認識サーバ200A及び意図解釈サーバ200Bにおいて実行される処理を示すシーケンスチャートである。音声エージェントサービスを利用するときには、ユーザは、音声エージェントアプリを移動通信端末100に実行させる必要がある。移動通信端末100は、ユーザから所定の操作を受け付けることにより、音声エージェントアプリを起動する(ステップS1)。
移動通信端末100は、音声エージェントアプリを起動すると、自機の識別情報を音声認識サーバ200Aに送信する(ステップS2)。この識別情報は、移動通信端末100の機種を特定可能な情報である。音声認識サーバ200Aは、識別情報を受信すると、受信した識別情報に応じたパラメータファイルを移動通信端末100に送信する(ステップS3)。なお、パラメータファイルは、音声エージェントアプリの起動時のみに限らず、その後も適当なタイミングでそのときの最新のものを適宜受信するようにしてもよい。
また、移動通信端末100は、必要な条件データを取得する(ステップS4)。例えば、必要な条件データが位置データである場合であれば、移動通信端末100は測位を実行し、位置データを取得する。なお、移動通信端末100は、センサデータを条件データとして取得してもよい。次いで、移動通信端末100は、ステップS3において受信したパラメータファイルから現時点での収音条件に対応するパラメータを特定する(ステップS5)。移動通信端末100は、ステップS4において取得した条件データに基づいて収音条件を特定し、特定した収音条件に応じたパラメータを特定することができる。
これらの処理により、音声を収音するための準備が整い、移動通信端末100は音声入力を受け付けることができる状態になる。このような状態になったら、ユーザは、移動通信端末100に向けて音声を発する。移動通信端末100は、この音声を収音し、音声データを生成する(ステップS6)。次に、移動通信端末100は、音声入出力部160を介して取得した補正前の音声データに対し、ステップS5において特定したパラメータを用いて補正を行う(ステップS7)。そして、移動通信端末100は、補正後の音声データを音声認識サーバ200Aに送信する(ステップS8)。
音声認識サーバ200Aは、音声データを受信すると、音声認識処理を実行し、音声データをテキストデータに変換する(ステップS9)。そして、音声認識サーバ200Aは、変換後のテキストデータを移動通信端末100に送信する(ステップS10)。移動通信端末100は、このテキストデータを意図解釈サーバ200Bに送信する(ステップS11)。なお、このとき移動通信端末100は、音声認識されたテキストデータをいったん表示部140に表示してもよい。
意図解釈サーバ200Bは、テキストデータを受信すると、意図解釈処理を実行し(ステップS12)、解釈した意図に応じた処理を実行する(ステップS13)。このとき、意図解釈サーバ200Bは、情報の検索を行ったり、移動通信端末100に所定の処理を実行させるためのコマンドを示すデータを生成したりする。そして、意図解釈サーバ200Bは、ステップS13において実行した処理に応じたデータ(以下「応答データ」という。)を移動通信端末100に送信する(ステップS14)。応答データは、音声や画像を再生するためのデータである。
移動通信端末100は、応答データを受信すると、受信した応答データに応じた処理を実行する(ステップS15)。ステップS15の処理は、例えば、ユーザの問いかけに応じた情報(すなわち検索結果)を文字や音声によって再生する処理や、所定のアプリケーションプログラムを実行する処理である。このとき、移動通信端末100は、表示部140にキャラクタを表示させ、あたかもキャラクタがユーザの問いかけに答えているように音声や画像を再生してもよい。
図7に示す処理は、パラメータの調整を行う場合に必要な処理であり、ステップS15の処理の後に実行されるものである。ここにおいて、移動通信端末100は、応答データが示す応答が適切であったか否かを示す操作データと、ステップS7の補正に用いたパラメータ(又は、当該パラメータを識別できる情報)を音声認識サーバ200Aに送信する(ステップS16)。このとき送信する操作データは、例えば、ステップS15の処理に合わせ、「この情報はあなたのお役に立ちましたか?」といった質問をユーザに行い、「はい」又は「いいえ」といった回答の入力を促すことで得られたものである。あるいは、移動通信端末100は、所定の判断基準を用いて、例えば、応答データによって示される情報に対してユーザがより詳細な情報を求めるための操作を行った場合には応答が適切であったと判断し、ユーザが音声入力を再度実行した場合には応答が適切でなかったと判断してもよい。
音声認識サーバ200Aは、このような操作データを受信したら、パラメータの調整を実行するか否かを判断する(ステップS17)。例えば、音声認識サーバ200Aは、同一の機種において同一の収音条件で得られた操作データを集計し、応答データが示す応答が適切であった場合とそうでなかった場合の比率を算出し、その比率が所定の割合を下回った場合にパラメータの調整を実行すると判断する。そして、音声認識サーバ200Aは、パラメータの調整を実行すると判断した場合に、該当するパラメータファイルを読み出し、調整が必要であると判断したパラメータを調整する(ステップS18)。
以上のとおり、本実施例によれば、音声データに対して収音時の収音条件に応じた補正が行われることにより、音声認識サーバ200Aには均質な音質で音声データが入力されるようになる。したがって、音声認識サーバ200Aにおいては、このような補正を行わない場合よりも音声認識の精度の向上が期待できる。また、本実施例によれば、ユーザが移動するなどして収音条件が時々刻々と変化する場合であっても、そのときどきの状況に応じたパラメータで音声データを補正することが可能である。
また、本実施例によれば、ユーザからの操作データによってパラメータを調整することができるため、音声認識等の処理の結果をパラメータにフィードバックさせることが可能である。このとき、パラメータの調整が機種毎及び収音条件毎に行われるため、それぞれの機種及び収音条件に応じたきめ細かい調整を行うことが可能である。
[変形例]
本発明は、上述した実施例の態様に限らず、他の態様でも実施することができる。以下に示すのは、本発明の他の態様の一例である。なお、これらの変形例は、必要に応じて、各々を適宜組み合わせることも可能である。
(1)本発明のパラメータファイルは、機種毎に異なっていなくてもよい。例えば、同一のメーカー製の端末間において収音特性が類似ないし共通していると認められる場合であれば、これらの端末のパラメータファイルを共通にしてもよい。
また、本発明のパラメータファイルは、機種毎よりもさらに細かく分類されていてもよい。例えば、移動通信端末100がアクセサリ(付属品)を装着可能である場合には、移動通信端末100に装着されたアクセサリに応じたパラメータがそれぞれ用意されてもよい。
例えば、移動通信端末100が外付けのマイク(すなわち収音装置)を装着可能である場合、マイクを装着した場合とそうでない場合とでは収音特性が当然異なり、結果として収音条件が変化する。そこで、このような場合には、マイクの装着の有無によってパラメータを異ならせてもよい。さらには、移動通信端末100においてマイクの機種を識別可能である場合には、マイクの機種に応じてパラメータが異なってもよい。
また、移動通信端末100に衝撃保護用等のカバーを装着可能である場合にも、カバーを装着したか否かによって収音特性が異なり得る。そこで、このような場合には、カバーの装着の有無によってパラメータを異ならせてもよい。また、カバーが複数種類ある場合には、カバーの種類に応じてパラメータが異なってもよい。
図8は、本変形例におけるパラメータファイルを例示する図である。この例において、パラメータP1は、ある機種の移動通信端末100において、アクセサリを何も装着していない場合に用いられるパラメータである。また、パラメータP2は、同機種の移動通信端末100においてあるマイク(マイク1)を装着した場合のパラメータであり、パラメータP3は、パラメータP2とは別の機種のマイク(マイク2)を装着した場合のパラメータである。なお、パラメータファイルは、同図のパラメータP6が示すように、複数のアクセサリ(マイク1とカバー2)を装着した場合に用いられるパラメータを含んでもよい。
なお、移動通信端末100の収音特性は、ユーザによる筐体の持ち方によっても変化する。よって、パラメータファイルは、ユーザの持ち方に応じたパラメータを含むように構成されてもよい。ユーザの持ち方は、例えば、移動通信端末100の筐体にセンサを設けることで判定することが可能である。
(2)ユーザの行動には、一定の規則性が認められる場合がある。例えば、労働者にあっては、平日の朝から夕方頃までは勤務地において労働し、その前後には電車や自動車によって移動(通勤)し、それ以外の時間帯には自宅にいる、といった行動をとる者も多い。このように、ユーザの行動と(1日の中の)時間との間に相関がある場合には、時間と収音条件との間にも相関性が認められる場合がある。また、同様に、ユーザの位置と収音条件との間にも相関性が認められる場合がある。
このような相関性がある場合には、音声データの収音時の時間を示す時刻データを条件データとして用い、収音条件を時刻データに基づいて特定することも可能である。この場合、パラメータファイルは、時間帯毎に異なるパラメータを含むように構成される。また、この場合のパラメータファイルは、移動通信端末100の機種毎ではなく、ユーザ毎に異なるものになる。なお、時間帯と収音条件の相関性は、過去の条件データに基づいて特定することが可能である。例えば、移動通信端末100は、過去のどの時刻に収音した音声データがどのような収音特性を示すかといった履歴を記録し、この履歴に基づいてそれぞれの時間帯に応じたパラメータを決定することが可能である。
図9は、本変形例におけるパラメータファイルを例示する図である。この例において、パラメータP1、P2、P3は、それぞれ、あるユーザの移動通信端末100において朝(6時00分〜10時59分)、昼(11時00分〜17時59分)、夜(18時00分〜翌5時59分)に用いられるパラメータである。
(3)上述した実施例は、本発明を音声エージェントサービスに適用したものである。しかし、本発明は、音声認識を利用する他のサービスにも利用可能である。例えば、本発明は、音声による文字入力、すなわち、音声データをテキストデータに変換するサービスにも適用可能である。この場合、本発明に係る処理実行部は、例えば、テキストデータを文字列として画面に表示させる処理を実行する手段である。また、本発明に係る調整部は、表示された文字列がユーザの意図どおりであるか否かを示す操作データを取得し、これに基づいてパラメータの調整を行うようにしてもよい。
(4)上述した実施例は、本発明に係る音声処理装置を移動通信端末100が備える構成である。しかし、本発明に係る音声処理装置は、移動通信端末100によってではなく、音声認識サーバ200Aによって実現されてもよい。例えば、移動通信端末100が(補正前の)音声データと条件データを音声認識サーバ200Aに送信し、音声認識サーバ200Aがこれらを受信して取得するように構成されれば、音声認識サーバ200Aにおいて音声データを補正することが可能である。
また、音声認識サーバ200Aの機能と意図解釈サーバ200Bの機能とは、それぞれ別体の装置において実現されなくてもよい。つまり、これらの機能は、同一の装置において実現することも可能である。したがって、図5に示した各機能(補正部112、音声変換部212、調整部213、処理実行部218など)は、同一の装置において実現されてもよいし、それぞれ別体の装置において実現されてもよいといえる。
(5)本発明において、ユーザに使用される通信端末は、スマートフォンやタブレットPCに限定されず、例えば、ゲーム機、音楽プレーヤなどにも適用可能である。また、本発明は、音声処理装置やこれを備えた音声処理システムとしてだけではなく、音声処理システムを用いた音声処理方法、コンピュータを本発明の音声処理装置として機能させるためのプログラムなどとして特定されてもよい。さらに、本発明に係るプログラムは、光ディスクなどの記録媒体に記録した形態や、インターネットなどのネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にする形態などでも提供することができる。
10…音声処理システム、100…移動通信端末、110…制御部、111…取得部、112…補正部、113…出力部、120…記憶部、130…通信部、140…表示部、150…操作部、160…音声入出力部、170…センサ部、180…測位部、200A…音声認識サーバ、200B…意図解釈サーバ、210…制御部、211…取得部、212…音声変換部、213…調整部、214…記憶制御部、215…出力部、216…取得部、217…意図解釈部、218…処理実行部、219…出力部、220…記憶部、230…通信部、300…ネットワーク

Claims (9)

  1. ユーザの音声を示す音声データを取得する第1取得部と、
    前記音声データの収音条件を示す条件データを取得する第2取得部と、
    収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、
    前記補正された音声データを出力する出力部と
    を備える音声処理システム。
  2. 前記条件データは、音声を収音する収音装置の収音時の状態を示すデータを含む
    請求項1に記載の音声処理システム。
  3. 前記条件データは、前記収音装置の動き又は前記収音装置と前記ユーザとの位置関係を示すデータを含む
    請求項2に記載の音声処理システム。
  4. 前記条件データは、音声を収音する収音装置の収音時の位置又は時間を示すデータを含み、
    前記補正部は、前記収音装置について取得された過去の条件データに基づいて、補正に用いる前記パラメータを選択する
    を備える請求項1ないし3のいずれか1項に記載の音声処理システム。
  5. 前記出力部により出力された音声データに対応して行われた前記ユーザの操作を示す操作データを取得する第3取得部と、
    前記複数のパラメータのうち前記出力された音声データの補正に用いた前記パラメータを、前記取得された操作データに基づいて調整する調整部と
    を備える請求項1ないし4のいずれか1項に記載の音声処理システム。
  6. 前記出力部により出力された音声データをテキストデータに変換する音声変換部と、
    前記変換されたテキストデータに基づく処理を実行する処理実行部とを備え、
    前記第3取得部は、前記処理の実行結果に応じて行われた操作を示すデータを前記操作データとして取得する
    請求項5に記載の音声処理システム。
  7. ユーザの音声を示す音声データを取得する第1取得部と、
    前記音声データの収音条件を示す条件データを取得する第2取得部と、
    収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正する補正部と、
    前記補正された音声データを出力する出力部と
    を備える音声処理装置。
  8. ユーザの音声を示す音声データを取得するステップと、
    前記音声データの収音条件を示す条件データを取得するステップと、
    収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、
    前記補正された音声データを出力するステップと
    を有する音声処理方法。
  9. コンピュータに、
    ユーザの音声を示す音声データを取得するステップと、
    前記音声データの収音条件を示す条件データを取得するステップと、
    収音条件に応じて異なる複数のパラメータのうちの前記取得された条件データが示す収音条件に対応するパラメータを用いて、前記取得された音声データを補正するステップと、
    前記補正された音声データを出力するステップと
    を実行させるためのプログラム。
JP2012262402A 2012-11-30 2012-11-30 音声処理システム、音声処理装置、音声処理方法及びプログラム Pending JP2014109601A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012262402A JP2014109601A (ja) 2012-11-30 2012-11-30 音声処理システム、音声処理装置、音声処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012262402A JP2014109601A (ja) 2012-11-30 2012-11-30 音声処理システム、音声処理装置、音声処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2014109601A true JP2014109601A (ja) 2014-06-12

Family

ID=51030287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012262402A Pending JP2014109601A (ja) 2012-11-30 2012-11-30 音声処理システム、音声処理装置、音声処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2014109601A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180915A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、クライアント装置、音声認識方法、プログラム
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108391A (ja) * 2000-09-29 2002-04-10 Nissan Motor Co Ltd 音声入力装置
JP2006251544A (ja) * 2005-03-11 2006-09-21 Clarion Co Ltd 音声認識装置
JP2011129977A (ja) * 2009-12-15 2011-06-30 Nec Casio Mobile Communications Ltd 音声処理装置、音声処理方法、及び、プログラム
WO2012086485A1 (ja) * 2010-12-20 2012-06-28 株式会社ニコン 音声制御装置および撮像装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108391A (ja) * 2000-09-29 2002-04-10 Nissan Motor Co Ltd 音声入力装置
JP2006251544A (ja) * 2005-03-11 2006-09-21 Clarion Co Ltd 音声認識装置
JP2011129977A (ja) * 2009-12-15 2011-06-30 Nec Casio Mobile Communications Ltd 音声処理装置、音声処理方法、及び、プログラム
WO2012086485A1 (ja) * 2010-12-20 2012-06-28 株式会社ニコン 音声制御装置および撮像装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016180915A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、クライアント装置、音声認識方法、プログラム
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム

Similar Documents

Publication Publication Date Title
US20200236463A1 (en) Headphone device, terminal device, information transmitting method, program, and headphone system
EP3591648B1 (en) Information processing apparatus, information processing method, and program
JP6231362B2 (ja) プラント監視サーバーおよびプラント監視方法
US8306641B2 (en) Aural maps
CN103916473B (zh) 行程信息处理方法及相关装置
US20210358323A1 (en) Musical performance support system and method, and musical instrument management system and method
US11948544B2 (en) Musical instrument tuner, musical performance support device and musical instrument management device
US11074292B2 (en) Voice tagging of video while recording
KR20180081922A (ko) 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
US20190049250A1 (en) Information processing apparatus, information processing method, and computer program
JP5948901B2 (ja) 情報処理装置及び情報処理プログラム
CN105528385B (zh) 信息取得方法、信息取得系统以及信息取得程序
JP2014109601A (ja) 音声処理システム、音声処理装置、音声処理方法及びプログラム
KR20110088603A (ko) 내비게이션 시스템, 이에 연결된 서버, 및 차량용 내비게이션의 제어방법
JP6563451B2 (ja) 移動支援装置、移動支援システム、移動支援方法及び移動支援プログラム
WO2012147970A1 (ja) 位置コンテキスト取得装置、位置コンテキスト取得プログラムを記録したコンピュータ読み取り可能な記録媒体、及び位置コンテキスト取得方法
JP5030679B2 (ja) 情報検索端末装置及びサーバ装置
JP6267298B1 (ja) 提供装置、提供方法、提供プログラム、端末装置、出力方法、及び出力プログラム
JP6746735B2 (ja) 情報提示方法、情報提示システム及び情報提示プログラム
JP5593831B2 (ja) 情報処理装置、情報処理システム及び情報処理プログラム。
JP7331345B2 (ja) 操作支援装置、方法及びプログラム
JP2016212312A (ja) 音響特性測定装置、方法およびプログラム
JP2014115769A (ja) 情報提供装置、情報提供方法及びプログラム
JP2010271566A (ja) 音声認識エンジンの管理方法、及び、その音声認識エンジンの管理方法を用いた管理システム、携帯端末、音声認識エンジン管理プログラム
KR20190054400A (ko) 전자 장치의 움직임과 관련된 상태의 변화에 기반하여 데이터를 전송하는 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170620