JP6118838B2 - 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
JP6118838B2
JP6118838B2 JP2015082359A JP2015082359A JP6118838B2 JP 6118838 B2 JP6118838 B2 JP 6118838B2 JP 2015082359 A JP2015082359 A JP 2015082359A JP 2015082359 A JP2015082359 A JP 2015082359A JP 6118838 B2 JP6118838 B2 JP 6118838B2
Authority
JP
Japan
Prior art keywords
unit
data
processing
information processing
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015082359A
Other languages
English (en)
Other versions
JP2016045487A (ja
Inventor
一博 中臺
一博 中臺
武志 水本
武志 水本
圭佑 中村
圭佑 中村
将行 瀧ヶ平
将行 瀧ヶ平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2015082359A priority Critical patent/JP6118838B2/ja
Priority to US14/826,527 priority patent/US9899028B2/en
Publication of JP2016045487A publication Critical patent/JP2016045487A/ja
Application granted granted Critical
Publication of JP6118838B2 publication Critical patent/JP6118838B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムに関する。
音声認識は、収録された音声が示す発話内容を機械が処理可能なテキスト情報に変換する処理である。従来から、種々の使用環境により認識精度が影響されることが知られている。認識精度に影響を与える使用環境には、騒音や残響等の周囲の音響環境、音声認識の用途、等がある。単語辞書とは、認識結果の候補となる単語を含むデータであり、音声認識用のデータの一部を形成していることがある。
使用環境は音声認識が用いられる場面や状況により異なる。例えば、音声認識の使用目的、扱われる分野、等に応じて用いられる語彙が異なる。所定の機器の操作を目的とする場合には、操作コマンドを主とする語彙で足りるが、特定の専門分野が扱われている場合には、汎用の単語辞書では足りず、その分野の語彙が必要とされる。また、自動車の車室内では、エンジン音、空調音、等の騒音のレベルが事務室よりも一般に高いが、車室内では騒音源が明らかな場合が多い。そのため、あらゆる使用環境に適用できる種々の制御パラメータやデータベースを準備することは現実的ではない。
そこで、予め設定された複数の音声認識データベースのうち使用すべき音声認識データベースを認識された単語に応じて切り替えることが提案されている。例えば、特許文献1には、音声データベースを用いて入力発声データの少なくとも一部を解析し、解析して得られた結果を用いて、解析に使用する音声データベースを切り替える音声認識装置について記載されている。当該音声認識装置は、切り替えた音声データベース内の音声データと比較することにより入力発声データを再解析する。
特開2000−181485号公報
特許文献1に記載の音声認識装置において、音声データベースは、複数の階層の辞書を含んで構成される。各階層の辞書は、全国レベル、都道府県レベル、市町村レベル、それぞれの地名や名前を示すデータである。階層間では、地名や名前の地理的範囲が異なるが、使用環境によって異なるものではないため、使用環境に応じた適切な認識結果が得られるとは限られない。
本発明は上記の点に鑑みてなされたものであり、使用環境に応じて有用性を向上することができる情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムを提供する。
(1)本発明の一態様は、入力された音声信号に第1音声認識データを用いて音声認識を行って第1テキストデータを生成する第1音声認識部と、前記第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する第2音声認識部から前記第2テキストデータを受信可能な通信部と、前記第2音声認識部との通信状態に基づいて前記第1音声認識部の動作を停止するか否かを判定する制御部と、前記音声信号に前処理を行って第1音響特徴量を生成する前処理部と、を備え、前記前処理部は、L(Lは1以上の予め定めた整数)階層の階層処理部を備え、第l(lは1以上L以下の整数)階層処理部は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、前記制御部は、前記第1音声認識部の動作を停止する場合、前記通信状態に応じていずれの階層の階層処理部まで動作させるかを判定する情報処理装置である。
(2)本発明の他の態様は、(1)の情報処理装置であって、Lは3であり、第1階層処理部は、複数チャネルの音声信号から音源毎の音源方向を算出する音源定位部であり、第2階層処理部は、前記複数チャネルの音声信号を前記音源毎の音源別音声信号に分離する音源分離部であり、第3階層処理部は、前記音源別音声信号から音響特徴量を算出する特徴量算出部である。
(3)本発明の他の態様は、第1情報処理装置と第2情報処理装置とを備える情報処理システムであって、前記第1情報処理装置は、入力された音声信号に第1音声認識データを用いて音声認識を行って第1テキストデータを生成する第1音声認識部と、前記第2情報処理装置から第2テキストデータを受信可能な通信部と、前記第2情報処理装置との通信状態に基づいて前記第1音声認識部の動作を停止するか否かを判定する制御部と、前記音声信号に前処理を行って第1音響特徴量を生成する前処理部を備え、前記前処理部は、L(Lは1以上の予め定めた整数)階層の階層処理部を備え、第l(lは1以上L以下の整数)階層処理部は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、前記制御部は、前記第1音声認識部の動作を停止する場合、前記通信状態に応じていずれの階層の階層処理部まで動作させるかを判定し、前記第2情報処理装置は、前記音声信号に対して前記第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する第2音声認識部を備える、情報処理システムである。
(4)本発明の他の態様は、第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する音声認識部から前記第2テキストデータを受信可能な通信部を備える情報処理装置における情報処理方法であって、入力された音声信号に前記第1音声認識データを用いて音声認識を行って第1テキストデータを生成する音声認識過程と、前記音声認識部との通信状態に基づいて前記音声認識過程を停止するか否かを判定する制御過程と、前記音声信号に前処理を行って第1音響特徴量を生成する前処理過程と、を有し、前記前処理過程は、L(Lは1以上の予め定めた整数)階層の階層処理過程を有し、第l(lは1以上L以下の整数)階層処理過程は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、前記制御過程は、前記通信状態に基づいて前記音声認識過程を停止する場合、前記通信状態に応じていずれの階層の階層処理過程まで実行するかを判定する情報処理方法である。
(5)本発明の他の態様は、第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する音声認識部から前記第2テキストデータを受信可能な通信部を備える情報処理装置のコンピュータに、入力された音声信号に前記第1音声認識データを用いて音声認識を行って第1テキストデータを生成する音声認識手順、前記音声認識部との通信状態に基づいて前記音声認識手順を停止するか否かを判定する制御手順、前記音声信号に前処理を行って第1音響特徴量を生成する前処理手順と、を実行させるための情報処理プログラムであって、前記前処理手順は、L(Lは1以上の予め定めた整数)階層の階層処理手順を有し、第l(lは1以上L以下の整数)階層処理手順は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、前記制御手順は、前記音声認識手順を停止する場合、前記通信状態に応じていずれの階層の階層処理手順まで実行するかを判定する情報処理プログラムである。
上述した(1)、(3)、(4)又は(5)の構成によれば、第1前処理部を構成する階層処理部のうち動作すべき階層処理部の階層が、通信状態に応じて可変になる。そのため、第2音声認識部に係る処理資源を活用する度合いを、通信状態に応じて適切に制御することができる。
上述した(2)の構成によれば、第1前処理部を構成する音源定位部、音源分離部及び特徴量算出部のうち動作すべき処理部の階層が、通信状態に応じて可変になる。また、音源定位部、音源分離部、特徴量算出部の順に生成されるデータの情報量が少なくなる。そのため、第2音声認識部に係る処理資源を活用する度合いを、各部で生成されるデータの情報量に見合った通信状態に応じて制御することができる。
本発明の第1の実施形態に係る音声処理システムの構成を示すブロック図である。 単語の種別とその例を示す図である。 単語の種別毎に採用すべきテキストデータとその優先度の例を示す優先テーブルである。 本発明の第1の実施形態に係る制御部における制御状態の状態遷移図の例を示す。 本発明の第1の実施形態に係る状態遷移処理の一例を示すフローチャートである。 本発明の第1の実施形態に係る状態遷移処理の他の例を示すフローチャートである。 本発明の第2の実施形態に係る音声処理システムの構成を示すブロック図である。 本発明の第2の実施形態に係る選択テーブルの例を示すデータである。 本発明の第3の実施形態に係る情報処理システムの構成を示すブロック図である。 本発明の第3の実施形態に係る適性データの一例を示す表である。 入力データ、処理結果データの情報量とクラウド処理の適性の一例を示す表である。 本発明の第3の実施形態に係る情報処理の制御例を示すフローチャートである。 本発明の第4の実施形態に係る情報処理システムの構成を示すブロック図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、第1音声処理装置10、第2音声処理装置20、及び収音部30を含んで構成される。第1音声処理装置10と第2音声処理装置20とは、ネットワーク50で接続され、相互にデータが送受信可能である。
第1音声処理装置10は、収音部30から取得した音声信号について第1の音声認識データを用いて音声認識を行って第1のテキストデータを生成し、第2音声処理装置20から第2のテキストデータを受信する。また、第1音声処理装置10は、自装置の使用環境に応じて第1のテキストデータと第2のテキストデータのいずれかを選択する。
使用環境には、例えば、第1音声処理装置10で実行されるアプリケーションソフトウェア(以下、単に「アプリケーション」と呼ぶ)、第1音声処理装置10が利用される空間における騒音、残響等の状態、第2音声処理装置20とのデータの送受信に係る通信路やその状態、等がある。
第1音声処理装置10は、例えば、多機能携帯電話機(いわゆるスマートフォンを含む)、タブレット端末装置、パーソナルコンピュータ(PC:Personal Computer)等の端末装置である。
第2音声処理装置20は、第1音声処理装置10で取得された音声信号について第1の音声認識データよりも汎用性が高い第2の音声認識データを用いて音声認識を行って第2のテキストデータを生成し、生成したテキストデータを第1音声処理装置10に送信する。
第2音声処理装置20は、例えば、ウェブサーバ、データベースサーバ、等のサーバ装置である。
収音部30は、自部に到来した音を収集し、収集した音に基づくM(Mは、1以上の整数)チャネルの音声信号を生成する。収音部30は、例えば、M個のマイクロホンを備えたマイクロホンアレイである。収音部30は、生成した音声信号を第1音声処理装置10に送信する。収音部30は、生成した音声信号を無線で送信してもよいし、有線で送信してもよい。収音部30は、第1音声処理装置10と一体化されていてもよいし、別体であってもよい。
ネットワーク50は、例えば、インターネット、公衆無線通信網(PLMN:Public Land Mobile Network)等の広域通信網(WAN:Wide Area Network)、構内通信網(LAN:Local Area Network)、専用回線、等、いずれであってもよい。
(第1音声処理装置)
次に、第1音声処理装置10の構成について説明する。
第1音声処理装置10は、音声信号取得部110、前処理部111、第1音声認識DB(Database、データベース)115、第1音声認識部116、制御部117、及び通信部120を含んで構成される。
音声信号取得部110は、収音部30から入力されたMチャネルの音声信号を前処理部111に出力する。音声信号取得部110は、例えば、データ入出力インタフェースである。
前処理部111は、音声信号取得部110から入力された音声信号について前処理を行い、前処理により得られた前処理データ(例えば、音響特徴量データ)を第1音声認識部116に出力する。前処理部111は、音源定位部112、音源分離部113、および特徴量算出部114を含んで構成される。
音源定位部112は、音声信号取得部110から入力されたMチャネルの音声信号に基づいて音源毎の方向を予め定めた長さの時間(例えば、50ms)毎に算出する。音源定位部112は、音源方向の算出において、例えば、MUSIC(Multiple Signal Classification)法を用いる。MUSIC法については、後述する。音源定位部112は、算出した音源毎の音源方向を示す音源方向情報とMチャネルの音声信号を音源分離部113に出力する。
音源分離部113には、音源定位部112からMチャネルの音声信号と音源方向情報が入力される。音源分離部113は、Mチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音源別音声信号に分離する。音源分離部113は、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法を用いる。GHDSS法については、後述する。音源分離部113は、分離した音源毎の音源別音声信号を特徴量算出部114に出力する。
特徴量算出部114は、音源分離部113から入力された音源毎の音源別音声信号について音声信号の物理的特徴を示す音響特徴量を所定の時間間隔(例えば、10ms)で算出する。音響特徴量は、例えば、13次のメルスケール対数スペクトル(MSLS:Mel−scale Logarithmic Spectrum)を含む。1セットの音響特徴量には、13次のデルタMSLSやデルタパワーが含まれてもよい。デルタMSLSは、その時点におけるフレーム(現時刻)のMSLSから直前のフレーム(前時刻)のMSLSの差分である。デルタパワーは、現時刻のパワーから前時刻のパワーの差分である。音響特徴量は、これには限られず、例えば、メル周波数ケプストラム係数(MFCC:Mel−frequency Cepstrum Coefficients)であってもよい。特徴量算出部114は、算出した音響特徴量を第1音声認識部116及び通信部120に出力する。
第1音声認識DB115には、第1音声認識データとして音声認識処理に用いられる各種のデータが予め記憶されている。第1音声認識データは、例えば、音響モデル、言語モデル、及び単語辞書を含む。音響モデルは、音響特徴量から音素を認識する際に用いられるデータである。言語モデルは、互いに隣接する複数の音素からなる音素列から複数の単語のセットを認識する際に用いられるデータである。単語辞書は、認識結果となるテキストデータを形成する音素列の候補である単語を示すデータである。なお、音響モデルは、例えば、連続隠れマルコフモデル(continuous HMM:Hidden Markov Model)である。連続HMMは、出力分布密度が連続関数になっているモデルであり、その出力分布密度が複数の正規分布を基底として重み付け加算して表される。言語モデルは、例えば、ある音素に後続する音素からなる音素列の制約や、音素列毎の遷移確率を示すNグラムである。
第1音声認識部116は、特徴量算出部114から入力された音響特徴量について第1音声認識DB115に記憶された第1音声認識データを用いて音声認識処理を行い、発話内容を示す第1テキストデータを生成する。
第1音声認識部116は、音響特徴量について第1音声認識データのうち音響モデルを用いて音素を認識する。第1音声認識部116は、認識した音素の時系列からなる音素列について単語辞書を用いて単語を認識する。第1音声認識部116は、認識した単語からなる単語列について言語モデルを用いて発話内容を示す文章を認識する。第1音声認識部116は、認識した発話内容を示す第1テキストデータを生成し、生成した第1テキストデータを制御部117に出力する。
制御部117は、第1音声処理装置10が行う種々の処理を制御する。例えば、第1テキストデータで指示されたアプリケーションを実行して、第1音声処理装置の機能を発揮する。かかる機能には、例えば、電子メール、文書編集、等における文書作成、現在地から目的地までの経路探索(ナビゲーション)、音楽や映像等の各種のコンテンツの再生、等がある。即ち、第1テキストデータには、文書作成に用いられる単語、目的地の指示に用いられる単語(地名、等)、再生対象のコンテンツ(表題、等)、文章を形成する単語、等、主に動作の対象、目的となる単語が含まれることがある。以下の説明では、これらの単語や、それらの単語を含む文を「メッセージ」と総称する。また、第1テキストデータには、アプリケーションの各種の動作を制御するためのコマンドを示す単語、例えば、動作開始、終了、リセットが含まれることがある。以下の説明では、これらの単語や、それらの単語を含む文を「コマンド」と総称する。
制御部117は、第2音声処理装置20からネットワーク50及び通信部120を介して第2テキストデータを受信する。第2テキストデータにも、メッセージ又はコマンドが含まれる。制御部117は、その機能を実現する際、第1テキストデータと第2テキストデータのうちいずれを採用するかを、それらに含まれる単語の種別、例えば、メッセージであるかコマンドであるかに基づいて定める。
制御部117は、採用すると判定したテキストデータに係る動作を実行する。例えば、制御部117は、第1テキストデータが示すコマンドに基づいてアプリケーションの実行を制御する。制御部117による実行制御の例については後述する。
通信部120は、他の機器との間で各種のデータを送受信する。通信部120は、特徴量算出部114から入力された音響特徴量を第2音声処理装置20に送信する。通信部120は、第2音声処理装置20から受信した第2テキストデータを制御部117に出力する。通信部120は、所定の通信規格、例えば、LTE−A(Long Term Evolution−Advanced)に準拠した無線通信インタフェースである。
(第2音声処理装置)
次に、第2音声処理装置20の構成について説明する。
第2音声処理装置20は、第2音声認識DB215、第2音声認識部216、データ抽出部218、及び通信部220を含んで構成される。
第2音声認識DB215には、第2音声認識データが予め記憶されている。第2音声認識データは、第1音声認識データと同様に音響モデル、言語モデル、及び単語辞書を含む。但し、第2音声認識データは、第1音声認識データよりも汎用性が高いデータである。汎用性が高いとは、例えば、次の(i)−(iii)のいずれか、もしくは、それらの組を満たす状態である。
(i)第2音声認識データに含まれる単語辞書は、第1音声認識データに含まれる単語辞書よりも語彙が豊富、網羅する分野が広範、のいずれかもしくは両者である。
(ii)第2音声認識データに含まれる言語モデルは、第1音声認識データに含まれる言語よりも長文の認識に対応できる。つまり、第2音声認識データに含まれる言語モデルを形成する最高次のNグラムの次数が第1音声認識データよりも高い、同一の次数のNグラムの種類が豊富、のいずれかもしくは両者である。Nグラムとは、N(Nは、1以上の整数)個の単語が同時に出現する確率を示すデータである。
(iii)第2音声認識データに含まれる音響モデルは、代表的もしくは平均的な音響環境(例えば、残響時間、騒音レベル、等)で学習された音響モデルであるのに対し、第1音声認識データに含まれる音響モデルは、第1音声処理装置10が用いられる室内の音響環境に適応したものである。
第1音声認識モデルに含まれる音響モデルは、動作環境下で尤度を高くするように学習されたものであってもよい。そこで、第1音声処理装置10は、例えば、音源分離部113から入力された音源毎の音声信号が、人間が発声した音声の区間を検出(音声区間検出、VAD:Voice Activity Detection)する音声判定部(図示せず)を備えてもよい。音声判定部は、音声信号のフレーム毎のパワーが、所定のパワーの閾値よりも高く、かつ、零交差数が所定の数(例えば、1秒当たり300−1000回)の範囲内である場合、その時点の音声信号のフレームを音声区間であると検出し、それ以外の場合、非音声区間であると判定する。零交差数とは、信号値が0を跨ぐ回数、つまり、負の値から正の値、もしくは正の値から負の値に変化する回数である。また、第1音声処理装置10は、音声区間における認識結果である発話内容を示す第1テキストデータに基づいて尤度を高くするように音響モデルのパラメータである混合重み係数、平均値、共分散行列を調整する音響モデル学習部(図示せず)を備えてもよい。なお、音響モデルの学習は、第1音声処理装置10に限られず、その他の機器で行われてもよい。
第2音声認識部216は、データ抽出部218から入力された音響特徴量について第2音声認識DB215に記憶された第2音声認識データを用いて音声認識処理を行う。第2音声認識部216で行われる音声認識処理は、第1音声認識部116と同様の手法であってもよい。第2音声認識部216は、発話内容を示す第2テキストデータを生成し、生成し第2テキストデータを通信部220に出力する。
データ抽出部218は、通信部220から入力された受信データから音響特徴量を抽出し、抽出した音響特徴量を第2音声認識部216に出力する。
通信部220は、他の機器、例えば、第1音声処理装置10との間で各種のデータを送受信する。通信部220は、第1音声処理装置10から受信した音響特徴量を含んだ受信データをデータ抽出部218に出力する。通信部220は、第2音声認識部216から入力された第2テキストデータを含んだ送信データを第1音声処理装置10に送信する。通信部220は、例えば、通信インタフェースである。
(音源定位)
次に、音源定位の一手法であるMUSIC法について説明する。
音源定位部112は、予め所定の間隔(例えば、1°)に分布した音源方向d毎の伝達関数が記憶されている記憶部を備える。音源定位部112は、各チャネルm(mは、1以上M以下の整数)までの伝達関数A[d][m](ω)を要素とする伝達関数ベクトルD(d)を音源方向d毎に生成する。ωは、角周波数を示す。
音源定位部112は、各チャネルmの音響信号xを所定のサンプル数からなるフレーム毎に周波数領域に変換して変換係数X(ω)を算出し、算出した変換係数から式(1)に示す入力相関行列Rxxを算出する。
Figure 0006118838
式(1)において、E[…]は、…の期待値を示す。[X]は、各チャネルの変換係数を要素とするM次元のベクトルである。[…]は、行列又はベクトルの共役を示す。
次に、音源定位部112は、入力相関行列Rxxの固有値δ及び固有ベクトルeを算出する。入力相関行列Rxx、固有値δ、及び固有ベクトルeは、式(2)に示す関係を有する。
Figure 0006118838
式(2)において、iは、1以上M以下の整数である。インデックスiの順序は、固有値δの降順である。
音源定位部112は、伝達関数ベクトルD(d)と算出した固有ベクトルeに基づいて、式(3)に示す空間スペクトルPsp(d)を算出する。
Figure 0006118838
式(3)において、Kは、検出可能な音源の個数(例えば、1)であり、Mよりも小さい予め定めた自然数である。
音源定位部112は、S/N比が予め定めた閾値(例えば、20dB)よりも大きい周波数帯域における空間スペクトルPsp(d)の総和を拡張空間スペクトルPext(d)として算出する。音源定位部112は、算出した拡張空間スペクトルPext(d)の極大値をとる方向dを音源方向と定める。
なお、音源定位部112は、MUSIC法に代えて、その他の手法を用いて音源方向を算出してもよい。音源定位部112は、例えば、一般化固有値分解(GEVD:Generalized Eigenvalue)−MUSIC法、一般化特異値分解(Generalized Singular Value Decomposition;GSVD−)MUSIC法、重み付き遅延和ビームフォーミング法(WDS−BF:Weighted Delay and Sum Beam Forming)法、等を用いてもよい。
(音源分離)
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS([V(ω)])と幾何制約度(Geometric Constraint)JGC([V(ω)])が、それぞれ低減するように分離行列V(ω)を適応的に算出する方法である。分離行列[V(ω)]は、音源定位部112から入力されたMチャネルの音声信号[x(ω)]=[x(ω),x(ω),…,x(ω)]に乗じることによって、Sチャネルの音源毎の音声信号(推定値ベクトル)[u’(ω)]=[u’(ω),u’(ω),…,u’(ω)]を算出するために用いられる行列である。ここで、[…]は、行列又はベクトルの転置を示す。
分離尖鋭度JSS([V(ω)])、幾何制約度JGC([V(ω)])は、それぞれ、式(4)、(5)のように表される。
Figure 0006118838
Figure 0006118838
式(4)、(5)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。φ([u’(ω)])は、音声信号[u’(ω)]の非線形関数、例えば、双曲線正接関数(hyperbolic tangent function)である。[…]は、行列又はベクトルの共役転置(conjugate transpose)を示す。diag[…]は、行列…の対角成分の総和を示す。従って、分離尖鋭度JSS([V(ω)])は、音声信号(推定値)のスペクトルのチャネル間非対角成分の大きさ、つまり、ある1つの音源が他の音源として誤って分離される度合いを表す指標値である。
式(5)において、[A(ω)]は、音源から各1つのマイクロホンまでの伝達関数を要素として有する伝達関数行列を示す。[I]は、単位行列を示す。従って、幾何制約度JGC([V(ω)])とは、音声信号(推定値)のスペクトルと音声信号(音源)のスペクトルとの誤差の度合いを表す指標値である。
音源分離部113は、音源定位部112から入力されたMチャネルの音声信号[x(ω)]に分離行列[V(ω)]を乗じて、S個の音源のそれぞれに係る音源別音声信号[u’(ω)]を算出する。
Figure 0006118838
(実行制御)
次に、制御部117による実行制御の例について説明する。
上述したように第1テキストデータもしくは第2テキストデータに含まれる単語の種別には、コマンドとメッセージがある。
図2は、単語の種別とその例を示す図である。
メッセージには、例えば、音楽(曲名、出演者名、作曲家名、等)、メール(送受信される文、等)、目的地(地名、施設名、等)、などが含まれる。コマンドには、例えば、リセット、等の第1音声処理装置10の機能や動作を指示する語である。一般的に、メッセージとして用いられる単語の方が、コマンドとして用いられる単語よりも多様であり、コマンドとして用いられる単語は限定されている。
図3は、単語の種別毎に採用すべきテキストデータとその優先度の例を示す優先テーブルである。
優先テーブルは、各単語の種別の単語(又はその区分)の例毎の第1テキストデータ、第2テキストデータ、それぞれの優先度を示すデータである。「×」印は採用不可を示す。「○」印は採用可を示す。「◎」印は、優先採用可を示す。優先採用可とは、採用可よりも優先して採用可能であることを意味する。つまり、優先採用可に係る単語と採用可に係る単語の両者が含まれる場合には、優先採用可に係る単語が採用される。制御部117には、優先テーブルを予め記憶させた記憶部を備え、優先テーブルを参照して第1テキストデータ、第2テキストデータのうち、採用すべきテキストデータを定めてもよい。
例えば、第2列の「コマンド」に係る単語については、第1テキストデータのみを採用し、第2テキストデータを採用しないことを示す。このことは、認識候補の単語の語彙が極めて限定され、必ずしも第2テキストデータを参照しなくてもよいためである。他方、第2〜第4列の「メッセージ」に属する単語は、いずれも第2テキストデータの採用が許容される。このことは、「コマンド」に係る単語よりも自由度が高いため、より語彙が豊富な第2音声認識データを用いて取得された第2テキストデータを採用することで、的確な認識結果を取得できる可能性が高くなるためである。
「メッセージ」に係る単語のうち、第3列の「音楽」に係る単語については、第2テキストデータを第1テキストデータよりも優先的に採用することを示す。通信状況により第2テキストデータを取得できない場合には、第1テキストデータが採用されることがある。かかる単語は、広範な分野に跨っていることがあり、第1テキストデータよりも、第2音声処理装置20で取得された第2テキストデータの方が的確である可能性が高いためである。第4列の「メール」に係る単語については、第2テキストデータのみを採用し、第1テキストデータを採用しないことを示す。かかる単語は、ユーザが任意に発声したものであり、第1テキストデータの生成に用いた第1音声認識データでは語彙が不足することがあるからである。第5列の「目的地」に係る単語については、第1テキストデータを第2テキストデータよりも優先的に採用することを示す。ユーザが指示する目的地は、その行動(業務、生活習慣、等)により変化が少ない場合には、第1音声認識データを用いて取得された第1テキストデータで足りることが多く、第1音声認識部116で認識に失敗したときに第2テキストデータを採用すれば足りると考えられるためである。
なお、図3に示す優先テーブルの内容は例示であり、この内容には限られない。単語や単語の区分、その他、利用目的に応じて、その採否や優先度は任意に設定可能である。
図4は、本実施形態に係る制御部117における制御状態の状態遷移図の例を示す。
制御状態には、「コマンド待ち」の状態と、「メッセージ待ち」の状態がある。「コマンド待ち」とは、制御部117が、音声認識結果である第1テキストデータをコマンドとして待ち受ける動作状態である。制御部117は、「コマンド待ち」の間に入力された第1テキストデータをコマンドとして処理する。「メッセージ待ち」とは、制御部117が、音声認識結果である第1テキストデータ、第2テキストデータをメッセージとして待ち受ける動作状態である。制御部117は、「メッセージ待ち」の間に入力された第1テキストデータ、第2テキストデータを、図3に示す優先度でメッセージとして処理する。
図4に示す状態遷移は、「コマンド待ち」の状態を繰り返す経路p11、「コマンド待ち」の状態から「メッセージ待ち」の状態に遷移する経路p12、「メッセージ待ち」の状態を繰り返す経路p22、及び「メッセージ待ち」の状態から「コマンド待ち」の状態に遷移する経路p21を含む。
次に、状態遷移に係る処理について説明する。
図5は、本実施形態に係る状態遷移処理の一例を示すフローチャートである。
図5に示す例は、経路p11、p12に係る。
(ステップS111)制御部117の動作状態は「コマンド待ち」の状態である。なお、動作状態の初期値は、この「コマンド待ち」の状態であってもよいし、「メッセージ待ち」の状態であってもよい。その後、ステップS112に進む。
(ステップS112)制御部117は、音声信号取得部110にMチャネルの音声信号が入力されたか(音声あり)否かを判定する。入力されたと判定された場合には(ステップS112 YES)、ステップS113に進む。入力されていないと判定された場合には(ステップS112 NO)、ステップS111に戻る。
(ステップS113)第1音声認識部116における音声認識処理と並行して、第2音声処理装置20の第2音声認識部216は、第1音声処理装置10から受信した音響特徴量について音声認識処理を行って第2テキストデータを生成する。その後、ステップS114に進む。
(ステップS114)制御部117は、第2テキストデータの第2音声処理装置20からの受信を待機する(結果待ち)。その後、ステップS115に進む。
(ステップS115)制御部117は、受信した第2テキストデータに基づいてモード判定を行う。ここで、制御部117は、優先テーブルを参照して、第2テキストデータに「メッセージ」に係る単語が含まれているか否かを判定する。含まれていないと判定された場合には(ステップS115 1)、ステップS111に戻る。含まれていると判定された場合には(ステップS115 2)、ステップS121に進む。
(ステップS121)制御部117は、その動作状態を「メッセージ待ち」に遷移する。その後、図5に示す処理を終了する。
図6は、本実施形態に係る状態遷移処理の他の例を示すフローチャートである。
図6に示す例は、経路p21、p22に係る。
(ステップS121)制御部117の動作状態は「メッセージ待ち」の状態である。その後、ステップS122に進む。
(ステップS122)制御部117は、音声信号取得部110にMチャネルの音声信号が入力されたか(音声あり)否かを判定する。入力されたと判定された場合には(ステップS122 YES)、ステップS123に進む。入力されていないと判定された場合には(ステップS122 NO)、ステップS121に戻る。
(ステップS123)第1音声認識部116は、特徴量算出部114から入力された音響特徴量について音声認識処理を行って第1テキストデータを生成する。その後、ステップS124に進む。
(ステップS124)制御部117は、第1テキストデータの第1音声認識部116からの入力を待機する(結果待ち)。その後、ステップS125に進む。
(ステップS125)制御部117は、入力された第1テキストデータに基づいてモード判定を行う。ここで、制御部117は、優先テーブルを参照して、第1テキストデータに「コマンド」に係る単語が含まれているか否かを判定する。含まれていないと判定された場合には(ステップS125 2)、ステップS121に戻る。含まれていると判定された場合には(ステップS125 1)、ステップS111に進む。
(ステップS111)制御部117は、その動作状態を「コマンド待ち」に遷移する。その後、図6に示す処理を終了する。
以上に説明したように、本実施形態に係る第1音声処理装置10は、入力された音声信号に第1音声認識データを用いて音声認識を行って第1テキストデータを生成する第1音声認識部116と、第2音声認識部216から第2テキストデータを受信する通信部120を備える。また、第1音声処理装置10は、自装置の使用環境に応じて第1テキストデータと第2テキストデータのいずれかを選択する制御部117を備え、第2音声認識部216は、第1音声処理装置10から受信した音声信号に第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する。
この構成によれば、自装置で取得した第1テキストデータと、汎用性が高い音声認識データを用いて認識され、他装置から受信した第2テキストデータとのいずれかが自装置の使用環境に応じて選択される。そのため、自装置の使用環境に応じて他装置の処理資源を活用することで認識精度を向上することができる。
第1音声処理装置10において、制御部117は、第1テキストデータ又は第2テキストデータに含まれる単語に基づいて第1テキストデータと第2テキストデータのいずれかを選択する。
この構成によれば、発話内容を形成する単語に応じて、より適切な音声認識データを用いて認識されたテキストデータが選択される。そのため、利用目的や分野に応じて適切な音声認識を行うことができる。
また、制御部117は、第1テキストデータを選択しているとき、第2テキストデータに含まれる単語に基づいて第2テキストデータを選択する否かを判定し、第2テキストデータを選択しているとき、第1テキストデータに含まれる単語に基づいて第1テキストデータを選択する否かを判定する。
この構成によれば、第1テキストデータと第2テキストデータのいずれを選択するかが、現在選択されていないテキストデータに基づいて判定される。そのため、利用目的や分野の変化に応じて適切なテキストデータを選択することで、認識精度を向上することができる。
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
図7は、本実施形態に係る音声処理システム1Aの構成を示すブロック図である。
音声処理システム1Aは、第1音声処理装置10A、第2音声処理装置20A、及び収音部30を含んで構成される。
第1音声処理装置10Aは、音声信号取得部110、前処理部111、第1音声認識DB115、第1音声認識部116、制御部117A、選択部118A、通信状態解析部119A、及び通信部120を含んで構成される。
第2音声処理装置20Aは、前処理部211A、第2音声認識DB215、第2音声認識部216、データ抽出部218、及び通信部220を含んで構成される。
前処理部211Aは、音源定位部212A、音源分離部213A、及び特徴量算出部214Aを含んで構成される。
(第1音声処理装置)
次に、第1音声処理装置10Aの構成について、主に第1音声処理装置10(図1)との差異点に関して説明する。
音声信号取得部110は、Mチャネルの音声信号を前処理部111及び選択部118Aに出力する。
音源定位部112は、上述した音声区間検出を行い、発話が検出された音声区間について、算出した音源方向を示す音源方向情報とMチャネルの音声信号を音源分離部113及び選択部118Aに出力する。
音源分離部113は、分離した音源別音声信号を特徴量算出部114及び選択部118Aに出力する。第1音声処理装置10には、通例、一度に1名のユーザの発話に係る音声信号が入力されるので、1チャネルの音源別音声信号が出力される。
特徴量算出部114は、算出した音響特徴量を第1音声認識部116及び選択部118Aに出力する。
制御部117Aは、通信状態解析部119Aから入力された通信状態情報に基づいて、第1音声認識部116から入力された第1テキストデータと第2音声処理装置20Aから受信した第2テキストデータのいずれかを選択する。ここで、制御部117Aは、通信状態情報に基づいて第1音声認識部116を動作させるか否かを判定する。第1音声認識部116の動作を停止する場合には、制御部117Aは、前処理部111が備える3階層の処理部である音源定位部112、音源分離部113及び特徴量算出部114のうち、どの階層の処理部まで動作させるかを判定する。言い換えれば、制御部117Aは、動作させると判定した処理部よりも後段の処理部の動作を停止させる。制御部117Aは、第1音声認識部116の動作を停止するか否か、ならびにどの階層の処理部まで動作させるかを示す選択情報を選択部118Aに出力する。以下の説明では動作させる処理部のうち、最上位の階層を「動作階層」と呼ぶことがある。
選択部118Aには、音声信号取得部110から(i)Mチャネルの音声信号が、音源定位部112から(ii)音源方向情報ならびにMチャネルの音声信号が、音源分離部113から(iii)音源別音声信号が、特徴量算出部114から(iv)音響特徴量が、入力されうる。
選択部118Aは、制御部117Aから入力された選択情報に基づいて、データの送信の要否、データを送信する場合には、自部に入力されるデータから送信すべきデータ(送信データ)を選択する。また、選択情報が動作階層を示す場合、選択部118Aは、動作階層の処理部から入力されたデータを選択し、選択したデータを通信部120に出力する。
例えば、選択情報が動作させる処理部がないことを示す場合、選択部118Aは(i)Mチャネルの音声信号を、通信部120に出力する。また、選択情報が音源定位部112を示す場合、選択部118Aは(ii)音源方向情報ならびにMチャネルの音声信号を通信部120に出力する。選択情報が音源分離部113を示す場合(iii)音源別音声信号を、通信部120に出力する。選択情報が特徴量算出部114を示す場合(iv)音響特徴量を、通信部120に出力する。なお、選択情報が第1音声認識部116を動作させることを示す場合、選択部118Aは(v)送信データなし、と判定する。
通信状態解析部119Aには、通信部120から入力された受信信号に基づいて第2音声処理装置20との通信状態を解析する。通信状態は、例えば、帯域幅、遮断の程度、等である。上述の帯域幅は、必ずしも搬送波の周波数帯域の幅のみを意味するものではなく、実効通信レートもしくは実効通信レートと相関関係がある通信品質の指標も意味する。遮断は、必ずしも信号(パケット)の欠落や、基地局装置からの電波が到達しない、もしくは微弱な状態(圏外)のみを意味するものではない。遮断は、一定時間間隔の送受信が期待される音声信号の受信時刻の揺らぎや、揺らぎや伝送誤りに起因する欠落と相関関係がある通信品質も意味する。これらの通信状態の指標値として、例えば、搬送波の電界強度、信号対干渉雑音比(SINR:Signal−to−interference−plus−noise ratio)、呼損率、総合音声伝送品質率(R値)、等のいずれか、もしくはそれらの組み合わせが通信状態の判定に用いられてもよい。通信状態解析部119Aは、解析した通信状態を示す通信状態情報を制御部117Aに出力する。
(第2音声処理装置)
次に、第2音声処理装置20Aの構成について、主に第2音声処理装置20(図1)との差異点に関して説明する。
第2音声処理装置20Aは、前処理部211A、第2音声認識DB215、第2音声認識部216、データ抽出部218、及び通信部220を含んで構成される。
前処理部211Aは、音源定位部212A、音源分離部213A、及び特徴量算出部214Aを含んで構成される。
音源定位部212Aは、データ抽出部218から入力されたMチャネルの音声信号に基づいて音源毎の方向を算出する。音源定位部212Aが音源方向を算出する手法は、音源定位部112と同様であってもよい。音源定位部212Aは、算出した音源毎の音源方向を示す音源方向情報とMチャネルの音声信号を音源分離部213Aに出力する。
音源分離部213Aは、データ抽出部218又は音源定位部212Aから音源方向情報とMチャネルの音声信号が入力される。音源分離部213Aは、Mチャネルの音声信号を音源方向情報が示す音源方向に基づいて音源毎の音源別音声信号に分離する。音源分離部213Aが音源分離を行う手法は、音源分離部113と同様であってもよい。音源分離部213Aは、分離した音源毎の音源別音声信号を特徴量算出部214Aに出力する。
特徴量算出部214Aは、データ抽出部218から入力された音源毎の音源別音声信号又は音源分離部113から入力された音源毎の音源別音声信号について音響特徴量を所定の時間毎に算出する。特徴量算出部214Aが算出する音響特徴量は、特徴量算出部114と同じ種類の音響特徴量であってもよい。なお、特徴量算出部214Aが算出する音響特徴量は、第2音声認識データを形成する音響モデルに係る音響特徴量と同じ種類及び同じ次数の音響特徴量であれば、特徴量算出部114が算出する音響特徴量とは異なってもよい。
特徴量算出部214Aは、算出した音響特徴量を第2音声認識部216に出力する。
第2音声認識部216は、特徴量算出部214Aから入力された音響特徴量、又はデータ抽出部218から入力された音響特徴量について第2音声認識DB215に記憶された第2音声認識データを用いて音声認識処理を行う。
(選択処理)
次に、制御部117Aが行う選択処理の例について説明する。
制御部117Aは、通信状態情報と選択情報とを対応付けて形成される選択データを記憶させた記憶部を備える。制御部117Aは、選択データを参照して、通信状態解析部119Aから入力された通信状態情報に対応する選択情報を読み取る。制御部117Aは、読み取った選択情報が示す処理部の動作の要否を判定し、動作要と判定した処理部を動作させ、動作否と判定した処理部の動作を停止する。選択部118Aは、選択情報に基づいて送信すべき送信データを判定し、判定した送信データを、通信部120を介して第2音声処理装置20Aに送信する。
図8は、本実施形態に係る選択テーブルの例を示すデータである。
選択テーブルの第1列、第2列、第3列は、それぞれ通信状態情報、選択情報(動作させる処理部)、選択情報に基づいて指示される送信データを示す。選択テーブルにおいて、送信データは必須ではないが、説明の便宜のために図示している。
通信状態情報のうち、帯域1とは、予め定めた帯域幅の閾値1よりも広い帯域幅で通信可能であることを示す。帯域1は、例えば、Mチャネルの音声信号を送受信するのに十分な通信容量である。帯域2は、帯域幅の閾値1以下の帯域幅であって、予め定めた帯域幅の閾値2よりも広い帯域幅で通信可能であることを示す。帯域2は、例えば、1チャネルの音声信号を間欠的に送受信するのに十分な通信容量である。帯域3は、帯域幅の閾値2以下の帯域幅であって、予め定めた帯域幅の閾値3よりも広い帯域幅で通信可能であることを示す。帯域3は、例えば、1チャネルの音声信号に係る音響特徴量を間欠的に送受信するのに十分な通信容量である。
通信状態情報のうち遮断1とは、遮断の頻度が予め定めた遮断の頻度の閾値1よりも少ないことを示す。遮断1は、例えば、各種のデータを十分に安定して送受信できることを示す。遮断2は、遮断の頻度がその閾値1以上であって、予め定めた遮断の頻度の閾値2よりも少ないことを示す。遮断2は、例えば、間欠的に遮断が生ずるが発話内容等の情報の伝達に支障を生じない程度に遮断が発生することを示す。遮断3は、遮断の頻度がその閾値2以上、又はデータの送受信ができないことを示す。
従って、図8に示す例は、第2行から下方に向かうほど通信状態情報が示す通信状態が劣り、通信状態が劣るほど、制御部117Aは、第1音声処理装置10Aにおいて動作させる処理部の数を多くし、送信データの情報量を少なくすることを示す。言い換えれば、制御部117Aは、通信状態が良好なほど第1音声処理装置10Aにおいて動作させる処理部の数を少なくし、送信データの情報量を多くすることで、第2音声処理装置20Aの処理資源(リソース)をより活用することを示す。
図8の第2行では、帯域1、遮断1を示す通信状態情報に、前処理部111において動作させる処理部がないことを示す選択情報が対応付けられている。この場合、選択部118Aは、送信データとして(i)Mチャネルの音声信号を、通信部120を介して第2音声処理装置20に送信する。かかる通信状態は、帯域幅が十分に広く安定している場合に相当し、例えば、第1音声処理装置10Aと第2音声処理装置20Aとが光回線のように大容量の有線で接続されているときに生じることがある。この構成により、制御部117Aは、第2音声処理装置20Aに対して、Mチャネルの音声信号に基づく音源定位、音源分離、音響特徴量の算出、音声認識処理を第2音声処理装置20Aに実行させることができる。従って、第2音声処理装置20Aにおける豊富なデータ、処理量等の処理資源を活用して、高精度の音声認識を実現することができる。また、制御部117Aは、音声信号取得部110よりも後段の音源定位部112、音源分離部113、特徴量算出部114及び第1音声認識部116の動作を停止することで、第1音声処理装置10Aにおける処理量を低減することができる。
図8の第3行では、帯域1、遮断2を示す通信状態情報に、音源定位部112まで動作させることを示す選択情報が対応付けられている。この場合、選択部118Aは、送信データとして(ii)音源方向情報ならびにMチャネルの音声信号を第2音声処理装置20に送信する。かかる通信状態は、帯域幅が十分に広いが、間欠的に遮断が生じる場合に相当し、例えば、第1音声処理装置10Aと第2音声処理装置20Aとが無線で接続され、第1音声処理装置10Aが走行する車両に設置され、基地局装置に十分に近接しているときに生じることがある。ここで、音源方向情報は、音声信号情報は音声信号よりも格段に情報量が少ないので、音源方向情報の付加は通信品質に影響を与えない。また、(ii)音源方向情報ならびにMチャネルの音声信号は、間欠的に生じる発話時に生成されるので、常に生じる(i)Mチャネルの音声信号よりも情報量が少ないので、接続が確立したときに行われるデータの送受信が間欠的であることが許容される。
この構成により、制御部117Aは、第2音声処理装置20Aに対して、音源分離、音響特徴量の算出、音声認識処理を第2音声処理装置20Aに実行させることができる。従って、第2音声処理装置20Aは音源定位を省略可能であるが、豊富な処理資源を活用して、高精度の音声認識を実現することができる。また、制御部117Aは、音源定位部112よりも後段の音源分離部113、特徴量算出部114及び第1音声認識部116の動作を停止することで、第1音声処理装置10Aにおける処理量を低減することができる。但し、通信状態情報が帯域1、遮断1を示す場合よりも、処理量の低減の度合いが少ない。
図8の第4行では、帯域2、遮断2を示す通信状態情報に、音源定位部112から音源分離部113まで動作させることを示す選択情報が対応付けられている。この場合、選択部118Aは、送信データとして(iii)音源別音声信号を送信する。かかる通信状態は、帯域幅が比較的狭く、間欠的に遮断が生じる場合に相当し、例えば、第1音声処理装置10Aと第2音声処理装置20Aとが無線で接続され、第1音声処理装置10Aが走行する車両に設置され、基地局装置から比較的離れているときに生じることがある。ここで、(iii)音源別音声信号は、間欠的に生じる発話時に生成されるので、接続が確立したときに行われるデータの送受信が間欠的であることが許容される。また、音源別音声信号は、ユーザの発話に係る1チャネルの音声信号であるため、Mチャネルの音声信号よりも帯域幅が狭くてもよい。
従って、制御部117Aは、第2音声処理装置20Aに対して、音響特徴量の算出、音声認識処理を第2音声処理装置20Aに実行させることができる。従って、第2音声処理装置20Aは音源定位と音源分離を省略可能であるが、処理資源を活用して、高精度の音声認識を実現することができる。また、制御部117Aは、音源分離部113よりも後段の特徴量算出部114及び第1音声認識部116の動作を停止することで、第1音声処理装置10Aにおける処理量を低減することができる。但し、通信状態情報が帯域1、遮断2を示す場合よりも、処理量の低減の度合いが少ない。
図8の第5行では、帯域3、遮断2を示す通信状態情報に、音源定位部112から特徴量算出部114まで動作させることを示す選択情報が対応付けられている。この場合、選択部118Aは、送信データとして(iv)音響特徴量を送信する。かかる通信状態は、帯域幅がさらに狭く、間欠的に遮断が生じる場合に相当し、例えば、第1音声処理装置10Aと第2音声処理装置20Aとが無線で接続され、第1音声処理装置10Aが走行する車両に設置され、郊外等、基地局装置からさらに離れているときに生じることがある。ここで、(iv)音響特徴量は、間欠的に生じる発話時に生成されるので、接続が確立したときに行われるデータの送受信が間欠的であることが許容される。また、音響特徴量は、ユーザの発話に係る1チャネルの音声信号よりも情報量が少ないため、1チャネルの音声信号よりも帯域幅が狭くてもよい。
この構成により、制御部117Aは、第2音声処理装置20Aに対して、音声認識処理を第2音声処理装置20Aに実行させることができる。従って、第2音声処理装置20Aにおける、汎用性が高い語彙に基づく高精度の音声認識を実現することができる。また、制御部117Aは、特徴量算出部114よりも後段の第1音声認識部116の動作を停止することで、第1音声処理装置10Aにおける処理量を低減することができる。但し、通信状態情報が帯域2、遮断2を示す場合よりも、処理量の低減の度合いが少ない。
図8の第6行では、遮断3を示す通信状態情報に、第1音声認識部116を動作させることを示す選択情報が対応付けられている。この場合、前処理部111を構成する、3つの処理部、音源定位部112、音源分離部113、及び特徴量算出部114が動作する。選択部118Aは(v)送信データなし、と判定する。かかる通信状態は、第1音声処理装置10Aと第2音声処理装置20Aとの間でデータの送受信が不可能である場合に相当し、第1音声処理装置10Aが基地局装置からの電波が届かない圏外にある場合や、アンテナが設置されていないトンネルや地下にある場合に生じることがある。この場合、制御部117Aは、第2音声処理装置20Aから第2テキストデータを取得することができず、音声認識結果として第1音声認識部116が生成した第1テキストデータのみを取得する。
第1音声認識部116は、第1音声認識データを用いて音声認識処理を行うため、語彙等が限定され、長文の認識精度が低下することがあるが、その音響環境に応じた音声認識、つまり、耐騒音性、耐残響特性の高い音声認識を実現することができる。なお、データの送受信が不要であるため、制御部117Aは、通信部120の動作を停止することで処理量を低減することができる。
以上に説明したように、本実施形態に係る第1音声処理装置10Aにおいて、制御部117Aは、第2音声認識部216との通信状態に基づいて第1音声認識部116を動作させるか否かを判定する。
この構成によれば、自装置の第1音声認識部116を動作させるか、第2音声認識部216で汎用性が高い音声認識データを用いて取得された第2テキストデータを受信するかが第2音声認識部216との通信状態に応じて選択される。そのため、第2音声認識部216との通信状態に応じて、その処理資源を活用することで認識精度を向上することができる。
また、第1音声処理装置10Aは、音声信号に前処理を行って第1音響特徴量を生成する前処理部111を備え、第1音声認識部116は、第1音響特徴量に基づいて第1テキストデータを生成する。また、前処理部111は、L(例えば、3)階層の階層処理部を備え、第l(lは、1以上L以下の整数)階層処理部は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量である。また、制御部117Aは、通信状態に応じていずれの階層の階層処理部まで動作させるかを判定する。
この構成によれば、前処理部111を構成する階層処理部のうち動作すべき階層処理部の階層が、通信状態に応じて可変になる。そのため、第2音声認識部216に係る処理資源を活用する度合いを、通信状態に応じて適切に制御することができる。
また、第1音声処理装置10Aにおいて、Lは3であり、第1階層処理部は、複数チャネルの音声信号から音源毎の音源方向を算出する音源定位部112であり、第2階層処理部は、複数チャネルの音声信号を音源毎の音源別音声信号に分離する音源分離部113である。また、第3階層処理部は、音源別音声信号から音響特徴量を算出する特徴量算出部114である。
この構成により、前処理部111を構成する音源定位部112、音源分離部113及び特徴量算出部114のうち動作すべき処理部の階層が、通信状態に応じて可変になる。また、音源定位部112、音源分離部113、特徴量算出部114の順に生成されるデータの情報量が少なくなる。そのため、第2音声認識部216に係る処理資源を活用する度合いを、各部で生成されるデータの情報量に見合った通信状態に応じて制御することができる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。上述した実施形態と同一の構成については同一の符号を付して、その説明を援用する。
上述した実施形態に係る音声処理システム1、1Aは、主たる情報処理が音声認識である情報処理システムであるが、本実施形態に係る情報処理システム1Bは、複数種類の情報処理を行う情報処理システムである。
図9は、本実施形態に係る情報処理システム1Bの構成を示すブロック図である。
情報処理システム1Bは、第1情報処理装置10B、第2音声処理装置20、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理装置25B、収音部30、操作入力部31B、表示部32B、再生部33Bを含んで構成される。
第1情報処理装置10Bは、第1音声処理部11B、第1音声合成部13B、第1コンテンツ復号部14B、第1電子メール処理部15B、ユーザIF(Interface、インタフェース)部16B、制御部117B、選択部118B及び通信部120を含んで構成される。第1情報処理装置10Bは、例えば、携帯電話機(いわゆるスマートフォンを含む)、タブレット端末装置、パーソナルコンピュータ等の端末装置であってもよいし、車載用の音響機器であってもよい。以下の説明では、第1音声処理部11B、第1音声合成部13B、第1コンテンツ復号部14B、第1電子メール処理部15Bを第1情報処理部と総称することがある。また、第2音声処理装置20、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理装置25Bを第2情報処理装置と総称することがある。そして、第1情報処理部が主に行う情報処理を第1情報処理、第2情報処理装置が主に行う情報処理を第2情報処理と呼ぶことがある。
第1音声処理部11Bは、収音部30からユーザIF部16Bと選択部118Bを介して入力された音声信号を処理対象として音声認識処理を行い、第1テキストデータを生成する。第1音声処理部11Bは、前処理部111、第1音声認識DB115及び第1音声認識部116に相当する構成を備える。第1音声処理部11Bは、生成した第1テキストデータをユーザIF部16Bに出力する。ユーザIF部16Bの機能を実現するアプリケーションによっては、ユーザIF部16Bは、入力された第1テキストデータ又は第2音声処理装置20からの制御部117Bを介して入力された第2テキストデータを表示部32Bに出力する。表示部32Bは、第1テキストデータ又は第2テキストデータが示す認識された発話内容を示すテキストを表示する。
第1音声合成部13Bは、処理対象のテキストを示す対象テキストデータについてテキスト音声合成処理を行って第1音声信号を生成する。テキスト音声合成処理において、第1音声合成部13Bは、例えば、フォルマント合成法を用いる。対象テキストデータは、ユーザIF部16Bから選択部118Bを介して入力される。第1音声合成部13Bは、取得した対象テキストデータを選択部118Bに出力する。生成される音声信号が示す内容は、処理対象のテキストの内容と同様の内容を含む。第1音声合成部13Bは、生成した第1音声信号をユーザIF部16Bに出力する。ユーザIF部16Bの機能を実現するアプリケーションによっては、ユーザIF部16Bは、入力された第1音声信号又は第2音声合成装置23Bからの制御部117Bを介して入力された第2音声信号を表示部32Bに出力する。再生部33Bは、第1音声信号又は第2音声信号に基づいて処理対象のテキストの内容を発話内容として表す音声を再生する。
第1コンテンツ復号部14Bは、処理対象のコンテンツ(対象コンテンツ)を示す対象コンテンツデータを復号し、対象コンテンツを示す第1音響信号を生成する。対象コンテンツは、例えば、楽曲や発話音声などの音響コンテンツである。対象コンテンツは、ユーザIF部16Bから選択部118Bを介して入力される表題(例えば、曲名、イベント名、等)、識別番号(例えば、コンテンツID(Identifier))などのコンテンツ識別情報により指定される。ここで、ユーザIF部16Bは、第1音声処理部11Bからの第1テキストデータ又は操作入力部31Bからの操作信号に基づいてコンテンツ識別情報を生成する。コンテンツ識別情報は、例えば、対象コンテンツの表題や識別番号などの対象コンテンツを一意に特定することができるテキスト形式、またはその他のデータ形式で表わされる。第1コンテンツ復号部14Bは、第1情報処理装置10Bが予め記憶部(図示せず)に記憶されたコンテンツデータから、コンテンツ識別情報で識別される対象コンテンツデータを読み出す。記憶部は、第1情報処理装置10Bが備える各種の記憶媒体により実現される。第1コンテンツ復号部14Bは、コンテンツデータの復号において、コンテンツデータの生成に用いられた符号化方式に対応した所定の復号方式、例えば、MPEG−4 AAC(Moving Picture Experts Group Advanced Audio Coding)を用いる。第1コンテンツ復号部14Bは、生成した第1音響信号をユーザIF部16Bに出力する。ユーザIF部16Bの機能を実現するアプリケーションによっては、ユーザIF部16Bは、入力された第1音響信号又は第2コンテンツ復号装置24Bからの制御部117Bを介して入力された第2音響信号を再生部33Bに出力する。再生部33Bは、第1音響信号又は第2音響信号に基づいて対象コンテンツの音声を再生する。なお、対象コンテンツは、映像やテキストなどの他の種類の情報が含まれ、再生部33Bからの音声の再生と並行して表示部32Bに表示されるようにしてもよい。
第1電子メール処理部15Bは、ユーザIF部16Bから選択部118Bを介して入力されたコマンドデータが示すコマンドに基づいてメッセージの送信又は受信に係る処理を行う(電子メール)。第1電子メール処理部15Bは、所定の受信用のプロトコルを用いて所定のメールサーバ(図示せず)から自装置宛のメッセージデータを取得する(電子メールの受信)。受信用のプロトコルとして、例えば、POP(Post Office Protocol)、IMAP(Internet Message Access Protocol)、などのプロトコルが利用可能である。ここで、第1電子メール処理部15Bは、受信を示すコマンドデータが入力されるとき、通信部120を介してメールサーバにメッセージ要求情報を送信する。第1電子メール処理部15Bは、その応答としてメールサーバから自装置(第1情報処理装置10B)宛のメッセージデータを受信する。第1電子メール処理部15Bは、受信したメッセージデータを第1電子メールデータとしてユーザIF部16Bに出力する。ユーザIF部16Bの機能を実現するアプリケーションによっては、ユーザIF部16Bは、入力された第1電子メールデータ又は第2電子メール処理装置25Bからの制御部117Bを介して入力された第2電子メールデータを表示部32Bに出力する。表示部32Bは、第1電子メールデータ又は第2電子メールデータが示すメッセージを表示する。
なお、第1電子メール処理部15Bは、所定の送信用のプロトコルを用いてメールサーバを介してコマンドデータで指定される送信先にメッセージデータを送信する(電子メールの送信)。送信用のプロトコルとして、例えば、SMPT(Simple Mail Tranfer Protocol)、などのプロトコルが利用可能である。ここで、第1電子メール処理部15Bは、ユーザIF部16Bから選択部118Bを介して入力された編集コマンドを示すコマンドデータと、編集に係るテキストデータとに基づいて送信対象のメッセージを示す送信メッセージデータを生成する。また、第1電子メール処理部15Bは、送信と送信先を示すコマンドデータがユーザIF部16Bから選択部118Bを介して入力されるとき、生成した送信メッセージデータをメールサーバに通信部120を介して送信する。メールサーバは、送信先アドレスで指定される装置からメッセージデータを取得可能なメールサーバに、送信メッセージデータを送信する。コマンドデータ及び編集テキストデータとして、例えば、ユーザIF部16Bにおいて、その機能を実現するアプリケーションの実行により、操作入力部31Bからの操作信号に基づいて生成されたデータが用いられてもよい。また、コマンドデータ及び編集テキストデータの生成に、第1音声処理部11Bからの第1テキストデータ又は第2音声処理装置20からの第2テキストデータが用いられてもよい。
ユーザIF部16Bは、ユーザの指示による各種の信号に基づいて実行すべき情報処理を選択する。ユーザの指示による各種の信号は、例えば、操作入力部31Bから入力された操作信号である。例えば、ユーザIF部16Bは、表示部32Bに表示されているアイコンの表示領域内の座標を示す操作信号が入力されるとき、そのアイコンに対応する情報処理を選択する。また、第1音声処理部11Bが動作している場合には、収音部30から入力された音声信号に基づいて生成された第1テキストデータが実行すべき情報処理を選択するために利用可能である。図9に示す例では、選択対象の情報処理は、音声認識、音声合成、コンテンツ復号、電子メールの受信である。音声認識、音声合成、コンテンツ復号、電子メールの受信は、それぞれ第1音声処理部11B、第1音声合成部13B、第1コンテンツ復号部14B、第1電子メール処理部15Bにおいて実行可能な情報処理である。ユーザIF部16Bは、選択した情報処理を示す選択情報を制御部117Bに出力する。なお、ユーザIF部16B又は制御部117Bは、選択された情報処理を実行する第1情報処理部の機能を実現するために、予め記憶部に記憶された所定のアプリケーションを読み出し、読み出したアプリケーションを起動してもよい。
また、ユーザIF部16Bは、ユーザの指示による各種の信号に基づいて、選択した情報処理を制御するための制御データや、処理対象となる対象データを取得する。制御データは、具体的には、コンテンツの復号に用いられるコンテンツ識別情報、電子メールの受信に用いられるコマンドデータである。対象データは、具体的には、音声認識に用いられる音声信号、音声合成に用いられるテキストデータ、電子メールの送信に用いられるテキストデータである。ユーザIF部16Bは、取得した制御データ及び対象データを選択部118Bに出力する。以下の説明では、制御データ及び対象データを入力データと総称し、第1情報処理又は第2情報処理によって得られるデータを処理結果データと総称することがある。例えば、収音部30からの音声信号は、それぞれ第1音声処理部11B、第2音声処理装置20への入力データである。また、第1テキストデータ、第2テキストデータは、それぞれ第1音声処理部11B、第2音声処理装置20の処理結果データである。
なお、ユーザIF部16Bは、第1情報処理又は第2情報処理により生成された処理結果データを、その提示形態に応じた提示部に出力する。第2情報処理による処理結果データは、第2処理装置から通信部120と制御部117Bを介して受信される。例えば、ユーザIF部16Bは、第1音声処理部11Bからの第1テキストデータ、第2音声処理装置20からの第2テキストデータを表示部32Bに出力する。また、ユーザIF部16Bは、第1音声合成部13Bからの第1音声信号、第2音声合成装置23Bからの第2音声信号を再生部33Bに出力する。また、ユーザIF部16Bは、第1コンテンツ復号部14Bからの第1音響信号、第2コンテンツ復号装置24Bからの第2音響信号を再生部33Bに出力する。また、ユーザIF部16Bは、第1電子メール処理部15Bからの第1電子メールデータ、第2電子メール処理装置25Bからの第2電子メールデータを表示部32Bに出力する。
制御部117Bは、ユーザIF部16Bから入力された選択信号が示す情報処理について、クラウド処理を要するか否かを判定する。以下の説明では、クラウド処理とは、ネットワーク50に接続された他の機器が実行する処理であって、自装置で実行可能な処理と同じ種類の処理を意味する。これに対し、自装置が行う処理をローカル処理と呼ぶ。本実施形態では、第1情報処理部が行う情報処理がローカル処理であり、第2情報処理部が行う情報処理がクラウド処理に相当する。第2情報処理部は、ネットワーク50に接続された第2情報処理装置において備えられ、第1情報処理部と同じ種類の情報処理をより汎用性が高い条件で実行する。例えば、第1音声処理部11Bが行う音声認識、第1音声合成部13Bが行う音声合成、第1コンテンツ復号部14Bが行うコンテンツデータの復号、第1電子メール処理部15Bが行う電子メールの受信が、それぞれローカル処理に相当する。第2音声処理装置20が行う音声認識、第2音声合成装置23Bが行う音声合成、第2コンテンツ復号装置24Bが行うコンテンツデータの復号、第2電子メール処理装置25Bが行う電子メールの受信が、いずれもクラウド処理に相当する。
制御部117Bは、例えば、選択信号によりクラウド処理の実行が指示された場合にクラウド処理を要すると判定し、指示されない場合にクラウド処理を必ずしも要しないと判定する。制御部117Bは、選択信号により指示された条件が、第1情報処理部で実行不可能であって、第2情報処理部が実行可能である場合においてクラウド処理を要すると判定してもよい。例えば、コンテンツの復号処理に関しては、制御部117Bは、コンテンツ識別情報が示すコンテンツデータが第2コンテンツ復号装置24Bが取得可能であって第1情報処理装置10Bの記憶部に記憶されていないとき、クラウド処理を行うと判定してもよい。第2情報処理部における第2情報処理の実行可能な条件の汎用性の例については、後述する。また、制御部117Bは、制御部117Aと同様に通信状態情報が示す通信状態が所定の通信状態よりも良好であるとき、クラウド処理を行い、所定の通信状態よりも劣るときクラウド処理を行わないと判定してもよい。
制御部117Bは、クラウド処理を必ずしも要しないと判定するとき、予め記憶部に記憶された適性データを参照して、ユーザIF部16Bから入力された選択信号が示す情報処理についてクラウド処理の適性を判定する。判定した適性が所定の適性の閾値と同等かそれよりも高い適性以上である場合、制御部117Bは、クラウド処理を行うと判定し、判定した適性が所定の適性の閾値未満である場合、クラウド処理を行わずローカル処理を行うと判定する。制御部117Bは、判定した処理がクラウド処理であるかローカル処理であるかを示す処理種別信号を選択部118Bに出力する。適性データについては後述する。
制御部117Bは、クラウド処理を行うと判定するとき、第2情報処理装置から通信部120を介して受信した処理結果データを受信し、処理結果データをユーザIF部16Bに出力する。また、制御部117Bは、処理結果データに基づいて第2情報処理装置からの応答状態を判定する。応答状態が所定の応答状態よりも劣る場合には、制御部117Bは、暫定処理を行ってもよい。応答状態の指標として、例えば、選択部118Bが第2情報処理装置に入力データの送信を開始してから、制御部117Bが、第2情報処理装置から当該入力データに対する処理結果データの受信が終了するまでに要する時間(TAT:Turn−around Time)が利用可能である。制御部117Bは、例えば、入力データの送信開始時からの経過時間が所定時間(例えば、5秒)よりも大きくなっても処理結果データが取得されない場合、暫定処理を行う。暫定処理は、第2情報処理による処理結果データの受信が完了するまでに行われる一時的な処理である。暫定処理として、ユーザが認知可能な情報として音声信号、画像信号の一方又は両方を、それぞれユーザIF部16Bを介して再生部33B、表示部32Bに出力する。暫定処理においては、例えば、「あのー」、「ええと」、「少しお待ちください」などの対話の隙間を埋める発話(フィラー)、待ち受け音を示す音声信号、処理中である旨を示す画像を示す映像信号が利用可能である。なお、制御部117Bは、暫定処理として、所定のテキストデータについて第1音声合成部13Bに音声合成を行わせてもよいし、所定のコンテンツデータについて第1コンテンツ復号部14Bに復号させてもよい。暫定処理により、ユーザに対し待機中における退屈感を解消又は緩和させることができる。制御部117Bは、第2情報処理装置から処理結果データの受信が終了したとき、暫定処理を停止する。
選択部118Bは、制御部117Bから入力された処理種別信号に基づいて、ユーザIF部16Bから入力された入力データの出力先として第1情報処理部と第2情報処理装置のいずれかを選択する。選択部118Bは、処理種別信号がローカル処理を示す情報処理について、入力された入力データを第1情報処理部に出力し、処理種別信号がクラウド処理を示す情報処理について、当該入力データを第2情報処理装置に通信部120を介して送信する。これにより、第1情報処理部と第2情報処理部のいずれに当該情報処理を実行させるかが選択される。
操作入力部31Bは、ユーザの操作入力に応じて操作信号を取得し、取得した操作信号をユーザIF部16Bに出力する。操作入力部31Bは、例えば、マウス、タッチセンサ等を含んで構成される。操作入力部31Bは、リモートコントローラ、携帯電話機等の外部機器からの操作信号を受信する入力インタフェースを含んで構成されてもよい。
表示部32Bは、ユーザIF部16Bから入力された画像信号に基づく画像を表示する。表示部32Bは、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electroluminescence)ディスプレイ等である。
再生部33Bは、ユーザIF部16Bから入力された音声信号又は音響信号に基づく音声を再生する。再生部33Bは、例えば、スピーカ等である。
次に、ネットワーク50に接続された各装置について説明する。
第2音声合成装置23Bは、第1情報処理装置10Bから受信した対象テキストデータについて所定の音声合成方式を用いてテキスト音声合成処理を行って第2音声信号を生成する第2音声合成部(図示せず)を備える。第2音声合成部は、第1音声合成部13Bよりも汎用性が高い条件として、例えば、より多くの言語ならびに話者特性の一方又は両方に適応した発話音声を示す第2音声信号を生成することができる。第2音声合成部は、生成した第2音声信号を第1情報処理装置10Bに送信する。
第2コンテンツ復号装置24Bは、コンテンツ識別情報で識別される対象コンテンツデータを復号する第2コンテンツ復号部(図示せず)を備える。第2コンテンツ復号装置24Bは、種々のコンテンツデータが予め記憶された記憶部(図示せず)を備える。第2コンテンツ復号部は、第1コンテンツ復号部14Bよりも汎用性が高い条件として、例えばよりも多様なコンテンツデータが利用可能である。第2コンテンツ復号部は、第1情報処理装置10Bから受信したコンテンツ識別情報で識別される対象コンテンツデータを記憶部から読み出す。第2コンテンツ復号部は、読み出した対象コンテンツデータを、その符号化に用いられた符号化方式に対応する所定の復号方式を用いて復号し、対象コンテンツを示す第2音響信号を生成する。第2コンテンツ復号部は、生成した第2音響信号を第1情報処理装置10Bに送信する。
第2電子メール処理装置25Bは、第1情報処理装置10Bから受信したコマンドデータが示すコマンドに基づいてメッセージの送信又は受信に係る処理を行う第2電子メール処理部(図示せず)を備える。第2電子メール処理部は、所定の受信用のプロトコルを用いて所定のメールサーバ(図示せず)から主に第1情報処理装置10B宛のメッセージデータを取得する(電子メールの受信)。第2電子メール処理部は、第1電子メール処理部15Bよりも汎用性が高い条件として、例えば、より過去に受信されたメッセージデータや、第1情報処理装置10Bのユーザが利用する別個の電子機器宛のメッセージデータを取得可能である。第2電子メール処理部は、受信を示すコマンドデータが入力されるとき、メールサーバにメッセージ要求情報を送信し、その応答としてメールサーバから第1情報処理装置10B宛のメッセージデータを受信する。第2電子メール処理部は、受信したメッセージデータを第2メッセージデータとして第1情報処理装置10Bに送信する。
なお、第2電子メール処理部は、所定の送信用のプロトコルを用いてメールサーバを介して第1情報処理装置10Bから受信したコマンドデータで指定される送信先にメッセージデータを送信する(電子メールの送信)。第2電子メール処理部は、第1情報処理装置10Bから受信した編集コマンドを示すコマンドデータと、編集に係るテキストデータとに基づいて送信対象のメッセージを示す送信メッセージデータを生成する。また、第2電子メール処理部は、送信と送信先を示すコマンドデータが第1情報処理装置10Bから受信するとき、生成した送信メッセージデータをメールサーバに送信する。メールサーバは、送信先アドレスで指定される装置からメッセージデータを取得可能な他のメールサーバに、送信メッセージデータを送信する。
なお、第2電子メール処理装置25Bは、メールサーバと一体化した単一のサーバ装置として構成されてもよい。その場合には、当該メールサーバとの間の各種データの送受信が省略可能である。
また、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理装置25Bは、それぞれ専用の装置であってもよいし、汎用のサーバ装置において所定のプログラムで指示される処理を実行することにより構成されてもよい。
(適性データ)
次に、制御部117Bにおいて、クラウド処理の適性の判定に用いられる適性データの一例について説明する。
図10は、本実施形態に係る適性データの一例を示す表である。
図10に示す例では、処理の種類毎に、「高」、「中」、「低」の3段階のいずれかの適性が与えられている。音声認識、音声合成、電子メール受信、コンテンツ復号のそれぞれについて、適性が「低」、「高」、「中」、「高」と与えられている。所定の適性の度合いが「中」である場合には、制御部117Bは、音声認識、音声合成、電子メール受信、コンテンツ復号のそれぞれについて、ローカル処理、クラウド処理、クラウド処理、クラウド処理を行うと判定する。
図10に示すクラウド処理の適性は、第1情報処理装置10Bが受信する処理結果データの情報量よりも第1情報処理装置10Bから送信される入力データの情報量が少ないほど高い。つまり、処理結果データの伝送容量が下り帯域で伝送可能な伝送容量の範囲内であれば、処理結果データの情報量の入力データの情報量に対する比が小さいほどクラウド処理の適性が高い。図11は、図10に示すクラウド処理の適性を与える各処理に要する入力データの送信に要する上り帯域の帯域幅、処理結果データの受信に要する下り帯域の帯域幅の例を示す。このクラウド処理の適性の例は、第1情報処理装置10Bに接続されるネットワーク50を構成するアクセス回線では、一般に上り帯域よりも下り帯域の方が伝送容量が大きいことによる。例えば、通信部120が通信方式としてLTEを用い、ネットワーク50を構成する基地局装置からの電波の電界強度が十分に得られる場合、上り帯域、下り帯域の平均伝送容量は、それぞれ9Mbps、27Mbpsである。図11に示す例では、帯域幅として、「広」、「中」、「狭」の3段階のいずれかの指標が与えられている。音声認識については、音声信号を送信する上り帯域の帯域幅、テキストデータを受信する下り帯域の帯域幅は、それぞれ「広」、「狭」であるため、クラウド処理の適性として「低」が与えられる。音声合成については、テキストデータを送信する上り帯域の帯域幅、音声信号を受信する下り帯域の帯域幅は、それぞれ「狭」、「広」であるため、クラウド処理の適性として「高」が与えられる。電子メール受信については、コマンドデータを送信する上り帯域の帯域幅、メッセージデータを受信する下り帯域の帯域幅は、それぞれ「狭」、「中」であるため、クラウド処理の適性として「中」が与えられる。コンテンツデータについては、コンテンツ識別情報を送信する上り帯域の帯域幅、音響信号を受信する下り帯域の帯域幅は、それぞれ「狭」、「広」であるため、クラウド処理の適性として「高」が与えられる。
(情報処理)
次に、本実施形態に係る情報処理について説明する。
図12は、本実施形態に係る情報処理の制御例を示すフローチャートである。
(ステップS201)制御部117Bは、ユーザIF部16Bから入力された選択信号が示す情報処理について、クラウド処理の要否を判定する。クラウド処理を要すると判定された場合(ステップS201 YES)、ステップS203に進む。クラウド処理を必ずしも要しないと判定された場合(ステップS201 NO)、ステップS202に進む。
(ステップS202)制御部117Bは、適性データを参照して、実行が指示された情報処理についてクラウド処理の適性を判定する。判定したクラウド処理の適性が所定の適性の閾値(例えば、「中」)以上である場合(ステップS202 中以上)、ステップS203に進む。判定したクラウド処理の適性の度合いが所定の適性の閾値未満である場合(ステップS202 低)、ステップS204に進む。
(ステップS203)制御部117Bは、クラウド処理を行うと判定する。ここで、制御部117Bは、選択部118Bに対してユーザIF部16Bから入力された入力データを第2情報処理装置に送信させる。これにより、第2情報処理装置は、第1情報処理装置10Bから受信した入力データに基づく第2情報処理(クラウド処理)を開始する。その後、ステップS205に進む。
(ステップS204)制御部117Bは、ローカル処理を行うと判定する。ここで、制御部117Bは、選択部118Bに対してユーザIF部16Bから入力された入力データを第1情報処理部に出力させる。これにより、第1情報処理部は、選択部118Bから入力された入力データに基づく第1情報処理(ローカル処理)を開始する。その後、ステップS208に進む。
(ステップS205)制御部117Bは、第2情報処理装置からの応答状態として入力データの送信開始時刻からの経過時間を判定する。経過時間が、所定の経過時間の閾値を超えても第2情報処理装置から処理結果データが取得されない場合(ステップS205 NG)、制御部117は、応答状態が劣ると判定し、ステップS206に進む。経過時間が、所定の経過時間の閾値以下の時間内に処理結果データが取得される場合(ステップS205 OK)、制御部117は、応答状態が良好と判定し、暫定処理を行わずにステップS208に進む。
(ステップS206)制御部117Bは、暫定処理を開始する。その後、ステップS207に進む。
(ステップS207)制御部117Bは、ステップS203においてクラウド処理を開始させた場合、第2情報処理装置ら処理結果データを取得し、暫定処理を停止する。その後、ステップS208に進む。
(ステップS208)制御部117B又は第1情報処理部は、取得した処理結果データを、その提示形態に応じた提示部として表示部32B又は再生部33BにユーザIF部16Bを介して出力する。その後、図12に示す処理を終了する。
なお、ステップS202において制御部117Bがクラウド処理を行うか否かを判定する際に用いられる適性の度合いの閾値は、第2情報処理装置との通信状態に応じて可変であってもよい。例えば、通信状態が良好なほど低く、通信状態が劣るほど高くてもよい。
以上に説明したように、本実施形態に係る第1情報処理装置10Bにおいて、制御部117Bは、各情報処理に用いられる入力データの情報量と、当該情報処理により生成される処理結果データの情報量に基づいて第2情報処理装置(例えば、第2音声処理装置20)が備える第2情報処理部(例えば、第2音声認識部216)に当該情報処理を行わせるか否かを判定する。
この構成により、ネットワークに接続された第2情報処理装置が備える第2情報処理部を有効に使用できる度合いが情報処理の種別により異なりうることに応じて、第2情報処理部の使用の可否が判定される。そのため、情報処理の種類毎に第2情報処理部を用いるか否かを的確に判定することができる。
また、本実施形態に係る第1情報処理装置10Cにおいて、制御部117Bは、当該情報処理として音声認識を第1音声処理部11Bに行わせ、当該情報処理として音声合成、コンテンツ復号及び電子メール受信を、それぞれ第2音声合成装置23Bの音声合成部、第2コンテンツ復号装置24Bのコンテンツ復号、第2電子メール処理装置25Bの第2電子メール処理部に行わせる。
この構成により、音声合成、コンテンツ復号又は電子メール受信が、それぞれの情報処理の際に有効に使用可能な第2音声合成装置23Bの音声合成部、第2コンテンツ復号装置24Bのコンテンツ復号部又は第2電子メール処理装置25Bの第2電子メール処理部において実行される。また、第2音声処理装置20の第2音声処理部を有効に使用することができない音声認識が第1音声処理部11Bで実行される。そのため、情報処理システム1B全体として有用性が向上する。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
図13は、本実施形態に係る情報処理システム1Cの構成を示すブロック図である。
情報処理システム1Cは、第1情報処理装置10C、第2音声処理装置20、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理装置25B、対話処理装置26C、収音部30、操作入力部31B、表示部32B、再生部33B及びロボット34Cを含んで構成される。また、収音部30はロボット34Cの頭部に設置され、再生部33Bはロボット34Cの正面に設置される。
ロボット34Cは、第1情報処理装置10Cから入力される動作計画データに基づいて動作する。ロボット34Cは、例えば、頭部、2個の耳介部、胴体部、2個の上腕部、2個の下肢部を備え、各部を動作させる動作機構を備える人型ロボット又はキャラクターロボット(ロボットエージェント)である。動作機構は、電力が動力源として供給されることによって各部を動作させるモータを備える。2個の耳介部のそれぞれは、頭部の正面に対して左方、右方に設置されている。左方、右方に設置されている耳介部を、それぞれ左耳介部、右耳介部と呼ぶ。
第1情報処理装置10Cは、第1音声処理部11B、第1音声合成部13B、第1コンテンツ復号部14B、第1電子メール処理部15B、ユーザIF部16B、動作計画生成部18C、データIF部19C、制御部117C、選択部118B、通信部120、話速検出部172C及び音楽情報検出部173Cを含んで構成される。動作計画生成部18Cは、全身方向計画生成部181C、全身動作計画生成部182C及び耳動作計画生成部183Cを含んで構成される。
第1情報処理装置10Cの制御部117Cは、制御部117Bと同様の処理を行う他、ユーザIF部16Bから入力された選択信号が示す情報処理が対話処理である場合には、ユーザIF部16Bから入力された入力データを対話処理装置26Cに通信部120を介して送信する。対話処理のための入力データとして、第1音声処理部11Bからの処理結果データである第1テキストデータ又は第2音声処理装置20からの処理結果データである第2テキストデータが用いられる。
対話処理装置26Cは、第1情報処理装置10Cからネットワーク50を介して第1テキストデータ又は第2テキストデータを受信する。対話処理装置26Cは、取得した第1テキストデータ又は第2テキストデータに対応する応答データを取得する。対話処理装置26Cは、所定のキーワード情報と提示情報を予め記憶させておいた記憶部(図示せず)を備える。キーワード情報として、例えば、地名を示す位置情報、人名を示す個人情報、要求する情報の種別を示す種別情報が記憶される。情報の種別として、気象情報、交通情報などがある。また、提示情報として、キーワード情報及び種別情報に対応する応答情報、応答情報を代入して情報の種別毎の応答文を形成するための文型情報(テンプレート)などが記憶される。応答情報として、例えば、地域毎の気象情報、交通情報が記憶される。対話処理装置26Cは、取得された第1テキストデータ又は第2テキストデータからキーワード情報と種別情報とを抽出する。対話処理装置26Cは、抽出したキーワード情報及び種別情報に対応する応答情報と、種別情報に対応する文型情報をそれぞれ記憶部から読み出す。対話処理装置26Cは、読み出した応答情報を文型情報に代入して応答文を示す応答データを生成する。対話処理装置26Cは、生成した応答データを第1情報処理装置10Cにネットワーク50を介して送信する。対話処理装置26Cは、例えば、検索サーバなどのウェブサーバである。その場合、ユーザIF部16Bは、アプリケーションとして所定のブラウザで指示される処理を実行することにより、その機能を実現してもよい。
第1情報処理装置10Cが受信した応答データは、通信部120、制御部117Cを介して全身動作計画生成部182Cに入力される。また、当該応答データは、対象テキストデータとしてユーザIF部16B及び選択部118Bを介して第1音声合成部13B又は第2音声合成装置23Bに出力される。そのため、再生部33Bからは、ユーザの発話によって収録された音声から音声認識によって認識された発話に対応する応答を表す合成音声が再生される。
本実施形態では、対話処理装置26Cに送信される第1テキストデータ又は第2テキストデータの生成に用いられた音源別音声信号の音源と、その音源方向を示す音源を示す音源別音声信号に基づく第1テキストデータ又は第2テキストデータであるかを示す音源識別情報が付加されている。つまり、音源識別情報は、発話者とその方向を示す情報である。上述したように、音源別音源信号は、第1音声処理部11Bの音源分離部113において生成され、音源方向は第1音声処理部11Bの音源定位部112において算出される。そこで、制御部117Cは、第1テキストデータ又は第2テキストデータに付加された音源識別情報を検出し、検出した音源識別情報を全身方向計画生成部181Cに出力する。また、制御部117Cは、音源定位部112において生成される音源毎の音源方向を示す音源方向情報をユーザIF部16Bを介して取得し、取得した音源方向情報を耳動作計画生成部183Cに出力する。
話速検出部172Cは、第1音声合成部13Bからの処理結果データである第1音声信号又は第2音声合成装置23Bからの処理結果データである第2音声信号をユーザIF部16Bから取得する。話速検出部172Cは、取得した第1音声信号又は第2音声信号が示す音声の話速を所定の話速検出方法を用いて検出する。話速検出部172Cは、検出した話速を示す話速情報を生成し、生成した話速情報を全身動作計画生成部182Cに出力する。
音楽情報検出部173Cは、収音部30からユーザIF部16Bを介して入力された音声信号が表す音楽に関する音楽情報を検出する。音楽情報検出部173Cは、音楽情報として、例えば、特開2011−180590号公報に記載の手法を用いて、その音楽を構成する拍(ビート)、音階、強度を検出する。音楽情報検出部173Cは、検出した音楽情報を全身動作計画生成部182Cに出力する。
動作計画生成部18Cは、ロボット34Cの動作を制御するための動作計画値を示す動作計画データを生成する。動作計画値は、ロボット34Cを所定の動作形態で動作させるための動作機構への供給電力を示す値である。動作計画生成部18Cは、動作計画データとして、以下に説明する全身方向計画データ、全身動作計画データ及び耳動作計画データを生成する。
全身方向計画生成部181Cは、制御部117Cから入力された音源識別情報に基づいてロボット34Cの全身の方向を制御するための動作計画値を示す全身方向計画データを生成する。全身方向計画生成部181Cは、例えば、ロボット34C全身の正面の方向を音源識別情報が示す音源方向に向けるために、下肢部を動作させるための全身方向計画データを生成する。全身方向計画生成部181Cは、生成した全身方向計画データをロボット34CにデータIF部19Cを介して送信する。ロボット34Cは、全身方向計画生成部181Cから受信した全身方向計画データが示す動作計画値で指示される供給電力を脚部の動作機構に供給する。よって、ロボット34Cの下肢部は、その動作によりロボット34Cの正面方向を音源である話者の方向に向ける。
全身動作計画生成部182Cは、対話処理装置26Cから制御部117Cを介して応答データが入力される場合には、当該応答データが示すテキストデータに対応する全身動作計画データを生成する。第1情報処理装置10Cの記憶部には、例えば、所定の音素列毎にロボット34Cの構成の主要部である胴部、頭部及び上腕部の動作態様を与える動作計画値の時系列パターンを示す全身動作態様データを予め記憶させておく。全身動作計画生成部182Cは、入力された対象テキストデータが示す音素列を生成し、生成した音素列に含まれる音素列に対応する全身動作態様データを記憶部から読み取る。全身動作計画生成部182Cは、読み取った全身動作態様データが示す動作計画値の時系列パターンに係る話速を、話速検出部172Cから入力される話速情報が示す話速に調整する。全身動作計画生成部182Cは、話速を調整した動作計画値の時系列パターンを示す全身動作計画データを生成し、生成した全身動作計画データをロボット34CにデータIF部19Cを介して送信する。ロボット34Cは、全身動作計画生成部182Cから受信した全身動作計画データが示す動作計画値で指示される供給電力を上述した主要部の動作機構に供給する。よって、ロボット34Cは、合成された音声の発話と同期し、かつその発話に応じた態様で動作する。
また、全身動作計画生成部182Cは、音楽情報検出部173Cから音楽情報が入力される場合には、当該音楽情報に対応する全身動作計画データを生成する。第1情報処理装置10Cの記憶部には、例えば、音階と強度の所定の時系列毎にロボット34Cの主要部の動作態様を与える動作計画値の時系列パターンを示す全身動作態様データをさらに記憶させておく。全身動作計画生成部182Cは、所定時間毎に入力された音楽情報が示す音階と強度の時系列に相当する音階と強度の時系列に対応する全身動作態様データを記憶部から読み取る。全身動作計画生成部182Cは、読み取った全身動作態様データが示す動作計画値の時系列パターンに係る拍間隔を、話速検出部172Cから入力される話速情報が示す拍の時系列で与えられる拍間隔に調整する。全身動作計画生成部182Cは、拍間隔を調整した動作計画値の時系列パターンを示す全身動作計画データを生成し、生成した全身動作計画データをロボット34CにデータIF部19Cを介して送信する。ロボット34Cは、全身動作計画生成部182Cから受信した全身動作計画データが示す動作計画値で指示される供給電力を上述した主要部の動作機構に供給する。よって、ロボット34Cは、収録された音楽の拍と同期し、かつその旋律や強度に応じた態様で動作する。
耳動作計画生成部183Cは、制御部117Cから入力された音源方向情報に基づいてロボット34Cの耳介部の方向を制御するための動作計画値を示す耳動作計画データを生成する。耳動作計画生成部183Cは、例えば、音源識別情報が示す音源方向がロボット34Cの正面に対して左方である場合には、左耳介部の位置を所定の周期で変位させるための耳動作計画データを生成する。耳動作計画生成部183Cは、例えば、音源識別情報が示す音源方向がロボット34Cの正面に対して右方である場合には、右耳介部の位置を所定の周期で変位させるための耳動作計画データを生成する。耳動作計画生成部183Cは、耳動作計画データをロボット34CにデータIF部19Cを介して送信する。ロボット34Cは、耳動作計画生成部183Cから受信した耳動作計画データが示す動作計画値で指示される供給電力を左耳介部又は右耳介部の動作機構に供給する。よって、音源方向がロボット34Cの正面に対して左方である場合には、左耳介部が所定の周期で動作する。音源方向がロボット34Cの正面に対して右方である場合には、右耳介部が所定の周期で動作する。音源として発話者の方向により近似する方向の耳介部が動作するため、発話者には自己の発話が受聴されているという心理的感覚が与えられる。
データIF部19Cは、動作計画生成部18Cから入力された各種の動作計画データをロボット34Cに出力する。データIF部19Cは、例えば、データ入出力インタフェースである。
以上に説明したように、本実施形態によれば、本実施形態に係る第1情報処理装置10Cは、ロボット34Cの動作を制御するための動作計画値を示す動作計画データを生成する動作計画生成部18Cを備える。音源識別情報に基づいて生成された全身方向計画データにより、ロボット34C全身の正面の向きを音源、例えば、発話者に向けることができる。音源方向情報に基づいて生成された耳動作計画データにより、ロボット34Cの正面に対して音源、例えば、発話者の方向に近似する方に設置された耳介部を動作させることができる。音楽情報に基づいて生成された全身動作計画データにより、音楽に合わせてロボット34Cの主要部を動作させることができる。また、応答データと話速情報に基づいて生成された全身動作計画データにより、発話者による発話に対する応答に合わせてロボット34Cの主要部を動作させることができる。
そのため、ユーザは自己の発話に応じたロボット34Cの動作に接することにより、興趣を得るとともに第1情報処理装置10Cに対する発話の動機を維持することができる。
以上、図面を参照して本発明の実施形態について説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、制御部117は制御部117Aと同様の処理を実行してもよいし、しなくてもよい。制御部117Aは、第2テキストデータが選択される可能性がある場合に、通信状態情報に基づいて第1音声認識部116を動作させるか否かを判定する処理、音源定位部112、音源分離部113及び特徴量算出部114のうち、どの階層の処理部まで動作させるかを判定する処理を行う。第2テキストデータが選択される可能性がある場合とは、動作状態が「メッセージ待ち」の状態(図4)の場合である。
上述した前処理部111、211Aが、それぞれ音源定位部112、212A、音源分離部113、213A及び特徴量算出部114、214Aといった3階層の処理部を備える場合を例にしたが、これには限られない。前処理部111、211Aの階層数は、2階層以下でもよいし、4階層以上でもよい。前処理部111、211Aの階層数が4階層である場合には、音源分離部113、213Aと特徴量算出部114、214Aの間にそれぞれ残響抑圧部(図示せず)を含んでもよい。残響抑圧部は、入力された音源別音声信号について残響抑圧を行い、残響成分が抑圧された音源別音声信号を出力する。残響抑圧法として、例えば、スペクトラルサブトラクション(spectral subtraction)法、ウィーナフィルタリング(Wiener filtering)法が利用可能である。
また、前処理部111、211Aの階層数が1階層である場合には、それぞれ音源定位部112、212A、音源分離部113、213Aが省略されてもよい。
また、第2音声認識DB215には、J個(Jは、予め定めた2以上の整数)の第2音声認識データが予め記憶されていてもよい。J個の第2の音声認識データは、互いに異なる利用目的、分野の語彙の単語辞書を含む。その場合、制御部117、117Aは、第1テキストデータ又は第2テキストデータに、ある利用目的、分野の単語が含まれる場合、その単語に対応した音声認識データをJ個の第2の音声認識データから選択する。そして、制御部117、117Aは、選択した音声認識データを示す音声認識データ指示情報を第2音声処理装置20、20Aに送信する。第2音声処理装置20、20Aの第2音声認識部216は、第1音声処理装置10、10Aから受信した音声認識データ指示情報が示す音声認識データを用いて音声認識処理を行う。
この構成により、第2音声認識部216において、第1音声処理装置10、10Aのユーザの発話に係る利用目的、分野に応じて複数の第2の音声認識データが使い分けることができる。
また、ネットワーク50には、それぞれ異なる利用目的、分野の語彙の単語辞書を含んだ第2の音声認識データを用いて音声認識処理を行う第2音声認識部216を各1個備えた複数の第2音声処理装置20、20Aが接続されていてもよい。その場合、制御部117、117Aは、第1テキストデータ又は第2テキストデータに、ある利用目的、分野の単語が含まれる場合、その単語に対応した音声認識データを記憶した第2音声認識DB215を備えた第2音声処理装置20、20Aを選択する。そして、制御部117は、第1音響特徴量を選択した第2音声処理装置20に送信する。同様に、制御部117Aは、(i)Mチャネルの音声信号、(ii)音源方向情報ならびにMチャネルの音声信号、(iii)音源別音声信号、(iv)音響特徴量のいずれかを、選択した第2音声処理装置20Aに送信する。制御部117、117Aに選択された第2音声処理装置20、20Aの第2音声認識部216は、第1音声処理装置10、10Aから受信したデータに基づく音響特徴量について音声認識処理を行う。
この構成により、ネットワークに分散配置され、それぞれ異なる第2音声認識データを用いて音声認識処理を実行する第2音声処理装置20、20Aが、第1音声処理装置10、10Aのユーザの発話に係る利用目的、分野に応じて使い分けることができる。
また、上述したステップS112(図5)、S122(図6)において、制御部117、117Aは、音源分離部113から出力された音源別音声信号について音声検出処理を行ってもよい。制御部117、117Aは、音声検出処理において音声区間であると判定した場合、音声ありと判定し、音声区間ではないと判定したとき、音声なしと判定してもよい。
情報処理システム1B、1Cは、第2音声処理装置20に代えて第2音声処理装置20Aを備えてもよい。その場合、第1情報処理装置10B、10Cは、通信状態解析部119Aを備え、制御部117B、117Cは、制御部117Aと同様に処理部の動作の要否を判定し、動作要と判定した処理部を動作させ、動作否と判定した処理部の動作を停止する。そして、選択部118Bは、選択部118Aと同様に送信すべき送信データを判定し、判定した送信データを、通信部120を介して第2音声処理装置20Aに送信する。
また、第1情報処理装置10B、10Cに備えられる通信状態解析部119Aは、第2音声処理装置20の他、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理装置25B、対話処理装置26Cとの通信状態を解析してもよい。制御部117B、117Cは、解析された通信状態に基づいてクラウド処理の要否を判定してもよい。
第1情報処理装置10Cは、ロボット34Cと一体化され、単一のロボット34Cとして構成されてもよい。また、ロボット34Cは、操作入力部31B、表示部32Bの一方又は両方と一体化されてもよい。
また、上述した実施形態では、第2音声処理装置20、20A、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理装置25B及び対話処理装置26Cがそれぞれ別個である場合を例にしたが、これには限られない。第2音声処理装置20、20A、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理装置25B及び対話処理装置26Cの全部又はいずれかの組み合わせが一体化した単一のサーバ装置として構成されてもよい。また、第2音声処理装置20、第2音声合成装置23B、第2コンテンツ復号装置24B、第2電子メール処理部又は対話処理装置26Cの個数は、各1個に限らず、複数個であってもよい。
なお、上述した実施形態における第1音声処理装置10、10A、もしくは第1情報処理装置10B、10Cの一部、例えば、音源定位部112、音源分離部113、特徴量算出部114、第1音声認識部116、制御部117、117A、117B、117C、選択部118A、118B、通信状態解析部119A、第1音声処理部11B、第1音声合成部13B、第1コンテンツ復号部14B、第1電子メール処理部15B、ユーザIF部16B、話速検出部172C、音楽情報検出部173C、全身方向計画生成部181C、全身動作計画生成部182C、耳動作計画生成部183C、第2音声処理装置20の一部、例えば、音源定位部212A、音源分離部213A、特徴量算出部214A、第2音声認識部216、データ抽出部218をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、第1音声処理装置10、10A、第1情報処理装置10B、10C、第2音声処理装置20、20Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における第1音声処理装置10、10Aの一部、または全部を、第1情報処理装置10B、10Cの一部、または全部を、第2音声処理装置20、20Aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。第1音声処理装置10、10A、第1情報処理装置10B、10C、第2音声処理装置20、20Aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
10、10A…第1音声処理装置、10B、10C…第1情報処理装置、11B…第1音声処理部、110…音声信号取得部、111…前処理部、112…音源定位部、113…音源分離部、114…特徴量算出部、115…第1音声認識DB、116…第1音声認識部、117、117A、117B、117C…制御部、118A、118B…選択部、
119A…通信状態解析部、120…通信部、13B…第1音声合成部、14B…第1コンテンツ復号部、15B…第1電子メール処理部、16B…ユーザIF部、18C…動作計画生成部、181C…全身方向計画生成部、182C…全身動作計画生成部、183C…耳動作計画生成部、19C…データIF部、20、20A…第2音声処理装置、211A…前処理部、212A…音源定位部、213A…音源分離部、214A…特徴量算出部、215…第2音声認識DB、216…第2音声認識部、218…データ抽出部、220…通信部、23B…第2音声合成装置、24B…第2コンテンツ復号装置、25B…第2電子メール処理装置、26C…対話処理装置、30…収音部、31B…操作入力部、32B…表示部、33B…再生部、34C…ロボット、50…ネットワーク

Claims (5)

  1. 入力された音声信号に第1音声認識データを用いて音声認識を行って第1テキストデータを生成する第1音声認識部と、
    前記第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する第2音声認識部から前記第2テキストデータを受信可能な通信部と、
    前記第2音声認識部との通信状態に基づいて前記第1音声認識部の動作を停止するか否かを判定する制御部と、
    前記音声信号に前処理を行って第1音響特徴量を生成する前処理部と、を備え、
    前記前処理部は、
    L(Lは1以上の予め定めた整数)階層の階層処理部を備え、
    第l(lは1以上L以下の整数)階層処理部は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、
    前記制御部は、前記第1音声認識部の動作を停止する場合、前記通信状態に応じていずれの階層の階層処理部まで動作させるかを判定する情報処理装置。
  2. Lは3であり、
    第1階層処理部は、複数チャネルの音声信号から音源毎の音源方向を算出する音源定位部であり、
    第2階層処理部は、前記複数チャネルの音声信号を前記音源毎の音源別音声信号に分離する音源分離部であり、
    第3階層処理部は、前記音源別音声信号から音響特徴量を算出する特徴量算出部である請求項1に記載の情報処理装置。
  3. 第1情報処理装置と第2情報処理装置とを備える情報処理システムであって、
    前記第1情報処理装置は、
    入力された音声信号に第1音声認識データを用いて音声認識を行って第1テキストデータを生成する第1音声認識部と、
    前記第2情報処理装置から第2テキストデータを受信可能な通信部と、
    前記第2情報処理装置との通信状態に基づいて前記第1音声認識部の動作を停止するか否かを判定する制御部と、
    前記音声信号に前処理を行って第1音響特徴量を生成する前処理部を備え、
    前記前処理部は、
    L(Lは1以上の予め定めた整数)階層の階層処理部を備え、
    第l(lは1以上L以下の整数)階層処理部は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、
    前記制御部は、前記第1音声認識部の動作を停止する場合、前記通信状態に応じていずれの階層の階層処理部まで動作させるかを判定し、
    前記第2情報処理装置は、
    前記音声信号に対して前記第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する第2音声認識部を備える、
    情報処理システム。
  4. 第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する音声認識部から前記第2テキストデータを受信可能な通信部を備える情報処理装置における情報処理方法であって、
    入力された音声信号に前記第1音声認識データを用いて音声認識を行って第1テキストデータを生成する音声認識過程と、
    前記音声認識部との通信状態に基づいて前記音声認識過程を停止するか否かを判定する制御過程と、
    前記音声信号に前処理を行って第1音響特徴量を生成する前処理過程と、を有し、
    前記前処理過程は、
    L(Lは1以上の予め定めた整数)階層の階層処理過程を有し、
    第l(lは1以上L以下の整数)階層処理過程は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、
    前記制御過程は、前記通信状態に基づいて前記音声認識過程を停止する場合、前記通信状態に応じていずれの階層の階層処理過程まで実行するかを判定する情報処理方法。
  5. 第1音声認識データよりも汎用性が高い第2音声認識データを用いて音声認識を行って第2テキストデータを生成する音声認識部から前記第2テキストデータを受信可能な通信部を備える情報処理装置のコンピュータに、
    入力された音声信号に前記第1音声認識データを用いて音声認識を行って第1テキストデータを生成する音声認識手順、
    前記音声認識部との通信状態に基づいて前記音声認識手順を停止するか否かを判定する制御手順、
    前記音声信号に前処理を行って第1音響特徴量を生成する前処理手順と、を実行させるための情報処理プログラムであって、
    前記前処理手順は、
    L(Lは1以上の予め定めた整数)階層の階層処理手順を有し、
    第l(lは1以上L以下の整数)階層処理手順は、第l階層データに第l階層処理を行って第l+1階層データを生成し、第1階層データは前記音声信号であり、第L+1階層データは、前記第1音響特徴量であり、
    前記制御手順は、前記音声認識手順を停止する場合、前記通信状態に応じていずれの階層の階層処理手順まで実行するかを判定する情報処理プログラム。
JP2015082359A 2014-08-21 2015-04-14 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム Active JP6118838B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015082359A JP6118838B2 (ja) 2014-08-21 2015-04-14 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US14/826,527 US9899028B2 (en) 2014-08-21 2015-08-14 Information processing device, information processing system, information processing method, and information processing program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014168632 2014-08-21
JP2014168632 2014-08-21
JP2015082359A JP6118838B2 (ja) 2014-08-21 2015-04-14 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2016045487A JP2016045487A (ja) 2016-04-04
JP6118838B2 true JP6118838B2 (ja) 2017-04-19

Family

ID=55348813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015082359A Active JP6118838B2 (ja) 2014-08-21 2015-04-14 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム

Country Status (2)

Country Link
US (1) US9899028B2 (ja)
JP (1) JP6118838B2 (ja)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5963328B2 (ja) 2014-10-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
CN107121669B (zh) * 2016-02-25 2021-08-20 松下电器(美国)知识产权公司 声源探测装置、声源探测方法及非瞬时性记录介质
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10062385B2 (en) * 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
JP6633008B2 (ja) * 2017-02-01 2020-01-22 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
JP7035526B2 (ja) * 2017-03-17 2022-03-15 株式会社リコー 情報処理装置、プログラム及び情報処理方法
US20180268817A1 (en) * 2017-03-17 2018-09-20 Ricoh Company, Ltd. Information processing apparatus, information processing method, and computer program product
US10665232B2 (en) 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US20190019497A1 (en) * 2017-07-12 2019-01-17 I AM PLUS Electronics Inc. Expressive control of text-to-speech content
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
JP7013957B2 (ja) * 2018-03-12 2022-02-01 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10490207B1 (en) * 2018-05-11 2019-11-26 GM Global Technology Operations LLC Automated speech recognition using a dynamically adjustable listening timeout
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109117235B (zh) * 2018-08-24 2019-11-05 腾讯科技(深圳)有限公司 一种业务数据处理方法、装置以及相关设备
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
WO2020060311A1 (en) * 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11455982B2 (en) 2019-01-07 2022-09-27 Cerence Operating Company Contextual utterance resolution in multimodal systems
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11798530B2 (en) * 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
JP7522651B2 (ja) 2020-12-18 2024-07-25 本田技研工業株式会社 情報処理装置、移動体、プログラム及び情報処理方法
JP7509069B2 (ja) 2021-03-29 2024-07-02 トヨタ自動車株式会社 車両制御システム及び車両制御方法
US20230281235A1 (en) * 2022-02-23 2023-09-07 Intercom, Inc. Generating conversation topics using neural networks

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
JP2000181485A (ja) 1998-12-14 2000-06-30 Toyota Motor Corp 音声認識装置及び方法
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
US8214214B2 (en) * 2004-12-03 2012-07-03 Phoenix Solutions, Inc. Emotion detection device and method for use in distributed systems
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US8364486B2 (en) * 2008-03-12 2013-01-29 Intelligent Mechatronic Systems Inc. Speech understanding method and system
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120215528A1 (en) * 2009-10-28 2012-08-23 Nec Corporation Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
JP5654897B2 (ja) 2010-03-02 2015-01-14 本田技研工業株式会社 楽譜位置推定装置、楽譜位置推定方法、及び楽譜位置推定プログラム
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
JP5328744B2 (ja) * 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法
US9953653B2 (en) * 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
WO2014055076A1 (en) * 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9131369B2 (en) * 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US9666188B2 (en) * 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion

Also Published As

Publication number Publication date
US9899028B2 (en) 2018-02-20
JP2016045487A (ja) 2016-04-04
US20160055850A1 (en) 2016-02-25

Similar Documents

Publication Publication Date Title
JP6118838B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
JP6574169B2 (ja) 多方向の復号をする音声認識
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
JP2018120212A (ja) 音声認識方法及び装置
JP6078964B2 (ja) 音声対話システム及びプログラム
EP3061086B1 (en) Text-to-speech performance evaluation
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP6169910B2 (ja) 音声処理装置
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
US11894008B2 (en) Signal processing apparatus, training apparatus, and method
US11120785B2 (en) Voice synthesis device
JP7040449B2 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
WO2007063827A1 (ja) 声質変換システム
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP4817250B2 (ja) 声質変換モデル生成装置及び声質変換システム
JP5500100B2 (ja) 音声案内システム
JP4996156B2 (ja) 音声信号変換装置
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP2019015950A (ja) 音声認識方法、プログラム、音声認識装置、及びロボット
Mporas et al. Robust speech interaction in motorcycle environment
KR101611224B1 (ko) 오디오 인터페이스
JP4877112B2 (ja) 音声処理装置およびプログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US12002444B1 (en) Coordinated multi-device noise cancellation
JPWO2019021953A1 (ja) 音声操作装置及びその制御方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170327

R150 Certificate of patent or registration of utility model

Ref document number: 6118838

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150