JP2020042292A

JP2020042292A - 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

Info

Publication number: JP2020042292A
Application number: JP2019210065A
Authority: JP
Inventors: 真人藤野; Masato Fujino
Original assignee: Fairy Devices Inc
Current assignee: Fairy Devices Inc
Priority date: 2017-06-26
Filing date: 2019-11-20
Publication date: 2020-03-19
Also published as: JP2019008274A

Abstract

【課題】高精度で、しかも安価に音声内容の分析、解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体を提供する。【解決手段】音声情報処理システムは、音声に関する音声情報を入力する入力手段と、入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、前段処理を施された音声情報が話者特徴情報及び音声到来方位情報と共に記録される記録手段と、を備える。【選択図】図４

Description

本発明は、会話における音声情報処理システムに係る、音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体に関する。

近年、音声情報処理技術の発展は目覚ましいものがある。例えば、利用者がシステムの状態を容易に把握できるようにし、利用者とシステムとが常に円滑な対話を実現できる音声対話システム（例えば、特許文献１参照）、苦情等を音声により受け付けて、後の処理に利用可能な形態で処理者に伝達することが可能な対話記録システム（例えば、特許文献２参照。）、及びユーザと円滑に対話できる、対話機能を有する電子機器（例えば、特許文献３参照。）が開示されている。

特許文献１に記載の発明は、マイク、音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段、対話管理手段、問題解決手段、応答文生成手段、音声合成手段、音声出力手段、スピーカ、複数の中途応答処理手段からなる音声対話システムにおいて、複数の中途応答処理手段は、入力系の手段である音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段のうち任意の１つあるいは複数の手段の処理結果を入力として、処理結果を出力系の手段である音声出力手段、音声合成手段、応答文生成手段のうち１つあるいは複数の手段へ出力するものである。

特許文献２に記載の発明は、対話の音声データを記録する記録装置と、記録される音声データについて、特定の箇所を識別するための識別子を生成して、記録装置に記録させる処理を行う情報処理装置とを備え、情報処理装置は、記記録装置に記録される音声データについて、識別子の生成の要求を受け付けて識別子を生成し、識別子を、記録すべき音声データと対応付けて記録装置に記録し、記録装置には、音声データと、識別子データとが記録され、また、音声データを音声認識部により、音声認識して得られたテキストデータが記録されるものである。

特許文献３に記載の発明は、冷蔵庫は、マイクおよびスピーカを備え、音声を取得し、取得した音声に応じて発話する対話機能を有するものであり、冷蔵庫は、冷蔵庫近傍の所定の範囲内におけるユーザの位置を特定する位置特定部と、位置特定部にて特定されたユーザの位置に応じた値となるように、マイクの感度を調整するマイク制御部、スピーカの音量を調整するスピーカ制御部を備えるものである。

特許第３４５４８９７号公報特開２０００−０６７０６４号公報特開２０１７−０６９８３５号公報

しかしながら、特許文献１に記載の発明は、オウム返し応答もしくは相槌応答によって、利用者は、自分の発話が音声として入力されていることを認識でき、安心して次の発話を行なえるが、定型文を利用しているため、ノイズやエコーの混在したイレギュラーな発話に対しては何ら評価をしたり、定型文に修正を施したりするようにはなっていない。

また、特許文献２に記載の発明は、予め定めた基準値以上かを判定し、基準値未満のときは、発言が途切れていると判定し、その後、基準値を超える状態となったとき、発言が始まったと判定して、頭出し信号を出力したりするものの、対話の相手の感情を把握したり、聞き間違いに対して改善するような処理はなされていない。

さらに、特許文献３に記載の発明は、取得した音声に応じて発話する受動的な応答をするようになっているものの相手に対して能動時に話しかけるようにはなっていない。

本願は、このような問題点を解決するために企図されたものであり、高精度で、しかも安価に音声内容の分析、解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する技術的思想の提示を目指すものである。

上記課題を解決するため、請求項１に記載の発明は、音声に関する音声情報を入力する入力手段と、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、前記前段処理手段により処理された音声情報に所定の加工を施し、第１の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第１の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段と、を備えたことを特徴とする。

ここで、音声とは、物音（例えば、机やドアをたたく音等）と人の声と雑音（例えば、サイレンや動物の鳴き声、クシャミ等）とを含む音波である。

また、第１の情報とは、アプリケーションソフトウェア（以下、「アプリ」と記す。）に関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、評価が不十分な場合に繰り返すフロー等を含む情報である。

請求項２に記載の発明は、請求項１に記載の構成に加え、前記最適化手段は、前記タスク処理の結果を評価する第１の評価手段と、前記評価が十分でない場合に前記第１の情報を修正する修正手段と、前記前段処理手段から前記修正手段までの一連の処理を繰り返す繰返手段と、を備えたことを特徴とする。

請求項３に記載の発明は、請求項１に記載の構成に加え、室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置の処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段を備えたことを特徴とする。

請求項４に記載の発明は、請求項１に記載の構成に加え、室内の環境の設定、意図的解釈、及び対話を管理する外部システムを備えたことを特徴とする。

ここで、意図的解釈とは話者の意図を推定し、推定結果を反映した解釈を言う。

請求項５に記載の発明は、請求項１に記載の構成に加え、前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段を少なくとも一つ備えたことを特徴とする。

請求項６に記載の発明は、請求項１に記載の構成に加え、意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする。

請求項７に記載の発明は、請求項１に記載の構成に加え、前記音声の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する推論手段と、第２の情報をデザインする際に利用したログを収集する収集手段と、前記ログを解析する解析手段と、前記応答及び前記第２の情報を評価する第２の評価手段とをそなえ、前記評価に基づいて継続的に改善することで最適化することを特徴とする。

ここで、第２の情報とは、各種手段のうちどの手段を用い、どの順番で処理し、評価し、十分でない場合に繰り返すフローについての情報をいう。

認識処理は、収集した音声情報から、話し手の他に、笑い声、拍手、呼び声等の認識、さらに環境音を分析、解析、認識等の処理を行った結果から、話者識別、性別推定、年齢推定等を行うとともに、イントネーション判定から、出身地等に関する各種情報を提供するものである。

請求項８に記載の発明は、請求項７に記載の構成に加え、前記推論手段は、前記話者との対話を意図的に解釈する解釈手段と、前記話者との対話を管理する管理手段と、を備えたことを特徴とする。

ここで、話者との対話の管理とは、顧客満足度向上のため、話者がどのような発話に対しどのような感情を抱いたかを記録し、クライアント側の音声入出力装置をコールセンターに利用していた場合にオペレータに注意喚起したり、管理者に報告したりすることを含む。また、クライアント側の音声入出力装置を会議に利用していた場合に出席者が感情的になった場合に落ち着かせるように休憩を入れたり、冷静になるような旨の音声を発話したりすることを含む。

請求項９に記載の発明は、請求項４に記載の構成に加え、前記環境判断手段は、前記室内のサイズを判断するサイズ判断手段と、前記室内のノイズレベルを認識するノイズレベル認識手段と、前記室内の残響レベルを認識する残響レベル認識手段と、を備えたことを特徴とする。

請求項１０に記載の発明は、請求項５に記載の構成に加え、前記筐体に設けられ画像を表示する画像表示手段を備えたことを特徴とする。

請求項１１に記載の発明は、請求項５に記載の構成に加え、前記筐体に設けられユーザを認識する指紋認証手段を備えたことを特徴とする。

請求項１２に記載の発明は、請求項１に記載の構成に加え、クライアント側の音声入出力装置の処理能力は、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクアレイ、スピーカの数、ＬＥＤの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含むことを特徴とする。

請求項１３に記載の発明は、請求項１に記載の構成に加え、前記話者の音声から話し方を特徴として抽出する特徴抽出手段と、前記特徴を前記話者の情報に紐づけて記憶し、新たに入力した音声の特徴を前記記憶手段に記憶された話者の情報と照合して話者を識別する話者識別手段と、を備えたことを特徴とする。

請求項１４に記載の発明は、請求項７に記載の構成に加え、前記話者の感情を識別する感情識別手段を備えたことを特徴とする。

請求項１５に記載の発明は、請求項１４に記載の構成に加え、前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段を備えたことを特徴とする。

請求項１６に記載の発明は、音声に関する音声情報を入力し、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行い、前記前段処理された音声情報に所定の加工を施し、第１の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第１の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化することを特徴とする。

請求項１７に記載の発明は、コンピュータが読み取り可能なプログラムであって、コンピュータを、音声に関する音声情報を入力する入力手段、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、前記前段処理手段により処理された音声情報に所定の加工を施し、第１の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第１の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、として機能させるための音声情報処理システムのプログラムであることを特徴とする。

請求項１８に記載の発明は、請求項１７に記載のプログラムを記録した記録媒体であることを特徴とする。

本発明によれば、高精度で、しかも安価に音声内容の分析、解析、認識、評価することにより最適化するとともに、会話の行われている状況をより的確に把握することを可能とする。

本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。図１に示した音声情報処理システムに用いられるクラウド側サーバのハードウェアブロック図の一例である。図１に示した音声情報処理システムのハードウェアブロック図の一例である。図２に示した音声情報処理システムのソフトウェアブロック図の一例である。図２に示した音声情報処理システムの処理内容を示すソフトウェアスタック図の一例である。図２に示した音声情報処理システムの外観図の一例である。図２に示した音声情報処理システムにおける全体動作を示すフローチャートの一例である。図２に示した音声情報処理システムにおける全体動作を示すフローチャートの他の一例である。図２に示した音声情報処理システムにおける全体動作を示すフローチャートの他の一例である。

本発明の実施の形態を、図面を参照して説明する。

＜構成＞
＜システム全体＞
図１は、本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。本発明の一実施形態に係る音声情報処理システムは、ネットワーク１０を介してクラウド側サーバ２０、及びクライアント側の音声入出力装置１００が接続されて構成されている。

音声入出力装置１００とスマートフォンとで連携して音声情報処理システムを構成してもよく、Ｗｉ-Ｆｉルータを用いてインターネット接続してもよい。なお、音声入出力装置１００とスマートフォンとの間の通信手段としては、例えば、無線、赤外線、有線等どのような方法を用いてもよい。また本願を適用する、例えば音声情報処理システムが複数存在する場合には、音声入出力装置１００はその数だけ存在することとなる。

＜クラウド側サーバ及び音声入出力装置のハードウェア構成＞
次に、図２に従ってクラウド側サーバ２０の詳細を説明する。図２に示すように、クラウド側サーバ２０は、データベース（以下、「ＤＢ」という。）２１、プロセッサ２２、出力装置２３、入力装置２４、及びインターフェース２６等を備えて構成されている。プロセッサ（「コンピュータ」とも称する）２２は、音声情報の管理に関するデータの処理を行い、ＤＢ２１は音声情報の管理に関する情報等のデータ、及び制御プログラム等を記憶する。出力装置２３は、ディスプレイ、プリンタ等を備えて構成され、必要に応じて各種情報を出力する。また、入力装置２４は、キーボード、バーコードリーダ、及びスキャナ等を備えて構成され、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものとする。なお、クラウド側サーバ２０は最終的に音声情報処理システムとしての業務遂行が可能であれば、単独でも複数のシステムから構成されていてもよい。

＜音声入出力装置のハードウェア構成＞
次に、図３に従って音声入出力装置１００の詳細を説明する。同図に示すように、音声入出力装置１００は、主として拡張部２０１、記憶部２０２、マイクユニット２０３、マイク制御部２０４、信号処理部２０５、通信部２０６、音声発生部２０７、非可聴音発生部２０８、及び表示部２０９を備える。表示部２０９はＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ：発光ダイオード）２１０とＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：液晶表示ディスプレイ）２１１とを有してもよい。ＬＥＤ２１０はリング状であってもよい。

音声入出力装置１００は、さらに破線で示す撮像部２１２、個人認証部２１３、ＩＲ（Ｉｎｆｒａｒｅｄ：赤外線）部２１４、投影部２１５、振動部２１６、及び回転部２１７を備えて構成してもよい。

拡張部２０１は音声入出力装置１００にＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリやＵＳＢ機器を接続するための部材である。

記憶部２０２は、音声入出力装置１００の制御プログラム、音声データ、個人データ、画像データ等のデータを記憶する部材であり、例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：読み出し専用メモリ）、ＲＡＭ（ＲａｎｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ：書き換え自在メモリ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌＩｄＳｔａｔｅＤｒｉｖｅ）が挙げられる。

マイクユニット２０３は、少なくとも１本のマイクからなり、マイク制御部２０４にてＡＧＣ（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ：自動利得制御）やフォーミング等の制御が行われる。

信号処理部２０５は、マイクからの音声信号に対し周囲雑音除去等の処理を施し、正確に認識処理した後、処理済みの情報を記憶部２０２に記憶し、音声発生部２０７から音声を発生させたり、マイクからの音声信号の話者識別処理や感情識別処理を行ったり、処理済みの音声情報を到来方位情報、話者識別情報、感情識別情報と共に記憶部２０２に記憶し、同時に表示部２０９に適合した表示を行ったりする。併せて通信部２０６や拡張部２０１より外部に送信し、クラウド処理等により詳細な情報分析を行うことができる。これらの処理により、特定方位に存在する雑音源からの音声情報をブロックアウトしたり、これとは逆に特定方位からの情報のみを記録したりすることができる。

また、記憶部２０２は多層構成とし、記録すべき音声情報の到来方位や話者識別、感情識別等の関連情報の整理が可能となる。

信号処理部２０５は、Ｗｉ-Ｆｉやブルートゥース（登録商標）等により外部機器と無線通信するための通信部２０６とハードワイヤにて外部機器と接続する拡張部２０１とを有し、外部マイクにより周囲雑音を集音して拡張ポートからかかる受信雑音を入力して周囲雑音の影響を低減したり、ＵＳＢポートにより外部機器と通信したりすることが可能である。

非可聴音発生部２０８から超音波を発生し、その反射による話者や壁までの距離を測定することができる。

表示部２０９のＬＥＤ２１０は、リング状のＬＥＤを周回点灯させたり、点滅させたり発光間隔や発光色を変化させたりしてもよい。ＬＣＤ２１１は、音声入出力装置１００の筐体の天板や側面に設けてもよく、カラーでもモノクロでもよい。

撮像部２１２は、音声入出力装置１００の周囲の状況を撮像する部材であり、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：電荷結合素子）カメラが挙げられる。撮像部２１２による撮像画像は動画像でも静止画像でもよい。

個人認証部２１３は、ユーザの指紋や声紋を識別する部材であり、音声入出力装置１００の天板に設けられた指紋識別装置であっても、話者の音声から声紋を識別する声紋識別装置（もしくはソフトウェア）であってもよい。

ＩＲ部２１４は、赤外線センサであり、人感センサとして人の侵入の監視や来客検知に用いることができる。

投影部２１５は、音声入出力装置１００の筐体に設けられ、例えば会議や旅行説明のため、室内のホワイトボードや壁やスクリーンに地図や議題を投影するプロジェクターである。

振動部２１６は、クライアント側の音声入出力装置１００の筐体を振動させることで、ユーザに注意を喚起させるものである。振動部２１６は、例えば、圧電素子や出力軸に偏芯カムを有するモータ等が挙げられる。

回転部２１７は、音声入出力装置１００の底面に設けられたベースと、ベース上に設けられた回転軸と、回転軸上に設けられ筐体を回転させるモータとで構成される。この回転部２１７により、投影部２１５やＬＣＤ２１１の向きを変えることができる。

＜クラウド側サーバ及び音声入出力装置のソフトウェア構成＞
図４に従ってクラウド側サーバ及び音声入出力装置のソフトウェア構成について説明する。

＜クラウド側サーバ＞
クラウド側サーバ２０は、入力手段４１、出力手段４２、記憶手段４３、判断手段４４、最適化手段４５、翻訳手段４９、第１制御手段５０、推論手段５１、及び通信手段５２を備えて構成されている。

最適化手段４５は、評価手段４６、修正手段４７、及び繰返手段４８を備える。推論手段５１は、感情識別手段５１ａ、方位検出手段５１ｂ、話者識別手段５１ｃ、収集手段５１ｄ、解釈手段５１ｅ、管理手段５１ｆ、サイズ判断手段５１ｇ、ノイズレベル認識手段５１ｈ、及び残響レベル認識手段５１ｉを備える。

入力手段４１は、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものであり、図２に示した入力装置２４によって実現される。

出力手段４２は、必要に応じて各種情報を出力する手段であり、図２に示した出力装置２３によって実現される。

記憶手段４３は、クラウド側サーバの制御プログラム、及び音声情報の管理に関する情報等のデータ等を記憶する手段であり、図２に示したデータベース２１によって実現される。制御プログラムには、起動時について能動的な動作、すなわち、例えば人を検知したときに先に挨拶を言うように設定されている。

判断手段４４は、室内で音声の内容を分析して応答する際に、クライアント側の音声入出力装置１００の処理能力が対応可能な場合にクライアント側の音声入出力装置１００で情報処理を行い、クライアント側の音声入出力装置１００の処理能力が対応可能でない場合にクラウド側サーバ２０が情報処理を行うよう判断する手段であり、図２に示したプロセッサ２２によって実現される。

ここで、クライアント側の音声入出力装置１００の処理能力とは、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクアレイ、スピーカの数、ＬＥＤの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含む。

最適化手段４５は、識別処理が容易となるような前段処理手段により処理された音声情報に所定の加工を施し、第１の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第１の情報を修正し、評価が十分になるまで一連の処理を何回でも繰り返すことで最適化する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。

第１の情報とは、アプリに関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、結果が不十分な場合に何回でも繰り返すフロー等を含む情報である。

最適化手段４５の評価手段４６は、タスク処理の結果を評価する手段である。最適化手段４５の修正手段４７は、結果が十分でない場合に第１の情報を修正する手段である。最適化手段４５の繰返手段は、評価手段４６から修正手段４７までの一連の処理を何回でも繰り返す手段である。

翻訳手段４９は、自動的に言語を識別し、例えば日本語から日本語以外の多言語に翻訳し、日本語以外の多言語を日本語に翻訳する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。翻訳手段４９は、日本語の音声を日本語以外の多言語の音声に変換したり、日本語以外の多言語の音声を日本語の音声に変換したりする、いわば、通訳機能（もしくは同時通訳機能）を有していてもよい。この場合、音声は音声合成手段により合成されるが、話者の性別、年齢を判断し、老若男女に対応した音声を発音するようにしてもよい。また、翻訳手段４９は、翻訳する際はテキスト形式で翻訳内容を記録することもできるようになっている。テキストデータは話者と紐づけるようにするのが好ましい。テキストデータは話者に応じて色分けするようにしてもよい。

第１制御手段５０は、クラウド側サーバ２０の各手段を統括制御する手段であり、図２に示したプロセッサ２２によって実現される。

推論手段５１は、音声の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。

感情識別手段５１ａは、話者の感情を識別する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。感情識別手段５１ａによって識別された話者の感情について話者の発話と紐づけて記録するのが好ましい。

方位検出手段５１ｂは、音声入出力装置１００から見た話者の方位を検出する手段であり、図２に示した入力装置２４及びプロセッサ２２によって実現される。

話者識別手段５１ｃは、話者の音声から話し方の平均的な音響モデルとの差を特徴として抽出する特徴抽出手段により得られた特徴を話者の情報に紐づけて記憶し、新たに入力した音声の特徴を記憶手段４３に記憶された話者の情報と照合して話者を識別する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。話者識別に関しては、後述する音声入出力装置１００に、撮像する撮像手段７３や指紋認証手段７２を設けることにより、顔画像認識処理や指紋認証処理によって実現するようにしてもよい。

収集手段５１ｄは、第２の情報をデザインする際に利用したログを収集する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。第２の情報とは、前述したように各種手段のうちどの手段を用い、どの順番で処理し、評価し、結果が十分でない場合に繰り返すフローについての情報をいう。

解釈手段５１ｅは、話者との対話を意図的に解釈する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。

管理手段５１ｆは、話者との対話を管理する手段であり、図２に示したデータベース２１及びプロセッサ２２によって実現される。

サイズ判断手段５１ｇは、室内のサイズを判断する手段であり、図２に示したインターフェース２６、及びプロセッサ２２によって実現される。サイズ判断手段５１ｇは、インターフェース２６を介してクライアント側の音声入出力装置１００において、非可聴音を間欠発音し、周辺からの反射音をマイクで集音し、クライアント側の音声入出力装置１００の環境を把握（２次元方位と距離）するようにしてもよい。

ノイズレベル認識手段５１ｈは、室内のノイズレベルを認識する手段であり、図２に示したインターフェース２６、及びプロセッサ２２によって実現される。ノイズレベル認識手段５１ｈは、クライアント側の音声入出力装置１００のマイクで得られた室内の音声からノイズ除去処理前のノイズレベルの情報を、インターフェース２６を介して得ることができるようになっている。室内のノイズレベルによってクライアント側の音声入出力装置１００の環境が例えば受付か、会議室か、コールセンター室かそれ以外かが判断できる。

残響レベル認識手段５１ｉは、室内の残響レベルを認識する手段であり、図２に示したインターフェース２６、及びプロセッサ２２によって実現される。残響レベル認識手段５１ｉは、クライアント側の音声入出力装置１００のマイクで得られた室内の音声から残響レベルの情報を、インターフェース２６を介して得ることができるようになっている。室内の残響レベルによってクライアント側の音声入出力装置１００の環境が判断できる。

通信手段５２は、クラウド側サーバ２０とクライアント側の音声入出力装置１００との間でネットワーク１０を介して情報を授受するための手段であり、図２に示したインターフェース２６によって実現できる。

＜音声入出力装置＞
クライアント側の音声入出力装置１００は、主として入力手段６１、出力手段６２、前段処理手段６３、発光手段６４、通信手段６５、第２制御手段６６、記憶手段６７、入出力手段６８、及び検知手段６９を備えて構成されている。音声入出力装置１００は、さらに画像表示手段７１、指紋認証手段７２、撮像手段７３、外部情報入力手段７４、振動手段７５、及び回転手段７６を備えて構成してもよい。

入力手段６１は、音声に関する音声情報を入力する手段であり、図３に示すマイクユニット２０３及びマイク制御部２０４によって実現される。入力手段６１は、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理、ノイズ抑圧処理、エコーキャンセル（バージイン）処理、及び音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：ＶＡＤとも略す。）処理を施す。

出力手段６２は、非可聴音（２０ｋＨｚ〜４０ｋＨｚ、好ましくは３０ｋＨｚの音）を発生する手段であり、図３に示した非可聴音発生部２０８によって実現される。非可聴音発生部２０８としては、例えばムービングコイルを用いた超音波スピーカの他、圧電素子を用いた超音波スピーカが挙げられる。

前段処理手段６３は、マイクからの音声からノイズを除去したり、エコーをキャンセルしたり、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理を行う手段であり、図３に示したマイク制御部２０４によって実現される。

発光手段６４は、筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯したり、話者を検知したときに一部の発光色が話者の方向で停止するように発光したりする手段であり、図３に示したＬＥＤ２１０によって実現される。

通信手段６５は、クライアント側の音声入出力装置１００とクラウド側サーバ２０との間でネットワーク１０を介して情報を授受する手段であり、図３に示した通信部２０６によって実現される。

第２制御手段６６は、音声入出力装置１００を統括制御する手段であり、図３に示した信号処理部２０５によって実現される。信号処理部２０５としては、例えばプロセッサが挙げられる。

記憶手段６７は、音声入出力装置１００を統括制御するプログラムを記憶する手段であり、図３に示した記憶部２０２によって実現される。記憶手段６７は、例えばＲＯＭ、ＲＡＭ、ＨＤＤ、ＳＳＤが挙げられ、音声情報、個人情報、画像情報、指紋情報を記憶するように構成してもよい。

入出力手段６８は、ＵＳＢフラッシュメモリやＵＳＢ機器を接続するための手段であり、図３に示した拡張部２０１によって実現される。

検知手段６９は、音声入出力装置１００に接近したり通過したりする人を検知する手段であり、図３に示したＩＲ部２１４が挙げられる。検知手段６９としては、例えば人感センサが挙げられる。

画像表示手段７１は、文字情報を含む静止画像や動画像等の画像を表示する手段であり、図３に示したＬＣＤ２１１によって実現される。

指紋認証手段７２は、ユーザを認識する手段であり、図３に示した個人認証部２１３によって実現される。指紋認証手段７２としては、例えば指紋センサが挙げられる。

撮像手段７３は、デジタルカメラであり、図３に示した撮像部２１２によって実現される。

外部情報入力手段７４は、外部からのコンテンツを入力する手段であり、図３に示した拡張部２０１によって実現される。

振動手段７５は、音声入出力装置１００の筐体を振動させる手段であり、図３に示した振動部２１６によって実現される。

回転手段７６は、音声入出力装置１００の筐体を鉛直な中心軸の周りに回転（旋回）させる手段であり、図３に示した回転部２１７によって実現される。

投影手段７７は、室内のスクリーン、ホワイトボード、壁面等に画像を投影する手段であり、図３に示した投影部２１５によって実現される。

＜ソフトウェアスタック＞
上記に示す分析処理、解析処理、認識処理等の構成について、図５のソフトウェアスタック図の処理内容に従って説明する。処理内容は、利用ログ収集・解析部５０３、意図解釈・対話管理技術部５０４、音声認識部５０５、話者識別部５０６、環境音認識部５０７、感情分析部５０８、フロントエンド信号処理技術部５０９、マイクアレイ処理技術部５１０、マルチマイクアレイ処理技術部５１０、マルチマイクハードウェア部５１２、センサ５１５等から構成される。意図的解釈・対話管理技術部５０４は、外部システム５１３や外部コンテンツ５１４が接続されていてもよい。対話アプリ５０１−１〜５０１−ｎに応じてシナリオデザインが評価される。その際利用ログ収集・解析して継続的に改善する。尚、図では継続的改善に３つの矢印が記載されているが、意図的解釈・対話管理技術部５０４、音声認識部５０５、話者識別部５０６、環境音認識部５０７、感情分析部５０８、フロントエンド信号処理技術部５０９、マイクアレイ処理技術部５１０、及びマルチマイクハードウェア部５１２についても、順番を入れ替えたり、一部を省略したりするとともに継続的改善が行われるので矢印が記載されていてもよい。

マルチマイクハードウェア５１２やフロントエンド信号処理技術部５０９は他社製品にも柔軟に対応可能である。

マイクアレイ処理技術部５１０は、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理等から構成され、フロントエンド信号処理技術部５０９はノイズ抑圧処理、エコーキャンセル（バージイン）処理、音声区間検出（「ＶＡＤ」とも略す。）処理等から構成され、音声を文字等に変換する音声認識部５０５は多言語対応処理、自動言語識別処理、多言語混合処理等から構成され、話者識別部５０６は事前学習処理、クラスタリング処理、さらに話者照合（認証）処理等から構成され、感情分析部５０８は感情多クラス分類処理、感情マッピング処理、抑揚認識処理等から構成され、環境音認識部５０７は拍手音・笑い声認識処理、重なり検出処理、シーン推定処理、さらに異音検査処理は音響官能検査処理、正常／異常音識別処理等から構成される。

以上、音声処理の構成を説明したが、音声処理により、笑い声、拍手、呼び鈴といった特徴のある音の認識、話者識別、性別推定、イントネーション判定等の処理を行う。ただし、上記各処理を可能とするためには、音の前処理として、音声切り出し、ノイズ抑圧、残響抑圧、音源定位すなわち指定角度の音を取り出すビームフォーミング等の処理を行うものとする。さらに、上記各処理による認識結果情報は、例えば関連システムと連携して、利用ログ収集・解析技術部５０３、意図解釈・対話管理技術部５０４により解析、管理処理を行うものとする。

また、人の話し声を例えばマイクによって収集するだけでなく、例えばスピーカにより、人の聴覚では聞くことができない、例えば超可聴音もしくは非可聴音を発音し、この超可聴音もしくは非可聴音の反射音を例えばマイクによって収音し、この情報を音声処理により解析、認識処理を行い、音声入出力装置１００の周辺状況に関し、反射する対象の材質、距離等を把握するものとする。これらを可能とするために、例えばマイクを複数搭載するとともに、例えば水平方向に円形状にマイクを搭載したマイク搭載部（図示せず）を縦方向に、例えば２層搭載することにより、垂直方向の検知を可能とする。また、発音する超可聴音もしくは非可聴音を例えばパルス状に成形し、あるパルス音から次のパルス音との間隔に、ある音声入出力装置１００に特有の情報音を付加することにより、複数の音声入出力装置１００を識別することを可能とする。

ここで、本実施形態によれば、話者識別や感情識別等の音声処理や利用ログ収集、解析、意図解釈等のどの処理を使うか、どの順番で使うか、ノイズを除去してから残響処理を行うか、残響処理を行ってからノイズを除去するのかはユーザが自由に選べるようになっている。

＜音声情報処理システム＞
図６に示すシステムは、音声入出力装置１００と、クラウド側サーバ２０と、を有するシステムである。

音声入出力装置１００は、多数の貫通孔が形成された筐体１０１の天板外周部に配置されたＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ：発光ダイオード）リング１０２と、筐体１０１の同一平面の周面に円周状に配置された複数（例えば１６個であるが限定されない。）のＰＤＭマイク１０３−１〜１０３−１６と、筐体１０１内に下端向きに配置されたスピーカ群（スコーカ１０４Ｓ、ツイータ１０４Ｓ）と、筐体１０１の底面に上向きに凸の円錐形状の反射板１０５と、を備える装置である。筐体１０１内には各種回路基板が設けられている。１０６は電源ランプとしてのＬＥＤである。１０７は電源コードであるが、バッテリー搭載可能である。

筐体１０１は、図では円筒状であるが限定されず角柱状であっても、円錐状であっても、角錐台状であっても、円錐台状であってもよい。

ＬＥＤリング１０２は多数の３色ＬＥＤ多色発光型のデバイスであり、環状に形成されたものである。ＬＥＤリング１０２は、一部の数個の隣接配置されたＬＥＤと他の残りの部分のＬＥＤとが異なる発光色で発光したり、円周軌道にそって回転したり停止したりし、周回点灯したりすることが可能である。例えば、話者方向を数個のＬＥＤで白色点灯し、残りのＬＥＤを青色点灯することが挙げられるが、これに限定されるものではなく、点灯の代わりに点滅させたり、インジケータのように話者の音声の強度に応じて照度を変化させたりしてもよい。

ＰＤＭマイク１０３−１〜１０３−１６は、筐体１０１の同一平面の周面に１６個等間隔で配置されているため、反射音より音源の左右方向の識別が２０度の範囲で可能であり、音声入出力装置１００の近傍にいる音源としての人の音声を集音することが可能である。

スコーカ１０４Ｓは通常の音声を発生するスピーカであり、ツイータ１０４Ｔは非可聴音（超音波）を発生するスピーカである。反射板１０５は、スコーカ１０４Ｓ及びツイータ１０４Ｓからの音声や非可聴音を筐体１０１の外側に放射状に反射させる部材である。ツイータ１０４からの非可聴音は反射板１０５で反射され筐体１０１の外部に出射して話者に反射した場合には筐体１０１に向かい、ＰＤＭマイク１０３−１〜１０３−１６で集音することでレーダー（もしくはソナー）のように機能させることができる。この非可聴音はパルス変調されていてもよい。
クラウドシステム３００は、複数のサーバを有するサーバ群３０１からなり、音声入出力装置１００のディープラーニング処理等のソフトウェア処理を行ってもよい。

＜動作１＞
図７に示すフローチャートの動作の主体は、クラウド側サーバ２０のプロセッサ２２である。

本システムは、予めユーザが第１の情報としてのシナリオを設定可能である。シナリオとは、例えば、話者と音声入出力装置１００との対話に対してどのように応答するかを示すストーリーである。

まずユーザがクラウド側サーバ２０で複数情報（例えば、第１の情報、第２の情報、第３の情報）を作成する（ステップＳ１０）。

音声入出力装置１００の電源スイッチがオンされると（ステップＳ１１）、プロセッサ２２は音声入出力装置１００の外部から、例えば図示しないスマートフォンでモード設定信号が有るか否か判断する（ステップＳ１２）。

プロセッサ２２は、外部からモード設定信号が有ると判断した場合（ステップＳ１２／ＹＥＳ）、コールセンターモード、受付モード、会議モード、…のうちのいずれかのモードが設定され（ステップＳ１３）、外部からモード設定信号が無いと判断した場合（ステップＳ１２／ＮＯ）、ステップＳ１４に進む。

ステップＳ１４では、プロセッサ２２が、クライアント側の音声入出力装置１００の処理能力が十分か否かを判断し、音声入出力装置１０の処理能力が十分であると判断した場合（ステップＳ１４／ＹＥＳ）、クライアント側の音声入出力装置１００で処理し（ステップＳ１５）、クライアント側の音声入出力装置１００の処理能力が十分でないと判断した場合（ステップＳ１４／ＮＯ）クラウド側で処理し（ステップＳ１６）、ステップＳ１７に進む。

プロセッサ２２は、最適化済か否か判断し（ステップＳ１７）、最適化済でない場合（ステップＳ１７／ＮＯ）、第１の情報を選択し（ステップＳ１８）、識別処理が容易となるような前段処理を実行する。前段処理は、第１の情報として、例えば、ビームフォーミング、ブラインド音源分離、及び残響抑制のいずれかから少なくとも一つ選択して、順番を決定し、実行する。ノイズ抑圧、エコーキャンセル、及び音声区間検出から適宜選択して、順番を決定し、実行するものとする（ステップＳ１９）。

次にタスクの評価（ステップＳ２０）を行い、評価が十分か否かを判断し（ステップＳ２１）、評価が十分でないと判断した場合（ステップＳ２１／ＮＯ）、ステップＳ１０に戻り、クラウド側で第１の情報を修正し、ステップＳ１０〜ステップＳ２３を何回でも繰り返す。

プロセッサ２２は、ステップＳ２１でタスクの評価が十分であると判断した場合（ステップＳ２１／ＹＥＳ）、第２の情報を選択し（ステップＳ２２）、識別処理を実行する。識別処理は、第２の情報として、例えば、音声認識、話者識別、感情分析、及び環境音認識のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする（ステップＳ２３）。

次にタスクの評価（ステップＳ２４）を行い、評価が十分か否かを判断し（ステップＳ２５）、評価が十分でないと判断した場合（ステップＳ２５／ＮＯ）、ステップＳ１０に戻り、クラウド側で第２の情報を修正し、ステップＳ１０〜ステップＳ２４を何回でも繰り返す。

プロセッサ２２は、ステップＳ２４でタスクの評価が十分であると判断した場合（ステップＳ２４／ＹＥＳ）、第３の情報を選択し（ステップＳ２６）、対話アプリを実行する。対話アプリについては、第３の情報として、利用ログ収集、解析、意図的解釈、及び対話管理のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする（ステップＳ２７）。

次に、タスクの評価（ステップＳ２８）を行い、評価が十分か否かを判断し（ステップＳ２９）、評価が十分でないと判断した場合（ステップＳ２９／ＮＯ）、ステップＳ１０に戻り、クラウド側で第３の情報を修正し、ステップＳ１０〜ステップＳ２８を何回でも繰り返す。

プロセッサ２２は、最適化が完了すると（ステップＳ３０.）、アプリを実行し（ステップＳ３１）、終了しない場合（ステップＳ３２／ＮＯ）、ステップＳ１２に戻り、終了する場合（ステップＳ３２／ＹＥＳ）、終了する。この場合、電源スイッチが自動的オフになるように構成してもよい。

ここで、図７に示したフローチャートは一実施例に過ぎず、限定されるものではない。例えば、室内環境が同一であって、話者の数に変更があったり、室内環境に変更があっても話者や人数に変更がなかったり、使用するモードが変更になったり、使用するマイクの数やグレードに変更があったりしても、適宜ステップＳ１８〜ステップＳ２１と、ステップＳ２２〜ステップＳ２５と、ステップＳ２６〜ステップＳ２９とを入れ替えたり、一部を省略したりすることで継続的改善が施されるとともに柔軟な対応が可能である。

例えば、図７に示したフローチャートに基づいて処理する場合、マイクユニットのマイクが１本の場合にはビームフォーミングやブラインド音源分離は行わず、また、マイクの性能が高性能でない場合にはノイズ抑圧は１回だけ行い、マイクユニットのマイクが多数、例えば１６個以上の場合にはビームフォーミンツやブラインド音源処理を行い、ノイズ抑圧やエコーキャンセル等の処理を行うようになっている。

＜動作２＞
図８に示すフローチャートの動作の主体は、クラウド側サーバ２０のプロセッサ２２である。図８に示したフローチャートの図７に示したフローチャートとの相違点は、ステップＳ１８〜ステップＳ２１と、ステップＳ２６〜ステップＳ２９とを入れ替えた点である。これは、クラウド側サーバで処理した場合に図７に示したフローチャートで処理しても結果が不十分な場合に行う処理の一例である。このような処理を行っても継続的改善が施されるとともに柔軟な対応が可能である。

＜動作３＞
図９に示したフローチャートは、音声入出力装置１００の使用が終了し、電源スイッチをオフにした状態で受付、会議室、もしくはコールセンターのオペレータの机の上に載置し、翌営業日に再度電源スイッチをオンにした場合について想定したものである。

電源スイッチがオンされると（ステップＳ９１）、プロセッサ２２は、室内環境、話者の変更、人数及びモード変更が無いか否かを判断し（ステップＳ９２）、変更が無い場合（ステップＳ９２／ＹＥＳ）、アプリを実行する（ステップＳ９３）。

プロセッサ２２は、アプリを実行した後終了か否か判断し（ステップＳ９４）、終了の場合には終了し（ステップＳ９４／ＹＥＳ）、終了しない場合にはステップＳ９２に戻る（ステップＳ９４／ＮＯ）。

プロセッサ２２は、室内環境、話者の変更、人数及びモード変更が有った場合（ステップＳ９２／ＮＯ）、クライアント側の音声入出力装置１００の処理能力が十分か否かを判断する（ステップＳ９５）。

プロセッサ２２は、クライアント側の音声入出力装置１００の処理能力が十分であると判断した場合（ステップＳ９５／ＹＥＳ）、音声入出力装置１００で処理し（ステップＳ９６）、クライアント側の音声入出力装置１００の処理能力が十分でないと判断した場合（ステップＳ９６／ＮＯ）、クラウド側で処理し（ステップＳ９７）、ステップＳ９８に進む。

プロセッサ２２は、モード設定信号が有るか否か判断し（ステップＳ９８）、外部からモード設定信号が有ると判断した場合（ステップＳ９８／ＹＥＳ）、コールセンターモード、受付モード、会議モード、…のうちのいずれかのモードが設定され（ステップＳ９９）、外部からモード設定信号が無いと判断した場合（ステップＳ９８／ＮＯ）、ステップＳ１４（図７参照。）に進む。

ステップＳ９２の処理により、無駄な処理が省略され効率が向上する。

以上で説明した本発明に係る音声入出力装置１００は、コンピュータで処理を実行させる制御プログラムによって実現されている。一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。

コンピュータが読み取り可能なプログラムであって、
コンピュータを、
音声に関する音声情報を入力する入力手段、
入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、
前段処理手段により処理された音声情報に所定の加工を施し、第１の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第１の情報を修正し、評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、
として機能させるための音声情報処理システムのプログラムが挙げられる。

これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる音声入出力装置１００を実現することができる。

このようなプログラムは、コンピュータに読み取り可能な記録媒体に記憶されていてもよい。

＜記録媒体＞
ここで、記録媒体としては、例えばＣＤ-ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ等のコンピュータで読み取り可能な記録媒体、フラッシュメモリ、ＲＡＭ、ＲＯＭ、ＦｅＲＡＭ等の半導体メモリやＨＤＤが挙げられる。

ＣＤ−ＲＯＭは、ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯnｌｙＭｅｍｏｒｙの略である。フレキシブルディスクは、ＦｌｅｘｉｂｌｅＤｉｓｋを意味する。ＣＤ-Ｒは、ＣＤＲｅｃｏｒｄａｂｌｅの略である。ＦｅＲＡＭは、ＦｅｒｒｏｅｌｅｃｔｒｉｃＲＡＭの略で、強誘電体メモリを意味する。ＨＤＤは、ＨａｒｄＤｉｓｃＤｒｉｖｅの略である。

尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。

本発明は、主に音声による情報をもとに対象の状況を、詳細に知ることができるだけでなく、将来にわたり、発生が予測される事項について認識可能とした上で、関係者全般に対し情報を提供することを可能とすることで、主に音声による状況把握を必要とする場面に適用可能である。

１０・・・ネットワーク
２０・・・クラウド側サーバ
２１・・・データベース（ＤＢ）
２２・・・プロセッサ
２３・・・出力装置
２４・・・入力装置
２６・・・インターフェース
１００・・・音声入出力装置１００
１０１・・・筐体
１０２・・・ＬＥＤリング
１０３−１〜１０３−１６・・・ＰＤＭマイク
１０４・・・スピーカ群
１０４Ｓ・・・スコーカ
１０４Ｔ・・・ツイータ
１０５・・・反射板
１０６・・・電源ランプ
１０７・・・電源コード
２０１・・・拡張部
２０２・・・記憶部
２０３・・・マイクユニット
２０４・・・マイク制御部
２０５・・・信号処理部
２０６・・・通信部
２０７・・・音声発生部
２０８・・・非可聴音発生部
２０９・・・表示部

Claims

物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
を備えたことを特徴とする音声情報処理システム。
物音、人の声、雑音を含む音声情報が入力される複数のマイクが配置されたマイクユニットと、
単数あるいは複数のスピーカによって可聴音及び／もしくは非可聴音を発音する音声発生部と、
前記マイクからの音声情報に対して識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
を有することを特徴とする音声情報処理システム。
室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置の処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段をさらに備えたことを特徴とする請求項１もしくは２に記載の音声情報処理システム。
室内の環境の設定、意図的解釈、及び対話を管理する外部システムをさらに備えたことを特徴とする請求項１もしくは２に記載の音声情報処理システム。
前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段のうちの少なくとも一つを備えたことを特徴とする請求項４に記載の音声情報処理システム。
前記意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする請求項４に記載の音声情報処理システム。
前記音声情報の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する推論手段
をさらに備えることを特徴とする請求項１もしくは２に記載の音声情報処理システム。
前記推論手段は、
前記話者との対話を意図的に解釈する解釈手段と、
前記話者との対話を管理する管理手段と
を備えたことを特徴とする請求項７に記載の音声情報処理システム。
前記室内のサイズを判断するサイズ判断手段と、
前記室内のノイズレベルを認識するノイズレベル認識手段と、
前記室内の残響レベルを認識する残響レベル認識手段と
をさらに備えたことを特徴とする請求項１もしくは２に記載の音声情報処理システム。
前記筐体に設けられ画像を表示する画像表示手段をさらに備えたことを特徴とする請求項５に記載の音声情報処理システム。
前記筐体に設けられユーザを認識する指紋認証手段をさらに備えたことを特徴とする請求項５に記載の音声情報処理システム。
前記クライアント側の音声入出力装置の処理能力が十分であるかの判断は、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクロフォンアレイ、スピーカの数、ＬＥＤの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含んでなされることを特徴とする請求項３に記載の音声情報処理システム。
新たに入力された音声の特徴を前記記録手段に記録された前記話者特徴情報と照合して話者を識別する話者識別手段をさらに備えたことを特徴とする請求項１もしくは２に記載の音声情報処理システム。
前記話者の感情を識別する感情識別手段をさらに備えたことを特徴とする請求項7に記載の音声情報処理システム。
前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段をさらに備えたことを特徴とする請求項１もしくは２に記載の音声情報処理システム。
物音、人の声、雑音を含む音声に関する音声情報が入力される第１のステップと、
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う第２のステップであって、前記前段処理は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を行う、ステップと、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る第３のステップと、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する第４のステップと、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される第５のステップと
を具備することを特徴とする音声情報処理システムの制御方法。
コンピュータが読み取り可能なプログラムであって、
コンピュータを、
物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
として機能させるための音声情報処理システムのプログラム。
請求項１７に記載のプログラムを記録した記録媒体。