JP2020042292A - 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 - Google Patents

音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 Download PDF

Info

Publication number
JP2020042292A
JP2020042292A JP2019210065A JP2019210065A JP2020042292A JP 2020042292 A JP2020042292 A JP 2020042292A JP 2019210065 A JP2019210065 A JP 2019210065A JP 2019210065 A JP2019210065 A JP 2019210065A JP 2020042292 A JP2020042292 A JP 2020042292A
Authority
JP
Japan
Prior art keywords
information
voice
processing
unit
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019210065A
Other languages
English (en)
Other versions
JP2020042292A5 (ja
Inventor
真人 藤野
Masato Fujino
真人 藤野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fairy Devices Inc
Original Assignee
Fairy Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fairy Devices Inc filed Critical Fairy Devices Inc
Publication of JP2020042292A publication Critical patent/JP2020042292A/ja
Publication of JP2020042292A5 publication Critical patent/JP2020042292A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】高精度で、しかも安価に音声内容の分析、解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体を提供する。【解決手段】音声情報処理システムは、音声に関する音声情報を入力する入力手段と、入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、前段処理を施された音声情報が話者特徴情報及び音声到来方位情報と共に記録される記録手段と、を備える。【選択図】図4

Description

本発明は、会話における音声情報処理システムに係る、音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体に関する。
近年、音声情報処理技術の発展は目覚ましいものがある。例えば、利用者がシステムの状態を容易に把握できるようにし、利用者とシステムとが常に円滑な対話を実現できる音声対話システム(例えば、特許文献1参照)、苦情等を音声により受け付けて、後の処理に利用可能な形態で処理者に伝達することが可能な対話記録システム(例えば、特許文献2参照。)、及びユーザと円滑に対話できる、対話機能を有する電子機器(例えば、特許文献3参照。)が開示されている。
特許文献1に記載の発明は、マイク、音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段、対話管理手段、問題解決手段、応答文生成手段、音声合成手段、音声出力手段、スピーカ、複数の中途応答処理手段からなる音声対話システムにおいて、複数の中途応答処理手段は、入力系の手段である音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段のうち任意の1つあるいは複数の手段の処理結果を入力として、処理結果を出力系の手段である音声出力手段、音声合成手段、応答文生成手段のうち1つあるいは複数の手段へ出力するものである。
特許文献2に記載の発明は、対話の音声データを記録する記録装置と、記録される音声データについて、特定の箇所を識別するための識別子を生成して、記録装置に記録させる処理を行う情報処理装置とを備え、情報処理装置は、記記録装置に記録される音声データについて、識別子の生成の要求を受け付けて識別子を生成し、識別子を、記録すべき音声データと対応付けて記録装置に記録し、記録装置には、音声データと、識別子データとが記録され、また、音声データを音声認識部により、音声認識して得られたテキストデータが記録されるものである。
特許文献3に記載の発明は、冷蔵庫は、マイクおよびスピーカを備え、音声を取得し、取得した音声に応じて発話する対話機能を有するものであり、冷蔵庫は、冷蔵庫近傍の所定の範囲内におけるユーザの位置を特定する位置特定部と、位置特定部にて特定されたユーザの位置に応じた値となるように、マイクの感度を調整するマイク制御部、スピーカの音量を調整するスピーカ制御部を備えるものである。
特許第3454897号公報 特開2000−067064号公報 特開2017−069835号公報
しかしながら、特許文献1に記載の発明は、オウム返し応答もしくは相槌応答によって、利用者は、自分の発話が音声として入力されていることを認識でき、安心して次の発話を行なえるが、定型文を利用しているため、ノイズやエコーの混在したイレギュラーな発話に対しては何ら評価をしたり、定型文に修正を施したりするようにはなっていない。
また、特許文献2に記載の発明は、予め定めた基準値以上かを判定し、基準値未満のときは、発言が途切れていると判定し、その後、基準値を超える状態となったとき、発言が始まったと判定して、頭出し信号を出力したりするものの、対話の相手の感情を把握したり、聞き間違いに対して改善するような処理はなされていない。
さらに、特許文献3に記載の発明は、取得した音声に応じて発話する受動的な応答をするようになっているものの相手に対して能動時に話しかけるようにはなっていない。
本願は、このような問題点を解決するために企図されたものであり、高精度で、しかも安価に音声内容の分析、解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する技術的思想の提示を目指すものである。
上記課題を解決するため、請求項1に記載の発明は、音声に関する音声情報を入力する入力手段と、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段と、を備えたことを特徴とする。
ここで、音声とは、物音(例えば、机やドアをたたく音等)と人の声と雑音(例えば、サイレンや動物の鳴き声、クシャミ等)とを含む音波である。
また、第1の情報とは、アプリケーションソフトウェア(以下、「アプリ」と記す。)に関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、評価が不十分な場合に繰り返すフロー等を含む情報である。
請求項2に記載の発明は、請求項1に記載の構成に加え、前記最適化手段は、前記タスク処理の結果を評価する第1の評価手段と、前記評価が十分でない場合に前記第1の情報を修正する修正手段と、前記前段処理手段から前記修正手段までの一連の処理を繰り返す繰返手段と、を備えたことを特徴とする。
請求項3に記載の発明は、請求項1に記載の構成に加え、室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置の処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段を備えたことを特徴とする。
請求項4に記載の発明は、請求項1に記載の構成に加え、室内の環境の設定、意図的解釈、及び対話を管理する外部システムを備えたことを特徴とする。
ここで、意図的解釈とは話者の意図を推定し、推定結果を反映した解釈を言う。
請求項5に記載の発明は、請求項1に記載の構成に加え、前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段を少なくとも一つ備えたことを特徴とする。
請求項6に記載の発明は、請求項1に記載の構成に加え、意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする。
請求項7に記載の発明は、請求項1に記載の構成に加え、前記音声の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する推論手段と、第2の情報をデザインする際に利用したログを収集する収集手段と、前記ログを解析する解析手段と、前記応答及び前記第2の情報を評価する第2の評価手段とをそなえ、前記評価に基づいて継続的に改善することで最適化することを特徴とする。
ここで、第2の情報とは、各種手段のうちどの手段を用い、どの順番で処理し、評価し、十分でない場合に繰り返すフローについての情報をいう。
認識処理は、収集した音声情報から、話し手の他に、笑い声、拍手、呼び声等の認識、さらに環境音を分析、解析、認識等の処理を行った結果から、話者識別、性別推定、年齢推定等を行うとともに、イントネーション判定から、出身地等に関する各種情報を提供するものである。
請求項8に記載の発明は、請求項7に記載の構成に加え、前記推論手段は、前記話者との対話を意図的に解釈する解釈手段と、前記話者との対話を管理する管理手段と、を備えたことを特徴とする。
ここで、話者との対話の管理とは、顧客満足度向上のため、話者がどのような発話に対しどのような感情を抱いたかを記録し、クライアント側の音声入出力装置をコールセンターに利用していた場合にオペレータに注意喚起したり、管理者に報告したりすることを含む。また、クライアント側の音声入出力装置を会議に利用していた場合に出席者が感情的になった場合に落ち着かせるように休憩を入れたり、冷静になるような旨の音声を発話したりすることを含む。
請求項9に記載の発明は、請求項4に記載の構成に加え、前記環境判断手段は、前記室内のサイズを判断するサイズ判断手段と、前記室内のノイズレベルを認識するノイズレベル認識手段と、前記室内の残響レベルを認識する残響レベル認識手段と、を備えたことを特徴とする。
請求項10に記載の発明は、請求項5に記載の構成に加え、前記筐体に設けられ画像を表示する画像表示手段を備えたことを特徴とする。
請求項11に記載の発明は、請求項5に記載の構成に加え、前記筐体に設けられユーザを認識する指紋認証手段を備えたことを特徴とする。
請求項12に記載の発明は、請求項1に記載の構成に加え、クライアント側の音声入出力装置の処理能力は、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含むことを特徴とする。
請求項13に記載の発明は、請求項1に記載の構成に加え、前記話者の音声から話し方を特徴として抽出する特徴抽出手段と、前記特徴を前記話者の情報に紐づけて記憶し、新たに入力した音声の特徴を前記記憶手段に記憶された話者の情報と照合して話者を識別する話者識別手段と、を備えたことを特徴とする。
請求項14に記載の発明は、請求項7に記載の構成に加え、前記話者の感情を識別する感情識別手段を備えたことを特徴とする。
請求項15に記載の発明は、請求項14に記載の構成に加え、前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段を備えたことを特徴とする。
請求項16に記載の発明は、音声に関する音声情報を入力し、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行い、前記前段処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化することを特徴とする。
請求項17に記載の発明は、コンピュータが読み取り可能なプログラムであって、コンピュータを、音声に関する音声情報を入力する入力手段、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、として機能させるための音声情報処理システムのプログラムであることを特徴とする。
請求項18に記載の発明は、請求項17に記載のプログラムを記録した記録媒体であることを特徴とする。
本発明によれば、高精度で、しかも安価に音声内容の分析、解析、認識、評価することにより最適化するとともに、会話の行われている状況をより的確に把握することを可能とする。
本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。 図1に示した音声情報処理システムに用いられるクラウド側サーバのハードウェアブロック図の一例である。 図1に示した音声情報処理システムのハードウェアブロック図の一例である。 図2に示した音声情報処理システムのソフトウェアブロック図の一例である。 図2に示した音声情報処理システムの処理内容を示すソフトウェアスタック図の一例である。 図2に示した音声情報処理システムの外観図の一例である。 図2に示した音声情報処理システムにおける全体動作を示すフローチャートの一例である。 図2に示した音声情報処理システムにおける全体動作を示すフローチャートの他の一例である。 図2に示した音声情報処理システムにおける全体動作を示すフローチャートの他の一例である。
本発明の実施の形態を、図面を参照して説明する。
<構成>
<システム全体>
図1は、本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。本発明の一実施形態に係る音声情報処理システムは、ネットワーク10を介してクラウド側サーバ20、及びクライアント側の音声入出力装置100が接続されて構成されている。
音声入出力装置100とスマートフォンとで連携して音声情報処理システムを構成してもよく、Wi-Fiルータを用いてインターネット接続してもよい。なお、音声入出力装置100とスマートフォンとの間の通信手段としては、例えば、無線、赤外線、有線等どのような方法を用いてもよい。また本願を適用する、例えば音声情報処理システムが複数存在する場合には、音声入出力装置100はその数だけ存在することとなる。
<クラウド側サーバ及び音声入出力装置のハードウェア構成>
次に、図2に従ってクラウド側サーバ20の詳細を説明する。図2に示すように、クラウド側サーバ20は、データベース(以下、「DB」という。)21、プロセッサ22、出力装置23、入力装置24、及びインターフェース26等を備えて構成されている。プロセッサ(「コンピュータ」とも称する)22は、音声情報の管理に関するデータの処理を行い、DB21は音声情報の管理に関する情報等のデータ、及び制御プログラム等を記憶する。出力装置23は、ディスプレイ、プリンタ等を備えて構成され、必要に応じて各種情報を出力する。また、入力装置24は、キーボード、バーコードリーダ、及びスキャナ等を備えて構成され、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものとする。なお、クラウド側サーバ20は最終的に音声情報処理システムとしての業務遂行が可能であれば、単独でも複数のシステムから構成されていてもよい。
<音声入出力装置のハードウェア構成>
次に、図3に従って音声入出力装置100の詳細を説明する。同図に示すように、音声入出力装置100は、主として拡張部201、記憶部202、マイクユニット203、マイク制御部204、信号処理部205、通信部206、音声発生部207、非可聴音発生部208、及び表示部209を備える。表示部209はLED(Light Emitting Diode:発光ダイオード)210とLCD(Liquid Crystal Display:液晶表示ディスプレイ)211とを有してもよい。LED210はリング状であってもよい。
音声入出力装置100は、さらに破線で示す撮像部212、個人認証部213、IR(Infrared:赤外線)部214、投影部215、振動部216、及び回転部217を備えて構成してもよい。
拡張部201は音声入出力装置100にUSB(Universal Serial Bus)メモリやUSB機器を接続するための部材である。
記憶部202は、音声入出力装置100の制御プログラム、音声データ、個人データ、画像データ等のデータを記憶する部材であり、例えばROM(Read Only Memory:読み出し専用メモリ)、RAM(Randam Access Memory:書き換え自在メモリ)、HDD(Hard Disk Drive)、SSD(SolId State Drive)が挙げられる。
マイクユニット203は、少なくとも1本のマイクからなり、マイク制御部204にてAGC(Automatic Gain Control:自動利得制御)やフォーミング等の制御が行われる。
信号処理部205は、マイクからの音声信号に対し周囲雑音除去等の処理を施し、正確に認識処理した後、処理済みの情報を記憶部202に記憶し、音声発生部207から音声を発生させたり、マイクからの音声信号の話者識別処理や感情識別処理を行ったり、処理済みの音声情報を到来方位情報、話者識別情報、感情識別情報と共に記憶部202に記憶し、同時に表示部209に適合した表示を行ったりする。併せて通信部206や拡張部201より外部に送信し、クラウド処理等により詳細な情報分析を行うことができる。これらの処理により、特定方位に存在する雑音源からの音声情報をブロックアウトしたり、これとは逆に特定方位からの情報のみを記録したりすることができる。
また、記憶部202は多層構成とし、記録すべき音声情報の到来方位や話者識別、感情識別等の関連情報の整理が可能となる。
信号処理部205は、Wi-Fiやブルートゥース(登録商標)等により外部機器と無線通信するための通信部206とハードワイヤにて外部機器と接続する拡張部201とを有し、外部マイクにより周囲雑音を集音して拡張ポートからかかる受信雑音を入力して周囲雑音の影響を低減したり、USBポートにより外部機器と通信したりすることが可能である。
非可聴音発生部208から超音波を発生し、その反射による話者や壁までの距離を測定することができる。
表示部209のLED210は、リング状のLEDを周回点灯させたり、点滅させたり発光間隔や発光色を変化させたりしてもよい。LCD211は、音声入出力装置100の筐体の天板や側面に設けてもよく、カラーでもモノクロでもよい。
撮像部212は、音声入出力装置100の周囲の状況を撮像する部材であり、例えばCCD(Charge Coupled Device:電荷結合素子)カメラが挙げられる。撮像部212による撮像画像は動画像でも静止画像でもよい。
個人認証部213は、ユーザの指紋や声紋を識別する部材であり、音声入出力装置100の天板に設けられた指紋識別装置であっても、話者の音声から声紋を識別する声紋識別装置(もしくはソフトウェア)であってもよい。
IR部214は、赤外線センサであり、人感センサとして人の侵入の監視や来客検知に用いることができる。
投影部215は、音声入出力装置100の筐体に設けられ、例えば会議や旅行説明のため、室内のホワイトボードや壁やスクリーンに地図や議題を投影するプロジェクターである。
振動部216は、クライアント側の音声入出力装置100の筐体を振動させることで、ユーザに注意を喚起させるものである。振動部216は、例えば、圧電素子や出力軸に偏芯カムを有するモータ等が挙げられる。
回転部217は、音声入出力装置100の底面に設けられたベースと、ベース上に設けられた回転軸と、回転軸上に設けられ筐体を回転させるモータとで構成される。この回転部217により、投影部215やLCD211の向きを変えることができる。
<クラウド側サーバ及び音声入出力装置のソフトウェア構成>
図4に従ってクラウド側サーバ及び音声入出力装置のソフトウェア構成について説明する。
<クラウド側サーバ>
クラウド側サーバ20は、入力手段41、出力手段42、記憶手段43、判断手段44、最適化手段45、翻訳手段49、第1制御手段50、推論手段51、及び通信手段52を備えて構成されている。
最適化手段45は、評価手段46、修正手段47、及び繰返手段48を備える。推論手段51は、感情識別手段51a、方位検出手段51b、話者識別手段51c、収集手段51d、解釈手段51e、管理手段51f、サイズ判断手段51g、ノイズレベル認識手段51h、及び残響レベル認識手段51iを備える。
入力手段41は、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものであり、図2に示した入力装置24によって実現される。
出力手段42は、必要に応じて各種情報を出力する手段であり、図2に示した出力装置23によって実現される。
記憶手段43は、クラウド側サーバの制御プログラム、及び音声情報の管理に関する情報等のデータ等を記憶する手段であり、図2に示したデータベース21によって実現される。制御プログラムには、起動時について能動的な動作、すなわち、例えば人を検知したときに先に挨拶を言うように設定されている。
判断手段44は、室内で音声の内容を分析して応答する際に、クライアント側の音声入出力装置100の処理能力が対応可能な場合にクライアント側の音声入出力装置100で情報処理を行い、クライアント側の音声入出力装置100の処理能力が対応可能でない場合にクラウド側サーバ20が情報処理を行うよう判断する手段であり、図2に示したプロセッサ22によって実現される。
ここで、クライアント側の音声入出力装置100の処理能力とは、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含む。
最適化手段45は、識別処理が容易となるような前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を何回でも繰り返すことで最適化する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
第1の情報とは、アプリに関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、結果が不十分な場合に何回でも繰り返すフロー等を含む情報である。
最適化手段45の評価手段46は、タスク処理の結果を評価する手段である。最適化手段45の修正手段47は、結果が十分でない場合に第1の情報を修正する手段である。最適化手段45の繰返手段は、評価手段46から修正手段47までの一連の処理を何回でも繰り返す手段である。
翻訳手段49は、自動的に言語を識別し、例えば日本語から日本語以外の多言語に翻訳し、日本語以外の多言語を日本語に翻訳する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。翻訳手段49は、日本語の音声を日本語以外の多言語の音声に変換したり、日本語以外の多言語の音声を日本語の音声に変換したりする、いわば、通訳機能(もしくは同時通訳機能)を有していてもよい。この場合、音声は音声合成手段により合成されるが、話者の性別、年齢を判断し、老若男女に対応した音声を発音するようにしてもよい。また、翻訳手段49は、翻訳する際はテキスト形式で翻訳内容を記録することもできるようになっている。テキストデータは話者と紐づけるようにするのが好ましい。テキストデータは話者に応じて色分けするようにしてもよい。
第1制御手段50は、クラウド側サーバ20の各手段を統括制御する手段であり、図2に示したプロセッサ22によって実現される。
推論手段51は、音声の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
感情識別手段51aは、話者の感情を識別する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。感情識別手段51aによって識別された話者の感情について話者の発話と紐づけて記録するのが好ましい。
方位検出手段51bは、音声入出力装置100から見た話者の方位を検出する手段であり、図2に示した入力装置24及びプロセッサ22によって実現される。
話者識別手段51cは、話者の音声から話し方の平均的な音響モデルとの差を特徴として抽出する特徴抽出手段により得られた特徴を話者の情報に紐づけて記憶し、新たに入力した音声の特徴を記憶手段43に記憶された話者の情報と照合して話者を識別する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。話者識別に関しては、後述する音声入出力装置100に、撮像する撮像手段73や指紋認証手段72を設けることにより、顔画像認識処理や指紋認証処理によって実現するようにしてもよい。
収集手段51dは、第2の情報をデザインする際に利用したログを収集する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。第2の情報とは、前述したように各種手段のうちどの手段を用い、どの順番で処理し、評価し、結果が十分でない場合に繰り返すフローについての情報をいう。
解釈手段51eは、話者との対話を意図的に解釈する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
管理手段51fは、話者との対話を管理する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
サイズ判断手段51gは、室内のサイズを判断する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。サイズ判断手段51gは、インターフェース26を介してクライアント側の音声入出力装置100において、非可聴音を間欠発音し、周辺からの反射音をマイクで集音し、クライアント側の音声入出力装置100の環境を把握(2次元方位と距離)するようにしてもよい。
ノイズレベル認識手段51hは、室内のノイズレベルを認識する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。ノイズレベル認識手段51hは、クライアント側の音声入出力装置100のマイクで得られた室内の音声からノイズ除去処理前のノイズレベルの情報を、インターフェース26を介して得ることができるようになっている。室内のノイズレベルによってクライアント側の音声入出力装置100の環境が例えば受付か、会議室か、コールセンター室かそれ以外かが判断できる。
残響レベル認識手段51iは、室内の残響レベルを認識する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。残響レベル認識手段51iは、クライアント側の音声入出力装置100のマイクで得られた室内の音声から残響レベルの情報を、インターフェース26を介して得ることができるようになっている。室内の残響レベルによってクライアント側の音声入出力装置100の環境が判断できる。
通信手段52は、クラウド側サーバ20とクライアント側の音声入出力装置100との間でネットワーク10を介して情報を授受するための手段であり、図2に示したインターフェース26によって実現できる。
<音声入出力装置>
クライアント側の音声入出力装置100は、主として入力手段61、出力手段62、前段処理手段63、発光手段64、通信手段65、第2制御手段66、記憶手段67、入出力手段68、及び検知手段69を備えて構成されている。音声入出力装置100は、さらに画像表示手段71、指紋認証手段72、撮像手段73、外部情報入力手段74、振動手段75、及び回転手段76を備えて構成してもよい。
入力手段61は、音声に関する音声情報を入力する手段であり、図3に示すマイクユニット203及びマイク制御部204によって実現される。入力手段61は、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理、ノイズ抑圧処理、エコーキャンセル(バージイン)処理、及び音声区間検出(Voice Activity Detection:VADとも略す。)処理を施す。
出力手段62は、非可聴音(20kHz〜40kHz、好ましくは30kHzの音)を発生する手段であり、図3に示した非可聴音発生部208によって実現される。非可聴音発生部208としては、例えばムービングコイルを用いた超音波スピーカの他、圧電素子を用いた超音波スピーカが挙げられる。
前段処理手段63は、マイクからの音声からノイズを除去したり、エコーをキャンセルしたり、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理を行う手段であり、図3に示したマイク制御部204によって実現される。
発光手段64は、筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯したり、話者を検知したときに一部の発光色が話者の方向で停止するように発光したりする手段であり、図3に示したLED210によって実現される。
通信手段65は、クライアント側の音声入出力装置100とクラウド側サーバ20との間でネットワーク10を介して情報を授受する手段であり、図3に示した通信部206によって実現される。
第2制御手段66は、音声入出力装置100を統括制御する手段であり、図3に示した信号処理部205によって実現される。信号処理部205としては、例えばプロセッサが挙げられる。
記憶手段67は、音声入出力装置100を統括制御するプログラムを記憶する手段であり、図3に示した記憶部202によって実現される。記憶手段67は、例えばROM、RAM、HDD、SSDが挙げられ、音声情報、個人情報、画像情報、指紋情報を記憶するように構成してもよい。
入出力手段68は、USBフラッシュメモリやUSB機器を接続するための手段であり、図3に示した拡張部201によって実現される。
検知手段69は、音声入出力装置100に接近したり通過したりする人を検知する手段であり、図3に示したIR部214が挙げられる。検知手段69としては、例えば人感センサが挙げられる。
画像表示手段71は、文字情報を含む静止画像や動画像等の画像を表示する手段であり、図3に示したLCD211によって実現される。
指紋認証手段72は、ユーザを認識する手段であり、図3に示した個人認証部213によって実現される。指紋認証手段72としては、例えば指紋センサが挙げられる。
撮像手段73は、デジタルカメラであり、図3に示した撮像部212によって実現される。
外部情報入力手段74は、外部からのコンテンツを入力する手段であり、図3に示した拡張部201によって実現される。
振動手段75は、音声入出力装置100の筐体を振動させる手段であり、図3に示した振動部216によって実現される。
回転手段76は、音声入出力装置100の筐体を鉛直な中心軸の周りに回転(旋回)させる手段であり、図3に示した回転部217によって実現される。
投影手段77は、室内のスクリーン、ホワイトボード、壁面等に画像を投影する手段であり、図3に示した投影部215によって実現される。
<ソフトウェアスタック>
上記に示す分析処理、解析処理、認識処理等の構成について、図5のソフトウェアスタック図の処理内容に従って説明する。処理内容は、利用ログ収集・解析部503、意図解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、マルチマイクアレイ処理技術部510、マルチマイクハードウェア部512、センサ515等から構成される。意図的解釈・対話管理技術部504は、外部システム513や外部コンテンツ514が接続されていてもよい。対話アプリ501−1〜501−nに応じてシナリオデザインが評価される。その際利用ログ収集・解析して継続的に改善する。尚、図では継続的改善に3つの矢印が記載されているが、意図的解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、及びマルチマイクハードウェア部512についても、順番を入れ替えたり、一部を省略したりするとともに継続的改善が行われるので矢印が記載されていてもよい。
マルチマイクハードウェア512やフロントエンド信号処理技術部509は他社製品にも柔軟に対応可能である。
マイクアレイ処理技術部510は、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理等から構成され、フロントエンド信号処理技術部509はノイズ抑圧処理、エコーキャンセル(バージイン)処理、音声区間検出(「VAD」とも略す。)処理等から構成され、音声を文字等に変換する音声認識部505は多言語対応処理、自動言語識別処理、多言語混合処理等から構成され、話者識別部506は事前学習処理、クラスタリング処理、さらに話者照合(認証)処理等から構成され、感情分析部508は感情多クラス分類処理、感情マッピング処理、抑揚認識処理等から構成され、環境音認識部507は拍手音・笑い声認識処理、重なり検出処理、シーン推定処理、さらに異音検査処理は音響官能検査処理、正常/異常音識別処理等から構成される。
以上、音声処理の構成を説明したが、音声処理により、笑い声、拍手、呼び鈴といった特徴のある音の認識、話者識別、性別推定、イントネーション判定等の処理を行う。ただし、上記各処理を可能とするためには、音の前処理として、音声切り出し、ノイズ抑圧、残響抑圧、音源定位すなわち指定角度の音を取り出すビームフォーミング等の処理を行うものとする。さらに、上記各処理による認識結果情報は、例えば関連システムと連携して、利用ログ収集・解析技術部503、意図解釈・対話管理技術部504により解析、管理処理を行うものとする。
また、人の話し声を例えばマイクによって収集するだけでなく、例えばスピーカにより、人の聴覚では聞くことができない、例えば超可聴音もしくは非可聴音を発音し、この超可聴音もしくは非可聴音の反射音を例えばマイクによって収音し、この情報を音声処理により解析、認識処理を行い、音声入出力装置100の周辺状況に関し、反射する対象の材質、距離等を把握するものとする。これらを可能とするために、例えばマイクを複数搭載するとともに、例えば水平方向に円形状にマイクを搭載したマイク搭載部(図示せず)を縦方向に、例えば2層搭載することにより、垂直方向の検知を可能とする。また、発音する超可聴音もしくは非可聴音を例えばパルス状に成形し、あるパルス音から次のパルス音との間隔に、ある音声入出力装置100に特有の情報音を付加することにより、複数の音声入出力装置100を識別することを可能とする。
ここで、本実施形態によれば、話者識別や感情識別等の音声処理や利用ログ収集、解析、意図解釈等のどの処理を使うか、どの順番で使うか、ノイズを除去してから残響処理を行うか、残響処理を行ってからノイズを除去するのかはユーザが自由に選べるようになっている。
<音声情報処理システム>
図6に示すシステムは、音声入出力装置100と、クラウド側サーバ20と、を有するシステムである。
音声入出力装置100は、多数の貫通孔が形成された筐体101の天板外周部に配置されたLED(Light Emitting Diode:発光ダイオード)リング102と、筐体101の同一平面の周面に円周状に配置された複数(例えば16個であるが限定されない。)のPDMマイク103−1〜103−16と、筐体101内に下端向きに配置されたスピーカ群(スコーカ104S、ツイータ104S)と、筐体101の底面に上向きに凸の円錐形状の反射板105と、を備える装置である。筐体101内には各種回路基板が設けられている。106は電源ランプとしてのLEDである。107は電源コードであるが、バッテリー搭載可能である。
筐体101は、図では円筒状であるが限定されず角柱状であっても、円錐状であっても、角錐台状であっても、円錐台状であってもよい。
LEDリング102は多数の3色LED多色発光型のデバイスであり、環状に形成されたものである。LEDリング102は、一部の数個の隣接配置されたLEDと他の残りの部分のLEDとが異なる発光色で発光したり、円周軌道にそって回転したり停止したりし、周回点灯したりすることが可能である。例えば、話者方向を数個のLEDで白色点灯し、残りのLEDを青色点灯することが挙げられるが、これに限定されるものではなく、点灯の代わりに点滅させたり、インジケータのように話者の音声の強度に応じて照度を変化させたりしてもよい。
PDMマイク103−1〜103−16は、筐体101の同一平面の周面に16個等間隔で配置されているため、反射音より音源の左右方向の識別が20度の範囲で可能であり、音声入出力装置100の近傍にいる音源としての人の音声を集音することが可能である。
スコーカ104Sは通常の音声を発生するスピーカであり、ツイータ104Tは非可聴音(超音波)を発生するスピーカである。反射板105は、スコーカ104S及びツイータ104Sからの音声や非可聴音を筐体101の外側に放射状に反射させる部材である。ツイータ104からの非可聴音は反射板105で反射され筐体101の外部に出射して話者に反射した場合には筐体101に向かい、PDMマイク103−1〜103−16で集音することでレーダー(もしくはソナー)のように機能させることができる。この非可聴音はパルス変調されていてもよい。
クラウドシステム300は、複数のサーバを有するサーバ群301からなり、音声入出力装置100のディープラーニング処理等のソフトウェア処理を行ってもよい。
<動作1>
図7に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。
本システムは、予めユーザが第1の情報としてのシナリオを設定可能である。シナリオとは、例えば、話者と音声入出力装置100との対話に対してどのように応答するかを示すストーリーである。
まずユーザがクラウド側サーバ20で複数情報(例えば、第1の情報、第2の情報、第3の情報)を作成する(ステップS10)。
音声入出力装置100の電源スイッチがオンされると(ステップS11)、プロセッサ22は音声入出力装置100の外部から、例えば図示しないスマートフォンでモード設定信号が有るか否か判断する(ステップS12)。
プロセッサ22は、外部からモード設定信号が有ると判断した場合(ステップS12/YES)、コールセンターモード、受付モード、会議モード、…のうちのいずれかのモードが設定され(ステップS13)、外部からモード設定信号が無いと判断した場合(ステップS12/NO)、ステップS14に進む。
ステップS14では、プロセッサ22が、クライアント側の音声入出力装置100の処理能力が十分か否かを判断し、音声入出力装置10の処理能力が十分であると判断した場合(ステップS14/YES)、クライアント側の音声入出力装置100で処理し(ステップS15)、クライアント側の音声入出力装置100の処理能力が十分でないと判断した場合(ステップS14/NO)クラウド側で処理し(ステップS16)、ステップS17に進む。
プロセッサ22は、最適化済か否か判断し(ステップS17)、最適化済でない場合(ステップS17/NO)、第1の情報を選択し(ステップS18)、識別処理が容易となるような前段処理を実行する。前段処理は、第1の情報として、例えば、ビームフォーミング、ブラインド音源分離、及び残響抑制のいずれかから少なくとも一つ選択して、順番を決定し、実行する。ノイズ抑圧、エコーキャンセル、及び音声区間検出から適宜選択して、順番を決定し、実行するものとする(ステップS19)。
次にタスクの評価(ステップS20)を行い、評価が十分か否かを判断し(ステップS21)、評価が十分でないと判断した場合(ステップS21/NO)、ステップS10に戻り、クラウド側で第1の情報を修正し、ステップS10〜ステップS23を何回でも繰り返す。
プロセッサ22は、ステップS21でタスクの評価が十分であると判断した場合(ステップS21/YES)、第2の情報を選択し(ステップS22)、識別処理を実行する。識別処理は、第2の情報として、例えば、音声認識、話者識別、感情分析、及び環境音認識のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする(ステップS23)。
次にタスクの評価(ステップS24)を行い、評価が十分か否かを判断し(ステップS25)、評価が十分でないと判断した場合(ステップS25/NO)、ステップS10に戻り、クラウド側で第2の情報を修正し、ステップS10〜ステップS24を何回でも繰り返す。
プロセッサ22は、ステップS24でタスクの評価が十分であると判断した場合(ステップS24/YES)、第3の情報を選択し(ステップS26)、対話アプリを実行する。対話アプリについては、第3の情報として、利用ログ収集、解析、意図的解釈、及び対話管理のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする(ステップS27)。
次に、タスクの評価(ステップS28)を行い、評価が十分か否かを判断し(ステップS29)、評価が十分でないと判断した場合(ステップS29/NO)、ステップS10に戻り、クラウド側で第3の情報を修正し、ステップS10〜ステップS28を何回でも繰り返す。
プロセッサ22は、最適化が完了すると(ステップS30.)、アプリを実行し(ステップS31)、終了しない場合(ステップS32/NO)、ステップS12に戻り、終了する場合(ステップS32/YES)、終了する。この場合、電源スイッチが自動的オフになるように構成してもよい。
ここで、図7に示したフローチャートは一実施例に過ぎず、限定されるものではない。例えば、室内環境が同一であって、話者の数に変更があったり、室内環境に変更があっても話者や人数に変更がなかったり、使用するモードが変更になったり、使用するマイクの数やグレードに変更があったりしても、適宜ステップS18〜ステップS21と、ステップS22〜ステップS25と、ステップS26〜ステップS29とを入れ替えたり、一部を省略したりすることで継続的改善が施されるとともに柔軟な対応が可能である。
例えば、図7に示したフローチャートに基づいて処理する場合、マイクユニットのマイクが1本の場合にはビームフォーミングやブラインド音源分離は行わず、また、マイクの性能が高性能でない場合にはノイズ抑圧は1回だけ行い、マイクユニットのマイクが多数、例えば16個以上の場合にはビームフォーミンツやブラインド音源処理を行い、ノイズ抑圧やエコーキャンセル等の処理を行うようになっている。
<動作2>
図8に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。図8に示したフローチャートの図7に示したフローチャートとの相違点は、ステップS18〜ステップS21と、ステップS26〜ステップS29とを入れ替えた点である。これは、クラウド側サーバで処理した場合に図7に示したフローチャートで処理しても結果が不十分な場合に行う処理の一例である。このような処理を行っても継続的改善が施されるとともに柔軟な対応が可能である。
<動作3>
図9に示したフローチャートは、音声入出力装置100の使用が終了し、電源スイッチをオフにした状態で受付、会議室、もしくはコールセンターのオペレータの机の上に載置し、翌営業日に再度電源スイッチをオンにした場合について想定したものである。
電源スイッチがオンされると(ステップS91)、プロセッサ22は、室内環境、話者の変更、人数及びモード変更が無いか否かを判断し(ステップS92)、変更が無い場合(ステップS92/YES)、アプリを実行する(ステップS93)。
プロセッサ22は、アプリを実行した後終了か否か判断し(ステップS94)、終了の場合には終了し(ステップS94/YES)、終了しない場合にはステップS92に戻る(ステップS94/NO)。
プロセッサ22は、室内環境、話者の変更、人数及びモード変更が有った場合(ステップS92/NO)、クライアント側の音声入出力装置100の処理能力が十分か否かを判断する(ステップS95)。
プロセッサ22は、クライアント側の音声入出力装置100の処理能力が十分であると判断した場合(ステップS95/YES)、音声入出力装置100で処理し(ステップS96)、クライアント側の音声入出力装置100の処理能力が十分でないと判断した場合(ステップS96/NO)、クラウド側で処理し(ステップS97)、ステップS98に進む。
プロセッサ22は、モード設定信号が有るか否か判断し(ステップS98)、外部からモード設定信号が有ると判断した場合(ステップS98/YES)、コールセンターモード、受付モード、会議モード、…のうちのいずれかのモードが設定され(ステップS99)、外部からモード設定信号が無いと判断した場合(ステップS98/NO)、ステップS14(図7参照。)に進む。
ステップS92の処理により、無駄な処理が省略され効率が向上する。
以上で説明した本発明に係る音声入出力装置100は、コンピュータで処理を実行させる制御プログラムによって実現されている。一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
コンピュータが読み取り可能なプログラムであって、
コンピュータを、
音声に関する音声情報を入力する入力手段、
入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、
前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、
として機能させるための音声情報処理システムのプログラムが挙げられる。
これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる音声入出力装置100を実現することができる。
このようなプログラムは、コンピュータに読み取り可能な記録媒体に記憶されていてもよい。
<記録媒体>
ここで、記録媒体としては、例えばCD-ROM、フレキシブルディスク(FD)、CD−R等のコンピュータで読み取り可能な記録媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
CD−ROMは、Compact Disc Read Only Memoryの略である。フレキシブルディスクは、Flexible Diskを意味する。CD-Rは、CD Recordableの略である。FeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。HDDは、Hard Disc Driveの略である。
尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。
本発明は、主に音声による情報をもとに対象の状況を、詳細に知ることができるだけでなく、将来にわたり、発生が予測される事項について認識可能とした上で、関係者全般に対し情報を提供することを可能とすることで、主に音声による状況把握を必要とする場面に適用可能である。
10 ・・・ネットワーク
20 ・・・クラウド側サーバ
21 ・・・データベース(DB)
22 ・・・プロセッサ
23 ・・・出力装置
24 ・・・入力装置
26 ・・・インターフェース
100 ・・・音声入出力装置100
101 ・・・筐体
102 ・・・LEDリング
103−1〜103−16 ・・・PDMマイク
104 ・・・スピーカ群
104S ・・・スコーカ
104T ・・・ツイータ
105 ・・・反射板
106 ・・・電源ランプ
107 ・・・電源コード
201 ・・・拡張部
202 ・・・記憶部
203 ・・・マイクユニット
204 ・・・マイク制御部
205 ・・・信号処理部
206 ・・・通信部
207 ・・・音声発生部
208 ・・・非可聴音発生部
209 ・・・表示部

Claims (18)

  1. 物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、
    前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
    前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
    前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
    前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
    を備えたことを特徴とする音声情報処理システム。
  2. 物音、人の声、雑音を含む音声情報が入力される複数のマイクが配置されたマイクユニットと、
    単数あるいは複数のスピーカによって可聴音及び/もしくは非可聴音を発音する音声発生部と、
    前記マイクからの音声情報に対して識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
    前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
    前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
    前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
    を有することを特徴とする音声情報処理システム。
  3. 室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置の処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
  4. 室内の環境の設定、意図的解釈、及び対話を管理する外部システムをさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
  5. 前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段のうちの少なくとも一つを備えたことを特徴とする請求項4に記載の音声情報処理システム。
  6. 前記意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする請求項4に記載の音声情報処理システム。
  7. 前記音声情報の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する推論手段
    をさらに備えることを特徴とする請求項1もしくは2に記載の音声情報処理システム。
  8. 前記推論手段は、
    前記話者との対話を意図的に解釈する解釈手段と、
    前記話者との対話を管理する管理手段と
    を備えたことを特徴とする請求項7に記載の音声情報処理システム。
  9. 前記室内のサイズを判断するサイズ判断手段と、
    前記室内のノイズレベルを認識するノイズレベル認識手段と、
    前記室内の残響レベルを認識する残響レベル認識手段と
    をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
  10. 前記筐体に設けられ画像を表示する画像表示手段をさらに備えたことを特徴とする請求項5に記載の音声情報処理システム。
  11. 前記筐体に設けられユーザを認識する指紋認証手段をさらに備えたことを特徴とする請求項5に記載の音声情報処理システム。
  12. 前記クライアント側の音声入出力装置の処理能力が十分であるかの判断は、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクロフォンアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含んでなされることを特徴とする請求項3に記載の音声情報処理システム。
  13. 新たに入力された音声の特徴を前記記録手段に記録された前記話者特徴情報と照合して話者を識別する話者識別手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
  14. 前記話者の感情を識別する感情識別手段をさらに備えたことを特徴とする請求項7に記載の音声情報処理システム。
  15. 前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
  16. 物音、人の声、雑音を含む音声に関する音声情報が入力される第1のステップと、
    前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う第2のステップであって、前記前段処理は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を行う、ステップと、
    前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る第3のステップと、
    前記音声情報に係る話者の特徴を話者特徴情報として抽出する第4のステップと、
    前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される第5のステップと
    を具備することを特徴とする音声情報処理システムの制御方法。
  17. コンピュータが読み取り可能なプログラムであって、
    コンピュータを、
    物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、
    前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
    前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
    前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
    前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
    として機能させるための音声情報処理システムのプログラム。
  18. 請求項17に記載のプログラムを記録した記録媒体。
JP2019210065A 2017-06-26 2019-11-20 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 Pending JP2020042292A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017124675 2017-06-26
JP2017124675 2017-06-26

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018075244A Division JP2019008274A (ja) 2017-06-26 2018-04-10 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2020042292A true JP2020042292A (ja) 2020-03-19
JP2020042292A5 JP2020042292A5 (ja) 2021-05-27

Family

ID=65029524

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018075244A Pending JP2019008274A (ja) 2017-06-26 2018-04-10 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体
JP2019210065A Pending JP2020042292A (ja) 2017-06-26 2019-11-20 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018075244A Pending JP2019008274A (ja) 2017-06-26 2018-04-10 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

Country Status (1)

Country Link
JP (2) JP2019008274A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063552A1 (ko) * 2021-10-15 2023-04-20 엘지전자 주식회사 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271168A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体
JP2005080110A (ja) * 2003-09-02 2005-03-24 Yamaha Corp 音声会議システム、音声会議端末装置およびプログラム
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2009271183A (ja) * 2008-05-01 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置とその方法と、プログラムとその記録媒体
WO2015125375A1 (ja) * 2014-02-18 2015-08-27 ソニー株式会社 情報処理装置、制御方法、プログラム、およびシステム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3069531B2 (ja) * 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
JPH1138998A (ja) * 1997-07-16 1999-02-12 Olympus Optical Co Ltd 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体
JP2000222000A (ja) * 1999-01-29 2000-08-11 Canon Inc 音声認識装置
JP2003330488A (ja) * 2002-05-10 2003-11-19 Nissan Motor Co Ltd 音声認識装置
JP2005115569A (ja) * 2003-10-06 2005-04-28 Matsushita Electric Works Ltd 信号識別装置および信号識別方法
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
WO2012060077A1 (ja) * 2010-11-05 2012-05-10 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271168A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体
JP2005080110A (ja) * 2003-09-02 2005-03-24 Yamaha Corp 音声会議システム、音声会議端末装置およびプログラム
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2009271183A (ja) * 2008-05-01 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置とその方法と、プログラムとその記録媒体
WO2015125375A1 (ja) * 2014-02-18 2015-08-27 ソニー株式会社 情報処理装置、制御方法、プログラム、およびシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
荒木章子 他: ""複数人会話シーン分析におけるマイクロホンアレイ音声処理"", 電子情報通信学会技術研究報告, vol. 111, no. 28, JPN6022002572, 5 May 2011 (2011-05-05), pages 83 - 88, ISSN: 0004689395 *
荒木章子 他: ""音声区間検出と方向情報を用いた会議音声話者識別システムとその評価"", 日本音響学会2008年春季研究発表会講演論文集CD-ROM, JPN6022002571, 10 March 2008 (2008-03-10), pages 1 - 4, ISSN: 0004689394 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023063552A1 (ko) * 2021-10-15 2023-04-20 엘지전자 주식회사 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법

Also Published As

Publication number Publication date
JP2019008274A (ja) 2019-01-17

Similar Documents

Publication Publication Date Title
US11172122B2 (en) User identification based on voice and face
US11023690B2 (en) Customized output to optimize for user preference in a distributed system
US11138977B1 (en) Determining device groups
US20230237418A1 (en) System for analyzing workflow and detecting inactive operators and methods of using the same
JP5124573B2 (ja) 音声認識機能を使用した応答マシンの検出
JP6675527B2 (ja) 音声入出力装置
WO2021008538A1 (zh) 语音交互方法及相关装置
US9131068B2 (en) Systems and methods for automatically connecting a user of a hands-free intercommunication system
JP6820664B2 (ja) 受付システムおよび受付方法
JP2017182334A (ja) 受付システム及び受付方法
CN110096251B (zh) 交互方法及装置
CN110364164B (zh) 对话控制装置、对话系统、对话控制方法以及存储介质
JP2020042292A (ja) 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
JP7400364B2 (ja) 音声認識システム及び情報処理方法
KR20190052443A (ko) 반려동물 음성 번역 장치 및 방법
US20220157305A1 (en) Information processing apparatus, information processing method, and program
Veena et al. Sound classification system using deep neural networks for hearing impaired people
EP3641286B1 (en) Call recording system for automatically storing a call candidate and call recording method
CN112420046A (zh) 适合听障人士参与的多人会议方法、系统及装置
JP5701935B2 (ja) 音声認識システムおよび音声認識システムの制御方法
US20240079007A1 (en) System and method for detecting a wakeup command for a voice assistant
JP6112913B2 (ja) 監視カメラシステム及び方法
WO2023210052A1 (ja) 音声分析装置、音声分析方法及び音声分析プログラム
US11275551B2 (en) System for voice-based alerting of person wearing an obstructive listening device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210412

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220719