JP2020042292A - 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 - Google Patents
音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2020042292A JP2020042292A JP2019210065A JP2019210065A JP2020042292A JP 2020042292 A JP2020042292 A JP 2020042292A JP 2019210065 A JP2019210065 A JP 2019210065A JP 2019210065 A JP2019210065 A JP 2019210065A JP 2020042292 A JP2020042292 A JP 2020042292A
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- processing
- unit
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
<システム全体>
図1は、本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。本発明の一実施形態に係る音声情報処理システムは、ネットワーク10を介してクラウド側サーバ20、及びクライアント側の音声入出力装置100が接続されて構成されている。
次に、図2に従ってクラウド側サーバ20の詳細を説明する。図2に示すように、クラウド側サーバ20は、データベース(以下、「DB」という。)21、プロセッサ22、出力装置23、入力装置24、及びインターフェース26等を備えて構成されている。プロセッサ(「コンピュータ」とも称する)22は、音声情報の管理に関するデータの処理を行い、DB21は音声情報の管理に関する情報等のデータ、及び制御プログラム等を記憶する。出力装置23は、ディスプレイ、プリンタ等を備えて構成され、必要に応じて各種情報を出力する。また、入力装置24は、キーボード、バーコードリーダ、及びスキャナ等を備えて構成され、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものとする。なお、クラウド側サーバ20は最終的に音声情報処理システムとしての業務遂行が可能であれば、単独でも複数のシステムから構成されていてもよい。
次に、図3に従って音声入出力装置100の詳細を説明する。同図に示すように、音声入出力装置100は、主として拡張部201、記憶部202、マイクユニット203、マイク制御部204、信号処理部205、通信部206、音声発生部207、非可聴音発生部208、及び表示部209を備える。表示部209はLED(Light Emitting Diode:発光ダイオード)210とLCD(Liquid Crystal Display:液晶表示ディスプレイ)211とを有してもよい。LED210はリング状であってもよい。
図4に従ってクラウド側サーバ及び音声入出力装置のソフトウェア構成について説明する。
クラウド側サーバ20は、入力手段41、出力手段42、記憶手段43、判断手段44、最適化手段45、翻訳手段49、第1制御手段50、推論手段51、及び通信手段52を備えて構成されている。
クライアント側の音声入出力装置100は、主として入力手段61、出力手段62、前段処理手段63、発光手段64、通信手段65、第2制御手段66、記憶手段67、入出力手段68、及び検知手段69を備えて構成されている。音声入出力装置100は、さらに画像表示手段71、指紋認証手段72、撮像手段73、外部情報入力手段74、振動手段75、及び回転手段76を備えて構成してもよい。
上記に示す分析処理、解析処理、認識処理等の構成について、図5のソフトウェアスタック図の処理内容に従って説明する。処理内容は、利用ログ収集・解析部503、意図解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、マルチマイクアレイ処理技術部510、マルチマイクハードウェア部512、センサ515等から構成される。意図的解釈・対話管理技術部504は、外部システム513や外部コンテンツ514が接続されていてもよい。対話アプリ501−1〜501−nに応じてシナリオデザインが評価される。その際利用ログ収集・解析して継続的に改善する。尚、図では継続的改善に3つの矢印が記載されているが、意図的解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、及びマルチマイクハードウェア部512についても、順番を入れ替えたり、一部を省略したりするとともに継続的改善が行われるので矢印が記載されていてもよい。
図6に示すシステムは、音声入出力装置100と、クラウド側サーバ20と、を有するシステムである。
クラウドシステム300は、複数のサーバを有するサーバ群301からなり、音声入出力装置100のディープラーニング処理等のソフトウェア処理を行ってもよい。
図7に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。
図8に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。図8に示したフローチャートの図7に示したフローチャートとの相違点は、ステップS18〜ステップS21と、ステップS26〜ステップS29とを入れ替えた点である。これは、クラウド側サーバで処理した場合に図7に示したフローチャートで処理しても結果が不十分な場合に行う処理の一例である。このような処理を行っても継続的改善が施されるとともに柔軟な対応が可能である。
図9に示したフローチャートは、音声入出力装置100の使用が終了し、電源スイッチをオフにした状態で受付、会議室、もしくはコールセンターのオペレータの机の上に載置し、翌営業日に再度電源スイッチをオンにした場合について想定したものである。
コンピュータを、
音声に関する音声情報を入力する入力手段、
入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、
前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、
として機能させるための音声情報処理システムのプログラムが挙げられる。
ここで、記録媒体としては、例えばCD-ROM、フレキシブルディスク(FD)、CD−R等のコンピュータで読み取り可能な記録媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
20 ・・・クラウド側サーバ
21 ・・・データベース(DB)
22 ・・・プロセッサ
23 ・・・出力装置
24 ・・・入力装置
26 ・・・インターフェース
100 ・・・音声入出力装置100
101 ・・・筐体
102 ・・・LEDリング
103−1〜103−16 ・・・PDMマイク
104 ・・・スピーカ群
104S ・・・スコーカ
104T ・・・ツイータ
105 ・・・反射板
106 ・・・電源ランプ
107 ・・・電源コード
201 ・・・拡張部
202 ・・・記憶部
203 ・・・マイクユニット
204 ・・・マイク制御部
205 ・・・信号処理部
206 ・・・通信部
207 ・・・音声発生部
208 ・・・非可聴音発生部
209 ・・・表示部
Claims (18)
- 物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
を備えたことを特徴とする音声情報処理システム。 - 物音、人の声、雑音を含む音声情報が入力される複数のマイクが配置されたマイクユニットと、
単数あるいは複数のスピーカによって可聴音及び/もしくは非可聴音を発音する音声発生部と、
前記マイクからの音声情報に対して識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
を有することを特徴とする音声情報処理システム。 - 室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置の処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
- 室内の環境の設定、意図的解釈、及び対話を管理する外部システムをさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
- 前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段のうちの少なくとも一つを備えたことを特徴とする請求項4に記載の音声情報処理システム。
- 前記意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする請求項4に記載の音声情報処理システム。
- 前記音声情報の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する推論手段
をさらに備えることを特徴とする請求項1もしくは2に記載の音声情報処理システム。 - 前記推論手段は、
前記話者との対話を意図的に解釈する解釈手段と、
前記話者との対話を管理する管理手段と
を備えたことを特徴とする請求項7に記載の音声情報処理システム。 - 前記室内のサイズを判断するサイズ判断手段と、
前記室内のノイズレベルを認識するノイズレベル認識手段と、
前記室内の残響レベルを認識する残響レベル認識手段と
をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。 - 前記筐体に設けられ画像を表示する画像表示手段をさらに備えたことを特徴とする請求項5に記載の音声情報処理システム。
- 前記筐体に設けられユーザを認識する指紋認証手段をさらに備えたことを特徴とする請求項5に記載の音声情報処理システム。
- 前記クライアント側の音声入出力装置の処理能力が十分であるかの判断は、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクロフォンアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含んでなされることを特徴とする請求項3に記載の音声情報処理システム。
- 新たに入力された音声の特徴を前記記録手段に記録された前記話者特徴情報と照合して話者を識別する話者識別手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
- 前記話者の感情を識別する感情識別手段をさらに備えたことを特徴とする請求項7に記載の音声情報処理システム。
- 前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。
- 物音、人の声、雑音を含む音声に関する音声情報が入力される第1のステップと、
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う第2のステップであって、前記前段処理は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を行う、ステップと、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る第3のステップと、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する第4のステップと、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される第5のステップと
を具備することを特徴とする音声情報処理システムの制御方法。 - コンピュータが読み取り可能なプログラムであって、
コンピュータを、
物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、
前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、
前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、
前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段と
として機能させるための音声情報処理システムのプログラム。 - 請求項17に記載のプログラムを記録した記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017124675 | 2017-06-26 | ||
JP2017124675 | 2017-06-26 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018075244A Division JP2019008274A (ja) | 2017-06-26 | 2018-04-10 | 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042292A true JP2020042292A (ja) | 2020-03-19 |
JP2020042292A5 JP2020042292A5 (ja) | 2021-05-27 |
Family
ID=65029524
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018075244A Pending JP2019008274A (ja) | 2017-06-26 | 2018-04-10 | 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 |
JP2019210065A Pending JP2020042292A (ja) | 2017-06-26 | 2019-11-20 | 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018075244A Pending JP2019008274A (ja) | 2017-06-26 | 2018-04-10 | 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2019008274A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023063552A1 (ko) * | 2021-10-15 | 2023-04-20 | 엘지전자 주식회사 | 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271168A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体 |
JP2005080110A (ja) * | 2003-09-02 | 2005-03-24 | Yamaha Corp | 音声会議システム、音声会議端末装置およびプログラム |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP2009271183A (ja) * | 2008-05-01 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法と、プログラムとその記録媒体 |
WO2015125375A1 (ja) * | 2014-02-18 | 2015-08-27 | ソニー株式会社 | 情報処理装置、制御方法、プログラム、およびシステム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3069531B2 (ja) * | 1997-03-14 | 2000-07-24 | 日本電信電話株式会社 | 音声認識方法 |
JPH1138998A (ja) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | 雑音抑圧装置および雑音抑圧処理プログラムを記録した記録媒体 |
JP2000222000A (ja) * | 1999-01-29 | 2000-08-11 | Canon Inc | 音声認識装置 |
JP2003330488A (ja) * | 2002-05-10 | 2003-11-19 | Nissan Motor Co Ltd | 音声認識装置 |
JP2005115569A (ja) * | 2003-10-06 | 2005-04-28 | Matsushita Electric Works Ltd | 信号識別装置および信号識別方法 |
JP5156260B2 (ja) * | 2007-04-27 | 2013-03-06 | ニュアンス コミュニケーションズ,インコーポレイテッド | 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム |
WO2012060077A1 (ja) * | 2010-11-05 | 2012-05-10 | 日本電気株式会社 | 情報処理装置、情報処理システム、情報処理方法およびプログラム |
-
2018
- 2018-04-10 JP JP2018075244A patent/JP2019008274A/ja active Pending
-
2019
- 2019-11-20 JP JP2019210065A patent/JP2020042292A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271168A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体 |
JP2005080110A (ja) * | 2003-09-02 | 2005-03-24 | Yamaha Corp | 音声会議システム、音声会議端末装置およびプログラム |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP2009271183A (ja) * | 2008-05-01 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置とその方法と、プログラムとその記録媒体 |
WO2015125375A1 (ja) * | 2014-02-18 | 2015-08-27 | ソニー株式会社 | 情報処理装置、制御方法、プログラム、およびシステム |
Non-Patent Citations (2)
Title |
---|
荒木章子 他: ""複数人会話シーン分析におけるマイクロホンアレイ音声処理"", 電子情報通信学会技術研究報告, vol. 111, no. 28, JPN6022002572, 5 May 2011 (2011-05-05), pages 83 - 88, ISSN: 0004689395 * |
荒木章子 他: ""音声区間検出と方向情報を用いた会議音声話者識別システムとその評価"", 日本音響学会2008年春季研究発表会講演論文集CD-ROM, JPN6022002571, 10 March 2008 (2008-03-10), pages 1 - 4, ISSN: 0004689394 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023063552A1 (ko) * | 2021-10-15 | 2023-04-20 | 엘지전자 주식회사 | 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2019008274A (ja) | 2019-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11172122B2 (en) | User identification based on voice and face | |
US11023690B2 (en) | Customized output to optimize for user preference in a distributed system | |
US11138977B1 (en) | Determining device groups | |
US20230237418A1 (en) | System for analyzing workflow and detecting inactive operators and methods of using the same | |
JP5124573B2 (ja) | 音声認識機能を使用した応答マシンの検出 | |
JP6675527B2 (ja) | 音声入出力装置 | |
WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
US9131068B2 (en) | Systems and methods for automatically connecting a user of a hands-free intercommunication system | |
JP6820664B2 (ja) | 受付システムおよび受付方法 | |
JP2017182334A (ja) | 受付システム及び受付方法 | |
CN110096251B (zh) | 交互方法及装置 | |
CN110364164B (zh) | 对话控制装置、对话系统、对话控制方法以及存储介质 | |
JP2020042292A (ja) | 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 | |
JP2006243555A (ja) | 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法 | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
KR20190052443A (ko) | 반려동물 음성 번역 장치 및 방법 | |
US20220157305A1 (en) | Information processing apparatus, information processing method, and program | |
Veena et al. | Sound classification system using deep neural networks for hearing impaired people | |
EP3641286B1 (en) | Call recording system for automatically storing a call candidate and call recording method | |
CN112420046A (zh) | 适合听障人士参与的多人会议方法、系统及装置 | |
JP5701935B2 (ja) | 音声認識システムおよび音声認識システムの制御方法 | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
JP6112913B2 (ja) | 監視カメラシステム及び方法 | |
WO2023210052A1 (ja) | 音声分析装置、音声分析方法及び音声分析プログラム | |
US11275551B2 (en) | System for voice-based alerting of person wearing an obstructive listening device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210412 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220719 |