JP6201279B2

JP6201279B2 - サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム

Info

Publication number: JP6201279B2
Application number: JP2012065586A
Authority: JP
Inventors: 小林　佳和; 佳和小林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-03-22
Filing date: 2012-03-22
Publication date: 2017-09-27
Anticipated expiration: 2032-03-22
Also published as: JP2013198066A; WO2013140996A1

Description

本発明は、音声処理技術に関する。

上記技術分野において、特許文献１には、デジタルＰＢＸで、音声会議での音声に対してエコーキャンセル処理を施す技術が開示されている。

特開2000-082979号公報

しかしながら、上記文献に記載の技術は、単に音声会議の機能を電話機以外の部分で実現するものであって、蓄積した情報に基づいて環境に応じた適切な音声データ処理を行なうことができなかった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係るサーバは、
携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、
前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、
前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、
前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、
を備え、
前記蓄積手段は、前記情報出力装置から受信した、前記処理結果送信手段より送信された前記音声処理の結果についての評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新することを特徴とする。

上記目的を達成するため、本発明に係るサーバの制御方法は、
携帯端末と接続可能なサーバの制御方法であって、
前記携帯端末から音声データと音声を入力した環境に関する環境情報とを受信する受信ステップと、
蓄積手段に蓄積された前記環境情報と音声データの処理方法との対応関係を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
を備え、
さらに、前記情報出力装置から受信した、前記処理結果送信ステップで送信した前記音声処理の結果についての評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新するステップを含むことを特徴とする。

上記目的を達成するため、本発明に係るサーバの制御プログラムは、
携帯端末と接続可能なサーバの制御プログラムであって、
前記携帯端末から音声データと音声を入力した環境に関する環境情報とを受信する受信ステップと、
蓄積手段に蓄積された前記環境情報と音声データの処理方法との対応関係を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
を備え、
さらに、前記情報出力装置から受信した、前記処理結果送信ステップで送信した前記音声処理の結果についての評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新するステップを含むことを特徴とする。

上記目的を達成するため、本発明に係る情報処理システムは、
携帯端末と情報出力装置とサーバとを含む情報処理システムであって、
前記携帯端末は、
音声を入力して音声データを生成する音声入力手段と、
前記音声データを前記サーバに送信する音声送信手段と、
前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信手段と、
を備え、
前記サーバは、
前記携帯端末から前記音声データと前記環境情報とを受信する受信手段と、
前記環境情報と前記音声データの処理方法との対応関係を蓄積する蓄積手段と、
前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を施す音声処理手段と、
前記音声処理手段による前記音声処理の結果を前記情報出力装置に送信する処理結果送信手段と、
を備え、
前記情報出力装置は、前記サーバから受信した前記音声処理の結果を出力する出力手段と、
前記サーバから受信した前記音声処理の結果を評価する評価手段と、
前記評価手段での評価結果を前記サーバに送信する評価結果送信手段と、
を備え、
前記蓄積手段は、前記情報出力装置から受信した前記評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新することを特徴とする。

上記目的を達成するため、本発明に係る情報処理方法は、
携帯端末と情報出力装置とサーバとを用いた情報処理方法であって、
前記携帯端末が、音声を入力して音声データを生成する音声入力ステップと、
前記携帯端末が、前記音声データを前記サーバに送信する音声送信ステップと、
前記携帯端末が、前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
前記サーバが、前記携帯端末から前記音声データと前記環境情報とを受信する受信ステップと、
前記サーバが、前記環境情報と前記音声データの処理方法との対応関係を蓄積した蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
前記サーバが、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を施す音声処理ステップと、
前記サーバが、前記音声処理の結果を前記情報出力装置に送信する処理結果送信ステップと、
前記情報出力装置が、前記サーバから受信した前記音声処理の結果を出力する出力ステップと、
前記情報出力装置が、前記サーバから受信した前記音声処理の結果を評価する評価ステップと、
前記情報出力装置が、前記評価ステップでの評価結果を前記サーバに送信する評価結果送信ステップと、
を含み、
さらに、前記サーバが前記情報出力装置から受信した前記評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新するステップを含むことを特徴とする。

本発明によれば、蓄積した情報を用いて、環境に適応した音声処理を施すことができる。

本発明の第１実施形態に係るサーバの構成を示すブロック図である。本発明の第２実施形態に係る情報処理システムの概要を示すブロック図である。本発明の第２実施形態に係る情報処理システムの手続きの処理の流れを示すシーケンス図である。本発明の第２実施形態に係る情報処理システムの構成を示すブロック図である。本発明の第２実施形態におけるサーバのノイズキャンセリング方法のテーブルを示す。本発明の第２実施形態におけるサーバのノイズキャンセリング方法のテーブルを示す。本発明の第２実施形態におけるサーバのノイズキャンセリング方法のテーブルを示す。本発明の第２実施形態におけるサーバのハードウェア構成を示す図である。本発明の第２実施形態におけるサーバの手続きの処理の流れを示すフローチャートである。本発明の第３実施形態に係る情報処理システムの構成を示すブロック図である本発明の第３実施形態におけるサーバのテキストデータ生成処理の流れを示すフローチャートである。

以下に、本発明を実施するための形態について、図面を参照して、例示的に詳しく説明記載する。ただし、以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、その変形や変更は自由であって、本発明の技術範囲を以下の記載に限定する趣旨のものではない。

［第１実施形態］
本発明の第１実施形態としてのサーバ１１０について、図１を用いて説明する。サーバ１１０は、携帯端末で入力した音声データを、サーバに蓄積された環境情報の履歴に基づいてノイズキャンセリングを行なって情報出力装置から出力するシステムである。

図１に示すように、サーバ１１０は、携帯端末１２０と、情報出力装置１３０と通信可能に接続されている。

サーバ１１０は、受信部１１１と、蓄積部１１２と、決定部１１３と、音声処理部１１４と、処理結果送信部１１５とを備える。受信部１１１は、携帯端末１２０に入力された音声に関する音声データと音声を入力された環境に関する環境情報とを受信する。蓄積部１１２は、環境情報と音声データの処理方法との対応関係を蓄積する。決定部１１３は、蓄積部１１２を参照して、音声データに対して施すべき処理方法を決定する。音声処理部１１４は、決定された処理方法に基づいて、受信部１１１で受信した音声データに音声処理を加える。処理結果送信部１１５は、音声処理部１１４による音声処理の結果を情報出力装置１３０に送信する。

以上の構成および動作により、本実施形態に係るサーバによれば、蓄積した情報を用いて、環境に適応した音声処理を施すことができる。

［第２実施形態］
次に本発明の第２実施形態に係る情報処理システム２００について、図２を用いて説明する。図２は、本実施形態に係る情報処理システム２００の概要を説明するための図である。なお、本実施形態においては、情報処理システム２００の利用例として電話会議を想定するが、本発明は、講演会、インタビュー、音声チャット、音声同報、音声放送などにおいても利用可能である。図２において、携帯電話としてのスマートフォン２１０はインターネットに経由で、データセンタのクラウドサーバ２２０に接続している。

スマートフォン２１０は、ユーザが発した音声を背景の音（ノイズ）と共に受け付け、さらにユーザの周囲の環境情報として現在位置や状況、日時、天候などを受け付ける。クラウドサーバ２２０は、この環境情報と、この環境下で得られた音声データに施したノイズキャンセリングの処理方法の対応関係を蓄積する。そして、クラウドサーバ２２０は、データベースに蓄積された環境情報と、スマートフォン２１０から取得した音声データ２５０の環境情報とを対比し、最適な処理方法を選択して音声の品質（音質）を調整した音声データを生成する。クラウドサーバ２２０は、処理を施した音声データ（処理結果）２５１を、情報出力装置としてのスマートフォン２３０に送信する。スマートフォン２３０は、クラウドサーバ２２０から取得した音声を出力する。なお、ノイズキャンセリング方法としては、例えば、あるノイズに対して逆位相の信号を重ね合わせる方法の場合、逆位相の信号の種類を環境情報に合わせて選択する方法があるが、これに限られるものではなく、他のノイズキャンセリング方法を用いてもよい。

クラウドサーバ２２０は、過去に開催した会議で、端末種別、位置情報と接続先の個数、利用アプリケーション、接続先装置をもとにテレビ会議が快適に実現できるパターンをナレッジとして蓄えている。この蓄積したナレッジを利用することにより、今から実施するテレビ会議の環境に最適な設定を提案する。

ここで、情報出力装置としてのスマートフォン２３０から出力された音声に対してスマートフォン２３０の画面に表示した音声調節機能を利用して調整を施した場合には、その調整方法をクラウドサーバ２２０に蓄積する。この調整結果は、スマートフォン２３０の環境情報と紐付けられた処理方法として蓄積されてもよいし、この調整を行なったユーザに紐付けられた処理方法として蓄積されてもよい。また、会議参加者の満足度を、スマートフォン２３０から入力してもらい、その満足度を音声良好化のナレッジとしてクラウドサーバ２２０に蓄積し、次回の設定候補メニュー提示の参考にしてもよい。さらにクラウドサーバ２２０は、会話中の内容やチャットや環境騒音、明瞭度などを分析して、音声品質が悪い部分などを自動で識別して、音声処理を施してもよい。

音声品質の判定は、例えば、平均片道遅延時間や送話者エコーＴＥＬＲ（Talker echo loudness rating [dB]）などを用いて判定してもよい。あるいは、会議中により音声品質が良くなると推定した設定メニュー案を、スマートフォン２３０のディスプレイを介してユーザに提示してもよい。

次に、情報処理システム２００全体の手続き処理の流れを図３を用いて説明する。図３は、情報処理システム２００全体の手続き処理の流れを示すシーケンス図である。

ステップＳ３０１において、スマートフォン２１０は、入力した音声から音声データを生成する。ステップＳ３０３において、スマートフォン２１０は、音声データを送信する。ステップＳ３０５において、スマートフォン２１０は、音声データと共に取得した環境情報をクラウドサーバ２２０に送信する。ステップＳ３０７において、クラウドサーバ２２０は、音声データおよび環境情報を受信する。ステップＳ３０９において、クラウドサーバ２２０は、取得した環境情報下で入力された音声データに施すために最適な処理方法を、データベースに蓄積された処理方法から選択して決定する。ステップＳ３１１において、クラウドサーバ２２０は、決定した処理方法に基づいて音声データにノイズキャンセリングを行なう。ステップＳ３１３において、クラウドサーバ２２０は、処理を行なった音声データをスマートフォン２３０に送信する。

ステップＳ３１５において、スマートフォン２３０は、取得した音声を出力する。ステップＳ３１７において、スマートフォン２３０は、サーバから取得した音声の処理結果について評価を行なう。ステップＳ３１９において、スマートフォン２３０は、音声処理結果に対する評価結果をクラウドサーバ２２０に送信する。ステップＳ３２１において、クラウドサーバ２２０は、スマートフォン２３０から取得した評価結果に基づいて、データベースに蓄積した環境情報と音声データの処理方法との対応関係を更新する。

次に、情報処理システム２００の構成を図４を用いて説明する。図４は、情報処理システム２００の機能構成を示すブロック図である。

スマートフォン２１０は、マイク４１１とスピーカ４１２と環境判定部４１３と音質調整部４１４と音声送信部４１５と音声受信部４１６とを有する。また、スマートフォン２１０は、さらに環境情報送信部４１７と評価部４１８と評価結果送信部４１９とを有する。また、スマートフォン２３０は、スマートフォン２１０と同様に、マイク４３１とスピーカ４３２と環境判定部４３３と音質調整部４３４と音声送信部４３５と音声受信部４３６と環境情報送信部４３７と評価部４３８と評価結果送信部４３９とを有する。またスマートフォン２１０、２３０は、不図示のカメラ、ディスプレイ、外部Ｉ／Ｆなどを有している。

クラウドサーバ２２０は、受信部２２１と、蓄積部２２２と、決定部２２３と、音声処理部２２４と、処理結果送信部２２５とを有する。

スマートフォン２１０、２３０のマイク４１１、４３１は、ユーザその他の話者から発せられた音声を入力する。マイク４１１、４３１は、背景音が混在した入力音声を、ブラインド音源分離、または独立成分分析などの音声処理方法を用いて背景音と音声とに分離して音声データとして生成する。環境判定部４１３、４３３は、音声の入力場所の背景音や、広域測位機能（不図示）を用いて取得したスマートフォン２１０の位置情報や、ユーザによって入力された情報に基づいて、話者の環境を判定し、環境情報を生成する。環境情報送信部４１７、４３７は、環境判定部４１３、４３３により生成された環境情報をクラウドサーバ２２０に送信する。また、音声送信部４１５、４３５は、入力した音声データをクラウドサーバ２２０に送信する。

クラウドサーバ２２０は、受信部２２１において、環境情報送信部４１７、４３７から送信された環境情報と、音声送信部４１５、４３５から送信された音声データとを受信する。蓄積部２２２は、環境情報と音声処理方法とを対応付けてあらかじめ蓄積している。決定部２２３は、受信した音声データからノイズを除去するために、受信した環境情報と蓄積部２２２に蓄積した環境情報とを対比して、同一環境または同様の環境を選択する。

例えば、環境情報に含まれる各種パラメータ（時間、位置など）を数値化して合計することにより環境レベルを決定し、その環境レベルが近似しているものを「同様の環境」と評価する。そしてさらに、決定部２２３は、選択した特定の環境情報に対応付けて蓄積された音声データのノイズキャンセリング方法を、受信した音声データの処理方法として決定する。音声処理部２２４は、決定部２２３により決定されたノイズキャンセリング方法を音声データに適用して、環境情報に適した音声データを生成する。処理結果送信部２２５は、ノイズキャンセリング方法を適用して生成した音声データをスマートフォン２１０、２３０に送信する。

スマートフォン２１０、２３０は、音声受信部４１６、４３６にて、クラウドサーバ２２０から送信された音声データを受信する。スピーカ４１２、４３２は、ノイズキャンセリングされた音声データに対応する音声を出力する。

音質調整部４１４、４３４は、スピーカ４１２、４３２から出力された音質を調整するために用いる。すなわち、音質調整部４３４は、音量、質感、音域などを再調整することにより、現在の環境情報に最適な音声の再生成を可能にする。音声送信部４１５、４３５は、音質調整部４１４、４３４による調整方法をクラウドサーバ２２０に送信する。

評価部４１８、４３８は、クラウドサーバ２２０で適用されたノイズキャンセリングによる処理の結果（音質）について評価する。そして、評価結果送信部４１９、４３９は、音質についての評価結果をクラウドサーバ２２０に送信する。

クラウドサーバ２２０の受信部２２１は、スマートフォン２３０から送信された音声データと環境情報とを受信すると、この音質調整部４３４により調整された音声データの調整方法を、送信された環境情報と共に対応付けて蓄積部２２２に蓄積する。また、スマートフォン２３０から送信された、音質についての評価結果や音質調整方法を基に、音声データに適用したノイズキャンセリング方法を、環境情報と共に対応付けて蓄積部２２２に蓄積する。つまり、クラウドサーバ２２０は、スマートフォン２１０、２３０から得た音質調整方法や評価結果を蓄積して以降の音声処理決定に反映させる。

このように、環境情報に適したノイズキャンセリング方法をクラウドサーバ２２０に蓄積し、さらにユーザからの評価結果などと対応付けて随時更新することで、ノイズキャンセリングにより処理された音声データに対する多くのユーザの評価を反映させた最適なノイズキャンセリング方法を、いつでも誰もが利用可能となる。

（環境情報のテーブル）
次に、図５Ａ〜図５Ｃを用いて、ノイズキャンセリング方法の決定方法を説明する。図５Ａ〜図５Ｃは、環境条件に合わせてノイズキャンセリング方法を決定するため蓄積手段の例として、３つのテーブル５００、５２０、５４０を示す。

テーブル５００は、場所５０１と、背景音５１０と、音声処理とを対応させたテーブルである。スマートフォン２１０に音声データを入力した場所５０１として、本実施形態においては会議室５０２と、ホール５０３と、屋外５０４とが用意されているが、これらに限られるものではない。例えば、会議室５０２については、部屋の広さや収容人数などの条件に応じて施すべき音声処理を細分化してもよい。ホール５０３についても、ホールの広さ（５２１）や、席数や、階数や、天井の高さなどの条件に応じて細分化してもよい。さらに、屋外５０４についても、駅、（電）車内、幹線道路沿い、住宅街、工場地帯、建設現場、農場、海上などの条件に応じて細分化してもよい。蓄積部２２２は、このように場所５０１の条件を細分化して、環境とノイズキャンセリング方法との対応関係を蓄積することが可能である。

背景音５１０は、本実施形態においてはスマートフォン２１０に入力される背景音の大きさを、特大、大、中、小、極小の５段階で表わすが、これに限定されない。決定部２２３は、例えば、音声データを入力する場所が会議室５０２であって、背景音５１０が「特大」の場合には、この環境下で適用されるべきノイズキャンセリング方法として蓄積されている処理Ａを、受信した音声データに適用する。また、決定部２２３は、音声データを入力する場所がホール５０３であって、背景音５１０が「大」の場合には、ノイズキャンセリング方法として処理Ｅを、受信した音声データに適用する。このように、蓄積部２２２は、環境情報としての場所５０１や背景音５１０と、音声データに適用すべきノイズキャンセリング方法との対応関係を蓄積部２２２に蓄積する。そして、決定部２２３は、受信部２２１で受信したスマートフォン２１０の環境情報および音声データに対して適用すべき最適なノイズキャンセリング方法を選択し、決定することができる。

図５Ｂのテーブル５２０は、ホールの広さ５２１と、入力端末種別５２２とに応じて施すべき音声処理を決定するためのテーブルである。なお、ホールの広さ５２１は、位置情報に対応付けてあらかじめ登録されているものとする。決定部２２３は、音声データを入力するホールの広さ５２１が「１」であって、入力端末種別５２２が「スマートフォンＡ」の場合には、この環境下で適用されるべきノイズキャンセリング方法のパターンとして蓄積されている処理αを受信した音声データに適用する。また、決定部２２３は、音声データを入力するホールの広さ５２１が「２」であって、入力端末種別が「スマートフォンＢ」の場合には、この環境下で適用されるべきノイズキャンセリング方法のパターンとして蓄積されている処理λを受信した音声データに適用する。このように、蓄積部２２２は、音声データに適用するノイズキャンセリング方法のパターンと、環境情報としてのホールの広さ５２１と入力端末種別５２２との対応関係を蓄積する。決定部２２３は、受信したスマートフォン２１０の環境情報および音声データに対して適用すべき最適なノイズキャンセリング方法のパターンを選択して、決定することができる。

図５Ｃを用いて、テーブル５４０について説明する。テーブル５４０は、背景音の種類５４１と、ノイズキャンセリング方法５４２との対応関係を蓄積するテーブルである。背景音の種類５４１は、車両の走行音、緊急車両、鉄道の通過音、踏切、工事現場、喫茶店、...ｎに分けられ、これらの音（背景音）を環境ノイズとしてパターン化する。そして、これらの背景音は、天候、時間などに応じてさらに細分化してパターン化してもよい。なお、背景音の種類５４１は、位置情報に紐付けてあらかじめ登録されているものとする。そして、これらの音と同様の環境の音か否かの選択は、例えば、音の高さ、大きさ、周波数に応じて選択的に決定する。処理方法５４２は、処理１、処理２、...処理ｎである。

決定部２２３は、音声データを入力する背景音の種類５４１が「車両の走行音」の場合に、この環境下で適用されるべきノイズキャンセリング方法５４２として処理１を適用する。背景音の種類５４１が「鉄道の通過音」に関する処理方法５４２としては、処理方法３を適用する。蓄積部２２２は、このように音声データを入力する環境と、この環境下で適用すべきノイズキャンセリング方法とを対応付けて蓄積する。そして、決定部２２３は、受信したスマートフォン２１０の環境情報および音声データに対して適用すべきノイズキャンセリング方法５４２を、蓄積部２２２に蓄積されたノイズキャンセリング方法から選択し、決定することができる。このノイズキャンセリング方法５４２としては、会議への参加者のうち、招いた側と招かれた側とからそれぞれ音声の感度についての評価を取得して、ナレッジとして蓄積部２２２に蓄積する。さらに、例えば、クラウドサーバ２２０は、「もう一度お願いします。」や、「音が聞こえないから、１回切るね。」などのキーワードを発せられた会議の行なわれた場所、時間、天候などの環境情報、および位置情報を取得して、ナレッジとして蓄積部２２２に蓄積する。そして、クラウドサーバ２２０は、これらの環境情報に対応付けて、音声データの処理方法を蓄積部２２２に蓄積する。

なお、ここでは、図５Ａ〜５Ｃを用いて、環境情報の例および音声処理方法の導出方法を例示したが、本発明はこれに限定されるものではない。環境情報としては、上に挙げたもののほか、スマートフォンのユーザ（話者など）、時間、季節、および天候などを用いてもよい。これらの情報は、ユーザによりあらかじめ入力されてもよいし、特定のサーバにアクセスすることにより取得してもよい。例えば、ユーザごとに音声処理方法を蓄積して、ユーザの声質に最適な音声処理方法を決定してもよい。あるいは、ユーザデータベースから取得したユーザの年齢に応じた出力音声の高さを蓄積して、例えば、年齢が高い程、高周波の音を聴取し難くなる傾向があることから出力音声を低くするなどの工夫を施してもよい。または、聞き手のユーザの好みに応じた音声処理を施してもよい。スマートフォン２１０とスマートフォン２３０とで上記の環境情報が異なる場合には、クラウドサーバ２２０の音声処理部２２４は、スマートフォン２１０から入力した音声データと、スマートフォン２３０から入力した音声データとに対して、異なる音声処理を施すことになる。

（クラウドサーバのハードウェア構成）
本実施形態に係る情報処理システムにおけるクラウドサーバ２２０のハードウェア構成について、図６を用いて説明する。

サーバ２２０は、ＣＰＵ（Central Processing Unit）６１０、ＲＯＭ（Read Only Memory）６２０、通信制御部６３０、ＲＡＭ（Random Access Memory）６４０、およびストレージ６５０を備えている。ＣＰＵ６１０は中央処理部であって、様々なプログラムを実行することによりサーバ２２０全体を制御する。ＲＯＭ６２０は、リードオンリメモリであり、ＣＰＵ６１０が最初に実行すべきブートプログラムの他、各種パラメータ等を記憶している。また、ＲＡＭ６４０は、ランダムアクセスメモリであり、各種データを一時記憶している。各種データとして、受信音声データ６４１と、環境データ６４２と、送信音声６４４とを記憶する。一方、ストレージ６５０は、データベース６５１およびプログラム６５２を記憶している。データベース６５１は図５Ａに示すテーブル５００と、図５Ｂに示すテーブル５２０と、図５Ｃに示すテーブル５４０とを含む。また、プログラム６５２は、選択モジュール６５３と、音声処理モジュール６５４と、音声品質判定モジュール６５５と、ノイズ判別モジュール６５６とを有する。さらに、通信制御部６３０は、スマートフォン２１０およびスマートフォン２３０とのネットワークを介した通信を制御する。

受信音声データ６４１は、スマートフォン２１０のマイク４１１から入力された話者の音声や背景音である。環境データ６４２は、環境情報送信部４１７から送信された、スマートフォン２１０の存する周囲の環境情報である。具体的には、図５Ａの場所５０１（会議室５０２、ホール５０３、屋外５０４）や、図５Ｂのホールの広さ５２１や、図５Ｃの背景音の種類５４１（車両の走行音、緊急車両、鉄道の通過音、踏切、工事現場など）である。送信音声６４４は、マイク４１１で生成された、背景音の含まれた音声データである。

選択モジュール６５３は、蓄積部２２２に蓄積された音声データのノイズキャンセリング方法として、最適な処理方法を選択して決定する。そして、音声処理モジュール６５４は、最適な処理方法として決定されたノイズキャンセリング方法を実行する。音声品質判定モジュール６５５は、受信部２２１で受信した音声データの音声品質を一定の閾値以上であるか否か判定する。ノイズ判別モジュール６５６は、受信部２２１で受信した音声データに含まれるノイズを判別する。なお、ノイズとは、会議における話者の音声およびこれに付随する情報以外の不要な音および情報のことである。

（サーバで行なう処理の流れ）
図７は、クラウドサーバ２２０の手続きの処理の流れを示すフローチャートである。まずスマートフォン２１０において、クラウドサーバ２２０にあるテレビ会議や音声録音などのアプリケーションを起動することにより、図７のフローは開始される。その状態で、スマートフォン２１０は、クラウドサーバ２２０にて動作しているアプリケーションに音声データを送信する。

ステップＳ７０１において、受信部２２１は、音声データの入力を受け付ける。次に、ステップＳ７０３において、音質判定部（不図示）は、受信した音声データの音質を判定する。具体的には、音声部分について会話中の内容やチャットや環境騒音、明瞭度などを分析して、音声品質が悪い部分などを自動で識別する。

ステップＳ７０５において、音質判定部は、音質が所定の音質以上であれば、ステップＳ７１５に進む。一方、あらかじめ設定してある閾値以下の音声品質の場合には、ステップＳ７０７に進み、受信部２２１は、スマートフォン２１０の環境情報送信部２１３から送信された環境情報を取得する。つまり、過去の履歴の中から現在の状況にあった設定値を用いる。スマートフォン２１０に対して「音声品質が低下しています。過去の成功履歴の設定値を使用しますか。」の表示を行って、接続方法を提案してもよい。なお、この接続方法の提案について、クラウドサーバ２２０は、スマートフォン２１０の画面上に接続方法を通知するだけではなく、スマートフォン２１０の振動（バイブレーション）機能を利用して、利用者に通知してもよい。

さらに、クラウドサーバ２２０は、音質向上のための文字または振動による提案通知を、音声入力または音声出力に用いられているスマートフォン２３０に送信するだけでなく、あらかじめクラウドサーバに送信された会議への参加者情報に基づいて他の参加者のスマートフォンなどの携帯電話機に対して行なってもよい。これにより、スマートフォン２３０のユーザにおいて音質向上の提案通知に対応できない状況であっても、他の参加者を介して会議の音質向上を図ることが可能である。

ステップＳ７０９において、音声処理部２２４は、蓄積部２２２に蓄積された環境情報とノイズキャンセリング方法との対応関係に基づいて、受信した環境情報に適用すべきノイズキャンセリング方法を選択する。次に、ステップＳ７１１において、音声処理部２２４は、選択したノイズキャンセリング方法を、受信した音声データに適用することを決定する。ステップＳ７１３において、音声処理部２２４は、受信した音声データに、決定したノイズキャンセリング方法を施して音質を向上させた音声データを生成する。

ステップＳ７１５において、処理結果送信部２２５は、音声データをスマートフォン２３０に送信する。ステップＳ７１７において、受信部２２１は、スマートフォン２３０から送信された音声データに対する評価結果を受信する。ステップＳ７１９において、蓄積部２２２は、受信した評価結果に基づいて、環境情報と音声データの処理方法との対応関係を更新して蓄積する。

以上の構成および動作により、本実施形態における情報処理システムは、サーバの蓄積情報を用いて音声処理方法を決定するので、蓄積した情報を用いて、環境に適応した音声処理を施すことができる。これにより、音声会議において専用のハードウェアを持ち込んで、エコーキャンセルなどの学習をして、エコーの低減を実施する必要がなくなる。ハウリングなどで会議の継続が困難になるという問題を根本的に解決できる。本実施形態のように、中継装置にスマートフォンのような携帯電話機を用いることにより、スマートフォン１つで会議への参加が容易になり、設備投資も非常に小さくできる。

［第３実施形態］
次に本発明の第３実施形態に係る情報処理システム８００について、図８を用いて説明する。図８は、本実施形態に係る情報処理システム８００の構成を説明するためのブロック図である。本実施形態に係る情報処理システム８００は、上記第２実施形態と比べると、スマートフォン８１０および８３０において受信部８１５または８３５を有し、情報処理システム８００は、スマートフォン８３０の外部Ｉ／Ｆ８３４（ＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（High-Definition Multimedia Interface）、無線ＬＡＮ（Local Area Network）など）に接続されたディスプレイ８５０を有する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

情報処理システム８００によれば、クラウドサーバ８２０を用いて、リアルタイムでスマートフォン８１０から受信した音声データをテキスト化したテキストデータを生成することが可能である。これにより、スマートフォンの表示部やディスプレイにテキストデータを表示することが可能となり、音声データを聴取できない場合や、難聴者や、電話会議にオブザーバー参加している者や、会議室に遅れて参加する者なども情報を共有することが可能である。

さらに、情報処理システム８００によれば、生成したテキストデータを用いて、音声を合成して合成音声を生成することが可能であり、翻訳した合成音声の生成も可能である。クラウドサーバ８２０は、音声の母音と子音分析などでテキスト化したあと、そのテキストと話者の音節チャートからリアルタイムに音声合成を行ない、明瞭な音声を提供してもよい。クラウドサーバ８２０には、ふんだんな演算能力があるので、サービスレベルに合わせて、最高レベルの音声処理を施してもよい。例えば、携帯ではもてない数秒や数十秒までの時間のエコーキャンセルと数マイクロ秒単位での背景音キャンセルや音声整形の同時提供を行なってもよい。エコーが無い音にして、会話者の音に同期させて合成配布してもよい。またクラウドサーバ８２０の強力な処理性能を利用して、長い時間のエコーキャンセルを実行してもよい。そうすれば、遠端のエコーを全く考慮しなくてよいので、その状態を会議音としてミキシングをかけてもよい。ミキシング数は、契約者のサービスレベルに合わせて、数十名など、携帯電話機やタブレットのＣＰＵでは不可能なレベルを提供することができる。

クラウドサーバ８２０のテキスト生成部８２６は、受信部２２１で受信した音声データからリアルタイムでテキストデータを生成する。テキスト生成部８２６は、広域測位機能（不図示）を用いてスマートフォン８１０の現在位置を取得すると、緯度経度に合わせた言語（英語、中国語など）を自動的に選択して翻訳してもよい。また、ユーザの使用言語と、テキストデータの言語とを選択可能に表示したり、いずれも表示したりしてもよい。処理結果送信部８２５は、テキストデータをスマートフォン８３０に送信する。スマートフォン８３０の受信部８３５は、受信したテキストデータを表示部（不図示）に表示する。また、処理結果送信部８２５は、ディスプレイ８５０にテキストデータを送信する。ディスプレイ８５０は、表示部８５１に送信されたテキストデータを表示する。

なお、音声処理部２２４は、受信部２２１で受信した音声データを声紋解析することより、蓄積部２２２に蓄積された話者データベース（不図示）に同一の声紋が存するか否か検索し、同一の声紋を検出すると、話者を特定する。そして、音声処理部２２４は、受信した音声データから生成したテキストデータに、特定した話者による発話であることを表示することが可能である。

また、音声処理部２２４は、スマートフォン８１０から受信した音声データからテキストデータを生成すると共に、このテキストデータに基づいて音声を合成して合成音声データを生成することが可能である。さらに、音声処理部２２４は、生成したテキストデータを、ユーザによる選択に応じてリアルタイムで翻訳した音声を合成して音声データを生成してもよい。

図９は、クラウドサーバ８２０におけるテキストデータ生成処理の流れを示すフローチャートである。

ステップＳ９０１において、音声処理部２２４は、スマートフォン８１０または８３０からテキストデータの要求を受け付けたか否か確認する。テキストデータの要求を受けていない場合には、処理を終了する。一方、テキストデータの要求を受けた場合は、ステップＳ９０３に進み、音声処理部２２４は、テキスト化を行なう言語を、スマートフォン８１０または８３０の位置情報から選択する。ステップＳ９０５において、音声処理部２２４は、テキストデータを生成する。

以上説明したとおり、本実施形態によれば、テレビ会議や講演、インタビュー、音声チャット、音声同報、音声放送などを実施した際に、録音した音声を人が書き起こして議事録を作成する手間がなくなり、大幅に業務の効率化を達成することができる。

［他の実施形態］
以上、本願発明について上記各実施形態を用いて説明したが、本願発明は上記実施形態に限定されるものではない。例えば、スマートフォンに備えられたマイクはモノラルマイクに限られるものではなく、ステレオマイクであってもよい。スマートフォンは、自機の周辺に存在する騒音源を判定する騒音源判定部を有し、騒音源を判定するとクラウドサーバに騒音源の位置を送信する。クラウドサーバは、受信した騒音源とスマートフォンとの位置関係および蓄積部に蓄積された過去の蓄積情報に基づいて、スマートフォンの利用環境に最適な、位相方向のノイズ（騒音）だけを削除する。

また、例えば、クラウドサーバにおいてハウリングを検出した場合に、クラウドサーバはスマートフォンのマイク感度が高いと判定する。この場合において、クラウドサーバの処理結果送信部からスマートフォンに対してマイク感度を下げる指示を送信する。そして、スマートフォンにおいてマイク感度を下げられたことを検知すると、クラウドサーバは、蓄積部に蓄積された過去の環境情報に基づいて、ハウリングが生じない範囲までマイク感度を上げる。これにより、クラウドサーバは、会議の行なわれている環境においてハウリングが生じず、かつ、明瞭な音質を得られるように音質の最適化を図り、クラウドサーバの演算とスマートフォンのＩ／Ｏ制御とを連動させる。

例えば、スマートフォンのＵＳＢポートにＵＳＢマイクを繋いで会議を開いた場合において、クラウドサーバは、スマートフォンに接続されたＵＳＢマイクと、このＵＳＢマイクが用いられた環境情報とを蓄積する。そしてさらに、クラウドサーバは、ＵＳＢマイクを用いた会議の利用者から得られた会議における音質についての評価を環境情報と対応付けて蓄積する。例えば、会議終了後に、利用者に対して会議における音質についてのアンケートを実施して、音質（出力音声）に対する評価を受け付けると、クラウドサーバは、この評価と会議の環境情報とを対応付けて蓄積部に蓄積し、次回の会議に反映させる。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

Claims

携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、
前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、
前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、
前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、
を備え、
前記蓄積手段は、前記情報出力装置から受信した、前記処理結果送信手段より送信された前記音声処理の結果についての評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新することを特徴とするサーバ。
前記決定手段は、さらに、前記音声データの音質を判定して、所定の音質以下の場合に、音声処理を施すことを決定することを特徴とする請求項１に記載のサーバ。
前記蓄積手段は、前記環境情報とノイズキャンセリング方法との対応関係を蓄積し、
前記決定手段は、前記蓄積手段を参照して、前記携帯端末から受信した前記環境情報に基づいてノイズキャンセリング方法を決定し、
前記音声処理手段は、受信した前記音声データに前記決定されたノイズキャンセリング方法を適用することを特徴とする請求項１または２に記載のサーバ。
前記環境情報は、前記携帯端末の種類、前記携帯端末に対して音声を入力した話者、該音声を入力した場所、背景音の種類、背景音の音量、時間、季節、および天候の少なくともいずれか一つを含むことを特徴とする請求項１ないし３のいずれか１項に記載のサーバ。
前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化してテキストデータを生成し、
前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力することを特徴とする請求項１ないし４のいずれか１項に記載のサーバ。
前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化した上で翻訳することによりテキストデータを生成し、
前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力することを特徴とする請求項１ないし５のいずれか１項に記載のサーバ。
前記音声処理手段は、前記テキストデータに基づいて音声を合成して合成音声データを生成し、
前記処理結果送信手段は、前記合成音声データを前記情報出力装置に出力することを特徴とする請求項５または６に記載のサーバ。
前記音声処理手段は、前記受信手段で受信した前記音声データを声紋解析することにより話者との対応付けを行ない、
前記処理結果送信手段は、処理結果として、前記話者を特定する情報を送信することを特徴とする請求項１ないし７のいずれか１項に記載のサーバ。
携帯端末と接続可能なサーバの制御方法であって、
前記携帯端末から音声データと音声を入力した環境に関する環境情報とを受信する受信ステップと、
蓄積手段に蓄積された前記環境情報と音声データの処理方法との対応関係を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
を備え、
さらに、前記情報出力装置から受信した、前記処理結果送信ステップで送信した前記音声処理の結果についての評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新するステップを含むことを特徴とするサーバの制御方法。
携帯端末と接続可能なサーバの制御プログラムであって、
前記携帯端末から音声データと音声を入力した環境に関する環境情報とを受信する受信ステップと、
蓄積手段に蓄積された前記環境情報と音声データの処理方法との対応関係を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
を備え、
さらに、前記情報出力装置から受信した、前記処理結果送信ステップで送信した前記音声処理の結果についての評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新するステップを含むことを特徴とするサーバの制御プログラム。
携帯端末と情報出力装置とサーバとを含む情報処理システムであって、
前記携帯端末は、
音声を入力して音声データを生成する音声入力手段と、
前記音声データを前記サーバに送信する音声送信手段と、
前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信手段と、
を備え、
前記サーバは、
前記携帯端末から前記音声データと前記環境情報とを受信する受信手段と、
前記環境情報と前記音声データの処理方法との対応関係を蓄積する蓄積手段と、
前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を施す音声処理手段と、
前記音声処理手段による前記音声処理の結果を前記情報出力装置に送信する処理結果送信手段と、
を備え、
前記情報出力装置は、前記サーバから受信した前記音声処理の結果を出力する出力手段と、
前記サーバから受信した前記音声処理の結果を評価する評価手段と、
前記評価手段での評価結果を前記サーバに送信する評価結果送信手段と、
を備え、
前記蓄積手段は、前記情報出力装置から受信した前記評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新することを特徴とする情報処理システム。
前記決定手段は、さらに、前記音声データの音質を判定して、所定の音質以下の場合に、音声処理を施すことを決定することを特徴とする請求項１１に記載の情報処理システム。
前記蓄積手段は、前記環境情報とノイズキャンセリング方法との対応関係を蓄積し、
前記決定手段は、前記蓄積手段を参照して、前記携帯端末から受信した前記環境情報に基づいてノイズキャンセリング方法を決定し、
前記音声処理手段は、決定されたノイズキャンセリング方法を受信した前記音声データに適用することを特徴とする請求項１１または１２に記載の情報処理システム。
前記環境情報は、前記携帯端末の種類、前記携帯端末に対して音声を入力した話者、該音声を入力した場所、背景音の種類、背景音の音量、時間、季節、および天候の少なくともいずれか一つを含むことを特徴とする請求項１１ないし１３のいずれか１項に記載の情報処理システム。
前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化してテキストデータを生成し、
前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力し、
前記情報出力装置は、前記サーバから受信した前記テキストデータを表示することを特徴とする請求項１１ないし１４のいずれか１項に記載の情報処理システム。
前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化した上で翻訳することによりテキストデータを生成し、
前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力し、
前記情報出力装置は、前記サーバから受信した前記テキストデータを表示することを特徴とする請求項１１ないし１５のいずれか１項に記載の情報処理システム。
前記音声処理手段は、前記テキストデータに基づいて音声を合成して合成音声データを生成し、
前記処理結果送信手段は、前記合成音声データを前記情報出力装置に出力することを特徴とする請求項１５または１６に記載の情報処理システム。
前記音声処理手段は、前記受信手段で受信した前記音声データを声紋解析することにより話者との対応付けを行ない、
前記処理結果送信手段は、処理結果として、前記話者を特定する情報を送信することを特徴とする請求項１１ないし１７のいずれか１項に記載の情報処理システム。
携帯端末と情報出力装置とサーバとを用いた情報処理方法であって、
前記携帯端末が、音声を入力して音声データを生成する音声入力ステップと、
前記携帯端末が、前記音声データを前記サーバに送信する音声送信ステップと、
前記携帯端末が、前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
前記サーバが、前記携帯端末から前記音声データと前記環境情報とを受信する受信ステップと、
前記サーバが、前記環境情報と前記音声データの処理方法との対応関係を蓄積した蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
前記サーバが、決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を施す音声処理ステップと、
前記サーバが、前記音声処理の結果を前記情報出力装置に送信する処理結果送信ステップと、
前記情報出力装置が、前記サーバから受信した前記音声処理の結果を出力する出力ステップと、
前記情報出力装置が、前記サーバから受信した前記音声処理の結果を評価する評価ステップと、
前記情報出力装置が、前記評価ステップでの評価結果を前記サーバに送信する評価結果送信ステップと、
を含み、
さらに、前記サーバが前記情報出力装置から受信した前記評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新するステップを含むことを特徴とする情報処理方法。