JP6849054B2

JP6849054B2 - 会話装置、音声処理システム、音声処理方法、および音声処理プログラム

Info

Publication number: JP6849054B2
Application number: JP2019505658A
Authority: JP
Inventors: 未輝雄村松
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2021-03-24
Anticipated expiration: 2037-03-17
Also published as: JPWO2018167960A1; WO2018167960A1; US20190385589A1; US11398220B2

Description

本発明の一実施形態は、音声を処理する会話装置、音声処理システム、音声処理方法、および音声処理プログラムに関する。

特許文献１の音声処理装置は、ガイダンス音声の言語を選択して、選択した言語に対応するフィルタで、前記ガイダンス音声を処理する構成が開示されている。

特開２００９−２１０８６８号公報

特許文献１の音声処理装置は、ガイダンス音声を処理するだけである。しかし、例えばネットワークを介して遠隔地間で会話を行なう場合には、近端側の利用者が聞きやすい音質に調整する、または遠端側の利用者が聞きやすい音質に調整する必要がある。

本発明の一実施形態の目的は、遠端側との会話を行なう音声処理装置において、使用言語に応じた適切な処理を行なう音声処理装置、音声処理システム、音声処理方法、および音声処理プログラムに関する。

本発明の一実施形態に係る音声処理装置は、言語判定部と、信号処理部と、通信部と、を備えている。言語判定部は、言語判定を行なう。信号処理部は、前記言語判定部が判定した言語に応じて信号処理を行い、前記通信部は、前記信号処理部で信号処理された後の音声を遠端側に送信する、または、前記通信部は、遠端側から音声を受信し、前記信号処理部に入力する。

本発明の一実施形態によれば、遠端側との会話を行なう音声処理装置において、使用言語に応じた適切な処理を行なうことができる。

音声処理システムの構成を示す図である。音声処理装置の構成を示すブロック図である。音声処理装置の機能的構成を示すブロック図である。音声処理装置の動作を示すフローチャートである。音声処理装置の動作を示すフローチャートである。言語判定として、使用言語および母国語の判定を行なう例を示す図である。音声処理装置の動作を示すフローチャートである。音声処理装置の動作を示すフローチャートである。ユーザＩ／Ｆを介して母国語を判定する場合の音声処理装置の機能的構成を示すブロック図である。ＰＣを介してネットワークに接続する場合の音声処理システムの構成を示す図である。ＰＣを介してネットワークに接続する場合の音声処理装置の機能的構成を示すブロック図である。同じ環境において、複数の利用者が音声会議装置を利用する場合の音声処理装置１Ａの構成を示すブロック図である。

図１は、本実施形態に係る音声処理システムの構成を示す図である。音声処理システムは、ネットワーク２を介して接続される音声処理装置１および音声処理装置３を備えている。

音声処理装置１は、第１の地点に設置されている。音声処理装置３は、第２の地点に設定されている。すなわち、音声処理装置１および音声処理装置３は、互いに遠隔地に設置されている。

図２は、音声処理装置１の構成を示すブロック図である。なお、音声処理装置１および音声処理装置３は、同じ構成および同じ機能を有する。

音声処理装置１は、通信部１１、ＣＰＵ１２、ＲＡＭ１３、メモリ１４、マイク１５、スピーカ１６、およびユーザインタフェース（Ｉ／Ｆ）１７を備えている。

ＣＰＵ１２は、記憶媒体であるメモリ１４からプログラムを読み出し、ＲＡＭ１３に一時記憶することで、種々の動作を行う。例えば、ＣＰＵ１２は、使用言語の判定処理、フィルタの生成処理、および信号処理を行なう。信号処理は、例えばバンドパスフィルタ処理である。

メモリ１４は、フラッシュメモリまたはハードディスクドライブ（ＨＤＤ）等からなる。メモリ１４は、上記のようにＣＰＵ１２の動作用プログラムを記憶している。

ユーザＩ／Ｆ１７は、利用者からの操作を受け付ける。利用者から受け付ける操作は、例えば音量の調整等である。

マイク１５は、話者の音声を取得する。マイク１５は、取得した音声に係る音声信号をＣＰＵ１２に出力する。ＣＰＵ１２は、マイク１５から入力された音声信号に信号処理を施して、通信部１１に出力する。なお、音声処理装置１は、信号処理の専用プロセッサ（ＤＳＰ：Digital Signal Processor）を備えていてもよい。この場合、ＣＰＵ１２の指示に従って、ＤＳＰが信号処理を行なう。

通信部１１は、ＣＰＵ１２から入力された音声信号を、ネットワークを介して接続された他の音声処理装置（音声処理装置３）に送信する。また、通信部１１は、音声処理装置３から音声信号を受信し、ＣＰＵ１２に出力する。

ＣＰＵ１２は、通信部１１から入力された音声信号に信号処理を施して、スピーカ１６に出力する。

スピーカ１６は、ＣＰＵ１２から入力された音声信号に基づいて、音声を出力する。

以上のようにして、音声処理装置１は、遠隔地に設置された音声処理装置３と音声信号を送受信する。これにより、利用者は、遠隔地間での会話を行なうことができる。

さらに、音声処理装置１は、言語判定を行ない、判定した言語に応じて、信号処理を行なう。図３は、音声処理装置の機能的構成を示すブロック図である。図４は、送信時に音質調整を行なう場合の音声処理装置１の動作を示すフローチャートである。

音声処理装置１は、ＣＰＵ１２が実行する動作用プログラムにより、言語判定部１２１、フィルタ生成部１２２、および信号処理部１２３を構成する。

言語判定部１２１は、マイク１５から音声信号を入力する。言語判定部１２１は、入力された音声信号に基づいて、言語判定を行なう（Ｓ１１）。ここでは、言語判定部１２１は、使用言語を判定する。言語判定は、例えば音声認識処理により行なわれる。なお、音声認識処理による言語判定は、入力された音声信号から音声特徴量を抽出して、最も音声特徴量が類似する言語を推定する、等の推定処理である。したがって、本実施形態において判定とは推定を含む概念である。

フィルタ生成部１２２は、言語判定部１２１で判定した言語に応じたパラメータとして、判定した言語を強調するためのフィルタ係数を生成する（Ｓ１２）。各国の言語には、それぞれ聞きやすさに影響する周波数帯域がある。例えば、日本語は、１２５Ｈｚから１５００Ｈｚの帯域が重要であり、当該周波数帯域を通過させ、他の帯域のレベルを抑えることで、聞きやすい日本語とすることができる。また、例えば、英語は、２０００Ｈｚから１２０００Ｈｚまでの帯域が重要であり、当該周波数帯域を通過させ、他の帯域のレベルを抑えることで、聞きやすい英語とすることができる。

フィルタ生成部１２２は、生成した周波数特性を有するフィルタ係数を信号処理部１２３に出力する。信号処理部１２３は、第１音質調整部１５１および第２音質調整部１５２を備えている。第１音質調整部１５１および第２音質調整部１５２は、例えばＦＩＲフィルタ等のデジタルフィルタである。第１音質調整部１５１および第２音質調整部１５２は、フィルタ生成部１２２から入力されたフィルタ係数を設定して、信号処理として、周波数特性の調整を行なう。

第１音質調整部１５１は、マイクから入力される音声信号を処理する（Ｓ１３）。通信部１１は、信号処理が施された後の音声信号を遠端側に送信する（Ｓ１４）。これにより、近端側の利用者が発した言語に応じて適切な音質調整がなされ、遠端側の音声処理装置３で放音される。そのため、遠端側の利用者にとって聞きやすい音質に調整される。

図５は、受信時に音質調整を行なう場合の音声処理装置１の動作を示すフローチャートである。まず、通信部１１は、遠端側から音声信号を受信する（Ｓ２１）。言語判定部１２１は、言語判定を行なう（Ｓ２２）。ここでは、言語判定部１２１は、マイク１５から入力された音声信号に基づいて、言語判定を行なう例を示すが、遠端側から受信した音声信号に基づいて、言語判定を行なってもよい。ただし、マイク１５から入力された音声信号に基づいて言語判定を行なう場合には、遠端側の利用者が発した音声は、近端側の言語に応じて適切な音質調整がなされるため、近端側の利用者にとって聞きやすい音質に調整される。

次に、フィルタ生成部１２２は、言語判定部１２１で判定した言語に応じて、判定した言語を強調するためのフィルタ係数を生成する（Ｓ２３）。第２音質調整部１５２は、遠端側から受信した音声信号を処理する（Ｓ２４）。

これにより、遠端側の利用者が発した音声は、近端側の言語に応じて適切な音質調整がなされ、遠端側の音声処理装置３で放音される。そのため、近端側の利用者にとって聞きやすい音質に調整される。

上記では、送信側で音質調整を行なう、または受信側で音質調整を行なう例を示したが、無論、送信側で音質調整を行ない、かつ受信側で音質調整を行なってもよい。また、近端側の音声処理装置１では言語判定だけを行ない、遠端側の音声処理装置３においては近端側で判定した言語に応じた音質調整を行なってもよい。あるいは、近端側の音声処理装置１では言語判定およびフィルタ係数の生成を行ない、遠端側の音声処理装置３においては近端側で生成したフィルタ係数に応じた音質調整を行なってもよい。

以上の様にして、遠端側との会話を行なう音声処理装置において、使用言語に応じた適切な処理を行なうことができる。例えば、会話中に使用言語が変化した場合にも、言語判定部１２１がリアルタイムに使用言語を判定し、適切なフィルタ係数が生成される。

図６は、言語判定として、使用言語および母国語の判定を行なう例を示す図である。図７は、送信時に音質調整を行なう場合の音声処理装置１の動作を示すフローチャートであり、図８は、受信時に音質調整を行なう場合の音声処理装置１の動作を示すフローチャートである。この場合、言語判定部１２１は、マイク１５の音声信号に基づいて、使用言語および母国語の判定を行なう（Ｓ１０１）。

使用言語は、上述と同様に、例えば、音声認識処理により行なわれる。母国語は、例えば通信部１１で利用されるＩＰアドレスに基づいて判定する。すなわち、言語判定部１２１は、通信部１１で利用されるＩＰアドレスに対応する所在地に基づいて母国語の判定を行なう。言語判定部１２１は、ＩＰアドレスに対応する所在地が日本であれば、母国語を日本語であると判定する。また、カメラで顔画像を撮影し、顔認識により母国語を判定することも可能である。例えば、言語判定部１２１は、各国の人の顔画像をデータベースとして予め記憶しておく。言語判定部１２１は、カメラで撮影した顔画像と、データベースの顔画像とを対比して、顔画像の特徴量から、最も近い国の顔画像を特定し、母国語を判定する。

あるいは、図９に示すように、ユーザＩ／Ｆ１７を介して、利用者から母国語の指定入力を受け付けることで判定してもよい。または、音声処理装置１で使用する言語（例えば音声処理装置１に表示部が設けられている場合には、当該表示部に表示する言語）に応じて、母国語の判定を行なう。

フィルタ生成部１２２は、言語判定部１２１で判定した母国語および使用言語に応じたフィルタ係数（例えばバンドパスフィルタ処理のフィルタ係数）を生成する（Ｓ１０２）。例えば、母国語が日本語であり、使用言語が英語であると判定した場合、日本語の帯域である１２５Ｈｚから１５００Ｈｚを通過帯域とするフィルタ係数と、かつ英語の帯域である２０００Ｈｚから１２０００Ｈｚを通過帯域とするフィルタ係数と、を重畳したフィルタ係数を生成する。

これにより、例えば日本語を母国語として、英語を使用言語とする場合には、日本語の帯域である１２５Ｈｚから１５００Ｈｚと、英語の帯域である２０００Ｈｚから１２０００Ｈｚと、が強調された音質になる。したがって、日本語を母国語とする利用者が話した英語を、聞きやすい音質に調整することができる。

一方、図８に示すように、音声処理装置１は、遠端側から音声信号を受信する（Ｓ２０１）。言語判定部１２１は、使用言語および母国語の判定を行なう（Ｓ２０２）。フィルタ生成部１２２は、言語判定部１２１で判定した使用言語および母国語に応じたバンドパスフィルタのフィルタ係数を生成する（Ｓ２０３）。第２音質調整部１５２は、遠端側から受信した音声信号を処理する（Ｓ２０４）。

この場合も、例えば日本語を母国語として、英語を使用言語とする場合には、日本語の帯域である１２５Ｈｚから１５００Ｈｚと、英語の帯域である２０００Ｈｚから１２０００Ｈｚと、が強調された音質になる。したがって、日本語を母国語とする人にとって聞きやすい英語の音質に調整することができる。

さらに、送信側および受信側の両方において、上記の信号処理を行なうことで、送信側および受信側の双方において、聞きやすい音質に調整することができる。例えば、音声処理装置１の利用者の母国語が日本語であり、音声処理装置３の利用者の母国語がフランス語であり、使用言語が英語である場合、母国語が日本語の利用者（音声処理装置１の利用者）の英語が、母国語がフランス語の利用者（音声処理装置３の利用者）にとって聞きやすい英語の音質に調整される。

上述の例では、音声処理装置１がネットワーク２に接続する態様を示したが、音声処理装置１は、例えば図１０に示すように情報処理装置であるＰＣ（Personal Computer）を介してネットワークに接続してもよい。

この場合、図１１に示すように、言語判定部１２１は、ＰＣから取得する情報に基づいて、言語判定を行なってもよい。例えば、言語判定部１２１は、ＰＣに搭載されているＯＳで使用する言語を母国語として判定する。また、言語判定部１２１は、ＰＣで利用されるＩＰアドレスに対応する所在地に基づいて母国語の判定を行なってもよい。

図１２は、同じ環境において、複数の利用者が音声会議装置を利用する場合の音声処理装置１Ａの構成を示すブロック図である。

音声処理装置１Ａは、複数のマイク（図１２の例では２つのマイク１５Ａおよびマイク１５Ｂ）と、複数のスピーカ（図１２では２つのスピーカ１６Ａおよびスピーカ１６Ｂ）と、を備えている。

音声処理装置１Ａは、マイク毎およびスピーカ毎にそれぞれ個別に音質調整を行なう。このため、信号処理部１２３は、第３音質調整部１５３および第４音質調整部１５４をさらに備えている。

利用者は、ユーザＩ／Ｆ１７を用いて母国語の設定入力を行なう。例えば、マイク１５Ａを利用する利用者は、母国語を日本語に設定し、マイク１５Ｂおよびスピーカ１６Ｂを利用する利用者は、母国語をフランス語に設定する。使用言語は、例えば英語が判定されたものとする。

フィルタ生成部１２２は、第１音質調整部１５１および第２音質調整部１５２に対しては、日本語の帯域である１２５Ｈｚから１５００Ｈｚと、英語の帯域である２０００Ｈｚから１２０００Ｈｚと、が強調された音質になるように、フィルタ係数を生成する。また、フィルタ生成部１２２は、第３音質調整部１５３および第４音質調整部１５４に対しては、フランス語の帯域である１２５Ｈｚから２０００Ｈｚと、英語の帯域である２０００Ｈｚから１２０００Ｈｚと、が強調された音質になるように、フィルタ係数を生成する。

これにより、マイク１５Ａおよびスピーカ１６Ａの利用者にとっては、日本語を母国語とする人にとって聞きやすい英語の音質に調整することができる。また、マイク１５Ｂおよびスピーカ１６Ｂの利用者にとっては、フランス語を母国語とする人にとって聞きやすい英語の音質に調整することができる。すなわち、同じ環境下に母国語が異なる利用者がいる場合であっても、それぞれの利用者に適した言語に音質調整がなされる。

最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

例えば、本実施形態では、信号処理の一例として、バンドパスフィルタ処理を示したが、音声処理装置は、他の信号処理を用いてもよい。話速変換処理も、本発明における信号処理の一例である。音声処理装置は、母国語と使用言語が異なる場合には、話速を低下させる処理を行なうことで、聞きやすさを向上させる。この場合、音声処理装置は、母国語および使用言語の組み合わせに話速（パラメータ）を対応付けておき、判定した母国語および使用言語に対応するパラメータを読み出して、話速変換処理を行ってもよい。また、フィルタ処理は、バンドパスフィルタ処理に限るものではない。例えば、残響音等の間接音を低減するフィルタ処理、またはノイズ除去処理等もフィルタ処理の一例である。音声処理装置は、母国語と使用言語が異なる場合には、間接音およびノイズ音を低減するフィルタ処理を行なうことで、聞きやすさを向上させる。

１，１Ａ，３…音声処理装置
２…ネットワーク
５…ＰＣ
１１…通信部
１２…ＣＰＵ
１３…ＲＡＭ
１４…メモリ
１５…マイク
１６…スピーカ
１２１…言語判定部
１２２…フィルタ生成部
１２３…信号処理部
１５１…第１音質調整部
１５２…第２音質調整部

Claims

音声を収音する収音部と、
前記収音部で収音した音声の言語判定を行なう言語判定部と、
前記言語判定部が判定した言語に応じて信号処理を行う信号処理部と、
前記信号処理部で信号処理された後の音声を遠端側に送信し、また、前記遠端側の音声を受信する、通信部と、
前記通信部で受信した前記遠端側の音声を放音する放音部と、
を備え、
前記言語判定部は、母国語および使用言語を判定し、
前記信号処理部は、前記言語判定部が判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで、前記信号処理を行なう、
会話装置。
音声を収音する収音部と、
前記収音部で収音された音声を遠端側に送信し、また、遠端側の音声を受信する、通信部と、
受信した前記遠端側の音声の言語判定を行なう言語判定部と、
前記遠端側の音声に、前記言語判定部で判定した言語に応じて、信号処理する信号処理部と、
前記信号処理部で信号処理された前記遠端側の音声を放音する放音部と、
を備え、
前記言語判定部は、母国語および使用言語を判定し、
前記信号処理部は、前記言語判定部が判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで、前記信号処理を行なう、
会話装置。
前記信号処理は、前記言語判定部で判定された母国語および使用言語を強調する処理である、
請求項１または請求項２に記載の会話装置。
前記パラメータは、前記信号処理部がフィルタ処理を行なうために用いるフィルタ係数である、
請求項１乃至請求項３のいずれかに記載の会話装置。
前記フィルタ処理は、バンドパスフィルタ処理である、
請求項４に記載の会話装置。
前記言語判定部は、音声認識処理により前記言語判定を行なう、
請求項１乃至請求項５のいずれかに記載の会話装置。
前記言語判定部は、前記通信部で利用されるＩＰアドレスに基づいて前記言語判定を行なう、
請求項１乃至請求項５のいずれかに記載の会話装置。
前記言語判定部は、請求項１乃至請求項７のいずれかに記載の会話装置、または該会話装置とともに用いられる情報処理装置で使用されている言語に基づいて前記言語判定を行なう、
請求項１乃至請求項７のいずれかに記載の会話装置。
請求項１乃至請求項８のいずれかに記載の会話装置を複数備えた、
音声処理システム。
音声を収音し、
収音した音声の母国語および使用言語の言語判定を行ない、
判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行い、
信号処理された後の音声を遠端側に送信する、
第１の音声処理と、
遠端側から音声を受信し、
受信した音声の母国語および使用言語の言語判定を行ない、
受信した音声を、判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行ない、
信号処理された前記遠端側の音声を放音する、
第２の音声処理と、
の少なくともいずれかを、会話装置が実行する、音声処理方法。
音声を収音し、
収音した音声の母国語および使用言語の言語判定を行ない、
判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行い、
信号処理された後の音声を遠端側に送信する、
第１の音声処理と、
遠端側から音声を受信して、
受信した音声の母国語および使用言語の言語判定を行ない、
受信した音声を、判定した前記母国語に基づくパラメータおよび前記使用言語に基づくパラメータで信号処理を行い、
信号処理された前記遠端側の音声を放音する、
第２の音声処理と、
の少なくともいずれかを、コンピュータに実行させる、音声処理プログラム。