JP2023114919A

JP2023114919A - 音声処理装置および音声処理方法

Info

Publication number: JP2023114919A
Application number: JP2022017510A
Authority: JP
Inventors: 一成山本; Kazunari Yamamoto
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2023-08-18

Abstract

【課題】発話音声を適切に補正すること。【解決手段】実施形態に係る音声処理装置は、発話者の顔を撮影した画像から発話者が発話に影響がある状態か否かを判定し、発話に影響がある状態であると判定した場合に、発話者の発話音声に対し当該影響に応じた補正処理を行う制御部を備える。【選択図】図２

Description

本発明は、音声処理装置および音声処理方法に関する。

従来、発話者の発話音声を相手が聞き取りやすい音声へ補正する音声処理装置がある。かかる音声処理装置に関する技術として、発話者を撮影した画像を解析し、発話者とマイクとが近接する場合に、マイクで収音された音声に対し補正処理を行う技術が提案されている（例えば、特許文献１参照）。

特開２０２０－１６２１１２号公報

しかしながら、従来技術では、発話音声を適切に補正するうえで更なる改善の余地があった。たとえば、従来技術では、発話者とマイクとの距離に応じて補正を行うに過ぎず、その他の影響については考慮されていなかった。

本発明は、上記に鑑みてなされたものであって、発話音声を適切に補正することができる音声処理装置および音声処理方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声処理装置は、発話者の顔を撮影した画像から前記発話者が発話に影響がある状態か否かを判定し、前記発話に影響がある状態であると判定した場合に、前記発話者の発話音声に対し当該影響に応じた補正処理を行う制御部を備える。

本発明によれば、発話音声を適切に補正することができる。

図１は、音声処理装置の構成例を示す図である。図２は、音声処理方法の概要を示す図である。図３は、音声処理方法の概要を示す図である。図４は、制御部のブロック図である。図５は、補正ファイルの一例を示す図である。図６は、補正領域の一例を示す図である。図７は、音声処理装置が実行する処理手順を示すフローチャートである。

以下、添付図面を参照して、本願の開示する音声処理装置および音声処理方法の実施形態を詳細に説明する。なお、以下に示す実施形態により本発明が限定されるものではない。

まず、図１、図２および図３を用いて、実施形態に係る音声処理装置および音声処理方法の概要について説明する。図１は、音声処理装置の構成例を示す図である。図２および図３は、音声処理方法の概要を示す図である。なお、かかる音声処理方法は、図１に示す音声処理装置１０によって実行される。

図１に示すように、音声処理装置１０は、車両Ｖに搭載される。音声処理装置１０は、乗員の通信端末１００との間で通信連携を行い、通信端末１００による音声通話をサポートするハンズフリー通話を実現するための各種制御を実行する装置である。

たとえば、音声処理装置１０は、通信端末１００から受信した通話音声を車両Ｖに搭載されたスピーカから出力し、車両Ｖに搭載されたマイクで収音した音声信号を通信端末１００へ送信することで、ハンズフリー通話を実現する。

なお、音声処理装置１０は、たとえば、車両Ｖ内の乗員の会話をサポートする、いわゆるＩＣＣ（In Car Communication）システムにおいて、音声に対する補正処理を行うことも可能である。なお、ＩＣＣシステムとは、運転者が後席へ向けて会話する時は、前席に設けられたマイクで運転者の会話を拾い、後部席に設けられたスピーカから出力するシステムである。

また、図１に示すように、音声処理装置１０は、制御部３０と、通信部４１と、補正処理部４２と、ＤＳＰ（Digital Signal Processor）４３とを有する。制御部３０は、音声処理装置１０全体を制御するメインマイコンである。

制御部３０は、後述するように、発話者の顔を撮影するカメラから画像を取得し、当該画像に対する画像解析を行うとともに、解析結果に基づき、補正処理部４２によるパラメータを設定する。

なお、制御部３０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ、入出力ポートなどを有するコンピュータや各種の回路によって構成される。

通信部４１は、通信端末１００と通信を行うための通信モジュールである。たとえば、通信部４１は、通信端末１００とアンテナを介し、Ｂｌｕｅｔｏｏｔｈ（登録商標）の通信規格に準拠し、Ｂｌｕｅｔｏｏｔｈ通信を行う。

補正処理部４２は、車両Ｖ内に設けられたマイクによって収音された音声に対し、エコーキャンセルやノイズリダクションなどといった各種補正処理を行う処理部である。

ＤＳＰ４３は、補正処理部４２によって補正処理が行われた音声信号を各種の信号処理を実行し、車両Ｖに搭載されたスピーカへ出力する。これにより、車両Ｖ内では、補正処理部４２によって補正された音声が再生される。

ところで、図２に示すように、発話者Ｕがマスクを着用している場合、マスクの着用の影響により発話者Ｕの発話音声を相手が聞き取り難くなる場合がある。そのため、実施形態に係る音声処理方法では、発話者Ｕの顔を撮影した画像から発話者Ｕが発話に影響がある状態か否かを判定し、発話に影響がある状態であると判定した場合に、発話者Ｕの発話音声に対し当該影響に応じた補正処理を行うこととした。

具体的には、図２に示すように、実施形態に係る音声処理方法では、発話者Ｕの顔を撮影した画像から発話者Ｕが発話に影響がある状態か否かを判定する（ステップＳ１）。ここで、発話に影響がある状態とは、マスクの着用している状態を示すが、飲食中である状態、風邪や鼻炎などといった発話者Ｕの健康状態に関する状態であってもよい。

なお、マスク以外にも、たとえばフェイスシールド、マフラー、ネックウォーマー、タートルネックの襟、手のひらや甲などで、発話者Ｕの口元が覆われていることを判定してもよい。マスク以外でも、発話者Ｕの口元が覆われていれば発話に影響があると考えられるため、当該影響に応じた補正処理を行うこととしてもよい。

たとえば、実施形態に係る音声処理方法では、マスクを着用中の画像を学習データとして学習を行った学習モデルを用いて、発話者Ｕが発話に影響がある状態か否か、すなわち、発話者Ｕがマスクを着用中か否かを判定する。

具体的には、多数の「マスクをした人の顔」の画像を学習データとして深層学習（ディープラーニング）を行ったニューラルネットワークを学習モデルとして、この学習モデルに発話者Ｕの顔を撮影した画像を入力することで、発話者Ｕがマスクをしているか否かを判定することが出来る。

また、マスク以外でも、「フェイスシールド」「マフラー」「ネックウォーマー」「タートルネック」「手」などで口元を覆っている人の顔の画像を学習データとして学習を行った学習モデルを用いることで、発話者Ｕがそれぞれの状態であるか否かを判定することが出来る。

つづいて、実施形態に係る音声処理方法では、ステップＳ１の判定において、発話者Ｕが発話に影響がある状態であると判定した場合、すなわち、発話者Ｕがマスクを着用中と判定した場合、発話者Ｕの音声を補正する（ステップＳ２）。

たとえば、実施形態に係る音声処理方法では、発話者Ｕがマスクの着用することで、発話者Ｕの発話音声において、音圧レベルが低下する周波数を補正する。図３に示すように、マスクの着用した場合（同図実線）の音圧レベルが低下する周波数帯域がマスクを着用していない場合の音圧レベル（同図破線）に近づくように、発話者Ｕの発話音声を補正する。

これにより、実施形態に係る音声処理方法では、マスクを着用中の発話者Ｕの発話音声をマスクを着用していないときの発話者Ｕの発話音声に近づけることができるので、音声を適切に補正することができる。つまり、実施形態に係る音声処理方法では、相手側に対してより自然で、聞き取りやすい発話者Ｕの発話音声を提供することができる。

なお、マスク以外で発話者Ｕの口元が覆われていると判定した場合でも、口元が覆われていないときの発話者Ｕの発話音声に近づけるように発話者Ｕの発話音声を補正してもよい。この際、マスク着用中と判定した場合と同じ補正を行ってもよいし、より好適には、発話者Ｕの口元が何で覆われているかによって補正の仕方を変えてもよい。

具体的には、発話者Ｕの口元がマスクで覆われているか、フェイスシールドで覆われているかによって、発話者Ｕの発話音声において、音圧レベルが低下する周波数が異なることが考えられる。その場合でも、発話者Ｕの口元が何で覆われているかによって補正する周波数を変えることによって、発話者Ｕの発話音声を発話者Ｕの口元が覆われていないときの発話者Ｕの発話音声に近づけることができ、相手側に対してより自然で、聞き取りやすい発話者Ｕの発話音声を提供することができる。

また、実施形態に係る音声処理方法では、発話者Ｕの顔を撮影した画像に基づき、発話者Ｕが発話に影響がある状態か否かを判定し、発話者Ｕの発話音声に対し補正処理を開始する。換言すれば、発話者Ｕが発話に影響がない状態であった場合には、発話者Ｕの発話音声に対し補正処理を開始しない。

つまり、実施形態に係る音声処理方法では、発話者Ｕが発話に影響がある状態に限って、発話者Ｕの発話音声に対し補正処理を行うことで、発話音声に対し適切な補正処理を行うことができる。

次に、図４を用いて、実施形態に係る制御部３０の構成例について説明する。図４は、制御部３０のブロック図である。図３に示すように、制御部３０は、取得部３１と、判定部３２と、選択部３３とを有する。

取得部３１は、車両Ｖ内に設けられたカメラから発話者Ｕの顔を撮影した画像を取得し、判定部３２へ渡す。なお、制御対象がハンズフリー通話である場合には、ドライバを発話者Ｕとし、取得部３１は、ドライバの顔が撮影された画像を取得する。

また、制御対象がＩＣＣシステムである場合には、取得部３１は、ＩＣＣシステムによって会話をサポートする各発話者Ｕの画像を取得する。なお、この場合、取得部３１は、各発話者Ｕをそれぞれ撮影した画像を取得することにしてもよく、各発話者Ｕが映る全体画像（たとえば、車内全体を撮影した画像）を取得するようにしてもよい。

また、取得部３１は、車両Ｖ内に設けられたマイクで収音された音声を取得し、判定部３２へ渡す。

判定部３２は、発話者Ｕの顔を撮影した画像から発話者Ｕが発話に影響がある状態か否かを判定する。たとえば、判定部３２は、取得部３１が受け取った画像を解析することで、発話者Ｕが発話に影響がある状態か否かを判定する。

判定部３２は、たとえば、発話者Ｕが発話に影響がある状態として、マスクの着用の有無を判定する。たとえば、判定部３２は、発話者Ｕが発話に影響がある状態の画像を学習データとして学習した学習モデルを用いて、発話者Ｕが発話に影響がある状態か否かを判定する。なお、かかる学習モデルや後述する補正ファイルは、音声処理装置１０が備える不揮発性メモリやデータフラッシュ、ハードディスクドライブといった記憶デバイス（不図示）に格納される。

また、判定部３２は、発話者Ｕの発話音声に基づき、発話者Ｕが発話に影響がある状態か否かを判定することにしてもよい。たとえば、この場合、判定部３２は、学習段階として、画像解析の結果に基づき、発話に影響がない状態（すなわち、マスクを着用していない状態）において、発話者Ｕの発話音声の特徴量を予め学習しておく。

この場合、たとえば、実際に会話で使用される文言を発話者Ｕに発言してもらい、当該文言の発話音声の特徴量を予め学習しておくことにしてもよい。ここでの文言は、ハンズフリー通話を対象とする場合には、「もしもし」など、通話時に汎用的に使用され、かつ、通話開始時の使用頻度が高い文言であることが好ましい。また、かかる文言については、ハンズフリー通話やＩＣＣシステムを制御するための音声コマンドとすることにしてもよい。

つづいて、判定部３２は、発話者Ｕの実際の発話音声と、学習した発話音声との比較結果に基づき、発話者Ｕが発話に影響がある状態か否かを判定する。たとえば、判定部３２は、双方の発話音声に有意な差があれば、発話者Ｕが発話に影響がある状態と判定する。

このように、実施形態に係る音声処理装置１０では、実際に使用される可能性が高い文言の発話音声を予め学習しておくことで、発話者Ｕが何気なく使用する文言の発話音声と、同一の文言の発話音声とを比較することができる。したがって、発話者Ｕが発話に影響がある状態か否かを精度よく判定することができる。

選択部３３は、判定部３２による判定結果に基づき、発話者Ｕの発話音声に対して補正を行うための補正値を選択し、補正処理部４２（図１参照）へ渡す。補正処理部４２は、選択部３３から受け取った補正値に基づき、発話者Ｕの発話音声に対する補正処理を行う。

実施形態に係る音声処理装置１０は、発話者Ｕの状態に応じた補正値を格納した複数の補正ファイルを予め格納しておき、選択部３３は、複数の補正ファイルの中から、現在の発話者Ｕの状態に応じた補正ファイルを選択する。

これにより、実施形態に係る音声処理装置１０は、リアルタイムで補正値を算出する場合に比べ、補正値を算出する時間を省くことができるので、発話音声に対する補正処理の遅延を低減することができる。

図５は、補正ファイルの一例を示す図である。図５に示すように、たとえば、各補正ファイルは、「ファイルＩＤ」、「発話者ＩＤ」、「状態」、「補正ファイル」などといった項目の情報を有する。

「ファイルＩＤ」は、各補正ファイルを識別するための識別子を指し、「発話者ＩＤ」は、各発話者Ｕを識別するための識別子を指す。なお、「発話者ＩＤ」については、個人を識別する情報であってもよく、性別、年齢等に基づき、分類した任意の属性を示す情報であってもよい。

「状態」は、発話者Ｕの状態を指す。図５では、「状態」に「マスク」、「飲食」が含まれる場合を例示する。「補正ファイル」は、対応するファイルＩＤにおける補正値を格納したファイルを指す。

たとえば、補正ファイルは、発話音声のうち、一部の補正領域を補正するための補正値（パラメータ）を格納したファイルである。図６は、補正領域の一例を示す図である。なお、図６では、縦軸に音圧レベル、横軸に発話音声の周波数を示し、マスクを着用中の発話音声を実線、マスクを着用していないときの発話音声を破線で示す。

図６に示すように、補正領域Ｔは、マスクを着用中の発話音声と、マスクを着用していないときの発話音声との音圧レベルの差分ΔＬが所定値を超える周波数帯域である。より詳しくは、補正領域Ｔは、マスクの着用に伴い、音圧レベルが低下する高音域（たとえば、２０００～７０００Ｈｚ）である。

そのため、上記の補正ファイルには、補正領域Ｔの発話音声がマスクを着用していないときの発話音声に近づくように音圧レベルを上昇させるための補正値が格納されることになる。

すなわち、音声処理装置１０は、補正ファイルに基づき、発話者Ｕの発話音声を補正することで、マスクの着用によって影響が生じる周波数帯域の発話音声を補正することになる。

換言すれば、音声処理装置１０は、マスクの着用によって影響が生じない周波数帯域の発話音声については、補正処理を行わないことで、発話者Ｕの自然な発話音声を提供することができる。

なお、音声処理装置１０は、同一の発話者Ｕの発話音声から当該発話者Ｕ用の補正ファイルを作成することにしてもよく、複数の発話者Ｕの発話音声の統計データに基づき、補正ファイルを作成するようにしてもよい。この場合、たとえば、発話者Ｕの年齢、性別などに基づき、発話者Ｕの発話音声の統計データを分類したうえで、補正ファイルを作成するようにしてもよい。

次に、図７を用いて、実施形態に係る音声処理装置１０が実行する処理手順について説明する。図７は、音声処理装置１０が実行する処理手順を示すフローチャートである。なお、以下に示す処理手順は、制御部３０によって繰り返し実行される。

図７に示すように、まず、音声処理装置１０は、ハンズフリー通話を開始したか否かを判定する（ステップＳ１０１）。音声処理装置１０は、ハンズフリー通話を開始したと判定した場合（ステップＳ１０１；Ｙｅｓ）、ステップＳ１０２の処理へ進み、ハンズフリー通話を開始していないと判定した場合（ステップＳ１０１；Ｎｏ）、処理を終了する。なお、ステップＳ１０１の処理においては、「ハンズフリー通話」を「ＩＣＣシステム」へ置き換えることにしてもよい。

つづいて、音声処理装置１０は、発話者Ｕの顔を撮影した画像に基づき、発話者Ｕが発話に影響がある状態か否かを判定する（ステップＳ１０２）。音声処理装置１０は、発話者Ｕが発話に影響がある状態であると判定した場合（ステップＳ１０２；Ｙｅｓ）、ステップＳ１０３の処理へ進み、発話者Ｕが発話に影響がある状態でないと判定した場合（ステップＳ１０２；Ｎｏ）、処理を終了する。

つづいて、音声処理装置１０は、発話者Ｕの発話音声に対する音声解析を行い（ステップＳ１０３）、音声解析の解析結果に基づいて補正ファイルを選択する（ステップＳ１０４）。なお、音声処理装置１０は、ステップＳ１０３の処理については省略するようにしてもよく、ステップＳ１０４については常に同じ補正ファイルを選択するようにしてもよい。

つづいて、音声処理装置１０は、ハンズフリー通話が終了したか否かを判定し（ステップＳ１０５）、ハンズフリー通話が終了したと判定した場合（ステップＳ１０５；Ｙｅｓ）、処理を終了する。また、音声処理装置１０は、ハンズフリー通話が継続中であると判定した場合（ステップＳ１０５；Ｎｏ）、ステップＳ１０２の処理へ戻る。

なお、この場合のステップＳ１０２以降の処理においては、発話者Ｕが発話に影響がある状態から影響がない状態に遷移した場合に、発話者Ｕの発話音声に対する補正処理を解除することになる。

上述したように、実施形態に係る音声処理装置１０は、発話者Ｕの顔を撮影した画像から発話者が発話に影響がある状態か否かを判定し、発話に影響がある状態であると判定した場合に、発話者Ｕの発話音声に対し当該影響に応じた補正処理を行う制御部３０を備える。したがって、実施形態に係る音声処理装置１０によれば、発話音声を適切に補正することができる。

ところで、上述した実施形態では、ハンズフリー通話やＩＣＣシステムなど、車両Ｖ内における発話者Ｕの通話音声に対し補正処理を行う場合について説明したがこれに限定されるものではない。

たとえば、本願発明をテレビ電話の通話中の発話音声や、動画の撮影時の発話音声に適用するようにしてもよい。たとえば、この場合、音声処理装置１０は、テレビ電話中に映し出される画像、あるいは、撮影された動画中の画像から発話者Ｕが発話に影響がある状態か否かを判定する。

つまり、これらの場合においては、発話者Ｕが発話中に他の目的で撮影された画像を用いて、発話者Ｕが発話に影響がある状態か否かを判定することができるので、効率よく発話者Ｕが発話に影響がある状態か否かを判定することができる。

また、上述した実施形態では、画像の解析結果に基づき、発話者Ｕの発話音声に対し補正処理を行う場合について説明したが、これに限定されるものではない。たとえば、音声処理装置１０は、発話者Ｕの発話音声を解析し、当該発話音声を聞き取り難い音声と判定した場合に、補正処理を行うようにしてもよい。

たとえば、この場合、音声処理装置１０は、音声解析により、マスクの着用の有無や、飲食の有無を判定し、補正処理を行う。また、この場合、音声処理装置１０は、音声解析により、発話者Ｕの滑舌に関するスコアを算出し、当該スコアが所定値を超える場合に（すなわち、発話者Ｕの発話音声が聞き取り難い場合）、補正処理を行うようにしてもよい。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１０音声処理装置
３０制御部
３１取得部
３２判定部
３３選択部
４１通信部
４２補正処理部
１００通信端末
Ｔ補正領域
Ｕ発話者

Claims

発話者の顔を撮影した画像から前記発話者が発話に影響がある状態か否かを判定し、
前記発話に影響がある状態であると判定した場合に、前記発話者の発話音声に対し当該影響に応じた補正処理を行う制御部
を備える音声処理装置。
前記制御部は、
前記影響がある状態として前記発話者の口元が覆われていることを判定する、
請求項１に記載の音声処理装置。
前記制御部は、
前記発話者の口元が何で覆われているかを判定し、
前記発話者の発話音声に対しその判定結果に対応する影響に応じた補正処理を行う
請求項２に記載の音声処理装置。
前記制御部は、
前記影響がある状態として前記発話者の口元を覆うマスクの着用の有無を判定する、
請求項２または３に記載の音声処理装置。
前記制御部は、
前記影響がある状態として前記発話者が飲食中か否かを判定する、
請求項１～４のいずれか一つに記載の音声処理装置。
前記制御部は、
前記影響がない状態における前記発話者の発話音声と、前記影響があると判定したときの前記発話者の前記発話音声との比較結果に基づき、前記補正処理を行うか否かを判定する、
請求項１～５のいずれか一つに記載の音声処理装置。
前記制御部は、
前記影響がある状態において、前記発話者の発話音声の音圧レベルが低下する周波数帯域について補正処理を行う、
請求項１～６のいずれか一つに記載の音声処理装置。
前記制御部は、
予め設定された複数の補正値の中から前記影響に応じた前記補正値を選択して前記補正処理を行う、
請求項１～７のいずれか一つに記載の音声処理装置。
発話者の顔を撮影した画像から前記発話者が発話に影響がある状態か否かを判定し、
前記発話に影響がある状態であると判定した場合に、前記発話者の発話音声に対し当該影響に応じた補正処理を行う、
音声処理方法。