JP2023114919A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2023114919A
JP2023114919A JP2022017510A JP2022017510A JP2023114919A JP 2023114919 A JP2023114919 A JP 2023114919A JP 2022017510 A JP2022017510 A JP 2022017510A JP 2022017510 A JP2022017510 A JP 2022017510A JP 2023114919 A JP2023114919 A JP 2023114919A
Authority
JP
Japan
Prior art keywords
speaker
speech
affected
correction
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022017510A
Other languages
English (en)
Inventor
一成 山本
Kazunari Yamamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2022017510A priority Critical patent/JP2023114919A/ja
Publication of JP2023114919A publication Critical patent/JP2023114919A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】発話音声を適切に補正すること。【解決手段】実施形態に係る音声処理装置は、発話者の顔を撮影した画像から発話者が発話に影響がある状態か否かを判定し、発話に影響がある状態であると判定した場合に、発話者の発話音声に対し当該影響に応じた補正処理を行う制御部を備える。【選択図】図2

Description

本発明は、音声処理装置および音声処理方法に関する。
従来、発話者の発話音声を相手が聞き取りやすい音声へ補正する音声処理装置がある。かかる音声処理装置に関する技術として、発話者を撮影した画像を解析し、発話者とマイクとが近接する場合に、マイクで収音された音声に対し補正処理を行う技術が提案されている(例えば、特許文献1参照)。
特開2020-162112号公報
しかしながら、従来技術では、発話音声を適切に補正するうえで更なる改善の余地があった。たとえば、従来技術では、発話者とマイクとの距離に応じて補正を行うに過ぎず、その他の影響については考慮されていなかった。
本発明は、上記に鑑みてなされたものであって、発話音声を適切に補正することができる音声処理装置および音声処理方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音声処理装置は、発話者の顔を撮影した画像から前記発話者が発話に影響がある状態か否かを判定し、前記発話に影響がある状態であると判定した場合に、前記発話者の発話音声に対し当該影響に応じた補正処理を行う制御部を備える。
本発明によれば、発話音声を適切に補正することができる。
図1は、音声処理装置の構成例を示す図である。 図2は、音声処理方法の概要を示す図である。 図3は、音声処理方法の概要を示す図である。 図4は、制御部のブロック図である。 図5は、補正ファイルの一例を示す図である。 図6は、補正領域の一例を示す図である。 図7は、音声処理装置が実行する処理手順を示すフローチャートである。
以下、添付図面を参照して、本願の開示する音声処理装置および音声処理方法の実施形態を詳細に説明する。なお、以下に示す実施形態により本発明が限定されるものではない。
まず、図1、図2および図3を用いて、実施形態に係る音声処理装置および音声処理方法の概要について説明する。図1は、音声処理装置の構成例を示す図である。図2および図3は、音声処理方法の概要を示す図である。なお、かかる音声処理方法は、図1に示す音声処理装置10によって実行される。
図1に示すように、音声処理装置10は、車両Vに搭載される。音声処理装置10は、乗員の通信端末100との間で通信連携を行い、通信端末100による音声通話をサポートするハンズフリー通話を実現するための各種制御を実行する装置である。
たとえば、音声処理装置10は、通信端末100から受信した通話音声を車両Vに搭載されたスピーカから出力し、車両Vに搭載されたマイクで収音した音声信号を通信端末100へ送信することで、ハンズフリー通話を実現する。
なお、音声処理装置10は、たとえば、車両V内の乗員の会話をサポートする、いわゆるICC(In Car Communication)システムにおいて、音声に対する補正処理を行うことも可能である。なお、ICCシステムとは、運転者が後席へ向けて会話する時は、前席に設けられたマイクで運転者の会話を拾い、後部席に設けられたスピーカから出力するシステムである。
また、図1に示すように、音声処理装置10は、制御部30と、通信部41と、補正処理部42と、DSP(Digital Signal Processor)43とを有する。制御部30は、音声処理装置10全体を制御するメインマイコンである。
制御部30は、後述するように、発話者の顔を撮影するカメラから画像を取得し、当該画像に対する画像解析を行うとともに、解析結果に基づき、補正処理部42によるパラメータを設定する。
なお、制御部30は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ、入出力ポートなどを有するコンピュータや各種の回路によって構成される。
通信部41は、通信端末100と通信を行うための通信モジュールである。たとえば、通信部41は、通信端末100とアンテナを介し、Bluetooth(登録商標)の通信規格に準拠し、Bluetooth通信を行う。
補正処理部42は、車両V内に設けられたマイクによって収音された音声に対し、エコーキャンセルやノイズリダクションなどといった各種補正処理を行う処理部である。
DSP43は、補正処理部42によって補正処理が行われた音声信号を各種の信号処理を実行し、車両Vに搭載されたスピーカへ出力する。これにより、車両V内では、補正処理部42によって補正された音声が再生される。
ところで、図2に示すように、発話者Uがマスクを着用している場合、マスクの着用の影響により発話者Uの発話音声を相手が聞き取り難くなる場合がある。そのため、実施形態に係る音声処理方法では、発話者Uの顔を撮影した画像から発話者Uが発話に影響がある状態か否かを判定し、発話に影響がある状態であると判定した場合に、発話者Uの発話音声に対し当該影響に応じた補正処理を行うこととした。
具体的には、図2に示すように、実施形態に係る音声処理方法では、発話者Uの顔を撮影した画像から発話者Uが発話に影響がある状態か否かを判定する(ステップS1)。ここで、発話に影響がある状態とは、マスクの着用している状態を示すが、飲食中である状態、風邪や鼻炎などといった発話者Uの健康状態に関する状態であってもよい。
なお、マスク以外にも、たとえばフェイスシールド、マフラー、ネックウォーマー、タートルネックの襟、手のひらや甲などで、発話者Uの口元が覆われていることを判定してもよい。マスク以外でも、発話者Uの口元が覆われていれば発話に影響があると考えられるため、当該影響に応じた補正処理を行うこととしてもよい。
たとえば、実施形態に係る音声処理方法では、マスクを着用中の画像を学習データとして学習を行った学習モデルを用いて、発話者Uが発話に影響がある状態か否か、すなわち、発話者Uがマスクを着用中か否かを判定する。
具体的には、多数の「マスクをした人の顔」の画像を学習データとして深層学習(ディープラーニング)を行ったニューラルネットワークを学習モデルとして、この学習モデルに発話者Uの顔を撮影した画像を入力することで、発話者Uがマスクをしているか否かを判定することが出来る。
また、マスク以外でも、「フェイスシールド」「マフラー」「ネックウォーマー」「タートルネック」「手」などで口元を覆っている人の顔の画像を学習データとして学習を行った学習モデルを用いることで、発話者Uがそれぞれの状態であるか否かを判定することが出来る。
つづいて、実施形態に係る音声処理方法では、ステップS1の判定において、発話者Uが発話に影響がある状態であると判定した場合、すなわち、発話者Uがマスクを着用中と判定した場合、発話者Uの音声を補正する(ステップS2)。
たとえば、実施形態に係る音声処理方法では、発話者Uがマスクの着用することで、発話者Uの発話音声において、音圧レベルが低下する周波数を補正する。図3に示すように、マスクの着用した場合(同図実線)の音圧レベルが低下する周波数帯域がマスクを着用していない場合の音圧レベル(同図破線)に近づくように、発話者Uの発話音声を補正する。
これにより、実施形態に係る音声処理方法では、マスクを着用中の発話者Uの発話音声をマスクを着用していないときの発話者Uの発話音声に近づけることができるので、音声を適切に補正することができる。つまり、実施形態に係る音声処理方法では、相手側に対してより自然で、聞き取りやすい発話者Uの発話音声を提供することができる。
なお、マスク以外で発話者Uの口元が覆われていると判定した場合でも、口元が覆われていないときの発話者Uの発話音声に近づけるように発話者Uの発話音声を補正してもよい。この際、マスク着用中と判定した場合と同じ補正を行ってもよいし、より好適には、発話者Uの口元が何で覆われているかによって補正の仕方を変えてもよい。
具体的には、発話者Uの口元がマスクで覆われているか、フェイスシールドで覆われているかによって、発話者Uの発話音声において、音圧レベルが低下する周波数が異なることが考えられる。その場合でも、発話者Uの口元が何で覆われているかによって補正する周波数を変えることによって、発話者Uの発話音声を発話者Uの口元が覆われていないときの発話者Uの発話音声に近づけることができ、相手側に対してより自然で、聞き取りやすい発話者Uの発話音声を提供することができる。
また、実施形態に係る音声処理方法では、発話者Uの顔を撮影した画像に基づき、発話者Uが発話に影響がある状態か否かを判定し、発話者Uの発話音声に対し補正処理を開始する。換言すれば、発話者Uが発話に影響がない状態であった場合には、発話者Uの発話音声に対し補正処理を開始しない。
つまり、実施形態に係る音声処理方法では、発話者Uが発話に影響がある状態に限って、発話者Uの発話音声に対し補正処理を行うことで、発話音声に対し適切な補正処理を行うことができる。
次に、図4を用いて、実施形態に係る制御部30の構成例について説明する。図4は、制御部30のブロック図である。図3に示すように、制御部30は、取得部31と、判定部32と、選択部33とを有する。
取得部31は、車両V内に設けられたカメラから発話者Uの顔を撮影した画像を取得し、判定部32へ渡す。なお、制御対象がハンズフリー通話である場合には、ドライバを発話者Uとし、取得部31は、ドライバの顔が撮影された画像を取得する。
また、制御対象がICCシステムである場合には、取得部31は、ICCシステムによって会話をサポートする各発話者Uの画像を取得する。なお、この場合、取得部31は、各発話者Uをそれぞれ撮影した画像を取得することにしてもよく、各発話者Uが映る全体画像(たとえば、車内全体を撮影した画像)を取得するようにしてもよい。
また、取得部31は、車両V内に設けられたマイクで収音された音声を取得し、判定部32へ渡す。
判定部32は、発話者Uの顔を撮影した画像から発話者Uが発話に影響がある状態か否かを判定する。たとえば、判定部32は、取得部31が受け取った画像を解析することで、発話者Uが発話に影響がある状態か否かを判定する。
判定部32は、たとえば、発話者Uが発話に影響がある状態として、マスクの着用の有無を判定する。たとえば、判定部32は、発話者Uが発話に影響がある状態の画像を学習データとして学習した学習モデルを用いて、発話者Uが発話に影響がある状態か否かを判定する。なお、かかる学習モデルや後述する補正ファイルは、音声処理装置10が備える不揮発性メモリやデータフラッシュ、ハードディスクドライブといった記憶デバイス(不図示)に格納される。
また、判定部32は、発話者Uの発話音声に基づき、発話者Uが発話に影響がある状態か否かを判定することにしてもよい。たとえば、この場合、判定部32は、学習段階として、画像解析の結果に基づき、発話に影響がない状態(すなわち、マスクを着用していない状態)において、発話者Uの発話音声の特徴量を予め学習しておく。
この場合、たとえば、実際に会話で使用される文言を発話者Uに発言してもらい、当該文言の発話音声の特徴量を予め学習しておくことにしてもよい。ここでの文言は、ハンズフリー通話を対象とする場合には、「もしもし」など、通話時に汎用的に使用され、かつ、通話開始時の使用頻度が高い文言であることが好ましい。また、かかる文言については、ハンズフリー通話やICCシステムを制御するための音声コマンドとすることにしてもよい。
つづいて、判定部32は、発話者Uの実際の発話音声と、学習した発話音声との比較結果に基づき、発話者Uが発話に影響がある状態か否かを判定する。たとえば、判定部32は、双方の発話音声に有意な差があれば、発話者Uが発話に影響がある状態と判定する。
このように、実施形態に係る音声処理装置10では、実際に使用される可能性が高い文言の発話音声を予め学習しておくことで、発話者Uが何気なく使用する文言の発話音声と、同一の文言の発話音声とを比較することができる。したがって、発話者Uが発話に影響がある状態か否かを精度よく判定することができる。
選択部33は、判定部32による判定結果に基づき、発話者Uの発話音声に対して補正を行うための補正値を選択し、補正処理部42(図1参照)へ渡す。補正処理部42は、選択部33から受け取った補正値に基づき、発話者Uの発話音声に対する補正処理を行う。
実施形態に係る音声処理装置10は、発話者Uの状態に応じた補正値を格納した複数の補正ファイルを予め格納しておき、選択部33は、複数の補正ファイルの中から、現在の発話者Uの状態に応じた補正ファイルを選択する。
これにより、実施形態に係る音声処理装置10は、リアルタイムで補正値を算出する場合に比べ、補正値を算出する時間を省くことができるので、発話音声に対する補正処理の遅延を低減することができる。
図5は、補正ファイルの一例を示す図である。図5に示すように、たとえば、各補正ファイルは、「ファイルID」、「発話者ID」、「状態」、「補正ファイル」などといった項目の情報を有する。
「ファイルID」は、各補正ファイルを識別するための識別子を指し、「発話者ID」は、各発話者Uを識別するための識別子を指す。なお、「発話者ID」については、個人を識別する情報であってもよく、性別、年齢等に基づき、分類した任意の属性を示す情報であってもよい。
「状態」は、発話者Uの状態を指す。図5では、「状態」に「マスク」、「飲食」が含まれる場合を例示する。「補正ファイル」は、対応するファイルIDにおける補正値を格納したファイルを指す。
たとえば、補正ファイルは、発話音声のうち、一部の補正領域を補正するための補正値(パラメータ)を格納したファイルである。図6は、補正領域の一例を示す図である。なお、図6では、縦軸に音圧レベル、横軸に発話音声の周波数を示し、マスクを着用中の発話音声を実線、マスクを着用していないときの発話音声を破線で示す。
図6に示すように、補正領域Tは、マスクを着用中の発話音声と、マスクを着用していないときの発話音声との音圧レベルの差分ΔLが所定値を超える周波数帯域である。より詳しくは、補正領域Tは、マスクの着用に伴い、音圧レベルが低下する高音域(たとえば、2000~7000Hz)である。
そのため、上記の補正ファイルには、補正領域Tの発話音声がマスクを着用していないときの発話音声に近づくように音圧レベルを上昇させるための補正値が格納されることになる。
すなわち、音声処理装置10は、補正ファイルに基づき、発話者Uの発話音声を補正することで、マスクの着用によって影響が生じる周波数帯域の発話音声を補正することになる。
換言すれば、音声処理装置10は、マスクの着用によって影響が生じない周波数帯域の発話音声については、補正処理を行わないことで、発話者Uの自然な発話音声を提供することができる。
なお、音声処理装置10は、同一の発話者Uの発話音声から当該発話者U用の補正ファイルを作成することにしてもよく、複数の発話者Uの発話音声の統計データに基づき、補正ファイルを作成するようにしてもよい。この場合、たとえば、発話者Uの年齢、性別などに基づき、発話者Uの発話音声の統計データを分類したうえで、補正ファイルを作成するようにしてもよい。
次に、図7を用いて、実施形態に係る音声処理装置10が実行する処理手順について説明する。図7は、音声処理装置10が実行する処理手順を示すフローチャートである。なお、以下に示す処理手順は、制御部30によって繰り返し実行される。
図7に示すように、まず、音声処理装置10は、ハンズフリー通話を開始したか否かを判定する(ステップS101)。音声処理装置10は、ハンズフリー通話を開始したと判定した場合(ステップS101;Yes)、ステップS102の処理へ進み、ハンズフリー通話を開始していないと判定した場合(ステップS101;No)、処理を終了する。なお、ステップS101の処理においては、「ハンズフリー通話」を「ICCシステム」へ置き換えることにしてもよい。
つづいて、音声処理装置10は、発話者Uの顔を撮影した画像に基づき、発話者Uが発話に影響がある状態か否かを判定する(ステップS102)。音声処理装置10は、発話者Uが発話に影響がある状態であると判定した場合(ステップS102;Yes)、ステップS103の処理へ進み、発話者Uが発話に影響がある状態でないと判定した場合(ステップS102;No)、処理を終了する。
つづいて、音声処理装置10は、発話者Uの発話音声に対する音声解析を行い(ステップS103)、音声解析の解析結果に基づいて補正ファイルを選択する(ステップS104)。なお、音声処理装置10は、ステップS103の処理については省略するようにしてもよく、ステップS104については常に同じ補正ファイルを選択するようにしてもよい。
つづいて、音声処理装置10は、ハンズフリー通話が終了したか否かを判定し(ステップS105)、ハンズフリー通話が終了したと判定した場合(ステップS105;Yes)、処理を終了する。また、音声処理装置10は、ハンズフリー通話が継続中であると判定した場合(ステップS105;No)、ステップS102の処理へ戻る。
なお、この場合のステップS102以降の処理においては、発話者Uが発話に影響がある状態から影響がない状態に遷移した場合に、発話者Uの発話音声に対する補正処理を解除することになる。
上述したように、実施形態に係る音声処理装置10は、発話者Uの顔を撮影した画像から発話者が発話に影響がある状態か否かを判定し、発話に影響がある状態であると判定した場合に、発話者Uの発話音声に対し当該影響に応じた補正処理を行う制御部30を備える。したがって、実施形態に係る音声処理装置10によれば、発話音声を適切に補正することができる。
ところで、上述した実施形態では、ハンズフリー通話やICCシステムなど、車両V内における発話者Uの通話音声に対し補正処理を行う場合について説明したがこれに限定されるものではない。
たとえば、本願発明をテレビ電話の通話中の発話音声や、動画の撮影時の発話音声に適用するようにしてもよい。たとえば、この場合、音声処理装置10は、テレビ電話中に映し出される画像、あるいは、撮影された動画中の画像から発話者Uが発話に影響がある状態か否かを判定する。
つまり、これらの場合においては、発話者Uが発話中に他の目的で撮影された画像を用いて、発話者Uが発話に影響がある状態か否かを判定することができるので、効率よく発話者Uが発話に影響がある状態か否かを判定することができる。
また、上述した実施形態では、画像の解析結果に基づき、発話者Uの発話音声に対し補正処理を行う場合について説明したが、これに限定されるものではない。たとえば、音声処理装置10は、発話者Uの発話音声を解析し、当該発話音声を聞き取り難い音声と判定した場合に、補正処理を行うようにしてもよい。
たとえば、この場合、音声処理装置10は、音声解析により、マスクの着用の有無や、飲食の有無を判定し、補正処理を行う。また、この場合、音声処理装置10は、音声解析により、発話者Uの滑舌に関するスコアを算出し、当該スコアが所定値を超える場合に(すなわち、発話者Uの発話音声が聞き取り難い場合)、補正処理を行うようにしてもよい。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
10 音声処理装置
30 制御部
31 取得部
32 判定部
33 選択部
41 通信部
42 補正処理部
100 通信端末
T 補正領域
U 発話者

Claims (9)

  1. 発話者の顔を撮影した画像から前記発話者が発話に影響がある状態か否かを判定し、
    前記発話に影響がある状態であると判定した場合に、前記発話者の発話音声に対し当該影響に応じた補正処理を行う制御部
    を備える音声処理装置。
  2. 前記制御部は、
    前記影響がある状態として前記発話者の口元が覆われていることを判定する、
    請求項1に記載の音声処理装置。
  3. 前記制御部は、
    前記発話者の口元が何で覆われているかを判定し、
    前記発話者の発話音声に対しその判定結果に対応する影響に応じた補正処理を行う
    請求項2に記載の音声処理装置。
  4. 前記制御部は、
    前記影響がある状態として前記発話者の口元を覆うマスクの着用の有無を判定する、
    請求項2または3に記載の音声処理装置。
  5. 前記制御部は、
    前記影響がある状態として前記発話者が飲食中か否かを判定する、
    請求項1~4のいずれか一つに記載の音声処理装置。
  6. 前記制御部は、
    前記影響がない状態における前記発話者の発話音声と、前記影響があると判定したときの前記発話者の前記発話音声との比較結果に基づき、前記補正処理を行うか否かを判定する、
    請求項1~5のいずれか一つに記載の音声処理装置。
  7. 前記制御部は、
    前記影響がある状態において、前記発話者の発話音声の音圧レベルが低下する周波数帯域について補正処理を行う、
    請求項1~6のいずれか一つに記載の音声処理装置。
  8. 前記制御部は、
    予め設定された複数の補正値の中から前記影響に応じた前記補正値を選択して前記補正処理を行う、
    請求項1~7のいずれか一つに記載の音声処理装置。
  9. 発話者の顔を撮影した画像から前記発話者が発話に影響がある状態か否かを判定し、
    前記発話に影響がある状態であると判定した場合に、前記発話者の発話音声に対し当該影響に応じた補正処理を行う、
    音声処理方法。
JP2022017510A 2022-02-07 2022-02-07 音声処理装置および音声処理方法 Pending JP2023114919A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022017510A JP2023114919A (ja) 2022-02-07 2022-02-07 音声処理装置および音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022017510A JP2023114919A (ja) 2022-02-07 2022-02-07 音声処理装置および音声処理方法

Publications (1)

Publication Number Publication Date
JP2023114919A true JP2023114919A (ja) 2023-08-18

Family

ID=87569656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022017510A Pending JP2023114919A (ja) 2022-02-07 2022-02-07 音声処理装置および音声処理方法

Country Status (1)

Country Link
JP (1) JP2023114919A (ja)

Similar Documents

Publication Publication Date Title
US8175874B2 (en) Personalized voice activity detection
US9197974B1 (en) Directional audio capture adaptation based on alternative sensory input
EP1517298A1 (en) Speaking period detection based on electromyography
US8606573B2 (en) Voice recognition improved accuracy in mobile environments
EP3441969B1 (en) Synthetic speech for in vehicle communication
JP4520596B2 (ja) 音声認識方法および音声認識装置
US11089404B2 (en) Sound processing apparatus and sound processing method
US20150381132A1 (en) Communication system and robot
US20240096343A1 (en) Voice quality enhancement method and related device
CN115482830A (zh) 语音增强方法及相关设备
WO2017166495A1 (zh) 一种语音信号处理方法及装置
WO2018167960A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および音声処理プログラム
CN111653281A (zh) 用于对助听器的音频信号进行个性化信号处理的方法
CN110364175A (zh) 语音增强方法及系统、通话设备
JP2023114919A (ja) 音声処理装置および音声処理方法
CN112995873A (zh) 用于运行听力系统的方法和听力系统
JP2018149625A (ja) コミュニケーションロボット、プログラム及びシステム
US8737652B2 (en) Method for operating a hearing device and hearing device with selectively adjusted signal weighing values
US9392365B1 (en) Psychoacoustic hearing and masking thresholds-based noise compensator system
US20220115021A1 (en) Talker Prediction Method, Talker Prediction Device, and Communication System
JPWO2020016927A1 (ja) 音場制御装置および音場制御方法
JP4527654B2 (ja) 音声通信装置
Subramanya et al. A graphical model for multi-sensory speech processing in air-and-bone conductive microphones
WO2018173112A1 (ja) 音出力制御装置、音出力制御システムおよび音出力制御方法
EP4075822B1 (en) Microphone mute notification with voice activity detection