JP2008152195A

JP2008152195A - 音声処理回路、発話システムおよび音声出力方法、電子機器

Info

Publication number: JP2008152195A
Application number: JP2006342665A
Authority: JP
Inventors: Koichi Kato; 浩一加藤
Original assignee: Rohm Co Ltd
Current assignee: Rohm Co Ltd
Priority date: 2006-12-20
Filing date: 2006-12-20
Publication date: 2008-07-03

Abstract

【課題】複数の電子機器が同時発話すると、音声が聞き取りにくくなる。
【解決手段】音声処理回路１００は、スピーカ１２０から出力すべき音声信号Ｓ１を生成する。音声レベル判定部１０は、本回路に接続されるマイク１４０により検出された周囲環境音のレベルを判定する。音声生成部４０は、音声信号Ｓ６を生成する。制御部３０は、音声レベル判定部１０により判定された周囲環境音のレベルが、所定のしきい値より高いとき、音声信号Ｓ６の再生を遅延させる。制御部３０は、音声レベル判定部１０により判定された周囲環境音のレベルに応じて、しきい値を適応的に変化させてもよい。
【選択図】図１

Description

本発明は、音声信号によりユーザに情報を伝達する技術に関する。

近年、民生機器を中心に音声発話を行う電子機器が増加している。こうした状況において、近接した位置に発話機能を有する複数の電子機器が配置される状況が発生しうる。

特開平５−３０５８８号公報

こうした状況において、複数の電子機器が同時発話すると、音声が聞き取りにくくなるという問題がある。

本発明はこうした課題に鑑みてなされたものであり、その包括的な目的は、ユーザが聞き取り易い音声発話技術の提供にある。

本発明のある態様は、音声出力部から出力すべき音声信号を生成する音声処理回路に関する。この音声処理回路は、本回路に接続されるマイクにより検出された周囲環境音のレベルを判定する音声レベル判定部と、音声信号を生成する音声生成部と、音声生成部による音声信号の再生を制御する制御部と、を備える。制御部は、音声レベル判定部により判定された周囲環境音のレベルが、所定のしきい値より高いとき、音声信号の再生を遅延させる。

この態様によると、周囲環境音が大きくなると、音声出力のタイミングが遅延されるため、ユーザに通知すべきメッセージが周囲環境音に埋もれるのを防止することができ、ユーザに対して、より確実に音声を通知することができる。

制御部は、音声レベル判定部により判定された周囲環境音のレベルに応じて、しきい値を適応的に変化させてもよい。
定常的な周囲環境音のフロアレベルあるいは平均値を検出し、その値より高いしきい値を設定することにより、定常的な周囲環境音によって音声出力のタイミングが遅延するのを防止することができる。

音声レベル判定部は、定期的に周囲環境音のレベルを測定し、測定された値にもとづき、しきい値を更新してもよい。
この処理は、周囲環境音のフロアレベルが、時間とともに変化する場合に有効である。

制御部は、音声レベル判定部により判定された周囲環境音のレベルに応じて、音声信号の再生音量を変化させてもよい。
この場合、ユーザはより明瞭に、音声信号を聞き取ることができる。

制御部は、周囲環境音のレベルがしきい値より低くなるのを待って、音声信号を再生してもよい。

制御部は、所定の時間が経過すると、周囲環境音のレベルに関わらず、音声信号を再生してもよい。
この処理により、周囲環境音が高いレベルを長い間維持する場合に、音声信号が再生されない状況を防止することができる。

再生すべき音声信号の内容に応じて、異なる遅延処理を実行してもよい。
再生すべき音声信号ごとに優先度を定めておき、優先度に応じて異なる遅延処理を実行してもよい。

音声処理回路は、一つの半導体基板上に一体集積化されてもよい。「一体集積化」とは、回路の構成要素のすべてが半導体基板上に形成される場合や、回路の主要構成要素が一体集積化される場合が含まれ、回路定数の調節用に一部の抵抗やキャパシタなどが半導体基板の外部に設けられていてもよい。回路を１つのＩＣとして集積化することにより、その面積を削減することができる。

本発明の別の態様は、電子機器である。この電子機器は、周囲環境音を検出するマイクと、マイクにより検出された周囲環境音のレベルにもとづき、音声を生成する上述の音声処理回路と、音声処理回路により生成された音声信号を出力するスピーカと、を備える。

本発明のさらに別の態様は、音声信号を出力する発話システムに関する。この発話システムは、スピーカと、周囲環境音を検出するマイクと、マイクにより検出された周囲環境音のレベルを判定する音声レベル判定部と、スピーカから出力すべき音声信号を生成する音声生成部と、音声生成部による音声信号の再生を制御する制御部と、を備える。制御部は、音声レベル判定部により判定された周囲環境音のレベルが、所定のしきい値より高いとき、音声信号の再生を遅延させる。

本発明のさらに別の態様は、音声出力方法である。この音声出力方法は、マイクを利用して周囲環境音を検出するステップと、検出された周囲環境音のレベルを判定するステップと、スピーカから出力すべき音声信号を生成するステップと、検出された周囲環境音のレベルが、所定のしきい値より高いとき、音声信号の再生を遅延させるステップと、を備える。

なお、以上の構成要素の任意の組合せ、本発明の表現を、方法、装置などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、ユーザに対して音声をより確実に通知することができる。

以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、実施の形態は、発明を限定するものではなく例示であって、実施の形態に記述されるすべての特徴やその組み合わせは、必ずしも発明の本質的なものであるとは限らない。

図１は、本発明の実施の形態に係る音声処理回路１００を搭載した音声発話システム２００の構成を示すブロック図である。音声発話システム２００は、テレビ受像器、冷蔵庫や電子レンジなどの家電製品、時報機能を備える時計、パーソナルコンピュータやカーナビゲーションシステムなど、音声によってユーザに情報を通知する機能を備えた電子機器に搭載される。なお、「音声」とは特定の言語による発話に限定されず音楽なども含み、広くは聴覚によりユーザに情報を伝達可能な音をいう。

音声発話システム２００は、音声処理回路１００、増幅部１１０、スピーカ１２０、ホストプロセッサ１３０、マイク１４０を備える。ホストプロセッサ１３０は、電子機器全体を統合的に制御する。スピーカ１２０は、電気信号を音響波に変換し出力する音声出力部である。音声処理回路１００は、ホストプロセッサ１３０からの制御信号Ｓ２を受ける。音声処理回路１００は制御信号Ｓ２にもとづきスピーカ１２０から出力すべき音声信号Ｓ１を生成し、後段の増幅部１１０へと出力する。音声信号Ｓ１は、増幅部１１０によって増幅されスピーカ１２０に入力される。なお、増幅部１１０は、アナログアンプ、デジタルアンプのいずれで構成してもよい。

音声処理回路１００は、音声レベル判定部１０、制御部３０、音声生成部４０、Ｄ／Ａ変換部５０を備え、一つの半導体基板上に機能ＩＣとして集積化される。
音声処理回路１００には、マイク１４０が接続される。マイク１４０は、音声発話システム２００が搭載される電子機器の周囲環境音（以下、単に環境音ともいう）を検出する。マイク１４０により検出された音声信号Ｓ３は、音声処理回路１００の音声レベル判定部１０へと入力される。

音声レベル判定部１０は、音声処理回路１００に接続されるマイク１４０により検出された環境音のレベルを判定する。音声レベル判定部１０は、入力部１２、Ａ／Ｄ変換部１４を含む。入力部１２は、音声信号Ｓ３を受け、これを増幅してＡ／Ｄ変換部１４へと出力する。Ａ／Ｄ変換部１４は、入力部１２から出力される音声信号Ｓ３をＡ／Ｄ変換し、音声レベルを示すデジタル値（以下、音声レベル信号Ｓ４という）を出力する。

音声生成部４０は、制御部３０からの制御信号Ｓ５にもとづき、再生すべき音声信号Ｓ６を生成する。音声生成部４０は、デコーダ４２、ＲＯＭ４４を含む。ＲＯＭ４４には、音声信号Ｓ６を生成するためのデータが格納される。データの形式は、ＭＰ３(MPEG-Audio Layer-3)などの圧縮形式であってもよいし、ＷＡＶＥ形式のデータであってもよい。デコーダ４２は、ＲＯＭ４４から必要なデータを取得してデコードし、合成する。デコードされた音声信号Ｓ６は、Ｄ／Ａ変換部５０へと出力される。Ｄ／Ａ変換部５０は、音声信号Ｓ６をデジタルアナログ変換する。なお、増幅部１１０がデジタルアンプである場合、Ｄ／Ａ変換部５０によるＤ／Ａ変換処理は不要となる。

制御部３０は、音声生成部４０による音声信号Ｓ６の再生を制御する。制御部３０には、ホストプロセッサ１３０からの制御信号Ｓ２に加えて、音声レベル判定部１０により検出された音声レベル信号Ｓ４が入力されている。

制御部３０は、原則的に制御信号Ｓ２により指定されたタイミングで音声信号を生成し、再生する。しかし、環境音が大きいときに音声信号を再生しても、ユーザがこれを聞き逃すおそれがある。そこで、制御部３０は、音声レベル判定部１０により判定された環境音レベルが、所定のしきい値レベルより高いとき、音声信号の再生を遅延させる。

つぎにしきい値レベルの設定方法について説明する。制御部３０は、音声レベル判定部１０により判定された環境音レベルに応じて、しきい値レベルを適応的に変化させる。音声レベル判定部１０は、数分ごと、数時間ごと、数日ごとなど、所定の期間おきに定期的に周囲環境音レベルを判定してもよい。

しきい値レベルの設定は、以下のように行ってもよい。制御部３０は、ある期間にわたって、音声レベル判定部１０により取得された環境音レベルを平均し、平均環境音レベルを取得する。そしてこの平均環境音レベルに、所定のマージンを付加したレベルを、しきい値レベルに設定してもよい。この処理によって、静かな環境ではしきい値レベルが低く設定され、騒がしい環境ではしきい値レベルが高くなる。この処理によって、定常的な環境音によって音声発話システム２００による発話が遅延されるのを防止できる。

制御部３０は、制御信号Ｓ４により指定されたタイミングにおいて、環境音レベルがしきい値レベルより高い場合、音声生成部４０に音声の再生をさせずに所定の待機時間Ｔｗの間、待機させる。そして待機時間Ｔｗが経過した後、ふたたび環境音レベルをチェックし、しきい値レベルと比較する。このときに環境音レベルの方が高ければ、再び音声生成部４０の音声再生を待機させる。この処理を実行することにより、音声信号は環境音レベルがしきい値レベルより低くなった後に出力される。

なお、環境音レベルがしきい値レベルを上回った状態が長時間持続すると、音声が再生されなくなってしまう。そこで、待機時間Ｔｗの上限を設け、上限を超えると環境音レベルにかかわらず、強制的に音声を再生させるタイムアウト処理を行ってもよい。

さらに、制御部３０は、音声レベル信号Ｓ４、すなわち環境音レベルにもとづいて、音声生成部４０により生成される音声信号Ｓ６の音量を制御してもよい。すなわち、環境音レベルが高い場合、ボリウムを大きくし、環境音レベルが低い場合、ボリウムを小さくしてもよい。この処理によれば、ユーザに対して、音声発話システム２００により再生される音声をより明瞭に伝達することができる。

制御部３０は、再生すべき音声信号の内容に応じて、異なる遅延処理を実行してもよい。音声信号には、即時的な性質が要求されたり、あるいは緊急性が要求されるものが存在する。前者としては時報などが例示され、後者としては、ガス漏れ放置や火災報知などが例示される。こうした音声信号を、その他の音声信号と同様に遅延させると、音声による通知の意味をなさなくなる。そこで、音声信号の内容によって処理を分類してもよい。たとえば、あるグループに分類された音声信号については、環境音レベルによらず、遅延させず、あるいはタイムアウト時間（遅延時間の上限）を短く設定する。また、別のグループに分類された音声信号については、タイムアウト時間を長く設定したり、タイムアウト時間を設けないという処理も可能である。

さらに、音声信号の種類、性質に応じて、異なるしきい値レベルや、ボリウム値を設定してもよい。この処理によれば、音声信号ごとに最適な再生処理が可能となる。
また、音声信号ごとに優先度を定めておき、優先度に応じて異なる遅延処理を実行してもよい。たとえば、ホストプロセッサ１３０から、ほぼ同一のタイミングにおいて、２つ音声信号の出力が指示される場合が想定される。このとき、音声信号ごとに優先度を定めておき、この優先度にしたがって再生の順番を入れ替えたりしてもよい。この処理は、音声信号ごとに異なる遅延処理を行う場合に、特に有効である。

以上のように構成された音声発話システム２００の動作について説明する。
図２（ａ）、（ｂ）は、音声発話システム２００の周囲環境音と発話タイミングの関係を示すタイムチャートである。図２（ａ）は、環境音のレベルが低いとき、図２（ｂ）は、環境音のレベルが高い場合を示す。同図において、Ｌｔｈはしきい値レベルを、Ｓ４は環境音レベルを、Ｓ２は再生タイミングを指示する制御信号を、Ｓ６は再生される音声波形を示す。同図の縦軸および横軸は、理解を容易とするために適宜拡大、縮小したものであり、また示される各波形も、理解の容易のために簡略化されている。

はじめに、図２（ａ）を参照し、環境音レベルが低い場合の動作について説明する。時刻ｔ０以前、環境音レベルＳ４は、定常的なレベルに保たれている。しきい値レベルＬｔｈは、ある時刻またはある期間にわたる平均環境音レベルＳ４にマージンΔを加算した値に設定されている。
ホストプロセッサ１３０から制御部３０に対して、再生すべき音声および、再生タイミングを指示する制御信号Ｓ２が出力される。図２（ａ）の例では、再生すべきタイミングは時刻ｔ０であるが、制御信号Ｓ２が入力されるタイミングと、再生タイミングは一致しなくてもよい。時刻ｔ０において、音声レベル判定部１０により検出される環境音レベルＳ４は、しきい値レベルＬｔｈより低い。したがって、制御部３０は、ただちに、再生すべき音声波形を生成しこれを出力する。その結果、スピーカ１２０からは制御部３０により指示されたタイミングで、音声が出力される。

次に、図２（ｂ）を参照し、環境音レベルが高い場合の動作について説明する。時刻ｔ０以前、周囲環境音レベルＳ４は、定常的なレベルに保たれている。しきい値レベルＬｔｈが、環境音レベルＳ４にマージンΔを加算した値に設定されている点は図２（ａ）と同様である。

ホストプロセッサ１３０から制御部３０に対して、再生すべき音声および、再生タイミングを指示する制御信号Ｓ２が出力される。時刻ｔ０において、音声発話システム２００が搭載される電子機器の以外の機器が音声を出力していたり、あるいは電子機器の周辺で人間が会話していた場合、音声レベル判定部１０により検出される環境音レベルＳ４は、しきい値レベルＬｔｈより高くなる。したがって、制御部３０は、待機時間Ｔｗの間、音声信号を再生せずに待機する。
待機時間Ｔｗ経過後の時刻ｔ１に、制御部３０は再び環境音レベルＳ４をしきい値レベルＬｔｈと比較する。外部機器の発話は停止していれば、環境音レベルＳ４の方が低くなるため、制御部３０は、音声生成部４０に直ちに音声信号を再生させる。

このように、本実施の形態に係る音声発話システム２００によれば、外部機器による発話や周囲の人間による発声の最中に、音声信号を出力することによる音声の衝突を防止し、ユーザに必要な情報を確実に伝達することができる。

この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

音声レベル判定部１０は、マイク１４０により検出された環境音のうち、所定の周波数帯域の成分を抽出して、環境音レベルを判定してもよい。所定の周波数帯域は、音声発話システム２００により再生される音声信号の帯域付近に設定するのが好ましい。具体的には、Ａ／Ｄ変換部１４の前段または後段にフィルタを設ければよい。人間の耳には、近い周波数の複数の音声が同時に入力されると区別が困難となるが、周波数が離れていれば、同時に発話されても認識が容易となる。この処理を行えば、再生する音声信号の周波数に近い環境音が発声しているときに、遅延させることができる。

実施の形態では、機能ＩＣである音声処理回路１００によって、音声信号の再生、出力タイミングの制御を行う場合について説明したが、本発明はこれに限定されるものではない。すなわち、パーソナルコンピュータなどのソフトウェアにより動作を制御可能な機器においては、ＣＰＵ（Central Processing Unit）や汎用ＤＳＰ（Digital Signal Processor）によって、図１の音声発話システム２００の諸機能を実行させてもよい。

実施の形態にもとづき、本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎず、実施の形態には、請求の範囲に規定された本発明の思想を離脱しない範囲において、多くの変形例や配置の変更が可能である。

本発明の実施の形態に係る音声処理回路を搭載した音声発話システムの構成を示すブロック図である。図２（ａ）、（ｂ）は、音声発話システムの周囲環境音と発話タイミングの関係を示すタイムチャートである。

符号の説明

１０音声レベル判定部、１２入力部、１４Ａ／Ｄ変換部、３０制御部、４０音声生成部、４２デコーダ、４４ＲＯＭ、５０Ｄ／Ａ変換部、１００音声処理回路、１１０増幅部、１２０スピーカ、１３０ホストプロセッサ、１４０マイク、２００音声発話システム。

Claims

音声出力部から出力すべき音声信号を生成する音声処理回路であって、
本回路に接続されるマイクにより検出された周囲環境音のレベルを判定する音声レベル判定部と、
前記音声信号を生成する音声生成部と、
前記音声生成部による前記音声信号の再生を制御する制御部と、
を備え、
前記制御部は、前記音声レベル判定部により判定された周囲環境音のレベルが、所定のしきい値より高いとき、前記音声信号の再生を遅延させることを特徴とする音声処理回路。
前記制御部は、前記音声レベル判定部により判定された周囲環境音のレベルに応じて、前記しきい値を適応的に変化させることを特徴とする請求項１に記載の音声処理回路。
前記音声レベル判定部は、定期的に周囲環境音のレベルを測定し、測定された値にもとづき、前記しきい値を更新することを特徴とする請求項２に記載の音声処理回路。
前記制御部は、前記音声レベル判定部により判定された周囲環境音のレベルに応じて、前記音声信号の再生音量を変化させることを特徴とする請求項１に記載の音声処理回路。
前記制御部は、前記周囲環境音のレベルが前記しきい値より低くなるのを待って、前記音声信号を再生することを特徴とする請求項１に記載の音声処理回路。
前記制御部は、所定の時間が経過すると、周囲環境音のレベルに関わらず、前記音声信号を再生することを特徴とする請求項１に記載の音声処理回路。
再生すべき音声信号の内容に応じて、異なる遅延処理を実行することを特徴とする請求項１から６のいずれかに記載の音声処理回路。
再生すべき音声信号ごとに優先度を定めておき、優先度に応じて異なる遅延処理を実行することを特徴とする請求項１から６のいずれかに記載の音声処理回路。
一つの半導体基板上に一体集積化されたことを特徴とする請求項１から６のいずれかに記載の音声処理回路。
周囲環境音を検出するマイクと、
前記マイクにより検出された周囲環境音のレベルにもとづき、音声を生成する請求項１から６のいずれかに記載の音声処理回路と、
前記音声処理回路により生成された音声信号を出力するスピーカと、
を備えることを特徴とする電子機器。
音声信号を出力する発話システムであって、
スピーカと、
周囲環境音を検出するマイクと、
前記マイクにより検出された周囲環境音のレベルを判定する音声レベル判定部と、
前記スピーカから出力すべき音声信号を生成する音声生成部と、
前記音声生成部による前記音声信号の再生を制御する制御部と、
を備え、
前記制御部は、前記音声レベル判定部により判定された周囲環境音のレベルが、所定のしきい値より高いとき、前記音声信号の再生を遅延させることを特徴とする発話システム。
マイクを利用して周囲環境音を検出するステップと、
前記検出された周囲環境音のレベルを判定するステップと、
スピーカから出力すべき音声信号を生成するステップと、
検出された周囲環境音のレベルが、所定のしきい値より高いとき、前記音声信号の再生を遅延させるステップと、
を備えることを特徴とする音声出力方法。