JP2010156738A - 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 - Google Patents
音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 Download PDFInfo
- Publication number
- JP2010156738A JP2010156738A JP2008333569A JP2008333569A JP2010156738A JP 2010156738 A JP2010156738 A JP 2010156738A JP 2008333569 A JP2008333569 A JP 2008333569A JP 2008333569 A JP2008333569 A JP 2008333569A JP 2010156738 A JP2010156738 A JP 2010156738A
- Authority
- JP
- Japan
- Prior art keywords
- correlation
- source
- volume
- voice
- volume control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】会話内容に応じて音声を調節することができる音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体を提供する。
【解決手段】音量調節装置1において、外部環境音声抽出部4で抽出した会話情報と、ソース音声抽出部5で抽出したソース音声情報と、から相関性判別部6で一定時間内の頻度などの閾値に基づいて双方の相関を判別して、相関がある場合は音量を維持または上げ、相関がない場合は音量を下げるように音量制御部7で変化量を決定し、その決定に応じた音量に音量調節部8が調節する。
【選択図】図1
【解決手段】音量調節装置1において、外部環境音声抽出部4で抽出した会話情報と、ソース音声抽出部5で抽出したソース音声情報と、から相関性判別部6で一定時間内の頻度などの閾値に基づいて双方の相関を判別して、相関がある場合は音量を維持または上げ、相関がない場合は音量を下げるように音量制御部7で変化量を決定し、その決定に応じた音量に音量調節部8が調節する。
【選択図】図1
Description
本発明は、オーディオやラジオなどのソース音声の音量を調節する音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体に関する。
従来から使用者の周囲の音の状況に応じて適切な音量調節を行う音量調節装置は様々な形態が提案されている。
例えば、特許文献1に記載の音量制御装置では、音声パターン認識部がマイクロフォンで検出された音声に、音声パターンを記憶する記憶部に記憶された音声パターンを確認したとき、音量制御部が音量調節部に対して音量の調節を指令している。
このようにすることで、特定の音声パターンに応じて出力音声の音量を調節することができるため、例えば、音楽再生装置等の音響機器で音楽等を聴いているリスナーが、他者から話し掛けられたような場合などに、自動的に音響機器の音量を下げ、それによって、リスナーは他者からの話し掛けを聞き取りやすくすることができる。
特開2004−13084号公報
しかしながら、特許文献1に記載された音声制御装置では、例えば、複数人でオーディオ再生音やラジオなどのソース音声について会話しているような音量が下がって欲しくない状況でも、記憶部に記憶した音声パターンが検出されると音量が下がってしまう可能性があるという問題がある。
また、記憶部に記憶された音声パターンとの一致で音声を下げているので、その記憶する音声パターンが適切でないと、音量を下げることができないという問題もある。
そこで、本発明は、会話内容に応じて音声を調節することができる音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体を提供することを課題とする。
上記課題を解決するために、請求項1に記載の音量調節装置は、入力されるソース音声の音量を調節する音量調節手段を備えた音量調節装置において、前記ソース音声の信号に関するソース音声情報を抽出するソース音声抽出手段と、外部から集音した音声から会話情報を抽出する外部音声抽出手段と、前記ソース音声抽出手段が抽出した前記ソース音声情報および前記外部音声抽出手段が抽出した前記会話情報から双方の相関を判別する相関性判別手段と、前記相関性判別手段が判別した結果に基づいて、前記音量調節手段の音量を変化させる音量制御手段と、を備えたことを特徴としている。
請求項8に記載の音量調節方法は、入力されるソース音声の音量を調節する音量調節方法において、前記ソース音声の信号に関するソース音声情報を抽出し、外部から集音した音声から会話情報を抽出し、抽出した前記ソース音声情報および前記会話情報から双方の相関を判別して、その判別した結果に基づいて、前記音量を変化させることを特徴としている。
請求項9に記載の音量調節プログラムは、入力されるソース音声の音量を調節する音量調節手段としてコンピュータに機能させる音量調節プログラムにおいて、前記ソース音声の信号に関するソース音声情報を抽出するソース音声抽出手段と、外部から集音した音声から会話情報を抽出する外部音声抽出手段と、前記ソース音声抽出手段が抽出した前記ソース音声情報および前記外部音声抽出手段が抽出した前記会話情報から双方の相関を判別する相関性判別手段と、前記相関性判別手段が判別した結果に基づいて、前記音量調節手段の音量を変化させる音量制御手段と、して前記コンピュータを機能させることを特徴としている。
以下、本発明の一実施形態にかかる音量調節装置を説明する。本発明の一実施形態にかかる音量調節装置は、ソース音声抽出部が抽出したソース音声情報および外部音声抽出手段が抽出した会話情報から相関性判別手段が双方の相関を判別し、相関性判別手段が判別した結果に基づいて、音量制御手段が音量調節手段の音量を変化させているので、ソース音声と会話内容との相関に応じた適切な音量に変化させることができる。また、会話内容と相関を見るのが予め記憶したパターンではなくソース音声からリアルタイムに抽出される情報であるので、音量変化の判定漏れを少なくすることができる。
また、相関性判別手段は、予め定められた相関に関する閾値よりも相関が高い場合は相関があると判別し、閾値よりも相関が低い場合は相関がないと判別し、音量制御手段は、相関性判別手段が相関があると判別した際には音量を維持または上げるように変化させ、相関性判別手段が相関がないと判別した際には音量を下げるように変化させるようにしてもよい。このようにすることにより、相関がある場合は、当該ソース音声に関連する会話をしていると判別することができるので音量維持または上げることができ、相関がない場合は会話の妨げにならないように音量を下げることができる。
また、ソース音声抽出手段が、ソース音声情報としてソース音声の信号を音声認識して該ソース音声内の単語を抽出し、外部音声抽出手段が、会話情報として外部から集音した音声を音声認識して会話内の単語を抽出してもよい。このようにすることにより、音声認識した単語同士のマッチングにより会話とソース音声との相関を判別することができる。
また、ソース音声抽出手段が、ソース音声情報としてソース音声に関するメタデータを取得し、外部音声抽出手段が、会話情報として外部から集音した音声を音声認識して会話内の単語を抽出してもよい。このようにすることにより、ソース音声信号などに含まれたり、他の経路から取得することができるメタデータ内の曲名やアーティスト名或いは番組内容などと、会話部分の単語とのマッチングにより会話とソース音声との相関を判別することができる。
また、ソース音声抽出手段は、ソース音声情報としてソース音声の種別を示す情報を抽出し、相関性判別手段が、外部音声抽出手段が抽出した会話情報から指示語とソース音声の種別を示す用語との組み合わせが検出された場合に相関があると判別してもよい。このようにすることにより、「この曲」、「このニュース」などの指示語とソース音声の種別を示す用語との組み合わせが検出された場合に、相関があると判別することができ、より広い範囲で会話とソース音声との相関を判別することができる。
また、ソース音声抽出手段が、ソース音声情報としてソース音声の信号波形を抽出し、外部音声抽出手段が、会話情報として外部から集音した音声から会話を示す波形を抽出してもよい。このようにすることにより、楽曲の音程などをマッチングすることができ、より会話とソース音声との相関の判別が可能となる。
また、相関性判別手段が、相関がないと判別した際に、外部音声抽出手段が抽出した会話情報の重要度をさらに判別し、音量制御手段が、相関性判別手段が判別した重要度に基づいて、音量の下げ幅を決定してもよい。このようにすることにより、重要な会話の場合は音量の下げ幅を大きくして会話を妨げないようにすることができる。
また、本発明の一実施形態にかかる音量調節方法は、抽出したソース音声情報および会話情報から双方の相関を判別し、その判別した結果に基づいて、音量を変化させているので、ソース音声と会話内容との相関に応じた適切な音量に変化させることができる。また、会話内容と相関を見るのが予め記憶したパターンではなくソース音声からリアルタイムに抽出される情報であるので、音量変化の判定漏れを少なくすることができる。
また、本発明の一実施形態にかかる音量調節プログラムは、ソース音声抽出部が抽出したソース音声情報および外部音声抽出手段が抽出した会話情報から相関性判別手段が双方の相関を判別し、相関性判別手段が判別した結果に基づいて、音量制御手段が音量調節手段の音量を変化させているので、ソース音声と会話内容との相関に応じた適切な音量に変化させることができる。また、会話内容と相関を見るのが予め記憶したパターンではなくソース音声からリアルタイムに抽出される情報であるので、音量変化の判定漏れを少なくすることができる。
また、上述した音量調節プログラムをコンピュータ読み取り可能な記録媒体に格納してもよい。このようにすることにより、音量調節プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。
本発明の一実施例にかかる音量調節装置1を図1および図2を参照して説明する。音量調節装置1は、図1に示すようにマイク2と、反転合成部3と、外部環境音声抽出部4と、ソース音声抽出部5と、相関性判別部6と、音量制御部7と、音量調節部8と、入力端子9と、出力端子10と、を備えている。
マイク2は、会話などの外部環境音声とスピーカ等から放音されたオーディオやラジオなどのソース音声を集音して電気信号に変換し反転合成部3へ出力する。
反転合成部3は、入力端子9から入力されたソース音声信号の位相を反転させた信号と、マイク2が集音した外部環境音声およびソース音声の信号と、を合成することで、ソース音声部分を相殺して、会話などの外部環境音声のみとして外部環境音声抽出部4へ出力する。なお、ソース音声部分の相殺の際には、ソース音声信号が再生された時点から、入力端子9に入力される時点までの時間と、ソース音声信号がスピーカにて放音された音をマイク2が集音して反転合成部3に出力する時点までの時間との時間差や、スピーカの出力レベルやマイクの集音レベルに基づくレベル差を考慮して合成が行われる。
外部音声抽出手段としての外部環境音声抽出部4は、反転合成部3から入力された外部環境音声から会話情報を随時抽出して一時保存する。会話情報としては、例えば外部環境音声を周知の音声認識することにより得られる会話内の単語や、入力された外部環境音声(会話音声)の波形自体などが挙げられる。
ソース音声抽出手段としてのソース音声抽出部5は、オーディオ、ラジオ等のソース音声信号から、ソース音声情報を随時抽出して一時保存する。ソース音声情報としては、例えばニュース等の音声や音楽の歌詞等を周知の音声認識することにより得られる単語や、音楽の場合にソースに含まれるメタデータ内のアーティスト名や楽曲名や、ソース音声が音楽、ニュース、映画等のいずれであるかを示すソース音声の種別に関する情報、さらには、入力されたソース音声信号の波形自体などが挙げられる。なお、メタデータは例えば図示しないインターネット等の他の経路から抽出するようにしてもよい。
相関性判別手段としての相関性判別部6は、外部環境音声抽出部4およびソース音声抽出部5が抽出し一時保存した会話情報やソース音声情報から互いの相関を後述する方法により判別し、判別結果を音量制御部7へ出力する。
音量制御手段としての音量制御部7は、相関性判別部6での判別結果に基づいて音量をどのように変化させるか(上げるか、維持するか、下げるか)と、変化量を決定し、その決定に基づいて音量調節部8へ音量を変化させるよう制御する。
音量調節部8は、音量制御部7の制御に基づいて入力端子9から入力されるソース音声信号の音量を変化させて出力端子10から出力する。
次に、相関性判別部6における外部環境音声抽出部4で抽出された会話情報とソース音声抽出部5で抽出されたソース音声情報との相関を判別する方法について図2のフローチャートを参照して説明する。
まず、ステップS1において会話情報とソース音声情報との相関を判別して相関ありと判別された場合はステップS2に進み、相関なしと判別された場合はステップS7に進む。相関の判別方法としては以下の方法のうちいずれかまたは複数の組み合わせによって判別する。
第1の方法としては、外部環境音抽出部4に保存された外部環境音を音声認識することによって得られた会話内の単語と、ソース音声抽出部5に保存されたソース音声を音声認識することによって得られた音楽の歌詞やニュースなどに含まれる単語と、を照合し、相関に関する閾値として一定時間単位(例えば5秒)での一致が一定の割合(例えば50%)以上の場合は相関ありとして判別し、一定時間単位での一致が一定の割合未満の場合は相関なしとして判別する。すなわち、ソース音声抽出手段が、ソース音声情報としてソース音声の信号を音声認識して該ソース音声内の単語を抽出し、外部音声抽出手段が、会話情報として外部から集音した音声を音声認識して会話内の単語を抽出して、それらの相関を判別している。
第2の方法としては、外部環境音抽出部4に保存された外部環境音を音声認識することによって得られた会話内の単語と、ソース音声抽出部5に保存されたソース音声に含まれるメタデータから抽出したアーティスト名や楽曲名と、を照合し、相関に関する閾値として一定時間単位(例えば5秒)で一定回数(例えば1回)以上一致した場合は相関ありとして判別し、一定時間単位での一致が一定回数未満の場合は相関なしとして判別する。なお、メタデータは放送番組であれば番組タイトルや番組内容なども含まれ、また、メタデータはソース音声信号に含まれなく別経路(例えばインターネット等)から取得してもよい。すなわち、ソース音声抽出手段が、ソース音声情報としてソース音声に関するメタデータを取得し、外部音声抽出手段が、会話情報として外部から集音した音声を音声認識して会話内の単語を抽出して、それらの相関を判別している。
第3の方法としては、外部環境音抽出部4に保存された外部環境音を音声認識することによって得られた会話内の単語から、「この曲」「この歌手」「このニュース」といった指示語とソース音声の種別を示す特定キーワードとの組み合わせを検索し、ソース音声抽出部5に保存されたメタデータからどのような種別のソース音声かを判別して、相関に関する閾値として指示語と特定キーワードが一定の頻度以上(例えば10秒間で2回以上)検出した場合に相関ありと判別する。例えば、メタデータからソース音声が音楽であることが判別された場合は「曲」「歌手」などが特定キーワードとなり、会話内の単語からは「この曲」「この歌手」という言葉を検索する。すなわち、相関性判別手段が、外部音声抽出手段が抽出した会話情報から指示語とソース音声の種別を示す用語との組み合わせが検出された場合に相関があると判別している。
第4の方法としては、外部環境音抽出部4に保存された外部環境音声の波形と、ソース音声抽出部5に保存されたソース音声の波形と、を照合し、相関に関する閾値として一定時間単位(例えば5秒)での一致が一定の割合(例えば50%)以上の場合は相関ありとして判別し、一定時間単位での一致が一定の割合未満の場合は相関なしとして判別する。つまり、単語ではなく楽曲であれば音程などの一致を検出している。すなわち、ソース音声抽出手段が、ソース音声情報としてソース音声の信号波形を抽出し、外部音声抽出手段が、会話情報として外部から集音した音声から会話を示す波形を抽出して、それらの相関を判別している。
以上の4つの方法は、いずれか1つのみで相関を判別してもよいし、複数を組み合わせてその複数のうちいずれか1つの方法が相関ありと判別した場合はステップS1として相関ありと判別するようにしてもよい。
次に、ステップS2において、相関性判別部6内に設けられたカウンタをインクリメント(+1)してステップS3に進む。
次に、ステップS3において、カウンタ値が予め定められた値nよりも大きいか否か判断し、大きい場合(Yesの場合)はステップS5に進み、n以下の場合(Noの場合)はステップS4に進む。
次に、ステップS4において、音量を維持してステップS1に戻る。つまり、本フローチャートでは外部環境音声(会話内容)とソース音声とが相関ありと判定され、相関ありと判定された回数がn回以下である場合は音量を維持させている。
ステップS5においては、本フローチャートによってすでに音量を上げているか否か判断し、すでに上げている場合(Yesの場合)はステップS4に進み、まだ上げていない場合(Noの場合)はステップS6に進む。
次に、ステップS6において、音量を上げてステップS1に戻る。音量の上げ幅は例えば30%とする。つまり、本フローチャートでは相関ありとn回より多く判定されて、本フローチャートによってまだ音量を上げていない場合は音量を上げている。これは相関ありと何度も判定される場合は、そのソース音声をより明瞭に聞こえるようにしたほうがよいとの考えからである。但し、際限無く音量が上がってしまうのを回避するために本フローチャートによって音量を上げるのは一度のみに限定している。また、音量の上限値を予め定めておき、その上限値までは音量を上げることができるようにしてもよい。
一方、ステップS7においては、カウンタをクリアしてステップS8に進む。これはステップS1で相関なしと判別されたので、相関ありと判別された回数をカウントしているカウンタはクリアする。
次に、ステップS8において、会話重要度を判定してステップS9に進む。本ステップでは、外部環境音声抽出部4が抽出した会話内の単語や外部環境音声の波形から会話の重要度を判定する。具体的には、音圧レベル(口調など)や予め登録した重要であることを示すキーワード(例えば、日付、人物名、金額など)などを検出することによって判定する。
この判定は、例えば、重要キーワードが検出されない場合は音量を30%下げる、重要キーワードが検出された場合は50%下げる、重要キーワードが検出された場合でさらにその音圧レベルがある閾値を超えた場合はさらに10%下げる、重要キーワードが検出された場合で、さらに一定の頻度以上(例えば10秒間で2回以上)で重要キーワードを検出した場合はさらに10%下げる、などとする。この場合も音量の下限値を設定しその下限値以下にはならないようにしてもよい。すなわち、相関性判別手段が、相関がないと判別した際に、外部音声抽出手段が抽出した会話情報の重要度をさらに判別し、音量制御手段が、相関性判別手段が判別した重要度に基づいて、音量の下げ幅を決定している。
次に、ステップS9において、ステップS8で判定された重要度に応じた下げ幅で音量を下げてステップS1に戻る。つまり、本フローチャートでは相関なしと判定された場合は、重要度を判定し、その重要度に応じた下げ幅で音量を下げている。重要度に応じた下げ幅は重要度が上がるほど下げ幅を大きくしている。
本実施例によれば、音量調節装置1において、外部環境音声抽出部4で抽出した会話情報と、ソース音声抽出部5で抽出したソース音声情報と、から相関性判別部6で一定時間内の頻度などの閾値に基づいて双方の相関を判別して、相関がある場合は音量を維持または上げ、相関がない場合は音量を下げるように音量制御部7で変化量を決定し、その決定に応じた音量に音量調節部8が調節するので、ソース音声と会話内容との相関に応じて、相関がある場合は、当該ソース音声に関連する会話をしていると判別することができるので音量を維持または上げて、相関がない場合は会話の妨げにならないように音量を下げるといったことにより適切な音量に変化させることができる。また、会話内容と相関を見るのが予め記憶したパターンではなくソース音声から抽出される情報であるので、音量変化の判定漏れを少なくすることができる。
また、外部環境音声抽出部4が会話内容を音声認識して単語を抽出し、ソース音声抽出部5がソース音声信号を音声認識して単語を抽出しているので、双方が抽出した単語のマッチングをとることで、相関を判別することができる。
また、外部環境音声抽出部4が会話内容を音声認識して単語を抽出し、ソース音声抽出部5が、ソース音声に関するメタデータを取得しているので、ソース音声信号などに含まれたり他の経路から取得することができるメタデータに含まれる曲名やアーティスト名などと、会話部分の単語とのマッチングにより相関を判別することができる。
また、相関性判別部6が、外部環境音声抽出部4が抽出した単語から指示語とソース音声の種別を示す単語との組み合わせが検出された場合に相関があると判別しているので、「この曲」などの指示語とソース音声の種別を示す単語との組み合わせが検出された場合に、相関があると判別することができ、より広い範囲で相関を判別することができる。
また、外部環境音声抽出部4が、外部から集音した音声信号の波形を抽出し、ソース音声抽出部5が、ソース音声信号の波形を抽出しているので、楽曲の音程などによるマッチングによる相関の判別が可能となる。そのため、例えば鼻歌などで歌詞を歌っていない場合でも相関があるとの判別が可能となる。
また、相関性判別部6が、相関がないと判別した際に、外部環境音声抽出部4が抽出した会話部分の情報の重要度をさらに判別し、音量制御部7が、相関性判別部6が判別した重要度に基づいて、音量の下げ幅を決定してもよい。このようにすることにより、重要な会話の場合は音量の下げ幅を大きくして会話を妨げないようにすることができる。
なお、上述した実施例では、音量を上げると判別されるのは、相関ありとn回より多く判別される場合であるが、例えば、ソース音声抽出部5がメタデータを取得してそのメタデータから楽曲名やアーティスト名が取得された際にはソース音声が音楽であると識別し、その後相関性があると判別された場合は、ユーザ等が歌っていると判断して音量を上げるように制御してもよい。あるいは、相関を判別した際に一致する単語などの一致率の高さに基づいて音量を上げるか維持するかを判定してもよい。
なお、上述した実施例で挙げた相関を判断する際の閾値(5秒間に50%以上や10秒間で2回以上)や音量の上げ幅下げ幅は一例であり、適宜設定すればよい。また、この閾値や上げ幅下げ幅はユーザ等が任意に変更できるようにしてもよい。
また、上述した実施例では、音量調節装置1として構成したが、CPUとメモリを備えたコンピュータで実行するプログラムに各部の機能を実装することで音量調節プログラムとして構成することもできる。
前述した実施例によれば、以下の音量調節装置1および音量調節方法および音量調節プログラムが得られる。
(付記1)入力されるソース音声の音量を調節する音量調節部8を備えた音量調節装置1において、
ソース音声の信号に関するソース音声情報を抽出するソース音声抽出部5と、
外部から集音した音声から会話情報を抽出する外部環境音声抽出部4と、
ソース音声抽出部5が抽出したソース音声情報および外部環境音声抽出部4が抽出した会話情報から双方の相関を判別する相関性判別部6と、
相関性判別部6が判別した結果に基づいて、音量調節部8の音量を変化させる音量制御部7と、
を備えたことを特徴とする音量調節装置1。
ソース音声の信号に関するソース音声情報を抽出するソース音声抽出部5と、
外部から集音した音声から会話情報を抽出する外部環境音声抽出部4と、
ソース音声抽出部5が抽出したソース音声情報および外部環境音声抽出部4が抽出した会話情報から双方の相関を判別する相関性判別部6と、
相関性判別部6が判別した結果に基づいて、音量調節部8の音量を変化させる音量制御部7と、
を備えたことを特徴とする音量調節装置1。
この音量調節装置1によれば、ソース音声と会話内容との相関に応じた適切な音量に変化させることができる。また、会話内容と相関を見るのが予め記憶したパターンではなくソース音声に関する情報やソース音声信号自体であるので、音量変化の判定漏れを少なくすることができる。
(付記2)入力されるソース音声の音量を調節する音量調節方法において、
ソース音声の信号に関するソース音声情報を抽出し、外部から集音した音声から会話情報を抽出し、抽出したソース音声情報および会話情報から双方の相関を判別して、その判別した結果に基づいて、音量を変化させることを特徴とする音量調節方法。
ソース音声の信号に関するソース音声情報を抽出し、外部から集音した音声から会話情報を抽出し、抽出したソース音声情報および会話情報から双方の相関を判別して、その判別した結果に基づいて、音量を変化させることを特徴とする音量調節方法。
この音量調節方法によれば、ソース音声と会話内容との相関に応じた適切な音量に変化させることができる。また、会話内容と相関を見るのが予め記憶したパターンではなくソース音声に関する情報やソース音声信号自体であるので、音量変化の判定漏れを少なくすることができる。
(付記3)入力されるソース音声の音量を調節する音量調節部8としてコンピュータに機能させる音量調節プログラムにおいて、
ソース音声の信号に関するソース音声情報を抽出するソース音声抽出部5と、
外部から集音した音声から会話情報を抽出する外部環境音声抽出部4と、
ソース音声抽出部5が抽出したソース音声情報および外部音声抽出手部4が抽出した会話情報から双方の相関を判別する相関性判別部6と、
相関性判別部6が判別した結果に基づいて、音量調節部8の音量を変化させる音量制御部7と、
して前記コンピュータを機能させることを特徴とする音量調節プログラム。
ソース音声の信号に関するソース音声情報を抽出するソース音声抽出部5と、
外部から集音した音声から会話情報を抽出する外部環境音声抽出部4と、
ソース音声抽出部5が抽出したソース音声情報および外部音声抽出手部4が抽出した会話情報から双方の相関を判別する相関性判別部6と、
相関性判別部6が判別した結果に基づいて、音量調節部8の音量を変化させる音量制御部7と、
して前記コンピュータを機能させることを特徴とする音量調節プログラム。
この音量調節プログラムによれば、ソース音声と会話内容との相関に応じた適切な音量に変化させることができる。また、会話内容と相関を見るのが予め記憶したパターンではなくソース音声に関する情報やソース音声信号自体であるので、音量変化の判定漏れを少なくすることができる。
なお、前述した実施例は本発明の代表的な形態を示したに過ぎず、本発明は、実施例に限定されるものではない。すなわち、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。
1 音量調節装置
4 外部環境音声抽出部(外部音声抽出手段)
5 ソース音声抽出部(ソース音声抽出手段)
6 相関性判別部(相関性判別手段)
7 音量制御部(音量制御手段)
8 音量調節部(音量調節手段)
4 外部環境音声抽出部(外部音声抽出手段)
5 ソース音声抽出部(ソース音声抽出手段)
6 相関性判別部(相関性判別手段)
7 音量制御部(音量制御手段)
8 音量調節部(音量調節手段)
Claims (10)
- 入力されるソース音声の音量を調節する音量調節手段を備えた音量調節装置において、
前記ソース音声の信号に関するソース音声情報を抽出するソース音声抽出手段と、
外部から集音した音声から会話情報を抽出する外部音声抽出手段と、
前記ソース音声抽出手段が抽出した前記ソース音声情報および前記外部音声抽出手段が抽出した前記会話情報から双方の相関を判別する相関性判別手段と、
前記相関性判別手段が判別した結果に基づいて、前記音量調節手段の音量を変化させる音量制御手段と、
を備えたことを特徴とする音量調節装置。 - 前記相関性判別手段は、予め定められた相関に関する閾値よりも相関が高い場合は相関があると判別し、前記閾値よりも相関が低い場合は相関がないと判別し、
前記音量制御手段は、前記相関性判別手段が相関があると判別した際には前記音量を維持または上げるように変化させ、前記相関性判別手段が相関がないと判別した際には前記音量を下げるように変化させる
ことを特徴とする請求項1に記載の音量調節装置。 - 前記ソース音声抽出手段が、前記ソース音声情報として前記ソース音声の信号を音声認識して該ソース音声内の単語を抽出し、
前記外部音声抽出手段が、前記会話情報として外部から集音した音声を音声認識して会話内の単語を抽出する
ことを特徴とする請求項1または2に記載の音量調節装置。 - 前記ソース音声抽出手段が、前記ソース音声情報として前記ソース音声に関するメタデータを取得し、
前記外部音声抽出手段が、前記会話情報として外部から集音した音声を音声認識して会話内の単語を抽出する
ことを特徴とする請求項1乃至3のうちいずれか一項に記載の音量調節装置。 - 前記ソース音声抽出手段は、前記ソース音声情報として前記ソース音声の種別を示す情報を抽出し、
前記相関性判別手段が、前記外部音声抽出手段が抽出した前記会話情報から指示語と前記ソース音声の種別を示す用語との組み合わせが検出された場合に相関があると判別することを特徴とする請求項1乃至4のうちいずれか一項に記載の音量調節装置。 - 前記ソース音声抽出手段が、前記ソース音声情報として前記ソース音声の信号波形を抽出し
前記外部音声抽出手段が、前記会話情報として外部から集音した音声から会話を示す波形を抽出する
ことを特徴とする請求項1乃至5のうちいずれか一項に記載の音量調節装置。 - 前記相関性判別手段が、相関がないと判別した際に、前記外部音声抽出手段が抽出した前記会話情報の重要度をさらに判別し、
前記音量制御手段が、前記相関性判別手段が判別した前記重要度に基づいて、前記音量の下げ幅を決定する
ことを特徴とする請求項1乃至6のうちいずれか一項に記載の音量調節装置。 - 入力されるソース音声の音量を調節する音量調節方法において、
前記ソース音声の信号に関するソース音声情報を抽出し、外部から集音した音声から会話情報を抽出し、抽出した前記ソース音声情報および前記会話情報から双方の相関を判別して、その判別した結果に基づいて、前記音量を変化させることを特徴とする音量調節方法。 - 入力されるソース音声の音量を調節する音量調節手段としてコンピュータに機能させる音量調節プログラムにおいて、
前記ソース音声の信号に関するソース音声情報を抽出するソース音声抽出手段と、
外部から集音した音声から会話情報を抽出する外部音声抽出手段と、
前記ソース音声抽出手段が抽出した前記ソース音声情報および前記外部音声抽出手段が抽出した前記会話情報から双方の相関を判別する相関性判別手段と、
前記相関性判別手段が判別した結果に基づいて、前記音量調節手段の音量を変化させる音量制御手段と、
して前記コンピュータを機能させることを特徴とする音量調節プログラム。 - 請求項9に記載の音量調節プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008333569A JP2010156738A (ja) | 2008-12-26 | 2008-12-26 | 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008333569A JP2010156738A (ja) | 2008-12-26 | 2008-12-26 | 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010156738A true JP2010156738A (ja) | 2010-07-15 |
Family
ID=42574724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008333569A Pending JP2010156738A (ja) | 2008-12-26 | 2008-12-26 | 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010156738A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014158151A (ja) * | 2013-02-15 | 2014-08-28 | Seiko Epson Corp | 音処理装置および音処理装置の制御方法 |
JP2017516196A (ja) * | 2014-04-17 | 2017-06-15 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 会話検出 |
CN109992238A (zh) * | 2019-03-28 | 2019-07-09 | 广东九联科技股份有限公司 | 一种多媒体终端设备的音量自动调节系统与方法 |
US10679648B2 (en) | 2014-04-17 | 2020-06-09 | Microsoft Technology Licensing, Llc | Conversation, presence and context detection for hologram suppression |
CN112116923A (zh) * | 2020-10-27 | 2020-12-22 | 广州朗国电子科技有限公司 | 自动调节系统音量的方法、装置、终端设备及存储介质 |
CN112307161A (zh) * | 2020-02-26 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于播放音频的方法和装置 |
JP2021141586A (ja) * | 2020-03-06 | 2021-09-16 | アルゴリディム ゲー・エム・ベー・ハーalgoriddim GmbH | オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001343988A (ja) * | 2000-05-31 | 2001-12-14 | Iseki & Co Ltd | 農業機械のモニタ装置 |
JP2004013084A (ja) * | 2002-06-11 | 2004-01-15 | Sharp Corp | 音量制御装置 |
JP2004133403A (ja) * | 2002-09-20 | 2004-04-30 | Kobe Steel Ltd | 音声信号処理装置 |
JP2008042499A (ja) * | 2006-08-04 | 2008-02-21 | Sharp Corp | 音量制御装置及びそれを用いた音声データ再生装置 |
-
2008
- 2008-12-26 JP JP2008333569A patent/JP2010156738A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001343988A (ja) * | 2000-05-31 | 2001-12-14 | Iseki & Co Ltd | 農業機械のモニタ装置 |
JP2004013084A (ja) * | 2002-06-11 | 2004-01-15 | Sharp Corp | 音量制御装置 |
JP2004133403A (ja) * | 2002-09-20 | 2004-04-30 | Kobe Steel Ltd | 音声信号処理装置 |
JP2008042499A (ja) * | 2006-08-04 | 2008-02-21 | Sharp Corp | 音量制御装置及びそれを用いた音声データ再生装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014158151A (ja) * | 2013-02-15 | 2014-08-28 | Seiko Epson Corp | 音処理装置および音処理装置の制御方法 |
JP2017516196A (ja) * | 2014-04-17 | 2017-06-15 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 会話検出 |
US10529359B2 (en) | 2014-04-17 | 2020-01-07 | Microsoft Technology Licensing, Llc | Conversation detection |
US10679648B2 (en) | 2014-04-17 | 2020-06-09 | Microsoft Technology Licensing, Llc | Conversation, presence and context detection for hologram suppression |
CN109992238A (zh) * | 2019-03-28 | 2019-07-09 | 广东九联科技股份有限公司 | 一种多媒体终端设备的音量自动调节系统与方法 |
CN109992238B (zh) * | 2019-03-28 | 2023-12-15 | 广东九联科技股份有限公司 | 一种多媒体终端设备的音量自动调节系统与方法 |
CN112307161A (zh) * | 2020-02-26 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于播放音频的方法和装置 |
CN112307161B (zh) * | 2020-02-26 | 2022-11-22 | 北京字节跳动网络技术有限公司 | 用于播放音频的方法和装置 |
JP2021141586A (ja) * | 2020-03-06 | 2021-09-16 | アルゴリディム ゲー・エム・ベー・ハーalgoriddim GmbH | オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法 |
CN112116923A (zh) * | 2020-10-27 | 2020-12-22 | 广州朗国电子科技有限公司 | 自动调节系统音量的方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
JP2010156738A (ja) | 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 | |
ES2630398T3 (es) | Dispositivo de control y método de control del ecualizador | |
US20130044885A1 (en) | System And Method For Identifying Original Music | |
JP2008096483A (ja) | 音響出力制御装置、音響出力制御方法 | |
EP3065130B1 (en) | Voice synthesis | |
JP2006195385A (ja) | 音楽再生装置および音楽再生プログラム | |
CN110675886A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
US11024330B2 (en) | Signal processing apparatus, signal processing method, and storage medium | |
JP6615952B1 (ja) | テキスト表示用同期情報生成装置および方法 | |
KR20140028336A (ko) | 음성 변환 장치 및 이의 음성 변환 방법 | |
JP2009210790A (ja) | 選曲歌手分析推薦装置、その方法及びプログラム | |
JP4752516B2 (ja) | 音声対話装置および音声対話方法 | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
JP2005070430A (ja) | 音声出力装置および方法 | |
JP2017187676A (ja) | 音声判別装置、音声判別方法、コンピュータプログラム | |
JP6184494B2 (ja) | 音声合成辞書作成装置及び音声合成辞書作成方法 | |
Jang et al. | Enhanced Feature Extraction for Speech Detection in Media Audio. | |
JP4707621B2 (ja) | 情報検索システム | |
JP2014199445A (ja) | サウンドマスキング装置、方法及びプログラム | |
JP6044490B2 (ja) | 情報処理装置、話速データ生成方法、及びプログラム | |
JP2023539121A (ja) | オーディオコンテンツの識別 | |
JP2006276560A (ja) | 音楽再生装置および音楽再生方法 | |
JP2011013383A (ja) | オーディオ信号補正装置及びオーディオ信号補正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130604 |