JP2016167782A - 音声処理装置、音声処理方法およびプログラム - Google Patents

音声処理装置、音声処理方法およびプログラム Download PDF

Info

Publication number
JP2016167782A
JP2016167782A JP2015047658A JP2015047658A JP2016167782A JP 2016167782 A JP2016167782 A JP 2016167782A JP 2015047658 A JP2015047658 A JP 2015047658A JP 2015047658 A JP2015047658 A JP 2015047658A JP 2016167782 A JP2016167782 A JP 2016167782A
Authority
JP
Japan
Prior art keywords
utterance
demodulated
demodulated signal
detected
utterances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015047658A
Other languages
English (en)
Other versions
JP6478727B2 (ja
Inventor
祐介 木田
Yusuke Kida
祐介 木田
誠 広畑
Makoto Hirohata
誠 広畑
尚水 吉田
Takami Yoshida
尚水 吉田
達馬 石原
Tatsuma Ishihara
達馬 石原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015047658A priority Critical patent/JP6478727B2/ja
Publication of JP2016167782A publication Critical patent/JP2016167782A/ja
Application granted granted Critical
Publication of JP6478727B2 publication Critical patent/JP6478727B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

【課題】異常電波による音声通信を効率よく検出する。【解決手段】分割部は、受信した電波信号を複数のサブバンド信号に分割する。復調部は、複数のサブバンド信号を個別に復調して複数の復調信号を生成する。検出部は、複数の復調信号の各々から発話を検出する。判定部は、複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、注目する復調信号に対し対応するフィルタバンクの通過帯域が近い他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する。選択部は、第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択する。【選択図】図1

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。
近年の通信需要の増大に伴い、無線通信装置(無線移動局及び無線基地局)が急速に普及している。このような状況のなかで秩序を保ち、かつ有効に電波を利用するためには、それぞれの無線通信装置を一定の条件のもとで使用する必要がある。しかしながら、無線通信装置の故障や違法な運用などにより、全ての無線通信装置が条件を満たして運用されているとは言えない状況にある。これらの無線通信装置を放置すると、正常に運用されている無線通信装置の運用に障害を及ぼすおそれがあるため、電波の利用状況を監視して異常電波の発生を防止することが重要になってきている。しかし、電波信号の周波数帯域は広範であり、その全体を人が常時監視するにはコストがかかる。そこで、電波信号から自動的に目的信号を検出する技術に注目が集まっている。
ここで、異常電波による音声通信を検出することを考える。この場合、目的信号は音声(人の発話)である。音響信号から人の発話を自動的に検出する技術として、「発話区間検出」と呼ばれる技術が知られている。発話区間検出は主に音声認識等で用いられる技術であり、これまでに様々な方式が開発されている。この発話区間検出の技術は、異常電波による音声通信を検出する場合にも有用な技術と考えられる。
異常電波の通信者が用いる周波数帯域は、通常は事前に知ることができない。そこで、異常電波の存在する周波数帯域を特定するために、通過させる周波数帯域(通過帯域)が異なる複数のバンドパスフィルタにより構成されるフィルタバンクを用いる方法が考えられる。フィルタバンクによって電波信号を複数のサブバンド信号に分割し、各サブバンド信号を復調した復調信号を対象に発話区間検出を実行することで、発話(音声)が検出されたバンドパスフィルタの通過帯域から異常電波の通信者が用いる周波数帯域を特定することができる。
特開2007−17620号公報
しかしながら、隣接するバンドパスフィルタ同士の通過帯域がオーバーラップする場合など、フィルタバンクの構成によっては、一つの異常電波が複数のバンドパスフィルタを通過してしまう可能性がある。ここで、異常電波に発話が含まれている場合、複数のバンドパスフィルタに対応する複数の復調信号から、同一の発話が検出されることになる。そのため、例えば、検出された発話を人が聴いて確認する際に同じ発話を何度も聴くことになるなど、確認作業が煩雑になり、異常電波による音声通信の検出を効率よく行えなくなる問題があった。
本発明が解決しようとする課題は、異常電波による音声通信を効率よく検出することができる音声処理装置、音声処理方法およびプログラムを提供することである。
実施形態の音声処理装置は、分割部と、復調部と、検出部と、判定部と、選択部と、を備える。分割部は、通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割する。復調部は、前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成する。検出部は、発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出する。判定部は、前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、前記注目する復調信号に対応するバンドパスフィルタに対して通過帯域が近い他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する。選択部は、第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択する。
実施形態の音声処理装置の機能的な構成例を示すブロック図。 実施形態の音声処理装置による処理手順の一例を示すフローチャート。 フィルタバンクの構成例を説明する図。 電波信号中に存在する発話の一例を時間−周波数平面上で表した図。 復調信号の波形例を示す図。 復調信号の波形例を示す図。 復調信号の波形例を示す図。 図5に示す復調信号から発話を検出した結果を示す図。 図6に示す復調信号から発話を検出した結果を示す図。 図7に示す復調信号から発話を検出した結果を示す図。 発話に関する情報の一例を示す図。 音声処理装置のハードウェア構成例を示すブロック図。
以下、添付図面を参照しながら、実施形態の音声処理装置、音声処理方法およびプログラムについて詳細に説明する。本実施形態の音声処理装置は、電波信号から人の発話(音声)を検出し、検出した発話に関する情報を出力する。
まず、本実施形態の音声処理装置の構成について、図1を参照して説明する。図1は、本実施形態の音声処理装置1の機能的な構成例を示すブロック図である。図1に示すように、音声処理装置1は、分割部11と、複数の復調部12_1,12_2,・・・,12_n(以下、これらを総称して復調部12と表記する。)と、複数の検出部13_1,13_2,・・・,13_n(以下、これらを総称して検出部13と表記する。)と、判定部14と、選択部15と、出力部16とを備える。
分割部11は、通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割する。フィルタバンクを構成する複数のバンドパスフィルタは、通過帯域の一部が、隣接するバンドパスフィルタの通過帯域とオーバーラップしていてもよい。
復調部12は、分割部11により分割されたサブバンド信号を復調して復調信号を生成する。複数の復調部12は、各々が個別のサブバンド信号に対応する。すなわち、複数の復調部12の各々は、フィルタバンクを構成する各バンドパスフィルタを通過した信号であるサブバンド信号を個別に復調する。これにより、フィルタバンクを構成する複数のバンドパスフィルタに各々対応する複数の復調信号が生成される。電波信号の変調および復調部12によるサブバンド信号の復調の方法としては、例えば、周波数偏移変調(FSK)や位相変調(PSK)などのデジタル変調であってもよいし、振幅変調(AM)や周波数変調(FM)などのアナログ変調であってもよい。
なお、図1では、複数のサブバンド信号に対する復調を並列処理により実行することを想定して、サブバンド信号の数と同じ数(フィルタバンクを構成するバンドパスフィルタの数と同じ数)の復調部12を備える構成を例示しているが、これに限らない。例えば単一の復調部12またはサブバンド信号の数よりも少ない数の復調部12により、複数のサブバンド信号の少なくとも一部に対する復調を時系列で行う構成であってもよい。また、分割部11により分割された複数のサブバンド信号および復調部12により復調された複数の復調信号の各々は、信号成分の時間方向の位置を表す共通の時刻情報が付加されているものとする。
検出部13は、復調部12により生成された復調信号に対し、発話の尤もらしさを表す信頼度スコアを復調信号の時間方向に沿って算出し、算出した信頼度スコアに基づいて復調信号から発話を検出する。複数の検出部13は、各々が個別の復調信号に対応する。すなわち、複数の検出部13の各々は個別の復調部12に対応して設けられ、各復調部12により生成された復調信号に対して個別に発話を検出する処理を行う。信頼度スコアに基づいて発話を検出する方法は、例えば特許文献1に記載されている方法など、公知の方法を利用することができる。
なお、図1では、複数の復調信号に対する発話の検出を並列処理により実行することを想定して、サブバンド信号の数と同じ数(フィルタバンクを構成するバンドパスフィルタの数と同じ数)の検出部13を備える構成を例示しているが、これに限らない。例えば単一の検出部13または復調信号の数よりも少ない数の検出部13により、複数の復調信号の少なくとも一部に対する発話の検出を時系列で行う構成であってもよい。
判定部14は、複数の検出部13による発話の検出結果をもとに、異なる検出部13によって異なる復調信号から各々検出された発話の同一性を判定する。ここで、複数の復調信号のうち注目する復調信号から検出された発話を「第1の発話」とし、注目する復調信号に対応するバンドパスフィルタに対して通過帯域が近い他のバンドパスフィルタに対応する復調信号から検出された発話を「第2の発話」とする。なお、ここでいう他のバンドパスフィルタは、注目する復調信号に対応するバンドパスフィルタに対して周波数方向に隣接するバンドパスフィルタとしてもよい。
判定部14は、まず、注目する復調信号から検出された第1の発話のそれぞれに対し、少なくとも一部の時刻が重なる第2の発話を探索する。そして、探索の結果、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上見つかった場合、これら第1の発話と第2の発話とが同一の発話であるか否かを判定する。判定部14は、注目する復調信号を切替えながら、複数の復調信号のそれぞれに対し以上の処理を繰り返し行う。
第1の発話と第2の発話が同一の発話であるか否かは、例えば、それぞれの発話が存在する時刻の重なり度合いに基づいて判定することができる。具体的には例えば、第1の発話と第2の発話の開始時刻のずれが所定の時間以内であり、かつ、第1の発話と第2の発話の終了時刻のずれが所定の時間以内である場合に、これらの発話を同一の発話であると判定する。
また、第1の発話と第2の発話が同一の発話であるか否かは、例えば、第1の発話から抽出した特徴量と第2の発話から抽出した特徴量との類似性の評価結果に基づいて判定することができる。ここで用いる特徴量としては、例えば、対数パワーやMFCC(Mel−Frequency Cepstrum Coefficient)などが挙げられる。また、検出部13で算出した信頼度スコアを特徴量として用いてもよい。特徴量の類似性を評価する方法としては、例えば、第1の発話と第2の発話からそれぞれ時刻(例えばフレーム)ごとに算出した特徴量の相関係数(例えば内積など)を利用することができる。このとき、第1の発話と第2の発話の時刻が完全に一致しておらず、一部の時刻が重なっている場合には、重なった部分の時刻を用いて特徴量の類似性を評価してもよいし、2つの発話を包含する時刻を用いて特徴量の類似性を評価してもよい。
選択部15は、判定部14による判定の結果を利用して、複数の検出部13により複数の復調信号から各々検出された発話のうち、後述の出力部16によって情報を出力する対象となる発話を選択する。すなわち、選択部15は、判定部14によって第1の発話と第2の発話とが同一の発話であると判定された場合は、これら第1の発話と第2の発話のうちのいずれかの発話、例えば、検出部13で算出した信頼度スコアが高い方の発話を選択する。また、選択部15は、判定部14による処理において、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つも見つからない場合、または、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上見つかったが、これら第1の発話と第2の発話が同一の発話でないと判定された場合は、第1の発話を選択する。
また、選択部15は、判定部14により同一の発話と判定された第1の発話と第2の発話のうちのいずれかの発話を選択した場合、選択した発話と選択しなかった発話の時刻が完全に一致していなければ、選択した発話に対して、選択されなかった発話の一部であって選択した発話に時刻が重ならない部分を統合してもよい。この場合、この統合した発話が、後述の出力部16によって情報を出力する対象となる発話とされる。
出力部16は、選択部15により選択された発話に関する情報を出力する。出力部16が出力する情報としては、例えば、選択部15により選択された発話の音声信号であってもよいし、発話が検出された復調信号に対応するバンドパスフィルタの番号や、検出された発話が存在する時刻など、選択された発話を特定するための情報であってもよい。また、これらの情報を組み合わせて出力してもよい。さらに、選択した発話の信頼度スコアを付加して出力してもよい。
また、出力部16は、選択部15により選択された発話に関する情報と併せて、選択されなかった発話に関する情報を出力してもよい。例えば、選択部15により選択された発話の音声信号と組み合わせて、選択された発話が検出された復調信号に対応するバンドパスフィルタの番号だけでなく、選択されなかった発話が検出された復調信号に対応するバンドパスフィルタの番号も併せて出力するようにしてもよい。
次に、本実施形態の音声処理装置1の動作について、図2を参照して説明する。図2は、音声処理装置1による処理手順の一例を示すフローチャートである。この図2のフローチャートで示す一連の処理は、電波信号の受信と併せて音声処理装置1により所定周期で繰り返し実行される。
図2のフローチャートで示す処理が開始されると、まず、分割部11が、受信した電波信号を複数のサブバンド信号に分割する(ステップS101)。分割部11によって分割された複数のサブバンド信号は、複数の復調部12に各々供給される。
次に、複数の復調部12のそれぞれが、分割部11から供給されたサブバンド信号を個別に復調して、複数の復調信号を生成する(ステップS102)。複数の復調部12により生成された複数の復調信号は、対応する複数の検出部13に各々供給される。
次に、複数の検出部13のそれぞれが、発話の尤もらしさを表す信頼度スコアに基づいて、復調部12から供給された復調信号から発話を検出する(ステップS103)。複数の検出部13による発話の検出結果は、判定部14および選択部15に供給される。
次に、判定部14が、複数の検出部13による発話の検出結果をもとに、異なる検出部13によって異なる復調信号から各々検出された発話の同一性を判定する処理を行う。すなわち、判定部14は、まず、注目する復調信号から検出された第1の発話の各々について、第1の発話に対して少なくとも一部の時刻が重なる第2の発話を探索する(ステップS104)。そして、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合、判定部14は、これら第1の発話と第2の発話が同一の発話であるか否かを判定する(ステップS105)。判定部14は、注目する復調信号を切替えながら、複数の検出部13により検出されたすべての発話について、ステップS104およびステップS105の処理を繰り返し行う。判定部14による判定の結果は、選択部15に供給される。
次に、選択部15が、判定部14による判定の結果を利用して、複数の検出部13により複数の復調信号から各々検出された発話のうち、出力部16によって情報を出力する対象となる発話を選択する(ステップS106)。選択部15による選択の結果は出力部16に供給される。
最後に、出力部16が、選択部15により選択された発話に関する情報を、分割部11から判定部14までの各部から取得し、例えばディスプレイやスピーカなどの出力装置、HDDなどのファイル記憶装置、ネットワークに接続された通信I/Fなどに出力する(ステップS107)。
以上説明したように、本実施形態の音声処理装置1は、受信した電波信号を複数のサブバンド信号に分割し、各サブバンド信号を復調した復調信号から各々発話を検出する。このとき、異なる復調信号から同一の発話が検出された場合は、判定部14および選択部15の処理によりいずれかの発話が選択され、選択された発話に関する情報が出力される。したがって、例えば、検出された発話を人が聴いて確認する際に同じ発話を何度も聴くことがなく、確認作業にかかる手間を軽減できるため、異常電波による音声通信の検出を効率よく行うことができる。
次に、具体的な事例を挙げながら、本実施形態の音声処理装置1による処理の一例を説明する。まず、処理対象となる電波信号の具体例と、検出部13までの処理結果について述べる。
図3は、分割部11におけるフィルタバンクの構成例を説明する図である。図3に例示するフィルタバンクは、通過帯域の幅が8000ヘルツである複数のバンドパスフィルタを6000ヘルツおきに並べることで構成されている。フィルタバンクを構成する個々のバンドパスフィルタは、通過帯域の一部が隣接するバンドパスフィルタの通過帯域とオーバーラップしている。
図4は、電波信号中に存在する発話の一例を時間−周波数平面上で表した図である。本例では、電波信号中に発話U11と発話U12とが存在しているものとする。図4の左側には図3に例示したフィルタバンクが示されている。本フィルタバンクを用いてこの電波信号を分割すると、バンドパスフィルタF1を通過したサブバンド信号とバンドパスフィルタF2を通過したサブバンド信号とに、発話U11の信号成分が含まれることになる。また、バンドパスフィルタF3を通過したサブバンド信号に、発話U12の信号成分が含まれることになる。
図5は、バンドパスフィルタF1を通過したサブバンド信号を復調して得られる復調信号の波形例を示す図である。図6は、バンドパスフィルタF2を通過したサブバンド信号を復調して得られる復調信号の波形例を示す図である。図7は、バンドパスフィルタF3を通過したサブバンド信号を復調して得られる復調信号の波形例を示す図である。図中のT0およびTnは、それぞれ共通の時刻を示している。
図8乃至図10は、図5乃至図7に示した復調信号に対してそれぞれ検出部13により発話を検出した結果を示す図である。図中のグラフは、検出部13で算出した信頼度スコアの時系列を表している。本例では、検出部13において、信頼度スコアが閾値を上回った区間を発話として検出するものとする。その結果、バンドパスフィルタF1に対応する復調信号からは、図8に示すように、26.4秒から30.3秒までの区間が発話U21として検出されている。また、バンドパスフィルタF2に対応する復調信号からは、図9に示すように、26.1秒から29.9秒までの区間が発話U22として検出されている。また、バンドパスフィルタF3に対応する復調信号からは、図10に示すように、18.4秒から38.1秒までの区間が発話U23として検出されている。
図11は、本例における検出部13によって検出された発話U21,U22,U23に関する情報の一例を示す図である。図中の平均信頼度スコアは、発話区間内における信頼度スコアの平均を示している。
次に、本例における判定部14、選択部15および出力部16の挙動について説明する。
本例における判定部14は、検出された発話ごとに、当該発話が検出された復調信号に対して、対応するバンドパスフィルタが隣接する他の復調信号から検出された発話であって、当該発話と少なくとも一部の時刻が重なった発話を探索する。この方法によると、判定部14は、はじめに、バンドパスフィルタF1に対応する復調信号から検出された発話U21について、隣接するバンドパスフィルタF0に対応する復調信号およびバンドパスフィルタF2に対応する復調信号に対する検出部13の結果から、対象となる発話を探索する。本例では、バンドパスフィルタF0に対応する復調信号からは発話が検出されず、バンドパスフィルタF2に対応する復調信号からは発話U22が検出されている。そして、発話U22は、26.4秒から29.9秒までの区間において、発話U21と重なっている。そこで、判定部14は、発話U21と発話U22が同一の発話であるか否かを後に判定するため、2つの発話U21,U22を組にして記憶部に書き込む。
判定部14は、次に、バンドパスフィルタF2に対応する復調信号から検出された発話U22について、隣接するバンドパスフィルタF1に対応する復調信号およびバンドパスフィルタF3に対応する復調信号に対する検出部13の結果から、対象となる発話を探索する。本例では、バンドパスフィルタF1に対応する復調信号からは発話U21が検出され、バンドパスフィルタF3に対応する復調信号からは発話U23が検出されている。そして、発話U23は、26.1秒から29.9秒までの区間において、発話U22と重なっている。そこで、判定部14は、発話U22と発話U23が同一の発話であるか否かを後に判定するため、2つの発話U22,U23を組にして記憶部に書き込む。なお、発話U21と発話U22の組はすでに記憶部に書き込まれているため、重複を避けるためにここでは新たな書き込みは行わない。
判定部14は、次に、記憶部に書き込まれた発話の組の各々について、両発話が同一の発話であるか否かを判定する。本例における判定部14は、2つの発話の重なった時刻を用いて信頼度スコアの相関係数を算出し、相関係数が事前に定めた閾値(ここでは0.60とする)を上回ったかどうかにより、2つの発話が同一の発話であるか否かを判定するものとする。
まず、発話U21と発話U22の組については、両発話の重なった時刻である26.4秒から29.9秒までの区間において、バンドパスフィルタF1に対応する復調信号から算出された信頼度スコアと、バンドパスフィルタF2に対応する復調信号から算出された信頼度スコアとの相関係数を求める。その結果、算出された相関係数は0.91であり、閾値である0.60を上回るため、判定部14はこれら2つの発話が同一の発話であると判定する。次に、発話U22と発話U23の組については、両発話の重なった時刻である26.1秒から29.9秒までの区間において、バンドパスフィルタF2に対応する復調信号から算出された信頼度スコアと、バンドパスフィルタF3に対応する復調信号から算出された信頼度スコアとの相関係数を求める。その結果、算出された相関係数は0.08であり、閾値である0.60を下回るため、判定部14はこれら2つの発話が同一の発話ではないと判定する。
判定部14での判定結果を受け、本例における選択部15は、同一と判定された発話が存在しなかった発話については当該発話を選択し、同一と判定された発話が存在した発話については、同一と判定された発話の中で信頼度スコア(例えば平均信頼度スコア)が最も高い発話を選択する。その結果、同一と判定された発話が存在しなかった発話U23が、出力部16による情報出力の対象となる発話として選択される。また、同一と判定された発話U21と発話U22については、発話U22よりも平均信頼度スコアが高い発話U21が、出力部16による情報出力の対象となる発話として選択される。
選択部15での結果を受け、本例における出力部16は、選択された発話に関する情報を出力する。例えば出力部16は、選択された発話U21に関する情報として、発話U21が検出された復調信号に対応するバンドパスフィルタF1の番号、発話の存在する時刻、および平均信頼度スコアなどとともに、発話U21の音声信号を出力する。また、出力部16は、選択された発話U23に関する情報として、発話U23が検出された復調信号に対応するバンドパスフィルタF3の番号、発話の存在する時刻、および平均信頼度スコアなどとともに、発話U23の音声信号を出力する。
以上説明したように、本例では、電波信号から分割された複数のサブバンド信号を復号することで得られる複数の復調信号から、電波信号中の同一の発話U11を示す2つの発話U21,U22が検出された。ここで、検出された発話を人が聴いて確認する場合、従来技術の音声区間検出をそのまま適用するだけでは、同一の発話U11を示す2つの発話U21,U22を繰り返し聴くことになり、確認作業が煩雑になる。一方、本実施形態によれば、同一の発話U11を示す2つの発話U21,U22のうちの一方の発話U21が情報出力の対象として選択されるので、同一の発話を繰り返し聴くことなく確認を行うことができる。これにより、確認作業にかかる手間を軽減できるため、異常電波による音声通信の検出を効率よく行うことができる。
本実施形態の音声処理装置1は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム(ソフトウェア)を実行することによって、上述した各部(分割部11、復調部12、検出部13、判定部14、選択部15および出力部16)を実現することができる。
図12は、本実施形態の音声処理装置1のハードウェア構成例を示すブロック図である。音声処理装置1は、例えば図12に示すように、CPU101などのプロセッサと、RAM102やROM103などの記憶装置と、ディスプレイ110やスピーカ120などの周辺機器との間のデータ入出力を仲介する周辺機器I/F104と、HDD105などのファイル記憶装置と、ネットワークを介して外部と通信を行う通信I/F106と、を備えた通常のコンピュータ装置のハードウェア構成を有する。
このとき、上記のプログラムは、例えば、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。
上記のコンピュータシステムで実行されるプログラムは、本実施形態の音声処理装置1における機能的な構成要素である上述した各部(分割部11、復調部12、検出部13、判定部14、選択部15および出力部16)を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した各部がRAM102などの主記憶上に生成されるようになっている。
なお、本実施形態の音声処理装置1の上述した各部(分割部11、復調部12、検出部13、判定部14、選択部15および出力部16)は、プログラム(ソフトウェア)により実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
また、本実施形態の音声処理装置1は、複数台のコンピュータを通信可能に接続したネットワークシステムとして構成し、上述した各部を複数台のコンピュータに分散して実現する構成であってもよい。例えば、分割部11の機能を持つ1台のコンピュータと、複数の復調部12および複数の検出部13のうち、対応する1つずつの復調部12および検出部13の機能を持つ複数台のコンピュータと、判定部14、選択部15および出力部16の機能を持つ1台のコンピュータとを通信可能に接続して、本実施形態の音声処理装置1としてもよい。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 音声処理装置
11 分割部
12(12_1,12_2,・・・,12_n) 復調部
13(13_1,13_2,・・・,13_n) 検出部
14 判定部
15 選択部
16 出力部
U11,U12 (電波信号中に存在する)発話
F1,F2,F3 バンドパスフィルタ
U21,U22,U23 (復調信号から検出された)発話

Claims (11)

  1. 通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割する分割部と、
    前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成する復調部と、
    発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出する検出部と、
    前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、前記注目する復調信号に対応するバンドパスフィルタに対して通過帯域が近い他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する判定部と、
    第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択する選択部と、を備える音声処理装置。
  2. 前記判定部は、第1の発話と第2の発話との時刻の重なり度合いに基づいて、これら第1の発話と第2の発話が同一の発話であるか否かを判定する、請求項1に記載の音声処理装置。
  3. 前記判定部は、第1の発話から抽出した特徴量と第2の発話から抽出した特徴量との類似性の評価結果に基づいて、これら第1の発話と第2の発話が同一の発話であるか否かを判定する、請求項1に記載の音声処理装置。
  4. 前記選択部は、第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、前記信頼度スコアが高い発話を選択する、請求項1乃至3のいずれか一項に記載の音声処理装置。
  5. 前記選択部は、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が存在しない場合、または第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在するが、これら第1の発話と第2の発話が同一の発話でないと判定された場合は、第1の発話を選択する、請求項1乃至4のいずれか一項に記載の音声処理装置。
  6. 前記選択部は、選択した発話に対し、選択しない発話の一部であって選択した発話に時刻が重ならない部分を統合する、請求項1乃至5のいずれか一項に記載の音声処理装置。
  7. 選択された発話に関する情報を出力する出力部をさらに備える、請求項1乃至6のいずれか一項に記載の音声処理装置。
  8. 前記出力部は、選択された発話に関する情報と併せて、選択されない発話に関する情報をさらに出力する、請求項7に記載の音声処理装置。
  9. 前記判定部は、前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、前記注目する復調信号に対応するバンドパスフィルタに対して周波数方向に隣接する他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する、請求項1乃至8のいずれか一項に記載の音声処理装置。
  10. 音声処理装置により実行される音声処理方法であって、
    通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割するステップと、
    前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成するステップと、
    発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出するステップと、
    前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、前記注目する復調信号に対応するバンドパスフィルタに対して通過帯域が近い他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定するステップと、
    第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択するステップと、を含む音声処理方法。
  11. コンピュータに、
    通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割する機能と、
    前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成する機能と、
    発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出する機能と、
    前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、注目する復調信号に対応するバンドパスフィルタに対して通過帯域が近い他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する機能と、
    第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択する機能と、を実現させるためのプログラム。
JP2015047658A 2015-03-10 2015-03-10 音声処理装置、音声処理方法およびプログラム Expired - Fee Related JP6478727B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015047658A JP6478727B2 (ja) 2015-03-10 2015-03-10 音声処理装置、音声処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015047658A JP6478727B2 (ja) 2015-03-10 2015-03-10 音声処理装置、音声処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016167782A true JP2016167782A (ja) 2016-09-15
JP6478727B2 JP6478727B2 (ja) 2019-03-06

Family

ID=56898850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015047658A Expired - Fee Related JP6478727B2 (ja) 2015-03-10 2015-03-10 音声処理装置、音声処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6478727B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0843465A (ja) * 1994-08-03 1996-02-16 Sony Tektronix Corp 電波監視装置
JPH08265275A (ja) * 1995-03-24 1996-10-11 Sony Tektronix Corp 不法局追跡方法及び装置
JP2005086553A (ja) * 2003-09-09 2005-03-31 Toshiba Corp 自動電波監視装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0843465A (ja) * 1994-08-03 1996-02-16 Sony Tektronix Corp 電波監視装置
JPH08265275A (ja) * 1995-03-24 1996-10-11 Sony Tektronix Corp 不法局追跡方法及び装置
JP2005086553A (ja) * 2003-09-09 2005-03-31 Toshiba Corp 自動電波監視装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石原 達馬 他: "不法無線局の探索のための音声区間検出方式の開発", 日本音響学会 2015年 春季研究発表会講演論文集, JPN6018040244, 6 March 2015 (2015-03-06), pages 115 - 118, ISSN: 0003897701 *

Also Published As

Publication number Publication date
JP6478727B2 (ja) 2019-03-06

Similar Documents

Publication Publication Date Title
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
JP4545233B2 (ja) 音判定装置、音判定方法、及び、音判定プログラム
EP2637167A1 (en) Endpoint detection apparatus for sound source and method thereof
CN104036786A (zh) 一种语音降噪的方法及装置
CN104885153A (zh) 音频校正设备及其音频校正方法
JP5948918B2 (ja) 子音区間検出装置および子音区間検出方法
US8378198B2 (en) Method and apparatus for detecting pitch period of input signal
JP2014126856A (ja) 雑音除去装置及びその制御方法
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN109903775B (zh) 一种音频爆音检测方法和装置
CN104937955A (zh) 自动的扬声器极性检测
WO2016004757A1 (zh) 杂音检测方法和装置
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
JP6478727B2 (ja) 音声処理装置、音声処理方法およびプログラム
Pandey et al. Cell-phone identification from audio recordings using PSD of speech-free regions
JP6666725B2 (ja) ノイズ低減装置およびノイズ低減方法
KR20150100704A (ko) 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
US10324159B2 (en) Signal assessment system and signal assessment method
US11798577B2 (en) Methods and apparatus to fingerprint an audio signal
EP3456067B1 (en) Noise detection and noise reduction
Letcher et al. Automatic conflict detection in police body-worn audio
JP2012185195A (ja) オーディオデータ特徴抽出方法、オーディオデータ照合方法、オーディオデータ特徴抽出プログラム、オーディオデータ照合プログラム、オーディオデータ特徴抽出装置、オーディオデータ照合装置及びオーディオデータ照合システム
CN114303392A (zh) 多声道音频信号的声道标识
US12032628B2 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
JP2012203351A (ja) 子音識別装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190205

R151 Written notification of patent or utility model registration

Ref document number: 6478727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees