JP2022104006A

JP2022104006A - センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム

Info

Publication number: JP2022104006A
Application number: JP2020218964A
Authority: JP
Inventors: 亮太椎名; Ryota Shiina; 達也福井; Tatsuya Fukui; 聖成川; Satoshi Narukawa; 勝也南; Katsuya Minami; 友宏谷口; Tomohiro Taniguchi; 俊介猿渡; Shunsuke Saruwatari; 尚渡邊; Takashi Watanabe; 卓也藤橋; Takuya Fujihashi; 隼平山口; Jumpei Yamaguchi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-07-08

Abstract

【課題】本開示のセンサ装置は、人間の音声を精度高くディジタル音声信号に変換することを目的とする。【解決手段】本開示のセンサ装置は、入力音声信号として入力される音波を音電気変換して、音電気信号とし、前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、前記ピークホールド信号を時刻同期のとれた単位期間の周期でＡＤ変換して、ディジタル音声信号とすることを特徴とする。【選択図】図２

Description

本開示は、他社間でのコミュニケーションにおいて、発話者を検知する発話検知技術に関する。

従来、定性的にしか把握されていなかった人集団内のコミュニケーションを定量化し、それらの結果をビジネス分野や、教育・心理分野に応用する検討がなされている。コミュニケーションの中での会話を定量化するために、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出する手法が求められている。

例えば、非特許文献１では、マイクロホンアレイを用いた発話検知方法が検討されている。しかし、この方法では、高精度な発話検知が可能であるもの、マイクロホンアレイ設備を設置した特定の場所でしか検知できず、また発話者の移動に対して検知が困難になるという課題があった。

また、非特許文献２～４では、バッジ型センサを用いた発話検知方法が検討されている。しかし、これらの方法では、複数人が会話しているときに、誰がどのタイミングで発話しているのかを検知する制度が低いという課題があった。

黄楊暘、大塚琢馬、中臺一博、奥乃博、「多チャンネルマイクロホンアレイを用いた音声区間検出および音源定位の精度の向上の検討」、人工知能学会研究会資料、ＪＳＡＩＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ、ＳＩＧ-Ｃｈａｌｌｅｎｇｅ－Ｂ２０２－５カタログ「ビジネス顕微鏡の概要」、日立ハイテク、２０１１年発行ＤａｎｉｅｌＯｌｇｕｉｎＯｌｇｕｉｎ，ＢｅｎｊａｍｉｎＮ．Ｗａｂｅｒ，ＴａｅｍｉｅＫｉｍ，ＡｋｓｈａｙＭｏｈａｎ，ＫｏｊｉＡｒａ，ａｎｄＡｌｅｘＰｅｎｔｌａｎ， "ＳｅｎｓｉｂｌｅＯｒｇａｎｉｚａｔｉｏｎｓ：ＴｅｃｈｎｏｌｏｇｙａｎｄＭｅｔｈｏｄｏｌｏｇｙｆｏｒＡｕｔｏｍａｔｉｃａｌｌｙＭｅａｓｕｒｉｎｇＯｒｇａｎｉｚａｔｉｏｎａｌＢｅｈａｖｉｏｒ" ，ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＳＹＳＴＥＭＳ，ＭＡＮ，ａｎｄＣＹＢＥＲＮＥＴＩＣＳ－ＰＡＲＴＢ：ＣＹＢＥＲＮＥＴＩＣＳ，ＶＯＬ. ３９，ＮＯ．１，ＦＥＢＲＵＡＲＹ２００９ＯｒｅｎＬｅｄｅｒｍａｎ，ＤａｎＣａｌａｃｃｉ，ＡｎｇｕｓＭａｃＭｕｌｌｅｎ，ＤａｎｉｅｌＣ．Ｆｅｈｄｅｒ，ＦｉｏｎａＥ．Ｍｕｒｒａｙ，ａｎｄＡｌｅｘ "Ｓａｎｄｙ" Ｐｅｎｔｌａｎｄ， "ＯｐｅｎＢａｄｇｅｓ：ＡＬｏｗ－ＣｏｓｔＴｏｏｌｋｉｔｆｏｒＭｅａｓｕｒｉｎｇＴｅａｍＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＤｙｎａｍｉｃｓ" ，ａｒＸｉｖ：１７１０．０１８４２ｖ１［ｃｓ．ＨＣ］５Ｏｃｔ．２０１７

本開示は、上記事情に着目してなされたもので、本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することを目的とする。

本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することを目的とする。

本開示のセンサ装置及びセンシング方法は、
入力音声信号として入力される音波を音電気変換して、音電気信号とし、
前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
前記ピークホールド信号を時刻同期のとれた単位期間の周期でＡＤ変換して、ディジタル音声信号とする
ことを特徴とする。

本開示のデータ処理装置及びデータ処理方法は、
入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、設定された前記閾値未満のときに無音と判断して、話者データとし、
複数の人間の前記話者データを時系列に並べて、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断し、
前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
前記話者データ及び前記発話区間データから、各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
ことを特徴とする。

本開示の発話者推定システムは、複数の本開示のセンサ装置及び本開示のデータ処理装置を備える。

本開示のデータ処理プログラムは、本開示のデータ処理方法をコンピュータに実行させるプログラムである。

本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することができる。
本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
本開示の発話者推定システムは、複数の人間が集まった人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。

本開示のセンサ装置の使用方法の一例を示す。本開示のセンサ装置の構成の一例を示す。本開示のデータ処理装置の構成の一例を示す。本開示のデータ処理装置の動作の一例を示す。本開示のセンサ装置の動作の一例を示す。

以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。本開示で例示される数値は一例であって、これらの値に限定されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

（センサ装置）
本実施形態のセンサ装置の使用方法の一例を図１に示す。センサ装置１０は、複数の人間、ここでは、「Ａさん」、「Ｂさん」及び「Ｃさん」の３人が保持している。Ａさんが話していると、Ａさんの声がＡさんの保持するセンサ装置１０に記録される。同時に、Ｂさん及びＣさんの保持するセンサ装置１０にも、声の大きさは小さいが記録される。

本実施形態のセンサ装置の構成の一例を図２に示す。本実施形態のセンサ装置の動作の一例を図５に示す。センサ装置１０は、集音部１１、増幅回路１２、ピークホールド回路１３、同期信号生成回路１４、ＡＤ変換回路１５及び記憶回路１６を備える。

集音部１１は、入力音声信号として入力される音波（図５（１）に示す。）を音電気変換して、音電気信号（図５（２）に示す。）として出力する。集音部１１は、音波を電気信号に変換するＭＥＭＳアナログマイクロフォンが例示できる。音電気信号の大きさが小さいときは、増幅回路１２で増幅してもよい。増幅回路１２はＯＰアンプが適用できる。

ピークホールド回路１３は、音電気信号を一定時間だけピークホールドして、ピークホールド信号（図５（３）の実線で示す。）として出力する。ピークホールド回路は、ピーク検出回路とサンプルホールド回路を組み合わせて構成することができる。ピークホールド回路１３は立ち上がりに瞬時に応答するので、平滑回路や積分回路よりも立ち上がり特性が優れている。また、サンプルホールド回路単独に比較して、音質の特徴が失われても、発話を精度高く検出することができる。Ａさんが話をしていると、Ａさんのセンサ装置１０だけでなく、Ｂさんのセンサ装置１０やＣさんのセンサ装置１０にも、Ａさんの声が記録される。しかし、Ａさんのセンサ装置１０は、Ａさんの声の大きい期間を最も長く記録することになる。ピークホールドする一定時間（図５（３）の「Ｐ」の期間で示す。）としては、例えば、１００ｍｓｅｃが例示できる。ピークホールドする一定時間は、ピークホールド回路のコンデンサの容量、抵抗、バイアス電圧等に依存する放電で決定してもよいし、リセットパルスで一定時間ごとに強制的にリセットしてもよい。図５（３）はピークホールドする一定時間ごとにリセットパルスで強制的にリセットしている。放電を利用する場合は、放電時定数に従って緩やかな立下りとなる。

ＡＤ変換回路１５は、ピークホールド信号をＡＤ変換して、ディジタル音声信号として出力する。このとき、同期信号生成回路１４は、ＡＤ変換回路１５がピークホールド信号をＡＤ変換する周期を、単位期間の周期とし、単位期間の周期を他のセンサ装置１０と同期させる。周期を同期させることによって、他のセンサ装置が出力するディジタル音声信号との時系列処理を容易にする。単位期間はピークホールドする一定時間よりもみじかくすることが望ましく、例えば、１～１０ｍｓｅｃが例示できる。また、同期信号生成回路１４は、ＡＤ変換回路１５がピークホールド信号をＡＤ変換するタイミングを、他のセンサ装置と時刻同期させる。タイミングを時刻同期させることによって、他のセンサ装置が出力するディジタル音声信号との時刻を合わせた時系列処理を可能にする。時刻同期は、複数のセンサ装置１０を初期状態で時刻を一致させ、それぞれのセンサ装置１０が時刻を維持してもよいし、無線経由で、センタ局から各センサ装置１０に時刻同期をとってもよいし、いずれかのセンサ装置１０がマスタとなって、他のセンサ装置１０がスレーブとなって時刻同期をとってもよい。

ＡＤ変換回路１５からのディジタル音声信号を記憶回路１６に記憶させてもよい。記憶回路１６は、ディジタル音声信号を記憶し、指示によりディジタル音声信号を出力する。ディジタル音声信号は、有線で出力してもよいし、無線で出力してもよい。

本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することができる。

（データ処理装置）
本実施形態のデータ処理装置の構成の一例を図３に示す。データ処理装置２０は、推定前処理部２１、発話区間推定部２２及び発話者推定部２３を備える。データ処理装置の動作の一例を図４に示す。図４は、各データを時刻で同期させ、相対的な時間で１７秒後から４７秒後までの動作を示したものである。

推定前処理部２１は、ディジタル音声信号、例えば、センサ装置１０の出力するディジタル音声信号を発話か無音かの識別を行う。具体的には、推定前処理部２１は、ラベル付け回路２１１を有する。ラベル付け回路２１１は、入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、設定された閾値未満のときに無音と判断して、話者データとする。話者データは例えば、発話のとき“１”、無音のとき“０”のバイナリでラベル付けすると、図４の「Ａさん」のデータように、発話の“１”と無音の“０” が交互に現れるバイナリデータとなる。

識別を行う閾値は、予め設定しておいてもよい。予め設定する閾値は、接続されるセンサ装置１０ごとに変えてもよいし、固定であってもよい。本開示のデータ処理装置２０は、推定前処理部２１にゼロ点補正回路２１２を有してもよい。ゼロ点補正回路２１２は、入力されたディジタル音声信号の過去の一定期間のウィンドウ内における大きさの移動平均値又は移動平均値の一定割合を閾値と設定する。設定する一定割合としては、例えば、０．５倍である。図４における、「Ａさん」、「Ｂさん」、「Ｃさん」の話者データのように、ゼロ点補正回路２１２により、接続されるセンサ装置１０ごとに閾値を自動で設定して、適切なデータとすることができる。設定する一定期間としては、例えば、５秒である。

発話区間推定部２２は、複数の人間の話者データを合わせて発話区間データを作成する。具体的には、発話区間推定部２２は、発話論理回路２２３及び発話区間データ生成回路２２４を有する。

発話論理回路２２３は、複数の人間の話者データを、時刻を基準に時系列に並べ、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断する。話者データは例えば、発話のとき“１”、無音のとき“０”のバイナリとすると、各話者データの論理和をとり、図４の「論理演算後」のデータように、発話の“１”と無音の“０” が交互に現れるバイナリデータが得られる。

発話区間データ生成回路２２４は、発話論理回路２２３の出力する発話区間の中で、一定期間以下の発話を無音区間に修正して発話区間データを作成する。例えば、図４の「発話区間データ生成で発話区間とみなされなかった部分」のように、発話区間の中でも短い部分は無音区間に訂正して、「発話区間データ」を出力する。一定期間以下の発話を無音区間に訂正することにより、物の衝突音や接触音、あるいは人間の発する咳やくしゃみといった発話でない部分を除去することができる。除去する発話の一定期間は調整できることが望ましい。訂正する一定期間としては、例えば、１００ｍｓｅｃが例示できる。

発話者推定部２３は、ラベル付け回路２１１からの話者データ及び発話区間データ生成回路２２４からの発話区間データを比較し、発話区間データの各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する。推定した後、誰がどれだけの時間だけ発話したかの発話者情報及び発話時間情報として出力してもよい。

本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。

本開示のデータ処理装置２０は、発話区間推定部２２に穴埋め回路２２１及び／又はパルスノイズ除去回路２２２を有してもよい。穴埋め回路２２１は、ラベル付け回路２１１からの話者データの中で、前後所定の数の単位期間が発話で、１単位期間だけ無音と判断されたときは、当該１単位期間も発話と訂正する。このような訂正で誤って無音と判断されても、精度高く発話を検出することができる。

パルスノイズ除去回路２２２は、ラベル付け回路２１１からの話者データの中で、前後所定の数の単位期間が無音で、１単位期間だけ発話と判断されたときは、当該１単位期間も無音と訂正する。例えば、図４の「Ｂさん」の話者データの中で、前後に無音が連続し、１単位期間だけ発話の場合は、当該発話の部分を除去する。このような訂正で誤って発話と判断されても、精度高く無音を検出することができる。

本開示の発話者推定システムは、前述した複数のセンサ装置１０及び前述したデータ処理装置２０を備える。複数のセンサ装置１０が作成したディジタル音声信号のデータ処理装置２０への伝達は、複数のセンサ装置１０をデータ処理装置２０に直接、接続してもよいし、記録媒体を介してもよいし、伝送線路を介してもよいし、ネットワークを介してもよい。

本開示の発話者推定システムは、複数のセンサ装置１０をデータ処理装置２０にネットワークを介して接続する場合のネットワークは、データ通信ネットワークである。プライベートネットワーク又はパブリックネットワークであってよく、（ａ）例えば或る部屋をカバーするパーソナル・エリア・ネットワーク、（ｂ）例えば或る建物をカバーするローカル・エリア・ネットワーク、（ｃ）例えば或るキャンパスをカバーするキャンパス・エリア・ネットワーク、（ｄ）例えば或る都市をカバーするメトロポリタン・エリア・ネットワーク、（ｅ）例えば都市、地方、又は国家の境界をまたいでつながる領域をカバーするワイド・エリア・ネットワーク、又は（ｆ）インターネット、のいずれか又はすべてを含むことができる。通信は、ネットワークを介して電子信号及び光信号によって行われる。

本開示の発話者推定システムは、複数の人間が集まった人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。

本発明のデータ処理装置は、コンピュータとプログラムによっても実現できる。本発明のデータ処理方法は、コンピュータとプログラムによっても実行できる。本発明のデータ処理プログラムは、記録媒体に記録することも、ネットワークを通して提供することも可能である。

本開示は情報通信産業に適用することができる。

１０：センサ装置
１１：集音部
１２：増幅回路
１３：ピークホールド回路
１４：同期信号生成回路
１５：ＡＤ変換回路
１６：記憶回路
２０：データ処理装置
２１：推定前処理部
２１１：ラベル付け回路
２１２：ゼロ点補正回路
２２：発話区間推定部
２２１：穴埋め回路
２２２：パルスノイズ除去回路
２２３：発話論理回路
２２４：発話区間データ生成回路
２３：発話者推定部

Claims

入力音声信号として入力される音波を音電気変換して、音電気信号とし、
前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
前記ピークホールド信号を時刻同期のとれた単位期間の周期でＡＤ変換して、ディジタル音声信号とする
ことを特徴とするセンサ装置。
入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、前記設定された閾値未満のときに無音と判断して、話者データとし、
複数の人間の前記話者データを時系列に並べて、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断し、
前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
前記話者データ及び前記発話区間データから、各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
ことを特徴とするデータ処理装置。
前記データ処理装置は、入力されたディジタル音声信号の過去の一定期間内における大きさの平均値の一定割合を前記設定された閾値と設定することを特徴とする請求項２に記載のデータ処理装置。
前記データ処理装置は、前記話者データの中で、前後所定の数の単位期間が発話で、１単位期間だけ無音と判断されたときは、当該１単位期間も発話と訂正し、
前後所定の数の単位期間が無音で、１単位期間だけ発話と判断されたときは、当該１単位期間も無音と訂正することを特徴とする請求項２又は３に記載のデータ処理装置。
複数の請求項１に記載のセンサ装置及び請求項２から４に記載のいずれかのデータ処理装置を備える発話者推定システム。
入力音声信号として入力される音波を音電気変換して、音電気信号とし、
前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
前記ピークホールド信号を時刻同期のとれた単位期間の周期でＡＤ変換して、ディジタル音声信号とする
ことを特徴とするセンシング方法。
入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、前記設定された閾値未満のときに無音と判断して、話者データとし、
複数の人間の前記話者データを時系列に並べて、いずれかの人間が発話していると判断された区間を発話区間とし、いずれの人間も発話していないと判断された区間を無音区間とし、
前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
前記話者データ及び前記発話区間データから、各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
ことを特徴とするデータ処理方法。
請求項７に記載のデータ処理方法をコンピュータに実行させるデータ処理プログラム。