JP2022104006A - センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム - Google Patents

センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム Download PDF

Info

Publication number
JP2022104006A
JP2022104006A JP2020218964A JP2020218964A JP2022104006A JP 2022104006 A JP2022104006 A JP 2022104006A JP 2020218964 A JP2020218964 A JP 2020218964A JP 2020218964 A JP2020218964 A JP 2020218964A JP 2022104006 A JP2022104006 A JP 2022104006A
Authority
JP
Japan
Prior art keywords
data processing
utterance
data
section
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020218964A
Other languages
English (en)
Inventor
亮太 椎名
Ryota Shiina
達也 福井
Tatsuya Fukui
聖 成川
Satoshi Narukawa
勝也 南
Katsuya Minami
友宏 谷口
Tomohiro Taniguchi
俊介 猿渡
Shunsuke Saruwatari
尚 渡邊
Takashi Watanabe
卓也 藤橋
Takuya Fujihashi
隼平 山口
Jumpei Yamaguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020218964A priority Critical patent/JP2022104006A/ja
Publication of JP2022104006A publication Critical patent/JP2022104006A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

【課題】本開示のセンサ装置は、人間の音声を精度高くディジタル音声信号に変換することを目的とする。【解決手段】本開示のセンサ装置は、入力音声信号として入力される音波を音電気変換して、音電気信号とし、前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、前記ピークホールド信号を時刻同期のとれた単位期間の周期でAD変換して、ディジタル音声信号とすることを特徴とする。【選択図】図2

Description

本開示は、他社間でのコミュニケーションにおいて、発話者を検知する発話検知技術に関する。
従来、定性的にしか把握されていなかった人集団内のコミュニケーションを定量化し、それらの結果をビジネス分野や、教育・心理分野に応用する検討がなされている。コミュニケーションの中での会話を定量化するために、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出する手法が求められている。
例えば、非特許文献1では、マイクロホンアレイを用いた発話検知方法が検討されている。しかし、この方法では、高精度な発話検知が可能であるもの、マイクロホンアレイ設備を設置した特定の場所でしか検知できず、また発話者の移動に対して検知が困難になるという課題があった。
また、非特許文献2~4では、バッジ型センサを用いた発話検知方法が検討されている。しかし、これらの方法では、複数人が会話しているときに、誰がどのタイミングで発話しているのかを検知する制度が低いという課題があった。
黄楊暘、大塚琢馬、中臺一博、奥乃博、「多チャンネルマイクロホンアレイを用いた音声区間検出および音源定位の精度の向上の検討」、人工知能学会研究会資料、JSAI Technical Report、SIG-Challenge-B202-5 カタログ「ビジネス顕微鏡の概要」、日立ハイテク、2011年発行 Daniel Olguin Olguin, Benjamin N. Waber, Taemie Kim, Akshay Mohan, Koji Ara, and Alex Pentlan, "Sensible Organizations: Technology and Methodology for Automatically Measuring Organizational Behavior" , IEEE TRANSACTIONS ON SYSTEMS, MAN, and CYBERNETICS-PART B: CYBERNETICS, VOL. 39, NO.1, FEBRUARY 2009 Oren Lederman, Dan Calacci, Angus MacMullen, Daniel C. Fehder, Fiona E. Murray, and Alex "Sandy" Pentland, "Open Badges: A Low-Cost Toolkit for Measuring Team Communication and Dynamics" , arXiv:1710.01842v1 [cs.HC] 5 Oct. 2017
本開示は、上記事情に着目してなされたもので、本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することを目的とする。
本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することを目的とする。
本開示のセンサ装置及びセンシング方法は、
入力音声信号として入力される音波を音電気変換して、音電気信号とし、
前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
前記ピークホールド信号を時刻同期のとれた単位期間の周期でAD変換して、ディジタル音声信号とする
ことを特徴とする。
本開示のデータ処理装置及びデータ処理方法は、
入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、設定された前記閾値未満のときに無音と判断して、話者データとし、
複数の人間の前記話者データを時系列に並べて、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断し、
前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
前記話者データ及び前記発話区間データから、各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
ことを特徴とする。
本開示の発話者推定システムは、複数の本開示のセンサ装置及び本開示のデータ処理装置を備える。
本開示のデータ処理プログラムは、本開示のデータ処理方法をコンピュータに実行させるプログラムである。
本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することができる。
本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
本開示の発話者推定システムは、複数の人間が集まった人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
本開示のセンサ装置の使用方法の一例を示す。 本開示のセンサ装置の構成の一例を示す。 本開示のデータ処理装置の構成の一例を示す。 本開示のデータ処理装置の動作の一例を示す。 本開示のセンサ装置の動作の一例を示す。
以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。本開示で例示される数値は一例であって、これらの値に限定されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
(センサ装置)
本実施形態のセンサ装置の使用方法の一例を図1に示す。センサ装置10は、複数の人間、ここでは、「Aさん」、「Bさん」及び「Cさん」の3人が保持している。Aさんが話していると、Aさんの声がAさんの保持するセンサ装置10に記録される。同時に、Bさん及びCさんの保持するセンサ装置10にも、声の大きさは小さいが記録される。
本実施形態のセンサ装置の構成の一例を図2に示す。本実施形態のセンサ装置の動作の一例を図5に示す。センサ装置10は、集音部11、増幅回路12、ピークホールド回路13、同期信号生成回路14、AD変換回路15及び記憶回路16を備える。
集音部11は、入力音声信号として入力される音波(図5(1)に示す。)を音電気変換して、音電気信号(図5(2)に示す。)として出力する。集音部11は、音波を電気信号に変換するMEMSアナログマイクロフォンが例示できる。音電気信号の大きさが小さいときは、増幅回路12で増幅してもよい。増幅回路12はOPアンプが適用できる。
ピークホールド回路13は、音電気信号を一定時間だけピークホールドして、ピークホールド信号(図5(3)の実線で示す。)として出力する。ピークホールド回路は、ピーク検出回路とサンプルホールド回路を組み合わせて構成することができる。ピークホールド回路13は立ち上がりに瞬時に応答するので、平滑回路や積分回路よりも立ち上がり特性が優れている。また、サンプルホールド回路単独に比較して、音質の特徴が失われても、発話を精度高く検出することができる。Aさんが話をしていると、Aさんのセンサ装置10だけでなく、Bさんのセンサ装置10やCさんのセンサ装置10にも、Aさんの声が記録される。しかし、Aさんのセンサ装置10は、Aさんの声の大きい期間を最も長く記録することになる。ピークホールドする一定時間(図5(3)の「P」の期間で示す。)としては、例えば、100msecが例示できる。ピークホールドする一定時間は、ピークホールド回路のコンデンサの容量、抵抗、バイアス電圧等に依存する放電で決定してもよいし、リセットパルスで一定時間ごとに強制的にリセットしてもよい。図5(3)はピークホールドする一定時間ごとにリセットパルスで強制的にリセットしている。放電を利用する場合は、放電時定数に従って緩やかな立下りとなる。
AD変換回路15は、ピークホールド信号をAD変換して、ディジタル音声信号として出力する。このとき、同期信号生成回路14は、AD変換回路15がピークホールド信号をAD変換する周期を、単位期間の周期とし、単位期間の周期を他のセンサ装置10と同期させる。周期を同期させることによって、他のセンサ装置が出力するディジタル音声信号との時系列処理を容易にする。単位期間はピークホールドする一定時間よりもみじかくすることが望ましく、例えば、1~10msecが例示できる。また、同期信号生成回路14は、AD変換回路15がピークホールド信号をAD変換するタイミングを、他のセンサ装置と時刻同期させる。タイミングを時刻同期させることによって、他のセンサ装置が出力するディジタル音声信号との時刻を合わせた時系列処理を可能にする。時刻同期は、複数のセンサ装置10を初期状態で時刻を一致させ、それぞれのセンサ装置10が時刻を維持してもよいし、無線経由で、センタ局から各センサ装置10に時刻同期をとってもよいし、いずれかのセンサ装置10がマスタとなって、他のセンサ装置10がスレーブとなって時刻同期をとってもよい。
AD変換回路15からのディジタル音声信号を記憶回路16に記憶させてもよい。記憶回路16は、ディジタル音声信号を記憶し、指示によりディジタル音声信号を出力する。ディジタル音声信号は、有線で出力してもよいし、無線で出力してもよい。
本開示のセンサ装置及びセンシング方法は、人間の音声を精度高くディジタル音声信号に変換することができる。
(データ処理装置)
本実施形態のデータ処理装置の構成の一例を図3に示す。データ処理装置20は、推定前処理部21、発話区間推定部22及び発話者推定部23を備える。データ処理装置の動作の一例を図4に示す。図4は、各データを時刻で同期させ、相対的な時間で17秒後から47秒後までの動作を示したものである。
推定前処理部21は、ディジタル音声信号、例えば、センサ装置10の出力するディジタル音声信号を発話か無音かの識別を行う。具体的には、推定前処理部21は、ラベル付け回路211を有する。ラベル付け回路211は、入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、設定された閾値未満のときに無音と判断して、話者データとする。話者データは例えば、発話のとき“1”、無音のとき“0”のバイナリでラベル付けすると、図4の「Aさん」のデータように、 発話の“1”と無音の“0” が交互に現れるバイナリデータとなる。
識別を行う閾値は、予め設定しておいてもよい。予め設定する閾値は、接続されるセンサ装置10ごとに変えてもよいし、固定であってもよい。本開示のデータ処理装置20は、推定前処理部21にゼロ点補正回路212を有してもよい。ゼロ点補正回路212は、入力されたディジタル音声信号の過去の一定期間のウィンドウ内における大きさの移動平均値又は移動平均値の一定割合を閾値と設定する。設定する一定割合としては、例えば、0.5倍である。図4における、「Aさん」、「Bさん」、「Cさん」の話者データのように、ゼロ点補正回路212により、接続されるセンサ装置10ごとに閾値を自動で設定して、適切なデータとすることができる。設定する一定期間としては、例えば、5秒である。
発話区間推定部22は、複数の人間の話者データを合わせて発話区間データを作成する。具体的には、発話区間推定部22は、発話論理回路223及び発話区間データ生成回路224を有する。
発話論理回路223は、複数の人間の話者データを、時刻を基準に時系列に並べ、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断する。話者データは例えば、発話のとき“1”、無音のとき“0”のバイナリとすると、各話者データの論理和をとり、図4の「論理演算後」のデータように、 発話の“1”と無音の“0” が交互に現れるバイナリデータが得られる。
発話区間データ生成回路224は、発話論理回路223の出力する発話区間の中で、一定期間以下の発話を無音区間に修正して発話区間データを作成する。例えば、図4の「発話区間データ生成で発話区間とみなされなかった部分」のように、発話区間の中でも短い部分は無音区間に訂正して、「発話区間データ」を出力する。一定期間以下の発話を無音区間に訂正することにより、物の衝突音や接触音、あるいは人間の発する咳やくしゃみといった発話でない部分を除去することができる。除去する発話の一定期間は調整できることが望ましい。訂正する一定期間としては、例えば、100msecが例示できる。
発話者推定部23は、ラベル付け回路211からの話者データ及び発話区間データ生成回路224からの発話区間データを比較し、発話区間データの各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する。推定した後、誰がどれだけの時間だけ発話したかの発話者情報及び発話時間情報として出力してもよい。
本開示のデータ処理装置及びデータ処理方法は、人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
本開示のデータ処理装置20は、発話区間推定部22に穴埋め回路221及び/又はパルスノイズ除去回路222を有してもよい。穴埋め回路221は、ラベル付け回路211からの話者データの中で、前後所定の数の単位期間が発話で、1単位期間だけ無音と判断されたときは、当該1単位期間も発話と訂正する。このような訂正で誤って無音と判断されても、精度高く発話を検出することができる。
パルスノイズ除去回路222は、ラベル付け回路211からの話者データの中で、前後所定の数の単位期間が無音で、1単位期間だけ発話と判断されたときは、当該1単位期間も無音と訂正する。例えば、図4の「Bさん」の話者データの中で、前後に無音が連続し、1単位期間だけ発話の場合は、当該発話の部分を除去する。このような訂正で誤って発話と判断されても、精度高く無音を検出することができる。
本開示の発話者推定システムは、前述した複数のセンサ装置10及び前述したデータ処理装置20を備える。複数のセンサ装置10が作成したディジタル音声信号のデータ処理装置20への伝達は、複数のセンサ装置10をデータ処理装置20に直接、接続してもよいし、記録媒体を介してもよいし、伝送線路を介してもよいし、ネットワークを介してもよい。
本開示の発話者推定システムは、複数のセンサ装置10をデータ処理装置20にネットワークを介して接続する場合のネットワークは、データ通信ネットワークである。プライベートネットワーク又はパブリックネットワークであってよく、(a)例えば或る部屋をカバーするパーソナル・エリア・ネットワーク、(b)例えば或る建物をカバーするローカル・エリア・ネットワーク、(c)例えば或るキャンパスをカバーするキャンパス・エリア・ネットワーク、(d)例えば或る都市をカバーするメトロポリタン・エリア・ネットワーク、(e)例えば都市、地方、又は国家の境界をまたいでつながる領域をカバーするワイド・エリア・ネットワーク、又は(f)インターネット、のいずれか又はすべてを含むことができる。通信は、ネットワークを介して電子信号及び光信号によって行われる。
本開示の発話者推定システムは、複数の人間が集まった人集団内の会話の中で、誰が、どのようなタイミングで発話しているのかを精度高く検出することができる。
本発明のデータ処理装置は、コンピュータとプログラムによっても実現できる。本発明のデータ処理方法は、コンピュータとプログラムによっても実行できる。本発明のデータ処理プログラムは、記録媒体に記録することも、ネットワークを通して提供することも可能である。
本開示は情報通信産業に適用することができる。
10:センサ装置
11:集音部
12:増幅回路
13:ピークホールド回路
14:同期信号生成回路
15:AD変換回路
16:記憶回路
20:データ処理装置
21:推定前処理部
211:ラベル付け回路
212:ゼロ点補正回路
22:発話区間推定部
221:穴埋め回路
222:パルスノイズ除去回路
223:発話論理回路
224:発話区間データ生成回路
23:発話者推定部

Claims (8)

  1. 入力音声信号として入力される音波を音電気変換して、音電気信号とし、
    前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
    前記ピークホールド信号を時刻同期のとれた単位期間の周期でAD変換して、ディジタル音声信号とする
    ことを特徴とするセンサ装置。
  2. 入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、前記設定された閾値未満のときに無音と判断して、話者データとし、
    複数の人間の前記話者データを時系列に並べて、いずれかの人間が発話している区間を発話区間とし、いずれの人間も発話していない区間を無音区間と判断し、
    前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
    前記話者データ及び前記発話区間データから、各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
    ことを特徴とするデータ処理装置。
  3. 前記データ処理装置は、入力されたディジタル音声信号の過去の一定期間内における大きさの平均値の一定割合を前記設定された閾値と設定することを特徴とする請求項2に記載のデータ処理装置。
  4. 前記データ処理装置は、前記話者データの中で、前後所定の数の単位期間が発話で、1単位期間だけ無音と判断されたときは、当該1単位期間も発話と訂正し、
    前後所定の数の単位期間が無音で、1単位期間だけ発話と判断されたときは、当該1単位期間も無音と訂正することを特徴とする請求項2又は3に記載のデータ処理装置。
  5. 複数の請求項1に記載のセンサ装置及び請求項2から4に記載のいずれかのデータ処理装置を備える発話者推定システム。
  6. 入力音声信号として入力される音波を音電気変換して、音電気信号とし、
    前記音電気信号を一定時間の間だけピークホールドして、ピークホールド信号とし、
    前記ピークホールド信号を時刻同期のとれた単位期間の周期でAD変換して、ディジタル音声信号とする
    ことを特徴とするセンシング方法。
  7. 入力されたディジタル音声信号が、設定された閾値以上のとき発話であり、前記設定された閾値未満のときに無音と判断して、話者データとし、
    複数の人間の前記話者データを時系列に並べて、いずれかの人間が発話していると判断された区間を発話区間とし、いずれの人間も発話していないと判断された区間を無音区間とし、
    前記発話区間の中で、一定期間以下の発話を無音区間に修正して、発話区間データとし、
    前記話者データ及び前記発話区間データから、各発話区間の中で発話と判断された期間の長い人間を各発話区間の発話者と推定する
    ことを特徴とするデータ処理方法。
  8. 請求項7に記載のデータ処理方法をコンピュータに実行させるデータ処理プログラム。
JP2020218964A 2020-12-28 2020-12-28 センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム Pending JP2022104006A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020218964A JP2022104006A (ja) 2020-12-28 2020-12-28 センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020218964A JP2022104006A (ja) 2020-12-28 2020-12-28 センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム

Publications (1)

Publication Number Publication Date
JP2022104006A true JP2022104006A (ja) 2022-07-08

Family

ID=82279482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020218964A Pending JP2022104006A (ja) 2020-12-28 2020-12-28 センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム

Country Status (1)

Country Link
JP (1) JP2022104006A (ja)

Similar Documents

Publication Publication Date Title
US9516408B2 (en) Method and apparatus for wind noise detection
JP5607627B2 (ja) 信号処理装置及び信号処理方法
AU2011201312B2 (en) Estimating own-voice activity in a hearing-instrument system from direct-to-reverberant ratio
DK2306457T3 (en) Automatic audio recognition based on binary time frequency units
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
EP2881948A1 (en) Spectral comb voice activity detection
CN106664486A (zh) 用于风噪声检测的方法和装置
US20190164567A1 (en) Speech signal recognition method and device
JP2010232862A (ja) 音声処理装置、音声処理方法、及び、プログラム
JP6641832B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP5027127B2 (ja) 背景雑音に応じてバイブレータの動作を制御することによる移動通信装置の音声了解度の向上
EP1429314A1 (en) Correction of energy as input feature for speech processing
CN110364175B (zh) 语音增强方法及系统、通话设备
US11551707B2 (en) Speech processing method, information device, and computer program product
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP2022104006A (ja) センサ装置、センシング方法、データ処理装置、データ処理方法及びデータ処理プログラム
Granqvist The self-to-other ratio applied as a phonation detector for voice accumulation
JP7284570B2 (ja) 音声再生システムおよびプログラム
JP4500458B2 (ja) 音声及びオーディオ信号用リアルタイム品質アナライザ
CN109672787A (zh) 一种设备智能提醒方法
Chinaev et al. Long-term synchronization of wireless acoustic sensor networks with nonpersistent acoustic activity using coherence state
US20220189498A1 (en) Signal processing device, signal processing method, and program
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
KR101151746B1 (ko) 오디오 신호용 잡음제거 방법 및 장치
JP2009025025A (ja) 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240530