JP6051996B2 - 音声解析装置、音声解析システムおよびプログラム - Google Patents
音声解析装置、音声解析システムおよびプログラム Download PDFInfo
- Publication number
- JP6051996B2 JP6051996B2 JP2013064501A JP2013064501A JP6051996B2 JP 6051996 B2 JP6051996 B2 JP 6051996B2 JP 2013064501 A JP2013064501 A JP 2013064501A JP 2013064501 A JP2013064501 A JP 2013064501A JP 6051996 B2 JP6051996 B2 JP 6051996B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- wearer
- frequency spectrum
- frequency
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
請求項2の発明によれば、周波数スペクトルから共振が生じにくい周波数成分を抽出することができる。
請求項3の発明によれば、複数の装着者の音声取得手段で取得される音声に基づき、装着者のコミュニケーション関係が把握できるシステムを構築できる。
請求項4の発明によれば、本構成を採用しない場合に比較して、音声取得手段により取得された音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別する際に、誤判定が生じにくくなる機能をコンピュータにより実現できる。また本構成を採用しない場合に比較して、周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去する処理が、より容易になる。さらに周波数スペクトルから共振が生じやすい周波数成分を除去することができる。
<システム構成例>
図1は、本実施形態による音声解析システムの構成例を示す図である。
図1に示すように、本実施形態の音声解析システム1は、音声解析装置の一例である端末装置10と、ホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(Wireless Fidelity)、Bluetooth(登録商標)、ZigBee、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、あらかじめホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDのかわりに装着者状態を送信するようにしてもよい。
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置10に設けられた2つのマイクロフォン11、12により取得された音声の情報を用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、取得音声の発話者に関して自他の別を識別(自他識別)する。また、本実施形態では、取得音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(マイクロフォン11、12への入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。
図3に示す関係において、装着者の口(発声部位)である音源aと第1マイクロフォン11との間の距離をLa1、音源aと第2マイクロフォン12との間の距離をLa2とする。また、他者の口(発声部位)である音源bと第1マイクロフォン11との間の距離をLb1、音源bと第2マイクロフォン12との間の距離をLb2とする。この場合、次の関係が成り立つ。
La1>La2(La1≒1.5×La2〜4×La2)
Lb1≒Lb2
上述したように、音圧は、マイクロフォン11、12と音源との間の距離に応じて距離減衰する。図4において、距離La1の場合の音圧Ga1と距離La2の場合の音圧Ga2とを比較すると、音圧Ga2は、音圧Ga1の4倍程度となっている。一方、距離Lb1と距離Lb2とが近似するため、距離Lb1の場合の音圧Gb1と距離Lb2の場合の音圧Gb2とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、取得音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図4に示した例では、距離Lb1、Lb2を60cmとしたが、ここでは音圧Gb1と音圧Gb2とがほぼ等しくなることに意味があり、距離Lb1、Lb2は図示の値に限定されない。
図4を参照して説明したように、装着者自身の発話音声に関して、第2マイクロフォン12の音圧Ga2は、第1マイクロフォン11の音圧Ga1の数倍(例えば4倍程度)である。また、他者の発話音声に関して、第2マイクロフォン12の音圧Gb2は、第1マイクロフォン11の音圧Gb1とほぼ等しい(1倍程度)。そこで、本実施形態では、第2マイクロフォン12の音圧と第1マイクロフォン11の音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。図5に示す例では、閾値を2とし、音圧比Ga2/Ga1は閾値2を超えるので装着者自身の発話音声と判断され、音圧比Gb2/Gb1は閾値2よりも小さいので他者の発話音声と判断されている。
そこで本実施形態では、音声解析部15を以下の構成とすることで、この問題の抑制を図っている。
図7は、本実施形態における音声解析部15の機能構成例を示した図である。
図示するように音声解析部15は、音声情報取得手段151と、処理手段152と、自他識別手段153とを備える。
以下、この事項について詳しく説明を行なう。
ここで図8(b)における周波数スペクトルに含まれる周波数成分を考える。このとき概略的に見て、周波数スペクトルには、点線で示した周期が長い周波数成分(ゆるやかに変動する低周波の成分)と実線で示した周期が短い周波数成分(細かに変動する高周波の成分)が含まれることがわかる。このうち周期が長い周波数成分は、人の声道の特性を反映したものである。本実施形態では、これを周波数スペクトルにおけるスペクトル包絡と呼ぶ。また周期が短い周波数成分は、声帯振動の特性を反映したもので、声帯の基本周波数(この場合、約150Hz)とその倍音の周波数からなる調波構造を採る。本実施形態では、これを周波数スペクトルにおけるスペクトル微細構造と呼ぶ。
そこで本実施形態では、処理手段152において、周波数スペクトルからスペクトル微細構造を除去する処理を行なう。これにより周波数スペクトルの中から共振がより生じにくいスペクトル包絡を残すことができる。
図9は、図8(b)の周波数スペクトルをさらにフーリエ変換して得られるケプストラムについて説明した図である。図9において、横軸は、時間の次元を有するケフレンシを表わし、縦軸は、ケプストラムを表わす。
このときケフレンシが0に近い箇所において破線で囲った領域Aが、スペクトル包絡を表わす領域である。またケフレンシが0.01に近い箇所において破線で囲った領域Bが、スペクトル微細構造を表わす領域である。即ち、周波数スペクトルからケプストラムを求めることでスペクトル包絡とスペクトル微細構造とを分離することができる。なおケフレンシは、周波数スペクトルにおける周波数の逆数に対応するため、図9では、上述した声帯の基本周波数150Hzの逆数である1/150=0.0067付近に大きなピークが生じている。
図10は、本実施形態で、リフタ処理を行なった後のケプストラムを説明した図である。リフタ処理によりスペクトル微細構造を表わす領域が取り除かれ、スペクトル包絡を表わす領域が残ることがわかる。
図示した周波数スペクトルは、図10のケプストラムを逆フーリエ変換することで得ることができる。
図8(b)と図11の周波数スペクトルを比較すると、周波数スペクトルからスペクトル微細構造が除去され、スペクトル包絡が抽出されていることがわかる。
以上の方法により周波数スペクトルに含まれる周波数成分のうち予め定められた周波数以上のものを除去することができるため、周波数スペクトルからスペクトル微細構造を除去することができる。これにより共振の影響を受けにくい周波数スペクトルが得られたことになる。
より具体的には、図11で示したスペクトル包絡に基づく周波数スペクトルを積分する。そしてこの積分値は、音圧を表わすとみなせるため、図5で説明した方法で、発話音声が装着者の発話音声であるか他者の発話音声であるかの自他識別を行うのに使用できる。
図12は、本実施形態における端末装置10の動作を示すフローチャートである。
図12に示すように、端末装置10のマイクロフォン11、12が音声を取得すると、各マイクロフォン11、12から取得音声に応じた電気信号(音声信号)が第1増幅器13および第2増幅器14へ送られる(ステップ101)。第1増幅器13および第2増幅器14は、マイクロフォン11、12からの音声信号を取得すると、信号を増幅して音声解析部15へ送る(ステップ102)。
また音声解析部15の自他識別手段153は、スペクトル包絡に基づく周波数スペクトルを積分し、この積分値を音圧とみなして第1マイクロフォン11における平均音圧と第2マイクロフォン12における平均音圧との比(音圧比)を求める(ステップ108)。ステップ108で求めた音圧比が閾値よりも大きい場合(ステップ109でYes)、音声解析部15は、発話音声は装着者自身の発話による音声であると判断する(ステップ110)。また、ステップ108で求めた音圧比が閾値よりも小さい場合(ステップ109でNo)、音声解析部15は、発話音声は他者の発話による音声であると判断する(ステップ111)。一方、ステップ104で求めた各マイクロフォン11、12における平均音圧の利得が無い場合(ステップ105でNo)、音声解析部15は、発話音声が無い(発話が行われていない)と判断する(ステップ112)。
本実施形態のシステムでは、複数の端末装置10により上記のようにして得られた発話に関する情報(以下、発話情報)がホスト装置20に集められる。ホスト装置20は、複数の端末装置10から得られた情報を用いて、例えば、装着者同士の会話関係を解析する。
図13に示すように、端末装置10をそれぞれ装着した二人の装着者A、装着者Bが会話している場合を考える。このとき、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。
なお本実施形態における端末装置10が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置10に設けられた制御用コンピュータ内部の図示しないCPUが、端末装置10の各機能を実現するプログラムを実行し、これらの各機能を実現させる。
装着者に図2で示したように端末装置10を装着し、装着者から1m離れた場所に他者を配置した。そして装着者および他者の何れかが音声を発し、図5で説明した方法で、マイクロフォン11、12で取得された音声について音圧比を測定した。このとき装着者と他者がそれぞれ300回発話することで音圧比を測定した。
そしてこの方法により、上述したスペクトル微細構造を除去しなかった場合と、除去した場合とで音圧比の比較を行なった。
実験の結果を図15(a)〜(b)に示す。
図15(a)〜(b)は、スペクトル微細構造を除去しなかった場合と、除去した場合で、音圧比の変化を説明した図である。図15(a)〜(b)において、横軸は、300回の実験のそれぞれのデータ番号を表わし、縦軸が音圧比を表わす。
Claims (4)
- 装着者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声に関する情報を取得する音声情報取得手段と、
前記音声取得手段により取得された音声について周波数と強度との関係を表わす第1の周波数スペクトルを求めるとともに、当該第1の周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去する処理を行なう処理手段と、
前記音声取得手段により取得された音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別する自他識別手段と、
を備え、
前記処理手段は、前記第1の周波数スペクトルからケプストラムを求め、当該ケプストラムに予め定められた数値以上の高ケフレンシ部を除外するリフタ処理を行なうことで当該第1の周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去し、リフタ処理後のケプストラムを逆フーリエ変換して得られた第2の周波数スペクトルを積分して積分値を求め、
前記自他識別手段は、前記処理手段により求められた前記積分値を基に、前記音声取得手段により取得された音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別することを特徴とする音声解析装置。 - 前記処理手段は、前記第1の周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去する処理を行なうことで、人の声道の特性に起因する周波数成分に基づく前記第2の周波数スペクトルを抽出することを特徴とする請求項1に記載の音声解析装置。
- 装着者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段と、
前記音声取得手段により取得された音声について周波数と強度との関係を表わす第1の周波数スペクトルを求めるとともに、当該第1の周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去する処理を行なう処理手段と、
前記音声取得手段により取得された音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別する自他識別手段と、
を備え、
前記処理手段は、前記第1の周波数スペクトルからケプストラムを求め、当該ケプストラムに予め定められた数値以上の高ケフレンシ部を除外するリフタ処理を行なうことで当該第1の周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去し、リフタ処理後のケプストラムを逆フーリエ変換して得られた第2の周波数スペクトルを積分して積分値を求め、
前記自他識別手段は、前記処理手段により求められた前記積分値を基に、前記音声取得手段により取得された音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別することを特徴とする音声解析システム。 - コンピュータに、
装着者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声に関する情報を取得する機能と、
前記音声取得手段により取得された音声について周波数と強度との関係を表わす第1の周波数スペクトルを求めるとともに、当該第1の周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去する処理を行なう機能と、
前記音声取得手段により取得された音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別する機能と、
を実現させ、
前記処理を行なう機能は、前記第1の周波数スペクトルからケプストラムを求め、当該ケプストラムに予め定められた数値以上の高ケフレンシ部を除外するリフタ処理を行なうことで当該第1の周波数スペクトルに含まれる周波数成分のうち予め定められた範囲のものを除去し、リフタ処理後のケプストラムを逆フーリエ変換して得られた第2の周波数スペクトルを積分して積分値を求め、
前記識別する機能は、前記処理を行なう機能により求められた前記積分値を基に、前記音声取得手段により取得された音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別するプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013064501A JP6051996B2 (ja) | 2013-03-26 | 2013-03-26 | 音声解析装置、音声解析システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013064501A JP6051996B2 (ja) | 2013-03-26 | 2013-03-26 | 音声解析装置、音声解析システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014191069A JP2014191069A (ja) | 2014-10-06 |
JP6051996B2 true JP6051996B2 (ja) | 2016-12-27 |
Family
ID=51837393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013064501A Expired - Fee Related JP6051996B2 (ja) | 2013-03-26 | 2013-03-26 | 音声解析装置、音声解析システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6051996B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6515591B2 (ja) * | 2015-03-03 | 2019-05-22 | 富士ゼロックス株式会社 | 音声解析装置、音声解析システムおよびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6097400A (ja) * | 1983-11-01 | 1985-05-31 | 日本電気株式会社 | 音声認識装置 |
JP5339501B2 (ja) * | 2008-07-23 | 2013-11-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声収集方法、システム及びプログラム |
-
2013
- 2013-03-26 JP JP2013064501A patent/JP6051996B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014191069A (ja) | 2014-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6031761B2 (ja) | 音声解析装置および音声解析システム | |
JP5772447B2 (ja) | 音声解析装置 | |
JP5772448B2 (ja) | 音声解析システムおよび音声解析装置 | |
JP6003472B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6003510B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP5867066B2 (ja) | 音声解析装置 | |
CN109346075A (zh) | 通过人体振动识别用户语音以控制电子设备的方法和系统 | |
JP2013142843A (ja) | 動作解析装置、音声取得装置、および、動作解析システム | |
JP2013135325A (ja) | 音声解析装置 | |
CN115314804A (zh) | 佩戴检测方法、可穿戴设备及存储介质 | |
JP6160042B2 (ja) | 位置特定システム | |
JP6476938B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6191747B2 (ja) | 音声解析装置および音声解析システム | |
JP5862318B2 (ja) | 音解析装置、音解析システムおよびプログラム | |
JP6051996B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
CN113767431A (zh) | 语音检测 | |
JP2013140534A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2013072978A (ja) | 音声解析装置および音声解析システム | |
JP2013164468A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6515591B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6056544B2 (ja) | 音声解析装置、信号解析装置、音声解析システムおよびプログラム | |
JP5929810B2 (ja) | 音声解析システム、音声端末装置およびプログラム | |
JP6369022B2 (ja) | 信号解析装置、信号解析システムおよびプログラム | |
JP2014048618A (ja) | 音声解析装置、音声解析システムおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6051996 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |