JP5772447B2 - 音声解析装置 - Google Patents
音声解析装置 Download PDFInfo
- Publication number
- JP5772447B2 JP5772447B2 JP2011211476A JP2011211476A JP5772447B2 JP 5772447 B2 JP5772447 B2 JP 5772447B2 JP 2011211476 A JP2011211476 A JP 2011211476A JP 2011211476 A JP2011211476 A JP 2011211476A JP 5772447 B2 JP5772447 B2 JP 5772447B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- voice
- user
- microphone
- acquisition means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 claims description 97
- 230000005236 sound signal Effects 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000013459 approach Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 11
- 238000013500 data storage Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 239000002184 metal Substances 0.000 description 3
- 239000011347 resin Substances 0.000 description 3
- 229920005989 resin Polymers 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000010985 leather Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000003109 clavicle Anatomy 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000002649 leather substitute Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000012209 synthetic fiber Substances 0.000 description 1
- 229920002994 synthetic fiber Polymers 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/183—Emergency, distress or locator beacons
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
Description
装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるために用いられる提げ紐と、
前記提げ紐の前記装置本体に接続する端部または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた一方の提げ紐に設けられた第2音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた他方の提げ紐に設けられた第3音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、前記提げ紐を首に掛けた使用者の顔の向きを検知する解析処理を行う解析部と、
前記装置本体に設けられ、前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項2に記載の発明は、
前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段、前記第2音声取得手段および前記第3音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置である。
請求項3に記載の発明は、
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項1または請求項2に記載の音声解析装置である。
請求項4に記載の発明は、
前記提げ紐において前記端部から最も遠い位置に設けられた第4音声取得手段をさらに備え、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析装置である。
請求項5に記載の発明は、
前記提げ紐は、前記使用者が正面を向いた状態で発話した音声に関して、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧との差が一定の範囲内となる長さであり、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項4に記載の音声解析装置である。
請求項6に記載の発明は、
使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が第1の距離である位置となるように当該使用者に装着される第1音声取得手段と、
前記使用者が正面を向いた状態で当該使用者の口からの距離が前記第1の距離とは異なる第2の距離である位置となるように当該使用者に装着される第2音声取得手段と、
前記使用者が正面を向いた状態で、当該使用者の口を挟んで前記第2音声取得手段と対称な位置となるように当該使用者に装着される第3音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が当該第1音声取得手段、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の顔の向きを検知する解析処理を行う解析部と、
前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置である。
請求項7に記載の発明は、
前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項6に記載の音声解析装置である。
請求項8に記載の発明は、
前記使用者の背面側に装着される第4音声取得手段をさらに備え、
前記第1音声取得手段は前記使用者の正面側に装着され、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項6または請求項7に記載の音声解析装置である。
請求項9に記載の発明は、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項8に記載の音声解析装置である。
請求項2の発明によれば、使用者が提げ紐にて装置を装着することにより、収録音声の非言語情報に基づく発話者の識別および発話者の顔の向きの検知が可能となる位置に音声取得手段を装着することができる。
請求項3の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別および発話者の顔の向きの検知が実現される。
請求項4の発明によれば、収録した音声の非言語情報に基づいて発話者の縦方向における顔の向きを検知することができる。
請求項5の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の縦方向における顔の向きの検知が実現される。
請求項6の発明によれば、収録した音声の非言語情報に基づいて発話者が装置の使用者か否かを識別し、発話者の顔の向きを検知することができる。
請求項7の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の識別および発話者の顔の向きの検知が実現される。
請求項8の発明によれば、収録した音声の非言語情報に基づいて発話者の縦方向における顔の向きを検知することができる。
請求項9の発明によれば、収録した音声の非言語情報として音圧比を用いた発話者の縦方向における顔の向きの検知が実現される。
<システム構成例>
図1は、本実施形態による音声解析システムの構成例を示す図である。
図1に示すように、本実施形態のシステムは、端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(商標)(Wireless Fidelity)、Bluetooth(商標)、ZigBee(商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置10に設けられた3つのマイクロフォン11のうち、第1マイクロフォン11aにより収録された音声の情報と、第2マイクロフォン11bまたは第3マイクロフォン11cにより収録された音声の情報とを用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(マイクロフォン11への入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。なお、本実施形態による発話者の識別処理では、第2マイクロフォン11bで収録された音声の情報と第3マイクロフォン11cで収録された音声の情報のうち、いずれか一方が用いられる。以下の説明では、第2マイクロフォン11bで収録された音声の情報を用いるものとする。
図3に示す関係において、装着者の口(発声部位)である音源aと第1マイクロフォン11aとの間の距離をLa1、音源aと第2マイクロフォン11bとの間の距離をLa2とする。また、他者の口(発声部位)である音源bと第1マイクロフォン11aとの間の距離をLb1、音源bと第2マイクロフォン11bとの間の距離をLb2とする。この場合、次の関係が成り立つ。
La1>La2(La1≒1.5×La2〜4×La2)
Lb1≒La2
上述したように、音圧は、マイクロフォン11と音源との間の距離に応じて距離減衰する。図4において、距離La1の場合の音圧Ga1と距離La2の場合の音圧Ga2とを比較すると、音圧Ga2は、音圧Ga1の4倍程度となっている。一方、距離Lb1と距離Lb2とが近似するため、距離Lb1の場合の音圧Gb1と距離Lb2の場合の音圧Gb2とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図4に示した例では、距離Lb1、Lb2を60cmとしたが、ここでは音圧Gb1と音圧Gb2とがほぼ等しくなることに意味があり、距離Lb1、Lb2は図示の値に限定されない。
図4を参照して説明したように、装着者自身の発話音声に関して、第2マイクロフォン11bの音圧Ga2は、第1マイクロフォン11aの音圧Ga1の数倍(例えば4倍程度)である。また、他者の発話音声に関して、第2マイクロフォン11bの音圧Gb2は、第1マイクロフォン11aの音圧Gb1とほぼ等しい(1倍程度)。そこで、本実施形態では、第2マイクロフォン11bの音圧と第1マイクロフォン11aの音圧との比に閾値αを設定する。そして、音圧比が閾値αよりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値αよりも小さい音声は他者の発話音声と判断する。図5に示す例では、閾値αを「2」とし、音圧比Ga2/Ga1は閾値α=「2」を超えるので装着者自身の発話音声と判断され、音圧比Gb2/Gb1は閾値α=「2」よりも小さいので他者の発話音声と判断されている。
次に、本実施形態における発話者(装着者)の姿勢(顔の向き)の検知方法について説明する。
本実施形態のシステムは、上記の発話者の識別処理により発話者が端末装置10の装着者であると判断された場合に、その発話者(装着者)の姿勢として、発話者の顔の向きを検知する。言い換えれば、本実施形態は、発話者(装着者)の口(発声部位)の向く方向を検知する。本実施形態において、発話者の姿勢を検知するために、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧等の非言語情報を用いることは、上記の発話者識別の場合と同様である。
図6(a)に示すように、装着者が正面を向いている場合、音源aである装着者の口(発声部位)と第2マイクロフォン11bとの間の距離La2と、音源aである装着者の口(発声部位)と第3マイクロフォン11cとの間の距離La3との関係は、
La2≒La3
である。これに対し、例えば図6(b)に示すように、装着者が右(第2マイクロフォン11b側)を向いて発話した場合、距離La2と距離La3との関係は、
La3>La2
である。したがって、図6(b)の場合、第2マイクロフォン11bの音圧Ga2と第3マイクロフォン11cの音圧Ga3との関係は、
Ga2>Ga3
である。
Ga2−Ga3>β
である場合は、発話者(装着者)の顔が第2マイクロフォン11b側を向いており、
Ga3−Ga2>β
である場合は、発話者(装着者)の顔が第3マイクロフォン11c側を向いていると判断する。
Ga2>Ga3
または、
Ga3>Ga2
のいずれかに該当する場合に、発話者(装着者)は音圧の値が大きい方のマイクロフォン11の側を向いていると判断しても良い。これに対し、上記の例では、雑音や発話音声の反響のような発話環境の影響により音圧の値に誤差が生じることを考慮し、音圧値の差分を閾値βと比較することとした。
図7は、本実施形態における端末装置10の動作を示すフローチャートである。
図7に示すように、端末装置10のマイクロフォン11が音声を取得すると、各マイクロフォン11から取得音声に応じた電気信号(音声信号)が第1増幅器13a〜第3増幅器13cへ送られる(ステップ601)。第1増幅器13a〜第3増幅器13cは、マイクロフォン11からの音声信号を取得すると、信号を増幅して音声解析部15へ送る(ステップ602)。
上記の構成例では、第2マイクロフォン11bおよび第3マイクロフォン11cにより取得された音声信号に基づき、発話者(装着者)の顔の横方向(左右)の向きを検知した。本実施形態のシステムは、端末装置10に、マイクロフォン11をさらに追加することにより、上記横方向の向きに加え、発話者(装着者)の顔の縦方向(上下)の向きを検知する。
図8(a)に示すように、本構成例の端末装置10は、4組のマイクロフォン11を備える。このうち、第1マイクロフォン11a、第2マイクロフォン11bおよび第3マイクロフォン11cは、図1および図2を参照して説明した構成例と同様であるため、同一の符号を付して説明を省略する。
La4>La1
である。したがって、第1マイクロフォン11aの音圧Ga1と第4マイクロフォン11dの音圧Ga4との関係は、
Ga1>Ga4
である。反対に、装着者が顔を上方に向ければ、
La1>La4
であり、音圧Ga1、Ga4は、
Ga4>Ga1
である。
次に、本実施形態の端末装置10に用いられる提げ紐40および提げ紐40に対するマイクロフォン11の実装構造について、さらに説明する。
本実施形態では、図6を参照して説明したように、装着者の口(発声部位)からの距離がほぼ等しいマイクロフォン11では、そのマイクロフォン11における音圧がほぼ等しくなることを利用して、装着者の顔の向きを検知している。しかし、例えば筒状の提げ紐40が途中で捻れることにより、装着者が端末装置10を装着した際の各マイクロフォン11の向きが非統一となる場合がある。例えば、一つのマイクロフォン11は表向き(装着者の体に接する向きとは反対の向き)となり、他の一つのマイクロフォン11は裏向き(装着者の体に接する向き)となる場合がある。このような場合、これらのマイクロフォン11の向きが音圧に影響する。すなわち、これら二つのマイクロフォン11の位置が、たとえ装着者の口(発声部位)から等距離の位置であっても、各マイクロフォン11の音圧が異なる場合があり得る。そこで、下記のように、マイクロフォン11の向きによる音圧への影響が少ない構成を取ることが考えられる。
図9に示す例において、マイクロフォン11は、短い筒状のケース41に挿入された状態で提げ紐40に実装されている。このような構成とすれば、音声はケース41の両端の穴を経てマイクロフォン11に入力される。したがって、ケース41の内部でのマイクロフォン11の向きは、音圧に影響し難い。
本実施形態のシステムでは、複数の端末装置10により上記のようにして得られた発話に関する情報(以下、発話情報)がホスト装置20に集められる。ホスト装置20は、複数の端末装置10から得られた情報を用いて、システムの利用目的や利用態様等に応じて種々の解析を行う。以下、複数の装着者のコミュニケーションに関する情報を取得するシステムとして本実施形態を用いる例を説明する。
図10に示すように、端末装置10をそれぞれ装着した二人の装着者A、装着者Bが会話している場合を考える。このとき、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。
本適用例において、ホスト装置20は、端末装置10から取得した発話情報のうち、会話を行っている装着者の端末装置10からの発話情報(以下、会話情報)を検出する会話情報検出部201と、検出された会話情報を解析する会話情報解析部202とを備える。この会話情報検出部201および会話情報解析部202は、データ解析部23の機能として実現される。
傾聴度=(他者の発話時間)÷(装着者自身の発話時間)
この評価基準は、同一の会話に係る会話情報であっても、各会話参加者の端末装置10から取得した発話情報ごとに異なるものとなる。
Claims (9)
- 装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるために用いられる提げ紐と、
前記提げ紐の前記装置本体に接続する端部または当該装置本体に設けられた第1音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた一方の提げ紐に設けられた第2音声取得手段と、
前記提げ紐において前記端部から一定の距離だけ離れた位置にて、使用者の首から伸びた他方の提げ紐に設けられた第3音声取得手段と、
前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、前記提げ紐を首に掛けた使用者の顔の向きを検知する解析処理を行う解析部と、
前記装置本体に設けられ、前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。 - 前記提げ紐は、筒状の構造を有し、当該提げ紐に設けられた前記第1音声取得手段、前記第2音声取得手段および前記第3音声取得手段は、当該提げ紐の内部に設けられていることを特徴とする、請求項1に記載の音声解析装置。
- 前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項1または請求項2に記載の音声解析装置。 - 前記提げ紐において前記端部から最も遠い位置に設けられた第4音声取得手段をさらに備え、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項1乃至請求項3のいずれかに記載の音声解析装置。 - 前記提げ紐は、前記使用者が正面を向いた状態で発話した音声に関して、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧との差が一定の範囲内となる長さであり、
前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項4に記載の音声解析装置。 - 使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が第1の距離である位置となるように当該使用者に装着される第1音声取得手段と、
前記使用者が正面を向いた状態で当該使用者の口からの音波伝搬経路の距離が前記第1の距離とは異なる第2の距離である位置となるように当該使用者に装着される第2音声取得手段と、
前記使用者が正面を向いた状態で、当該使用者の口を挟んで前記第2音声取得手段と対称な位置となるように当該使用者に装着される第3音声取得手段と、
前記第1音声取得手段により取得された音声の音声信号と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、取得された当該音声が当該第1音声取得手段、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の発話音声か、当該使用者以外の他者の発話音声かを識別し、前記第2音声取得手段により取得された音声の音声信号と前記第3音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第2音声取得手段および当該第3音声取得手段を装着した使用者の顔の向きを検知する解析処理を行う解析部と、
前記解析部による解析結果を含む前記音声信号に関する情報を外部装置へ送信する送信部と、
を備えることを特徴とする、音声解析装置。 - 前記解析部は、
前記第1音声取得手段により取得された音声の音圧と前記第2音声取得手段または前記第3音声取得手段により取得された音声の音圧とを比較し、音圧比が閾値よりも大きい場合に、当該音声を前記使用者の発話音声と判断し、音圧比が閾値よりも小さい場合に、当該音声を前記他者の発話音声と判断し、
前記第2音声取得手段により取得された音声の音圧と、前記第3音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項6に記載の音声解析装置。 - 前記使用者の背面側に装着される第4音声取得手段をさらに備え、
前記第1音声取得手段は前記使用者の正面側に装着され、
前記解析部は、前記第1音声取得手段により取得された音声の音声信号と前記第4音声取得手段により取得された音声の音声信号との比較結果に基づき、当該第1音声取得手段および当該第4音声取得手段を装着した使用者の顔の向きを検知することを特徴とする、請求項6または請求項7に記載の音声解析装置。 - 前記解析部は、前記第1音声取得手段により取得された音声の音圧と、前記第4音声取得手段により取得された音声の音圧とを比較し、音圧の値が大きい方の音声取得手段に前記使用者の口が近づく向きに当該使用者の顔が向いていると判断することを特徴とする、請求項8に記載の音声解析装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011211476A JP5772447B2 (ja) | 2011-09-27 | 2011-09-27 | 音声解析装置 |
US13/406,225 US8855331B2 (en) | 2011-09-27 | 2012-02-27 | Audio analysis apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011211476A JP5772447B2 (ja) | 2011-09-27 | 2011-09-27 | 音声解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013072977A JP2013072977A (ja) | 2013-04-22 |
JP5772447B2 true JP5772447B2 (ja) | 2015-09-02 |
Family
ID=47912245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011211476A Active JP5772447B2 (ja) | 2011-09-27 | 2011-09-27 | 音声解析装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8855331B2 (ja) |
JP (1) | JP5772447B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5772448B2 (ja) * | 2011-09-27 | 2015-09-02 | 富士ゼロックス株式会社 | 音声解析システムおよび音声解析装置 |
JP5867066B2 (ja) | 2011-12-26 | 2016-02-24 | 富士ゼロックス株式会社 | 音声解析装置 |
US9746916B2 (en) | 2012-05-11 | 2017-08-29 | Qualcomm Incorporated | Audio user interaction recognition and application interface |
US9736604B2 (en) | 2012-05-11 | 2017-08-15 | Qualcomm Incorporated | Audio user interaction recognition and context refinement |
WO2016012865A2 (en) * | 2014-07-23 | 2016-01-28 | Yonatan Wexler | Wearable apparatus and methods for processing image data |
JP6476938B2 (ja) * | 2015-02-04 | 2019-03-06 | 富士ゼロックス株式会社 | 音声解析装置、音声解析システムおよびプログラム |
US9685156B2 (en) * | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
EP3093846A1 (en) * | 2015-05-12 | 2016-11-16 | Nxp B.V. | Accoustic context recognition using local binary pattern method and apparatus |
JP6606921B2 (ja) * | 2015-08-26 | 2019-11-20 | アイシン精機株式会社 | 発声方向特定装置 |
CN110493692B (zh) | 2015-10-13 | 2022-01-25 | 索尼公司 | 信息处理装置 |
EP3364663B1 (en) * | 2015-10-13 | 2020-12-02 | Sony Corporation | Information processing device |
US20180018986A1 (en) * | 2016-07-16 | 2018-01-18 | Ron Zass | System and method for measuring length of utterance |
US11195542B2 (en) | 2019-10-31 | 2021-12-07 | Ron Zass | Detecting repetitions in audio data |
WO2018051663A1 (ja) * | 2016-09-13 | 2018-03-22 | ソニー株式会社 | 音源位置推定装置及びウェアラブルデバイス |
CA3045628A1 (en) | 2016-12-19 | 2018-06-28 | Rovi Guides, Inc. | Systems and methods for distinguishing valid voice commands from false voice commands in an interactive media guidance application |
US20180324514A1 (en) * | 2017-05-05 | 2018-11-08 | Apple Inc. | System and method for automatic right-left ear detection for headphones |
JP7243105B2 (ja) * | 2018-09-27 | 2023-03-22 | 富士通株式会社 | 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム |
JP7168223B2 (ja) * | 2019-10-28 | 2022-11-09 | ハイラブル株式会社 | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム |
JP7363716B2 (ja) * | 2020-08-25 | 2023-10-18 | トヨタ自動車株式会社 | 音解析システム、音解析方法、及びプログラム |
US20240153518A1 (en) * | 2021-03-18 | 2024-05-09 | Magic Leap, Inc. | Method and apparatus for improved speaker identification and speech enhancement |
US20220236360A1 (en) * | 2022-04-19 | 2022-07-28 | Intel Corporation | Method and system of detection of acoustic source aiming direction |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63260367A (ja) * | 1987-04-17 | 1988-10-27 | Matsushita Electric Ind Co Ltd | 携帯用ビデオカメラ |
JPH07222272A (ja) * | 1994-02-01 | 1995-08-18 | Isamu Tanishita | 顎紐取り付け型マイク |
JPH08191496A (ja) | 1995-01-09 | 1996-07-23 | Matsushita Electric Ind Co Ltd | 接話マイクロホン |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
JP4752153B2 (ja) * | 2001-08-14 | 2011-08-17 | ソニー株式会社 | 情報処理装置および方法、情報生成装置および方法、記録媒体、並びにプログラム |
WO2005086801A2 (en) * | 2004-03-05 | 2005-09-22 | Etymotic Research, Inc. | Companion microphone system and method |
CN101390440B (zh) * | 2006-02-27 | 2012-10-10 | 松下电器产业株式会社 | 可穿戴终端、控制可穿戴终端的处理器及方法 |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
US20080047996A1 (en) * | 2006-07-27 | 2008-02-28 | Frederic Blouin | Intelligent personal carrier |
US8031881B2 (en) * | 2007-09-18 | 2011-10-04 | Starkey Laboratories, Inc. | Method and apparatus for microphone matching for wearable directional hearing device using wearer's own voice |
JP4958172B2 (ja) | 2007-10-31 | 2012-06-20 | 国立大学法人 名古屋工業大学 | 音源定位装置 |
JP4530051B2 (ja) * | 2008-01-17 | 2010-08-25 | 船井電機株式会社 | 音声信号送受信装置 |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
-
2011
- 2011-09-27 JP JP2011211476A patent/JP5772447B2/ja active Active
-
2012
- 2012-02-27 US US13/406,225 patent/US8855331B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8855331B2 (en) | 2014-10-07 |
US20130080168A1 (en) | 2013-03-28 |
JP2013072977A (ja) | 2013-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5772447B2 (ja) | 音声解析装置 | |
JP6031761B2 (ja) | 音声解析装置および音声解析システム | |
JP5772448B2 (ja) | 音声解析システムおよび音声解析装置 | |
JP5867066B2 (ja) | 音声解析装置 | |
JP6003472B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6003510B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2013135325A (ja) | 音声解析装置 | |
US8983843B2 (en) | Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition | |
JP6191747B2 (ja) | 音声解析装置および音声解析システム | |
JP5862318B2 (ja) | 音解析装置、音解析システムおよびプログラム | |
JP6476938B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6160042B2 (ja) | 位置特定システム | |
JP6007487B2 (ja) | 情報処理装置、情報処理システムおよびプログラム | |
JP2013072978A (ja) | 音声解析装置および音声解析システム | |
JP6031767B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2013140534A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2013164468A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6056544B2 (ja) | 音声解析装置、信号解析装置、音声解析システムおよびプログラム | |
JP6051996B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP5929810B2 (ja) | 音声解析システム、音声端末装置およびプログラム | |
JP6369022B2 (ja) | 信号解析装置、信号解析システムおよびプログラム | |
JP2014048618A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2014050048A (ja) | 音声解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5772447 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |