JP5867066B2 - 音声解析装置 - Google Patents

音声解析装置 Download PDF

Info

Publication number
JP5867066B2
JP5867066B2 JP2011283452A JP2011283452A JP5867066B2 JP 5867066 B2 JP5867066 B2 JP 5867066B2 JP 2011283452 A JP2011283452 A JP 2011283452A JP 2011283452 A JP2011283452 A JP 2011283452A JP 5867066 B2 JP5867066 B2 JP 5867066B2
Authority
JP
Japan
Prior art keywords
sound
voice
microphone
speech
sound pressure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011283452A
Other languages
English (en)
Other versions
JP2013134312A (ja
Inventor
啓 下谷
啓 下谷
洋平 西野
洋平 西野
米山 博人
博人 米山
靖 飯田
靖 飯田
藤居 徹
徹 藤居
原田 陽雄
陽雄 原田
Original Assignee
富士ゼロックス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士ゼロックス株式会社 filed Critical 富士ゼロックス株式会社
Priority to JP2011283452A priority Critical patent/JP5867066B2/ja
Publication of JP2013134312A publication Critical patent/JP2013134312A/ja
Application granted granted Critical
Publication of JP5867066B2 publication Critical patent/JP5867066B2/ja
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Description

本発明は、音声解析装置に関する。

特許文献1には、次の従来技術が開示されている。この従来技術は、マイクロホンの設置場所の相違による音声認識率の低下を低減する。そして、この従来技術は、音声を集音するマイクロホンから得られた音声信号をA/D変換し、そのスペクトルを算出する分析部と、雑音を集音するマイクロホンから得られた雑音信号をA/D変換し、そのスペクトルを算出する分析部と、この音声側スペクトル及び雑音側スペクトルの差をとることによって前記音声側スペクトルを補正する音声補償部と、登録処理時に、補正された音声信号を標準パタンとして記憶する登録処理部と、音声認識時に、補正された音声信号を前記登録処理部に記憶された標準パタンと比較するにより音声を認識する認識処理部とを有する音声認識装置において、登録処理を行う前に、前記マイクロホン及びマイクロホンの最適な設置位置を設定する位置設定部を有する。

また、特許文献2には、次の従来技術が開示されている。この従来技術は、複数の音声パターンを平均化することで行う標準パターン作成方法において、各音声パターン中に、音声生成上の不安定性分を、該音声パターン平均化の際の必然的要素として存在させたことを特徴とする標準パターン作成方式である。そして、この突発性のノイズの直後に発生された音声や、音声の末尾が欠落したパターンから正常な音声信号のみを平均化して標準パターンを作成する。

特開平7−191688号公報 特開昭63−226691号公報

本発明は、音声取得手段により取得される音声のうち、装置本体が衝突することで生じる衝突音を含む音を識別することを目的とする。

請求項1に記載の発明は、装置本体と、前記装置本体に接続され、当該装置本体を使用者の首から提げるのに用いられる提げ紐と、前記提げ紐または前記装置本体に設けられ音声を取得する第1音声取得手段と、前記提げ紐を首に掛けたときに、前記装置本体から前記第1音声取得手段までの音波伝搬経路の距離より、当該装置本体からの音波伝搬経路の距離が大きくなる位置に設けられ音声を取得する第2音声取得手段と、前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音圧である第1音圧と前記第2音声取得手段により取得された音声の音圧である第2音圧との比較結果に基づき、当該第1音圧が、当該第2音圧よりも予め定められた値以上大きい音を識別する識別部とを備えることを特徴とする音声解析装置である。
請求項2に記載の発明は、前記第1音声取得手段は前記装置本体に設けられており、前記第2音声取得手段は前記提げ紐に設けられていることを特徴とする、請求項1記載の音声解析装置である。
請求項3に記載の発明は、前記識別部は、前記第1音圧と前記第2音圧との比較結果に基づき、前記第1音声取得手段および前記第2音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項1または2記載の音声解析装置である。
請求項4に記載の発明は、前記識別部は、当該識別部によって識別された音以外の音についての前記第1音圧と前記第2音圧との比較結果に基づき、前記第1音声取得手段および前記第2音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項1から3のいずれかに記載の音声解析装置である。

請求項1の発明によれば、音声取得手段により取得される音声のうち、装置本体が衝突することで生じる衝突音を含む音を識別できる。
請求項2の発明によれば、本発明を用いない場合を比べて、音声取得手段により取得される音声のうち、装置本体が衝突することで生じる衝突音を含む音をより正確に識別できる。
請求項3の発明によれば、取得した音声の非言語情報に基づいて発話者が装着者か否かを識別することができる。
請求項4の発明によれば、音声取得手段により取得される音声のうち、少なくとも一部の雑音を除去した状態で、発話者が装着者か否かの識別を行うことができる。

本実施形態による音声解析システムの構成例を示す図である。 本実施形態における端末装置の構成例を示す図である。 装着者および他者の口(発声部位)と、マイクロフォンとの位置の関係を示す図である。 マイクロフォンと音源との間の音波伝搬経路の距離と音圧(入力音量)との関係を示す図である。 装着者自身の発話音声と他者の発話音声の識別方法を示す図である。 マイクロフォンの音圧と衝突音との関係を示した図である。 装置本体と、マイクロフォンとの位置の関係を示す図である。 マイクロフォンと音源との間の音波伝搬経路の距離と音圧(入力音量)との関係を示す図である。 発話者の識別方法と取得した音声が衝突音を含むことの識別方法との関係を示す図である。 本実施形態における端末装置の動作を示すフローチャートである。 本実施形態における端末装置が衝突音を含む発話音声を取得した際の音声データを示す図である。 本実施形態の端末装置をそれぞれ装着した複数の装着者が会話している状況を示す図である。 図12の会話状況における各端末装置の発話情報の例を示す図である。 本実施形態におけるホスト装置の機能構成例を示す図である。

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<システム構成例>
図1は、本実施形態による音声解析システムの構成例を示す図である。
図1に示すように、本実施形態のシステムは、端末装置10とホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(登録商標)(Wireless Fidelity)、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wideband)等の既存の方式による回線を用いて良い。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。

端末装置10は、音声取得手段として、少なくとも、1組のマイクロフォン(第1マイクロフォン11および第2マイクロフォン12)と、増幅器(第1増幅器13および第2増幅器14)とを備える。また、端末装置10は、処理手段として、取得音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17を備える。

第1マイクロフォン11と第2マイクロフォン12とは、装着者の口(発声部位)からの音波伝搬経路の距離(以下、単に「距離」と記す)が異なる位置に配置される。ここでは、第1マイクロフォン11は装着者の口(発声部位)から遠い位置(例えば、35cm程度)に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置(例えば、10cm程度)に配置されるものとする。本実施形態の第1マイクロフォン11および第2マイクロフォン12として用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。特に無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンを用いることが好ましい。

第1増幅器13および第2増幅器14は、第1マイクロフォン11および第2マイクロフォン12が取得音声に応じて出力する電気信号(音声信号)を増幅する。本実施形態の第1増幅器13および第2増幅器14として用いられる増幅器としては、既存のオペアンプ等を用いて良い。

音声解析部15は、第1増幅器13および第2増幅器14から出力された音声信号を解析する。そして、第1マイクロフォン11および第2マイクロフォン12で取得した音声が端末装置10を装着した装着者自身が発話した音声か、他者の発話による音声かを識別する。すなわち、音声解析部15は、第1マイクロフォン11および第2マイクロフォン12で取得した音声に基づき、音声の発話者を識別する識別部として機能する。発話者識別のための具体的な処理の内容については後述する。

データ送信部16は、音声解析部15による解析結果を含む取得データと端末装置10のIDを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11および第2マイクロフォン12による音声の取得時刻、取得音声の音圧等の情報を含めて良い。なお、端末装置10に音声解析部15による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。有線回線で送信しても良い。

電源部17は、上記の第1マイクロフォン11、第2マイクロフォン12、第1増幅器13、第2増幅器14、音声解析部15およびデータ送信部16に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部17は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。

ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々からデータを受信する。

データ受信部21は、上記の無線通信回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される端末IDと、予めホスト装置20に登録されている発話者名と端末IDの照合により行う。また、端末装置10から端末IDの代わりに、装着者名を送信するようにしておいても良い。

データ解析部23は、例えばパーソナルコンピュータのプログラム制御されたCPUにより実現され、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。

出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく出力を行ったりする。出力手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。

<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。

装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13、第2増幅器14、音声解析部15、データ送信部16および電源部17を実現する回路と電源部17の電源(電池)とを収納して構成される。ケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を印刷したり、ID情報等を記載したシールを貼り付けたりしても良い。

提げ紐40には、第1マイクロフォン11および第2マイクロフォン12が設けられる(以下、第1マイクロフォン11と第2マイクロフォン12とを区別しない場合には、マイクロフォン11、12と記載)。マイクロフォン11、12は、提げ紐40の内部を通るケーブル(電線等)により、装置本体30に収納された第1増幅器13、第2増幅器14に接続される。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。

この提げ紐40は、筒状の構造を有し、提げ紐40の内部にマイクロフォン11、12を収納している。マイクロフォン11、12を提げ紐40の内部に設けることにより、マイクロフォン11、12の損傷や汚れを防ぎ、対話者がマイクロフォン11、12の存在を意識することが抑制される。なお、装着者の口(発声部位)から遠い位置に配置される第1マイクロフォン11は、ケース31に内蔵して装置本体30に設けても良い。本実施形態では、第1マイクロフォン11が提げ紐40に設けられる場合を例として説明する。

図2を参照すると、第1音声取得手段の一例である第1マイクロフォン11は、提げ紐40の装置本体30に接続される端部(例えば、装置本体30の中心から10cm以内の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第1マイクロフォン11は、装着者の口(発声部位)から約30cmから40cm程度離れた位置に配置される。なお、第1マイクロフォン11が装置本体30に設けられた場合も、装着者の口(発声部位)から第1マイクロフォン11までの距離は同程度である。

第2音声取得手段の一例である第2マイクロフォン12は、提げ紐40の装置本体30に接続される端部から離れた位置(例えば、装置本体30の中心から25cm〜35cm程度の位置)に設けられている。これにより、装着者が提げ紐40を首に掛けて装置本体30を下げた状態で、第2マイクロフォン12は、装着者の首元(例えば鎖骨に当たる位置)に位置し、装着者の口(発声部位)から約10cmから20cm程度離れた位置に配置される。

なお、本実施形態の端末装置10は、図2に示す構成に限定されるものではない。例えば、マイクロフォン11、12は、第1マイクロフォン11から装着者の口(発声部位)までの(音波伝搬経路の)距離が第2マイクロフォン12から装着者の口(発声部位)までの(音波伝搬経路の)距離の数倍程度となるように、第1マイクロフォン11と第2マイクロフォン12の位置関係が特定されれば良い。また、マイクロフォン11、12は、上記のように提げ紐40に設ける構成に限らず、種々の方法で装着者に装着して良い。例えば、第1マイクロフォン11および第2マイクロフォン12の各々を、個別にピン等を用いて衣服に固定するように構成しても良い。また、第1マイクロフォン11および第2マイクロフォン12の位置関係が所望の位置で固定されるようにデザインされた専用の装着具を用意して装着しても良い。

また、装置本体30は、図2に示したように、提げ紐40に接続されて装着者の首から提げられる構成に限らず、携帯することが容易な装置として構成されていれば良い。例えば、本実施形態のような提げ紐ではなく、クリップやベルトにより衣服や体に装着するように構成しても良いし、単にポケット等に納めて携帯するような構成としても良い。また、携帯電話その他の既存の携帯型電子情報端末に、マイクロフォン11、12からの音声信号を受け付けて増幅し、解析する機能を実現させても良い。ただし、第1マイクロフォン11が装置本体30に設けられる場合は、第1マイクロフォン11と第2マイクロフォン12との位置関係を上記のように保持する必要があるため、携帯時の装置本体30の位置は特定される。

さらにまた、マイクロフォン11、12と装置本体30(あるいは音声解析部15)を有線で接続するのではなく、無線通信により接続しても良い。第1増幅器13、第2増幅器14、音声解析部15、データ送信部16および電源部17は、上記の構成例では単一のケース31に収納されることとしたが、複数の個体に分けて構成しても良い。例えば、電源部17をケース31に収納せず、外部電源に接続して使用する構成としても良い。

<取得音声の非言語情報に基づく発話者(自他)の識別>
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置10に設けられた2つのマイクロフォン11、12により取得された音声の情報を用いて、端末装置10の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、取得音声の発話者に関して自他の別を識別する。また、本実施形態では、取得音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧(マイクロフォン11、12への入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。

図1および図2を参照して説明したように、本実施形態において、端末装置10の第1マイクロフォン11は装着者の口(発声部位)から遠い位置に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離が大きく異なる。具体的には、第1マイクロフォン11と音源との間の距離は、第2マイクロフォン12と音源との間の距離の1.5〜4倍程度である。ここで、マイクロフォン11、12における取得音声の音圧は、マイクロフォン11、12と音源との間の距離が大きくなるにしたがって減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11における取得音声の音圧と第2マイクロフォン12における取得音声の音圧とは大きく異なる。

一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、その他者が装着者から離れているため、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11と音源との間の距離が第2マイクロフォン12と音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11における取得音声の音圧と第2マイクロフォン12における取得音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。

図3は、装着者および他者の口(発声部位)と、マイクロフォン11、12との位置の関係を示す図である。
図3に示す関係において、装着者の口(発声部位)である音源aと第1マイクロフォン11との間の距離をLa1、音源aと第2マイクロフォン12との間の距離をLa2とする。また、他者の口(発声部位)である音源bと第1マイクロフォン11との間の距離をLb1、音源bと第2マイクロフォン12との間の距離をLb2とする。この場合、次の関係が成り立つ。
La1>La2(La1≒1.5×La2〜4×La2)
Lb1≒Lb2

図4は、マイクロフォン11、12と音源との間の距離と音圧(入力音量)との関係を示す図である。
上述したように、音圧は、マイクロフォン11、12と音源との間の距離に応じて距離減衰する。図4において、距離La1の場合の音圧(第1音圧)Ga1と距離La2の場合の音圧(第2音圧)Ga2とを比較すると、音圧Ga2は、音圧Ga1の4倍程度となっている。一方、距離Lb1と距離Lb2とが近似するため、距離Lb1の場合の音圧Gb1と距離Lb2の場合の音圧Gb2とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、取得音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図4に示した例では、距離Lb1、Lb2を60cmとしたが、ここでは音圧Gb1と音圧Gb2とがほぼ等しくなることに意味があり、距離Lb1、Lb2は図示の値に限定されない。

図5は、装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
図4を参照して説明したように、装着者自身の発話音声に関して、第2マイクロフォン12の音圧Ga2は、第1マイクロフォン11の音圧Ga1の数倍(例えば4倍程度)である。また、他者の発話音声に関して、第2マイクロフォン12の音圧Gb2は、第1マイクロフォン11の音圧Gb1とほぼ等しい(1倍程度)。そこで、本実施形態では、第2マイクロフォン12の音圧と第1マイクロフォン11の音圧との比に閾値(第1の閾値)を設定する。第1の閾値は、装着者自身の発話音声における音圧比の値と他者の発話音声における音圧比の値との間の値に設定される。そして、音圧比が第1の閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が第1の閾値よりも小さい音声は他者の発話音声と判断する。図5に示す例では、第1の閾値を2とし、音圧比Ga2/Ga1は第1の閾値2を超えるので装着者自身の発話音声と判断され、音圧比Gb2/Gb1は第1の閾値2よりも小さいので他者の発話音声と判断されている。

<衝撃音が含まれる取得音声の識別>
上記のように、端末装置10の使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。そして、使用者がこの端末装置10を首から提げている状態において、例えば使用者が動くと、端末装置10が揺れ、端末装置10の装置本体30が他の部材と衝突することがある。このように、装置本体30が他の部材と衝突すると衝突音が発生する。例えば、装置本体30が、端末装置10の使用者の体の一部や、机、あるいは端末装置10以外に使用者が首から提げるIDカードや携帯電話にぶつかることにより、衝突音が発生する。そして、この衝突音は、装着者や他者の発話音声とともに、マイクロフォン11、12によって取得音声として取得される。

さて、装置本体30が他の部材と衝突することにより生じる衝突音をマイクロフォン11、12が取得すると、取得音声における装着者自身の発話音声が他者の発話音声と認識され得る。
以下で、衝突音を取得することと、装着者の発話が他者の発話と認識されることとの関係を説明する。
図6は、マイクロフォン11、12の音圧と衝突音との関係を示した図である。具体的には、図6(a)は衝突音を含む発話音声を取得したマイクロフォン11、12の音圧の変化を示した図であり、図6(b)は、図6(a)に示すマイクロフォン11、12の音圧比の変化を示した図である。

本実施形態の端末装置10においては、第1マイクロフォン11が取得する衝突音の大きさは、第2マイクロフォン12が取得する衝突音の大きさよりも大きくなる。さらに説明すると、この第1マイクロフォン11が取得する衝突音は、発話音声と比較して短時間(例えば0.3ms程度)において発生している。
例えば、図6(a)において、端末装置10が他の部材と衝突した際(一点鎖線内)における第1マイクロフォン11の平均音圧(平均ゲイン)Ga1と、第2マイクロフォン12の平均音圧(平均ゲイン)Ga2との関係を比較すると、音圧Ga1が音圧Ga2よりも大きい。これは、第1マイクロフォン11が、第2マイクロフォン12よりも、衝突音を生じさせる装置本体30に近いためである。
さらに、図6(b)において、端末装置10が他の部材と衝突した際(一点鎖線内)における第1マイクロフォン11の平均音圧Ga1と、第2マイクロフォン12の平均音圧Ga2との音圧比は、他の部材と衝突した際(一点鎖線内)以外の音圧比よりも小さい。

さて、第1マイクロフォン11が取得する衝突音が、第2マイクロフォン12が取得する衝突音よりも大きくなることをより詳細に説明する。
図7は、装置本体30と、マイクロフォン11、12との位置の関係を示す図である。
図7に示す関係において、装置本体30の中心である音源Sと第1マイクロフォン11との間の距離をLs1、音源Sと第2マイクロフォン12との間の距離をLs2とする。そして、上記のように、例えば、第1マイクロフォン11は装置本体30の中心から10cm以内の位置に設けられ、第2マイクロフォン12は、装置本体30の中心から25cm〜35cm程度の位置に設けられる。この場合、次の関係が成り立つ。
Ls1<Ls2(2.5×Ls1〜3.5×Ls1≒Ls2)
なお、第1マイクロフォン11が装置本体30に設けられた場合には、距離Ls1はさらに小さくなる。

図8は、マイクロフォン11、12と音源との間の音波伝搬経路の距離と音圧(入力音量)との関係を示す図である。
上述したように、音圧は、マイクロフォン11、12と音源との間の距離に応じて距離減衰する。図8において、距離Ls1の場合の音圧Gs1と距離Ls2の場合の音圧Gs2とを比較すると、音圧Gs2は、音圧Gs1の0.3倍程度となっている。なお、第1マイクロフォン11が装置本体30に設けられた場合には、距離Ls1はさらに小さくなり、これにともない音圧Gs1はさらに大きくなる。したがって、この場合、音圧Gs2は音圧Gs1の0.3倍よりもさらに小さくなる。

図9は、発話者の識別方法と取得した音声が衝突音を含むことの識別方法との関係を示す図である。
図9に示すように、本実施形態では、音圧比が第1の閾値よりも大きい場合(すなわち第2マイクロフォン12の音圧Ga2が第1マイクロフォン11の音圧Ga1の2倍よりも大きい場合)を装着者の発話音声とする。しかし、装着者が発話している区間であっても、衝突音の影響を受け第1マイクロフォン11の音圧Ga1が大きくなると、音圧比が第1の閾値よりも小さくなり、他者が発話している区間と識別され得る。
なお、装着者が発話しているときには、多くの場合身振り手振りを伴うことから、装置本体30による衝突音がより発生しやすい。したがって、この場合、装着者が発話している区間であるにもかかわらず、他者が発話している区間と識別される頻度が高まる。

そこで、本実施形態では、次のような構成とすることにより、取得音声が衝突音を含むか否かを識別し、装着者の発話音声と他者の発話音声との識別に衝突音が与える影響を抑制する。具体的には、本実施形態では、第2マイクロフォン12の音圧と第1マイクロフォン11の音圧との比に閾値(第2の閾値)を設定する。

これは、第2マイクロフォン12の音圧と第1マイクロフォン11の音圧との比が、衝突音を含む取得音声と衝突音を含まない取得音声とでは異なる傾向となることを利用したものである。
さらに説明をすると、図8を参照して説明したように、衝突音が発生した際の取得音声に関して、第2マイクロフォン12の音圧Gs2は第1マイクロフォン11の音圧Gs1の数分の一(例えば0.3倍程度)となり得る。一方で、上記のように、装着者の発話音声に関して第2マイクロフォン12の音圧Ga2が第1マイクロフォン11の音圧Ga1の数倍(例えば4倍程度)であり、他者の発話音声に関して第2マイクロフォン12の音圧Gb2は第1マイクロフォン11の音圧Gb1とほぼ等しい(例えば1倍程度)。

そこで、他者の発話音声における音圧比と衝突音が発生した際の取得音声における音圧比との間の適当な値を第2の閾値として設定する。そして、音圧比が第2の閾値よりも小さい音声は衝突音を含む取得音声と判断し、音圧比が第2の閾値よりも大きい音声は衝突音を含まない取得音声と判断する。なお、本実施形態では、衝突音を含む取得音声と判断した際には、装着者の発話音声と他者の発話音声との識別を行わない。
図9に示す例では、第2の閾値を0.4とし、音圧比Ga2/Ga1及び音圧比Gb2/Gb1は第2の閾値0.4よりも大きいので衝突音を含まない音声と判断され、音圧比Gs2/Gs1は第2の閾値0.4よりも小さいので衝突音を含む音声と判断されている。
なお、上記の第1の閾値及び第2の閾値は、単なる例示であり、本実施形態のシステムを使用する環境等に応じて、変更可能である。

さて、マイクロフォン11、12により取得される音声には、発話音声および衝突音の他に、空調の作動音や、装着者の歩行に伴う足音等、端末装置10を使用する環境の音(環境音)が含まれる。この環境音の音源とマイクロフォン11、12との間の距離の関係は、他者の発話音声の場合と類似する。すなわち、図4、図5に示した例によれば、雑音の音源cと第1マイクロフォン11との間の距離をLc1とし、雑音の音源cと第2マイクロフォン12との間の距離をLc2とすると、距離Lc1と距離Lc2とは近似する。そして、マイクロフォン11、12の取得音声における音圧比Gc2/Gc1は、第1の閾値2よりも小さくなる。しかし、このような環境音は、バンドパスフィルタやゲインフィルタ等を用いた既存の技術によるフィルタリング処理を行うことにより発話音声から分離され、除去される。

<端末装置の動作例>
図10は、本実施形態における端末装置10の動作を示すフローチャートである。
図10に示すように、端末装置10のマイクロフォン11、12が音声を取得すると、各マイクロフォン11、12から取得音声に応じた電気信号(音声信号)が第1増幅器13および第2増幅器14へ送られる(ステップ1001)。第1増幅器13および第2増幅器14は、マイクロフォン11、12からの音声信号を取得すると、信号を増幅して音声解析部15へ送る(ステップ1002)。

音声解析部15は、第1増幅器13および第2増幅器14で増幅された信号に対してフィルタリング処理を行い、信号から環境音の成分を除去する(ステップ1003)。次に、音声解析部15は、雑音成分が除かれた信号に対し、一定の時間単位(例えば、数十分の一秒〜数百分の一秒)毎に、各マイクロフォン11、12の取得音声における平均音圧を求める(ステップ1004)。

ステップ1004で求めた各マイクロフォン11、12における平均音圧の利得が有る場合(ステップ1005でYes)、音声解析部15は、発話音声が有る(発話が行われた)と判断し、次に、第1マイクロフォン11における平均音圧と第2マイクロフォン12における平均音圧との比(音圧比)を求める(ステップ1006)。
そして、ステップ1006で求めた音圧比が第1の閾値よりも大きい場合(ステップ1007でYes)、音声解析部15は、発話音声は装着者自身の発話による音声であると判断する(ステップ1008)。また、ステップ1006で求めた音圧比が第1の閾値よりも小さい場合(ステップ1007でNo)であって、かつステップ1006で求めた音圧比が第2の閾値よりも大きい場合(ステップ1009でYes)、音声解析部15は、発話音声は他者の発話による音声であると判断する(ステップ1010)。さらに、ステップ1006で求めた音圧比が第1の閾値よりも小さい場合(ステップ1007でNo)であって、かつステップ1006で求めた音圧比が第2の閾値よりも小さい場合(ステップ1009でNo)、音声解析部15は、衝突音を含む取得音であると判断する。いわば、音声解析部15は、衝突音を含む取得音を雑音として認識する。なお、本実施形態では、衝突音を含む取得音と判断した場合には、上記のように音声解析部15は装着者の発話音声と他者の発話音声との識別を行わない。

また、ステップ1004で求めた各マイクロフォン11、12における平均音圧の利得が無い場合(ステップ1005でNo)、音声解析部15は、発話音声が無い(発話が行われていない)と判断する(ステップ1011)。

この後、音声解析部(識別部)15は、データ送信部16を介して、ステップ1004〜ステップ1011の処理で得られた情報(発話の有無、発話者の情報)を解析結果としてホスト装置20へ送信させる(ステップ1012)。発話者毎(装着者自身または他者)の発話時間の長さや平均音圧の利得の値、その他の付加情報を解析結果と共にホスト装置20へ送信させても良い。このとき、ステップ1009でNoと判断された場合、すなわち衝突音を含む取得音声であると判断された場合、音声解析部15は、発話者の識別を行わずに解析結果を送信させる。

なお、本実施形態では、第1マイクロフォン11の音圧と第2マイクロフォン12の音圧とを比較することにより、発話音声が装着者自身の発話による音声か他者の発話による音声かを判断した。しかし、本実施形態による発話者の識別は、マイクロフォン11、12により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。

例えば、第1マイクロフォン11における音声取得時刻(音声信号の出力時刻)と第2マイクロフォン12における音声取得時刻とを比較しても良い。
この場合、装着者自身の発話音声は、装着者の口(発声部位)から第1マイクロフォン11までの距離と、装着者の口(発声部位)から第2マイクロフォン12までの距離との差が大きいため、音声取得時刻にある程度の差(時間差)が生じる。一方、他者の発話音声は、装着者の口(発声部位)から第1マイクロフォン11までの距離と、装着者の口(発声部位)から第2マイクロフォン12までの距離との差が小さいため、装着者の発話音声の場合よりも音声取得時刻の時間差が小さい。そこで、音声取得時刻の時間差に対して第1の閾値を設定し、音声取得時刻の時間差が第1の閾値よりも大きい場合には装着者自身の発話と判断し、音声取得時刻の時間差が第1の閾値よりも小さい場合には他者の発話と判断するようにしても良い。

また、第1マイクロフォン11における音声取得時刻と第2マイクロフォン12における音声取得時刻とを比較する場合、衝突音を発生する装置本体30から第1マイクロフォン11までの距離と、衝突音を発生する装置本体30から第2マイクロフォン12までの距離との差が大きいため、衝突音を含む音声取得音声の音声取得時刻にある程度の差(時間差)が生じる。さらに説明すると、第1マイクロフォン11の音声取得時刻が、第2マイクロフォン12の音声取得時刻よりも。一方で、衝突音を含まない(装着者自身の発話音声あるいは他者の発話音声)場合は、第1マイクロフォン11の音声取得時刻が、第2マイクロフォン12の音声取得時刻よりも遅いか、第1マイクロフォン11の音声取得時刻と第2マイクロフォン12の音声取得時刻とがほぼ同じ時刻である。そこで、音声取得時刻の時間差に対して第2の閾値を設定し、音声取得時刻の時間差が第2の閾値よりも小さい音声は衝突音を含む取得音声と判断し、音声取得時刻の時間差が第2の閾値よりも大きい音声は衝突音を含まない取得音声と判断するようにしても良い。

<衝突音を含む音声を取得した音声解析部15の動作例>
ここで、衝突音を含む発話音声を取得した際の音声解析部15の動作例について説明をする。図11は、本実施形態における端末装置10が衝突音を含む発話音声を取得した際の音声データを示す図である。具体的には、図11(a)は本実施形態とは異なり衝突音を含むことを識別しない場合のマイクロフォン11、12のマイク入力の変化を示した図であり、図11(b)は、衝突音を含むことを識別した場合のマイクロフォン11、12のマイク入力の変化を示した図である。また、図11(a)および図11(b)においては、装着者自身の発話音声と識別された場合をマイク入力1として表し、他者の発話音声と識別された場合をマイク入力0として表している。

まず、本実施形態のシステムとは異なり、音声解析部15が衝突音を含む取得音声か否かを識別しない場合について説明をする。この場合において、装着者自身が発話している区間に衝突音が発生した際の取得音声を音声解析部15が解析すると、その解析結果は図11(a)に示すようになる。図11(a)に示すように、衝突音を含む取得音声か否かを識別しない場合、衝突音の影響を受け第1マイクロフォン11の音圧Ga1が大きくなることにより、装着者が発話している区間(図中符号α参照)であるにも関わらず、他者の発話音声と識別されている区間(マイク入力が0の区間)が生じる。さらに説明をすると、装着者が発話している区間であるにも関わらず、装着者の発話がない区間(無音区間)として識別されてしまう。

一方で、本実施形態の音声解析部15により、衝突音を含む取得音声か否かを識別すると、その解析結果は図11(b)に示すようになる。すなわち、図11(b)に示すように、装着者が発話している区間(図中符号α参照)に取得した音声を、衝突音の影響を受けることなく、装着者の発話音声として認識する。ここで、上記のように本実施形態の音声解析部15は、衝突音を含む取得音声と識別した際には、装着者自身の発話音声と他者の発話音声との識別を行わない。そして、衝突音を含むと識別された取得音声の直前に取得された取得音声において、装着者自身の発話音声と他者の発話音声とを識別した識別結果が継続している状態となる。

<システムの適用例とホスト装置の機能>
本実施形態のシステムでは、複数の端末装置10により上記のようにして得られた発話に関する情報(以下、発話情報)がホスト装置20に集められる。ホスト装置20は、複数の端末装置10から得られた情報を用いて、システムの利用目的や利用態様等に応じて種々の解析を行う。以下、複数の装着者のコミュニケーションに関する情報を取得するシステムとして本実施形態を用いる例を説明する。

図12は、本実施形態の端末装置10をそれぞれ装着した複数の装着者が会話している状況を示す図である。図13は、図12の会話状況における各端末装置10A、10Bの発話情報の例を示す図である。
図12に示すように、端末装置10をそれぞれ装着した二人の装着者A、装着者Bが会話している場合を考える。このとき、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。

端末装置10Aおよび端末装置10Bからは、それぞれ独立に、発話情報がホスト装置20に送られる。このとき、端末装置10Aから取得した発話情報と、端末装置10Bから取得した発話情報とは、図13に示すように、発話者(装着者と他者)の識別結果は反対になるが、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似する。そこで、本適用例のホスト装置20は、端末装置10Aから取得した情報と端末装置10Bから取得した情報とを比較することにより、これらの情報が同じ発話状況を示していると判断し、装着者Aと装着者Bとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻(タイミング)等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。

図14は、本適用例におけるホスト装置20の機能構成例を示す図である。
本適用例において、ホスト装置20は、端末装置10から取得した発話情報のうち、会話を行っている装着者の端末装置10からの発話情報(以下、会話情報)を検出する会話情報検出部201と、検出された会話情報を解析する会話情報解析部202とを備える。この会話情報検出部201および会話情報解析部202は、データ解析部23の機能として実現される。

ホスト装置20には、端末装置10A、端末装置10B以外の端末装置10からも発話情報が送られる。データ受信部21により受信された各端末装置10からの発話情報は、データ蓄積部22に蓄積される。そして、データ解析部23の会話情報検出部201が、データ蓄積部22に蓄積された各端末装置10の発話情報を読み出し、特定の会話に係る発話情報である会話情報を検出する。

上記の図13に示したように、端末装置10Aの発話情報と端末装置10Bの発話情報は、他の端末装置10の発話情報とは異なる特徴的な対応関係が抽出される。会話情報検出部201は、データ蓄積部22に蓄積されている各端末装置10から取得した発話情報を比較し、複数の端末装置10から取得した発話情報の中から、上記のような対応関係を有する発話情報を検出し、同一の会話に係る会話情報として識別する。ホスト装置20には、複数の端末装置10から発話情報が随時送られているので、会話情報検出部201は、例えば、一定時間分の発話情報を順次区切りながら上記の処理を行い、特定の会話に係る会話情報が含まれているか否かを判断する。

なお、会話情報検出部201が複数の端末装置10の発話情報から特定の会話に係る会話情報を検出するための条件は、上述した図13に示す対応関係に限定されない。複数の発話情報の中から特定の会話に係る会話情報を識別し得る、いかなる手法にて検出しても良い。

また、上記の例では、端末装置10をそれぞれ装着した二人の装着者が会話している例を示したが、会話に参加する人数は二人に限定されない。三人以上の装着者が会話している場合、各装着者が装着している端末装置10において、自装置の装着者の発話音声が装着者自身の発話音声として認識され、他者(二人以上)の発話音声と区別される。しかし、発話時間や発話者が切り替わったタイミング等の発話状況を示す情報は、各端末装置10における取得情報どうしの間で近似する。そこで、会話情報検出部201は、上記の二人の会話の場合と同様に、同一の会話に参加している装着者の端末装置10から取得した発話情報を検出し、会話に参加していない装着者の端末装置10から取得した発話情報と区別する。

次に、会話情報解析部202は、会話情報検出部201により検出された会話情報を解析して、その会話の特徴を抽出する。本実施形態では、具体例として、対話度、傾聴度、会話活性度の3種類の評価基準により会話の特徴を抽出する。ここで、対話度とは、会話参加者の発言頻度のバランスを表すものとする。傾聴度とは、個々の会話参加者における他者の発言を聴く度合いを表すものとする。会話活性度とは、会話全体における発言の密度を表すものとする。

対話度は、会話が行われている間における発話者の交代回数と、発話者が交代するまでの時間(一人の発話者が連続して発話している時間)のばらつきによって特定される。これは、一定時間の会話情報において、話者が切り替わった回数および切り替わったときの時刻から得られる。そして、発話者の交代回数が多く、各発話者の連続発話時間のばらつきが小さいほど、対話度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。

傾聴度は、会話情報における会話参加者ごとの自身の発話時間と他者の発話時間との比率によって特定される。例えば、下式の場合、値が大きいほど傾聴度の値(レベル)が大きいものとする。
傾聴度=(他者の発話時間)÷(装着者自身の発話時間)
この評価基準は、同一の会話に係る会話情報であっても、各会話参加者の端末装置10から取得した発話情報ごとに異なるものとなる。

会話活性度は、いわゆる会話の盛り上がりを表す指標であり、会話情報全体に対する無言時間(会話参加者の誰も発言していない時間)の比率によって特定される。無言時間の総和が短いほど、会話において会話参加者のいずれかが発言していることを意味し、会話活性度の値(レベル)が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報(各端末装置10の発話情報)において共通する。

以上のようにして、会話情報解析部202による会話情報の解析により、その会話情報に係る会話の特徴が抽出される。また、上記の解析により、その会話における各参加者の参加の仕方が特定される。なお、上記の評価基準は、会話の特徴を表す情報の一例に過ぎず、他の評価項目を採用したり、項目毎に重み付けを加えたりすることにより、本実施形態のシステムの利用目的や利用態様に応じた評価基準を設定して良い。

上記のような解析を、データ蓄積部22に蓄積された発話情報の中から会話情報検出部201により検出された種々の会話情報に対して行うことにより、端末装置10の装着者のグループ全体におけるコミュニケーションの傾向を分析することができる。具体的には、例えば、会話参加者の数、会話が行われた時間、対話度、活性度などの値と会話の発生頻度との相関関係を調べることで、装着者のグループにおいてどのような態様の会話が行われる傾向があるかが判断される。

また、特定の装着者の複数の会話情報に対して上記のような解析を行うことにより、装着者個人のコミュニケーションの傾向を分析することができる。特定の装着者による会話への参加の仕方は、会話の相手や会話参加者の数といった条件に応じて、一定の傾向を持つ場合がある。そこで、特定の装着者における複数の会話情報を調べることにより、例えば、特定の相手との会話では対話レベルが大きい、会話参加者の数が多くなると傾聴度が大きくなる等のような特徴が検出されることが期待される。

なお、上記の発話情報の識別処理および会話情報解析処理は、本実施形態によるシステムの適用例を示すに過ぎず、本実施形態によるシステムの利用目的や利用態様、ホスト装置20の機能等を限定するものではない。本実施形態の端末装置10により取得した発話情報に対して種々の解析や調査を実行するための処理機能が、ホスト装置20の機能として実現され得る。

さて、上記では、音声解析部15が、装着者自身が発話した音声か他者の発話による音声かを識別した後に、取得音声が衝突音を含むか否かを識別することを説明したが、装着者自身が発話した音声か他者の発話による音声かを識別するとともに取得音声が衝突音を含むか否かを識別する構成であれば、これに限定されない。例えば、取得音声が衝突音を含むか否かを識別した後に、装着者自身が発話した音声か他者の発話による音声かを識別する構成であってもよい。

また、上記では、音声解析部15が衝突音を含む取得音声と判断した際には、装着者の発話音声と他者の発話音声との識別を行わないことを説明したが、これに限定されない。例えば、音声解析部15が衝突音を含む取得音声と判断した後に、音声解析部15がこの第1マイクロフォン11および第2マイクロフォン12による取得音声を分離除去(ノイズを除去)する(フィルタリング処理を行う)とともに、この取得音声を取得した時刻に装着者の発話音声を取得したと識別する構成であってもよい。このことにより、装着者の発話音声である取得音声を、他者の発話音声と識別することが抑制される。

10…端末装置、11…第1マイクロフォン、12…第2マイクロフォン、13…第1増幅器、14…第2増幅器、15…音声解析部、16…データ送信部、17…電源部、20…ホスト装置、21…データ受信部、22…データ蓄積部、23…データ解析部、24…出力部、30…装置本体、40…提げ紐、201…会話情報検出部、202…会話情報解析部

Claims (4)

  1. 装置本体と、
    前記装置本体に接続され、当該装置本体を使用者の首から提げるのに用いられる提げ紐と、
    前記提げ紐または前記装置本体に設けられ音声を取得する第1音声取得手段と、
    前記提げ紐を首に掛けたときに、前記装置本体から前記第1音声取得手段までの音波伝搬経路の距離より、当該装置本体からの音波伝搬経路の距離が大きくなる位置に設けられ音声を取得する第2音声取得手段と、
    前記装置本体に設けられ、前記第1音声取得手段により取得された音声の音圧である第1音圧と前記第2音声取得手段により取得された音声の音圧である第2音圧との比較結果に基づき、当該第1音圧が、当該第2音圧よりも予め定められた値以上大きい音を識別する識別部と
    を備えることを特徴とする音声解析装置。
  2. 前記第1音声取得手段は前記装置本体に設けられており、前記第2音声取得手段は前記提げ紐に設けられていることを特徴とする、請求項1記載の音声解析装置。
  3. 前記識別部は、前記第1音圧と前記第2音圧との比較結果に基づき、前記第1音声取得手段および前記第2音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項1または2記載の音声解析装置。
  4. 前記識別部は、当該識別部によって識別された音以外の音についての前記第1音圧と前記第2音圧との比較結果に基づき、前記第1音声取得手段および前記第2音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項1から3のいずれかに記載の音声解析装置。
JP2011283452A 2011-12-26 2011-12-26 音声解析装置 Active JP5867066B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011283452A JP5867066B2 (ja) 2011-12-26 2011-12-26 音声解析装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011283452A JP5867066B2 (ja) 2011-12-26 2011-12-26 音声解析装置
US13/475,378 US9153244B2 (en) 2011-12-26 2012-05-18 Voice analyzer

Publications (2)

Publication Number Publication Date
JP2013134312A JP2013134312A (ja) 2013-07-08
JP5867066B2 true JP5867066B2 (ja) 2016-02-24

Family

ID=48655421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011283452A Active JP5867066B2 (ja) 2011-12-26 2011-12-26 音声解析装置

Country Status (2)

Country Link
US (1) US9153244B2 (ja)
JP (1) JP5867066B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072978A (ja) * 2011-09-27 2013-04-22 Fuji Xerox Co Ltd 音声解析装置および音声解析システム
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
JP5867066B2 (ja) 2011-12-26 2016-02-24 富士ゼロックス株式会社 音声解析装置
JP6031761B2 (ja) 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US9736578B2 (en) * 2015-06-07 2017-08-15 Apple Inc. Microphone-based orientation sensors and related techniques

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4581758A (en) * 1983-11-04 1986-04-08 At&T Bell Laboratories Acoustic direction identification system
JPH0763199B2 (ja) 1984-09-18 1995-07-05 日本電信電話株式会社 電気音響変換装置
JPH0588839B2 (ja) 1985-12-16 1993-12-24 Nippon Electric Co
JPH0588840B2 (ja) 1985-12-16 1993-12-24 Nippon Electric Co
JP2882792B2 (ja) 1986-10-03 1999-04-12 株式会社リコー 標準パターン作成方式
DE3733659C2 (ja) 1986-10-03 1993-03-18 Ricoh Co., Ltd., Tokio/Tokyo, Jp
JPS63165900A (en) 1986-12-27 1988-07-09 Oki Electric Ind Co Ltd Conversation voice recognition system
JPS63260367A (en) * 1987-04-17 1988-10-27 Matsushita Electric Ind Co Ltd Portable video camera
US5031881A (en) * 1989-12-22 1991-07-16 John Thurmston Staple and tack extractor
JP3008762B2 (ja) 1993-12-27 2000-02-14 日本電気株式会社 音声認識装置
JPH08191496A (ja) 1995-01-09 1996-07-23 Matsushita Electric Ind Co Ltd 接話マイクロホン
US5793875A (en) 1996-04-22 1998-08-11 Cardinal Sound Labs, Inc. Directional hearing system
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
GB9722766D0 (en) 1997-10-28 1997-12-24 British Telecomm Portable computers
US6263836B1 (en) 1998-11-27 2001-07-24 Robert L. Hollis Dog behavior monitoring and training apparatus
JP2000338987A (ja) 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
US6549792B1 (en) 1999-06-25 2003-04-15 Agere Systems Inc. Accelerometer influenced communication device
US6513532B2 (en) 2000-01-19 2003-02-04 Healthetech, Inc. Diet and activity-monitoring device
AU2822301A (en) 2000-01-24 2001-07-31 Sanjay Chadha Hand-held personal computing device with microdisplay
JP3652961B2 (ja) 2000-06-27 2005-05-25 シャープ株式会社 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2002149191A (ja) 2000-11-09 2002-05-24 Toyota Central Res & Dev Lab Inc 音声入力装置
GB2375698A (en) * 2001-02-07 2002-11-20 Canon Kk Audio signal processing apparatus
US20040064056A1 (en) * 2001-02-07 2004-04-01 Colin Corporation Heart-sound detecting apparatus and heart-sound detecting method
US7526094B2 (en) * 2003-03-25 2009-04-28 Robert Hickling Normalization and calibration of microphones in sound-intensity probes
US7312981B2 (en) 2003-04-16 2007-12-25 Carroll David W Mobile, hand-held personal computer
US20070136064A1 (en) 2003-04-16 2007-06-14 Carroll David W Mobile personal computer with movement sensor
TWI235844B (en) * 2003-05-07 2005-07-11 Sunplus Technology Co Ltd Device and method to identify the direction of sound
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
WO2005086801A2 (en) * 2004-03-05 2005-09-22 Etymotic Research, Inc. Companion microphone system and method
JP2006071936A (ja) 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
JP2006197088A (ja) * 2005-01-12 2006-07-27 Alps Electric Co Ltd ストラップ状ラジオ受信機
JP2006023773A (ja) 2005-08-29 2006-01-26 Toshiba Corp 音声処理システム
CN101390440B (zh) * 2006-02-27 2012-10-10 松下电器产业株式会社 可穿戴终端、控制可穿戴终端的处理器及方法
US7246033B1 (en) 2006-03-13 2007-07-17 Susan Leeds Kudo Pedometer for pets
JP4894342B2 (ja) * 2006-04-20 2012-03-14 パナソニック株式会社 音響再生装置
US7539532B2 (en) * 2006-05-12 2009-05-26 Bao Tran Cuffless blood pressure monitoring appliance
US20080047996A1 (en) * 2006-07-27 2008-02-28 Frederic Blouin Intelligent personal carrier
JP2008072158A (ja) 2006-09-11 2008-03-27 Wecom Kenkyusho:Kk ネックストラップ型補聴器、ネックストラップ型携帯電話
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
US8553903B2 (en) * 2007-06-27 2013-10-08 Alcatel Lucent Sound-direction detector having a miniature sensor
US8031881B2 (en) 2007-09-18 2011-10-04 Starkey Laboratories, Inc. Method and apparatus for microphone matching for wearable directional hearing device using wearer's own voice
DE102007044792B4 (de) 2007-09-19 2012-12-13 Siemens Ag Verfahren, Steuergerät und System zur Steuerung oder Bedienung
WO2009044509A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音源方向検知装置
US8112281B2 (en) 2007-12-19 2012-02-07 Enbiomedic Accelerometer-based control of wearable audio recorders
JP4530051B2 (ja) * 2008-01-17 2010-08-25 船井電機株式会社 音声信号送受信装置
US8411880B2 (en) * 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
JP2009284111A (ja) * 2008-05-20 2009-12-03 Funai Electric Advanced Applied Technology Research Institute Inc 集積回路装置及び音声入力装置、並びに、情報処理システム
JP4527204B2 (ja) * 2008-09-26 2010-08-18 パナソニック株式会社 死角車両検出装置及びその方法
JP4922318B2 (ja) 2009-01-19 2012-04-25 本田技研工業株式会社 筒内圧センサの故障を判定する装置
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8477973B2 (en) 2009-04-01 2013-07-02 Starkey Laboratories, Inc. Hearing assistance system with own voice detection
US8170247B2 (en) * 2009-06-24 2012-05-01 Panasonic Corporation Hearing aid
KR20110047852A (ko) * 2009-10-30 2011-05-09 삼성전자주식회사 동작 환경에 적응 가능한 음원녹음장치 및 그 방법
DK2381700T3 (en) * 2010-04-20 2015-06-01 Oticon As Removal of the reverberation from a signal with use of omgivelsesinformation
US9053697B2 (en) * 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
WO2012091643A1 (en) 2010-12-29 2012-07-05 Telefonaktiebolaget L M Ericsson (Publ) A noise suppressing method and a noise suppressor for applying the noise suppressing method
US20130024196A1 (en) * 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for using a mobile device to deliver speech with speaker identification
JP5772447B2 (ja) 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析装置
JP5867066B2 (ja) 2011-12-26 2016-02-24 富士ゼロックス株式会社 音声解析装置
JP6031761B2 (ja) 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법

Also Published As

Publication number Publication date
JP2013134312A (ja) 2013-07-08
US9153244B2 (en) 2015-10-06
US20130166299A1 (en) 2013-06-27

Similar Documents

Publication Publication Date Title
EP1556857B1 (en) Controlling an apparatus based on speech
US8611560B2 (en) Method and device for voice operated control
CN101840700B (zh) 基于移动终端的声音识别方法及移动终端
US9781521B2 (en) Hearing assistance device with a low-power mode
KR101753509B1 (ko) 소셜 그래프들, 스피치 모델들, 및 사용자 콘텍스트를 통해 모바일 디바이스 사용자에 근접한 사람들을 식별하는 것
US9043211B2 (en) Low power activation of a voice activated device
KR101639933B1 (ko) 휴대 전화에 적용되는 음성 향상 방법 및 장치
JP4675840B2 (ja) リモートコントローラ並びに家電機器
EP2962300B1 (en) Method and apparatus for generating a speech signal
AU2010365366B2 (en) Hearing aid and a method of enhancing speech reproduction
CN105323648B (zh) 字幕隐藏方法和电子装置
EP2882204B1 (en) Hearing aid device for hands free communication
DE602004003443T2 (de) Sprachperiodenerkennung basierend auf Elektromyographie
US8625819B2 (en) Method and device for voice operated control
JP5419361B2 (ja) 音声制御システムおよび音声制御方法
KR101606966B1 (ko) 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
US20040155770A1 (en) Audible alarm relay system
EP1665741B1 (en) Wireless headset for use in speech recognition environment
TWI390945B (zh) 聲波通信用之方法及系統
US20080175408A1 (en) Proximity filter
JP4703142B2 (ja) ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem)
WO2006078401A8 (en) Management and assistance system for the deaf
WO2013006489A1 (en) Learning speech models for mobile device users
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US20150172814A1 (en) Method and system for directional enhancement of sound using small microphone arrays

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151221

R150 Certificate of patent or registration of utility model

Ref document number: 5867066

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150