JP5929810B2 - Voice analysis system, voice terminal apparatus and program - Google Patents
Voice analysis system, voice terminal apparatus and program Download PDFInfo
- Publication number
- JP5929810B2 JP5929810B2 JP2013066881A JP2013066881A JP5929810B2 JP 5929810 B2 JP5929810 B2 JP 5929810B2 JP 2013066881 A JP2013066881 A JP 2013066881A JP 2013066881 A JP2013066881 A JP 2013066881A JP 5929810 B2 JP5929810 B2 JP 5929810B2
- Authority
- JP
- Japan
- Prior art keywords
- wearer
- voice
- terminal device
- utterance
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音声解析システム、音声端末装置およびプログラムに関する。 The present invention relates to a voice analysis system, a voice terminal device, and a program.
特許文献1には、複数の移動局と、複数の移動局に対し無線通信により情報送受信を行う基地局とを有し、複数の移動局をそれぞれ所持する複数の社員のコミュニケーション状態を検出するコミュニケーション検出システムであって、複数の移動局のアンテナから送信された電波信号に基づき複数の移動局それぞれの位置検出を行い、その検出結果に基づき各移動局の社員に係わるコミュニケーション要素を記録し、その記録内容に基づき各社員同士のコミュニケーション活発度を算出するコミュニケーション検出システムが開示されている。
本発明は、複数の装着者の音声取得手段で取得される音声に関する情報から装着者相互の対話関係を判定する際の、判定精度を向上させることを目的とする。 An object of this invention is to improve the determination precision at the time of determining the dialog relationship between wearers from the information regarding the sound acquired by the sound acquisition means of a plurality of wearers.
請求項1に記載の発明は、装着者の発声部位からの距離が異なる位置に配置され、話者の音声を取得する複数の音声取得手段と、少なくとも2つの前記音声取得手段で取得された音声の音圧に基づいて、話者が前記装着者か当該装着者以外の他者かを識別する識別手段と、前記識別手段により話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する発話信号送信手段と、前記発話信号送信手段から送信された前記発話信号を受信する発話信号受信手段と、前記発話信号受信手段による前記発話信号の受信状況および前記識別手段による識別結果に基づいて、前記装着者の対話関係を判定する対話関係判定手段とを備える音声解析システムである。
請求項2に記載の発明は、前記発話信号受信手段により前記発話信号が受信された場合に、当該発話信号の受信に基づいた受信情報を送信する受信情報送信手段と、前記受信情報送信手段から送信された前記受信情報を取得する受信情報取得手段とを更に含み、前記対話関係判定手段は、前記識別手段による識別結果と、前記受信情報取得手段により取得された前記受信情報とに基づいて、前記装着者の対話関係を判定することを特徴とする請求項1記載の音声解析システムである。
According to the first aspect of the present invention, a plurality of voice acquisition means that are arranged at different distances from the wearer's utterance site and that acquire the voice of the speaker and voices acquired by at least two of the voice acquisition means Identification means for identifying whether the speaker is the wearer or another person other than the wearer based on the sound pressure of the voice, and the voice when the speaker is identified as the wearer by the identification means An utterance signal transmitting means for transmitting an utterance signal related to the utterance of the wearer at a radio wave intensity based on a sound pressure of the wearer's voice acquired by the acquiring means; and the utterance signal transmitted from the utterance signal transmitting means. A speech signal receiving means for receiving the speech signal, and a dialogue relation determining means for judging the dialogue relation of the wearer based on the reception status of the speech signal by the speech signal receiving means and the identification result by the identification means It is an analysis system.
According to a second aspect of the present invention, when the utterance signal is received by the utterance signal receiving means, a reception information transmission means for transmitting reception information based on reception of the utterance signal, and the reception information transmission means Receiving information acquisition means for acquiring the received reception information, wherein the dialogue relationship determination means is based on the identification result by the identification means and the reception information acquired by the reception information acquisition means, The speech analysis system according to
請求項3に記載の発明は、装着者の発声部位からの距離が異なる位置に配置され、話者の音声を取得する複数の音声取得手段と、少なくとも2つの当該音声取得手段で取得された音声の音圧に基づいて、話者が当該装着者か当該装着者以外の他者かを識別する識別手段と、当該識別手段による識別結果に基づいて無線通信回線を介した外部との通信を行う通信手段とをそれぞれが備える複数の音声端末装置と、それぞれの前記音声端末装置の装着者同士の対話関係を判定する対話関係判定手段を備える音声解析装置と、を備え、前記音声端末装置の前記通信手段は、前記識別手段により話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する発話信号送信手段と、他の音声端末装置における発話信号送信手段から送信された発話信号を受信する発話信号受信手段とを含み、前記音声解析装置の前記対話関係判定手段は、それぞれの前記音声端末装置の前記識別手段による識別結果と、それぞれの当該音声端末装置の前記発話信号受信手段による前記発話信号の受信状況とに基づいて、対話関係の判定を行うことを特徴とする音声解析システムである。
請求項4に記載の発明は、前記音声解析装置の前記対話関係判定手段は、複数の前記音声端末装置の前記装着者のうち、前記発話信号送信手段により前記発話信号を送信した当該音声端末装置の装着者と、前記発話信号受信手段により当該発話信号を受信した当該音声端末装置の装着者とについて、対話関係の判定を行うことを特徴とする請求項3記載の音声解析システムである。
請求項5に記載の発明は、前記音声解析装置の前記対話関係判定手段は、前記発話信号送信手段により前記発話信号を送信した前記音声端末装置の前記音声取得手段にて取得された音声と、前記発話信号受信手段により当該発話信号を受信した当該音声端末装置の当該音声取得手段にて取得された音声との同調性を比較することで、対話関係の判定を行うことを特徴とする請求項4記載の音声解析システムである。
The invention according to claim 3 is arranged at a position where the distance from the utterance part of the wearer is different, and a plurality of voice acquisition means for acquiring the voice of the speaker and the voice acquired by at least two of the voice acquisition means Based on the sound pressure, identification means for identifying whether the speaker is the wearer or another person other than the wearer, and communication with the outside via a wireless communication line based on the identification result by the identification means A plurality of voice terminal devices each provided with a communication means, and a voice analysis device provided with a dialogue relation determination means for judging a dialogue relation between wearers of each of the voice terminal devices, and the voice terminal device The communication means, when the speaker is identified as the wearer by the identification means, the radio wave intensity based on the sound pressure of the wearer's voice acquired by the voice acquisition means, Speech related to utterance An utterance signal transmitting means for transmitting a signal, and an utterance signal receiving means for receiving an utterance signal transmitted from an utterance signal transmitting means in another voice terminal device, wherein the dialogue relation determining means of the voice analysis device is respectively And determining a dialogue relation based on the identification result of the voice terminal device by the identification unit and the reception status of the utterance signal by the utterance signal reception unit of each voice terminal device. It is an analysis system.
According to a fourth aspect of the present invention, in the voice terminal device, the dialogue relation determination unit of the voice analysis device transmits the utterance signal by the utterance signal transmission unit among the wearers of the plurality of voice terminal devices. The speech analysis system according to claim 3, wherein a dialogue relation is determined between the wearer of the wearer and the wearer of the voice terminal device that has received the speech signal by the speech signal receiving means.
According to a fifth aspect of the present invention, the dialogue relation determination unit of the voice analysis device acquires the voice acquired by the voice acquisition unit of the voice terminal device that has transmitted the utterance signal by the utterance signal transmission unit, and The dialogue relation is determined by comparing synchrony with the voice acquired by the voice acquisition unit of the voice terminal device that has received the speech signal by the utterance signal receiving unit. 4. The voice analysis system according to 4.
請求項6に記載の発明は、装着者の発声部位からの距離が異なる位置に配置され、話者の音声を取得する複数の音声取得手段と、少なくとも2つの前記音声取得手段で取得された音声の音圧に基づいて、話者が前記装着者か当該装着者以外の他者かを識別する識別手段と、前記識別手段により話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する発話信号送信手段と、他者の発話に関する発話信号を受信する発話信号受信手段とを含む音声端末装置である。
請求項7に記載の発明は、前記音声取得手段にて取得した音声に関する情報と前記識別手段による識別結果とを含む発話情報を送信する発話情報送信手段をさらに有することを特徴とする請求項6記載の音声端末装置である。
請求項8に記載の発明は、前記発話信号受信手段は、他者が装着した他の装置の発話信号送信手段により送信された当該他者の発話に関する発話信号を受信することを特徴とする請求項6または7記載の音声端末装置である。
請求項9に記載の発明は、前記発話信号送信手段は、前記音声取得手段で取得された前記装着者の音声の音圧が大きいほど、大きな電波強度で前記発話信号を送信することを特徴とする請求項6乃至8のいずれか1項記載の音声端末装置である。
請求項10に記載の発明は、コンピュータに、装着者の発声部位からの距離が異なる位置に配置され、話者の音声を取得する複数の音声取得手段から音声の情報を取得する機能と、少なくとも2つの前記音声取得手段で取得された音声の音圧差に基づいて、話者が前記装着者か当該装着者以外の他者かを識別する機能と、話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する機能と、他者の発話に関する発話信号を受信する機能とを実現させるプログラムである。
According to the sixth aspect of the present invention, a plurality of voice acquisition means that are arranged at different distances from the wearer's utterance site and that acquire the voice of the speaker, and voices acquired by at least two of the voice acquisition means Identification means for identifying whether the speaker is the wearer or another person other than the wearer based on the sound pressure of the voice, and the voice when the speaker is identified as the wearer by the identification means An utterance signal transmitting means for transmitting an utterance signal related to the utterance of the wearer at a radio wave intensity based on the sound pressure of the wearer's voice acquired by the acquisition means, and an utterance signal for receiving an utterance signal related to the utterance of the other person And a voice terminal apparatus including a receiving unit.
The invention according to claim 7 further includes speech information transmitting means for transmitting speech information including information related to the voice acquired by the voice acquisition means and the identification result by the identification means. It is the voice terminal device described.
The invention according to
The invention according to claim 9 is characterized in that the utterance signal transmitting means transmits the utterance signal with a higher radio field strength as the sound pressure of the wearer's voice acquired by the voice acquisition means is larger. The voice terminal device according to any one of claims 6 to 8.
The invention according to
請求項1に係る発明によれば、本構成を採用しない場合と比較して、複数の装着者の音声取得手段で取得される音声に関する情報から装着者相互の対話関係を判定する際の、判定精度を向上させることが可能になる。
請求項2に係る発明によれば、本構成を採用しない場合と比較して、装着者相互の対話関係の判定を行う際の、誤判定の発生を抑制することが可能になる。
請求項3に係る発明によれば、本構成を採用しない場合と比較して、複数の装着者の音声取得手段で取得される音声に関する情報から装着者相互の対話関係を判定する際の、判定精度を向上させることが可能になる。
請求項4に係る発明によれば、本構成を採用しない場合と比較して、対話関係の判断に係る処理が煩雑になるのを抑制することが可能になる。
請求項5に係る発明によれば、本構成を採用しない場合と比較して、装着者相互の対話関係の判定を行う際の、誤判定の発生を抑制することが可能になる。
According to the first aspect of the present invention, compared with the case where this configuration is not adopted, the determination when determining the interactive relationship between the wearers from the information regarding the sound acquired by the sound acquisition means of the plurality of wearers. The accuracy can be improved.
According to the invention which concerns on
According to the third aspect of the present invention, compared with the case where the present configuration is not adopted, the determination when determining the interactive relationship between the wearers from the information regarding the sound acquired by the sound acquisition means of the plurality of wearers. The accuracy can be improved.
According to the fourth aspect of the present invention, it is possible to prevent the processing related to the determination of the dialogue relation from becoming complicated as compared with the case where this configuration is not adopted.
According to the invention which concerns on Claim 5, compared with the case where this structure is not employ | adopted, it becomes possible to suppress generation | occurrence | production of a misjudgment at the time of determining the dialog relationship between wearers.
請求項6に係る発明によれば、本構成を採用しない場合と比較して、複数の装着者の音声取得手段で取得される音声に関する情報から装着者相互の対話関係を判定する際の、判定精度を向上させることが可能になる。
請求項7に係る発明によれば、本構成を採用しない場合と比較して、装着者相互の対話関係の判定をより容易に行うことが可能になる。
請求項8に係る発明によれば、本構成を採用しない場合と比較して、装着者相互の対話関係の判定を行う際の、誤判定の発生を抑制することが可能になる。
請求項9に係る発明によれば、本構成を採用しない場合と比較して、対話関係の判断に係る処理が煩雑になるのを抑制することが可能になる。
請求項10に係る発明によれば、本構成を採用しない場合と比較して、複数の装着者の音声取得手段で取得される音声に関する情報から装着者相互の対話関係を判定する際の、判定精度を向上させることが可能になる。
According to the sixth aspect of the present invention, compared with the case where this configuration is not adopted, the determination when determining the interactive relationship between the wearers from the information regarding the sound acquired by the sound acquisition means of the plurality of wearers. The accuracy can be improved.
According to the seventh aspect of the present invention, it is possible to more easily determine the interactive relationship between the wearers than in the case where this configuration is not adopted.
According to the invention which concerns on
According to the ninth aspect of the present invention, it is possible to suppress the processing related to the determination of the dialogue relation from becoming complicated as compared with the case where this configuration is not adopted.
According to the tenth aspect of the present invention, as compared with the case where the present configuration is not adopted, the determination when determining the interactive relationship between the wearers from the information regarding the sound acquired by the sound acquisition means of the plurality of wearers. The accuracy can be improved.
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
<システム構成例>
図1は、本実施の形態が適用される音声解析システムの構成例を示す図である。
図1に示すように、本実施の形態の音声解析システム1は、音声端末装置の一例としての端末装置10と、音声解析装置の一例としてのホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Wi−Fi(Wireless Fidelity)、Bluetooth(登録商標)、ZigBee、UWB(Ultra Wideband)等の既存の方式による回線を用いてよい。また、図示の例では、端末装置10が1台のみ記載されているが、詳しくは後述するように、端末装置10は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置10が用意される。以下、端末装置10を装着した使用者を装着者と呼ぶ。
Embodiments of the present invention will be described below in detail with reference to the accompanying drawings.
<System configuration example>
FIG. 1 is a diagram illustrating a configuration example of a speech analysis system to which the exemplary embodiment is applied.
As shown in FIG. 1, the
端末装置10は、音声を取得するための音声取得手段として、複数のマイクロフォン(第1マイクロフォン11および第2マイクロフォン12)と、増幅器(第1増幅器13および第2増幅器14)とを備える。また、端末装置10は、取得した音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備える。
また、端末装置10は、他の端末装置10から出力された後述する発話信号を受信するための信号受信部17を備える。
さらに、端末装置10は、端末装置10の各部へ電力を供給するための電源部18を備える。
なお、本実施の形態の端末装置10では、データ送信部16と信号受信部17とにより通信手段が構成される。
The
In addition, the
Furthermore, the
In the
第1マイクロフォン11および第2マイクロフォン12は、装着者の口(発声部位)からの距離が異なる位置に配される(なお、以下の説明において第1マイクロフォン11と第2マイクロフォン12とを区別しない場合には、マイクロフォン11、12と記載することがある)。ここでは、第1マイクロフォン11は装着者の口(発声部位)から遠い位置(例えば、35cm程度)に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置(例えば、10cm程度)に配置されるものとする。本実施の形態の第1マイクロフォン11および第2マイクロフォン12として用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いてよい。とくに無指向性のMEMS(Micro Electro Mechanical Systems)型マイクロフォンが好ましい。
The
第1増幅器13および第2増幅器14は、それぞれ第1マイクロフォン11および第2マイクロフォン12が取得した音声に応じて出力する電気信号(音声信号)を増幅する。本実施の形態の第1増幅器13および第2増幅器14として用いられる増幅器としては、既存のオペアンプ等を用いてよい。
The
音声解析部15は、識別手段の一例であって、第1増幅器13および第2増幅器14から出力された音声信号を解析する。そして、第1マイクロフォン11および第2マイクロフォン12で取得した音声が端末装置10を装着した装着者自身が発話した音声か、他者の発話による音声かを識別(自他識別)する。音声識別のための具体的な処理の内容については後述する。
The
データ送信部16は、音声解析部15による発話の解析結果(自他識別の結果)を含む取得データと端末装置10の端末IDとを、上記の無線通信回線を介してホスト装置20へ送信する。ホスト装置20へ送信する情報としては、ホスト装置20において行われる処理の内容に応じて、上記の解析結果の他、例えば、第1マイクロフォン11および第2マイクロフォン12による音声の取得時刻、取得音声の音圧等の情報を含めて良い。本実施の形態では、データ送信部16からホスト装置20へ送信されるこれらのデータを発話情報と呼ぶ。
また、端末装置10に音声解析部15による解析結果等の発話情報を蓄積するデータ蓄積部を設け、一定期間に保存したデータ(発話情報)を一括送信してもよい。なお、データ送信部16からホスト装置20への発話情報の送信は、有線回線を用いて行ってもよい。
The
Further, the
さらに、本実施の形態のデータ送信部16は、音声解析部15において、第1マイクロフォン11および第2マイクロフォン12で取得した音声が装着者自身の発話音声であると識別した場合に、上記の無線通信回線を介して他の端末装置10に発話信号を送信する。
さらにまた、本実施の形態のデータ送信部16は、信号受信部17にて発話信号を受信した場合に、ホスト装置20へ受信情報を送信する。
本実施の形態の端末装置10では、データ送信部16により発話信号送信手段、発話情報送信手段および受信情報送信手段が構成される。
Furthermore, when the
Furthermore, the
In the
ここで、発話信号には、例えば、発話信号を送信する自身の端末装置10のIDや、第1マイクロフォン11および第2マイクロフォン12による装着者の発話音声の取得時刻等が含まれる。
また、受信情報としては、受信情報を送信する自身の端末装置10のID情報や、受信した発話信号に含まれる、発話信号を送信した相手方の端末装置10のID情報、発話音声の取得時刻に関する情報等が含まれる。
なお、データ送信部16における発話信号および受信情報の送信処理等については、後段にて詳細に説明する。
Here, the speech signal includes, for example, the ID of the
The received information relates to the ID information of the
Note that the transmission processing of the speech signal and the reception information in the
信号受信部17は、発話信号受信手段の一例であって、上述したように、他の端末装置10から送信された発話信号を受信する。
電源部18は、上記の第1マイクロフォン11、第2マイクロフォン12、第1増幅器13、第2増幅器14、音声解析部15、データ送信部16および信号受信部17に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部18は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。
The
The
ホスト装置20は、端末装置10から送信されたデータを受信するデータ受信部21と、受信したデータを蓄積するデータ蓄積部22と、蓄積したデータを解析するデータ解析部23と、解析結果を出力する出力部24とを備える。このホスト装置20は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施の形態では複数台の端末装置10が使用され、ホスト装置20は、その複数台の端末装置10の各々から送信されたデータを受信する。
The
データ受信部21は、受信情報取得手段の一例であって、上記の無線通信回線に対応しており、各端末装置10からデータを受信してデータ蓄積部22へ送る。データ受信部21が受信するデータとしては、各端末装置10のデータ送信部16から送信される発話情報や受信情報等が挙げられる。
データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した発話情報および受信情報等に含まれるデータを発話者別に蓄積する。ここで、発話者の識別は、端末装置10から送信される発話情報や受信情報に含まれる端末IDと、あらかじめホスト装置20に登録されている発話者名との照合により行う。また、端末装置10から端末IDのかわりに装着者状態を送信するようにしてもよい。
また、詳細については後述するが、データ受信部21は、各端末装置10のデータ送信部16から送信される受信情報についても受信する。
The
The
Although details will be described later, the
データ解析部23は、対話関係判定手段の一例であって、例えばパーソナルコンピュータのプログラム制御されたCPUにより実現され、データ蓄積部22に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施の形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置10の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。
詳細については後段にて説明するが、本実施の形態では、データ解析部23は、データ受信部21が受信しデータ蓄積部22に蓄積された発話情報および受信情報に基づいて、発話音声の同調性を判別し、対話者の関係を判定している。
The
Although details will be described later, in the present embodiment, the
出力部24は、データ解析部23による解析結果を出力したり、解析結果に基づく他のデータの出力を行ったりする。この解析結果等を出力する手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。
The
<端末装置の構成例>
図2は、端末装置10の構成例を示す図である。
上記のように、端末装置10は、各使用者(装着者)に装着されて使用される。使用者が装着可能とするため、本実施の形態の端末装置10は、図2に示すように、装置本体30と、装置本体30に接続された提げ紐40とを備えた構成とする。図示の構成において、使用者は、提げ紐40に首を通し、装置本体30を首から提げて装着する。
<Configuration example of terminal device>
FIG. 2 is a diagram illustrating a configuration example of the
As described above, the
装置本体30は、金属や樹脂等で形成された薄い直方体のケース31に、少なくとも第1増幅器13、第2増幅器14、音声解析部15、データ送信部16、信号受信部17および電源部18を実現する回路と電源部18の電源(電池)とを収納して構成される。また、本実施の形態では、ケース31に第1マイクロフォン11が設けられる。さらに、ケース31には、装着者の氏名や所属等のID情報を表示したIDカード等を挿入するポケットを設けても良い。また、ケース31自体の表面にそのようなID情報等を印刷したり、ID情報等を記載したシールを貼り付けたりしても良い。
The apparatus
提げ紐40には、第2マイクロフォン12が設けられる。第2マイクロフォン12は、提げ紐40の内部を通るケーブル(電線等)により、装置本体30のケース31に収納された第2増幅器14に接続される。提げ紐40の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。
The
この提げ紐40は、筒状の構造を有し、提げ紐40の内部に第2マイクロフォン12を収納している。第2マイクロフォン12を提げ紐40の内部に設けることにより、第2マイクロフォン12の損傷や汚れを防ぎ、対話者が第2マイクロフォン12の存在を意識することが抑制される。
なお、本実施の形態では、装着者の口(発声部位)から遠い位置に配置される第1マイクロフォン11を装置本体30に設けたが、第2マイクロフォン12と同様に、第1マイクロフォン11を提げ紐40に設けてもよい。
The
In the present embodiment, the
本実施の形態では、端末装置10にて取得した音声について、話者が装着者であるか装着者以外の他者であるかを識別(自他識別)し、自他識別の結果を利用して、端末装置10から他の端末装置10へ発話信号を送信している。そして、ホスト装置20では、他の端末装置10における発話信号の受信状況等に基づいて、それぞれの端末装置10を装着する装着者の対話関係を判別している。
以下、自他識別の方法および対話関係の判別の方法について、順に説明する。
In the present embodiment, the voice acquired by the
Hereinafter, the self-other identification method and the interactive relationship determination method will be described in order.
<話者が装着者であるか他者であるかを識別する方法の説明>
続いて、以上の音声解析システム1において、端末装置10の音声解析部15にて話者が装着者であるか装着者以外のものである他者であるかを識別(自他識別)する方法について説明する。
本実施の形態の音声解析システム1では、端末装置10に設けられた第1マイクロフォン11および第2マイクロフォン12にて取得した音声の情報を用いて、取得した音声が端末装置10の装着者自身の発話音声であるか他者の発話音声であるかを識別する。言い換えれば、本実施の形態の音声解析システム1では、取得した音声の発話者に関して自他の別を識別する。また、本実施の形態では、取得した音声の情報のうち、形態素解析や辞書情報等を用いて得られる言語情報ではなく、音圧(第1マイクロフォン11および第2マイクロフォン12への入力音量)等の非言語情報に基づいて発話者を識別する。言い換えれば、本実施の形態では、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。
<Description of how to identify whether a speaker is a wearer or someone else>
Subsequently, in the
In the
図1および図2を参照して説明したように、本実施の形態の端末装置10において、第1マイクロフォン11は装着者の口(発声部位)から遠い位置に配置され、第2マイクロフォン12は装着者の口(発声部位)に近い位置に配置される。すなわち、装着者の口(発声部位)を音源とすると、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離とが大きく異なる。例えば、第1マイクロフォン11と音源との間の距離は、第2マイクロフォン12と音源との間の距離の1.5倍〜4倍程度に設定することができる。
ここで、マイクロフォン11、12にて取得される音声の音圧は、マイクロフォン11、12と音源との間の距離が大きくなるに従って減衰(距離減衰)する。したがって、装着者の発話音声に関して、第1マイクロフォン11にて取得した音声の音圧と、第2マイクロフォン12にて取得した音声の音圧とは大きく異なる。
As described with reference to FIGS. 1 and 2, in the
Here, the sound pressure of the sound acquired by the
一方、装着者以外の者(他者)の口(発声部位)を音源とした場合を考えると、通常その他者は装着者から離れているため、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離とは、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じるが、装着者の口(発声部位)を音源とした場合のように、第1マイクロフォン11と音源との間の距離が、第2マイクロフォン12と音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第1マイクロフォン11にて取得した音声の音圧と、第2マイクロフォン12にて取得した音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。
On the other hand, considering the case where the mouth (speaking part) of a person other than the wearer is used as a sound source, since the other person is usually away from the wearer, the distance between the
そこで、本実施の形態では、第1マイクロフォン11にて取得した音声の音圧と第2マイクロフォン12にて取得した音声の音圧との比である音圧比を求める。そして、この音圧比を用いて、取得した音声が装着者自身の発話音声であるか他者の発話音声であるかを識別する。より具体的には、本実施の形態では、第2マイクロフォン12にて取得した音声の音圧に対する第1マイクロフォン11にて取得した音声の音圧の比(音圧比)について、閾値を設定する。そして、取得した音声の音圧比が閾値よりも大きい場合には、装着者自身の発話音声と判断し、音圧比が閾値よりも小さい場合には、他者の発話音声と判断する。
そして、上述した方法により得られた、音声の話者が装着者であるか他者であるかの識別結果は、発話情報に含まれて端末装置10のデータ送信部16からホスト装置20へ送信される。
Therefore, in the present embodiment, a sound pressure ratio that is a ratio between the sound pressure of the sound acquired by the
The identification result obtained by the above-described method as to whether the voice speaker is a wearer or another person is included in the utterance information and transmitted from the
なお、上述した例では、第1マイクロフォン11および第2マイクロフォン12にて取得した音声の音圧を基に自他識別の判断を行ったが、これに音声の位相差の情報を加味することも考えられる。つまり、装着者の口(発声部位)を音源とすると、上述したように、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離とは大きく異なる。そのため、第1マイクロフォン11にて取得した音声と、第2マイクロフォン12にて取得した音声との位相差は大きくなる。一方、装着者以外の他者の口(発声部位)を音源とした場合は、上述したように、他者が装着者から離れているため、第1マイクロフォン11と音源との間の距離と、第2マイクロフォン12と音源との間の距離とは、大きく変わらない。そのため、第1マイクロフォン11にて取得した音声と、第2マイクロフォン12にて取得した音声との位相差は小さくなる。
よって、第1マイクロフォン11にて取得した音声と第2マイクロフォン12にて取得した音声との位相差を考慮することで、自他識別の判断の精度を向上させることができる。
In the above-described example, the self / other identification is determined based on the sound pressure of the sound acquired by the
Therefore, by considering the phase difference between the sound acquired by the
<装着者同士の対話関係の判定>
続いて、ホスト装置20のデータ解析部23において、各端末装置10から送信され、データ受信部21にて受信した発話情報に基づいて複数の装着者同士の対話関係を判定する方法について説明する。本実施の形態では、各端末装置10から受信した発話情報について、音声の同調性の有無を判別することにより、装着者同士の対話関係を判定している。
なお、以下で述べる方法は装着者同士の対話関係を判定する方法の一例であり、他の方法を採用しても構わない。
<Determination of dialogue between wearers>
Next, a method of determining the dialogue relationship between a plurality of wearers based on the utterance information transmitted from each
Note that the method described below is an example of a method for determining a dialogue relationship between wearers, and other methods may be adopted.
図3は、本実施の形態の端末装置10をそれぞれ装着した複数の装着者が対話している状況を示す図である。図4は、図3の対話状況における各端末装置10A、10Bの発話情報の例を示す図である。
図3に示すように、端末装置10A、端末装置10Bをそれぞれ装着した二人の装着者A、装着者Bが対話している場合を考える。このとき、装着者Aの発話音声は、装着者Aの端末装置10Aと装着者Bの端末装置10Bとの双方に捉えられる。同様に、装着者Bの発話音声は、装着者Aの端末装置10Aと装着者Bの端末装置10Bとの双方に捉えられる。
FIG. 3 is a diagram illustrating a situation in which a plurality of wearers each wearing the
As shown in FIG. 3, a case is considered in which two wearers A and B who are respectively wearing the
端末装置10Aおよび端末装置10Bからは、それぞれ、独立に、発話情報がホスト装置20に送られる。ここで、装着者Aの端末装置10Aにおいて装着者の発話として認識される音声は、装着者Bの端末装置10Bでは他者の発話として認識される。反対に、端末装置10Bにおいて装着者の発話として認識される音声は、端末装置10Aでは他者の発話として認識される。このため、端末装置10Aから取得した発話情報と、端末装置10Bから取得した発話情報とは、図4に示すように、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似する。
The
そこで、この例においてホスト装置20は、端末装置10Aから取得した情報と端末装置10Bから取得した情報とを比較することにより、これらの情報が同じ発話状況を示しているか否かを判断し、これに基づいて、装着者Aと装着者Bとの対話の有無を認識する。
ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻(タイミング)等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いてもよいし、他の情報を付加的に用いてもよい。
Therefore, in this example, the
Here, the information indicating the utterance state includes at least the length of the utterance time in each utterance for each utterer described above, the start time and end time of each utterance, and the time (timing) at which the utterer is switched. As described above, time information related to the utterance is used. In addition, in order to judge the utterance situation concerning a specific conversation, only a part of time information regarding these utterances may be used, or other information may be additionally used.
ここで、本実施の形態では、端末装置10の音声解析部15にて解析し、発話情報としてデータ送信部16を介して送信された自他識別情報を使用して、複数の端末装置10からマイクロフォン11、12にて受信した発話音声の音声信号の同調性を判別している。
すなわち、発話情報に自他識別情報が付与されることで、取得された音声が装着者自身によるものであるか、装着者以外の他者によるものであるかを予め判別できているため、発話者が切り替わったタイミング等を明確に把握できる。そして、このタイミングにおいて発話者が逆転する装着者同士を見つければ、発話音声の同調性があると判断し、この装着者同士が対話していると判定することができる。
Here, in this Embodiment, it analyzes from the audio |
That is, since the identification information is added to the utterance information, it can be determined in advance whether the acquired voice is from the wearer itself or from someone other than the wearer. It is possible to clearly grasp the timing when the person switched. If wearers whose speakers are reversed at this timing are found, it can be determined that the utterances are synchronized, and it can be determined that the wearers are interacting with each other.
ところで、従来、音声解析システム1では、端末装置10を装着した装着者が複数人存在する場合、装着者同士の対話関係を判定するために、予め定められた空間内に存在する装着者の全てを対象として、上述したような対話関係の判定をしている。具体的には、予め定められた空間内に存在する複数の装着者の中から、予め基準となる装着者を定め、この基準となる装着者が装着する端末装置10からの発話情報と、上記空間内に存在する他の装着者が装着する全ての端末装置10からの発話情報とを順次比較することにより、発話音声の同調性の有無を判別し、基準となる装着者と他の装着者との対話関係を判定する。
したがって、予め定められた空間内に存在する装着者の数が多い場合には、基準となる装着者との発話音声の同調性の有無を判別する他の装着者の数が多くなる。これにより、複数の装着者同士の対話関係を判定するための処理が煩雑になり、実際には対話を行っていないのに対話していると判定される等の誤判定が発生しやすくなる等、対話関係の判定の精度が低下する懸念がある。
By the way, conventionally, in the
Therefore, when the number of wearers existing in a predetermined space is large, the number of other wearers that determine the presence / absence of synchronism of speech with the wearer serving as a reference increases. This complicates the process for determining the interaction relationship between a plurality of wearers, and makes it easy to generate erroneous determinations such as determining that the user is interacting without actually performing the interaction. There is a concern that the accuracy of the determination of dialogue relations will be reduced.
このような問題を解決するために、予め定められた空間内に存在する他の装着者のうち、基準となる装着者からの距離が予め定められた距離よりも小さい範囲内にいる他の装着者を、対話関係の判定を行う対象とすることが考えられる。
しかし、基準となる装着者からの距離を大きく定めた場合には、対話関係の判定を行う範囲内に存在する他の装着者の数が多くなるため、上述した問題と同様の問題が生じ得る。
また、基準となる装着者からの距離を小さく定めた場合には、基準となる装着者と実際に対話を行っている他の装着者が、対話関係の判定を行う範囲内に存在しない場合がある。すなわち、対話を行う環境等によっては相手との距離が離れた状態で対話を行うことも考えられ、対話を行う基準となる装着者と他の装着者との間の距離が、予め定められた距離よりも大きくなる場合がある。このような場合には、この基準となる装着者と他の装着者との間で対話関係の判定が行われないため、装着者間の対話関係を正確に把握することが困難になる。
In order to solve such a problem, among other wearers existing in a predetermined space, other wearers whose distance from the reference wearer is within a range smaller than the predetermined distance It is conceivable that a person is a target for determining a dialogue relationship.
However, when the distance from the reference wearer is set large, the number of other wearers existing within the range for determining the dialogue relation increases, and the same problem as the above problem may occur. .
In addition, when the distance from the reference wearer is set small, other wearers who are actually interacting with the reference wearer may not be within the range for determining the dialogue relationship. is there. In other words, depending on the environment in which the conversation is performed, it may be possible to perform the conversation with a distance from the other party, and the distance between the wearer serving as a reference for the conversation and the other wearer is determined in advance. May be greater than distance. In such a case, it is difficult to accurately grasp the dialogue relationship between the wearers because the dialogue relationship between the wearer serving as the reference and other wearers is not determined.
そこで、本実施の形態の端末装置10は、端末装置10にて取得した音声が装着者の発話音声であると識別した場合に、装着者の発話音声の音圧に基づいた電波強度で、上述した発話信号を他の端末装置10に向けて送信している。そして、他の端末装置10のうち発話信号を受信した端末装置10が、ホスト装置20へ受信情報を送信している。
さらに、本実施の形態のホスト装置20では、端末装置10から受信した発話情報および受信情報に基づいて、複数の端末装置10のうち対話関係の判定を行う端末装置10同士の組み合わせを限定し、上述した音声の同調性の判別、装着者同士の対話関係の判定を行っている。
以下、端末装置10にて実行される処理およびホスト装置20にて実行される処理について、順に説明する。
Therefore, when the
Furthermore, in the
Hereinafter, processing executed by the
<端末装置10にて実行される処理>
図5は、本実施の形態が適用される端末装置10にて実行される処理を示すフローチャートである。続いて、図5および上述した図1を参照して、本実施の形態の端末装置10にて実行される処理について説明する。
本実施の形態の端末装置10では、まず、第1マイクロフォン11、第2マイクロフォン12にて音声を取得すると(ステップ501)、取得音声に基づいた音声信号が、第1増幅器13および第2増幅器14に送られる。
第1増幅器13および第2増幅器14では、第1マイクロフォン11および第2マイクロフォン12からの音声信号をそれぞれ取得すると、取得した音声信号を増幅して音声解析部15に送る(ステップ502)。
<Processing executed by
FIG. 5 is a flowchart showing processing executed by the
In the
When the
音声解析部15は、第1増幅器13および第2増幅器14で増幅された音声信号の音圧を算出する(ステップ503)。
具体的には、例えば、まず第1マイクロフォン11にて取得され第1増幅器13で増幅された音声信号および第2マイクロフォン12にて取得され第2増幅器14で増幅された音声信号のそれぞれに対して、フィルタリング処理を行い、音声信号から環境音等の雑音(ノイズ)の成分を除去する。そして、音声解析部15は、雑音成分が除かれたそれぞれの音声信号について、一定の時間単位(例えば、数十分の一秒〜数百分の一秒)毎に平均音圧を算出する。
The
Specifically, for example, for each of the audio signal first acquired by the
続いて、音声解析部15は、上述した自他識別の方法を用いて、ステップ503にて算出した音声信号の音圧に基づいて、第1マイクロフォン11および第2マイクロフォン12にて取得した音声が装着者によるものか装着者以外の他者による発話音声であるかを判断する(ステップ504)。
Subsequently, the
そして、音声解析部15により、第1マイクロフォン11および第2マイクロフォン12にて取得した音声が装着者によるものであると判断された場合(ステップ504にてYES)には、ステップ503にて算出した音声の音圧に基づいて、発話信号を送信するための無線通信の電波強度を算出する(ステップ505)。
続いて、ステップ505にて算出した電波強度で、無線通信回線を介して他の端末装置10に向けて発話信号を送信する(ステップ506)。
なお、ステップ505における電波強度の算出の仕方およびステップ506における発話信号の送信に関しては、後段にて詳細に説明する。
If the
Subsequently, an utterance signal is transmitted to another
Note that the method of calculating the radio field intensity in step 505 and the transmission of the speech signal in step 506 will be described in detail later.
一方、音声解析部15により、音声が装着者以外の他者によるものであると判断された場合(ステップ504にてNO)には、ステップ505およびステップ506は実行せずに次のステップへ進む。
On the other hand, if the
続いて、端末装置10は、信号受信部17において他の端末装置10から送信された発話信号を受信したか否かの判断を行う(ステップ507)。
信号受信部17にて他の端末装置から送信された発話信号を受信した場合(ステップ507でYES)には、データ送信部16を介して、ホスト装置20に向けて受信情報を送信する(ステップ508)。
一方、信号受信部17にて他の端末装置10からの発話信号を受信しない場合(ステップ507でNO)には、ステップ508は実行せずに次のステップへ進む。
Subsequently, the
When the
On the other hand, when the
続いて、データ送信部16は、ホスト装置20に向けて発話情報を送信する(ステップ509)。
以上のステップにより、本実施の形態の端末装置10にて実行される処理が終了する。
なお、この例では、発話信号の送信等を行った後に、受信情報および発話情報の送信を行うものとしたが、これらの信号、情報の送信の順序はこれに限られず、例えば発話情報を送信した後に発話信号の送信等を行っても構わない。
Subsequently, the
With the above steps, the process executed by the
In this example, the transmission of the reception information and the utterance information is performed after the transmission of the utterance signal. However, the order of the transmission of these signals and information is not limited to this. For example, the utterance information is transmitted. After that, an utterance signal may be transmitted.
続いて、上述したステップ505における電波強度の算出およびステップ506における発話信号の送信に関して、詳細に説明する。
ステップ505では、上述したように、ステップ503において音声解析部15により算出された装着者の発話音声の音圧に基づいて、発話信号を送信するための電波強度を算出している。
Next, the calculation of the radio wave intensity in step 505 and the transmission of the speech signal in step 506 will be described in detail.
In step 505, as described above, the radio field intensity for transmitting the speech signal is calculated based on the sound pressure of the wearer's speech sound calculated by the
図6は、対話する2者間の距離(装着者と対話相手との間の距離)と、装着者の発話音声の音圧との関係、および、対話する2者間の距離と端末装置10から送信する発話信号の電波強度との関係を示した図である。
なお、図6において、実線が、装着者の発生音声の音圧と2者間の距離との関係を示しており、破線が、発話信号の電波強度と2者間の距離との関係を示している。また、図6では、発生音声の音圧および発話信号の電波強度は、2者間の距離が1mの場合の値を1とした場合の相対値で表している。
FIG. 6 shows the relationship between the distance between the two parties having a conversation (the distance between the wearer and the conversation partner) and the sound pressure of the voice of the wearer, and the distance between the two parties having the conversation and the
In FIG. 6, the solid line indicates the relationship between the sound pressure of the voice generated by the wearer and the distance between the two persons, and the broken line indicates the relationship between the radio wave intensity of the speech signal and the distance between the two persons. ing. In FIG. 6, the sound pressure of the generated speech and the radio wave intensity of the speech signal are expressed as relative values when the value when the distance between the two is 1 m is 1.
ここで、一般に、複数の者が対話を行う際には、発話する者(発話者)の声の大きさ(発話音声の音圧)は、対話相手との間の距離によって異なる。すなわち、発話者は、通常、発話した音声が対話相手に届いて対話が成立するように、対話相手との間の距離に応じて発話音声の音圧を変化させている。
具体的には、図6に示すように、対話する2者間の距離が小さい場合には、発話者の発話音声の音圧は小さくなり、対話する2者間の距離が大きくなるにつれて、発話者の発話音声の音圧が大きくなる傾向がある。
Here, generally, when a plurality of persons have a conversation, the loudness of the person who speaks (speaker) (the sound pressure of the spoken voice) varies depending on the distance to the conversation partner. That is, the speaker usually changes the sound pressure of the uttered voice according to the distance from the conversation partner so that the spoken voice reaches the conversation partner and the conversation is established.
Specifically, as shown in FIG. 6, when the distance between the two parties having a conversation is small, the sound pressure of the uttered voice of the speaker is decreased, and the utterance is increased as the distance between the two parties having the conversation is increased. There is a tendency for the sound pressure of the uttered voice of the person to increase.
また、端末装置10から無線通信回線を介して発話信号等の信号を送信する場合、信号を送信する端末装置10(端末装置10の装着者)と、他の端末装置10(他の端末装置10の装着者;対話相手)との間の距離によって、端末装置10から送信された発話信号が他の端末装置10に到達するために必要な信号の電波強度が異なる。すなわち、図6に示すように、2者間の距離(装着者と対話相手との距離)が小さい場合には、発話信号の電波強度が小さい場合であっても、端末装置10から送信された発話信号が他の端末装置10まで到達するが、2者間の距離が大きくなるにつれて、端末装置10から送信された発話信号を他の端末装置10まで到達させるために、発話信号の電波強度を大きくする必要がある。
Further, when a signal such as an utterance signal is transmitted from the
以上の関係に基づいて、本実施の形態の音声解析部15では、端末装置10を装着した装着者の発話音声の音圧から、端末装置10から発話信号を送信する際の電波強度を算出している。
すなわち、ステップ505では、ステップ504にて端末装置10が取得した音声が装着者によるものと判断された場合に、ステップ503にて算出した装着者の発話音声の音圧に基づいて、図6に示した関係を利用して装着者と対話相手との間の距離を算出する。そして、算出した2者間の距離に基づいて、図6に示した関係を利用して発話信号を送信するための電波強度を算出している。
なお、ステップ505において電波強度の算出に用いる発話音声の音圧は、端末装置10における第1マイクロフォン11にて取得された発話音声の音圧であっても、第2マイクロフォン12にて取得された発話音声の音圧であってもよく、またこれらの平均値や総和等であってもよい。
また、音声解析部15は、装着者の発話音声の音圧と、発話信号の電波強度とを対応付けて記憶しておいてもよく、装着者の発話音声の音圧に基づいて、直接、発話信号の電波強度を算出してもよい。
Based on the above relationship, the
That is, in step 505, when it is determined that the voice acquired by the
Note that the sound pressure of the utterance voice used for the calculation of the radio field intensity in step 505 is acquired by the
The
そして、ステップ506では、ステップ505にて算出した電波強度で、無線通信により発話信号を送信する。
これにより、本実施の形態の音声解析システム1では、端末装置10の装着者と対話をしていると考えられる他の端末装置10の装着者(対話相手)には、端末装置10から送信された発話信号が到達し、端末装置10の装着者から遠く離れた位置に存在して端末装置10の装着者と対話を行っていないと考えられる他の端末装置10の装着者には、発話信号は到達しない。この結果、端末装置10の装着者の対話相手が装着する他の端末装置10では、端末装置10から送信された発話信号を受信することができる。
In step 506, the speech signal is transmitted by wireless communication with the radio wave intensity calculated in step 505.
As a result, in the
<ホスト装置20にて実行される処理>
図7は、本実施の形態が適用されるホスト装置20にて実行される処理を示すフローチャートである。続いて、図7および上述した図1を参照して、本実施の形態のホスト装置20にて実行される処理について説明する。
本実施の形態のホスト装置20では、まず、データ受信部21が、複数の端末装置10から発話音声の音声信号に関する発話情報を受信する(ステップ701)。なお、発話情報には、端末装置10のID情報、端末装置10にて取得した発話音声の取得時刻、端末装置10において上述のステップ504にて得た自他識別の解析結果等の情報が含まれる。
そして、データ受信部21にて受信した発話情報を、一旦データ蓄積部22に送り蓄積する(ステップ702)。
<Processing executed by
FIG. 7 is a flowchart showing processing executed by the
In the
Then, the utterance information received by the
続いて、端末装置10から送信された受信情報を、データ受信部21にて受信した場合(ステップ703でYES)には、受信した受信情報を、一旦データ蓄積部22に送り蓄積する(ステップ704)。
なお、データ受信部21にて受信情報を受信しない場合(ステップ703でNO)には、その後のステップは実行せずにステップ701に戻る。
Subsequently, when the reception information transmitted from the
If the reception information is not received by the data receiving unit 21 (NO in step 703), the subsequent steps are not executed and the process returns to step 701.
次に、データ解析部23は、ステップ701にて取得しステップ702にてデータ蓄積部22に蓄積した発話情報と、ステップ703にて取得しステップ704にてデータ蓄積部22に蓄積した受信情報とに基づいて、複数の端末装置10の中から上述した音声の同調性の判断を実行する端末装置10の組み合わせを限定する(ステップ705)。
なお、ステップ705の、複数の端末装置10から音声の同調性の判断を実行する端末装置10の組み合わせを限定する処理については、後段にて詳細に説明する。
Next, the
Note that the process of limiting the combination of the
続いて、ステップ705にて限定した端末装置10の組について、上述した音声の同調性の判断を行う(ステップ706)。
そして、端末装置10の間で音声の同調性があると判断した場合(ステップ707にてYES)には、音声の同調性の判断を行った端末装置10の装着者同士の間に対話関係があると判定する(ステップ708)。
一方、端末装置10の間で音声の同調性がないと判断した場合(ステップ707にてNO)には、ステップ701に戻る。
Subsequently, for the set of
If it is determined that there is audio synchronism between the terminal devices 10 (YES in step 707), there is an interactive relationship between the wearers of the
On the other hand, when it is determined that there is no audio synchronism between the terminal devices 10 (NO in step 707), the process returns to step 701.
<プログラムの説明>
なお、図5で説明を行った本実施の形態における端末装置10が行う処理、および図7で説明を行った本実施の形態におけるホスト装置20が行う処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。すなわち、端末装置10およびホスト装置20に設けられた制御用コンピュータ内部のCPUが、端末装置10およびホスト装置20の各機能を実現するプログラムを実行し、これらの各機能を実現される。
<Description of the program>
Note that the processing performed by the
<音声解析システムにて実行される処理の具体例>
続いて、音声解析システム1にて実行される処理の具体例について説明する。
図8は、本実施の形態が適用される音声解析システム1にて実行される処理を詳細に説明するための図である。
ここで、図8に示す例では、端末装置10X、10Y、10Zをそれぞれ装着した装着者X、Y、Zが存在している。そして、この例では、装着者Xと装着者Yとが対話をしており、装着者Xと装着者Zとの間、装着者Yと装着者Zとの間には対話はないものとする。また、この例では、装着者Xと装着者Yとの間の距離m1と比較して、装着者Xと装着者Zとの間の距離m2および装着者Yと装着者Zとの間の距離m3が大きくなっている(m1<m2、m1<m3)。なお、図8に示す例では、図示は省略するが、端末装置10X、10Y、10Zと無線通信回線を介して接続されるホスト装置20(図1参照)が存在する。
ここで、図8に示す例では、装着者Xと装着者Zとの間および装着者Yと装着者Zとの間には対話はないものの、装着者Z(端末装置10Z)には、装着者Xおよび装着者Yの発話音声が届いて、端末装置10Zのマイクロフォン11、12が、装着者Xおよび装着者Yの発話音声を取得する場合がある。
<Specific example of processing executed in speech analysis system>
Next, a specific example of processing executed in the
FIG. 8 is a diagram for explaining in detail processing executed in the
Here, in the example illustrated in FIG. 8, there are wearers X, Y, and Z wearing the
Here, in the example shown in FIG. 8, although there is no dialogue between the wearer X and the wearer Z and between the wearer Y and the wearer Z, the wearer Z (
(端末装置10Xにて行われる処理の具体例)
まず、図8に示した例において、装着者Xが対話相手である装着者Yに向けて発話した際に、装着者Xが装着する端末装置10Xにて行われる処理について、図5で説明した手順に基づき説明する。
図8に示す例において装着者Xが発話すると、端末装置10Xでは、第1マイクロフォン11および第2マイクロフォン12(それぞれ図1参照)が、その発話音声を取得する(ステップ501)。
続いて、音声解析部15(図1参照)により、取得した発話音声について音声信号の増幅等の処理を実行した後(ステップ502)、増幅した音声信号に基づいて、発話音声の音圧を算出する(ステップ503)。
次いで、上述したような方法で、発話音声の自他識別を行う(ステップ504)。この例では、装着者Xが発話をしているため、端末装置10Xにて取得された発話音声は、装着者X自身によるものと判定される(ステップ504にてYES)。
(Specific example of processing performed in
First, in the example shown in FIG. 8, the processing performed in the
When the wearer X utters in the example shown in FIG. 8, in the
Subsequently, the speech analysis unit 15 (see FIG. 1) performs processing such as amplification of the speech signal on the acquired speech speech (step 502), and then calculates the sound pressure of the speech speech based on the amplified speech signal. (Step 503).
Next, the utterance voice is identified by the method as described above (step 504). In this example, since the wearer X is speaking, it is determined that the uttered voice acquired by the
続いて、端末装置10Xの音声解析部15では、ステップ503にて算出した装着者X自身の発話音声の音圧および図6に示した関係に基づいて、発話信号を出力するための電波強度を算出する(ステップ505)。
ここで、図8に示した例では、装着者Xは、装着者Yに向けて発話を行っており、装着者Xの発話音声の音圧は、装着者Xとの距離がm1である位置にいる装着者Yとの間で対話を行うのに適した大きさとなっている。
これにより、音声解析部15は、装着者Xの発話音声の音圧に基づいて、図6に示した関係により、装着者Xと装着者Yとの距離をm1と算出することができる。そして、音声解析部15は、算出した装着者Xと装着者Yとの間の距離m1から、発話信号を送信するための電波強度を算出する。すなわち、図6に示した関係から、端末装置10Xからの距離がm1以下の範囲には発話信号が到達し、端末装置10Xからの距離がm1よりも離れた範囲には発話信号が到達しないような電波強度が算出される。
Subsequently, in the
Here, in the example shown in FIG. 8, the wearer X is speaking toward the wearer Y, and the sound pressure of the uttered voice of the wearer X is a position where the distance from the wearer X is m1. The size is suitable for a conversation with the wearer Y in
Thereby, the
続いて、端末装置10Xのデータ送信部16(図1参照)が、ステップ505にて算出した電波強度で、無線通信を用いて発話信号を送信する(ステップ506)。なお、発話信号としては、端末装置10XのID情報や、端末装置10Xにて取得した装着者Xの発話音声の取得時刻等の情報が含まれる。
図8には、ステップ505にて算出された電波強度で端末装置10Xから送信された発話信号が到達する範囲(すなわち、装着者X(端末装置10X)からの距離がm1以内となる範囲)を、破線で示している。
ここで、装着者X(端末装置10X)と装着者Y(端末装置10Y)との間の距離は、m1であるため、図8に示すように、端末装置10Xから送信された発話信号は、端末装置10Yまで到達する。そして、端末装置10Yの信号受信部17では、端末装置10Xからの発話信号を受信する。
Subsequently, the data transmission unit 16 (see FIG. 1) of the
FIG. 8 shows a range in which the speech signal transmitted from the
Here, since the distance between the wearer X (
一方、装着者X(端末装置10X)と装着者Z(端末装置10Z)との間の距離は、m2(>m1)であるため、図8に示すように、端末装置10Xから送信された発話信号は、端末装置10Zまで到達せず、端末装置10Zでは、端末装置10Xからの発話信号を受信しない。
On the other hand, since the distance between the wearer X (
続いて、端末装置10Xでは、ホスト装置20に向けて発話情報を送信し(ステップ509)、一連の処理を終了する。
ここで、通常、ホスト装置20は、端末装置10X〜10Zを装着する装着者X〜Zから離れた位置に設置されることが多いため、発話情報をホスト装置20へ送信するための電波強度は、上述した発話信号を送信する電波強度よりも大きく設定されている。
また、端末装置10Xからホスト装置20へ送信される発話情報には、端末装置10Xにて取得した装着者Xの発話音声の解析結果や、装着者Xの発話音声の取得時刻、装着者Xの発話音声の音圧等の情報、端末装置10XのID情報等が含まれる。
Subsequently, in the
Here, since the
The utterance information transmitted from the
なお、この例では、装着者Xが装着者Yに向けて発話を行っており、装着者Yおよび装着者Zは発話を行っていないため、端末装置10Yおよび端末装置10Zから発話信号は送信されず、端末装置10Xは発話信号を受信しない(ステップ507でNO)。したがって、この例では、端末装置10Xでは、ステップ508の受信情報の送信は行わない。
In this example, since the wearer X is speaking to the wearer Y and the wearer Y and the wearer Z are not speaking, the utterance signal is transmitted from the
(端末装置10Yにて行われる処理の具体例)
続いて、図8に示した例において、装着者Xが対話相手である装着者Yに向けて発話した際に、装着者Yが装着する端末装置10Yにて行われる処理について、図5で説明した手順に基づき説明する。
図8に示す例において装着者Xが発話すると、端末装置10Yでは、第1マイクロフォン11および第2マイクロフォン12(それぞれ図1参照)が、その発話音声を取得する(ステップ501)。
続いて、音声解析部15(図1参照)により、取得した発話音声について音声信号の増幅等の処理を実行した後(ステップ502)、増幅した音声信号に基づいて、発話音声の音圧を算出する(ステップ503)。
(Specific example of processing performed in
Next, in the example illustrated in FIG. 8, processing performed by the
When the wearer X utters in the example shown in FIG. 8, in the
Subsequently, the speech analysis unit 15 (see FIG. 1) performs processing such as amplification of the speech signal on the acquired speech speech (step 502), and then calculates the sound pressure of the speech speech based on the amplified speech signal. (Step 503).
次いで、端末装置10Yの音声解析部15は、上述したような方法で、発話音声の自他識別を行う(ステップ504)。この例では、装着者Xが発話をしているため、端末装置10Yにて取得された発話音声は、装着者Y以外の他者によるものと判定される(ステップ504でNO)。したがって、端末装置10Yでは、ステップ505の発話信号の電波強度算出、および、ステップ506の発話信号の送信を行わない。
Next, the
続いて、端末装置10Yでは、上述したように、端末装置10Xから送信された発話信号を受信する(ステップ507でYES)。ここで、端末装置10Xからの発話信号には、上述したように、端末装置10XのID情報や、端末装置10Xによる発話音声の取得時刻等の情報が含まれる。
そして、端末装置10Yは、データ送信部16により、ホスト装置20へ向けて受信情報を送信する(ステップ508)。ここで、端末装置10Yからホスト装置20へ向けて送信される受信情報には、端末装置10YのID情報と、端末装置10Xから受信した発話信号に含まれる、端末装置10XのID情報や端末装置10Xによる発話音声の取得時刻等の情報とが含まれる。
Subsequently, as described above, the
Then, the
次いで、端末装置10Yでは、ホスト装置20に向けて発話情報を送信し(ステップ509)、一連の処理を終了する。
この際、端末装置10Yにより送信される発話情報には、端末装置10Yにて取得した装着者Xの発話音声の解析結果、装着者Xの発話音声の取得時刻、装着者Xの発話音声の音圧等の情報や、端末装置10YのID情報等が含まれる。
Next, the
At this time, the speech information transmitted by the
(端末装置10Zにて行われる処理)
続いて、図8に示した例において、装着者Xが対話相手である装着者Yに向けて発話した際に、装着者Zが装着する端末装置10Zにて行われる処理について、図5で説明した手順に基づき説明する。
図8に示す例において装着者Xが発話すると、端末装置10Zでは、第1マイクロフォン11および第2マイクロフォン12(それぞれ図1参照)が、その発話音声を取得する(ステップ501)。
続いて、音声解析部15(図1参照)により、取得した発話音声について音声信号の増幅等の処理を実行した後(ステップ502)、増幅した音声信号に基づいて、発話音声の音圧を算出する(ステップ503)。
(Processing performed in the
Next, in the example shown in FIG. 8, processing performed by the
When the wearer X speaks in the example shown in FIG. 8, in the
Subsequently, the speech analysis unit 15 (see FIG. 1) performs processing such as amplification of the speech signal on the acquired speech speech (step 502), and then calculates the sound pressure of the speech speech based on the amplified speech signal. (Step 503).
次いで、端末装置10Zの音声解析部15は、上述したような方法で、発話音声の自他識別を行う(ステップ504)。この例では、装着者Xが発話をしているため、端末装置10Zにて取得された発話音声は、装着者Z以外の他者によるものと判定される(ステップ504でNO)。したがって、端末装置10Yでは、ステップ505の発話信号の電波強度の算出、および、ステップ506の発話信号の送信を行わない。
Next, the
続いて、端末装置10Zは、上述したように、端末装置10Xからの距離がm2(>m1)となっているため、端末装置10Xから送信された発話信号が到達せず、端末装置10Xからの発話信号を受信しない(ステップ507でNO)。したがって、端末装置10Zでは、ステップ508の受信情報の送信を行わない。
Subsequently, as described above, since the distance from the
次いで、端末装置10Zでは、ホスト装置20に向けて発話情報を送信し(ステップ509)、一連の処理を終了する。
この際、端末装置10Zにより送信される発話情報には、端末装置10Zにて取得した装着者Xの発話音声の解析結果、装着者Xの発話音声の取得時刻、装着者Xの発話音声の音圧等の情報や、端末装置10ZのID情報等が含まれる。
Next, the
At this time, the utterance information transmitted by the
なお、上述の具体例では、装着者Xと装着者Yとが対話を行っている場合に、装着者Xが装着者Yに向けて発話を行った際の処理について説明を行ったが、例えば装着者Yが装着者Xに向けて発話を行った際の処理も同様に考えることができる。
すなわち、装着者Yが装着者Xに向けて発話を行った際には、端末装置10Yでは、装着者Yの発話音声を取得し、発話音声の音圧に基づいた電波強度で発話信号を送信する。また、端末装置10Yは、ホスト装置20に向けて発話情報を送信する。
In the above specific example, when the wearer X and the wearer Y have a dialogue, the process when the wearer X speaks to the wearer Y has been described. The processing when the wearer Y speaks toward the wearer X can be considered in the same manner.
That is, when the wearer Y utters toward the wearer X, the
また、装着者Yが装着者Xに向けて発話を行った際に端末装置10Xでは、装着者Yの発話音声を取得するとともに、端末装置10Yから送信された発話信号を受信し、ホスト装置20に向けて受信信号を送信する。また、端末装置10Xは、ホスト装置20に向けて発話情報を送信する。
さらに、装着者Yが装着者Xに向けて発話を行った際に端末装置10Zでは、装着者Yの発話音声を取得し、発話情報をホスト装置20に向けて送信する。なお、端末装置10Y(装着者Y)と端末装置10Z(装着者Z)との距離はm3(>m1)であるから、端末装置10Yから送信された発話信号は、端末装置10Zには到達せず、端末装置10Zでは発話信号を受信しない。
Further, when the wearer Y utters toward the wearer X, the
Furthermore, when the wearer Y utters toward the wearer X, the
(ホスト装置20にて行われる処理の具体例)
続いて、端末装置10X、端末装置10Yおよび端末装置10Zにおいて上述したような処理が行われた場合に、端末装置10X〜10Zに無線通信回線を介して接続されるホスト装置20(図1参照)にて行われる処理について、図7で説明した手順に基づき説明する。
(Specific example of processing performed in host device 20)
Subsequently, when processing as described above is performed in the
上述したように、ホスト装置20には、端末装置10X〜10Zのそれぞれから発話情報が送信され、ホスト装置20のデータ受信部21にてこれらの発話情報を受信する(ステップ701)。
そして、ホスト装置20では、受信した発話情報を、発話情報に含まれるID情報等に基づいて、データ蓄積部22に装着者ごと(装着者X、Y、Z)に分けて蓄積する(ステップ702)。
As described above, utterance information is transmitted from each of the
Then, the
続いて、ホスト装置20のデータ受信部21では、上述したように端末装置10Yから送信された受信情報、および、端末装置10Xから送信された受信情報を取得する(ステップ703でYES)。そして、取得した受信情報は、データ蓄積部22に送られ、蓄積される(ステップ704)。
ここで、データ受信部21で受信した端末装置10Yからの受信情報は、端末装置10Yにて受信した端末装置10Xからの発話信号に基づいている。そして、端末装置10Yからの受信情報には、端末装置10YのID情報と、端末装置10Xからの発話信号に含まれていた端末装置10XのID情報および装着者Xの発話音声の取得時刻の情報等とが含まれている。
同様に、端末装置10Xからの受信情報は、端末装置10Xで受信した端末装置10Yからの発話信号に基づいている。そして、端末装置10Xから受信情報には、端末装置10XのID情報と、端末装置10Yからの発話信号に含まれていた端末装置10XのID情報および装着者Yの発話音声の取得時刻の情報等とが含まれている。
Subsequently, the
Here, the reception information from the
Similarly, the reception information from the
そして、ホスト装置20のデータ解析部23では、取得した受信情報に基づいて、音声の同調性判断を行う端末装置10の組み合わせ(装着者の組み合わせ)を限定する(ステップ705)。
ここで、端末装置10Yからの受信情報には端末装置10XのID情報等が含まれており、端末装置10Xからの受信情報には端末装置10YのID情報等が含まれているため、ホスト装置20のデータ解析部23は、端末装置10Xの装着者Xと端末装置10Yの装着者Yとの組み合わせを、音声の同調性判断を行う対象とする。
一方、データ受信部21は、端末装置10Zから受信情報を取得しておらず、また、端末装置10Yからの受信情報および端末装置10Xからの受信情報には、端末装置10ZのID情報は含まれていない。したがって、ホスト装置20のデータ解析部23は、端末装置10Zの装着者Zについて、装着者Xおよび装着者Yとの音声の同調性の判断を行う対象とはしない。
Then, the
Here, since the reception information from the
On the other hand, the
続いて、ホスト装置20では、ステップ705にて限定した対象の端末装置10の組み合わせ(装着者の組み合わせ)について、音声の同調性の判断を行う(ステップ706)。
すなわち、この例では、ステップ701にて受信しステップ702にて蓄積した発話情報のうち、端末装置10Xからの発話情報と端末装置10Yからの発話情報とを比較する。そして、この例では、装着者Xと装着者Yとは対話を行っているため、端末装置10Xからの発話情報と端末装置10Yからの発話情報とは、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報が近似する。これにより、端末装置10Xからの発話情報と端末装置10Yからの発話情報との間には、音声の同調性があると判断され(ステップ707でYES)、装着者Xと装着者Yとの間には対話関係があると判断される(ステップ708)。
Subsequently, the
That is, in this example, among the utterance information received in step 701 and accumulated in step 702, the utterance information from the
一方、端末装置10Xからの発話情報と端末装置10Zからの発話情報との間、および端末装置10Yからの発話情報と端末装置10Zからの発話情報との間では、音声の同調性の判断は行わない。
これにより、本構成を採用しない場合と比較して、対話関係の判断に係る処理が煩雑になるのを抑制することが可能になり、対話関係の判断を精度よく行うことが可能になる。
また、上述した構成を有することで、実際には対話関係はないのに、装着者Xと装着者Zとの間、装着者Yと装着者Zとの間に対話関係があると誤って判断されるのを抑制することができる。
On the other hand, between the utterance information from the
As a result, it is possible to suppress the complexity of the process related to the determination of the dialog relationship as compared with the case where the present configuration is not adopted, and the determination of the dialog relationship can be performed with high accuracy.
Further, by having the above-described configuration, it is erroneously determined that there is a dialogue relationship between the wearer X and the wearer Z, and between the wearer Y and the wearer Z, although there is actually no dialogue relationship. Can be suppressed.
続いて、実施例を用いて本発明をさらに詳細に説明する。なお、本発明は以下の実施例に限定されるものではない。
(実施例1)
端末装置10aを装着する装着者a、端末装置10bを装着する装着者b、端末装置10cを装着する装着者cおよび端末装置10dを装着する装着者dを、図9に示すように配置した。すなわち、装着者aと装着者bとの間の距離が1.5m、装着者bと装着者cとの間の距離が4m、装着者cと装着者dとの間の距離が1.5m、装着者aと装着者dとの間の距離が7mとなるように、装着者a〜装着者dを配置した。そして、装着者aと装着者bとの間で予め定められた期間、対話を行うとともに、同じ時間帯において装着者cと装着者dとの間で対話を行った。なお、装着者a〜装着者dは、互いの音声が届く範囲内に位置している。
この際、各端末装置10では、図5等に示したような処理を行う。
そして、このような状況の下で、各端末装置10での発話信号の取得状況を観察し、その結果を図10(a)に示した。
Subsequently, the present invention will be described in more detail using examples. In addition, this invention is not limited to a following example.
Example 1
A wearer a wearing the
At this time, each
And under such a situation, the acquisition situation of the utterance signal in each
(比較例1)
装着者a、装着者b、装着者cおよび装着者dを、実施例1と同様に配置し、装着者aと装着者bとの間および装着者cと装着者dとの間で、実施例1と同様に対話を行った。上述したように、装着者a〜装着者dは、互いの音声が届く範囲内に位置している。
比較例1では、実施例1とは異なり、各端末装置10は、装着者の発話音声の音圧に関わらず、予め定められた一律の電波強度で発話信号を送信する。なお、この電波強度で端末装置10から送信された発話信号は、距離が7m以上離れた位置に存在する他の端末装置10まで到達するものとする。すなわち、装着者a〜装着者dのうちある装着者の端末装置10から送信された発話信号は、他の全ての装着者の端末装置10まで到達する。
また、このような状況の下で、各端末装置10での発話信号の取得状況を観察し、その結果を図10(b)に示した。
(Comparative Example 1)
The wearer a, the wearer b, the wearer c, and the wearer d are arranged in the same manner as in the first embodiment, and are performed between the wearer a and the wearer b and between the wearer c and the wearer d. Dialogue was conducted as in Example 1. As described above, the wearer a to the wearer d are located within a range where each other's voice can reach.
In the first comparative example, unlike the first embodiment, each
Under such circumstances, the acquisition status of the utterance signal at each
(観察結果)
図10(a)に示すように、実施例1において、装着者aが装着する端末装置10aでは、装着者aの対話相手である装着者bが装着する端末装置10bから送信された発話信号のみを受信し、装着者aと対話を行っていない装着者cの端末装置10cおよび装着者dの端末装置10dからの発話信号は受信しないことが分かる。
同様に、端末装置10bでは、端末装置10aから送信された発話信号のみを受信し、端末装置10cでは、端末装置10dから送信された発話信号のみを受信し、端末装置10dでは、端末装置10cから送信された発話信号のみを受信することが分かる。
(Observation results)
As shown in FIG. 10A, in the first embodiment, in the
Similarly, the
この結果から、実施例1においてホスト装置20のデータ解析部23では、装着者a〜装着者d(端末装置10a〜端末装置10d)を、装着者aと装着者bとの組み合わせ(端末装置10aと端末装置10bとの組み合わせ)と、装着者cと装着者dとの組み合わせ(端末装置10cと端末装置10dとの組み合わせ)とに分けることができる。そして、データ解析部23において、端末装置10aと端末装置10bとの組、および、端末装置10cと端末装置10dとの組について、音声の同調性の判断を行う。この場合、例えば端末装置10aと端末装置10cとの組、端末装置10aと端末装置10dとの組等については、音声の同調性の判断を行う必要がない。
この結果、本構成を採用しない場合と比較して、データ解析部23にて実行する処理が煩雑になるのを抑制でき、本構成を採用しない場合と比較して精度よく対話関係の判定を行うことができる。
さらに、音声の同調性の判断を行う前に、予め装着者(端末装置10)を複数の組に分けているため、本構成を採用しない場合と比較して、対話関係の誤判断が生じにくい。
From this result, in the
As a result, compared with the case where this configuration is not adopted, it is possible to suppress the processing executed by the
Further, since the wearer (terminal device 10) is divided into a plurality of groups in advance before the determination of the synchronicity of the voice, it is less likely to make an erroneous determination regarding the dialogue than in the case where this configuration is not adopted. .
一方、図10(b)に示すように、比較例1において、装着者aが装着する端末装置10aでは、装着者aと対話する装着者bの端末装置10bから送信された発話信号だけでなく、装着者aと対話を行っていない装着者cの端末装置10cおよび装着者dの端末装置10dから送信された発話信号についても受信することが分かる。
同様に、端末装置10bでは、端末装置10aから送信された発話信号だけでなく、端末装置10cおよび端末装置10dから送信された発話信号についても受信し、端末装置10cでは、端末装置10dから送信された発話信号だけでなく、端末装置10aおよび端末装置10bから送信された発話信号についても受信し、端末装置10dでは、端末装置10cから送信された発話信号だけでなく、端末装置10aおよび端末装置10bから送信された発話信号についても受信することが分かる。
On the other hand, as shown in FIG. 10 (b), in Comparative Example 1, the
Similarly, the
この結果、比較例1では、発話信号の受信状況および受信した発話信号に基づいてホスト装置20に送信する受信情報等に基づいて、発話音声の同調性の判断を行う対象者を分離することが困難となっている。そして、ホスト装置20のデータ解析部23では、装着者a〜dの対話関係を判定するために、例えば端末装置10aと端末装置10bとの組、端末装置10aと端末装置10cとの組、端末装置10aと端末装置10dとの組、端末装置10bと端末装置10cとの組、端末装置10bと端末装置10dとの組および端末装置10cと端末装置10dとの組について全て同調性の判断を実行する必要がある。
その結果、データ解析部23にて行われる処理が煩雑になり、対話関係の判定の精度が低下して、対話関係について誤判定が発生する懸念がある。
As a result, in the first comparative example, it is possible to separate the target person who determines the tunedness of the uttered voice based on the reception status of the utterance signal and the reception information transmitted to the
As a result, the processing performed in the
1…音声解析システム、10…端末装置、11…第1マイクロフォン、12…第2マイクロフォン、13…第1増幅器、14…第2増幅器、15…音声解析部、16…データ送信部、17…信号受信部、20…ホスト装置、21…データ受信部、22…データ蓄積部、23…データ解析部、24…出力部
DESCRIPTION OF
Claims (10)
少なくとも2つの前記音声取得手段で取得された音声の音圧に基づいて、話者が前記装着者か当該装着者以外の他者かを識別する識別手段と、
前記識別手段により話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する発話信号送信手段と、
前記発話信号送信手段から送信された前記発話信号を受信する発話信号受信手段と、
前記発話信号受信手段による前記発話信号の受信状況および前記識別手段による識別結果に基づいて、前記装着者の対話関係を判定する対話関係判定手段と
を備える音声解析システム。 A plurality of voice acquisition means that are arranged at different positions from the wearer's utterance site and that acquire the voice of the speaker;
Identification means for identifying whether the speaker is the wearer or another person other than the wearer, based on the sound pressure of the sound obtained by at least two of the sound obtaining means;
When the speaker is identified as the wearer by the identification unit, the utterance signal relating to the utterance of the wearer with the radio wave intensity based on the sound pressure of the voice of the wearer acquired by the voice acquisition unit Utterance signal transmission means for transmitting
A speech signal receiving means for receiving the speech signal transmitted from the speech signal transmitting means;
A speech analysis system comprising: a dialog relation determining means for determining a dialog relation of the wearer based on a reception state of the speech signal by the speech signal receiving means and a discrimination result by the discrimination means.
前記受信情報送信手段から送信された前記受信情報を取得する受信情報取得手段とを更に含み、
前記対話関係判定手段は、前記識別手段による識別結果と、前記受信情報取得手段により取得された前記受信情報とに基づいて、前記装着者の対話関係を判定することを特徴とする請求項1記載の音声解析システム。 When the utterance signal is received by the utterance signal reception means, reception information transmission means for transmitting reception information based on reception of the utterance signal;
Receiving information acquisition means for acquiring the reception information transmitted from the reception information transmission means;
2. The dialog relation determining unit determines the dialog relation of the wearer on the basis of an identification result by the identification unit and the reception information acquired by the reception information acquisition unit. Voice analysis system.
それぞれの前記音声端末装置の装着者同士の対話関係を判定する対話関係判定手段を備える音声解析装置と、を備え、
前記音声端末装置の前記通信手段は、前記識別手段により話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する発話信号送信手段と、他の音声端末装置における発話信号送信手段から送信された発話信号を受信する発話信号受信手段とを含み、
前記音声解析装置の前記対話関係判定手段は、それぞれの前記音声端末装置の前記識別手段による識別結果と、それぞれの当該音声端末装置の前記発話信号受信手段による前記発話信号の受信状況とに基づいて、対話関係の判定を行うこと
を特徴とする音声解析システム。 Based on the sound pressures of the voices acquired by the plurality of voice acquisition means that are arranged at different distances from the wearer's utterance part and that acquire the voice of the speaker, and at least two of the voice acquisition means. A plurality of identification means for identifying whether the wearer is a person other than the wearer and a communication means for performing communication with the outside via a wireless communication line based on the identification result by the identification means A voice terminal device;
A voice analysis device comprising a dialogue relation determination means for judging a dialogue relation between wearers of each of the voice terminal devices,
The communication means of the voice terminal device, when the speaker is identified as the wearer by the identification means, the radio field intensity based on the sound pressure of the wearer's voice acquired by the voice acquisition means The speech signal transmitting means for transmitting the speech signal related to the utterance of the wearer, and the speech signal receiving means for receiving the speech signal transmitted from the speech signal transmitting means in the other voice terminal device,
The dialogue relation determination unit of the voice analysis device is based on an identification result by the identification unit of each voice terminal device and a reception state of the utterance signal by the utterance signal reception unit of each voice terminal device. A speech analysis system characterized by determining dialogue relations.
少なくとも2つの前記音声取得手段で取得された音声の音圧に基づいて、話者が前記装着者か当該装着者以外の他者かを識別する識別手段と、
前記識別手段により話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する発話信号送信手段と、
他者の発話に関する発話信号を受信する発話信号受信手段と
を含む音声端末装置。 A plurality of voice acquisition means that are arranged at different positions from the wearer's utterance site and that acquire the voice of the speaker;
Identification means for identifying whether the speaker is the wearer or another person other than the wearer, based on the sound pressure of the sound obtained by at least two of the sound obtaining means;
When the speaker is identified as the wearer by the identification unit, the utterance signal relating to the utterance of the wearer with the radio wave intensity based on the sound pressure of the voice of the wearer acquired by the voice acquisition unit Utterance signal transmission means for transmitting
An audio terminal device including an utterance signal receiving means for receiving an utterance signal related to an utterance of another person.
装着者の発声部位からの距離が異なる位置に配置され、話者の音声を取得する複数の音声取得手段から音声の情報を取得する機能と、
少なくとも2つの前記音声取得手段で取得された音声の音圧差に基づいて、話者が前記装着者か当該装着者以外の他者かを識別する機能と、
話者が前記装着者であると識別された場合に、前記音声取得手段で取得された当該装着者の音声の音圧に基づいた電波強度で、当該装着者の発話に関する発話信号を送信する機能と、
他者の発話に関する発話信号を受信する機能と
を実現させるプログラム。 On the computer,
A function of acquiring voice information from a plurality of voice acquisition means arranged at different positions from the wearer's utterance site and acquiring the voice of the speaker;
A function for identifying whether the speaker is the wearer or another person other than the wearer based on the sound pressure difference between the voices acquired by the at least two voice acquisition means;
A function of transmitting an utterance signal related to the utterance of the wearer with a radio wave intensity based on a sound pressure of the wearer's voice acquired by the voice acquisition unit when the speaker is identified as the wearer. When,
A program that realizes a function of receiving an utterance signal related to another person's utterance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013066881A JP5929810B2 (en) | 2013-03-27 | 2013-03-27 | Voice analysis system, voice terminal apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013066881A JP5929810B2 (en) | 2013-03-27 | 2013-03-27 | Voice analysis system, voice terminal apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014191201A JP2014191201A (en) | 2014-10-06 |
JP5929810B2 true JP5929810B2 (en) | 2016-06-08 |
Family
ID=51837479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013066881A Expired - Fee Related JP5929810B2 (en) | 2013-03-27 | 2013-03-27 | Voice analysis system, voice terminal apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5929810B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210076716A (en) * | 2019-12-16 | 2021-06-24 | 삼성전자주식회사 | Electronic apparatus and controlling method for the apparatus thereof |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792988A (en) * | 1993-09-27 | 1995-04-07 | Matsushita Electric Ind Co Ltd | Speech detecting device and video switching device |
JP4669041B2 (en) * | 2006-02-28 | 2011-04-13 | パナソニック株式会社 | Wearable terminal |
JP4649437B2 (en) * | 2007-04-03 | 2011-03-09 | 株式会社東芝 | Signal separation and extraction device |
JP5195652B2 (en) * | 2008-06-11 | 2013-05-08 | ソニー株式会社 | Signal processing apparatus, signal processing method, and program |
JP5339501B2 (en) * | 2008-07-23 | 2013-11-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Voice collection method, system and program |
JP5246120B2 (en) * | 2009-09-29 | 2013-07-24 | 沖電気工業株式会社 | Sound collecting device, gain control method, and program |
US9354310B2 (en) * | 2011-03-03 | 2016-05-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
-
2013
- 2013-03-27 JP JP2013066881A patent/JP5929810B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014191201A (en) | 2014-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8892424B2 (en) | Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person | |
JP6031761B2 (en) | Speech analysis apparatus and speech analysis system | |
JP5772447B2 (en) | Speech analyzer | |
JP6003472B2 (en) | Speech analysis apparatus, speech analysis system and program | |
JP6402748B2 (en) | Spoken dialogue apparatus and utterance control method | |
JP6003510B2 (en) | Speech analysis apparatus, speech analysis system and program | |
JP5867066B2 (en) | Speech analyzer | |
JP2013135325A (en) | Voice analysis device | |
US8983843B2 (en) | Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition | |
JP6007487B2 (en) | Information processing apparatus, information processing system, and program | |
JP5862318B2 (en) | Sound analysis apparatus, sound analysis system and program | |
JP6476938B2 (en) | Speech analysis apparatus, speech analysis system and program | |
JP6160042B2 (en) | Positioning system | |
JP6031767B2 (en) | Speech analysis apparatus, speech analysis system and program | |
JP5929810B2 (en) | Voice analysis system, voice terminal apparatus and program | |
JP6191747B2 (en) | Speech analysis apparatus and speech analysis system | |
JP2013140534A (en) | Voice analysis device, voice analysis system, and program | |
JP2013164468A (en) | Voice analysis device, voice analysis system, and program | |
US9014395B2 (en) | Audio analysis apparatus and audio analysis system | |
JP6056544B2 (en) | Speech analysis device, signal analysis device, speech analysis system, and program | |
JP6051996B2 (en) | Speech analysis apparatus, speech analysis system and program | |
JP6369022B2 (en) | Signal analysis apparatus, signal analysis system, and program | |
JP2014048618A (en) | Speech analyzing device, speech analyzing system, and program | |
JP5948969B2 (en) | Speech analysis apparatus, speech analysis system and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150306 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5929810 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |