JP4183645B2 - Conversation leader discriminating apparatus and conversation leader discriminating method - Google Patents
Conversation leader discriminating apparatus and conversation leader discriminating method Download PDFInfo
- Publication number
- JP4183645B2 JP4183645B2 JP2004084420A JP2004084420A JP4183645B2 JP 4183645 B2 JP4183645 B2 JP 4183645B2 JP 2004084420 A JP2004084420 A JP 2004084420A JP 2004084420 A JP2004084420 A JP 2004084420A JP 4183645 B2 JP4183645 B2 JP 4183645B2
- Authority
- JP
- Japan
- Prior art keywords
- leader
- conversation
- person
- utterance
- discriminating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は会話先導者判別装置および会話先導者判別方法に関し、特にたとえば、或る場に存在する2人以上の人物間における会話の先導者を判別する、会話先導者判別装置および会話先導者判別方法に関する。 The present invention relates to a conversation leader discriminating apparatus and a conversation leader discriminating method, and more particularly to, for example, a conversation leader discriminating apparatus and a conversation leader discriminating apparatus for discriminating a conversation leader between two or more persons existing in a certain place. Regarding the method.
この種の会話先導者判別装置についての従来技術は存在しなかった。近似する従来技術の一例が特許文献1に開示される。この特許文献1によれば、訪問者(見学者)が所持する発信源から発信された信号が各展示会場で検知され、これによって訪問者の現在位置と見学した履歴とが特定される。訪問者の興味は、特定された位置データおよび履歴データに基づいて推定され、訪問者に提供される展示情報は、推定された興味に基づいて作成される。
この従来技術では、各展示会場において、展示物を紹介(説明)したり、質問に答えたりするような会話の先導者(会話先導者)は固定的である。したがって、当該会話先導者の存在する場(展示会場)における会話状態は、当該会話先導者の音声に基づいて判別することができる。たとえば、会話先導者が頻繁に発話している場合には、展示物について紹介(説明)しているような一方向の会話が行われている状態であると判断することができる。また、会話先導者の音声が途切れて、或る程度の無音区間(3秒〜10秒)を検出し、その後、会話先導者の音声を再度検出するような場合には、会話先導者と来訪者との間で質疑応答のような双方向の会話が行われている状態であると判断することができる。さらに、長時間(10分以上)、会話先導者の音声が途切れる場合には、当該場において何ら会話が行われていない状態であると判断することができる。 In this prior art, the leaders of conversations (conversation leaders) who introduce (explain) exhibits or answer questions are fixed at each exhibition hall. Therefore, the conversation state in the place (exhibition hall) where the conversation leader exists can be determined based on the voice of the conversation leader. For example, when a conversation leader frequently speaks, it can be determined that a one-way conversation such as introducing (explaining) an exhibit is in progress. When the conversation leader's voice is interrupted and a certain silent period (3 to 10 seconds) is detected, and then the conversation leader's voice is detected again, the conversation leader and the visitor are visited. It can be determined that a two-way conversation such as a question-and-answer session is performed with a person. Furthermore, when the voice of the conversation leader is interrupted for a long time (10 minutes or more), it can be determined that no conversation is being performed at the place.
しかし、会議(いわゆる井戸端会議を含む。)のように、会話先導者が時間とともに変化するような場合には、当然のことながら会話先導者を特定することができないため、会議の場における会話状態を容易に判別することができなかった。 However, if the conversation leader changes with time, such as a meeting (including the so-called well-end meeting), it is natural that the conversation leader cannot be specified. Could not be easily determined.
それゆえに、この発明の主たる目的は、新規な、会話先導者判別装置および会話先導者判別方法を提供することである。 Therefore, a main object of the present invention is to provide a novel conversation leader discriminating apparatus and conversation leader discriminating method.
また、この発明の他の目的は、会話先導者を正確に判別できる、会話先導者判別装置および会話先導者判別方法を提供することである。 Another object of the present invention is to provide a conversation leader discriminating apparatus and a conversation leader discriminating method capable of accurately discriminating a conversation leader.
請求項1は、或る場に存在する2人以上の人物間における会話の先導者を判別する会話先導者判別装置であって、2人以上の人物の各々についての音声を収集するための複数のマイク、当該場に存在する人物を個別に認識する個人認識手段、マイクの出力に基づいて、個人認識手段によって認識された各人物の或る時間帯における発話量を算出する算出手段、算出手段によって算出された各人物についての発話量のうち、所定値を超える発話量を有する人物を抽出する抽出手段、抽出手段によって抽出された人物が複数人存在するとき、当該抽出された人物についての発話量の差に基づいて発話量のばらつきの有無を判断する判断手段、および判断手段によってばらつきが無いことが判断されたとき、会話の先導者が存在しないことを判別し、判断手段によってばらつきが有ることが判断されたとき、発話量が最大となる発話量の人物を会話の先導者として判別する先導者判別手段を備える、会話先導者判別装置である。
請求項1の発明では、会話先導者判別装置は、或る場(たとえば、会議室や展示会場)に存在する2人以上の人物間における会話の先導者を判別する。各人物音声を収集するための複数のマイクが設けられる。また、個人認識手段は、当該場に存在する人物を個別に認識する。算出手段は、マイクの出力に基づいて、個人認識手段によって認識された各人物の或る時間帯における発話量を算出する。具体的には、或る場に複数の人物が存在する場合には、同じ時間帯における各人物の発話量が算出される。抽出手段は、算出した発話量のうち、所定値を超える発話量についての人物を抽出する。判断手段は、抽出手段によって抽出された人物が複数人存在するとき、当該抽出された人物についての発話量の差に基づいて発話量のばらつきの有無を判断する。そして、会話先導者判別手段は、判断手段によってばらつきが無いことが判断されたとき、会話の先導者が存在しないことを判別し、判断手段によってばらつきが有ることが判断されたとき、発話量が最大となる発話量の人物を会話の先導者として判別する。
In the invention of
請求項1の発明によれば、或る場に存在するすべての人物についての或る時間帯における発話量を算出し、発話量にばらつきが有る場合に、その発話量が所定値を超える人物の中から発話量が最も多い人物を会話の先導者として判別するので、或る場の当該時間帯における会話の先導者を正確に判別することができる。 According to the first aspect of the present invention, the utterance amount in a certain time zone for all persons existing in a certain place is calculated, and when the utterance amount varies, the utterance amount of the person exceeding the predetermined value is calculated . since speech amount is determined highest person as leader of conversation in the leader of the conversation that put the corresponding time period of one field can be accurately determined.
請求項2の発明は請求項1に従属し、先導者判別手段は、さらに、すべての人物の発話量が所定値を超えないとき、会話の先導者が存在しないことを判別する。
The invention of
請求項2の発明では、会話先導者判別手段は、すべての人物の発話量が所定値(或る閾値)を超えない場合には、会話の先導者が存在しないことを判別する。
In the invention of
請求項2の発明では、単に発話量が最大となるだけでなく、或る閾値を超える発話量のうち、最大の発話量の人物を会話先導者として判別するので、より正確に会話先導者を判別することができる。これは、或る時間帯の全部と比較した場合に、比較的発話量の少ない人物の中で、会話先導者を判別するのは、適切でないと考えられるからである。
In the invention of
請求項3の発明は、或る場に存在する2人以上の人物間における会話の先導者を判別する会話先導者判別方法であって、(a)2人以上の人物の各々についての音声を収集し、(b)当該場に存在する人物を個別に認識し、(c)ステップ(a)によって収集された音声に基づいて、ステップ(b)によって認識された各人物の或る時間帯における発話量を算出し、(d)ステップ(c)によって算出された各人物についての発話量のうち、所定値を超える発話量を有する人物を抽出し、(e)ステップ(d)によって抽出された人物が複数人存在するとき、当該抽出された人物についての発話量の差に基づいて発話量のばらつきの有無を判断し、そして(f)ステップ(e)によってばらつきが無いことが判断されたとき、会話の先導者が存在しないことを判別し、判断手段によってばらつきが有ることが判断されたとき、発話量が最大となる発話量の人物を会話の先導者として判別する、会話先導者判別方法である。
The invention of
第3の発明においても、第1の発明と同様に、或る場の或る時間帯における会話の先導者を正確に判別することができる。 Also in the third invention, similar to the first invention, the leader of the conversation at a certain time period of a certain field can be accurately determined.
この発明によれば、或る場に存在するすべての人物についての或る時間帯における発話量を算出し、発話量が最も多い人物を会話先導者に決定するので、当該時間帯における正確に会話先導者を判別することができる。 According to the present invention, the utterance amount in a certain time zone for all persons existing in a certain place is calculated, and the person having the largest utterance amount is determined as the conversation leader. Leaders can be identified.
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
図1を参照して、この実施例の会話判別装置10はPCあるいはワークステーションのようなコンピュータ12を含む。コンピュータ12には、複数のウェアラブルセンサ(以下、単に「センサ」という。)14、複数のタグリーダ16およびデータベース18が接続される。ただし、センサ14は、無線通信により、直接的(またはネットワークを介して間接的)にコンピュータ12に接続される。このセンサ14は、主として音声を検出するためのセンサであり、後述するように、声帯振動マイクのようなマイク152を含む。このマイク152は、ユーザの喉に装着され、当該ユーザの音声を収集する。ただし、マイク152としては、単一指向性マイクを用いることもできる。
Referring to FIG. 1, a
タグリーダ16は、ユーザに装着されるタグ20が発信する固有の識別情報を検出し、検出した識別情報をコンピュータ12に入力する。ここで、タグ20は、周波数タグないしはIRタグであり、使用するタグの種類に応じたタグリーダ16が設けられる。後述するように、1のセンサ14および1のタグ20はユーザに装着され、当該センサ14および当該タグ20は1対1で(固定的に)対応づけられている。データベース18は、後述するように、センサ14から入力された発話情報とタグリーダ16から入力されたセンサ情報とを管理するとともに、コンピュータ12によって判別された会話先導者の情報(会話先導者情報)を管理(記憶)する(図6参照)。
The
また、会話状態判別装置10には、必要に応じて出力装置22が接続される。厳密に言うと、出力装置22はコンピュータ12に接続される。この出力装置22は、たとえばCRTあるいはLCDのようなディスプレイである。
Further, an
図2は、図1に示したセンサ14の具体的な構成を示すブロック図である。この図2を参照して、センサ14は、筐体140を含み、筐体140内部にはCPU142が設けられる。このCPU142には、A/D変換器144、メモリ146、無線LAN148および時計回路150が接続される。また、A/D変換器144には、筐体140外部に配置されるマイク(声帯振動マイク)152が接続される。
FIG. 2 is a block diagram showing a specific configuration of the
なお、メモリ146としては、半導体メモリを用いることができ、また、ハードディスク、MD、MO、CDおよびDVDのようなディスク記録媒体を用いることもできる。
As the
このような構成のセンサ14は、ユーザに装着され、マイク152から入力された音声信号は、A/D変換器144によってディジタル変換され、ディジタル変換された音声データはCPU142に与えられる。CPU142は、音声データを解析することにより、実際にユーザが発話している区間(発話区間)の発話開始時刻および発話終了時刻を、時計回路150が示す現在時刻に基づいて特定し、メモリ146に形成されたテーブル146t(図3参照)に記憶する。CPU142は、メモリ146に記憶されたテーブル146tを、所定時間(たとえば、10分)毎に無線LAN148を介してコンピュータ12に入力する。
The
なお、図3に示すテーブル146tでは、たとえば、「15h02m50s」は15時2分50秒を意味する。以下、同様である。 In the table 146t shown in FIG. 3, for example, “15h02m50s” means 15: 2: 50. The same applies hereinafter.
ただし、上述したように、ユーザが装着するセンサ14とタグ20とは、固定的に対応づけられており、したがって、センサ14は、対応するタグ20の識別情報(後述する「人物No. 」)を付加したテーブル146tをコンピュータ12に入力する。
However, as described above, the
ここで、音声データの発話区間と無音区間との判別について説明する。この実施例では、所定の閾値(この実施例では、50dB)よりも大きいレベル(パワー)の部分を発話と判断し、50dB以下のパワーの部分を無音と判断するようにしてある。ただし、発話が開始されたかどうかを正確に判断するため、50dBよりも大きいパワーの部分が所定時間t1(この実施例では、50ミリ秒)検出されると、発話が開始されたと判断するようにしてある。また、無音区間を検出すると、当該無音区間の開始時点を発話終了時点(発話終了時刻)と判断する。ただし、ユーザの息継ぎ(ブレス)などによる休止(ポーズ)を無音区間と判断しないように、50dB以下のパワーであり、その状態が所定時間t2(たとえば、300ミリ秒)以上続いた場合に、無音区間と判断するようにしてある。 Here, discrimination between the speech section and the silent section of the voice data will be described. In this embodiment, a portion having a level (power) larger than a predetermined threshold (50 dB in this embodiment) is determined as an utterance, and a portion having a power of 50 dB or less is determined as silence. However, in order to accurately determine whether or not the utterance has been started, it is determined that the utterance has started when a portion with a power greater than 50 dB is detected for a predetermined time t1 (in this embodiment, 50 milliseconds). It is. When a silent section is detected, the start time of the silent section is determined as the utterance end time (utterance end time). However, in order not to determine a pause (pause) due to a user's breathing (breath) or the like as a silent interval, the power is 50 dB or less, and if the state continues for a predetermined time t2 (for example, 300 milliseconds) or more, silence is generated. It is determined to be a section.
具体的には、センサ14に設けられるCPU142は、図4に示す発話検出処理を実行する。ただし、CPU142は、この発話検出処理と並行して、音声データの記録処理も実行している。
Specifically, the
図4に示すように、CPU142は発話検出処理を開始すると、ステップS1で、発話が開始されたか否かを判断する。50dB以上の音量の音声が50ミリ秒継続すると、発話が開始されたとみなし、ステップS1で“YES”となり、ステップS3で、時計回路150が示す現在時刻から50ミリ秒だけ遡った時刻を発話開始時刻として、テーブル146tに記憶する。
As shown in FIG. 4, when starting the speech detection process, the
ステップS5では、発話が終了したかどうかを判断する。50dB以上の音量の音声が入力されない期間が300ミリ秒以上継続すると、発話が終了したとみなし、ステップS7に進む。ステップS7では、時計回路150が示す現在時刻から300ミリ秒だけ遡った時刻を発話終了時刻として、テーブル146tに記憶する。ステップS7の処理を終了すると、ステップS1に戻る。
In step S5, it is determined whether the utterance has ended. If the period during which sound with a volume of 50 dB or more is not input continues for 300 milliseconds or more, it is considered that the speech has ended, and the process proceeds to step S7. In step S7, the time lapsed by 300 milliseconds from the current time indicated by the
なお、図3のテーブル146tを参照して分かるように、この実施例では、簡単のため、1秒未満については省略してある。 As can be seen with reference to the table 146t of FIG. 3, in this embodiment, for the sake of simplicity, less than one second is omitted.
図1に示したような構成の会話状態判別装置10は、たとえば会議室および展示会場が設けられるような建物内に配置される。ただし、このような建物内に限定される必要はなく、会話が起こり得る場に当該会話状態判別装置10を適用することができる。図5に示すように、タグリーダ16は、会議室或いは展示会場のような場所(ここでは、場所A、BおよびC)にそれぞれ配置され、場所A、BおよびCに存在する人物(ユーザ)をそれぞれ認識する。つまり、上述したように、ユーザは、センサ14およびタグ20を装着し、したがって、タグリーダ16は自身の検出範囲内(図5の点線枠内)に存在するユーザが装着するタグ20の識別情報(以下、「人物No. 」ということがある。)を検出する。タグリーダ16は、一定時間(この実施例では、1秒)毎に、タグ20の検出処理を実行し、検出した人物No. に自身に割り当てられた識別情報(以下、「センサ情報」ということがある。)を付加して、コンピュータ12に入力する。この実施例では、分かり易くするために、場所Aに配置されるタグリーダ16にはセンサ情報Aが割り当てられ、場所Bに配置されるタグリーダ16にはセンサ情報Bが割り当てられ、そして、場所Cに配置されるタグリーダ16にはセンサ情報Cが割り当てられているものとしてある。また、ユーザの音声がセンサ14で検出され、上述したように作成されたテーブル146tがコンピュータ12に入力される。
The conversation
なお、詳細な説明は省略するが、場所Bおよび場所Cにおいても同様である。また、図5においては、簡単のため、コンピュータ12、センサ14およびデータベース18は省略してある。さらに、図5においては、図面の都合上、場所Bおよび場所Cに存在するユーザも省略してある。
Although the detailed description is omitted, the same applies to the places B and C. In FIG. 5, the
また、この実施例では、3箇所(場所A,BおよびC)にタグリーダ16が配置され、各場に存在するユーザおよびその発話情報を検出するようにしてあるが、当該場所は少なくとも1つ存在すればよく、さらに、4箇所以上であってもよい。
In this embodiment,
図6は、図1に示したデータベース18の内容を示す図解図である。データベース18は、滞在情報記憶領域30、発話情報記憶領域32および会話先導者情報記憶領域34を含む。滞在情報記憶領域30は、滞在情報についてのテーブル30tを記憶し、このテーブル30tは図7のように示される。テーブル30tは、タグ20の識別情報(人物No.)に対応して、センサ情報、入場時刻および退場時刻が記憶される。タグリーダ16からセンサ情報が付加された人物No. 入力されたとき、コンピュータ12は、その時点における時刻を時計回路12aから取得し、取得した時刻を入場時刻として、人物No. およびセンサ情報とともに、テーブル30tに登録(追加)する。したがって、図7からも分かるように、入場時刻が早い順に、人物No. およびセンサ情報がテーブル30tに登録されている。また、コンピュータ12は、人物No.およびセンサ情報がタグリーダ16から入力されなくなると、その時点における時刻を時計回路12aから取得し、該当する項目に、退場時刻として時刻を書き込む。このような滞在情報のテーブル30tを参照することにより、或る時間(時間帯)に、場所A、BおよびCのそれぞれに存在(滞在)していたユーザ(人物No. )を特定(認識)することができる。
FIG. 6 is an illustrative view showing the contents of the
また、発話情報記憶領域32には、発話情報についてのテーブル32tが記憶される。図8に示すように、このテーブル32tは、人物No. に対応して発話区間を規定する発話開始時刻およびそれに対応する発話終了時刻が記憶される。このテーブル32tは、ウェアラブルセンサ14から入力されるテーブル146t(図3)をユーザ(人物No. )毎に記憶したものである。つまり、コンピュータ12は、センサ14から入力される人物No. が付加されたテーブル146tに基づいてテーブル32tを作成するのである。
In the utterance
会話先導者情報記憶領域34には、会話先導者情報のテーブル34tが記憶される。このテーブル34tは、後で詳細に説明する会話先導者判別処理(図11および図12参照)によって作成される。具体的には、図9に示すように、各場所(センサ情報)に対応して、或る時間帯毎に判別された会話先導者の人物No. が記憶され、さらに、会話先導者が直前の時間帯から継続(維持)しているか、または、変更しているかの情報(会話先導者維持/変更情報)が記憶される。たとえば、センサ情報A(場所A)においては、15時1秒〜15時10分の間では会話先導者が人物No.8のユーザであり、次の15時10分1秒〜15時20分の間では、会話先導者が人物No.9のユーザであることが分かる。この人物No.9のユーザが会話先導者として判別されたとき、会話先導者が変更されたことも分かる。さらに次の15時20分1秒〜15時30分の間では、会話先導者は人物No.9のユーザであり、直前の時間帯から会話先導者が維持されていることが分かる。また、後で詳細に説明するが、センサ情報Bについての会話先導者の判別結果が示すように、時間帯(15時20分1秒〜15時30分の間)によっては、会話先導者が存在しない(会話先導者なし)と判断される場合もある。
In the conversation leader
なお、会話先導者維持/変更情報の欄が空欄になっているのは、会話先導者の維持および変更のいずれにも該当しないことを意味する。 Note that a blank in the conversation leader maintenance / change information column means that the conversation leader maintenance / change is not applicable.
たとえば、会話先導者は、各場所(場所A,B,C)で、時間帯(たとえば、10分=600秒)毎に判別される。なお、会話先導者の判別方法は、いずれの場所においても同じであるため、場所Aについて説明し、場所Bおよび場所Cについての説明は省略することにする。 For example, the conversation leader is determined every time zone (for example, 10 minutes = 600 seconds) at each location (location A, B, C). Since the method for determining the conversation leader is the same at any place, place A will be described, and description of place B and place C will be omitted.
コンピュータ12は、会話先導者を判別する時間帯を設定すると、当該時間帯において場所Aに存在していたユーザを抽出する。つまり、当該時間帯に、センサ情報Aが記述された人物No. を抽出する。具体的には、図7に示したテーブル30tを参照して、人物No. を抽出する。たとえば、時間帯が15時1秒〜15時10分の間に設定された場合には、当該時間帯にセンサ情報Aを示す人物No. が抽出される。図7に示すテーブル30tでは、人物No. 3,5,8および9が抽出されることになる。
When the
次に、コンピュータ12は、抽出した各人物No. に対応するユーザの当該時間帯における発話産出率をそれぞれ計算する。ここで、発話産出率は、設定された時間帯(ここでは、600秒)における発話量(全発話区間)の割合であり、数1に従って算出される。
Next, the
[数1]
発話産出率(%)=全発話区間÷時間帯×100
ただし、発話量すなわち全発話区間は、当該時間帯に含まれる発話区間の総計であり、図8に示した発話情報のテーブル32tを参照して求められる。図8を参照して、たとえば、人物No. 1のユーザについて考えると、当該ユーザは、15時1秒〜15時10分の間では、15時2分50秒から15時4分10秒までの80秒間と、15時6分10秒から15時6分40秒までの30秒間とで発話している。したがって、この場合の全発話区間は110秒であり、当該ユーザの発話産出率は、数1に従って求めると、約18.3%となる。
[Equation 1]
Utterance production rate (%) = total utterance interval ÷ time slot × 100
However, the utterance amount, that is, the total utterance interval, is the total of the utterance intervals included in the time zone, and is obtained with reference to the utterance information table 32t shown in FIG. Referring to FIG. 8, for example, when considering the user of person No. 1, the user is from 15: 2: 50 to 15: 4: 10 between 15: 1 and 15:10. For 80 seconds and 30 seconds from 15: 6: 10 to 15: 6: 40. Therefore, the total utterance period in this case is 110 seconds, and the utterance production rate of the user is about 18.3% when calculated according to
このようにして、発話産出率を計算した結果が、たとえば、図10のように示される。つまり、上述したように、抽出した人物No. 3,5,8および9では、当該時間帯における発話産出率が、それぞれ、20%,10%,80%および60%である。
The result of calculating the utterance production rate in this way is shown, for example, in FIG. That is, as described above, in the extracted
この発話産出率に基づいて会話先導者を判別するのであるが、単純な方法によれば、最大の発話産出率に対応するユーザを会話先導者として判別することができる。つまり、図10に示す例で言えば、最大の発話産出率は80%であり、当該時間帯における会話先導者は、人物No. 8のユーザに決定することができる。ただし、会話先導者を正確に判別するために、以下のような2つの条件を設定してある。条件(1)は、発話産出率が所定の率(たとえば、60%)で以上であること。条件(2)は、条件(1)を満たす発話産出率が2以上存在する場合には、それらの発話産出率の中でばらつきがあること。具体的には、各発話産出率の差が、一定数(たとえば、10%)以上あること。 The conversation leader is discriminated based on the utterance production rate, but according to a simple method, the user corresponding to the maximum utterance production rate can be discriminated as the conversation leader. That is, in the example shown in FIG. 10, the maximum utterance production rate is 80%, and the conversation leader in the time zone can be determined as the user of the person No. 8. However, in order to accurately determine the conversation leader, the following two conditions are set. Condition (1) is that the utterance production rate is equal to or higher than a predetermined rate (for example, 60%). If there are two or more utterance production rates that satisfy the condition (1), the condition (2) must be varied among the utterance production rates. Specifically, the difference between the utterance production rates is a certain number (for example, 10%) or more.
条件(1)については、最大の発話産出率を選択した場合に、当該発話産出率が所定の率よりも小さければ、発話した時間の長さが短く、会話先導者として判別するのは適切ではないと考えられるからである。 Regarding the condition (1), when the maximum utterance production rate is selected, if the utterance production rate is smaller than the predetermined rate, the length of the utterance time is short, and it is appropriate to discriminate as the conversation leader. It is because it is thought that there is not.
また、条件(2)については、所定の率を超える発話産出率が2以上ある場合には、2人以上のユーザが会話先導者の候補と考えられ、それらにばらつきがなければ、いずれのユーザを会話先導者として判別すべきであるかを決定することができないからである。 As for condition (2), if there are two or more utterance production rates exceeding a predetermined rate, two or more users are considered to be conversation leader candidates, and if there is no variation, any user This is because it cannot be determined whether or not should be determined as a conversation leader.
このような条件に従えば、図10に示した例では、条件(1)を満たすのは、人物No. 8および9であり、これらの発話産出率は条件(2)を満たしている。したがって、発話産出率が最大である人物No. 8のユーザが会話先導者として判別される。会話先導者が判別されると、図9に示したように、センサ情報および時間帯に対応して、当該会話先導者の人物No. が示す数値がテーブル34tに書き込まれる。さらに、直前の時間帯における会話先導者の人物No. つまり前回の判別結果が示す人物No. と、今回の判別結果が示すNo. とが一致するか否かが判断される。それらが一致する場合には、会話先導者が継続していると判断して、会話先導者維持/変更情報の欄に、“維持”が書き込まれ、逆に不一致である場合には、会話先導者が変更したと判断して、“変更”が書き込まれる。 According to such a condition, in the example shown in FIG. 10, it is the persons No. 8 and 9 that satisfy the condition (1), and these utterance production rates satisfy the condition (2). Therefore, the user of the person No. 8 with the highest utterance production rate is determined as the conversation leader. When the conversation leader is determined, as shown in FIG. 9, the numerical value indicated by the person number of the conversation leader is written in the table 34t corresponding to the sensor information and the time zone. Further, it is determined whether or not the person number of the conversation leader in the immediately preceding time zone, that is, the person number indicated by the previous discrimination result, matches the No. indicated by the current discrimination result. If they match, it is determined that the conversation leader is continuing, “Continue” is written in the conversation leader maintenance / change information column, and conversely, if they do not match, the conversation leader It is determined that the user has changed, and “change” is written.
ただし、条件(1)および条件(2)を満たさない場合には、当該場においては、当該時間帯には、会話先導者がいないと判断される。この場合には、図9に示したように、センサ情報および時間帯に対応して、会話先導者の人物No. の欄に“なし”が書き込まれる。このとき、会話先導者維持/変更情報の欄には、何も書き込まれない。 However, if the conditions (1) and (2) are not satisfied, it is determined that there is no conversation leader in the time zone. In this case, as shown in FIG. 9, “None” is written in the column of the conversation leader person number corresponding to the sensor information and the time zone. At this time, nothing is written in the column of conversation leader maintenance / change information.
具体的には、図1に示したコンピュータ12が図11および図12に示す会話先導者判別処理を実行する。なお、この実施例では、上述したように、各場所(A,B,C)における或る時間帯毎に会話先導者を判別するため、以下に説明する会話先導者判別処理は、当該場所毎に実行される。
Specifically, the
コンピュータ12は会話先導者判別処理を開始すると、ステップS11で、所定の時間間隔(この実施例では、10分=600秒)の時間帯を設定する。ここでは、たとえば、図9に示したように、15時1秒〜15時10分(「15h00m01s/15h10m00s」)のように時間帯を設定する。続くステップS13では、判別回数Nを初期化(N=0)する。この判別回数Nは、会話先導者を判別した回数であり、図1では省略したが、コンピュータ12の内部カウンタによってカウントされる。
When the
続いて、ステップS15で、当該時間帯において、会話先導者を判別する場所に対応するセンサ情報が記述された人物No.を抽出する。次に、ステップS17では、当該時間帯における人物の発話産出率を数1に従って計算する。そして、ステップS19では、所定の率(ここでは、60%)を超えるユーザ(人物No. )が存在するかどうかを判断する。
Subsequently, in step S15, a person number in which sensor information corresponding to the place where the conversation leader is determined is extracted in the time period. Next, in step S17, the utterance production rate of the person in the time zone is calculated according to
ステップS19で“NO”であれば、つまり所定の率を超えるユーザが存在しなければ、条件(1)を満たす発話産出率は存在しないと判断し、ステップS21で、会話先導者なしをテーブル34tに書き込み、図12に示すステップS31に進む。一方、ステップS19で“YES”であれば、つまり所定の率を超えるユーザ(人物No. )が存在すれば、条件(1)を満たす発話産出率が存在すると判断し、ステップS23で、当該人物No. を分析対象者として抽出する。そして、ステップS25で、抽出した発話産出率の中で、ばらつきがあるかどうかを判断する。 If “NO” in the step S19, that is, if there is no user exceeding the predetermined rate, it is determined that there is no utterance production rate that satisfies the condition (1), and in step S21, there is no conversation leader in the table 34t. The process proceeds to step S31 shown in FIG. On the other hand, if “YES” in the step S19, that is, if there is a user (person No.) exceeding a predetermined rate, it is determined that there is an utterance production rate that satisfies the condition (1), and in step S23 the person concerned Extract No. as the subject of analysis. In step S25, it is determined whether there is any variation in the extracted utterance production rate.
ただし、ステップS23において抽出された発話産出率が1つである場合には、ステップS25の判断処理は実行されずに、そのままステップS27に移行する。 However, when the utterance production rate extracted in step S23 is one, the determination process in step S25 is not executed and the process proceeds to step S27 as it is.
ステップS25で“NO”であれば、つまり抽出した発話産出率の中で、ばらつきがなく、条件(2)を満たさないと判断すると、ステップS21に進む。一方、ステップS25で“YES”であれば、つまり抽出した発話産出率の中で、ばらつきがあり、条件(2)を満たすと判断すると、ステップS27で、抽出した分析対象者のうち、発話産出率が最大の人物No. を会話先導者として判別(決定)する。そして、図12に示すステップS29で、決定した会話先導者の人物No. をテーブル34tの該当欄に書き込み、ステップS31に進む。 If “NO” in the step S25, that is, if it is determined that there is no variation in the extracted speech production rate and the condition (2) is not satisfied, the process proceeds to a step S21. On the other hand, if “YES” in the step S25, that is, if it is determined that there is a variation in the extracted utterance production rate and the condition (2) is satisfied, the utterance production among the extracted analysis subjects in the step S27. The person with the highest rate is identified (determined) as the conversation leader. In step S29 shown in FIG. 12, the determined conversation leader person number is written in the corresponding field of the table 34t, and the process proceeds to step S31.
ステップS31では、判別回数Nを1加算し、つまり内部カウンタをインクリメントし、ステップS33で、判別回数Nが2以上であるかどうかを判断する。ステップS33で“NO”であれば、つまり判別回数Nが1であり、初めて会話先導者を判別した場合には、そのままステップS41に進む。一方、ステップS33で“YES”であれば、つまり判別回数Nが2以上であれば、2回目以降の会話先導者の判別であると判断し、ステップS35で、今回判別した会話先導者が前回判別した会話先導者と同じ人物であるかどうかを判断する。つまり、テーブル34tを参照して、前回の判別結果の人物No. と今回の判別結果の人物No. とが一致するかどうかを判断する。 In step S31, the determination number N is incremented by 1, that is, the internal counter is incremented. In step S33, it is determined whether the determination number N is 2 or more. If “NO” in the step S33, that is, the determination number N is 1, and when the conversation leader is determined for the first time, the process proceeds to a step S41 as it is. On the other hand, if “YES” in the step S33, that is, if the determination number N is 2 or more, it is determined that the second or subsequent conversation leader is determined, and in step S35, the conversation leader determined this time is the previous time. It is determined whether or not the same person as the determined conversation leader. That is, referring to the table 34t, it is determined whether or not the person No. in the previous determination result matches the person No. in the current determination result.
ステップS35で“YES”であれば、つまり前回判別した会話先導者と今回判別した会話先導者とが同じ人物であれば、ステップS37で、テーブル34tの会話先導者維持/変更情報の欄に “維持”を書き込み、ステップS41に進む。一方、ステップS35で“NO”であれば、つまり前回判別した会話先導者と今回判別した会話先導者とが異なる人物であれば、ステップS39で、テーブル34tの会話先導者維持/変更情報の欄に“変更”を書き込み、ステップS41に進む。 If “YES” in the step S35, that is, if the conversation leader determined last time and the conversation leader determined this time are the same person, in the step S37, the column of the conversation leader maintenance / change information in the table 34t is displayed. "Maintain" is written, and the process proceeds to step S41. On the other hand, if “NO” in the step S35, that is, if the conversation leader determined last time is different from the conversation leader determined this time, the conversation leader maintenance / change information column of the table 34t in the step S39. "Change" is written in the field, and the process proceeds to step S41.
ステップS41では、次の時間帯を設定し、図11に示したステップS17に戻る。たとえば、ステップS41では、次の時間帯として、15時10分1秒〜15時20分が設定される。 In step S41, the next time zone is set, and the process returns to step S17 shown in FIG. For example, in step S41, 15: 10: 1 to 15:20 is set as the next time zone.
このような処理を繰り返すことにより、或る場(場所A,BまたはC)における時間帯毎の会話先導者を判別することができるのである。 By repeating such processing, the conversation leader for each time zone in a certain place (place A, B or C) can be determined.
なお、この会話先導者判別処理では、会話先導者を判別する場所には、複数のユーザが存在することを前提として、ステップS15で、人物No. を抽出すると、そのままステップS17に進むようにしてある。しかし、ステップS15において、抽出された人物No. が1つ以下である場合、つまりユーザが1人以下である場合には、会話が成立しないため、会話先導者を判別することはできない。したがって、ステップS15とステップS17との間に、人物No. が2つ以上在るかどうかを判断するステップ(処理)を設けて、人物No. が2つ以上存在する場合には、ステップS17に進み、人物No. が1つ以下の場合には、ステップS23に進むようにしてもよい。 In this conversation leader discrimination process, assuming that there are a plurality of users in the place where the conversation leader is discriminated, if the person number is extracted in step S15, the process proceeds directly to step S17. However, in step S15, when the extracted person number is 1 or less, that is, when the number of users is 1 or less, since the conversation is not established, the conversation leader cannot be determined. Therefore, a step (process) for determining whether or not there are two or more person numbers is provided between step S15 and step S17. If there are two or more person numbers, the process proceeds to step S17. If the number of persons is one or less, the process may proceed to step S23.
また、図1に示したように、表示装置22をコンピュータ12に接続した場合には、たとえば、図13に示すような会話先導者の判別結果を、表示装置22に表示することができる。図13では、15時(厳密には、15時1秒)〜15時10分の間では、場所Aの会話先導者は人物No.8のユーザであり、場所Bでは人物No.1のユーザが会話先導者であり、場所Cにおいては会話先導者が存在しなかったことを示してある。
As shown in FIG. 1, when the
この実施例によれば、或る場に存在するユーザの音声信号を検出し、或る時間帯における各ユーザの発話産出率を計算し、所定の率を超える発話産出率のうち最大の発話産出率となるユーザを会話先導者として判別するので、正確に会話先導者を判別することができる。 According to this embodiment, the voice signal of a user existing in a certain place is detected, the utterance production rate of each user in a certain time zone is calculated, and the maximum utterance production out of the utterance production rates exceeding a predetermined rate. Since the user who becomes the rate is determined as the conversation leader, the conversation leader can be accurately determined.
なお、この実施例では、或る時間帯における発話産出率を計算して、この発話産出率に基づいて、条件(1)および条件(2)を満たす発話産出率の中で最大の発話産出率のユーザを会話先導者として判別するようにした。しかし、或る時間帯における発話量(発話時間)に基づいて、会話先導者を判別するようにしてもよい。かかる場合には、条件(1)における所定の率(発話産出率)を所定の量(発話量)とし、条件(2)におけるばらつきすなわち発話産出率の差の数値を発話量の差の数値とすればよい。 In this embodiment, the utterance production rate in a certain time zone is calculated, and the maximum utterance production rate among the utterance production rates satisfying the conditions (1) and (2) based on the utterance production rate. Were identified as conversation leaders. However, the conversation leader may be determined based on the amount of speech (speech time) in a certain time zone. In such a case, the predetermined rate (utterance production rate) in the condition (1) is set as a predetermined amount (utterance amount), and the variation in the condition (2), that is, the numerical value of the difference in the speech production rate is the numerical value of the difference in speech production do it.
また、この実施例では、会話先導者を判別するだけであるため、ユーザの音声信号は記録しないようにしたが、音声信号も記録するようにしておけば、会話先導者を判別した後に、判別された会話先導者の音声信号に基づいて、その時間帯において当該会話先導者が存在していた場の会話状態を判別することができる。このような会話状態の判別装置や方法については、本件出願人が先に出願した特願2004−3976号に詳細に説明されており、本件の本質的部分ではないため、その説明は省略することにする。 In this embodiment, since only the conversation leader is determined, the user's voice signal is not recorded. However, if the voice signal is also recorded, after the conversation leader is determined, the determination is made. Based on the voice signal of the conversation leader, the conversation state of the place where the conversation leader was present in that time zone can be determined. Such a conversation state discriminating apparatus and method are described in detail in Japanese Patent Application No. 2004-3976 filed earlier by the applicant of the present application and are not an essential part of the present application. To.
10 …会話先導者判別装置
12 …コンピュータ
14 …ウェアラブルセンサ
16 …タグリーダ
18 …データベース
20 …タグ
22 …出力装置
142 …CPU
146 …メモリ
152 …マイク
DESCRIPTION OF
146 ...
Claims (3)
前記2人以上の人物の各々についての音声を収集するための複数のマイク、
当該場に存在する人物を個別に認識する個人認識手段、
前記マイクの出力に基づいて、前記個人認識手段によって認識された各人物の或る時間帯における発話量を算出する算出手段、
前記算出手段によって算出された各人物についての発話量のうち、所定値を超える発話量を有する人物を抽出する抽出手段、
前記抽出手段によって抽出された人物が複数人存在するとき、当該抽出された人物についての発話量の差に基づいて発話量のばらつきの有無を判断する判断手段、および
前記判断手段によってばらつきが無いことが判断されたとき、会話の先導者が存在しないことを判別し、前記判断手段によってばらつきが有ることが判断されたとき、前記発話量が最大となる発話量の人物を会話の先導者として判別する先導者判別手段を備える、会話先導者判別装置。 A conversation leader discriminating apparatus for discriminating a leader of a conversation between two or more persons existing in a certain place,
A plurality of microphones for collecting audio for each of the two or more persons;
Individual recognition means for individually recognizing a person existing in the place,
Calculation means for calculating the amount of speech in a certain time zone of each person recognized by the personal recognition means based on the output of the microphone ;
Extraction means for extracting a person having an utterance amount exceeding a predetermined value out of the utterance amount for each person calculated by the calculation means;
Determining means for determining whether or not there is a variation in the utterance amount based on a difference in utterance amount for the extracted person when there are a plurality of persons extracted by the extracting means; and
When it is determined by the determination means that there is no variation, it is determined that there is no leader of the conversation, and when it is determined by the determination means that there is variation, the utterance amount that maximizes the utterance amount A conversation leader discriminating device comprising a leader discriminating means for discriminating a person as a conversation leader.
(a)前記2人以上の人物の各々についての音声を収集し、
(b)当該場に存在する人物を個別に認識し、
(c)前記ステップ(a)によって収集された音声に基づいて、前記ステップ(b)によって認識された各人物の或る時間帯における発話量を算出し、
(d)前記ステップ(c)によって算出された各人物についての発話量のうち、所定値を超える発話量を有する人物を抽出し、
(e)前記ステップ(d)によって抽出された人物が複数人存在するとき、当該抽出された人物についての発話量の差に基づいて発話量のばらつきの有無を判断し、そして
(f)前記ステップ(e)によってばらつきが無いことが判断されたとき、会話の先導者が存在しないことを判別し、前記判断手段によってばらつきが有ることが判断されたとき、前記発話量が最大となる発話量の人物を会話の先導者として判別する、会話先導者判別方法。 A conversation leader discriminating method for discriminating a leader of a conversation between two or more persons existing in a certain place,
(a) collecting audio for each of the two or more persons,
(b) Recognize the person who exists in the place individually,
(c) Based on the voice collected in step (a), the amount of speech in a certain time zone of each person recognized in step (b) is calculated ,
(d) Out of the utterance amount for each person calculated in the step (c), a person having an utterance amount exceeding a predetermined value is extracted,
(e) When there are a plurality of persons extracted by the step (d), determine the presence or absence of variation in the amount of speech based on the difference in the amount of speech for the extracted person, and
(f) When it is determined in step (e) that there is no variation, it is determined that there is no conversation leader, and when the determination means determines that there is variation, the utterance amount is maximum. The conversation leader discriminating method which discriminate | determines the person of the utterance amount used as a conversation leader.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084420A JP4183645B2 (en) | 2004-03-23 | 2004-03-23 | Conversation leader discriminating apparatus and conversation leader discriminating method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084420A JP4183645B2 (en) | 2004-03-23 | 2004-03-23 | Conversation leader discriminating apparatus and conversation leader discriminating method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005275536A JP2005275536A (en) | 2005-10-06 |
JP4183645B2 true JP4183645B2 (en) | 2008-11-19 |
Family
ID=35175182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004084420A Expired - Fee Related JP4183645B2 (en) | 2004-03-23 | 2004-03-23 | Conversation leader discriminating apparatus and conversation leader discriminating method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4183645B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5302505B2 (en) * | 2006-12-04 | 2013-10-02 | 日本電気株式会社 | Dialog status separation estimation method, dialog status estimation method, dialog status estimation system, and dialog status estimation program |
JP5067435B2 (en) * | 2010-02-26 | 2012-11-07 | 日本電気株式会社 | Conversation management system and management server |
JP5533219B2 (en) * | 2010-05-11 | 2014-06-25 | セイコーエプソン株式会社 | Hospitality data recording device |
JP6440967B2 (en) * | 2014-05-21 | 2018-12-19 | 日本電信電話株式会社 | End-of-sentence estimation apparatus, method and program thereof |
JP7279928B2 (en) * | 2019-03-14 | 2023-05-23 | ハイラブル株式会社 | Argument analysis device and argument analysis method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143912A (en) * | 1997-09-08 | 1999-05-28 | Fujitsu Ltd | Related document display device |
JP2002251393A (en) * | 2001-02-22 | 2002-09-06 | Ricoh Co Ltd | Recording device, recording method, program, recording medium and recording/reproducing system |
JP2002344915A (en) * | 2001-05-14 | 2002-11-29 | Nippon Telegr & Teleph Corp <Ntt> | Communication grasping device, and its method |
JP3364487B2 (en) * | 2001-06-25 | 2003-01-08 | 隆義 山本 | Speech separation method for composite speech data, speaker identification method, speech separation device for composite speech data, speaker identification device, computer program, and recording medium |
JP2003233296A (en) * | 2002-02-08 | 2003-08-22 | Waseda College Of Medical Arts & Sciences | Virtual space system, method for controlling the same, and controlling program operating on computer |
-
2004
- 2004-03-23 JP JP2004084420A patent/JP4183645B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005275536A (en) | 2005-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Speakersense: Energy efficient unobtrusive speaker identification on mobile phones | |
US10068588B2 (en) | Real-time emotion recognition from audio signals | |
US8423369B2 (en) | Conversational speech analysis method, and conversational speech analyzer | |
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
JP5024154B2 (en) | Association apparatus, association method, and computer program | |
CN112102850B (en) | Emotion recognition processing method and device, medium and electronic equipment | |
JP5332798B2 (en) | COMMUNICATION CONTROL DEVICE, COMMUNICATION CONTROL METHOD, AND COMMUNICATION CONTROL PROGRAM | |
JP6585733B2 (en) | Information processing device | |
JP2011253374A (en) | Information processing device, information processing method and program | |
KR102628211B1 (en) | Electronic apparatus and thereof control method | |
WO2020013296A1 (en) | Apparatus for estimating mental/neurological disease | |
JP2015184378A (en) | Pattern identification device, pattern identification method, and program | |
JP4183645B2 (en) | Conversation leader discriminating apparatus and conversation leader discriminating method | |
JP4631464B2 (en) | Physical condition determination device and program thereof | |
JP6239826B2 (en) | Speaker recognition device, speaker recognition method, and speaker recognition program | |
JP2019124952A (en) | Information processing device, information processing method, and program | |
Vacher et al. | Speech and sound use in a remote monitoring system for health care | |
US10930283B2 (en) | Sound recognition device and sound recognition method applied therein | |
WO2018109120A1 (en) | Children monitoring system | |
EP3316151A1 (en) | A method and system for inferring mood and emotions from signals captured by a mobile device | |
JP7436804B2 (en) | Information processing device and program | |
JP4408665B2 (en) | Speech recognition apparatus for speech recognition, speech data collection method for speech recognition, and computer program | |
JP2005196025A (en) | Device and program for discriminating conversation state | |
KR102444834B1 (en) | Method and appratus for estimating driver intention using driver's voice | |
Frešer et al. | An Elderly-Care System Based on Sound Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080520 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080902 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080902 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110912 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120912 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |