JP2005274680A - 会話分析方法、会話分析装置、および会話分析プログラム - Google Patents

会話分析方法、会話分析装置、および会話分析プログラム Download PDF

Info

Publication number
JP2005274680A
JP2005274680A JP2004084514A JP2004084514A JP2005274680A JP 2005274680 A JP2005274680 A JP 2005274680A JP 2004084514 A JP2004084514 A JP 2004084514A JP 2004084514 A JP2004084514 A JP 2004084514A JP 2005274680 A JP2005274680 A JP 2005274680A
Authority
JP
Japan
Prior art keywords
conversation
data
speaker
participant
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004084514A
Other languages
English (en)
Inventor
Katsuya Takanashi
克也 高梨
Ikuyo Morimoto
郁代 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2004084514A priority Critical patent/JP2005274680A/ja
Publication of JP2005274680A publication Critical patent/JP2005274680A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】次の発言者となる可能性が高い人物を特定する会話分析方法を提供する。
【解決手段】入力部100とバッファ105と分析部110とを有する会話分析装置1を用いて、会話における各発言者の音声データを分析して文章データを取得する会話分析方法において、入力部100が外部から三者以上による会話の音声データを入力する工程と、バッファ105が会話の音声データを格納する工程と、分析部110が、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程とを有することを特徴とする。
【選択図】図1

Description

この発明は、会話における音声データを分析して文章データを取得する会話分析方法に関するものである。
会話における音声データを分析して文章データを取得する会話分析方法は、様々なシステムや装置に利用されており、例えば、特許文献1に示されるような議事録作成システムや、特許文献2に示されるようなテレビ会議システム、特許文献3に示されるような玩具装置などに利用されている。
従来の会話分析方法は、具体的には以下のようなものである。すなわち、例えば特許文献1に開示されているように、まず、会話における音声データを収集する。次に、会話の音声データの中から発言者の音声データを抽出する。発言者の音声データの抽出は、音声データの中から音声の特徴を特に多く含む周波数帯域を抽出し、その音量が所定の閾値以上の区間(すなわち、音量が当該閾値以上になってから当該閾値以下になるまでの区間)を検出し、検出した区間に相当する音声データを抽出することによって行われる。次に、抽出した発言者の音声データに基づいて、音声データと同音の表音文字を割り当てて、音声テキストデータを作成する。次に、音声テキストデータに単語を割り当てて、文章データを取得する。
特開2000−112931号公報 特開2002−330412号公報 特開平09−6389号公報
会話の参加者には、発言者(speaker)と聞き手(audience)とがいる。また、三者会話の聞き手には、発言者から見た直接の話相手である受け手(addressee)と、受け手以外の傍参加者(side-participant)とがいる。発言者は、すべての聞き手である受け手と傍参加者が理解できるように、発言する必要がある。そこで、発言者は、すべての聞き手に、受け手としての役割または傍参加者としての役割のいずれかを割り当てて、各聞き手の知識レベル(すなわち、受け手の知識レベルと傍参加者の知識レベル)を考慮して聞き手デザイン(audience design)を構成し、聞き手デザインに基づいて発言する。なお、聞き手デザインとは、ここでは、発言者から聞き手に伝達するデータを意味している。
このような三者会話では、聞き手が常に二人以上のいるため、現在の非発言者が次のターンにおける発言者(以下、次の発言者という)になるとは限らない。そのため、発言者は、「誰に次の発言者になって欲しいか」または「誰が次の発言者になるか」などのように、次の発言者となる人物を想定して聞き手デザインを構成している場合が多い。したがって、このような三者会話における会話の分析には、会話の流れを特定することが重要である。特に、次の発言者となる可能性が高い人物を、短時間で的確に判断することが重要である。
しかしながら、従来の会話分析方法は、二者会話における会話の分析を主としているため、次の発言者となる可能性が高い人物を特定していなかった。すなわち、従来の会話分析方法は、個々の発言者が発した音声を個別に分析するだけであった。そのため、従来の会話分析方法は、妥当性の高い文章データ(すなわち、意味が通じ易い文章データ)を取得することが困難な場合があった。
そこで、この発明は、三者会話におけるこのような特徴を利用して、次の発言者となる人物を特定する会話分析方法を提供することを目的とする。そして、係る会話分析方法を用いて、様々な動作(例えば、従来の会話分析方法よりも妥当性の高い文章データを取得する動作や、次の発言者となる可能性の高い人物による音声データだけを入力するような動作)を可能にする。
この発明に係る会話分析方法は、入力部とバッファと分析部とを有する会話分析装置を用いて、入力部が外部から三者以上による会話の音声データを入力する工程と、バッファが会話の音声データを格納する工程と、分析部が、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程を有することを特徴とする。
具体的には、分析部は、バッファに格納された会話の音声データの中から所定の短い単位から長い単位で発言者の音声データを順次切り出し、切り出した各発言者の音声データを対象にして会話の方向(すなわち、発言者から聞き手の方向)と方向の種類(例えば、三者会話における聞き手である二者の両方、または一方、または任意などの種類)と発言者または聞き手の知識レベルとを分析して会話の流れを示す複数のタグデータを算出し、出現頻度が最も多いタグデータに基づいて次の発言者となる可能性が高い人物を特定する。
この発明に係る会話分析方法は、会話の方向・方向の種類・発言者または聞き手の知識レベルなどの会話の流れを分析して次の発言者となる可能性が高い人物を特定する。そのため、従来の方法よりもさらに妥当性の高い文章データを取得することができる。
なお、この発明に係る会話分析方法は、例えば、以下のようにすることが好ましい。
例えば、分析部は、複数の系統を備え、複数の系統で、並列に、会話の流れを分析して次の発言者となる可能性が高い人物を特定することが好ましい。これにより、この発明に係る会話分析方法は、短時間で効率よく妥当性の高い文章データを取得することができる。
また、例えば、分析部は、次の発言者となる可能性が高い人物と各単語との関連性に基づいて単語の組み合わせを特定することが好ましい。これにより、この発明に係る会話分析方法は、さらに妥当性の高い文章データを取得することができる。
なお、この発明に係る会話分析方法に用いる会話分析装置は、外部から三者以上による会話の音声データを入力する入力部と、会話の音声データを格納するバッファと、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する分析部とを有する構成とする。
このような会話分析装置は、例えば、以下のようにすることが好ましい。
例えば、入力部は、発言者が発した音声を音声データとして入力部に出力する複数の端末装置と接続されており、分析部は、次の発言者となる可能性が高い人物を特定すると、特定した人物の端末装置に、音声データの出力を許可する信号を発することが好ましい。
または、例えば、入力部は、発言者が発した音声を音声データとして入力部に出力する複数の端末装置と接続されており、分析部は、次の発言者となる可能性が高い人物を特定すると、入力部に、特定した人物の端末装置から出力される音声データの入力を指示する信号を発することが好ましい。
このように構成された会話分析装置は、次の発言者となる可能性が高い人物が発した音声だけを音声データとして入力することができる。そのため、例えば多地点間で会話するテレビ会議システムなどおいて、円滑に会話することができる。
この発明に係る会話分析方法は、どの人物が、どのタイミングで、次の発言者となる可能性が高い人物になるのかを、短時間で的確に判断することができる。
この発明に係る会話分析方法は、入力部とバッファと分析部とを有する会話分析装置を用いて、入力部が外部から三者以上による会話の音声データを入力する工程と、バッファが会話の音声データを格納する工程と、分析部が、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程とを有することを特徴とする。
なお、この発明に係る会話分析方法は、前述の議事録作成システムやテレビ会議システムに限らず、会話における各発言者の音声データを分析する様々なシステムや装置に適用することができる。
以下に、図を参照してこの発明を実施するための最良の形態を説明する。なお、各図は、この発明を理解できる程度に概略的に示してあるに過ぎない。よって、この発明は図示例のみに限定されるものではない。また、各図において、共通する要素や同様な要素については、同一の符号を付し、それらの重複する説明を省略する。
会話の形態には、参加者が二者だけの会話(以下、二者会話という)と三者以上の会話(以下、三者会話という)とがある。二者会話は、聞き手が一人だけであるので、現在の聞き手が次のターンにおける発言者(以下、次の発言者という)になる。これに対し、三者会話は、聞き手が複数であるので、会話の流れによっては次の発言者が異なる。そして三者会話では、誰が次の発言者になるかによって、文章の意味が異なる場合がある。そのため、三者会話では、現在の発言者は、誰に次の発言者になって欲しいかを想定して発言する場合が多い。したがって、三者会話における会話の分析には、会話の流れが重要な要素となり、特に誰が次の発言者となるのかが重要な要素となる。
しかしながら、従来の会話分析方法は、二者会話における会話の分析を主としているため、個々の発言者が発した音声を個別に分析するだけであり、会話の流れを考慮していなかった。そのため、従来の会話分析方法は、妥当性の高い文章データ(すなわち、意味が通じ易い文章データ)を取得することが困難な場合があった。
また、各単語には多数の同音異義語が存在するとともに、一人の発言者が発した音声データに含まれるデータ量は過少な傾向にある。また、会話における音声データにはノイズが混入する場合があり、正しい音声テキストデータを作成できないときがある。そのため、これによっても、従来の会話分析方法では、文章として意味が通じる単語の組み合わせを特定できず、妥当性の高い文章データ(すなわち、文章として意味が通じ易い文章データ)を取得できない場合があった。
そこで、この実施例では、会話の流れを分析して次の発言者となる可能性が高い人物を特定し、これによって、従来の会話分析方法よりも、三者会話における妥当性の高い文章データを取得できるようにする。
<会話分析装置の構成>
以下に、この発明に係る会話分析方法に供する会話分析装置の構成を説明する。図1は、会話分析装置の内部構成を示すブロック図である。なお、会話分析装置は、物理的な部品を用いて実現することもできるが、各構成要素の機能を実行するプログラムをコンピュータに実行させることによっても実現することができる。
図1に示すように、会話分析装置1は、外部から複数の発言者による会話の音声データを入力する入力部100と、会話の音声データを格納するバッファ105と、バッファ105に格納された会話の音声データの中から所定の単位で発言者の音声データを切り出して会話を分析する分析部110と、様々なデータを外部に出力する出力部145とを有する。これらの構成要素の中で、特徴的な機能を有するのは、分析部110である。
分析部110は、辞書部115と、制御部120と、切り出し部125と、バッファ130と、データ作成部135と、特定部140とを備えている。
辞書部115は、様々なデータやプログラムを格納する部位である。辞書部115に格納されるデータは、例えば、バッファ105に格納された会話の音声データを所定の単位で切り出す切り出し用データや、単語辞書データなどである。また、辞書部115に格納されるプログラムは、例えば、音声データから文章データを取得する文章データ取得プログラムや、会話の内容を分析する分析用プログラムなどである。
制御部120は、分析部110の各部を制御する部位である。
切り出し部125は、バッファ105に格納された会話の音声データを所定の単位で切り出す部位である。
バッファ130は、切り出し部125によって切り出された音声データを格納する部位である。
データ作成部135は、切り出された音声データ毎に、文章データを取得したり、会話の流れを示すタグデータを作成する部位である。
特定部140は、次の発言者となる人物を特定する部位である。特定部140は、この実施例では、次の発言者となる人物と各単語との関連性に基づいて、データ作成部135によって作成された文章データを修正することができるものとする。
なお、この実施例では、分析部110が、複数の系統の切り出し部125やデータ作成部135などを備えており、複数の系統で、並列に動作する。そのため、この実施例は、発言者の音声データを短時間で効率よく分析することができるので、例えばテレビ会議システムなどの即応性が要求されるシステムや装置に好適である。
<会話分析装置の動作>
以下に、会話分析装置の動作を説明する。図2は、会話分析装置の動作を示すフローチャートである。
図2に示すように、まず、会話分析装置1は、入力部100によって外部から複数の発言者による会話の音声データを取得し(ステップS1)、取得した会話の音声データをバッファ105に格納する(ステップS2)。
次に、会話分析装置1は、分析部110の切り出し部125によって、バッファ105に格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し(ステップS3)、切り出した発言者の音声データを分析部110のバッファ130に格納する(ステップS4)。このとき、分析部110の各構成要素は、以下のように動作する。
すなわち、予め、辞書部115には、切り出し用データが格納されている。切り出し用データは、運用の形態に応じて様々なデータが用いられるが、この実施例では、分析部110の系統の数に合わせて用意された、時間の長さを示す複数の値が用いられるものとする。
制御部120は、辞書部115に格納された切り出し用データを参照して、複数の切り出し部125のそれぞれに固有の値を設定する。
この後、複数の切り出し部125のそれぞれは、発言者の音声データを検出し、それぞれに固有の値に基づいて、会話の音声データの中から発言者の音声データを切り出す。発言者の音声データの検出は、例えば、複数の切り出し部125のそれぞれが、会話の音声データの中から音声の特徴を特に多く含む周波数帯域を抽出し、その音量が所定の大きさ以上になった箇所と所定の大きさ以下になった箇所を検出することによって行われる。また、発言者の音声データの切り出しは、例えば、複数の切り出し部125のそれぞれが、発言者の音声データを、その終端(すなわち、音量が所定の大きさ以下になった箇所)がそれぞれに固有の値だけ前の箇所で切り出すことによって行われる。このようにして切り出された各発言者の音声データは、終端の長さが系統毎に異なる。
この後、複数の切り出し部125のそれぞれは、切り出した発言者の音声データをバッファ130に出力し、バッファ130は、これらを格納する。
ステップ4の後、会話分析装置1は、分析部110のデータ作成部135によって、バッファ130に格納された各発言者の音声データを対象にして、音声テキストデータを作成し、作成した音声テキストデータに単語を割り当てて文章データを取得する(ステップ5)。また、会話の流れを分析し、会話の流れを示すタグデータを作成する(ステップ6)。なお、分析の詳細については、後述の<分析の手順>の項で詳述する。このとき、分析部110の各構成要素は、以下のように動作する。
すなわち、予め、辞書部115には、単語辞書データや、文章データ取得プログラム、分析用プログラムが格納されている。単語辞書データは、発言者の音声データに基づいて作成される音声テキストデータに、音声テキストデータと同音の単語を割り当てて文章データを取得するために供される。単語辞書データは、この実施例では、候補となる単語や各単語同士の関連性(すなわち、各単語と結びつきの高い単語)などが、単語の音順に配置されたテーブルデータであるものとする。文章データ取得プログラムは、例えば、各発言者の音声データから音声テキストデータを作成し、単語辞書データを参照して音声テキストデータに単語を割り当てて文章データを取得するために供される。分析用プログラムは、例えば、音声データから会話の方向(すなわち、発言者から聞き手の方向)や方向の種類(例えば、三者会話における聞き手である二者の両方、または一方、または任意などの種類)、発言者または聞き手の知識レベルなどの会話の流れを分析するために供される。
制御部120は、辞書部115に格納された文章データ取得プログラムに基づいて、複数のデータ作成部135のそれぞれを稼動させる。このとき、複数のデータ作成部135のそれぞれは、バッファ130に格納された各発言者の音声データを対象にして音声テキストデータを作成し、さらに、単語辞書データを参照して音声テキストデータに単語を割り当てて文章データを取得する。
また、制御部120は、辞書部115に格納された分析用プログラムに基づいて、複数のデータ作成部135のそれぞれを稼動させる。このとき、各音声テキストデータから会話の方向(すなわち、発言者から聞き手の方向)や方向の種類(例えば、三者会話における聞き手である二者の両方、または一方、または任意などの種類)、発言者または聞き手の知識レベルなどを分析してタグデータを作成する。そして、各音声テキストデータと各タグデータを特定部140に出力する。
なお、タグデータは、例えば以下の表1−1に示すような形式となっており、具体的には以下の表1−2に示すような形式となる。
Figure 2005274680
Figure 2005274680
表1−1において、「会話の方向」は、発言者から聞き手(受け手)の方向を示している。また、「方向の種類」は、例えば、三者会話における聞き手である二者の両方を選択、または二者のいずれか一方を選択、または二者の任意の者を選択などの種類を示している。また、「特定データ」は、会話の流れを特定する際に重要となるデータがあることを示している。特定データについては、表2を用いて後述する。
表1−2において、会話の方向の「A」は会話の参加者Aが発言者であることを示し、会話の方向の「B」は会話の参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。なお、方向の種類は、二者の両方を選択する場合に「B」となり、二者の一方を選択する場合に「S」となり、二者のいずれか任意の者を選択する場合に「E」となるものとする。また、特定データの「XX;YY」は、特定データとしてXXとYYの2つがあることを示している。
ステップ6の後、会話分析装置1は、分析部110の特定部140によって、最も妥当性の高い会話の流れを特定し、特定した会話の流れに基づいて次の発言者となる可能性の高い人物を特定する(ステップS7)。このとき、分析部110の各構成要素は、以下のように動作する。
すなわち、制御部120は、辞書部115に格納された分析用プログラムに基づいて、特定部140を稼動させる。このとき、特定部140は、複数のデータ作成部135のそれぞれによって作成されたタブデータを比較して、出現頻度が最も多いタグデータを特定する。そして、出現頻度が最も多いタグデータに基づいて、会話の方向や方向の種類などの会話の流れを特定し、これによって次の発言者となる可能性が高い人物を特定する。
ステップ7の後、会話分析装置1は、分析部110によって取得された文章データの修正を行う(ステップS8)。これは、分析部110が、データ作成部135によって作成された文章データに対して、次の発言者となる可能性が高い人物と各単語との関連性に基づいて、さらに妥当性の高い単語の組み合わせを特定することによって行われる。これにより、会話分析装置1は、さらに妥当性の高い文章データを取得することができる。なお、会話分析装置1は、次の発言者となる可能性が高い人物を特定することによって、これ以外にも、様々な動作を行うことが可能となる。例えば、会話分析装置1は、後述の実施例2や実施例3に説明するように、次の発言者となる可能性が高い人物による発言だけを入力することが可能となる。
<分析の手順>
以下に、分析の手順を説明する。図3は、三者会話における各参加者の組み合わせを示す図である。なお、ここでは、参加者Aを発言者とし、参加者Bと参加者Cを聞き手として説明する。また、ここでは、参加者が三者の場合を例にして説明するが、この発明は参加者が四者以上の場合であっても適用できる。
図3に示すように、各参加者A〜Cの組み合わせは、(a)発言者(参加者A)と聞き手(参加者Bと参加者C)の全員が知人である組み合わせと、(b)発言者(参加者A)と聞き手(参加者B)が知人でかつ発言者(参加者A)と聞き手(参加者C)が知人でかつ聞き手(参加者Bと参加者C)が初対面である組み合わせと、(c)発言者(参加者A)と聞き手(参加者B)が知人でかつ発言者(参加者A)と聞き手(参加者C)が初対面でかつ聞き手(参加者Bと参加者C)が初対面である組み合わせと、(d)発言者(参加者A)と聞き手(参加者Bと参加者C)の全員が初対面である組み合わせの4通りある。
なお、発言者(参加者A)から見た聞き手(参加者Bと参加者C)との関係は、(ア)二人とも知人である関係((a)または(b)の組み合わせ)と、(イ)一人が知人である関係((c)の組み合わせ)と、(ウ)二人とも初対面である関係((d)の組み合わせ)の3通りある。
各参加者A〜Cが直接対面して行う会話では、聞き手(参加者Bと参加者C)は、非言語的な、または、言語的な、会話の流れを特定する際に重要となるデータ(以下、特定データという)を認識することによって、次の発言者となる人物を認識している。なお、非言語的な特定データとは、ジェスチャー(すなわち、身振りや手振りなどの身体の動作)やアイコンタクト(すなわち、視線の方向やウインクなどの目の動作)、顔の表情などである。また、言語的な特定データとは、名前の呼びかけ(すなわち、現在の発言者Aが次の発言者となる人物の名前を呼ぶこと)や共通知識の言及(すなわち、現在の発言者Aが聞き手との間で共通する知識を言及すること)などである。
しかしながら、テレビ会議システムなどのように、各参加者A〜Cが装置を介在して行う会話では、聞き手(参加者Bと参加者C)は、非言語的な特定データを認識しにくい。そのため、聞き手(参加者Bと参加者C)は、主に、言語的な特定データ(すなわち、名前の呼びかけや共通知識の言及など)を認識することによって、次の発言者となる人物を認識している。そこで、この実施例でも、分析部110は、言語的な特定データを認識することによって、次の発言者となる人物を特定するものとする。
なお、言語的な特定データには、例えば以下の表2の「言語的な特定データ」の欄に示す種類がある。
Figure 2005274680
すなわち、言語的な特定データ(LD)には、大きく分けて、言葉遣い(Wo)や、共有知識依存(CK)、会話連鎖依存(SO)などがある。言葉遣い(Wo)は、発言者の言葉遣いによって会話の流れが特定できることを示すデータである。共有知識依存(CK)は、各参加者A〜Cの間における共有知識の違い(以下、共有知識レベルという)によって会話の流れが特定できることを示すデータである。会話連鎖依存(SO)は、各参加者A〜Cの間での会話連鎖(すなわち、会話の繋がり)によって会話の流れが特定できることを示すデータである。
言葉遣い(Wo)には、呼びかけ(Vo)や、非明示的なデータ(Im)、人称代名詞(PP)、丁寧体(AH)、非丁寧体(N−AH)、特定の語句(Ph)などがある。
呼びかけ(Vo)は、発言者によって聞き手の名前が呼ばれたこと(例えば、参加者Aによって参加者Bまたは参加者Cの名前が呼ばれたこと)を示すデータである。呼びかけ(Vo)は、次の発言者となる人物を特定できる。呼びかけ(Vo)は、二者間での会話が継続した後に、傍参加者に話しかける場合に顕著に出現する。なお、類似の特性をもつ特定データとして固有名詞(PN)がある。固有名詞(PN)は、聞き手の名前などの特定の語彙が文主題や所有格で使用されていることを示すデータあり、これによっても次の発言者を特定できる場合がある。
非明示的なデータ(Im)は、通常は次の発言者となる人物を特定できないが、所定の条件が揃うことで次の発言者を特定できるデータである。非明示的なデータ(Im)は、例えば、以下の人称代名詞(PP)などを含む。
人称代名詞(PP)は、1人称複数(1pl)や、2人称複数(2pl)、1人称単数(1sg)、2人称単数(2sg)、全員(all)などを示すデータである。人称代名詞(PP)は、発言者の発言が1人称複数以外の場合に、次の発言者として発言者と同じカテゴリーに包含される者または排除される者のどちらが選択されるかを特定できる。ただし、人称代名詞(PP)は、発言者の発言が1人称複数の場合に、これだけでは、次の発言者として発言者Aと同じカテゴリーに包含される者または排除される者のどちらが選択されるかを特定できない。
丁寧体(AH)は、発言者の発言が丁寧体であることを示すデータである。丁寧体(AH)は、1ターン内のような近い範囲で区別して使用されている場合に、次の発言者となる人物を特に顕著に特定できる。丁寧体(AH)は、前後の文脈に依存しないデータであり、会話を通じてほぼ不変である。
非丁寧体(N−AH)は、発言者の発言が丁寧体でないことを示すデータである。非丁寧体(N−AH)は、丁寧体(AH)と同様に、1ターン内のような近い範囲で区別して使用されている場合に、次の発言者となる人物を特に顕著に特定できる。
なお、丁寧体(AH)と非丁寧体(N−AH)は、参加者の組み合わせによって以下のような特性がある。すなわち、参加者の組み合わせが(a)の組み合わせ(図3参照)の場合に、丁寧体(AH)はほとんど発生せず、会話の大半が非丁寧体(N−AH)となる。そのため、この場合は、丁寧体(AH)や非丁寧体(N−AH)からは次の発言者となる人物を特定できない。参加者の組み合わせが(b)または(c)の組み合わせ(図3参照)の場合で、かつ、発言者から見た二者の聞き手との関係に相違がある場合に、一方にのみ、丁寧体(AH)または非丁寧体(N−AH)が発生するときがある。この場合、丁寧体(AH)や非丁寧体(N−AH)から次の発言者となる人物を特定できる。参加者の組み合わせが(d)の組み合わせ(図3参照)の場合に、非丁寧体(N−AH)はほとんど発生せず、会話の大半が丁寧体(AH)となる。そのため、この場合は、丁寧体(AH)や非丁寧体(N−AH)からは次の発言者となる人物を特定できない。
例えば、データ作成部135は、以下の表3−1に示すような文例に基づいてタグデータを作成する。
Figure 2005274680
表3−1において、データ作成部135は、発言者(表3−1では参加者Bが発言者)の「あ、まだですね。」という発言に基づいて、[B→C,S,Adj]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「C」は会話の参加者Cが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「Adj」は、特定データとして隣接ペア(Adj)があることを示している。また、データ作成部135は、例えば、発言者(参加者B)の「入ってからだよね?」という発言に基づいて、[B→A,S,N−AH;K−Req]というタグデータを作成する。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「A」は会話の参加者Aが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「N−AH;K−Req」は、特定データとして非丁寧体(N−AH)と知識要求(K−Req)の2つがあることを示している。
特定の語句(Ph)は、受け手または次の発言者となる人物の特定を含意できる語句があることを示すデータである。特定の語句(Ph)は、必ずしも単独で次の発言者となる人物を特定できるわけではなく、参加者の組み合わせや、各参加者の共有知識レベル、会話連鎖上の特徴との相互依存によって、次の発言者となる人物を特定できる。
また、共有知識依存(CK)には、固有名詞(PN)や、共有エピソード(CE)、知識要求(K−Req)、知識伝達(K−Inf)などがある。なお、共有知識依存(CK)の分析は、分析部110が、各参加者のカテゴリーや、共有知識を形成する参加者の関係を分析することによって行われる。ここで、各参加者のカテゴリーとは、ある話題についての共有知識レベルによって分けられた、ある話題を知っている者Kと知らない者nonKとの違いである。また、共有知識を形成する参加者の関係とは、二者会話では発言者と聞き手の間だけであるが、三者会話では各参加者A〜Cの関係によって、発言者と一方の聞き手の間(例えば、参加者Aと参加者Bの間)、発言者と他方の聞き手の間(例えば、参加者Aと参加者Cの間)、発言者と両方の聞き手の間(すなわち、参加者Aと、参加者Bと参加者Cの両方の間)、聞き手同士の間(すなわち、参加者Bと参加者Cの間)の4通りある。分析部110は、これら各参加者のカテゴリーや共有知識を形成する参加者の関係からでも、次の発言者となる人物を特定できる場合がある。
固有名詞(PN)は、聞き手の名前などの特定の語彙が文主題や所有格で使用されていることを示すデータある。固有名詞(PN)は、特定の参加者(知っている者K、または、知らない者nonK)と結びついていることが極めて多いので、次の発言者となる人物を特定できる場合がある。この実施例では、予め、辞書部115が、各固有名詞(PN)に対して知っている者Kと知らない者nonKとを示すデータを関連付けて格納しているものとする。そして、データ作成部135は、各参加者の音声データの中からある固有名詞を検出した場合に、辞書部110に格納されたデータを参照して当該固有名詞を知っている者Kと知らない者nonKとを割り出し、これによって聞き手または次の発言者となる人物を特定する。
共有エピソード(CE)は、発言者と聞き手の間(すなわち、参加者Aと、参加者Bと参加者Cの一方または両方の間)で、共通のエピソードがあることを示すデータである。共有エピソード(CE)は、会話におけるエピソードを共有している相手を受け手とする場合に、次の発言者となる人物を特定できる。
知識要求(K−Req)は、発言者がある知識について聞き手に尋ねていること(例えば、参加者Aがある知識について参加者Bまたは参加者Cに尋ねていること)を示すデータである。知識要求(K−Req)は、ある知識を知らない者nonKが知っている者Kを受け手としてある知識について尋ねている場合に、次の発言者となる人物を特定できる。知識要求(K−Req)は、発言内容の語尾のイントネーションの抑揚などによって検出される。
知識伝達(K−Inf)は、発言者がある知識について聞き手に伝達していること(例えば、参加者Aがある知識について参加者Bまたは参加者Cに伝達していること)を示すデータである。知識伝達(K−Inf)は、ある知識を知っている者Kが知らない者nonKを受け手としてある知識を伝えている場合に、次の発言者となる人物を特定できる。
また、会話連鎖依存(SO)には、局所的組織化(Loc)や、隣接ペア(Adj)、隣接ペアの第二部分(Adj−2nd)、直前会話への修復要求(Rep)、同一の受け手への連続質問(Seq−Q)、その他の連鎖利用(Seq)などがある。なお、会話連鎖依存(SO)の分析は、分析部110が、各参加者のカテゴリーや、会話の繋がりを分析することによって行われる。
局所的組織化(Loc)は、局所的に密接な繋がりを持つことを示すデータである。
隣接ペア(Adj)は、質問と応答や招待と応諾(または辞退)などのように、異なる発言者によってなされた隣接した会話対を示すデータである。隣接ペア(Adj)の第一番目の会話対(以下、第一部分という)は、条件的な関連性によって直後の会話内容を制約するため、次の発言者となる人物を特定することができる。ただし、隣接ペア(Adj)の第一部分は、単独では次の発言者となる人物を特定できず、他の言語的なデータ(特に、共有知識依存(CK)などのデータ)と併用することによって次の発言者となる人物を特定できる。
隣接ペアの第二部分(Adj−2nd)は、隣接した会話対の第二番目の部分(以下、第二部分という)であることを示すデータある。隣接ペアの第二部分(Adj−2nd)は、通常、直前のターンにおける発言者(すなわち、隣接ペア(Adj)の第一部分の発言者)が受け手となり、次の発言者となる。隣接ペアの第二部分(Adj−2nd)は、隣接ペア(Adj)の第一部分が単独では次の発言者となる人物を特定できないのに対し、単独かつ高い確率で次の発言者となる人物を特定できる。
直前会話への修復要求(Rep)は、直前のターンにおける会話の修復を要求することを示すデータある。直前会話への修復要求(Rep)は、直前のターンにおける会話に、現発言者が同定できない単語(すなわち、現発言者が確認したい単語や、知らない単語、聞き取れなかった単語など)がある場合に発生しやすい。直前会話への修復要求(Rep)は、一語疑問文などの形式(すなわち、直前の会話の一部を疑問調で繰り返す形式)となっている。直前会話への修復要求(Rep)は、通常、直前のターンにおける発言者が受け手または次の発言者となる。
同一の受け手への連続質問(Seq−Q)は、二者間で連続して質問と応答が発生していることを示すデータある。同一の受け手への連続質問(Seq−Q)は、同一の話題において、二者間で質問者と応答者という参加役割が一定期間継続する。すなわち、同一の話題において、第二、第三の質問がなされた場合に、質問の受け手である人物が連続して応答者(次の発言者)となる。
その他の連鎖利用(Seq)は、上記の特定データに区分されない特定データがあることを示すデータある。その他の連鎖利用(Seq)には、例えば、会話の参加者の社会的属性の複数性や変化を表すデータなどがある。
ここで、共有知識や会話連鎖に依存する文例を以下の表3−2〜表3−6に示す。
Figure 2005274680
Figure 2005274680
Figure 2005274680
Figure 2005274680
Figure 2005274680
表3−2に示す、発言者(参加者A)の「やってる人いる?」という発言や「こん中で、高校受験地理やった人?」という発言は、二人の聞き手(参加者Bと参加者C)の一方または両方への知識要求(K−Req)を含んでいる。この場合、二人の聞き手(参加者Bと参加者C)のいずれも、次の発言者となることができる。
表3−3に示す、発言者(参加者A)の「誰やったっけ?」という発言は、二人の聞き手(参加者Bと参加者C)の一方または両方への知識要求(K−Req)を含んでいる。この場合、二人の聞き手(参加者Bと参加者C)のいずれも、次の発言者となることができる。
表3−4に示す、発言者(参加者A)の「ナカオさんと私は、同じ学部なんで。」という発言は、二人の聞き手(参加者Bと参加者C)の一方または両方への知識伝達(K−Inf)を含んでいる。
表3−5に示す、発言者(参加者A)の「はじめまして。」という発言は、発言者(参加者A)と聞き手は、初対面であるという共有エピソード(CE)を含んでいる。
表3−6に示す、「でな」という接続詞は、会話を続行していることを示している。また、「じゃあ」という接続詞は、直前の発言に応答していること(直前の応答への関連性)を示している。また、「そのこと」という接続詞は、直前の発言の内容を受けていること(相手先先行発言内容への前方照応)を示している。
ここで、実際の会話における各参加者の音声データから作成するタグデータの例を以下の表3−7〜表3−10に示す。
分析部110のデータ作成部135は、例えば、以下の表3−7に示す各参加者の音声データからタグデータを作成する。
Figure 2005274680
表3−7において、参加者Aと参加者Bの会話は、参加者Aはかつて参加者Cの実家でアルバイトをしたことがあり、参加者Aと参加者Cはその共有エピソード(CE)を有していることを前提としてなされたものとする。ここでは、参加者Aはかつて参加者Cの実家でアルバイトをしたことがあるという共有エピソード(CE)が参加者Aの「おれ、バイトがいいかな。」という発言に含意されている。参加者Aの「運送業のバイトとか?」という発言は、その「おれ、バイトがいいかな。」という発言を受けており、参加者Aと参加者Cの間の共有エピソード(CE)を含んでいる。そこで、データ作成部135は、参加者Aの「運送業のバイトとか?」という発言に基づいて、[A→C,S,CE]というタグデータを作成することを示している。ここで、会話の方向の「A」は会話の参加者Aが発言者であることを示し、会話の方向の「C」は会話の参加者Cが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「CE」は、特定データとして共有エピソード(CE)があることを示している。
また、表3−7において、参加者Cの「うちの家、実は運送屋でございました。」という発言は、語尾が「ございました」という丁寧な口調であるとともに、ある知識(参加者Cの家が運送屋であること)を知っている者K(参加者C)が知らない者nonK(参加者B)を受け手としてある知識を伝えているので、丁寧体(AH)と知識伝達(K−Inf)の2つの特定データを含んでいる。そこで、データ作成部135は、参加者Cの「うちの家、実は運送屋でございました。」という発言に基づいて、[C→B,S,AH;K−Inf]というタグデータを作成することを示している。ここで、会話の方向の「C」は会話の参加者Cが発言者であることを示し、会話の方向の「B」は会話の参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、方向の種類の「AH;K−Inf」は、特定データとして丁寧体(AH)と知識伝達(K−Inf)の2つがあることを示している。
また、表3−7において、参加者Bの「へえー。おか、オカザキ運送ですか?」という発言は、質問と応答という、異なる発言者によってなされた隣接する会話対における発言であり、条件的な関連性によって直後の会話内容を制約しているので、隣接ペア(Adj)を含んでいる。そこで、データ作成部135は、参加者Bの「へえー。おか、オカザキ運送ですか?」という発言に基づいて、[B→C,S,Adj]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「C」は会話の参加者Cが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、方向の種類の「Adj」は、特定データとして隣接ペア(Adj)があることを示している。
また、分析部110のデータ作成部135は、例えば、以下の表3−8に示す各参加者の音声データからタグデータを作成する。
Figure 2005274680
表3−8において、参加者Aと参加者Bの会話は、参加者Aがテニスをしており、参加者Aが最近ラケットを買ったことを前提としてなされたものとする。なお、この実施例では、分析部110は、予め、「ラケット」や「テニス」などの単語と「参加者A」とを関連付けて固有名詞(PN)を作成し、辞書部115に格納しているものとする。参加者Bの「でも、ラケットって、一回買ったらオッケーやんな。」という発言は、「ラケット」という語彙が文主題で使用されているとともに、ある知識(ラケットは長期間の使用に耐えられるということ)を知らない者nonK(参加者B)が知っている者K(参加者A)を受け手としてある知識について尋ねているので、固有名詞(PN)と知識要求(K−Req)を含んでいる。そこで、データ作成部135は、参加者Bの「でも、ラケットって、一回買ったらオッケーやんな。」という発言に基づいて、[B→A,S,PN;K−Req]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「A」は会話の参加者Aが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「PN;K−Req」は、特定データとして固有名詞(PN)と知識要求(K−Req)があることを示している。ここでは、参加者Aと参加者Bの間に、「ラケット(を用いるテニス)」に関する共有知識があり、参加者Bが参加者Aに知識要求(K−Req)をしている。
また、分析部110のデータ作成部135は、例えば、以下の表3−9に示す各参加者の音声データからタグデータを作成する。
Figure 2005274680
表3−9において、参加者Aと参加者Cの会話は、参加者Aはホームステイをしており、参加者Aと参加者Cはその共有エピソード(CE)を有していることを前提としてなされたものとする。参加者Cの「タカダの方は、あれやな?」という発言は、「あれ」と問いかけているとともに、「タカダの方は」と呼びかけているので、共有エピソード(CE)と呼びかけ(Vo)の2つの特定データを含んでいる。そこで、データ作成部135は、参加者Cの「タカダの方は、あれやな?」という発言に基づいて、[C→A,S,CE;Vo]というタグデータを作成することを示している。ここで、会話の方向の「C」は会話の参加者Cが発言者であることを示し、会話の方向の「A」は会話の参加者Aが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「CE」は、特定データとして共有エピソード(CE)があることを示している。
また、表3−9において、参加者Aの「そう、ホームステイしてきました。」という発言は、語尾が「ました」という丁寧な口調であるとともに、ある知識(ホームステイしていたこと)を知っている者K(参加者A)が知らない者nonK(参加者B)を受け手としてある知識を伝えているので、丁寧体(AH)と知識伝達(K−Inf)の2つの特定データを含んでいる。そこで、データ作成部135は、参加者Aの「そう、ホームステイしてきました。」という発言に基づいて、[A→B,S,AH;K−Inf]というタグデータを作成することを示している。ここで、会話の方向の「A」は会話の参加者Aが発言者であることを示し、会話の方向の「B」は会話の参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「AH;K−Inf」は、特定データとして丁寧体(AH)と知識伝達(K−Inf)があることを示している。
また、表3−9において、参加者Bの「へえー。」という発言は、参加者Cの「タカダの方は、あれやな?」という発言と参加者Aの「そう、ホームステイしてきました。」という発言の後の発言であり、同一の話題においてなされた発言である。そのため、参加者Bの「へえー。」という発言は、隣接した会話対の第二番目の部分における発言であり、隣接ペアの第二部分(Adj−2nd)を含んでいる。そこで、データ作成部135は、参加者Bの「へえー。」という発言に基づいて、[B→A,S,Adj−2nd]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「A」は会話の参加者Aが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「Adj−2nd」は、特定データとして隣接ペアの第2部分(Adj−2nd)があることを示している。
また、分析部110のデータ作成部135は、例えば、以下の表3−10に示す各参加者の音声データからタグデータを作成する。
Figure 2005274680
表3−10において、参加者Aと参加者Bの会話は、参加者Aには「カタク」というあだ名がつけられており、参加者Aと参加者Bはその共有エピソード(CE)を有していることを前提としてなされたものとする。参加者Aの「カタク、どうなった?」という発言は、「カタク」という固有名詞(PN)を含んでいる。そこで、データ作成部135は、参加者Aの「カタク、どうなった?」という発言に基づいて、[A→B,S,PN]というタグデータを作成することを示している。ここで、会話の方向の「A」は会話の参加者Aが発言者であることを示し、会話の方向の「B」は会話の参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「PN」は、特定データとして固有名詞(PN)があることを示している。
また、表3−10において、参加者Bの「あれはな、一部。」という発言は、参加者Aの「カタク、どうなった?」という発言の後の発言であり、同一の話題においてなされた発言である。そのため、参加者Bの「あれはな、一部。」という発言は、隣接した会話対における発言であり、隣接ペア(Adj)を含んでいる。そこで、データ作成部135は、参加者Bの「あれはな、一部。」という発言に基づいて、[B→A,S,Adj]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「A」は会話の参加者Aが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「Adj」は、特定データとして隣接ペア(Adj)があることを示している。
また、表3−10において、参加者Bの「キャンプでさあ、あだ名が決定してん。」という発言は、ある知識(あだ名が決定したこと)を知っている者K(参加者B)が知らない者nonK(参加者C)を受け手としてある知識を伝えているので、知識伝達(K−Inf)を含んでいる。そこで、データ作成部135は、参加者Bの「キャンプでさあ、あだ名が決定してん。」という発言に基づいて、[B→C,S,K−Inf]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「C」は会話の参加者Cが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「K−Inf」は、特定データとして知識伝達(K−Inf)があることを示している。
なお、表3−10において、分析部110のデータ作成部135は、参加者Aの矢印を付した箇所の発言に基づいて、以下のようにして次の発言者となる人物として参加者Bを特定する。
すなわち、分析部110のデータ作成部135は、辞書部115に格納された各参加者A〜Cの共有エピソードを参照する。そして、参加者Aの矢印を付した箇所の発言に基づいて、分析部110のデータ作成部135は、参加者Aは[A1:参加者Bはカタク知っていること]および[A2:参加者Cはカタクを知らないこと]を想定していると分析する。また、分析部110のデータ作成部135は、参加者Bは[B1:参加者Aは誰かがカタクを知っていると思っていること]および[B1:参加者Bはカタクとは何かを知っていること]を認識していると分析する。
また、分析部110のデータ作成部135は、参加者Cは[C1:参加者Aは誰かがカタクを知っていると思っていること]および[C2:参加者Cはカタクを知らないこと]を認識していると分析する。
これにより、分析部110のデータ作成部135は、参加者Bがこの会話の受け手または次の発言者の候補の一人であると分析する。なお、このとき、分析部110のデータ作成部135は、この分析と平行して、参加者Cは[C3:参加者Bはカタクを知っていること]を認識しているか否かも分析する。これにより、分析部110のデータ作成部135は、次の発言者となる人物として参加者Bを特定する。
このように、ある語彙や共有エピソード(CE)の言及は、参加者の共有知識の相違(または共有知識についての各参加者の想定や認識)を利用することによって、各参加者を「知っている者K」と「知らない者nonK」という集合へカテゴリー化(共−成員性co-membership)するとともに、各参加者に参加役割を割り当てる(例えば、参加者Aを発言者とし、参加者Bを受け手とし、参加者Cを傍参加者とする)ための特定データとなる。ただし、共−成員性と参加役割や次の発言者となる人物の特定とは連動しているが、これによって一意に次の発言者となる人物が特定できるわけではない。
ここで、両者の関係を共有知識依存(CK)の諸データと関連づけて整理すると以下の表4−1〜表4−3のようになる。
Figure 2005274680
Figure 2005274680
Figure 2005274680
共有エピソード(CE)は、「知っている者K」内の共−成員間での会話で発生する。知識要求(K−Req)と知識伝達(K−Inf)は、「知っている者K」の成員と「知らない者nonK」の成員の間での会話で発生する。共有エピソード(CE)と知識伝達(K−Inf)は、共−成員性は同一だが、ある会話の受け手が前者では「知っている者K」、後者では「知らない者nonK」となる。
また、分析部110のデータ作成部135は、例えば、以下の表5−1に示す各参加者の音声データからタグデータを作成する。
Figure 2005274680
表5−1において、参加者Aの「ケンちゃん?」という発言は、参加者Aが「ケンちゃん」という固有名詞(PN)が同定できなかったことによる聞き返しであり、直前会話の修復要求(Rep)を含んでいる。直前会話の修復要求(Rep)は、前述の通り、一語疑問文の形式(すなわち、直前の会話の一部を疑問調で繰り返す形式)となっている。そこで、データ作成部135は、参加者Aの「ケンちゃん?」という発言に基づいて、[A→B,S,Rep]というタグデータを作成することを示している。ここで、会話の方向の「A」は会話の参加者Aが発言者であることを示し、会話の方向の「B」は会話の参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「Rep」は、特定データとして直前会話への修復要求(Rep)があることを示している。
また、分析部110のデータ作成部135は、例えば、以下の表5−2に示す各参加者の音声データからタグデータを作成する。
Figure 2005274680
表5−2において、参加者Cの「サークルとかなんか入ってはるんですか?」という発言は、ある知識(参加者Aと参加者Bがサークルに入っているか否か)を知らない者nonK(参加者C)が知っている者K(参加者Aと参加者B)を受け手としてある知識について尋ねており、知識要求(K−Req)を含んでいる。そこで、データ作成部135は、参加者Cの「サークルとかなんか入ってはるんですか?」という発言に基づいて、[C→A&B,B,K−Req]というタグデータを作成することを示している。ここで、会話の方向の「C」は会話の参加者Cが発言者であることを示し、会話の方向の「A&B」は会話の参加者Aと参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「B」は、両方を選択することを示している。また、特定データの「K−Req」は、特定データとして知識要求(K−Req)があることを示している。
また、表5−2において、参加者Bの「あ、はい。私は入ってます。」という発言は、参加者Cの「サークルとかなんか入ってはるんですか?」という発言の後の発言であり、同一の話題においてなされた発言である。そのため、参加者Bの「あ、はい。私は入ってます。」という発言は、隣接した会話対における発言であり、隣接ペア(Adj)を含んでいる。そこで、データ作成部135は、参加者Bの「あ、はい。私は入ってます。」という発言に基づいて、[B→C,S,Adj]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「C」は会話の参加者Cが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「Adj」は、特定データとして隣接ペア(Adj)があることを示している。
また、表5−2において、参加者Aの「何?」という発言は、同一の話題において、続けて質問がなされており、同一の受け手への連続質問(Seq−Q)を含んでいる。そこで、データ作成部135は、参加者Cの「何?」という発言に基づいて、[C→B,S,Seq−Q]というタグデータを作成することを示している。ここで、会話の方向の「C」は会話の参加者が発言者Cであることを示し、会話の方向の「B」は会話の参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「Seq−Q」は、特定データとして同一の受け手への連続質問(Seq−Q)があることを示している。
また、表5−2において、参加者Bの「えっと山登りが好きで、ふふふ、山登りを、やっております。」という発言は、語尾が「おります」という丁寧な口調であるので、丁寧体(AH)を含んでいる。また、参加者Bの「あ、はい。私は入ってます。」という発言と参加者Cの「何?」という発言の後の発言であり、同一の話題においてなされた発言であるので、隣接した会話対の第二番目の部分における発言であり、隣接ペアの第二部分(Adj−2nd)を含んでいる。そこで、データ作成部135は、参加者Bの「えっと山登りが好きで、ふふふ、山登りを、やっております。」という発言に基づいて、[B→C,S,AH;Adj−2nd]というタグデータを作成することを示している。ここで、会話の方向の「B」は会話の参加者Bが発言者であることを示し、会話の方向の「C」は会話の参加者Cが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「AH;Adj−2nd」は、特定データとして丁寧体(AH)と隣接ペアの第二部分(Adj−2nd)の2つがあることを示している。なお、このとき、分析部110は、「山登り」(または「山」と「登る」の組み合わせ)と「参加者B」とを関連付けて固有名詞(PN)を作成し、辞書部115に格納する。
また、表5−2において、参加者Cの「どっか高い山とか登らはったんですか?」という発言は、「山」と「登る」の組み合わせによる固有名詞(PN)を含んでいる。また、同一の話題において、続けて質問がなされており、同一の受け手への連続質問(Seq−Q)を含んでいる。そこで、データ作成部135は、参加者Cの「どっか高い山とか登らはったんですか?」という発言に基づいて、[C→B,S,PN;Seq−Q]というタグデータを作成することを示している。ここで、会話の方向の「C」は会話の参加者Cが発言者であることを示し、会話の方向の「B」は会話の参加者Bが聞き手(受け手)であることを示している。また、方向の種類の「S」は、一方を選択することを示している。また、特定データの「PN;Seq−Q」は、特定データとして固有名詞(PN)と同一の受け手への連続質問(Seq−Q)の2つがあることを示している。
分析部110のデータ作成部135は、このようにして、バッファ130に格納された各発言者の音声データの中からこれらの特定データを分析して、前述の表1−1や表1−2に示すタグデータ(すなわち、例えば、[会話の方向,方向の種類,特定データ]を形式とするタグデータ)を作成する。
その後、特定部140は、データ作成部135が作成した各タグデータを比較し、出現頻度が最も多いタグデータを特定する。特定されたタグデータは、最も妥当性が高いものとして扱われる。すなわち、特定部140は、特定したタグデータを参照して(特に、タグデータが規定する特定データを参照して)、データ作成部135が作成した音声テキストデータに基づいて、文章データを取得する。
以上の通り、実施例1に係る会話分析装置1は、次の発言者となる可能性が高い人物を特定することができるので、これに基づく様々な動作を行うこと(例えば、文章データの修正を行うようにすれば、さらに妥当性の高い文章データを取得することなど)ができる。
前述の実施例1では、次の発言者となる可能性が高い人物を特定することによって、データ作成部135によって取得された文章データを修正し、これによってさらに妥当性の高い文章データを取得している。これに対し、実施例2では、次の発言者となる可能性が高い人物を特定することによって、次の発言者となる可能性が高い人物による発言だけを入力する。以下に、図4を用いて実施例2を説明する。なお、図4は、会話分析装置の動作を示す図である。
図4に示すように、実施例2に係る会話分析装置1は、有線や無線による通信網300を介して複数の端末装置400−1〜400−nと接続されている。各端末装置400−1〜400−nは、図示しないマイクやカメラを備えており、マイクによって会話の参加者の音声を内部に取り入れて音声データとして会話分析装置1に出力するとともに、カメラによって会話の参加者の画像を内部に取り入れて画像データとして会話分析装置1に出力する。
会話分析装置1は、以下のように構成されている。すなわち、入力部100は、発言者が発した音声を音声データとして入力部100に出力する複数の端末装置400−1〜400−nと接続されており、分析部110は、次の発言者となる可能性が高い人物を特定すると、特定した人物の端末装置400−iに、音声データの出力を許可する信号を発するように構成されている。
このような会話分析装置1は、以下のように動作する。すなわち、まず、会話分析装置1は、各端末装置400−1〜400−nが出力した音声データや画像データを入力部100から入力してバッファ105に格納し、分析部110によって会話の流れを分析する。そして、分析部110は、次の発言者となる可能性が高い人物を特定すると、出力部145を介して、特定した人物の端末装置400−iに、音声データの出力を許可する信号を発する。なお、図4において、出力部145から端末装置400−iに向けて引き出された矢印は、音声データの出力を許可する信号を示している。分析部110によって特定された端末装置(すなわち、次の発言者となる可能性が高い人物の端末装置)400−iは、会話分析装置1から音声データの出力を許可する信号を入力すると、会話分析装置1に音声データを出力する。なお、図4において、端末装置400−iから入力部100に向けて引き出された矢印は、音声データを示している。このようにして、会話分析装置1は、次の発言者となる可能性が高い人物による発言だけを入力する。
以上の通り、実施例2に係る会話分析装置1は、次の発言者となる可能性が高い人物による発言だけを入力することができる。
前述の実施例2では、特定した人物の端末装置400−iだけが会話分析装置1に音声データを出力する。これに対し、実施例3では、会話分析装置1は特定した人物の端末装置400−iから出力される音声データだけを入力する。以下に、図5を用いて実施例3を説明する。なお、図5は、会話分析装置の動作を示す図である。
図5に示すように、実施例3に係る会話分析装置1は、実施例2と同様に、有線や無線による通信網300を介して複数の端末装置400−1〜400−nと接続されている。各端末装置400−1〜400−nは、図示しないマイクやカメラを備えており、マイクによって会話の参加者の音声を内部に取り入れて音声データとして会話分析装置1に出力するとともに、カメラによって会話の参加者の画像を内部に取り入れて画像データとして会話分析装置1に出力する。
会話分析装置1は、以下のように構成されている。すなわち、入力部100は、発言者が発した音声を音声データとして入力部100に出力する複数の端末装置400−1〜400−nと接続されており、分析部110は、次の発言者となる可能性が高い人物を特定すると、入力部100に、特定した人物の端末装置400−iから出力される音声データの入力を指示する信号を発するように構成されている。
このような会話分析装置1は、以下のように動作する。すなわち、まず、会話分析装置1は、各端末装置400−1〜400−nが出力した音声データや画像データを入力部100から入力してバッファ105に格納し、分析部110によって会話の流れを分析する。そして、分析部110の制御部120は、次の発言者となる可能性が高い人物を特定すると、入力部100に、特定した人物の端末装置400−iから出力される音声データの入力を指示する信号を発する。なお、図5において、制御部120から入力部100に向けて引き出された矢印は、特定した人物の端末装置400−iから出力される音声データの入力を指示する信号を示している。各端末装置400−1〜400−nは、随時、マイクによって会話の参加者の音声を内部に取り入れて音声データとして会話分析装置1に出力するとともに、カメラによって会話の参加者の画像を内部に取り入れて画像データとして会話分析装置1に出力する。会話分析装置1の入力部100は、分析部110によって特定された端末装置(すなわち、次の発言者となる可能性が高い人物の端末装置)400−iから出力される音声データのみを入力する。なお、図5において、各端末装置400−1〜400−nから入力部100に向けて引き出された矢印は、音声データを示している。また、各音声データに付された○印は、入力部100によって入力される音声データを示している。さらに、各音声データに付された×印は、入力部100によって入力を拒絶される音声データを示している。このようにして、会話分析装置1は、次の発言者となる可能性が高い人物による発言だけを入力する。
以上の通り、実施例3に係る会話分析装置1は、実施例2と同様に、次の発言者となる可能性が高い人物による発言だけを入力することができる。
この発明は、前述の実施例1〜3に限定されることなく、この発明の要旨を逸脱しない範囲で種々の応用や変形が考えられる。
例えば、この発明は、前述の通り、議事録作成システムやテレビ会議システムに限らず、会話における各発言者の音声データを分析する様々なシステムや装置に適用することができる。また、二者会話における会話分析に適用することができる。また、会話分析部1の入力部100は、会話データを記憶した記憶媒体からデータを読み出すリーダー装置としてもよい。
会話分析装置の内部構成を示すブロック図である。 会話分析装置の動作を示すフローチャートである。 会話の参加者の組み合わせを示す図である。 会話分析装置の動作を示す図である。 会話分析装置の動作を示す図である。
符号の説明
1 …会話分析装置
100 …入力部
105 …バッファ
110 …分析部
115 …辞書部
120 …制御部
125 …切り出し部
130 …バッファ
135 …データ作成部
140 …特定部
145 …出力部

Claims (8)

  1. 入力部とバッファと分析部とを有する会話分析装置を用いて、会話における各発言者の音声データを分析して文章データを取得する会話分析方法において、
    前記入力部が外部から三者以上による会話の音声データを入力する工程と、
    前記バッファが会話の音声データを格納する工程と、
    前記分析部が、前記バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程とを有することを特徴とする会話分析方法。
  2. 前記分析部は、前記バッファに格納された会話の音声データの中から所定の短い単位から長い単位で発言者の音声データを順次切り出し、切り出した各発言者の音声データを対象にして会話の方向と方向の種類と発言者または聞き手の知識レベルとを分析して会話の流れを示す複数のタグデータを算出し、出現頻度が最も多いタグデータに基づいて次の発言者となる可能性が高い人物を特定することを特徴とする請求項1に記載の会話分析方法。
  3. 前記分析部は、複数の系統を備え、複数の系統で、並列に、会話の流れを分析して次の発言者となる可能性が高い人物を特定することを特徴とする請求項1または2に記載の会話分析方法。
  4. 前記分析部は、次の発言者となる可能性が高い人物と各単語との関連性に基づいて単語の組み合わせを特定することを特徴とする請求項1〜3のいずれか1項に記載の会話分析方法。
  5. 外部から三者以上による会話の音声データを入力する入力部と、
    会話の音声データを格納するバッファと、
    前記バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する分析部とを有することを特徴とする会話分析装置。
  6. 前記入力部は、発言者が発した音声を音声データとして前記入力部に出力する複数の端末装置と接続されており、
    前記分析部は、次の発言者となる可能性が高い人物を特定すると、特定した人物の前記端末装置に、音声データの出力を許可する信号を発することを特徴とする請求項5に記載の会話分析装置。
  7. 前記入力部は、発言者が発した音声を音声データとして前記入力部に出力する複数の端末装置と接続されており、
    前記分析部は、次の発言者となる可能性が高い人物を特定すると、前記入力部に、特定した人物の前記端末装置から出力される音声データの入力を指示する信号を発することを特徴とする請求項5に記載の会話分析装置。
  8. コンピュータにより、請求項5〜7のいずれか1項に記載の会話分析装置を実現するためのプログラム。
JP2004084514A 2004-03-23 2004-03-23 会話分析方法、会話分析装置、および会話分析プログラム Pending JP2005274680A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004084514A JP2005274680A (ja) 2004-03-23 2004-03-23 会話分析方法、会話分析装置、および会話分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004084514A JP2005274680A (ja) 2004-03-23 2004-03-23 会話分析方法、会話分析装置、および会話分析プログラム

Publications (1)

Publication Number Publication Date
JP2005274680A true JP2005274680A (ja) 2005-10-06

Family

ID=35174463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004084514A Pending JP2005274680A (ja) 2004-03-23 2004-03-23 会話分析方法、会話分析装置、および会話分析プログラム

Country Status (1)

Country Link
JP (1) JP2005274680A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007142533A1 (en) * 2006-05-26 2007-12-13 Tandberg Telecom As Method and apparatus for video conferencing having dynamic layout based on keyword detection
JP2012146072A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラム
JP2014038132A (ja) * 2012-08-10 2014-02-27 Toshiba Corp 情報処理装置、プログラム、及び情報処理方法
KR20190121016A (ko) * 2018-04-17 2019-10-25 삼성전자주식회사 전자 장치 및 그 제어 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007142533A1 (en) * 2006-05-26 2007-12-13 Tandberg Telecom As Method and apparatus for video conferencing having dynamic layout based on keyword detection
JP2012146072A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラム
JP2014038132A (ja) * 2012-08-10 2014-02-27 Toshiba Corp 情報処理装置、プログラム、及び情報処理方法
KR20190121016A (ko) * 2018-04-17 2019-10-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111937376A (zh) * 2018-04-17 2020-11-13 三星电子株式会社 电子设备及其控制方法
EP3701715A4 (en) * 2018-04-17 2020-12-02 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD OF CONTROLLING IT
CN111937376B (zh) * 2018-04-17 2022-08-09 三星电子株式会社 电子设备及其控制方法、可读记录介质
KR102453084B1 (ko) * 2018-04-17 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법

Similar Documents

Publication Publication Date Title
US10678501B2 (en) Context based identification of non-relevant verbal communications
US8818801B2 (en) Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
US11483273B2 (en) Chat-based interaction with an in-meeting virtual assistant
US8532994B2 (en) Speech recognition using a personal vocabulary and language model
US8265933B2 (en) Speech recognition system for providing voice recognition services using a conversational language model
US10217466B2 (en) Voice data compensation with machine learning
US20220060345A1 (en) Debrief mode for capturing information relevant to meetings processed by a virtual meeting assistant
US11682401B2 (en) Matching speakers to meeting audio
US9179002B2 (en) System and method for initiating online social interactions based on conference call participation
US20120179465A1 (en) Real time generation of audio content summaries
WO2019111346A1 (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US20120143605A1 (en) Conference transcription based on conference data
US20100004922A1 (en) Method and system for automatically generating reminders in response to detecting key terms within a communication
US20100250249A1 (en) Communication control apparatus, communication control method, and computer-readable medium storing a communication control program
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
JP2019215449A (ja) 会話補助装置、会話補助方法及びプログラム
WO2011099086A1 (ja) 会議支援装置
JP2005274680A (ja) 会話分析方法、会話分析装置、および会話分析プログラム
JP2005283972A (ja) 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
WO2019202804A1 (ja) 音声処理装置および音声処理方法
CN112435669B (zh) 一种机器人多轮对话语音交互方法、系统和终端设备
US20220308825A1 (en) Automatic toggling of a mute setting during a communication session
JP4803961B2 (ja) 音声通信システムのためのコンピュータ制御式方法、装置、及びコンピュータプログラム
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060718