JP2005274680A

JP2005274680A - 会話分析方法、会話分析装置、および会話分析プログラム

Info

Publication number: JP2005274680A
Application number: JP2004084514A
Authority: JP
Inventors: Katsuya Takanashi; 克也高梨; Ikuyo Morimoto; 郁代森本
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2004-03-23
Filing date: 2004-03-23
Publication date: 2005-10-06

Abstract

【課題】次の発言者となる可能性が高い人物を特定する会話分析方法を提供する。
【解決手段】入力部１００とバッファ１０５と分析部１１０とを有する会話分析装置１を用いて、会話における各発言者の音声データを分析して文章データを取得する会話分析方法において、入力部１００が外部から三者以上による会話の音声データを入力する工程と、バッファ１０５が会話の音声データを格納する工程と、分析部１１０が、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程とを有することを特徴とする。
【選択図】図１

Description

この発明は、会話における音声データを分析して文章データを取得する会話分析方法に関するものである。

会話における音声データを分析して文章データを取得する会話分析方法は、様々なシステムや装置に利用されており、例えば、特許文献１に示されるような議事録作成システムや、特許文献２に示されるようなテレビ会議システム、特許文献３に示されるような玩具装置などに利用されている。

従来の会話分析方法は、具体的には以下のようなものである。すなわち、例えば特許文献１に開示されているように、まず、会話における音声データを収集する。次に、会話の音声データの中から発言者の音声データを抽出する。発言者の音声データの抽出は、音声データの中から音声の特徴を特に多く含む周波数帯域を抽出し、その音量が所定の閾値以上の区間（すなわち、音量が当該閾値以上になってから当該閾値以下になるまでの区間）を検出し、検出した区間に相当する音声データを抽出することによって行われる。次に、抽出した発言者の音声データに基づいて、音声データと同音の表音文字を割り当てて、音声テキストデータを作成する。次に、音声テキストデータに単語を割り当てて、文章データを取得する。
特開２０００−１１２９３１号公報特開２００２−３３０４１２号公報特開平０９−６３８９号公報

会話の参加者には、発言者（speaker）と聞き手（audience）とがいる。また、三者会話の聞き手には、発言者から見た直接の話相手である受け手（addressee）と、受け手以外の傍参加者（side-participant）とがいる。発言者は、すべての聞き手である受け手と傍参加者が理解できるように、発言する必要がある。そこで、発言者は、すべての聞き手に、受け手としての役割または傍参加者としての役割のいずれかを割り当てて、各聞き手の知識レベル（すなわち、受け手の知識レベルと傍参加者の知識レベル）を考慮して聞き手デザイン（audience design）を構成し、聞き手デザインに基づいて発言する。なお、聞き手デザインとは、ここでは、発言者から聞き手に伝達するデータを意味している。

このような三者会話では、聞き手が常に二人以上のいるため、現在の非発言者が次のターンにおける発言者（以下、次の発言者という）になるとは限らない。そのため、発言者は、「誰に次の発言者になって欲しいか」または「誰が次の発言者になるか」などのように、次の発言者となる人物を想定して聞き手デザインを構成している場合が多い。したがって、このような三者会話における会話の分析には、会話の流れを特定することが重要である。特に、次の発言者となる可能性が高い人物を、短時間で的確に判断することが重要である。

しかしながら、従来の会話分析方法は、二者会話における会話の分析を主としているため、次の発言者となる可能性が高い人物を特定していなかった。すなわち、従来の会話分析方法は、個々の発言者が発した音声を個別に分析するだけであった。そのため、従来の会話分析方法は、妥当性の高い文章データ（すなわち、意味が通じ易い文章データ）を取得することが困難な場合があった。

そこで、この発明は、三者会話におけるこのような特徴を利用して、次の発言者となる人物を特定する会話分析方法を提供することを目的とする。そして、係る会話分析方法を用いて、様々な動作（例えば、従来の会話分析方法よりも妥当性の高い文章データを取得する動作や、次の発言者となる可能性の高い人物による音声データだけを入力するような動作）を可能にする。

この発明に係る会話分析方法は、入力部とバッファと分析部とを有する会話分析装置を用いて、入力部が外部から三者以上による会話の音声データを入力する工程と、バッファが会話の音声データを格納する工程と、分析部が、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程を有することを特徴とする。

具体的には、分析部は、バッファに格納された会話の音声データの中から所定の短い単位から長い単位で発言者の音声データを順次切り出し、切り出した各発言者の音声データを対象にして会話の方向（すなわち、発言者から聞き手の方向）と方向の種類（例えば、三者会話における聞き手である二者の両方、または一方、または任意などの種類）と発言者または聞き手の知識レベルとを分析して会話の流れを示す複数のタグデータを算出し、出現頻度が最も多いタグデータに基づいて次の発言者となる可能性が高い人物を特定する。

この発明に係る会話分析方法は、会話の方向・方向の種類・発言者または聞き手の知識レベルなどの会話の流れを分析して次の発言者となる可能性が高い人物を特定する。そのため、従来の方法よりもさらに妥当性の高い文章データを取得することができる。

なお、この発明に係る会話分析方法は、例えば、以下のようにすることが好ましい。

例えば、分析部は、複数の系統を備え、複数の系統で、並列に、会話の流れを分析して次の発言者となる可能性が高い人物を特定することが好ましい。これにより、この発明に係る会話分析方法は、短時間で効率よく妥当性の高い文章データを取得することができる。

また、例えば、分析部は、次の発言者となる可能性が高い人物と各単語との関連性に基づいて単語の組み合わせを特定することが好ましい。これにより、この発明に係る会話分析方法は、さらに妥当性の高い文章データを取得することができる。

なお、この発明に係る会話分析方法に用いる会話分析装置は、外部から三者以上による会話の音声データを入力する入力部と、会話の音声データを格納するバッファと、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する分析部とを有する構成とする。

このような会話分析装置は、例えば、以下のようにすることが好ましい。

例えば、入力部は、発言者が発した音声を音声データとして入力部に出力する複数の端末装置と接続されており、分析部は、次の発言者となる可能性が高い人物を特定すると、特定した人物の端末装置に、音声データの出力を許可する信号を発することが好ましい。

または、例えば、入力部は、発言者が発した音声を音声データとして入力部に出力する複数の端末装置と接続されており、分析部は、次の発言者となる可能性が高い人物を特定すると、入力部に、特定した人物の端末装置から出力される音声データの入力を指示する信号を発することが好ましい。

このように構成された会話分析装置は、次の発言者となる可能性が高い人物が発した音声だけを音声データとして入力することができる。そのため、例えば多地点間で会話するテレビ会議システムなどおいて、円滑に会話することができる。

この発明に係る会話分析方法は、どの人物が、どのタイミングで、次の発言者となる可能性が高い人物になるのかを、短時間で的確に判断することができる。

この発明に係る会話分析方法は、入力部とバッファと分析部とを有する会話分析装置を用いて、入力部が外部から三者以上による会話の音声データを入力する工程と、バッファが会話の音声データを格納する工程と、分析部が、バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程とを有することを特徴とする。

なお、この発明に係る会話分析方法は、前述の議事録作成システムやテレビ会議システムに限らず、会話における各発言者の音声データを分析する様々なシステムや装置に適用することができる。

以下に、図を参照してこの発明を実施するための最良の形態を説明する。なお、各図は、この発明を理解できる程度に概略的に示してあるに過ぎない。よって、この発明は図示例のみに限定されるものではない。また、各図において、共通する要素や同様な要素については、同一の符号を付し、それらの重複する説明を省略する。

会話の形態には、参加者が二者だけの会話（以下、二者会話という）と三者以上の会話（以下、三者会話という）とがある。二者会話は、聞き手が一人だけであるので、現在の聞き手が次のターンにおける発言者（以下、次の発言者という）になる。これに対し、三者会話は、聞き手が複数であるので、会話の流れによっては次の発言者が異なる。そして三者会話では、誰が次の発言者になるかによって、文章の意味が異なる場合がある。そのため、三者会話では、現在の発言者は、誰に次の発言者になって欲しいかを想定して発言する場合が多い。したがって、三者会話における会話の分析には、会話の流れが重要な要素となり、特に誰が次の発言者となるのかが重要な要素となる。

しかしながら、従来の会話分析方法は、二者会話における会話の分析を主としているため、個々の発言者が発した音声を個別に分析するだけであり、会話の流れを考慮していなかった。そのため、従来の会話分析方法は、妥当性の高い文章データ（すなわち、意味が通じ易い文章データ）を取得することが困難な場合があった。

また、各単語には多数の同音異義語が存在するとともに、一人の発言者が発した音声データに含まれるデータ量は過少な傾向にある。また、会話における音声データにはノイズが混入する場合があり、正しい音声テキストデータを作成できないときがある。そのため、これによっても、従来の会話分析方法では、文章として意味が通じる単語の組み合わせを特定できず、妥当性の高い文章データ（すなわち、文章として意味が通じ易い文章データ）を取得できない場合があった。

そこで、この実施例では、会話の流れを分析して次の発言者となる可能性が高い人物を特定し、これによって、従来の会話分析方法よりも、三者会話における妥当性の高い文章データを取得できるようにする。

＜会話分析装置の構成＞
以下に、この発明に係る会話分析方法に供する会話分析装置の構成を説明する。図１は、会話分析装置の内部構成を示すブロック図である。なお、会話分析装置は、物理的な部品を用いて実現することもできるが、各構成要素の機能を実行するプログラムをコンピュータに実行させることによっても実現することができる。

図１に示すように、会話分析装置１は、外部から複数の発言者による会話の音声データを入力する入力部１００と、会話の音声データを格納するバッファ１０５と、バッファ１０５に格納された会話の音声データの中から所定の単位で発言者の音声データを切り出して会話を分析する分析部１１０と、様々なデータを外部に出力する出力部１４５とを有する。これらの構成要素の中で、特徴的な機能を有するのは、分析部１１０である。

分析部１１０は、辞書部１１５と、制御部１２０と、切り出し部１２５と、バッファ１３０と、データ作成部１３５と、特定部１４０とを備えている。

辞書部１１５は、様々なデータやプログラムを格納する部位である。辞書部１１５に格納されるデータは、例えば、バッファ１０５に格納された会話の音声データを所定の単位で切り出す切り出し用データや、単語辞書データなどである。また、辞書部１１５に格納されるプログラムは、例えば、音声データから文章データを取得する文章データ取得プログラムや、会話の内容を分析する分析用プログラムなどである。

制御部１２０は、分析部１１０の各部を制御する部位である。

切り出し部１２５は、バッファ１０５に格納された会話の音声データを所定の単位で切り出す部位である。

バッファ１３０は、切り出し部１２５によって切り出された音声データを格納する部位である。

データ作成部１３５は、切り出された音声データ毎に、文章データを取得したり、会話の流れを示すタグデータを作成する部位である。

特定部１４０は、次の発言者となる人物を特定する部位である。特定部１４０は、この実施例では、次の発言者となる人物と各単語との関連性に基づいて、データ作成部１３５によって作成された文章データを修正することができるものとする。

なお、この実施例では、分析部１１０が、複数の系統の切り出し部１２５やデータ作成部１３５などを備えており、複数の系統で、並列に動作する。そのため、この実施例は、発言者の音声データを短時間で効率よく分析することができるので、例えばテレビ会議システムなどの即応性が要求されるシステムや装置に好適である。

＜会話分析装置の動作＞
以下に、会話分析装置の動作を説明する。図２は、会話分析装置の動作を示すフローチャートである。

図２に示すように、まず、会話分析装置１は、入力部１００によって外部から複数の発言者による会話の音声データを取得し（ステップＳ１）、取得した会話の音声データをバッファ１０５に格納する（ステップＳ２）。

次に、会話分析装置１は、分析部１１０の切り出し部１２５によって、バッファ１０５に格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し（ステップＳ３）、切り出した発言者の音声データを分析部１１０のバッファ１３０に格納する（ステップＳ４）。このとき、分析部１１０の各構成要素は、以下のように動作する。

すなわち、予め、辞書部１１５には、切り出し用データが格納されている。切り出し用データは、運用の形態に応じて様々なデータが用いられるが、この実施例では、分析部１１０の系統の数に合わせて用意された、時間の長さを示す複数の値が用いられるものとする。

制御部１２０は、辞書部１１５に格納された切り出し用データを参照して、複数の切り出し部１２５のそれぞれに固有の値を設定する。

この後、複数の切り出し部１２５のそれぞれは、発言者の音声データを検出し、それぞれに固有の値に基づいて、会話の音声データの中から発言者の音声データを切り出す。発言者の音声データの検出は、例えば、複数の切り出し部１２５のそれぞれが、会話の音声データの中から音声の特徴を特に多く含む周波数帯域を抽出し、その音量が所定の大きさ以上になった箇所と所定の大きさ以下になった箇所を検出することによって行われる。また、発言者の音声データの切り出しは、例えば、複数の切り出し部１２５のそれぞれが、発言者の音声データを、その終端（すなわち、音量が所定の大きさ以下になった箇所）がそれぞれに固有の値だけ前の箇所で切り出すことによって行われる。このようにして切り出された各発言者の音声データは、終端の長さが系統毎に異なる。

この後、複数の切り出し部１２５のそれぞれは、切り出した発言者の音声データをバッファ１３０に出力し、バッファ１３０は、これらを格納する。

ステップ４の後、会話分析装置１は、分析部１１０のデータ作成部１３５によって、バッファ１３０に格納された各発言者の音声データを対象にして、音声テキストデータを作成し、作成した音声テキストデータに単語を割り当てて文章データを取得する（ステップ５）。また、会話の流れを分析し、会話の流れを示すタグデータを作成する（ステップ６）。なお、分析の詳細については、後述の＜分析の手順＞の項で詳述する。このとき、分析部１１０の各構成要素は、以下のように動作する。

すなわち、予め、辞書部１１５には、単語辞書データや、文章データ取得プログラム、分析用プログラムが格納されている。単語辞書データは、発言者の音声データに基づいて作成される音声テキストデータに、音声テキストデータと同音の単語を割り当てて文章データを取得するために供される。単語辞書データは、この実施例では、候補となる単語や各単語同士の関連性（すなわち、各単語と結びつきの高い単語）などが、単語の音順に配置されたテーブルデータであるものとする。文章データ取得プログラムは、例えば、各発言者の音声データから音声テキストデータを作成し、単語辞書データを参照して音声テキストデータに単語を割り当てて文章データを取得するために供される。分析用プログラムは、例えば、音声データから会話の方向（すなわち、発言者から聞き手の方向）や方向の種類（例えば、三者会話における聞き手である二者の両方、または一方、または任意などの種類）、発言者または聞き手の知識レベルなどの会話の流れを分析するために供される。

制御部１２０は、辞書部１１５に格納された文章データ取得プログラムに基づいて、複数のデータ作成部１３５のそれぞれを稼動させる。このとき、複数のデータ作成部１３５のそれぞれは、バッファ１３０に格納された各発言者の音声データを対象にして音声テキストデータを作成し、さらに、単語辞書データを参照して音声テキストデータに単語を割り当てて文章データを取得する。

また、制御部１２０は、辞書部１１５に格納された分析用プログラムに基づいて、複数のデータ作成部１３５のそれぞれを稼動させる。このとき、各音声テキストデータから会話の方向（すなわち、発言者から聞き手の方向）や方向の種類（例えば、三者会話における聞き手である二者の両方、または一方、または任意などの種類）、発言者または聞き手の知識レベルなどを分析してタグデータを作成する。そして、各音声テキストデータと各タグデータを特定部１４０に出力する。

なお、タグデータは、例えば以下の表１−１に示すような形式となっており、具体的には以下の表１−２に示すような形式となる。

表１−１において、「会話の方向」は、発言者から聞き手（受け手）の方向を示している。また、「方向の種類」は、例えば、三者会話における聞き手である二者の両方を選択、または二者のいずれか一方を選択、または二者の任意の者を選択などの種類を示している。また、「特定データ」は、会話の流れを特定する際に重要となるデータがあることを示している。特定データについては、表２を用いて後述する。

表１−２において、会話の方向の「Ａ」は会話の参加者Ａが発言者であることを示し、会話の方向の「Ｂ」は会話の参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。なお、方向の種類は、二者の両方を選択する場合に「Ｂ」となり、二者の一方を選択する場合に「Ｓ」となり、二者のいずれか任意の者を選択する場合に「Ｅ」となるものとする。また、特定データの「ＸＸ；ＹＹ」は、特定データとしてＸＸとＹＹの２つがあることを示している。

ステップ６の後、会話分析装置１は、分析部１１０の特定部１４０によって、最も妥当性の高い会話の流れを特定し、特定した会話の流れに基づいて次の発言者となる可能性の高い人物を特定する（ステップＳ７）。このとき、分析部１１０の各構成要素は、以下のように動作する。

すなわち、制御部１２０は、辞書部１１５に格納された分析用プログラムに基づいて、特定部１４０を稼動させる。このとき、特定部１４０は、複数のデータ作成部１３５のそれぞれによって作成されたタブデータを比較して、出現頻度が最も多いタグデータを特定する。そして、出現頻度が最も多いタグデータに基づいて、会話の方向や方向の種類などの会話の流れを特定し、これによって次の発言者となる可能性が高い人物を特定する。

ステップ７の後、会話分析装置１は、分析部１１０によって取得された文章データの修正を行う（ステップＳ８）。これは、分析部１１０が、データ作成部１３５によって作成された文章データに対して、次の発言者となる可能性が高い人物と各単語との関連性に基づいて、さらに妥当性の高い単語の組み合わせを特定することによって行われる。これにより、会話分析装置１は、さらに妥当性の高い文章データを取得することができる。なお、会話分析装置１は、次の発言者となる可能性が高い人物を特定することによって、これ以外にも、様々な動作を行うことが可能となる。例えば、会話分析装置１は、後述の実施例２や実施例３に説明するように、次の発言者となる可能性が高い人物による発言だけを入力することが可能となる。

＜分析の手順＞
以下に、分析の手順を説明する。図３は、三者会話における各参加者の組み合わせを示す図である。なお、ここでは、参加者Ａを発言者とし、参加者Ｂと参加者Ｃを聞き手として説明する。また、ここでは、参加者が三者の場合を例にして説明するが、この発明は参加者が四者以上の場合であっても適用できる。

図３に示すように、各参加者Ａ〜Ｃの組み合わせは、（ａ）発言者（参加者Ａ）と聞き手（参加者Ｂと参加者Ｃ）の全員が知人である組み合わせと、（ｂ）発言者（参加者Ａ）と聞き手（参加者Ｂ）が知人でかつ発言者（参加者Ａ）と聞き手（参加者Ｃ）が知人でかつ聞き手（参加者Ｂと参加者Ｃ）が初対面である組み合わせと、（ｃ）発言者（参加者Ａ）と聞き手（参加者Ｂ）が知人でかつ発言者（参加者Ａ）と聞き手（参加者Ｃ）が初対面でかつ聞き手（参加者Ｂと参加者Ｃ）が初対面である組み合わせと、（ｄ）発言者（参加者Ａ）と聞き手（参加者Ｂと参加者Ｃ）の全員が初対面である組み合わせの４通りある。

なお、発言者（参加者Ａ）から見た聞き手（参加者Ｂと参加者Ｃ）との関係は、（ア）二人とも知人である関係（（ａ）または（ｂ）の組み合わせ）と、（イ）一人が知人である関係（（ｃ）の組み合わせ）と、（ウ）二人とも初対面である関係（（ｄ）の組み合わせ）の３通りある。

各参加者Ａ〜Ｃが直接対面して行う会話では、聞き手（参加者Ｂと参加者Ｃ）は、非言語的な、または、言語的な、会話の流れを特定する際に重要となるデータ（以下、特定データという）を認識することによって、次の発言者となる人物を認識している。なお、非言語的な特定データとは、ジェスチャー（すなわち、身振りや手振りなどの身体の動作）やアイコンタクト（すなわち、視線の方向やウインクなどの目の動作）、顔の表情などである。また、言語的な特定データとは、名前の呼びかけ（すなわち、現在の発言者Ａが次の発言者となる人物の名前を呼ぶこと）や共通知識の言及（すなわち、現在の発言者Ａが聞き手との間で共通する知識を言及すること）などである。

しかしながら、テレビ会議システムなどのように、各参加者Ａ〜Ｃが装置を介在して行う会話では、聞き手（参加者Ｂと参加者Ｃ）は、非言語的な特定データを認識しにくい。そのため、聞き手（参加者Ｂと参加者Ｃ）は、主に、言語的な特定データ（すなわち、名前の呼びかけや共通知識の言及など）を認識することによって、次の発言者となる人物を認識している。そこで、この実施例でも、分析部１１０は、言語的な特定データを認識することによって、次の発言者となる人物を特定するものとする。

なお、言語的な特定データには、例えば以下の表２の「言語的な特定データ」の欄に示す種類がある。

すなわち、言語的な特定データ（ＬＤ）には、大きく分けて、言葉遣い（Ｗｏ）や、共有知識依存（ＣＫ）、会話連鎖依存（ＳＯ）などがある。言葉遣い（Ｗｏ）は、発言者の言葉遣いによって会話の流れが特定できることを示すデータである。共有知識依存（ＣＫ）は、各参加者Ａ〜Ｃの間における共有知識の違い（以下、共有知識レベルという）によって会話の流れが特定できることを示すデータである。会話連鎖依存（ＳＯ）は、各参加者Ａ〜Ｃの間での会話連鎖（すなわち、会話の繋がり）によって会話の流れが特定できることを示すデータである。

言葉遣い（Ｗｏ）には、呼びかけ（Ｖｏ）や、非明示的なデータ（Ｉｍ）、人称代名詞（ＰＰ）、丁寧体（ＡＨ）、非丁寧体（Ｎ−ＡＨ）、特定の語句（Ｐｈ）などがある。

呼びかけ（Ｖｏ）は、発言者によって聞き手の名前が呼ばれたこと（例えば、参加者Ａによって参加者Ｂまたは参加者Ｃの名前が呼ばれたこと）を示すデータである。呼びかけ（Ｖｏ）は、次の発言者となる人物を特定できる。呼びかけ（Ｖｏ）は、二者間での会話が継続した後に、傍参加者に話しかける場合に顕著に出現する。なお、類似の特性をもつ特定データとして固有名詞（ＰＮ）がある。固有名詞（ＰＮ）は、聞き手の名前などの特定の語彙が文主題や所有格で使用されていることを示すデータあり、これによっても次の発言者を特定できる場合がある。

非明示的なデータ（Ｉｍ）は、通常は次の発言者となる人物を特定できないが、所定の条件が揃うことで次の発言者を特定できるデータである。非明示的なデータ（Ｉｍ）は、例えば、以下の人称代名詞（ＰＰ）などを含む。

人称代名詞（ＰＰ）は、１人称複数（１ｐｌ）や、２人称複数（２ｐｌ）、１人称単数（１ｓｇ）、２人称単数（２ｓｇ）、全員（ａｌｌ）などを示すデータである。人称代名詞（ＰＰ）は、発言者の発言が１人称複数以外の場合に、次の発言者として発言者と同じカテゴリーに包含される者または排除される者のどちらが選択されるかを特定できる。ただし、人称代名詞（ＰＰ）は、発言者の発言が１人称複数の場合に、これだけでは、次の発言者として発言者Ａと同じカテゴリーに包含される者または排除される者のどちらが選択されるかを特定できない。

丁寧体（ＡＨ）は、発言者の発言が丁寧体であることを示すデータである。丁寧体（ＡＨ）は、１ターン内のような近い範囲で区別して使用されている場合に、次の発言者となる人物を特に顕著に特定できる。丁寧体（ＡＨ）は、前後の文脈に依存しないデータであり、会話を通じてほぼ不変である。

非丁寧体（Ｎ−ＡＨ）は、発言者の発言が丁寧体でないことを示すデータである。非丁寧体（Ｎ−ＡＨ）は、丁寧体（ＡＨ）と同様に、１ターン内のような近い範囲で区別して使用されている場合に、次の発言者となる人物を特に顕著に特定できる。

なお、丁寧体（ＡＨ）と非丁寧体（Ｎ−ＡＨ）は、参加者の組み合わせによって以下のような特性がある。すなわち、参加者の組み合わせが（ａ）の組み合わせ（図３参照）の場合に、丁寧体（ＡＨ）はほとんど発生せず、会話の大半が非丁寧体（Ｎ−ＡＨ）となる。そのため、この場合は、丁寧体（ＡＨ）や非丁寧体（Ｎ−ＡＨ）からは次の発言者となる人物を特定できない。参加者の組み合わせが（ｂ）または（ｃ）の組み合わせ（図３参照）の場合で、かつ、発言者から見た二者の聞き手との関係に相違がある場合に、一方にのみ、丁寧体（ＡＨ）または非丁寧体（Ｎ−ＡＨ）が発生するときがある。この場合、丁寧体（ＡＨ）や非丁寧体（Ｎ−ＡＨ）から次の発言者となる人物を特定できる。参加者の組み合わせが（ｄ）の組み合わせ（図３参照）の場合に、非丁寧体（Ｎ−ＡＨ）はほとんど発生せず、会話の大半が丁寧体（ＡＨ）となる。そのため、この場合は、丁寧体（ＡＨ）や非丁寧体（Ｎ−ＡＨ）からは次の発言者となる人物を特定できない。

例えば、データ作成部１３５は、以下の表３−１に示すような文例に基づいてタグデータを作成する。

表３−１において、データ作成部１３５は、発言者（表３−１では参加者Ｂが発言者）の「あ、まだですね。」という発言に基づいて、［Ｂ→Ｃ，Ｓ，Ａｄｊ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ｃ」は会話の参加者Ｃが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ａｄｊ」は、特定データとして隣接ペア（Ａｄｊ）があることを示している。また、データ作成部１３５は、例えば、発言者（参加者Ｂ）の「入ってからだよね？」という発言に基づいて、［Ｂ→Ａ，Ｓ，Ｎ−ＡＨ；Ｋ−Ｒｅｑ］というタグデータを作成する。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ａ」は会話の参加者Ａが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ｎ−ＡＨ；Ｋ−Ｒｅｑ」は、特定データとして非丁寧体（Ｎ−ＡＨ）と知識要求（Ｋ−Ｒｅｑ）の２つがあることを示している。

特定の語句（Ｐｈ）は、受け手または次の発言者となる人物の特定を含意できる語句があることを示すデータである。特定の語句（Ｐｈ）は、必ずしも単独で次の発言者となる人物を特定できるわけではなく、参加者の組み合わせや、各参加者の共有知識レベル、会話連鎖上の特徴との相互依存によって、次の発言者となる人物を特定できる。

また、共有知識依存（ＣＫ）には、固有名詞（ＰＮ）や、共有エピソード（ＣＥ）、知識要求（Ｋ−Ｒｅｑ）、知識伝達（Ｋ−Ｉｎｆ）などがある。なお、共有知識依存（ＣＫ）の分析は、分析部１１０が、各参加者のカテゴリーや、共有知識を形成する参加者の関係を分析することによって行われる。ここで、各参加者のカテゴリーとは、ある話題についての共有知識レベルによって分けられた、ある話題を知っている者Ｋと知らない者ｎｏｎＫとの違いである。また、共有知識を形成する参加者の関係とは、二者会話では発言者と聞き手の間だけであるが、三者会話では各参加者Ａ〜Ｃの関係によって、発言者と一方の聞き手の間（例えば、参加者Ａと参加者Ｂの間）、発言者と他方の聞き手の間（例えば、参加者Ａと参加者Ｃの間）、発言者と両方の聞き手の間（すなわち、参加者Ａと、参加者Ｂと参加者Ｃの両方の間）、聞き手同士の間（すなわち、参加者Ｂと参加者Ｃの間）の４通りある。分析部１１０は、これら各参加者のカテゴリーや共有知識を形成する参加者の関係からでも、次の発言者となる人物を特定できる場合がある。

固有名詞（ＰＮ）は、聞き手の名前などの特定の語彙が文主題や所有格で使用されていることを示すデータある。固有名詞（ＰＮ）は、特定の参加者（知っている者Ｋ、または、知らない者ｎｏｎＫ）と結びついていることが極めて多いので、次の発言者となる人物を特定できる場合がある。この実施例では、予め、辞書部１１５が、各固有名詞（ＰＮ）に対して知っている者Ｋと知らない者ｎｏｎＫとを示すデータを関連付けて格納しているものとする。そして、データ作成部１３５は、各参加者の音声データの中からある固有名詞を検出した場合に、辞書部１１０に格納されたデータを参照して当該固有名詞を知っている者Ｋと知らない者ｎｏｎＫとを割り出し、これによって聞き手または次の発言者となる人物を特定する。

共有エピソード（ＣＥ）は、発言者と聞き手の間（すなわち、参加者Ａと、参加者Ｂと参加者Ｃの一方または両方の間）で、共通のエピソードがあることを示すデータである。共有エピソード（ＣＥ）は、会話におけるエピソードを共有している相手を受け手とする場合に、次の発言者となる人物を特定できる。

知識要求（Ｋ−Ｒｅｑ）は、発言者がある知識について聞き手に尋ねていること（例えば、参加者Ａがある知識について参加者Ｂまたは参加者Ｃに尋ねていること）を示すデータである。知識要求（Ｋ−Ｒｅｑ）は、ある知識を知らない者ｎｏｎＫが知っている者Ｋを受け手としてある知識について尋ねている場合に、次の発言者となる人物を特定できる。知識要求（Ｋ−Ｒｅｑ）は、発言内容の語尾のイントネーションの抑揚などによって検出される。

知識伝達（Ｋ−Ｉｎｆ）は、発言者がある知識について聞き手に伝達していること（例えば、参加者Ａがある知識について参加者Ｂまたは参加者Ｃに伝達していること）を示すデータである。知識伝達（Ｋ−Ｉｎｆ）は、ある知識を知っている者Ｋが知らない者ｎｏｎＫを受け手としてある知識を伝えている場合に、次の発言者となる人物を特定できる。

また、会話連鎖依存（ＳＯ）には、局所的組織化（Ｌｏｃ）や、隣接ペア（Ａｄｊ）、隣接ペアの第二部分（Ａｄｊ−２ｎｄ）、直前会話への修復要求（Ｒｅｐ）、同一の受け手への連続質問（Ｓｅｑ−Ｑ）、その他の連鎖利用（Ｓｅｑ）などがある。なお、会話連鎖依存（ＳＯ）の分析は、分析部１１０が、各参加者のカテゴリーや、会話の繋がりを分析することによって行われる。

局所的組織化（Ｌｏｃ）は、局所的に密接な繋がりを持つことを示すデータである。

隣接ペア（Ａｄｊ）は、質問と応答や招待と応諾（または辞退）などのように、異なる発言者によってなされた隣接した会話対を示すデータである。隣接ペア（Ａｄｊ）の第一番目の会話対（以下、第一部分という）は、条件的な関連性によって直後の会話内容を制約するため、次の発言者となる人物を特定することができる。ただし、隣接ペア（Ａｄｊ）の第一部分は、単独では次の発言者となる人物を特定できず、他の言語的なデータ（特に、共有知識依存（ＣＫ）などのデータ）と併用することによって次の発言者となる人物を特定できる。

隣接ペアの第二部分（Ａｄｊ−２ｎｄ）は、隣接した会話対の第二番目の部分（以下、第二部分という）であることを示すデータある。隣接ペアの第二部分（Ａｄｊ−２ｎｄ）は、通常、直前のターンにおける発言者（すなわち、隣接ペア（Ａｄｊ）の第一部分の発言者）が受け手となり、次の発言者となる。隣接ペアの第二部分（Ａｄｊ−２ｎｄ）は、隣接ペア（Ａｄｊ）の第一部分が単独では次の発言者となる人物を特定できないのに対し、単独かつ高い確率で次の発言者となる人物を特定できる。

直前会話への修復要求（Ｒｅｐ）は、直前のターンにおける会話の修復を要求することを示すデータある。直前会話への修復要求（Ｒｅｐ）は、直前のターンにおける会話に、現発言者が同定できない単語（すなわち、現発言者が確認したい単語や、知らない単語、聞き取れなかった単語など）がある場合に発生しやすい。直前会話への修復要求（Ｒｅｐ）は、一語疑問文などの形式（すなわち、直前の会話の一部を疑問調で繰り返す形式）となっている。直前会話への修復要求（Ｒｅｐ）は、通常、直前のターンにおける発言者が受け手または次の発言者となる。

同一の受け手への連続質問（Ｓｅｑ−Ｑ）は、二者間で連続して質問と応答が発生していることを示すデータある。同一の受け手への連続質問（Ｓｅｑ−Ｑ）は、同一の話題において、二者間で質問者と応答者という参加役割が一定期間継続する。すなわち、同一の話題において、第二、第三の質問がなされた場合に、質問の受け手である人物が連続して応答者（次の発言者）となる。

その他の連鎖利用（Ｓｅｑ）は、上記の特定データに区分されない特定データがあることを示すデータある。その他の連鎖利用（Ｓｅｑ）には、例えば、会話の参加者の社会的属性の複数性や変化を表すデータなどがある。

ここで、共有知識や会話連鎖に依存する文例を以下の表３−２〜表３−６に示す。

表３−２に示す、発言者（参加者Ａ）の「やってる人いる？」という発言や「こん中で、高校受験地理やった人？」という発言は、二人の聞き手（参加者Ｂと参加者Ｃ）の一方または両方への知識要求（Ｋ−Ｒｅｑ）を含んでいる。この場合、二人の聞き手（参加者Ｂと参加者Ｃ）のいずれも、次の発言者となることができる。

表３−３に示す、発言者（参加者Ａ）の「誰やったっけ？」という発言は、二人の聞き手（参加者Ｂと参加者Ｃ）の一方または両方への知識要求（Ｋ−Ｒｅｑ）を含んでいる。この場合、二人の聞き手（参加者Ｂと参加者Ｃ）のいずれも、次の発言者となることができる。

表３−４に示す、発言者（参加者Ａ）の「ナカオさんと私は、同じ学部なんで。」という発言は、二人の聞き手（参加者Ｂと参加者Ｃ）の一方または両方への知識伝達（Ｋ−Ｉｎｆ）を含んでいる。

表３−５に示す、発言者（参加者Ａ）の「はじめまして。」という発言は、発言者（参加者Ａ）と聞き手は、初対面であるという共有エピソード（ＣＥ）を含んでいる。

表３−６に示す、「でな」という接続詞は、会話を続行していることを示している。また、「じゃあ」という接続詞は、直前の発言に応答していること（直前の応答への関連性）を示している。また、「そのこと」という接続詞は、直前の発言の内容を受けていること（相手先先行発言内容への前方照応）を示している。

ここで、実際の会話における各参加者の音声データから作成するタグデータの例を以下の表３−７〜表３−１０に示す。

分析部１１０のデータ作成部１３５は、例えば、以下の表３−７に示す各参加者の音声データからタグデータを作成する。

表３−７において、参加者Ａと参加者Ｂの会話は、参加者Ａはかつて参加者Ｃの実家でアルバイトをしたことがあり、参加者Ａと参加者Ｃはその共有エピソード（ＣＥ）を有していることを前提としてなされたものとする。ここでは、参加者Ａはかつて参加者Ｃの実家でアルバイトをしたことがあるという共有エピソード（ＣＥ）が参加者Ａの「おれ、バイトがいいかな。」という発言に含意されている。参加者Ａの「運送業のバイトとか？」という発言は、その「おれ、バイトがいいかな。」という発言を受けており、参加者Ａと参加者Ｃの間の共有エピソード（ＣＥ）を含んでいる。そこで、データ作成部１３５は、参加者Ａの「運送業のバイトとか？」という発言に基づいて、［Ａ→Ｃ，Ｓ，ＣＥ］というタグデータを作成することを示している。ここで、会話の方向の「Ａ」は会話の参加者Ａが発言者であることを示し、会話の方向の「Ｃ」は会話の参加者Ｃが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「ＣＥ」は、特定データとして共有エピソード（ＣＥ）があることを示している。

また、表３−７において、参加者Ｃの「うちの家、実は運送屋でございました。」という発言は、語尾が「ございました」という丁寧な口調であるとともに、ある知識（参加者Ｃの家が運送屋であること）を知っている者Ｋ（参加者Ｃ）が知らない者ｎｏｎＫ（参加者Ｂ）を受け手としてある知識を伝えているので、丁寧体（ＡＨ）と知識伝達（Ｋ−Ｉｎｆ）の２つの特定データを含んでいる。そこで、データ作成部１３５は、参加者Ｃの「うちの家、実は運送屋でございました。」という発言に基づいて、［Ｃ→Ｂ，Ｓ，ＡＨ；Ｋ−Ｉｎｆ］というタグデータを作成することを示している。ここで、会話の方向の「Ｃ」は会話の参加者Ｃが発言者であることを示し、会話の方向の「Ｂ」は会話の参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、方向の種類の「ＡＨ；Ｋ−Ｉｎｆ」は、特定データとして丁寧体（ＡＨ）と知識伝達（Ｋ−Ｉｎｆ）の２つがあることを示している。

また、表３−７において、参加者Ｂの「へえー。おか、オカザキ運送ですか？」という発言は、質問と応答という、異なる発言者によってなされた隣接する会話対における発言であり、条件的な関連性によって直後の会話内容を制約しているので、隣接ペア（Ａｄｊ）を含んでいる。そこで、データ作成部１３５は、参加者Ｂの「へえー。おか、オカザキ運送ですか？」という発言に基づいて、［Ｂ→Ｃ，Ｓ，Ａｄｊ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ｃ」は会話の参加者Ｃが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、方向の種類の「Ａｄｊ」は、特定データとして隣接ペア（Ａｄｊ）があることを示している。

また、分析部１１０のデータ作成部１３５は、例えば、以下の表３−８に示す各参加者の音声データからタグデータを作成する。

表３−８において、参加者Ａと参加者Ｂの会話は、参加者Ａがテニスをしており、参加者Ａが最近ラケットを買ったことを前提としてなされたものとする。なお、この実施例では、分析部１１０は、予め、「ラケット」や「テニス」などの単語と「参加者Ａ」とを関連付けて固有名詞（ＰＮ）を作成し、辞書部１１５に格納しているものとする。参加者Ｂの「でも、ラケットって、一回買ったらオッケーやんな。」という発言は、「ラケット」という語彙が文主題で使用されているとともに、ある知識（ラケットは長期間の使用に耐えられるということ）を知らない者ｎｏｎＫ（参加者Ｂ）が知っている者Ｋ（参加者Ａ）を受け手としてある知識について尋ねているので、固有名詞（ＰＮ）と知識要求（Ｋ−Ｒｅｑ）を含んでいる。そこで、データ作成部１３５は、参加者Ｂの「でも、ラケットって、一回買ったらオッケーやんな。」という発言に基づいて、［Ｂ→Ａ，Ｓ，ＰＮ；Ｋ−Ｒｅｑ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ａ」は会話の参加者Ａが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「ＰＮ；Ｋ−Ｒｅｑ」は、特定データとして固有名詞（ＰＮ）と知識要求（Ｋ−Ｒｅｑ）があることを示している。ここでは、参加者Ａと参加者Ｂの間に、「ラケット（を用いるテニス）」に関する共有知識があり、参加者Ｂが参加者Ａに知識要求（Ｋ−Ｒｅｑ）をしている。

また、分析部１１０のデータ作成部１３５は、例えば、以下の表３−９に示す各参加者の音声データからタグデータを作成する。

表３−９において、参加者Ａと参加者Ｃの会話は、参加者Ａはホームステイをしており、参加者Ａと参加者Ｃはその共有エピソード（ＣＥ）を有していることを前提としてなされたものとする。参加者Ｃの「タカダの方は、あれやな？」という発言は、「あれ」と問いかけているとともに、「タカダの方は」と呼びかけているので、共有エピソード（ＣＥ）と呼びかけ（Ｖｏ）の２つの特定データを含んでいる。そこで、データ作成部１３５は、参加者Ｃの「タカダの方は、あれやな？」という発言に基づいて、［Ｃ→Ａ，Ｓ，ＣＥ；Ｖｏ］というタグデータを作成することを示している。ここで、会話の方向の「Ｃ」は会話の参加者Ｃが発言者であることを示し、会話の方向の「Ａ」は会話の参加者Ａが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「ＣＥ」は、特定データとして共有エピソード（ＣＥ）があることを示している。

また、表３−９において、参加者Ａの「そう、ホームステイしてきました。」という発言は、語尾が「ました」という丁寧な口調であるとともに、ある知識（ホームステイしていたこと）を知っている者Ｋ（参加者Ａ）が知らない者ｎｏｎＫ（参加者Ｂ）を受け手としてある知識を伝えているので、丁寧体（ＡＨ）と知識伝達（Ｋ−Ｉｎｆ）の２つの特定データを含んでいる。そこで、データ作成部１３５は、参加者Ａの「そう、ホームステイしてきました。」という発言に基づいて、［Ａ→Ｂ，Ｓ，ＡＨ；Ｋ−Ｉｎｆ］というタグデータを作成することを示している。ここで、会話の方向の「Ａ」は会話の参加者Ａが発言者であることを示し、会話の方向の「Ｂ」は会話の参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「ＡＨ；Ｋ−Ｉｎｆ」は、特定データとして丁寧体（ＡＨ）と知識伝達（Ｋ−Ｉｎｆ）があることを示している。

また、表３−９において、参加者Ｂの「へえー。」という発言は、参加者Ｃの「タカダの方は、あれやな？」という発言と参加者Ａの「そう、ホームステイしてきました。」という発言の後の発言であり、同一の話題においてなされた発言である。そのため、参加者Ｂの「へえー。」という発言は、隣接した会話対の第二番目の部分における発言であり、隣接ペアの第二部分（Ａｄｊ−２ｎｄ）を含んでいる。そこで、データ作成部１３５は、参加者Ｂの「へえー。」という発言に基づいて、［Ｂ→Ａ，Ｓ，Ａｄｊ−２ｎｄ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ａ」は会話の参加者Ａが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ａｄｊ−２ｎｄ」は、特定データとして隣接ペアの第２部分（Ａｄｊ−２ｎｄ）があることを示している。

また、分析部１１０のデータ作成部１３５は、例えば、以下の表３−１０に示す各参加者の音声データからタグデータを作成する。

表３−１０において、参加者Ａと参加者Ｂの会話は、参加者Ａには「カタク」というあだ名がつけられており、参加者Ａと参加者Ｂはその共有エピソード（ＣＥ）を有していることを前提としてなされたものとする。参加者Ａの「カタク、どうなった？」という発言は、「カタク」という固有名詞（ＰＮ）を含んでいる。そこで、データ作成部１３５は、参加者Ａの「カタク、どうなった？」という発言に基づいて、［Ａ→Ｂ，Ｓ，ＰＮ］というタグデータを作成することを示している。ここで、会話の方向の「Ａ」は会話の参加者Ａが発言者であることを示し、会話の方向の「Ｂ」は会話の参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「ＰＮ」は、特定データとして固有名詞（ＰＮ）があることを示している。

また、表３−１０において、参加者Ｂの「あれはな、一部。」という発言は、参加者Ａの「カタク、どうなった？」という発言の後の発言であり、同一の話題においてなされた発言である。そのため、参加者Ｂの「あれはな、一部。」という発言は、隣接した会話対における発言であり、隣接ペア（Ａｄｊ）を含んでいる。そこで、データ作成部１３５は、参加者Ｂの「あれはな、一部。」という発言に基づいて、［Ｂ→Ａ，Ｓ，Ａｄｊ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ａ」は会話の参加者Ａが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ａｄｊ」は、特定データとして隣接ペア（Ａｄｊ）があることを示している。

また、表３−１０において、参加者Ｂの「キャンプでさあ、あだ名が決定してん。」という発言は、ある知識（あだ名が決定したこと）を知っている者Ｋ（参加者Ｂ）が知らない者ｎｏｎＫ（参加者Ｃ）を受け手としてある知識を伝えているので、知識伝達（Ｋ−Ｉｎｆ）を含んでいる。そこで、データ作成部１３５は、参加者Ｂの「キャンプでさあ、あだ名が決定してん。」という発言に基づいて、［Ｂ→Ｃ，Ｓ，Ｋ−Ｉｎｆ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ｃ」は会話の参加者Ｃが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ｋ−Ｉｎｆ」は、特定データとして知識伝達（Ｋ−Ｉｎｆ）があることを示している。

なお、表３−１０において、分析部１１０のデータ作成部１３５は、参加者Ａの矢印を付した箇所の発言に基づいて、以下のようにして次の発言者となる人物として参加者Ｂを特定する。

すなわち、分析部１１０のデータ作成部１３５は、辞書部１１５に格納された各参加者Ａ〜Ｃの共有エピソードを参照する。そして、参加者Ａの矢印を付した箇所の発言に基づいて、分析部１１０のデータ作成部１３５は、参加者Ａは［Ａ１：参加者Ｂはカタク知っていること］および［Ａ２：参加者Ｃはカタクを知らないこと］を想定していると分析する。また、分析部１１０のデータ作成部１３５は、参加者Ｂは［Ｂ１：参加者Ａは誰かがカタクを知っていると思っていること］および［Ｂ１：参加者Ｂはカタクとは何かを知っていること］を認識していると分析する。

また、分析部１１０のデータ作成部１３５は、参加者Ｃは［Ｃ１：参加者Ａは誰かがカタクを知っていると思っていること］および［Ｃ２：参加者Ｃはカタクを知らないこと］を認識していると分析する。

これにより、分析部１１０のデータ作成部１３５は、参加者Ｂがこの会話の受け手または次の発言者の候補の一人であると分析する。なお、このとき、分析部１１０のデータ作成部１３５は、この分析と平行して、参加者Ｃは［Ｃ３：参加者Ｂはカタクを知っていること］を認識しているか否かも分析する。これにより、分析部１１０のデータ作成部１３５は、次の発言者となる人物として参加者Ｂを特定する。

このように、ある語彙や共有エピソード（ＣＥ）の言及は、参加者の共有知識の相違（または共有知識についての各参加者の想定や認識）を利用することによって、各参加者を「知っている者Ｋ」と「知らない者ｎｏｎＫ」という集合へカテゴリー化（共−成員性co-membership）するとともに、各参加者に参加役割を割り当てる（例えば、参加者Ａを発言者とし、参加者Ｂを受け手とし、参加者Ｃを傍参加者とする）ための特定データとなる。ただし、共−成員性と参加役割や次の発言者となる人物の特定とは連動しているが、これによって一意に次の発言者となる人物が特定できるわけではない。

ここで、両者の関係を共有知識依存（ＣＫ）の諸データと関連づけて整理すると以下の表４−１〜表４−３のようになる。

共有エピソード（ＣＥ）は、「知っている者Ｋ」内の共−成員間での会話で発生する。知識要求（Ｋ−Ｒｅｑ）と知識伝達（Ｋ−Ｉｎｆ）は、「知っている者Ｋ」の成員と「知らない者ｎｏｎＫ」の成員の間での会話で発生する。共有エピソード（ＣＥ）と知識伝達（Ｋ−Ｉｎｆ）は、共−成員性は同一だが、ある会話の受け手が前者では「知っている者Ｋ」、後者では「知らない者ｎｏｎＫ」となる。

また、分析部１１０のデータ作成部１３５は、例えば、以下の表５−１に示す各参加者の音声データからタグデータを作成する。

表５−１において、参加者Ａの「ケンちゃん？」という発言は、参加者Ａが「ケンちゃん」という固有名詞（ＰＮ）が同定できなかったことによる聞き返しであり、直前会話の修復要求（Ｒｅｐ）を含んでいる。直前会話の修復要求（Ｒｅｐ）は、前述の通り、一語疑問文の形式（すなわち、直前の会話の一部を疑問調で繰り返す形式）となっている。そこで、データ作成部１３５は、参加者Ａの「ケンちゃん？」という発言に基づいて、［Ａ→Ｂ，Ｓ，Ｒｅｐ］というタグデータを作成することを示している。ここで、会話の方向の「Ａ」は会話の参加者Ａが発言者であることを示し、会話の方向の「Ｂ」は会話の参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ｒｅｐ」は、特定データとして直前会話への修復要求（Ｒｅｐ）があることを示している。

また、分析部１１０のデータ作成部１３５は、例えば、以下の表５−２に示す各参加者の音声データからタグデータを作成する。

表５−２において、参加者Ｃの「サークルとかなんか入ってはるんですか？」という発言は、ある知識（参加者Ａと参加者Ｂがサークルに入っているか否か）を知らない者ｎｏｎＫ（参加者Ｃ）が知っている者Ｋ（参加者Ａと参加者Ｂ）を受け手としてある知識について尋ねており、知識要求（Ｋ−Ｒｅｑ）を含んでいる。そこで、データ作成部１３５は、参加者Ｃの「サークルとかなんか入ってはるんですか？」という発言に基づいて、［Ｃ→Ａ＆Ｂ，Ｂ，Ｋ−Ｒｅｑ］というタグデータを作成することを示している。ここで、会話の方向の「Ｃ」は会話の参加者Ｃが発言者であることを示し、会話の方向の「Ａ＆Ｂ」は会話の参加者Ａと参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｂ」は、両方を選択することを示している。また、特定データの「Ｋ−Ｒｅｑ」は、特定データとして知識要求（Ｋ−Ｒｅｑ）があることを示している。

また、表５−２において、参加者Ｂの「あ、はい。私は入ってます。」という発言は、参加者Ｃの「サークルとかなんか入ってはるんですか？」という発言の後の発言であり、同一の話題においてなされた発言である。そのため、参加者Ｂの「あ、はい。私は入ってます。」という発言は、隣接した会話対における発言であり、隣接ペア（Ａｄｊ）を含んでいる。そこで、データ作成部１３５は、参加者Ｂの「あ、はい。私は入ってます。」という発言に基づいて、［Ｂ→Ｃ，Ｓ，Ａｄｊ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ｃ」は会話の参加者Ｃが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ａｄｊ」は、特定データとして隣接ペア（Ａｄｊ）があることを示している。

また、表５−２において、参加者Ａの「何？」という発言は、同一の話題において、続けて質問がなされており、同一の受け手への連続質問（Ｓｅｑ−Ｑ）を含んでいる。そこで、データ作成部１３５は、参加者Ｃの「何？」という発言に基づいて、［Ｃ→Ｂ，Ｓ，Ｓｅｑ−Ｑ］というタグデータを作成することを示している。ここで、会話の方向の「Ｃ」は会話の参加者が発言者Ｃであることを示し、会話の方向の「Ｂ」は会話の参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「Ｓｅｑ−Ｑ」は、特定データとして同一の受け手への連続質問（Ｓｅｑ−Ｑ）があることを示している。

また、表５−２において、参加者Ｂの「えっと山登りが好きで、ふふふ、山登りを、やっております。」という発言は、語尾が「おります」という丁寧な口調であるので、丁寧体（ＡＨ）を含んでいる。また、参加者Ｂの「あ、はい。私は入ってます。」という発言と参加者Ｃの「何？」という発言の後の発言であり、同一の話題においてなされた発言であるので、隣接した会話対の第二番目の部分における発言であり、隣接ペアの第二部分（Ａｄｊ−２ｎｄ）を含んでいる。そこで、データ作成部１３５は、参加者Ｂの「えっと山登りが好きで、ふふふ、山登りを、やっております。」という発言に基づいて、［Ｂ→Ｃ，Ｓ，ＡＨ；Ａｄｊ−２ｎｄ］というタグデータを作成することを示している。ここで、会話の方向の「Ｂ」は会話の参加者Ｂが発言者であることを示し、会話の方向の「Ｃ」は会話の参加者Ｃが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「ＡＨ；Ａｄｊ−２ｎｄ」は、特定データとして丁寧体（ＡＨ）と隣接ペアの第二部分（Ａｄｊ−２ｎｄ）の２つがあることを示している。なお、このとき、分析部１１０は、「山登り」（または「山」と「登る」の組み合わせ）と「参加者Ｂ」とを関連付けて固有名詞（ＰＮ）を作成し、辞書部１１５に格納する。

また、表５−２において、参加者Ｃの「どっか高い山とか登らはったんですか？」という発言は、「山」と「登る」の組み合わせによる固有名詞（ＰＮ）を含んでいる。また、同一の話題において、続けて質問がなされており、同一の受け手への連続質問（Ｓｅｑ−Ｑ）を含んでいる。そこで、データ作成部１３５は、参加者Ｃの「どっか高い山とか登らはったんですか？」という発言に基づいて、［Ｃ→Ｂ，Ｓ，ＰＮ；Ｓｅｑ−Ｑ］というタグデータを作成することを示している。ここで、会話の方向の「Ｃ」は会話の参加者Ｃが発言者であることを示し、会話の方向の「Ｂ」は会話の参加者Ｂが聞き手（受け手）であることを示している。また、方向の種類の「Ｓ」は、一方を選択することを示している。また、特定データの「ＰＮ；Ｓｅｑ−Ｑ」は、特定データとして固有名詞（ＰＮ）と同一の受け手への連続質問（Ｓｅｑ−Ｑ）の２つがあることを示している。

分析部１１０のデータ作成部１３５は、このようにして、バッファ１３０に格納された各発言者の音声データの中からこれらの特定データを分析して、前述の表１−１や表１−２に示すタグデータ（すなわち、例えば、［会話の方向，方向の種類，特定データ］を形式とするタグデータ）を作成する。

その後、特定部１４０は、データ作成部１３５が作成した各タグデータを比較し、出現頻度が最も多いタグデータを特定する。特定されたタグデータは、最も妥当性が高いものとして扱われる。すなわち、特定部１４０は、特定したタグデータを参照して（特に、タグデータが規定する特定データを参照して）、データ作成部１３５が作成した音声テキストデータに基づいて、文章データを取得する。

以上の通り、実施例１に係る会話分析装置１は、次の発言者となる可能性が高い人物を特定することができるので、これに基づく様々な動作を行うこと（例えば、文章データの修正を行うようにすれば、さらに妥当性の高い文章データを取得することなど）ができる。

前述の実施例１では、次の発言者となる可能性が高い人物を特定することによって、データ作成部１３５によって取得された文章データを修正し、これによってさらに妥当性の高い文章データを取得している。これに対し、実施例２では、次の発言者となる可能性が高い人物を特定することによって、次の発言者となる可能性が高い人物による発言だけを入力する。以下に、図４を用いて実施例２を説明する。なお、図４は、会話分析装置の動作を示す図である。

図４に示すように、実施例２に係る会話分析装置１は、有線や無線による通信網３００を介して複数の端末装置４００−１〜４００−ｎと接続されている。各端末装置４００−１〜４００−ｎは、図示しないマイクやカメラを備えており、マイクによって会話の参加者の音声を内部に取り入れて音声データとして会話分析装置１に出力するとともに、カメラによって会話の参加者の画像を内部に取り入れて画像データとして会話分析装置１に出力する。

会話分析装置１は、以下のように構成されている。すなわち、入力部１００は、発言者が発した音声を音声データとして入力部１００に出力する複数の端末装置４００−１〜４００−ｎと接続されており、分析部１１０は、次の発言者となる可能性が高い人物を特定すると、特定した人物の端末装置４００−ｉに、音声データの出力を許可する信号を発するように構成されている。

このような会話分析装置１は、以下のように動作する。すなわち、まず、会話分析装置１は、各端末装置４００−１〜４００−ｎが出力した音声データや画像データを入力部１００から入力してバッファ１０５に格納し、分析部１１０によって会話の流れを分析する。そして、分析部１１０は、次の発言者となる可能性が高い人物を特定すると、出力部１４５を介して、特定した人物の端末装置４００−ｉに、音声データの出力を許可する信号を発する。なお、図４において、出力部１４５から端末装置４００−ｉに向けて引き出された矢印は、音声データの出力を許可する信号を示している。分析部１１０によって特定された端末装置（すなわち、次の発言者となる可能性が高い人物の端末装置）４００−ｉは、会話分析装置１から音声データの出力を許可する信号を入力すると、会話分析装置１に音声データを出力する。なお、図４において、端末装置４００−ｉから入力部１００に向けて引き出された矢印は、音声データを示している。このようにして、会話分析装置１は、次の発言者となる可能性が高い人物による発言だけを入力する。

以上の通り、実施例２に係る会話分析装置１は、次の発言者となる可能性が高い人物による発言だけを入力することができる。

前述の実施例２では、特定した人物の端末装置４００−ｉだけが会話分析装置１に音声データを出力する。これに対し、実施例３では、会話分析装置１は特定した人物の端末装置４００−ｉから出力される音声データだけを入力する。以下に、図５を用いて実施例３を説明する。なお、図５は、会話分析装置の動作を示す図である。

図５に示すように、実施例３に係る会話分析装置１は、実施例２と同様に、有線や無線による通信網３００を介して複数の端末装置４００−１〜４００−ｎと接続されている。各端末装置４００−１〜４００−ｎは、図示しないマイクやカメラを備えており、マイクによって会話の参加者の音声を内部に取り入れて音声データとして会話分析装置１に出力するとともに、カメラによって会話の参加者の画像を内部に取り入れて画像データとして会話分析装置１に出力する。

会話分析装置１は、以下のように構成されている。すなわち、入力部１００は、発言者が発した音声を音声データとして入力部１００に出力する複数の端末装置４００−１〜４００−ｎと接続されており、分析部１１０は、次の発言者となる可能性が高い人物を特定すると、入力部１００に、特定した人物の端末装置４００−ｉから出力される音声データの入力を指示する信号を発するように構成されている。

このような会話分析装置１は、以下のように動作する。すなわち、まず、会話分析装置１は、各端末装置４００−１〜４００−ｎが出力した音声データや画像データを入力部１００から入力してバッファ１０５に格納し、分析部１１０によって会話の流れを分析する。そして、分析部１１０の制御部１２０は、次の発言者となる可能性が高い人物を特定すると、入力部１００に、特定した人物の端末装置４００−ｉから出力される音声データの入力を指示する信号を発する。なお、図５において、制御部１２０から入力部１００に向けて引き出された矢印は、特定した人物の端末装置４００−ｉから出力される音声データの入力を指示する信号を示している。各端末装置４００−１〜４００−ｎは、随時、マイクによって会話の参加者の音声を内部に取り入れて音声データとして会話分析装置１に出力するとともに、カメラによって会話の参加者の画像を内部に取り入れて画像データとして会話分析装置１に出力する。会話分析装置１の入力部１００は、分析部１１０によって特定された端末装置（すなわち、次の発言者となる可能性が高い人物の端末装置）４００−ｉから出力される音声データのみを入力する。なお、図５において、各端末装置４００−１〜４００−ｎから入力部１００に向けて引き出された矢印は、音声データを示している。また、各音声データに付された○印は、入力部１００によって入力される音声データを示している。さらに、各音声データに付された×印は、入力部１００によって入力を拒絶される音声データを示している。このようにして、会話分析装置１は、次の発言者となる可能性が高い人物による発言だけを入力する。

以上の通り、実施例３に係る会話分析装置１は、実施例２と同様に、次の発言者となる可能性が高い人物による発言だけを入力することができる。

この発明は、前述の実施例１〜３に限定されることなく、この発明の要旨を逸脱しない範囲で種々の応用や変形が考えられる。

例えば、この発明は、前述の通り、議事録作成システムやテレビ会議システムに限らず、会話における各発言者の音声データを分析する様々なシステムや装置に適用することができる。また、二者会話における会話分析に適用することができる。また、会話分析部１の入力部１００は、会話データを記憶した記憶媒体からデータを読み出すリーダー装置としてもよい。

会話分析装置の内部構成を示すブロック図である。会話分析装置の動作を示すフローチャートである。会話の参加者の組み合わせを示す図である。会話分析装置の動作を示す図である。会話分析装置の動作を示す図である。

符号の説明

１ …会話分析装置
１００ …入力部
１０５ …バッファ
１１０ …分析部
１１５ …辞書部
１２０ …制御部
１２５ …切り出し部
１３０ …バッファ
１３５ …データ作成部
１４０ …特定部
１４５ …出力部

Claims

入力部とバッファと分析部とを有する会話分析装置を用いて、会話における各発言者の音声データを分析して文章データを取得する会話分析方法において、
前記入力部が外部から三者以上による会話の音声データを入力する工程と、
前記バッファが会話の音声データを格納する工程と、
前記分析部が、前記バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する工程とを有することを特徴とする会話分析方法。
前記分析部は、前記バッファに格納された会話の音声データの中から所定の短い単位から長い単位で発言者の音声データを順次切り出し、切り出した各発言者の音声データを対象にして会話の方向と方向の種類と発言者または聞き手の知識レベルとを分析して会話の流れを示す複数のタグデータを算出し、出現頻度が最も多いタグデータに基づいて次の発言者となる可能性が高い人物を特定することを特徴とする請求項１に記載の会話分析方法。
前記分析部は、複数の系統を備え、複数の系統で、並列に、会話の流れを分析して次の発言者となる可能性が高い人物を特定することを特徴とする請求項１または２に記載の会話分析方法。
前記分析部は、次の発言者となる可能性が高い人物と各単語との関連性に基づいて単語の組み合わせを特定することを特徴とする請求項１〜３のいずれか１項に記載の会話分析方法。
外部から三者以上による会話の音声データを入力する入力部と、
会話の音声データを格納するバッファと、
前記バッファに格納された会話の音声データの中から所定の単位で発言者の音声データを切り出し、会話の流れを分析して次の発言者となる可能性が高い人物を特定する分析部とを有することを特徴とする会話分析装置。
前記入力部は、発言者が発した音声を音声データとして前記入力部に出力する複数の端末装置と接続されており、
前記分析部は、次の発言者となる可能性が高い人物を特定すると、特定した人物の前記端末装置に、音声データの出力を許可する信号を発することを特徴とする請求項５に記載の会話分析装置。
前記入力部は、発言者が発した音声を音声データとして前記入力部に出力する複数の端末装置と接続されており、
前記分析部は、次の発言者となる可能性が高い人物を特定すると、前記入力部に、特定した人物の前記端末装置から出力される音声データの入力を指示する信号を発することを特徴とする請求項５に記載の会話分析装置。
コンピュータにより、請求項５〜７のいずれか１項に記載の会話分析装置を実現するためのプログラム。