JP2017009825A - Conversation state analyzing device and conversation state analyzing method - Google Patents
Conversation state analyzing device and conversation state analyzing method Download PDFInfo
- Publication number
- JP2017009825A JP2017009825A JP2015125631A JP2015125631A JP2017009825A JP 2017009825 A JP2017009825 A JP 2017009825A JP 2015125631 A JP2015125631 A JP 2015125631A JP 2015125631 A JP2015125631 A JP 2015125631A JP 2017009825 A JP2017009825 A JP 2017009825A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- conversation
- utterances
- speaker
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、複数の話者による会話の状況を分析する技術に関する。 The present invention relates to a technique for analyzing a situation of conversation between a plurality of speakers.
近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。複数の人間が会話している状況においてコンピュータが適切な介入を行うためには、複数話者による会話音声に基づいて現在の状況を把握する必要がある。 In recent years, research and development of techniques for performing various interventions such as proposals and assistance from humans to computers have been underway. In order for a computer to appropriately intervene in a situation where a plurality of people are talking, it is necessary to grasp the current situation based on conversational speech by a plurality of speakers.
特許文献1は、複数の話者の音声特徴を分析・比較する技術を開示する。特許文献1では、第1および第2の人の音声の特徴から第1および第2の人の分類情報を求めて、2つの分類情報の組み合わせに基づいて第1および第2の人の相性を分析している。
特許文献2,3は、電話での会話から、話者が特定の感情(不満、満足、謝罪など)を表す区間を特定する技術を開示する。特許文献2,3では、各区間における話者の感情を個別に検出し、話者間の感情の変化パターンに応じて特定感情を表す区間を特定している。
特許文献1の手法は、複数の話者の音声特徴から話者の相性を分析しているが、会話の状況を分析しているわけではない。また、特許文献2,3の手法も、話者が特定の感情を示している区間を特定しているだけであり、会話におけるそれぞれの発話の関係性を特定しているわけではない。いずれの手法も、会話におけるそれぞれの発話の関係性や発話全体の分析を行うことはできない。
The method of
上記のような問題を考慮して、本発明は、複数の話者による発話の関係性を分析可能な技術を提供することを目的とする。 In view of the above problems, an object of the present invention is to provide a technique capable of analyzing the relationship between utterances by a plurality of speakers.
上記目的を達成するために、本発明の第一の態様は、複数の話者による会話の状況を分析する会話状況分析装置であって、複数の話者による会話音声を取得する取得手段と、前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、発話内容に基づいて発話間の関係性を分析する分析手段であって、発話ごとの内容に基づいて各発話の会話テーマを推定し、同一の会話テーマと推定される発話を一連の発話群であると特定する分析手段と、を備える。 In order to achieve the above object, a first aspect of the present invention is a conversation situation analyzing apparatus for analyzing a conversation situation by a plurality of speakers, and acquiring means for acquiring conversation voices by a plurality of speakers, Separation means for separating the conversational voice into a plurality of utterances for each speaker and each utterance section; a recognition means for recognizing the utterance content using speech recognition processing for each of the plurality of utterances; and Analyzing the relationship between utterances, estimating the conversation theme of each utterance based on the content of each utterance, and identifying the utterances estimated as the same conversation theme as a series of utterances Analyzing means.
このようにすれば、同一の会話テーマについて発話群を特定することができる。また、複数の話者が異なるグループに分かれて異なるテーマについて会話している場合でも、適切に一連の発話群を特定できる。 In this way, utterance groups can be specified for the same conversation theme. Moreover, even when a plurality of speakers are divided into different groups and are talking about different themes, a series of utterance groups can be appropriately specified.
ここで、発話の内容は発話のテキストを意味する。したがって、分析手段は発話のテキストから各発話の会話テーマの同一性を推定する。なお、一連の発話群の特定は、発話の内容だけに基づいて行う必要はなく、発話のタイミングなどその他の情報にも基づいて行って構わない。例えば、発話の内容からだけでは会話テーマが推定できない場合には、当該発話の直前または直後の発話が属する会話のテーマあるいは当該発話の話者が直前に話した会話のテーマと同一としてもよい。 Here, the content of the utterance means the text of the utterance. Therefore, the analysis means estimates the identity of the conversation theme of each utterance from the utterance text. Note that a series of utterance groups need not be determined based on the content of utterances alone, but may be performed based on other information such as the timing of utterances. For example, when the conversation theme cannot be estimated only from the content of the utterance, it may be the same as the theme of the conversation to which the utterance immediately before or immediately after the utterance belongs or the conversation theme spoken immediately by the speaker of the utterance.
本発明において、前記認識手段は、音声認識処理により得られる発話のテキストを辞書と照合することにより前記発話内容を認識し、前記分析手段は、前記認識手段によって認識される発話内容のテキストと辞書を照合することにより、発話の意図と話題を求め、当該発話の意図および話題に基づいて当該発話の会話テーマを推定する、ことができる。発話意図の例として、話題の切り出し、提案、提案への賛成・反対、意見の集約などが挙げられる。発話の話題は、発話のジャンル、話題となっている場所やものが含まれる。発話のジャンルの例として、飲食、旅行、音楽、天候などが挙げられる。話題となっている場所やものの例として、地名、ランドマーク、店舗・施設名など挙げられる。このように発話内容(テキスト)に基づいて発話の意図や話題を考慮することで、より適切に会話テーマを推定することができる。 In the present invention, the recognizing unit recognizes the utterance content by comparing the utterance text obtained by voice recognition processing with a dictionary, and the analyzing unit recognizes the utterance content text and the dictionary recognized by the recognition unit. , The utterance intention and topic can be obtained, and the conversation theme of the utterance can be estimated based on the utterance intention and topic. Examples of utterance intentions include topic extraction, proposals, approval / disapproval of proposals, and aggregation of opinions. The topic of the utterance includes the genre of the utterance and the location or thing that is the topic. Examples of utterance genres include eating and drinking, travel, music, and weather. Examples of places and things that are talked about include place names, landmarks, store / facility names, and the like. Thus, the conversation theme can be estimated more appropriately by considering the intention and topic of the utterance based on the utterance content (text).
本発明における会話状況分析装置は、前記複数の発話のそれぞれについて、音声特徴量を算出する特徴量算出手段をさらに備え、前記分析手段は、各話者について音声特徴量の変化に基づいてそれぞれの発話時における話者の感情を推定し、当該感情も考慮して前記発話の意図を推定する、ことも好ましい。話者の感情も考慮することで、発話の意図をより正確にあるいはより詳細に推定することができる。例えば、発話の内容は提案への賛成であったとしても、感情が不満や苛立ちを表している場合には、当該発話の意図が不本意な賛成であると推定できる。 The conversation state analyzing apparatus according to the present invention further includes a feature amount calculating unit that calculates a speech feature amount for each of the plurality of utterances, and the analysis unit is configured to determine each speaker based on a change in the speech feature amount. It is also preferable to estimate a speaker's emotion at the time of utterance and to estimate the intention of the utterance in consideration of the emotion. By considering the emotion of the speaker, the intention of the utterance can be estimated more accurately or in detail. For example, even if the content of the utterance is in favor of the proposal, if the emotion represents dissatisfaction or irritation, it can be estimated that the intention of the utterance is unwilling to agree.
本発明において、前記分析手段は、発話の意図、発話の特徴量、発話時の話者の感情などに基づいて、前記一連の発話群における発話間の対応関係や話者間の関係を取得する、ことも好ましい。発話間の対応関係や話者間の関係は、例えば、ある話者のある発話がどの話者のどの発話に対する応答であるかや、ある話者がどの話者とどのように会話上でつながっているかを示すものである。上述のようにそれぞれの発話についてその意図を求めているので、発話間の対応関係や会話上での話者間の関係を精度良く求めることができる。なお、発話間の対応関係や話者間の対応関係は、発話の意図のみに基づいて決定する必要はなく、発話の話題や発話のタイミング、各発話の特徴量の変化などその他の情報に基づいて決定してもよい。例えば、発話の意図からは発話の対応関係が確実には分からない場合や、発話の意図が取得できない場合には、当該発話は同一会話内の直前または直後の発話と対応付けてもよい。また、例えば、ある話者の提案を意図する発話の直後に、意図が抽出できない別の話者の短い発話があった場合、発話の特徴量を分析して、当該発話をその直前の発話に対する相槌(同意)や嘆き(否定)を示す発話であると対応づけることができる。このようにして、発話間の対応関係(ある発話がどの発話とどのような関係でつながっているのかなど)や、会話上での話者間の関係(ある話者間でどのような発話がどの程度発生していて、その話者間の上下関係や親密性がどのように推定されるかなど)を求めることができる。 In the present invention, the analysis means acquires correspondence between utterances or relation between speakers in the series of utterance groups based on the intention of the utterance, the feature amount of the utterance, the emotion of the speaker at the time of utterance, and the like. It is also preferable. The correspondence between utterances and the relationship between speakers is, for example, which utterance of a certain speaker is a response to which utterance of which speaker, and how a certain speaker is connected to which speaker in the conversation. It indicates whether or not Since the intention of each utterance is obtained as described above, the correspondence between utterances and the relationship between speakers on the conversation can be obtained with high accuracy. Note that the correspondence between utterances and the correspondence between speakers do not need to be determined based solely on the intention of the utterance, but based on other information such as the topic of the utterance, the timing of the utterance, and changes in the feature amount of each utterance. May be determined. For example, when the correspondence between utterances is not sure from the intention of the utterance, or when the intention of the utterance cannot be acquired, the utterance may be associated with the utterance immediately before or after the same conversation. Also, for example, immediately after an utterance intended for a speaker's proposal, if there is a short utterance of another speaker whose intent cannot be extracted, the feature amount of the utterance is analyzed and the utterance is compared with the immediately preceding utterance. It can be associated with an utterance that shows a mutual opinion (consent) or grief (denial). In this way, correspondence between utterances (such as what utterances are connected to which utterances), and relationships between speakers in a conversation (what utterances are between certain speakers) It is possible to obtain the degree of occurrence and how the relationship between the speakers and the intimacy is estimated.
本発明における会話状況分析装置は、話者を撮影する撮像手段をさらに有し、前記分析手段は、前記撮像手段が撮影した画像における話者の体、顔、または視線の向きを考慮して、前記一連の発話群における発話間の対応関係を取得する、ことも好ましい。会話においては、話しかける相手の方に体や顔や視線を向けて発話するので、上述のように画像によって話者の体や顔や視線の向きを取得することによって、発話間の対応関係をより正確
に取得することができる。
The conversation state analysis apparatus according to the present invention further includes an imaging unit that images a speaker, and the analysis unit takes into account the direction of the body, face, or line of sight of the speaker in the image captured by the imaging unit, It is also preferable to acquire a correspondence relationship between utterances in the series of utterance groups. In conversation, speaking with the body, face, or line of sight toward the person you are talking to, the direction of the speaker's body, face, or line of sight is acquired from the image as described above, so that the correspondence between utterances can be improved. Can be obtained accurately.
また、本発明における会話状況分析装置は、話者を撮影する撮像手段をさらに有し、前記分析手段は、前記撮像手段が撮影した画像における話者の顔画像から算出される顔特徴量の変化に応じて話者の感情を推定し、当該感情も考慮して発話間の関係性を分析する、ことも好ましい。話者の感情は表情にも表れるので、話者の顔画像を撮影して感情を推定し、推定された感情を用いて発話の関係性を分析することで、より適確な分析が行える。 In addition, the conversation state analysis apparatus according to the present invention further includes an imaging unit that captures a speaker, and the analysis unit changes the facial feature amount calculated from the face image of the speaker in the image captured by the imaging unit. It is also preferable to estimate the emotion of the speaker according to the situation and analyze the relationship between the utterances in consideration of the emotion. Since the speaker's emotions also appear in the facial expression, a more accurate analysis can be performed by photographing the speaker's face image, estimating the emotions, and analyzing the relationship of the utterances using the estimated emotions.
また、本発明において、前記分析手段は、発話間の関係性と、発話の内容、発話の特徴量、発話時の話者の感情の少なくともいずれかとに基づいて、話者間の関係を求めることも好ましい。話者間の関係は、例えば、話者間の親密性、上下関係、親子関係などが含まれる。分析手段は、話者間の発話(関係性のある発話)における、発話の内容(言葉づかいから求められる丁寧度や親密度など)、発話特徴量(発話の回数、時間、重なり)、話者の感情から、上記のような関係性を求めることができる。 Further, in the present invention, the analysis means obtains a relationship between speakers based on the relationship between utterances and at least one of the content of the utterance, the feature amount of the utterance, and the emotion of the speaker at the time of utterance. Is also preferable. The relationship between speakers includes, for example, intimacy between speakers, a hierarchical relationship, a parent-child relationship, and the like. Analyzing means includes the utterance content (eg, politeness and intimacy required by wording), utterance features (number of utterances, time, overlap) in utterances between speakers (related utterances), The relationship as described above can be obtained from emotion.
また、本発明における会話状況分析装置は、前記一連の発話群に関するデータである会話状況データを出力する出力手段を、さらに備える、ことも好ましい。会話状況データは、例えば、各発話の話者、発話間の対応関係、各発話の意味と意図、各発話時の話者の感情、発話群における各話者の発話頻度、各発話における音声特徴量、話者間の関係の少なくともいずれかを含む、ことができる。 Moreover, it is preferable that the conversation situation analysis apparatus according to the present invention further includes output means for outputting conversation situation data that is data relating to the series of utterance groups. The conversation status data includes, for example, the speakers of each utterance, the correspondence between utterances, the meaning and intention of each utterance, the emotion of the speaker at each utterance, the utterance frequency of each speaker in the utterance group, and the voice characteristics of each utterance Including at least one of a quantity and a relationship between speakers.
本発明の第二の態様は、複数の話者による会話に介入して支援を行う支援装置である。本態様に係る支援装置は、上述した会話状況分析装置と、前記会話状況分析装置から出力される会話状況データに基づいて、一連の発話群に参加している複数の話者からなるグループの状態を判定するグループ状態判定手段と、前記グループの状態に基づいて前記会話への介入の内容を決定し、前記会話へ介入を行う介入手段と、を備える。なお、グループの状態には、グループの種別、グループ内の話者間の関係性、グループの状態変化が含まれる。このように、複数話者による会話や話者間の関係を適確に分析した結果に基づいてグループ状態を判定し、判定したグループ状態に従った介入を行うことで、より適確な支援が行える。なお、会話への介入は、音声出力、文字出力、画像出力など任意の方法で行えば良く、その態様は特に限定されない。 The second aspect of the present invention is a support apparatus that intervenes and supports a conversation by a plurality of speakers. The support device according to this aspect includes a state of a group of a plurality of speakers participating in a series of utterance groups based on the above-described conversation state analysis device and conversation state data output from the conversation state analysis device. And a group state determining unit for determining the content of the intervention in the conversation based on the state of the group and intervening in the conversation. The group status includes the group type, the relationship between speakers in the group, and the group status change. In this way, more accurate support can be achieved by determining the group status based on the results of an accurate analysis of the conversations between speakers and the relationship between the speakers, and performing intervention according to the determined group status. Yes. The intervention in the conversation may be performed by any method such as voice output, character output, and image output, and the mode is not particularly limited.
なお、本発明は、上記手段の少なくとも一部を備える会話状況分析装置あるいは支援装置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する会話状況分析方法あるいは支援方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。 Note that the present invention can be understood as a conversation state analysis apparatus or a support apparatus including at least a part of the above means. The present invention can also be understood as a conversation situation analysis method or support method for executing at least a part of the processing performed by the above means. The present invention can also be understood as a computer program for causing a computer to execute these methods, or a computer-readable storage medium in which this computer program is stored non-temporarily. Each of the above means and processes can be combined with each other as much as possible to constitute the present invention.
本発明によれば、複数の話者による発話の関係性を分析できる。 According to the present invention, the relationship of utterances by a plurality of speakers can be analyzed.
(第1の実施形態)
<システム構成>
本実施形態は、車両内の複数人の会話に対して介入して情報提供や意思決定支援を行う会話介入支援システムである。本実施形態は、複数人特に3人以上の会話に対しても適切な介入を行えるように構成される。
(First embodiment)
<System configuration>
The present embodiment is a conversation intervention support system that intervenes with respect to conversations of a plurality of persons in a vehicle to provide information and support decision making. This embodiment is configured so that appropriate intervention can be performed for conversations of a plurality of persons, particularly three or more persons.
図1は本実施形態に係る会話介入支援システムの構成の一例を示す図である。ナビゲーション装置111がマイクを介して取得した乗員の会話音声は、通信装置114を経由してサーバ装置120に送られる。サーバ装置120は、車両110から送信された会話音声を分析して、状況に応じて適切な情報提供や意思決定支援などの介入を行う。サーバ装置120は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム121、店舗広告情報DB122、関連情報WEBサイト130から取得する。サーバ装置120は介入指示を車両110に送信し、車両110はナビゲーション装置111のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両110は、現在位置を取得するGPS装置112および乗員(話者)の顔や体を撮影するカメラ113も備える。
FIG. 1 is a diagram showing an example of the configuration of a conversation intervention support system according to the present embodiment. The passenger's conversation voice acquired by the
図2は本実施形態に係る会話介入支援システムの機能ブロック図である。会話介入支援システムは、マイク(音声入力部)201、雑音除去部202、音源分離部(話者分離部)203、会話状況分析部204、音声認識用コーパス・辞書205、語彙意図理解用コーパス・辞書206、グループ状態判定部207、グループモデル定義記憶部208、介入・調停部209、介入ポリシー定義記憶部210、関連情報DB211、出力制御部212、スピーカー(音声出力部)213、ディスプレイ(画像表示部)214を含む。これらの各機能部が行う処理の詳細は、以下でフローチャートともに説明する。
FIG. 2 is a functional block diagram of the conversation intervention support system according to the present embodiment. The conversation intervention support system includes a microphone (speech input unit) 201, a
本実施形態では、図2で示す各機能のうち、マイク201による音声入力と、出力制御部212、スピーカー213、ディスプレイ214による介入内容の出力を車両110にて行う。その他の機能は、サーバ装置120で行うように構成する。しかしながら、これらの機能を車両110とサーバ装置120でどのように分担するかは特に限定されない。例えば、車両110で、雑音除去や音源分離などを行ってもよいし、さらに音声認識処理まで行ってもよい。また、サーバ装置120は介入ポリシーの決定までを行い、決定された介入ポリシーに従ってどのような情報を提示するかは車両110で決定してもよい。さ
らには、全ての機能を車両110内で実現しても構わない。
In this embodiment, among the functions shown in FIG. 2, voice input by the
なお、ナビゲーション装置111およびサーバ装置120は、いずれも、CPUなどの演算装置、RAMやROMなどの記憶装置、入力装置、出力装置、通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、上記の各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、サーバ装置120は、1台の装置である必要はなく、通信回線を介して結合された複数の装置(コンピュータ)から構成されそれぞれの装置間で機能を分担しても構わない。
Note that each of the
<全体処理>
図3は、本実施形態に係る会話介入支援システムが行う会話介入支援方法の全体的な流れを示すフローチャートである。図3を参照しながら、会話介入支援方法の全体について説明する。
<Overall processing>
FIG. 3 is a flowchart showing the overall flow of the conversation intervention support method performed by the conversation intervention support system according to this embodiment. The whole conversation intervention support method will be described with reference to FIG.
ステップS301において、ナビゲーション装置111が、マイク201を介して車両110内の複数の乗員による会話音声を取得する。本実施形態では、取得された音声に対する以降の処理はサーバ装置120において行われるので、ナビゲーション装置111は取得した会話音声を、通信装置114を介してサーバ装置120へ送信する。なお、使用するマイクの数や配置は特に限定されないが、マイクあるいはマイクアレイを複数用いることが好ましい。
In step S <b> 301, the
ステップS302において、サーバ装置120は、雑音除去部202と音源分離部203を用いて、会話音声から話者ごとのそれぞれの発話を抽出する。なお、「発話」とは言語を音声として発生すること、およびその結果として発生された音声を意味する。ここでの処理は、雑音除去部202による雑音除去と、音源分離部203による音源分離(話者分離)が含まれる。雑音除去部202は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去する。雑音除去部202は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去する。音源分離部203は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出して、話者を特定する。
In step S <b> 302, the
ステップS303において、会話状況分析部204が、複数人による会話の状況を分析する。複数人、特に3人以上の会話の状況を分析するためには、それぞれの話者による発話に相関があるか、また、相関がある場合にはどのような関係があるか、などを認識する必要がある。そこで、会話状況分析部204は、同一の会話テーマに関する発話群を一連の発話群として抽出し、さらにその発話群の中での発話間の関係性を把握して、発話間の関係性を考慮して会話の状況や話者間の関係を分析する。会話状況分析部204による具体的な処理内容については、後述する。
In step S303, the conversation
ステップS304において、グループ状態判定部207は、会話状況分析部204による会話状況データをもとに、同一の会話に参加している話者グループがどのようなグループであるかあるいはこのグループがどのような状態にあるかを判定する。グループの例として、例えば、「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが挙げられる。また、グループの状態変化の例として、特定のメンバーの発話頻度が低下した、グループ全体の発話頻度が低下した、特定のメンバーの感情が変化した、グループの主導者が変化した、などが挙げられる。グループ状態判定部207による具体的な処理内容について
は後述する。
In step S304, based on the conversation status data from the conversation
ステップS305において、介入・調停部209は、グループ状態判定部207によるグループ状態に応じて介入ポリシーを決定し、介入ポリシーと現在の会話の内容にしたがって具体的な介入のタイミングと内容を決定する。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループであれば、全員に対してほぼ均等に詳しい参考情報を提示して活発な討議を促すという介入ポリシーを採用することが考えられる。また、例えば、特定の話者あるいはグループ全体の発話頻度が低下した場合には、会話を活発化させるような話題に誘導する介入ポリシーを採用することが考えられる。介入・調停部209は、介入ポリシーを決定したら、現在の話題にしたがって、レコメンドシステム121、店舗広告情報DB122、あるいは関連情報WEBサイト130から提示すべき情報を取得して、介入指示を行う。介入・調停部209による具体的な処理内容については後述する。
In step S305, the intervention /
ステップS306では、出力制御部212が、介入・調停部209から出力される介入指示に従って、出力すべき合成音声あるいはテキストを生成して、スピーカー213やディスプレイ214において再生する。
In step S <b> 306, the
以上のようにして、車両110内の複数の話者による会話に対する介入が行える。なお、図3のフローチャートに示す処理は繰り返し実行される。会話介入支援システムは、会話音声を随時取得して、会話状況や話者間の関係やグループ状態を監視し続け、介入が必要と判断した場合に介入を行う。
As described above, intervention for conversations by a plurality of speakers in the
<会話状況分析処理>
次に、ステップS303における会話状況分析処理の詳細について説明する。図4は、会話状況分析処理の流れを示すフローチャートである。なお、図4に示すフローチャートの処理は図示されたとおりの順序で行う必要はなく、また一部の処理を省略しても構わない。
<Conversation situation analysis processing>
Next, the details of the conversation situation analysis process in step S303 will be described. FIG. 4 is a flowchart showing the flow of the conversation state analysis process. Note that the processing of the flowchart shown in FIG. 4 does not need to be performed in the order shown, and some of the processing may be omitted.
ステップS401において、会話状況分析部204は、音源分離された音声データから発話区間を検出し、発話区間ごとに区間IDとタイムスタンプを付加する。なお、発話区間は音声が発話されている1連続の区間である。発話区間の終了は、例えば、1500ミリ秒以上の無発話が生じる前までとする。この処理により、会話音声を、話者ごとおよび発話区間ごとに複数の音声データに分離できる。以下では、1つの発話区間における発話の音声のことを、単に発話とも称する。図5は、ステップS401において分離されたそれぞれの発話を示す。
In step S401, the conversation
ステップS402では、会話状況分析部204が、それぞれの発話について発話特徴量(音声特徴量)を算出する。発話特徴量として、発話音量、ピッチ、トーン、持続時間、発話速度(平均モーラ長)が挙げられる。発話音量は、発話の音圧レベルである。トーンは、音の高低や音そのものであり、音の高低は音波の1秒間あたりの振動回数(周波数)によって特定される。ピッチは、知覚される音の高さであり、音の物理的な高さ(基本周波数)によって特定される。平均モーラ長は、1モーラあたりの発話の長さ(時間)として算出される。なお、モーラは拍数である。ここで、発話音量、ピッチ、トーン、発話速度については、発話区間内の平均値、最大値、最小値、変動幅、標準偏差などを求めるとよい。本実施形態ではこれらの発話特徴量を算出するが、ここで例示した発話特徴量の全てを算出しなくてもよいし、ここで例示した以外の発話特徴量を算出してもよい。
In step S402, the conversation
ステップS403において、会話状況分析部204は、それぞれの発話についての話者の感情を、発話特徴量の変化から求める。求める感情の例として、満足、不満足、興奮、
怒り、悲しみ、期待、安心、不安などが挙げられる。感情は、例えば、発声の音量、ピッチ、トーンの平常時からの変化に基づいて求めることができる。各話者の平常時の発話特徴量は、これまでに得られた発話特徴量から求めてもよいし、あるいはユーザ情報・利用履歴DB123に格納されている情報を用いてもよい。なお、話者の感情は、発話(音声データ)のみに基づいて決定する必要はない。話者の感情は発話の内容(テキスト)からも求めることができる。また、話者の感情は、例えば、カメラ113から撮影される話者の顔画像から顔特徴量を算出し、顔特徴量の変化に基づいて求めることもできる。
In step S403, the conversation
Examples include anger, sadness, expectation, security, and anxiety. The emotion can be obtained based on, for example, changes in the volume, pitch, and tone of the utterance from the normal time. The normal utterance feature amount of each speaker may be obtained from the utterance feature amount obtained so far, or information stored in the user information /
ステップS404において、会話状況分析部204は、それぞれの発話について、音声認識用コーパス・辞書205を用いた音声認識処理を施して、発話内容をテキスト化する。音声認識処理には既存の技術を適用すればよい。図5に示す発話内容(テキスト)は、ステップS404の処理によって求められる。
In step S <b> 404, the conversation
ステップS405において、会話状況分析部204は、それぞれの発話の内容(テキスト)から、語彙意図理解用コーパス・辞書206を参照して、発話の意図および話題を推定する。発話の意図は、例えば、話題の切り出し、提案、提案への賛成・反対、意見の集約などを含む。発話の話題は、例えば、発話のジャンル、場所、ものなどを含む。発話のジャンルは、例えば、飲食、旅行、音楽、天候などを含む。話題となっている場所は、例えば、地名、ランドマーク、店舗名、施設名などが含まれる。語彙意図理解用コーパス・辞書206は、「話題を切り出す、提案する、質問する、賛成する、反対する、物事を集約する」といった場合にそれぞれ使われる語彙や、発話のジャンルを特定するための「飲食、旅行、音楽、天候など」に関する語彙や、話題となっている場所を特定するための「地名、ランドマーク、店舗名、施設名など」に関する語彙の辞書を含む。なお、発話意図の推定においては、テキストだけでなく話者の感情を考慮することも好ましい。例えば、発話内容(テキスト)は提案に対する同意を示している場合に、話者の感情を考慮することで、喜んで同意しているのか渋々同意しているのかなどをより詳細な発話意図を推定することができる。
In step S405, the conversation
ステップS405の処理の結果、各発話について、「何をどうしたいか」といった話者の意図と、話題となっているジャンルを推定することができる。例えば、図5における発話ID2の「北鎌倉のイタリアンはどぉー」というテキストについては、辞書との照合により、「イタリアン」という語からジャンルが「飲食」であること、「北鎌倉」という語から話題の場所が「鎌倉」であること、「どぉー」という語から発話の意図が「提案」であることが推定できる。
As a result of the processing in step S405, for each utterance, it is possible to estimate the speaker's intention such as “what to do” and the genre that is the topic. For example, with respect to the text of the
図6は、図5に示すそれぞれの発話に対する、話題となっているジャンル、話題となっている場所、および発話の意図の抽出結果を示す。本実施形態において、意図等を推定した「発話n(S)」は、例えば、以下のような式で示される。
発話n(S)=(Gn,Pn,In)
ここで、nは発話ID(1〜k)であり、発話の発生順に発話IDを付与するとする。Sは話者(A、B、C...)であり、Gn、Pn、Inは、それぞれ、推定された発話のジャンル、話題となっている場所、発話の意図を示す。
FIG. 6 shows the extraction result of the genre that is the topic, the topic location, and the intention of the utterance for each utterance shown in FIG. In the present embodiment, “speech n (S)” in which the intention or the like is estimated is expressed by the following equation, for example.
Utterance n (S) = (G n , P n , I n )
Here, n is an utterance ID (1 to k), and it is assumed that the utterance IDs are assigned in the order of the utterances. S is the speaker (A, B, C ...) , G n, P n, I n are, respectively, the genre of the estimated speech, location has become a hot topic, the intention of the speech.
例えば、話者Aの発話1を語彙意図理解用コーパス・辞書206と照合し、「G1:飲食」、「P1:鎌倉」、「I1:話題の切り出し」とマッチした場合は、次のように示す。
発話1(A)=("飲食","鎌倉","話題の切り出し")
For example, when the
Utterance 1 (A) = ("Food &Drink","Kamakura","Cut out topic")
なお、それぞれの発話に対する、話題となっているジャンル、話題の場所、および発話の意図といった情報は、発話の内容(テキスト)以外の情報を考慮して求めることも好ましい。特に、発話の意図は、発話特徴量から求められる話者の感情を考慮して求めることも好ましい。発話内容が提案への賛成を表している場合であっても、発話特徴量から喜んで同意しているのか、渋々同意しているのかを判別できる。また、発話によっては、発話内容(テキスト)から上記の情報を抽出できない場合もある。このような場合には、会話状況分析部204は、時系列で発生している前後の発話意図の抽出結果あるいは発話内容(テキスト)を考慮して、当該発話の意図を推定するとよい。
In addition, it is also preferable to obtain information such as the genre that is the topic, the topic location, and the intention of the utterance in consideration of information other than the content (text) of the utterance. In particular, the intention of the utterance is preferably obtained in consideration of the emotion of the speaker obtained from the utterance feature amount. Even if the utterance content indicates approval for the proposal, it can be determined from the utterance feature quantity whether the user agrees happily or not. Further, depending on the utterance, the above information may not be extracted from the utterance content (text). In such a case, the conversation
ステップS406において、会話状況分析部204は、ステップS405にて得られた各発話のジャンルと発話の時系列的な結果を考慮して、同一テーマと推定される発話を抽出し、その結果得られた発話群を一連の会話に含まれる発話群であると特定する。この処理により、1つの会話の開始から終了までに含まれる発話を特定することができる。
In step S406, the conversation
会話テーマの同一性判定では、発話のジャンルや話題の場所の類似性が考慮される。例えば、発話ID5は抽出語「魚」からジャンルが「飲食」で、抽出語「海」から話題の場所が「海」であると判定されているが、いずれもジャンルが「飲食」であり、同一の会話テーマを有すると判定できる。また、発話には発話ID1のように「話題の切り出し」を判定する語(「決めよう」)や、発話ID9のように「集約」を判定する語(「決まり」)が含まれている場合があり、それぞれの発話を、同じテーマの会話の開始時あるいは終了時の発話と推定することもできる。また、発話の時間的関係も考慮して、発話のジャンルや話題の場所などが同一であったとしても、発話間の時間間隔が長すぎる場合には異なる会話テーマと判断してもよい。また、発話の中には、意図やジャンルなどを抽出できる語彙を含まない発話もある。このような場合は、時系列的な発話の流れを考慮し、同一の会話の開始と終了の間に発生している同じ話者の発話は同じ会話に含まれるとみなすとよい。
In the identity determination of the conversation theme, similarity of utterance genre and topic location is taken into consideration. For example, it is determined that the genre is “food” from the extracted word “fish” and the topic location is “sea” from the extracted word “sea”, but the
図7は、図6に示した各発話のジャンル、話題の場所、および発話意図から、一連の発話群を特定した結果を示す図である。ここでは、3つの会話が抽出されている。会話1は、「飲食(昼食)」「飲食(料理)」「鎌倉」に関する会話であり、発話ID1,2,3,5,7,9が含まれる。会話2は、「天候」「スポーツ(運動会)」に関する会話であり、発話ID4,6,8が含まれる。なお、「天候」と「スポーツ(運動会)」は異なるジャンルであるが、「天候」に関する発話の直後に「スポーツ(運動会)」に関する発話が連続して発生する場合、それらの発話は「天候」に関する会話に含まれると判断する。会話3は、「音楽」に関する会話であり、発話ID10,11が含まれる。
FIG. 7 is a diagram illustrating a result of specifying a series of utterance groups from the genre, topic location, and utterance intention of each utterance shown in FIG. Here, three conversations are extracted. The
図5に示す発話は、話者A〜Eの合計5人によって行われているが、全員が同じ会話に参加しているわけではない。ここでは、話者A〜Cの3人が飲食に関する会話1を行っており、話者D,Eが天候に関する会話2を行っている。本実施形態における会話状況分析部204は、各発話のジャンルや、話題となっている場所(もの)や、発話の意図に着目しているので、複数の会話が同時に進行している場合であっても、適切に一連の会話に含まれる発話群を特定できる。
The utterance shown in FIG. 5 is performed by a total of five speakers A to E, but not all of them are participating in the same conversation. Here, three of the speakers A to C have a
本実施形態において、このようにして特定された一連の「会話m」は、例えば、以下のような式で示される。
会話m(SA,SB,SC… )
={発話1(SA),発話2(SB),発話3(SC)… }
=Tm{(GA,PA,IA),(GB,PB,IB),(GC,PC,IC)… }
ここで、mは会話ID(1〜k)、であり、会話の発生順に会話IDを付与するとする。SA,B,C…は話者(A、B、C...)であり、Tm、Gn、Pn、Inは、それぞれ
、推定された会話のテーマ、発話のジャンル、発話で話題となっている場所、発話の意図を示す。
In the present embodiment, the series of “conversations m” specified in this way is represented by the following expression, for example.
Conversation m (S A, S B, S C ...)
= {Speak 1 (S A ), Speak 2 (S B ), Speak 3 (S C ) ...}
= T m {(G A, P A, I A), (G B, P B, I B), (G C, P C, I C) ...}
Here, m is a conversation ID (1 to k), and it is assumed that conversation IDs are assigned in the order in which conversations occur. S A, B, C ... is the speaker (A, B, C ...) , T m, G n, P n, I n , respectively, the estimated conversation theme, genre speech, speech Indicate the location of the topic and the intention of the utterance.
例えば,話者A、B、Cのテーマ「飲食」の発話群が会話1に特定された場合は、次のように示される。
会話1(A,B,C)
=T"食事"{("飲食(昼食)","鎌倉","話題の切り出し"),
("飲食(料理)","鎌倉","提案"),
("飲食(料理)","na","否定/提案")… }
For example, when the utterance group of the theme “Food & Drink” of speakers A, B, and C is specified as
Conversation 1 (A, B, C)
= T “meal” {(“food (lunch)”, “Kamakura”, “cutting out topics”),
("Eating and drinking (cooking)", "Kamakura", "Proposal"),
("Food & Drink (Cooking)", "na", "Negation / Proposal") ...}
ステップS407において、会話状況分析部204は、上記の分析結果を統合した会話状況データを生成して出力する。例えば、会話状況データは、直近の所定期間(例えば3分間)における同一会話内の発話について、図8に示すような情報を含む。発話が多い話者は、期間内における発話回数と発話時間の両方が所定値以上(例えば、1回と10秒)の話者である。発話が少ない話者は、期間内における発話回数が発話時間の両方が所定値未満の話者である。話者間の平均発話間隔あるいは重なりは、話者ペアごとに発話区間の間の無音期間の時間または発話区間が重なっている時間である。発話音量、トーン、ピッチ、発話速度は、話者別と全話者について求められる。それぞれ、期間内の平均値、最大値、最小値、変動幅、標準偏差のいずれかまたは複数によって表し、特に変動が顕著に測定された場合には該当する発話内容などの情報と結び付けて示す。また、会話状況データは、期間内の各発話について、発話内容のテキスト、会話テーマ、推定話者名、発話の意図、発話の話題(ジャンル、場所、ものなど)、話者の感情も含む。また、会話状況データは、発話間の対応関係や話者間の関係も含む。
In step S407, the conversation
図9(A)は、発話間の対応関係と、各発話の会話テーマ・発話の意図・話者の感情を表示した例である。図9(A)では、話者A〜Eについてそれぞれ発話区間が時系列に示されており、発話間の対応関係が矢印で示されている。また、発話ごとに、発話の意図と話者の感情が示されている(利用可能な場合)。例えば、話者Aによる話題の切り出し(発話ID1)に対し、話者Bが提案(発話ID2)を行い、これら両方の発話を受けて話者Cが提案への反対と再提案(発話ID3)をしていることなどが分かる。なお、発話間の対応関係は、必ずしも発話(音声データ)のみに基づいて決定する必要はない。例えば、カメラ113から取得される話者の視線や顔や体の向きから、ある発話が特定のメンバーに対するものであるか否かを判定し、この判定結果を基に発話間の対応関係を求めてもよい。
FIG. 9A shows an example in which the correspondence between utterances, the conversation theme of each utterance, the intention of the utterance, and the emotion of the speaker are displayed. In FIG. 9A, the utterance sections are shown in time series for the speakers A to E, and the correspondence between the utterances is shown by arrows. For each utterance, the intention of the utterance and the emotion of the speaker are shown (when available). For example, speaker B makes a proposal (utterance ID 2) for topic extraction by speaker A (utterance ID 1), and speaker C responds to the proposal and re-suggests (utterance ID 3) after receiving both of these utterances. You can see that you are doing. Note that the correspondence between utterances does not necessarily need to be determined based only on utterances (voice data). For example, it is determined whether or not a certain utterance is directed to a specific member from the line of sight of the speaker acquired from the
図9(B)では、話者A〜Eの会話において、どのような発話がどの程度発生していて、当該話者間の上下関係や親密性がどのように推定されるかなどを示している。任意の2人の話者間の発話において、発話の意図や、発話特徴量(発話回数、発話時間、発話の重なり、テンションレベル)、言葉づかい(丁寧度)から、2話者間の親密度や関係性(フラットであるか上下関係があるか)を求めることができる。なお、図9(B)には示していないが、話者間に上下関係などがある場合には、どちらが上位者でありどちらが下位者であるかも求めることができる。 FIG. 9B shows what kind of utterance is occurring in the conversations of the speakers A to E and how the relationship and intimacy between the speakers is estimated. Yes. In the utterance between any two speakers, the intimacy between the two speakers can be determined from the intention of the utterance, utterance features (number of utterances, utterance time, overlap of utterances, tension level), wording (politeness) Relationships (whether flat or vertical) can be determined. Although not shown in FIG. 9B, when there is a vertical relationship between speakers, it can be determined which is the superior and which is the inferior.
会話状況分析部204は上述のような会話状況データをグループ状態判定部207へ出
力する。会話状況データを用いることで、会話の流れと各発話の特徴量変化を紐付けることが可能となり、会話を行っているグループの状態を適確に推定できる。
The conversation
<グループ状態判定処理>
次に、図3のステップS304におけるグループ状態判定処理の詳細について説明する。図10は、グループ状態判定処理の流れを示すフローチャートである。
<Group status determination processing>
Next, details of the group state determination processing in step S304 in FIG. 3 will be described. FIG. 10 is a flowchart showing the flow of the group state determination process.
ステップS1001において、グループ状態判定部207は、会話状況分析部204が出力した会話状況データを取得する。グループ状態判定部207は、この会話状況データに基づく以下の処理によって、グループ種別、各メンバーの役割(関係性)、グループの状態変化などを含むグループ状態を分析する。
In step S <b> 1001, the group
ステップS1002において、グループ状態判定部207は、会話における話者間のつながりを判定する。会話状況データには、各発話の話者と、発話間のつながり、発話の意図(提案、賛成、反対など)が含まれる。したがって、会話状況データに基づいて、話者ペアの間の会話の頻度(例えば「話者Aと話者Bは頻繁に直接会話している」、「話者Aと話者Bの間では直接の会話がない」など)や、話者ペアの間でどの程度、提案・賛成・反対の発話がなされているか(「話者Aは話者Bに対して提案をX回、賛成意見をY回、反対意見をZ回述べている」など)を把握することができる。グループ状態判定部207は、グループ内のそれぞれの話者ペアについて、これらの情報を求める。
In step S1002, the group
ステップS1003において、グループ状態判定部207は、メンバー間の意見交換状況を判定する。意見交換状況には、グループ内における意見交換の活発さ、提案に対する賛成と反対の比率、意思決定における主導者の有無などの情報が含まれる。意見交換の活発さは、例えば、提案から最終的な意思決定までの間の発話回数または賛成意見あるいは反対意見の数などによって評価できる。また、意思決定における主導者の有無は、特定の話者の提案に対して反対意見が少なく同意や賛成意見のみが発生しているか否か、特定の話者の提案や意見が高い割合で最終的な意見として採用されるか否か、などによって評価できる。会話状況データには、各発話の話者と、発話間のつながり、発話の意図、発話の内容などが含まれるので、グループ状態判定部207は会話状況データに基づいてこれらの意見交換状況を判定できる。
In step S1003, the group
ステップS1004において、グループ状態判定部207は、会話状況データに含まれる発話特徴量および発話内容の言葉づかいと、ステップS1002において求めた話者間のつながり、ステップS1003において求めた話者間の意見交換状況に基づいて、グループ種別(グループモデル)を推定する。グループ種別はあらかじめ定義されており、例えば図11(A)に示すような、グループ種別A:「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」、グループ種別B:「上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ」、グループ種別C:「上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ」などが例として挙げられる。グループ種別Aは、親友同士のような全員がフラットに繋がっているグループを想定したものである。グループ種別Aには、主導者(特に意思決定への影響力を持つメンバー)が含まれる場合も含まれない場合もある。グループ種別Bは、家族のような、メンバー間のつながりが強く上下関係を持つグループを想定したものである。グループ種別Bには、主導者(例えば親)がいる。グループ種別Cは、職場の上司と部下のような、比較的ドライなつながりで上下関係を持つグループを想定している。グループ種別Cには、主導者(最上位者)がいる。ここでは例として3つのみ挙げているが、グループ種別の数はいくつであってもよい。
In step S1004, the group
グループモデル定義記憶部208には、それぞれのグループ種別の判定基準が格納される。グループモデル定義記憶部208には、発話特徴量、発話内容の言葉づかい、話者間のつながり、意見交換情報などに基づく、複数個の判定基準が格納される。図11(B)は、発話特徴量に基づく判定基準の例を示す。グループ種別Aは「フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ」なので、例えば、「全話者が活発に発話している」、「発話が重なる傾向にある」、「各発話のトーンやピッチの変動が大きい」、「発話音量の変動が大きい」、「提案に対して反対意見がある程度発生する」という特徴を有することが多い。そこで、グループモデル定義記憶部208には、発話特徴量に基づくグループ種別Aの判定基準として、例えば、「発話回数が3分間に3回以上または合計20秒以上発話している話者が全体の60%以上である」、「発話の重なりが3分間に3回以上または合計5秒以上」、「各話者のトーン、ピッチまたは音圧レベルの変動幅が所定の閾値以上」などの判定基準を含む。グループ状態判定部207は、現在のグループがこれらの判定基準をどの程度満たすかを評価し、現在のグループがグループ種別Aである確からしさを示す評価値を求める。その他のグループ種別B,Cについても同様に評価値が求められる。
The group model
グループ状態判定部207は、ここで求めた評価値のみを用いて、すなわち発話特徴量のみに基づいてグループの種別を判定してもよいが、判定精度をより向上させるためにその他の要素も考慮してグループ種別を判定する。
The group
グループ状態判定部207は、例えば、会話における発話内容(テキスト)を解析し、各話者の発話に含まれる命令語、敬語・丁寧語・謙譲語、くだけた語(親しい間柄で使う言葉)、子供が使う語、子供に対して使う語などをどの程度の頻度で現れるかを取得する。これにより、会話における各話者の言葉づかいが分かる。グループ状態判定部207は、言葉づかいも考慮してグループ種別を推定する。例えば、「グループ内に命令調で話す人がいて、それに対して敬語・丁寧語・謙譲語で返答する人がいる」場合は、グループ種別Cである可能性が高いと判断できる。また、「グループ内に命令調で話す人がいるが、それに対してくだけた言葉で返答する人がいる」場合は、グループ種別Aの可能性が高いと判断できる。また、「グループ内のほとんど話者がくだけた言葉を多く使う」場合は、グループ種別AまたはBの可能性が高いと判断できる。また、「グループ内に親(大人)が子供に対して使う言葉づかいで話す人と、子供が使う言葉づかいで話す人がいる」場合には、グループ種別Bの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と言葉づかいの関連性があらかじめ定義されていれば、グループ状態判定部207は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。
The group
また、グループ状態判定部207は、会話における意見交換状況からもグループ種別を判断できる。例えば、グループ内において意見交換が活発な場合や、提案に対して拒否や反対意見が比較的多く発生している場合は、グループ種別AまたはBの可能性が高いと判断できる。また、グループ内において意見交換が活発でない場合や、グループ内に主導者が存在する場合は、グループ種別Cの可能性が高いと判断できる。ここで挙げた例は一例であり、グループ種別と意見交換状況の関連性があらかじめ定義されていれば、グループ状態判定部207は、現在のグループがどのグループ種別に該当するか可能性が高いかを判定できる。
The group
グループ状態判定部207は、上記のように、発話特徴量、言葉づかい、意見交換状況、話者間のつながりに基づいて推定されるグループ種別を統合して、最も良く合致するグループ種別を、現在のグループの種別として決定する。
As described above, the group
ステップS1005において、グループ状態判定部207は、ステップS1002,S1003などの解析結果やその他の会話状況データを用いて、グループにおける各メンバ
ーの役割を推定する。グループにおける役割として、意思決定における主導者、主導者に対する追従者が挙げられる。また、役割として、上位者、下位者、親、子、などを推定してもよい。メンバーの役割推定において、ステップS1004において決定したグループ種別を考慮することも好ましい。
In step S1005, the group
ステップS1006において、グループ状態判定部207は、グループの状態変化を推定する。グループの状態には、発話の頻度、会話への参加者、会話における主導者が誰であるかなどが含まれる。ステップS1006において推定される状態変化は、例えば、特定話者の発話頻度の低下、全体的な発話頻度の低下、会話グループの分離、主導者の変化などが挙げられる。
In step S1006, the group
ステップS1007において、グループ状態判定部207は、ステップS1004において推定したグループ種別、ステップS1005において推定した各メンバーの役割、およびステップS1006に推定したグループの状態変化をまとめてグループ状態データとして、介入・調停部209へ出力する。介入・調停部209は、グループ状態データを参照することで、会話中のグループがどのような状態であるのかを把握でき、それにしたがった適切な介入が行える。
In step S1007, the group
<介入/調停処理>
次に、図3のステップS305における介入内容決定処理の詳細について説明する。図12は、介入内容決定処理の流れを示すフローチャートである。
<Intervention / mediation>
Next, details of the intervention content determination process in step S305 in FIG. 3 will be described. FIG. 12 is a flowchart showing the flow of the intervention content determination process.
ステップS1201において、介入・調停部209は、会話状況分析部204が出力した会話状況データとグループ状態判定部207が出力したグループ状態データを取得する。介入・調停部209は、これらのデータに基づく以下の処理によって、介入や調停を行う際に提示する情報の内容を決定する。
In step S <b> 1201, the intervention /
ステップS1202において、介入・調停部209は、グループ状態データに含まれるグループ種別やグループ状態変化に応じた介入ポリシーを、介入ポリシー定義記憶部210から取得する。介入ポリシーとは、グループ状態に応じて、グループ内のどのメンバーを優先的に支援するか、また、どのように支援するかを表す情報である。介入ポリシー定義記憶部210に定義される介入ポリシーの例を、図13(A)(B)に示す。
In step S <b> 1202, the intervention /
図13(A)は、グループ種別に応じた介入ポリシーの例である。例えば、フラットな関係で親密度が高く、メンバー同士が互いに遠慮なく意見を言いあえるようなグループ種別Aに対する介入ポリシーの一例として、メンバー間で討議して決められるように促すために、「メンバー全員に対して、選択要素(例えば、食事場所を決める場合は、その候補となる店舗など)に関する情報を提示する」というポリシーが定義される。また、上下関係があるが、親密度が高く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Bに対する介入ポリシーの一例として、意見の表明ができないような弱い立場にあるメンバーの意見を引き出して採用されるように促すために、「ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。また、上下関係があり、親密度が低く、特定のメンバーがグループの意思決定を主導しているようなグループ種別Cに対する介入ポリシーの一例として、特定のメンバーの意見ばかりが採用されないように支援するために、「1番目の意思決定事項では上位メンバーの意見を優先扱いするが、2番目以降では、ファシリティター的なメンバーに対して、いずれのメンバーの意見を引き出すのが好ましいかという情報と、選択要素に関する情報を提示し、順次、該当メンバーから意見を引き出し、その意見が採用されるように支援する」というポリシーが定義される。なお
、これらのポリシーにおけるファシリティター的なメンバーとは、特に意見の表明ができないような弱い立場にあるメンバーに寄り添って、該当メンバーの意見を引き出し、該当意見が採用されるように支援できるような人を意図する。また、図13(A)では、グループ種別ごとに1つの介入ポリシーが定義されるように記載しているが、グループ種別ごとに複数の介入ポリシーが定義されてもよい。
FIG. 13A shows an example of an intervention policy corresponding to the group type. For example, as an example of an intervention policy for Group Type A that has a close relationship and high degree of intimacy, and members can express their opinions with each other, in order to encourage members to discuss and decide, On the other hand, a policy of “presenting information on a selection element (for example, a candidate store when a meal place is determined)” is defined. In addition, members who are in a weak position that cannot express an opinion as an example of an intervention policy for group type B that has a hierarchical relationship but is highly intimate and a specific member is leading the group's decision making. In order to encourage the members to draw out their opinions and be hired, “provide the facilitator member information on which member's opinion is preferable and information on the selection factors. A policy is defined that “leads out opinions and helps them be adopted”. In addition, as an example of an intervention policy for group type C, which has a hierarchical relationship, has low intimacy, and a specific member leads the group's decision-making, supports that only the opinions of a specific member are not adopted For this reason, “In the first decision-making matter, the opinion of the upper member is treated preferentially, but in the second and later, information on which member's opinion is preferable to the facilitator member, A policy is defined that presents information on the selected element, sequentially extracts opinions from the relevant members, and supports the adoption of the opinions. In addition, the facilitator members in these policies are those who are particularly close to weak members who cannot express their opinions, and are able to draw out their opinions and support their adoption. Intended for people. In FIG. 13A, one intervention policy is defined for each group type, but a plurality of intervention policies may be defined for each group type.
図13(B)は、グループの状態変化に応じた介入ポリシーの例である。例えば、特定話者の発話停滞(発話頻度の低下)が発生している場合は、それが話題の変化に伴って発生していれば、停滞前の話題に関連する情報を提示する。また、全体的な発話の停滞が発生している場合には、停滞前の話題に関連する情報を提示する。また、グループが2つのサブグループに分離してそれぞれが異なる会話をしている場合には、いずれかのサブグループでの話題に関連する情報を、他のグループの人にも興味を持ってもらえるように提示する。また、主導者が変化した場合には、新しい主導者が話題を先導できるように情報提供を行う。なお、図13(B)では、グループの状態変化ごとに1つの介入ポリシーが定義されているように記載しているが、状態変化ごとに複数の介入ポリシーが定義されてもよい。 FIG. 13B is an example of an intervention policy corresponding to a group state change. For example, when an utterance stagnation (decrease in utterance frequency) of a specific speaker occurs, information related to the topic before the stagnation is presented if it occurs with a change in topic. In addition, when the stagnation of the entire utterance has occurred, information related to the topic before the stagnation is presented. In addition, when a group is divided into two subgroups and each has a different conversation, information related to the topic in one of the subgroups may be of interest to other groups. To present. Also, when the leader changes, information is provided so that the new leader can lead the topic. In FIG. 13B, one intervention policy is defined for each state change of the group, but a plurality of intervention policies may be defined for each state change.
上記のような介入ポリシーは、グループの種別やグループの状態変化に応じて、グループ内の各メンバーに対する介入の優先度と、どのような介入を行うかを定義した情報といえる。ここで、介入の優先度の設定は、メンバー個人に対して行われるというよりは、グループ内における役割(主導者など)を有するメンバーに対して設定されたり、特定の条件(発話頻度低下)を満たすメンバーに対して設定されたりする。ただし、全ての介入ポリシーが介入優先度を含んでいる必要はない。 The intervention policy as described above can be said to be information that defines the priority of intervention for each member in the group and what kind of intervention is to be performed in accordance with the type of group and the change in the state of the group. Here, the priority of intervention is set for members who have roles in the group (such as leaders) rather than being set for individual members, or specific conditions (decreased utterance frequency) are set. It may be set for members who meet. However, not all intervention policies need to include intervention priority.
ステップS1203において、介入・調停部209は、ステップS1202において取得された介入ポリシーに基づいて介入対象メンバーと介入方法を決定する。例えば、介入・調停部209は、主導者に対してその他のメンバーの嗜好にあった情報を提供するように決定したり、発話が停滞した話者が好む話題に関連する情報を提供するように決定したりする。なお、ステップS1203では、現時点では介入を行わないという決定がされることもある。ステップS1203の決定は、介入ポリシーのみに基づいて行う必要はなく、会話状況データなどその他の情報に基づいて行うことも好ましい。例えば、会話状況データに含まれる発話の意図などからグループ内で意思決定のための意見交換がされていると判断した場合に、意思決定を支援する介入ポリシーに基づいて介入対象と介入方法を決定するとよい。
In step S1203, the intervention /
ステップS1204において、介入・調停部209は、介入対象メンバーおよび介入方法に応じた提示情報を生成・取得する。例えば、主導者に対してその他のメンバーの嗜好にあった情報を提供する場合には、まず、他のメンバーの嗜好を、それまでの会話テーマおよび当該メンバーの感情(興奮度など)に基づいて取得したり、あるいはユーザ情報DB123から取得したりして決定する。昼食の場所についての会話をしているときに、当該メンバーがイタリアン料理を好む場合には、イタリアン料理店についての情報を関連情報WEBサイト130などから取得する。この際、車両110のGPS装置112から得られる位置情報も考慮して提示する店舗を絞り込むとよい。
In step S1204, the intervention /
ステップS1205において、介入・調停部209は、ステップS1204にて生成・取得した提示情報を含む介入指示データを生成して、出力する。本実施形態では、サーバ装置120から車両110のナビゲーション装置111に対して、介入指示データが送信される。ナビゲーション装置111の出力制御部212は、介入指示データに基づいて、合成音声や表示テキストを生成して、スピーカー213やディスプレイ214から情報の提示を行う(S306)。
In step S1205, the intervention /
上記で説明した一連の会話介入支援処理(図3)は繰り返し実行される。発話に対して適切なタイミングで介入が行えるように、繰り返し間隔は短いことが好ましい。ただし、繰り返し処理において全ての処理を毎回行う必要はない。例えば、会話状況分析S303やグループ状態判定S304はある程度の間隔(例えば3分)を空けて行うようにしてもよい。また、グループ状態の判定においても、グループ種別の判定とグループの状態変化の判定を異なる実行間隔で行ってもよい。 The series of conversation intervention support processes (FIG. 3) described above are repeatedly executed. It is preferable that the repetition interval is short so that intervention can be performed at an appropriate timing for the utterance. However, it is not necessary to perform every process every time in the repetitive process. For example, the conversation state analysis S303 and the group state determination S304 may be performed with a certain interval (for example, 3 minutes). In the group state determination, the group type determination and the group state change determination may be performed at different execution intervals.
<本実施形態の有利な効果>
本実施形態においては、会話状況分析部204が、複数の話者によって行われる会話において、同一の会話テーマからなる発話群を特定し、さらに各発話間の関係があるかどうか、さらに関係がある場合にどのような関係があるかなどを把握できる。さらに、同一の会話における話者間の発話の間隔や重なり度合いから、会話状況が推定できる。本実施形態による会話状況の解析手法では、多数の話者が異なるグループに分かれて同時に会話を行っている場合であっても、それぞれの会話についての状況を把握することができる。
<Advantageous effects of this embodiment>
In the present embodiment, the conversation
また、本実施形態では、グループ状態判定部207が、会話状況データなどに基づいて、会話を行っているグループの種別や状態変化、あるいはグループ内の各話者の役割や互いの関係性などを把握することができる。このような把握ができることによって、システムが会話に介入する際に、どの話者をより優先的に支援するかを決定したり、グループの状態に応じた適切な介入が行えたりする。
In the present embodiment, the group
<変形例>
上記の説明では、会話介入支援システムを、車両とサーバ装置とが連携するテレマティクスサービスとして構成する例を示したが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。
<Modification>
In the above description, an example in which the conversation intervention support system is configured as a telematics service in which the vehicle and the server device cooperate with each other is shown, but the specific system form is not limited to this. For example, it can be configured as a system that acquires a conversation in a room such as a conference room and intervenes in the conversation.
201:マイク 202:雑音除去部 203:音源分離部 204:会話状況分析部 205:音声認識用コーパス・辞書 206:語彙意図理解用コーパス・辞書
207:グループ状態判定部 208グループモデル定義記憶部 209:介入・調停部 210:介入ポリシー定義記憶部 211:関連情報データベース 212:出力制御部 213:スピーカー 214:ディスプレイ
201: microphone 202: noise removal unit 203: sound source separation unit 204: conversation state analysis unit 205: speech recognition corpus / dictionary 206: vocabulary intention understanding corpus / dictionary 207: group
Claims (11)
複数の話者による会話音声を取得する取得手段と、
前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離手段と、
前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識手段と、
発話内容に基づいて発話間の関係性を分析する分析手段であって、発話ごとの内容に基づいて、同一の会話テーマと推定される発話を一連の発話群であると特定する分析手段と、
を備える、会話状況分析装置。 A conversation situation analysis device for analyzing the situation of conversations by a plurality of speakers,
An acquisition means for acquiring conversation voices from a plurality of speakers;
Separating means for separating the conversational sound into a plurality of utterances for each speaker and each utterance section;
For each of the plurality of utterances, recognition means for recognizing the utterance content using voice recognition processing;
An analysis means for analyzing the relationship between utterances based on utterance content, and an analysis means for identifying utterances estimated to have the same conversation theme as a series of utterance groups based on the content of each utterance;
Conversation situation analysis device.
前記分析手段は、前記認識手段によって認識される発話内容のテキストと辞書を照合することにより、発話の意図と話題を求め、当該発話の意図および話題に基づいて当該発話の会話テーマを推定する、
請求項1に記載の会話状況分析装置。 The recognizing means recognizes the utterance content by comparing a text of the utterance obtained by the voice recognition processing with a dictionary,
The analysis means obtains the intention and topic of the utterance by comparing the text of the utterance content recognized by the recognition means with the dictionary, and estimates the conversation theme of the utterance based on the intention and topic of the utterance.
The conversation state analysis apparatus according to claim 1.
前記分析手段は、各話者について音声特徴量の変化に基づいてそれぞれの発話時における話者の感情を推定し、当該感情も考慮して前記発話の意図を推定する、
請求項2に記載の会話状況分析装置。 For each of the plurality of utterances, further comprising a feature quantity calculating means for calculating a voice feature quantity,
The analysis means estimates the emotion of the speaker at the time of each utterance based on the change in the voice feature amount for each speaker, and estimates the intention of the utterance in consideration of the emotion.
The conversation state analysis apparatus according to claim 2.
請求項2または3に記載の会話状況分析装置。 The analysis means acquires a correspondence relationship between utterances in the series of utterance groups based on the intention of the utterance;
The conversation state analysis apparatus according to claim 2 or 3.
前記分析手段は、前記撮像手段が撮影した画像における話者の体、顔、または視線の向きを考慮して、前記一連の発話群における発話間の対応関係を取得する、
請求項4に記載の会話状況分析装置。 It further has an imaging means for photographing the speaker,
The analysis unit obtains a correspondence relationship between utterances in the series of utterance groups in consideration of the direction of the speaker's body, face, or line of sight in the image captured by the imaging unit.
The conversation state analysis apparatus according to claim 4.
前記分析手段は、前記撮像手段が撮影した画像における話者の顔画像から算出される顔特徴量の変化に応じて話者の感情を推定し、当該感情も考慮して発話間の関係性を分析する、
請求項1から5のいずれか1項に記載の会話状況分析装置。 It further has an imaging means for photographing the speaker,
The analysis unit estimates a speaker's emotion according to a change in a facial feature amount calculated from the speaker's face image in the image captured by the imaging unit, and considers the emotion to determine the relationship between utterances. analyse,
The conversation state analysis apparatus according to any one of claims 1 to 5.
請求項1から6のいずれか1項に記載の会話状況分析装置。 The analysis means obtains the relationship between the speakers based on the relationship between the utterances and at least one of the content of the utterance, the feature amount of the utterance, and the emotion of the speaker at the time of utterance.
The conversation state analysis apparatus according to any one of claims 1 to 6.
請求項1から7のいずれか1項に記載の会話状況分析装置。 An output means for outputting conversation status data which is data relating to the series of utterance groups;
The conversation situation analysis device according to any one of claims 1 to 7.
間の関係、の少なくともいずれかを含む、
請求項8に記載の会話状況分析装置。 The conversation status data includes the speaker of each utterance, the correspondence between utterances, the meaning and intention of each utterance, the emotion of the speaker at the time of each utterance, the utterance frequency of each speaker in the utterance group, and the voice feature amount in each utterance , Including at least one of the relationships between speakers,
The conversation state analysis apparatus according to claim 8.
請求項8または9に記載の会話状況分析装置と、
前記会話状況分析装置から出力される会話状況データに基づいて、一連の発話群に参加している複数の話者からなるグループの状態を判定するグループ状態判定手段と、
前記グループの状態に基づいて前記会話への介入の内容を決定し、前記会話へ介入を行う介入手段と、
を備える、支援装置。 A support device for intervening and supporting a conversation by a plurality of speakers,
A conversation situation analysis device according to claim 8 or 9,
Group state determination means for determining the state of a group of a plurality of speakers participating in a series of utterance groups based on conversation state data output from the conversation state analysis device;
Intervention means for determining the content of the intervention in the conversation based on the state of the group and performing the intervention in the conversation;
A support device comprising:
複数の話者による会話音声を取得する取得ステップと、
前記会話音声を、話者ごとおよび発話区間ごとの複数の発話に分離する分離ステップと、
前記複数の発話のそれぞれについて、音声認識処理を用いて発話内容の認識する認識ステップと、
発話内容に基づいて発話間の関係性を分析する分析ステップであって、発話ごとの内容に基づいて、同一の会話テーマと推定される発話を一連の発話群であると特定する分析ステップと、
を実行する、会話状況分析方法。 A conversation situation analysis method for analyzing the situation of conversations by a plurality of speakers, wherein a computer
An acquisition step of acquiring conversation voices by a plurality of speakers;
A separation step of separating the conversational sound into a plurality of utterances for each speaker and each utterance section;
For each of the plurality of utterances, a recognition step for recognizing the utterance content using a speech recognition process;
An analysis step for analyzing the relationship between utterances based on utterance content, and an analysis step for identifying utterances estimated as the same conversation theme as a series of utterance groups based on the content of each utterance;
Conversation situation analysis method to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015125631A JP2017009825A (en) | 2015-06-23 | 2015-06-23 | Conversation state analyzing device and conversation state analyzing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015125631A JP2017009825A (en) | 2015-06-23 | 2015-06-23 | Conversation state analyzing device and conversation state analyzing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017009825A true JP2017009825A (en) | 2017-01-12 |
Family
ID=57763453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015125631A Pending JP2017009825A (en) | 2015-06-23 | 2015-06-23 | Conversation state analyzing device and conversation state analyzing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017009825A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101984283B1 (en) * | 2017-11-22 | 2019-05-30 | 주식회사 제네시스랩 | Automated Target Analysis System Using Machine Learning Model, Method, and Computer-Readable Medium Thereof |
WO2019124742A1 (en) * | 2017-12-19 | 2019-06-27 | 삼성전자 주식회사 | Method for processing voice signals of multiple speakers, and electronic device according thereto |
KR20190079253A (en) * | 2017-12-27 | 2019-07-05 | 한국항공대학교산학협력단 | Multi agent structure for converstional artificial intelligence |
WO2019139101A1 (en) * | 2018-01-12 | 2019-07-18 | ソニー株式会社 | Information processing device, information processing method, and program |
WO2019202804A1 (en) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | Speech processing device and speech processing method |
WO2019239813A1 (en) * | 2018-06-14 | 2019-12-19 | パナソニックIpマネジメント株式会社 | Information processing method, information processing program, and information processing system |
KR20190140805A (en) * | 2018-05-29 | 2019-12-20 | 주식회사 제네시스랩 | Non-verbal Evaluation Method, System and Computer-readable Medium Based on Machine Learning |
JP2020034750A (en) * | 2018-08-30 | 2020-03-05 | 株式会社第一興商 | Karaoke device |
KR20220114378A (en) * | 2021-02-08 | 2022-08-17 | 네이버 주식회사 | Method and system for correcting speaker diarisation using speaker change detection based on text |
-
2015
- 2015-06-23 JP JP2015125631A patent/JP2017009825A/en active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101984283B1 (en) * | 2017-11-22 | 2019-05-30 | 주식회사 제네시스랩 | Automated Target Analysis System Using Machine Learning Model, Method, and Computer-Readable Medium Thereof |
WO2019124742A1 (en) * | 2017-12-19 | 2019-06-27 | 삼성전자 주식회사 | Method for processing voice signals of multiple speakers, and electronic device according thereto |
KR20190074012A (en) * | 2017-12-19 | 2019-06-27 | 삼성전자주식회사 | Method for processing speech signal of plurality of speakers and electric apparatus thereof |
KR102528466B1 (en) * | 2017-12-19 | 2023-05-03 | 삼성전자주식회사 | Method for processing speech signal of plurality of speakers and electric apparatus thereof |
US11495222B2 (en) | 2017-12-19 | 2022-11-08 | Samsung Electronics Co., Ltd. | Method for processing voice signals of multiple speakers, and electronic device according thereto |
KR20190079253A (en) * | 2017-12-27 | 2019-07-05 | 한국항공대학교산학협력단 | Multi agent structure for converstional artificial intelligence |
KR102051384B1 (en) * | 2017-12-27 | 2019-12-03 | 한국항공대학교산학협력단 | Multi agent structure for converstional artificial intelligence |
EP3739573A4 (en) * | 2018-01-12 | 2021-01-13 | Sony Corporation | Information processing device, information processing method, and program |
JPWO2019139101A1 (en) * | 2018-01-12 | 2021-01-28 | ソニー株式会社 | Information processing equipment, information processing methods and programs |
WO2019139101A1 (en) * | 2018-01-12 | 2019-07-18 | ソニー株式会社 | Information processing device, information processing method, and program |
JP7276158B2 (en) | 2018-01-12 | 2023-05-18 | ソニーグループ株式会社 | Information processing device, information processing method and program |
WO2019202804A1 (en) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | Speech processing device and speech processing method |
KR20190140805A (en) * | 2018-05-29 | 2019-12-20 | 주식회사 제네시스랩 | Non-verbal Evaluation Method, System and Computer-readable Medium Based on Machine Learning |
KR102268496B1 (en) * | 2018-05-29 | 2021-06-23 | 주식회사 제네시스랩 | Non-verbal Evaluation Method, System and Computer-readable Medium Based on Machine Learning |
WO2019239813A1 (en) * | 2018-06-14 | 2019-12-19 | パナソニックIpマネジメント株式会社 | Information processing method, information processing program, and information processing system |
JP7296559B2 (en) | 2018-06-14 | 2023-06-23 | パナソニックIpマネジメント株式会社 | Information processing method, information processing program and information processing system |
JP2020034750A (en) * | 2018-08-30 | 2020-03-05 | 株式会社第一興商 | Karaoke device |
JP7082549B2 (en) | 2018-08-30 | 2022-06-08 | 株式会社第一興商 | Karaoke equipment |
KR20220114378A (en) * | 2021-02-08 | 2022-08-17 | 네이버 주식회사 | Method and system for correcting speaker diarisation using speaker change detection based on text |
KR102577346B1 (en) | 2021-02-08 | 2023-09-12 | 네이버 주식회사 | Method and system for correcting speaker diarisation using speaker change detection based on text |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017009826A (en) | Group state determination device and group state determination method | |
JP2017009825A (en) | Conversation state analyzing device and conversation state analyzing method | |
US10706873B2 (en) | Real-time speaker state analytics platform | |
US11455985B2 (en) | Information processing apparatus | |
US10637898B2 (en) | Automatic speaker identification in calls | |
US11417343B2 (en) | Automatic speaker identification in calls using multiple speaker-identification parameters | |
CN107818798B (en) | Customer service quality evaluation method, device, equipment and storage medium | |
US10592997B2 (en) | Decision making support device and decision making support method | |
JP6465077B2 (en) | Voice dialogue apparatus and voice dialogue method | |
Mencattini et al. | Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure | |
TW201935272A (en) | Human-computer interaction method and system based on multi-modal emotion and face attribute identification | |
JP7192222B2 (en) | speech system | |
US20120197644A1 (en) | Information processing apparatus, information processing method, information processing system, and program | |
JP2017508188A (en) | A method for adaptive spoken dialogue | |
JP2018169506A (en) | Conversation satisfaction degree estimation device, voice processing device and conversation satisfaction degree estimation method | |
Nanninga et al. | Estimating verbal expressions of task and social cohesion in meetings by quantifying paralinguistic mimicry | |
JP2018169494A (en) | Utterance intention estimation device and utterance intention estimation method | |
US11574637B1 (en) | Spoken language understanding models | |
CN115088033A (en) | Synthetic speech audio data generated on behalf of human participants in a conversation | |
Park et al. | Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles | |
JP2018171683A (en) | Robot control program, robot device, and robot control method | |
JP2020160425A (en) | Evaluation system, evaluation method, and computer program | |
JP2004021121A (en) | Voice interaction controller unit | |
Johar | Paralinguistic profiling using speech recognition | |
US11398239B1 (en) | ASR-enhanced speech compression |