JP7056780B2 - 通信システム、通信制御方法およびプログラム - Google Patents

通信システム、通信制御方法およびプログラム Download PDF

Info

Publication number
JP7056780B2
JP7056780B2 JP2021043437A JP2021043437A JP7056780B2 JP 7056780 B2 JP7056780 B2 JP 7056780B2 JP 2021043437 A JP2021043437 A JP 2021043437A JP 2021043437 A JP2021043437 A JP 2021043437A JP 7056780 B2 JP7056780 B2 JP 7056780B2
Authority
JP
Japan
Prior art keywords
conversation
user
frame
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021043437A
Other languages
English (en)
Other versions
JP2021096873A (ja
Inventor
正道 飛鳥井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2021096873A publication Critical patent/JP2021096873A/ja
Application granted granted Critical
Publication of JP7056780B2 publication Critical patent/JP7056780B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Description

本開示は、通信システム、通信制御方法およびプログラムに関する。
近年、通信技術の発達により、ネットワークを介したメッセージのやり取りが頻繁に行われている。ユーザは、スマートフォンや携帯電話端末、タブレット端末等の情報処理端末を用いて、他端末から送信されたメッセージを確認したり、メッセージを送信したりすることができる。
また、情報処理端末を用いて、ユーザのメッセージに対して自動で応答を行うエージェントシステムが提案されている。このようなシステムに関し、例えば下記特許文献1では、利用者との間で会話した内容に基づいて利用者が抱く感情を把握し、その把握した感情を表現した言語に含まれる特定のキーワードを抽出して、その抽出したキーワードに基づいて検索を行うことで、より利用者の要求に合致した情報を検索するシステムが開示されている。
また、下記特許文献2では、エージェントからのお薦めに対するユーザの音声応答を音声認識して認識文字列を特定し、認識文字列の内容に基づいて概略的な感情の種類を判定し、そのお薦めに対するユーザの感情を学習する装置が開示されている。
特開2003-173349号公報 特開2001-117581号公報
ここで、エージェントによる自動応答の音声は、ユーザとの問答を想定して予め生成された会話データに基づくものであって、会話を通してユーザがどのような感情になるかは考慮されていなかった。
そこで、本開示では、ユーザ同士の実際の会話から生成した会話構造を用いてユーザを所定の感情に導くことが可能な通信システム、通信制御方法およびプログラムを提案する。
本開示によれば、収集されたユーザの会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求め、前記感情パラメータに基づき、前記会話に基づき生成された会話の構造を記述する会話フレームを抽出して蓄積部に蓄積する制御部、を備え、前記制御部は、第1ユーザの会話に対応する前記感情パラメータのレベルの上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2ユーザの会話より時系列的に前の第1ユーザの会話の構造を記述する会話条件フレームと、を対応付けて前記蓄積部に蓄積する、通信システムを提案する。
本開示によれば、プロセッサが、収集されたユーザの会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求めることと、前記感情パラメータに基づき、前記会話に基づき生成された会話の構造を記述する会話フレームを抽出して蓄積部に蓄積することと、を含み、第1ユーザの会話に対応する前記感情パラメータのレベルの上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2ユーザの会話より時系列的に前の第1ユーザの会話の構造を記述する会話条件フレームと、を対応付けて前記蓄積部に蓄積する、通信制御方法を提案する。
本開示によれば、収集されたユーザの会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求めることと、前記感情パラメータに基づき、前記会話に基づき生成された会話の構造を記述する会話フレームを抽出して蓄積部に蓄積することと、をコンピュータに実行させ、第1ユーザの会話に対応する前記感情パラメータのレベルの上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2ユーザの会話より時系列的に前の第1ユーザの会話の構造を記述する会話条件フレームと、を対応付けて前記蓄積部に蓄積する、ためのプログラムを提案する。
以上説明したように本開示によれば、ユーザ同士の実際の会話から生成した会話構造を用いてユーザを所定の感情に導くことが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態による通信制御システムの概要について説明する図である。 本実施形態による通信制御システムの全体構成を示す図である。 本実施形態による音声エージェントサーバの構成の一例を示すブロック図である。 本実施形態による対話処理部の構成例を示す図である。 本実施形態による会話DBの生成処理を示すフローチャートである。 本実施形態による音素DBの生成処理を示すフローチャートである。 本実施形態による対話制御処理を示すフローチャートである。 本実施形態による会話DBのデータ構成例について説明する図である。 本実施形態による会話DBの更新処理を示すフローチャートである。 本実施形態による個人化レイヤーから共通レイヤーへの会話データ移行処理を示すフローチャートである。 本実施形態による基本対話用会話DBへの会話データの移行について説明する図である。 本実施形態による基本対話用DBへの会話データ移行処理を示すフローチャートである。 本実施形態による広告DBに登録されている広告情報の一例を示す図である。 本実施形態による広告内容の挿入処理を示すフローチャートである。 第1の実施形態による会話DB生成部の構成例を示す図である。 第1の実施形態による会話フレーム生成処理を示すフローチャートである。 第1の実施形態によるハピネス度算出処理を示すフローチャートである。 第1の実施形態による特徴的なキーワードにおける4つの因子の評価値の一例を示す図である。 第1の実施形態による会話履歴DBに蓄積される会話データの一例を示す図である。 第1の実施形態による会話フレーム生成処理を示すフローチャートである。 第1の実施形態による形容詞の感情値テーブルの一例を示す図である。 第1の実施形態による会話フレームの一例を示す図である。 第1の実施形態による対話処理部の構成例を示す図である。 第1の実施形態による応答処理を示すフローチャートである。 第1の実施形態による応答文生成処理を示すフローチャートである。 第1の実施形態による応答文データの出力処理を示すフローチャートである。 気質パラメータによる3次元空間について説明する図である。 第2の実施形態による会話DB生成部の構成例を示す図である。 第2の実施形態による会話フレーム生成処理を示すフローチャートである。 第2の実施形態による性格解析処理を示すフローチャートである。 第2の実施形態による特徴的なキーワードにおける3つの性格パラメータ寄与値の一例を示す図である。 第2の実施形態による会話履歴に蓄積される会話データの一例を示す。 第2の実施形態による性格DBに蓄積される発話者の性格データの一例を示す。 第2の実施形態による性格パラメータ寄与値と性格タイプの3次元空間の一例を示す図である。 第2の実施形態による会話フレームに登録される会話フレームの一例を示す図である。 第2の実施形態による対話処理部の構成例を示す図である。 第2の実施形態による応答文生成処理を示すフローチャートである。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による通信制御システムの概要
2.構成
2-1.システム構成
2-2.サーバの構成
3.システム動作処理
3-1.会話データ登録処理
3-2.音素DB生成処理
3-3.対話制御処理
3-4.会話DB更新処理
3-5.広告挿入処理
4.第1の実施形態による対話制御処理
4-1.会話フレームの生成
(4-1-1.会話DB生成部50Aの構成)
(4-1-2.会話フレームの生成処理)
(4-1-3.ハピネス度算出処理)
(4-1-4.会話フレーム生成処理)
4-2.応答文の生成
(4-2-1.対話処理部300Aの構成)
(4-2-2.応答処理)
(4-2-3.応答文生成処理)
(4-2-4.応答文出力処理)
5.第2の実施形態による対話制御処理
5-1.会話フレームの生成
(5-1-1.会話DB生成部50Bの構成)
(5-1-2.会話フレームの生成処理)
(5-1-3.性格解析処理)
5-2.応答文の生成
(5-2-1.対話処理部300Bの構成)
(5-2-2.応答文生成処理)
6.まとめ
<<1.本開示の一実施形態による通信制御システムの概要>>
本開示の一実施形態による通信制御システムは、ユーザ同士の実際の会話から生成した会話構造を用いてユーザを所定の感情に導くことを可能とする。以下、図1を参照して本実施形態による通信制御システムの概要について説明する。
図1は、本開示の一実施形態による通信制御システムの概要について説明する図である。エージェントとの音声対話は、例えばユーザが所有するスマートフォン、携帯電話端末、またはウェアラブル端末等のクライアント端末1を介して行われ得る。クライアント端末1は、マイクロホンおよびスピーカを有し、ユーザの音声を集音し、また、エージェントの音声を再生することで、ユーザとエージェントとの対話を可能とする。
ここで、エージェント側は、例えば予め想定されたユーザとの問答データを蓄積したデータベースを備え、ユーザの発話音声に応じた応答音声(予め登録されている応答データ)を出力することで、自動応答を実現することができる。
しかしながら、このような自動応答の方法では、会話を通じてユーザがどのような感情になるかは考慮されていなかった。
そこで、本実施形態による通信制御システム(すなわちエージェントシステム)は、ユーザ同士の実際の会話から生成した会話構造を用いてユーザを所定の感情に導くことを可能とする。具体的には、まず、通信制御システムは、図1に示すように、ネットワークを介してやり取りされたユーザ同士による実際の会話データを多数収集した会話群100を解析する。このような会話データの収集は、例えばソーシャルメディアでのメッセージのやり取りや音声による会話から収集される。次いで、通信制御システムは、ユーザが所定の感情、例えば「幸福な感情」(本明細書では、「ハピネス」と称す)を抱いた一連の会話101(「昨日ね、美味しいシチューを作れたよ。」「美味しいシチューを作れるんだ!すごいね!」)に基づいて、ユーザが「幸福な感情」になる会話フレーム(ハピネス会話フレーム110)を生成する。本明細書において、「会話フレーム」とは、会話の構造を記述したものである。
そして、通信制御システムは、ユーザからの発話、例えば「美味しいグラタンを作れた!」(言語解析結果:『〈形容詞〉〈名詞〉を作れた』)に対して、対応するハピネス会話フレーム110、例えば「〈形容詞〉〈名詞〉を作れるんだ!すごいね!」を当てはめて、「美味しいグラタンを作れるんだ!すごいね!」といった応答音声120を生成し、エージェントの発言として再生する。
このように、本実施形態による通信制御システムでは、ユーザとエージェントとの会話において、ユーザが幸福な感情になる応答をエージェントの発言として出力させることができる。
なお、本実施形態による通信制御システム(エージェントシステム)は、音声により応答を行う音声エージェントに限定されず、クライアント端末1においてテキストベースで応答を行うテキスト対応エージェントであってもよい。
<<2.構成>>
<2-1.システム構成>
続いて、上述した本実施形態による通信制御システムの全体構成について図2を参照して説明する。図2は、本実施形態による通信制御システムの全体構成を示す図である。
図2に示すように、本実施形態による通信制御システムは、クライアント端末1およびエージェントサーバ2を含む。
エージェントサーバ2は、ネットワーク3を介してクライアント端末1と接続し、データの送受信を行う。具体的には、エージェントサーバ2は、クライアント端末1で収音され、送信された発話音声に対する応答音声を生成し、クライアント端末1に送信する。エージェントサーバ2は、1以上のエージェントに対応する音素DB(データベース)を有し、特定のエージェントの音声で応答音声を生成することが可能である。ここで、エージェントとは、漫画、アニメ、ゲーム、ドラマ、映画等のキャラクターや、芸能人、著名人、歴史上の人物等であってもよいし、また、個人に特定せず、例えば世代別の平均的な人物であってもよい。また、エージェントは、動物や擬人化されたキャラクターであってもよい。また、エージェントは、ユーザ本人の性格を反映した人物や、ユーザの友人、家族、知人等の性格を反映した人物であってもよい。
また、エージェントサーバ2は、各エージェントの性格を反映した応答内容を生成することが可能である。エージェントサーバ2は、エージェントを介して、ユーザのスケジュール管理、メッセージの送受信、情報提供等、様々なサービスをユーザとの対話を通じて提供し得る。
なおクライアント端末1は、図2に示すようなスマートフォンに限定されず、例えば携帯電話端末、タブレット端末、PC(パーソナルコンピュータ)、ゲーム機、ウェアラブル端末(スマートアイグラス、スマートバンド、スマートウォッチ、スマートネック等)等であってもよい。また、クライアント端末1は、ロボットであってもよい。
以上、本実施形態による通信制御システムの概要について説明した。続いて、本実施形態による通信制御システムのエージェントサーバ2の構成について図3を参照して具体的に説明する。
<2-2.エージェントサーバ2>
図3は、本実施形態によるエージェントサーバ2の構成の一例を示すブロック図である。図3に示すように、エージェントサーバ2は、音声エージェントI/F(インタフェース)20、対話処理部30、音素記憶部40、会話DB生成部50、音素DB生成部60、広告挿入処理部70、広告DB72、およびフィードバック取得処理部80を有する。
音声エージェントI/F20は、音声データの入出力部、音声認識部、および音声生成部として機能する。入出力部としては、ネットワーク3を介してクライアント端末1と送受信を行う通信部が想定される。音声エージェントI/F20は、クライアント端末1からユーザの発話音声を受信し、音声認識によりテキスト化することが可能である。また、音声エージェントI/F20は、対話処理部30から出力されたエージェントの回答文データ(テキスト)を、当該エージェントに対応する音素データを用いて音声化し、生成したエージェントの応答音声をクライアント端末1に送信する。
対話処理部30は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェントサーバ2内の動作全般を制御する。対話処理部30は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、本実施形態による対話処理部30は、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34として機能する。
キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34は、エージェント毎に特化された対話を実現する。ここでは、エージェントの一例として「キャラクターA」「人物B」「人物C」を挙げているが、本実施形態は当然これに限定されず、さらに多数のエージェントに特化した対話を実現する各対話処理部を有していてもよい。基本対話処理部31は、エージェント毎に特化されていない、汎用の対話を実現する。
ここで、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34に共通する基本構成について図4を参照して説明する。
図4は、本実施形態による対話処理部300の構成例を示す図である。図4に示すように、対話処理部300は、質問文検索部310、回答文生成部320、音素データ取得部340、および会話DB330を有する。会話DB330は、質問文データと回答文データが組になった会話データが保存されている。エージェントに特化した対話処理部では、かかる会話DB330にエージェントに特化した会話データが保存され、汎用の対話処理部では、かかる会話DB330にエージェントに特化しない汎用の会話データ(すなわち、基本会話データ)が保存されている。
質問文検索部310は、音声エージェントI/F20から出力された、ユーザの質問音声(発話音声の一例)を認識してテキスト化した質問文と一致する質問文データを会話DB330から検索する。回答文生成部320は、質問文検索部310により検索した質問文データに対応付けて保存されている回答文データを会話DB330から抽出し、回答文データを生成する。音素データ取得部340は、回答文生成部320により生成された回答文を音声化するための音素データを、対応するエージェントの音素記憶部40から取得する。例えば、キャラクターA対話処理部32の場合、キャラクターA音素DB42から、回答文データをキャラクターAの音声で再生するための音素データを取得する。そして、対話処理部300は、生成した回答文データおよび取得した音素データを音声エージェントI/F20に出力する。
音素記憶部40は、エージェント毎の音声を生成するための音素データベースを格納する。音素記憶部40は、ROM(Read Only Memory)およびRAM(Random Access Memory)により実現され得る。図3に示す例では、基本音素DB41、キャラクターA音素DB42、人物B音素DB43、人物C音素DB44を格納する。各音素DBには、音素データとして、例えば音素片とその制御情報である韻律モデルが記憶されている。
会話DB生成部50は、対話処理部300の会話DB330を生成する機能を有する。例えば会話DB生成部50は、想定される質問文データを収集し、各質問に対応する回答文データを収集した後に、質問文データと回答文データとを組にして保存する。そして、会話DB生成部50は、所定数の会話データ(質問文データと回答文データとの組、例えば100組)が集まったら、エージェントの会話データセットとして会話DB330に登録する。
音素DB生成部60は、音素記憶部40に格納されている音素DBを生成する機能を有する。例えば音素DB生成部60は、所定のテキストを読み上げた音声情報を解析して、音素片とその制御情報である韻律モデルに分解し、所定数以上の音声情報が収集できたら音素データとして音素DBに登録する処理を行う。
広告挿入処理部70は、エージェントの対話に広告情報を挿入する機能を有する。挿入する広告情報は、広告DB72から抽出し得る。広告DB72には、企業等の提供側(ベンダー、サプライヤー)から依頼された広告情報(例えばテキスト、画像、音声等の広告内容、広告主、広告期間、広告対象者等の情報)が登録されている。
フィードバック取得処理部80は、エージェントの対話に、フィードバックを取得するための質問を挿入し、ユーザからフィードバックを得るための機能を有する。
以上、本実施形態によるエージェントサーバ2の構成について具体的に説明した。なお、本実施形態によるエージェントサーバ2の構成は、図3に示す例に限定されない。例えば、エージェントサーバ2が有する各構成は、各々ネットワーク上の他サーバで構成されていてもよい。
続いて、本実施形態による通信制御システムの基本的な動作処理について図5~図14を参照して説明する。
<<3.システム動作処理>>
<3-1.会話データ登録処理>
図5は、本実施形態による会話DB330の生成処理を示すフローチャートである。図5に示すように、まず、会話DB生成部50は、想定される質問文を保存する(ステップS103)。
次に、会話DB生成部50は、質問文に対応する(対の)回答文を保存する(ステップS106)。
次いで、会話DB生成部50は、質問文と回答文のペア(会話データとも称す)が所定数集まったか否かを判断する(ステップS109)。
そして、質問文と会話文のペアが所定数集まった場合(ステップS109/Yes)、会話DB生成部50は、質問文および回答文の多数のペアから成るデータセットを会話DB330に登録する(ステップS112)。質問文および回答文のペアの一例としては、例えば下記のようなものが想定される。
質問文および回答文のペア例
ペア1
質問文:おはよう。
回答文:今日の調子はどうですか?
ペア2
質問文:今日の天気は?
回答文:今日の天気は○○です。
このようなペアが、会話データとして会話DB330に登録され得る。
<3-2.音素DB生成処理>
図6は、本実施形態による音素DBの生成処理を示すフローチャートである。図6に示すように、まず、音素DB生成部60は、例文の表示を行う(ステップS113)。例文の表示は、例えば図示しない情報処理端末のディスプレイに、音素データ生成のために必要な例文を表示する。
次に、音素DB生成部60は、例文を読み上げた音声を録音し(ステップS116)、録音音声を分析する(ステップS119)。例えば、エージェントの音声を担当する人物により読み上げられた音声情報が情報処理端末のマイクロホンにより収集され、音素DB生成部60がこれを受信し、記憶し、さらに音声分析を行う。
次いで、音素DB生成部60は、音声情報に基づいて、韻律モデルを生成する(ステップS122)。韻律モデルとは、音声の韻律的特徴(例えば音の高低、音の強弱、発話速度等)を示す韻律パラメータを抽出するものであって、個人毎に異なる。
次に、音素DB生成部60は、音声情報に基づいて、音素片(音素データ)を生成する(ステップS125)。
次いで、音素DB生成部60は、韻律モデルおよび音素片を保存する(ステップS128)。
続いて、音素DB生成部60は、韻律モデルおよび音素片が所定数集まったか否かを判断する(ステップS131)。
そして、韻律モデルおよび音素片が所定数集まった場合(ステップS131/Yes)、音素DB生成部60は、韻律モデルおよび音素片を、所定のエージェント用の音素データベースとして音素記憶部40に登録する(ステップS134)。
<3-3.対話制御処理>
図7は、本実施形態による対話制御処理を示すフローチャートである。図7に示すように、まず、音声エージェントI/F20は、ユーザの質問音声およびエージェントIDを取得したか否かを確認する(ステップS143)。エージェントIDは、キャラクターA、人物B、人物Cといった特定のエージェントを示す識別情報である。ユーザは、エージェント毎の音素データを購入することができ、例えば購入処理時に購入したエージェントのIDがクライアント端末1に保存される。
次に、ユーザの質問音声およびエージェントIDを取得すると(ステップS146/Yes)、音声エージェントI/F20は、質問音声を音声認識し、テキスト化する(ステップS149)。音声エージェントI/F20は、テキスト化した質問文を、エージェントIDで指定された特定エージェントの対話処理部に出力する。例えば「エージェントID:キャラクターA」の場合、音声エージェントI/F20は、テキスト化した質問文をキャラクターA対話処理部32に出力する。
次いで、対話処理部30は、エージェントIDで指定された特定エージェントの会話DBから、テキスト化した質問文と一致する質問文を検索する(ステップS152)。
次に、一致する質問があった場合(ステップS155/Yes)、キャラクターA対話処理部32は、質問に対応する(対になって保存されている)回答文データを特定エージェントの会話DBから取得する(ステップS158)。
一方、一致する質問がなかった場合(ステップS155/No)、基本対話処理部31の会話DBから、テキスト化した質問文と一致する質問文が検索される(ステップS161)。
一致する質問文があった場合(ステップS161/Yes)、基本対話処理部31は、質問に対応する(対になって保存されている)回答文データを基本対話処理部31の会話DBから取得する(ステップS167)。
一方、一致する質問文がなかった場合(ステップS164/No)、基本対話処理部31は、一致する質問文が無い場合の回答文データ(例えば、「質問が解りません」といった回答文)を取得する(ステップS170)。
次いで、キャラクターA対話処理部32により、エージェントIDで指定された特定エージェントの音素DB(ここでは、キャラクターA音素DB42)を参照し、回答文データの音声を生成するためのキャラクターAの音素データが取得される(ステップS173)。
次に、取得された音素データと回答文データが音声エージェントI/F20に出力される(ステップS176)。
そして、音声エージェントI/F20は、回答文データ(テキスト)を音素データを用いて音声化(音声合成)し、クライアント端末1に送信する(ステップS179)。クライアント端末1では、キャラクターAの音声で回答文が再生される。
<3-4.会話DB更新処理>
次に、各対話処理部300の会話DB330の更新処理について説明する。本実施形態では、ユーザとの会話によって会話DB330を成長させることが可能である。
まず、会話DB330のデータ構成例について図8を参照して補足説明を行う。図8は、本実施形態による会話DB330のデータ構成例について説明する図である。図8に示すように、各会話DB330は、個人化レイヤー331と共通レイヤー332という2つのレイヤーを有する。例えばキャラクターA用会話DB330Aの場合、共通レイヤー332Aには、キャラクターAの性格や特徴が反映された会話データが保持される。一方、個人化レイヤー331Aには、ユーザとの会話により当該ユーザ向けにカスタマイズされた会話データが保持される。すなわち、キャラクターA音素DB42およびキャラクターA対話処理部32がセットでユーザに提供(販売)されるところ、あるユーザXと、ユーザYは、最初は同じキャラクターAと対話を行う(共通レイヤー332Aに保持されている会話データが使用される)が、対話を続けるにつれて、各ユーザ向けにカスタマイズされた会話データが、ユーザ毎の個人化レイヤー331Aに蓄積される。これにより、ユーザX、ユーザYそれぞれの好みに応じたキャラクターAとの対話を提供できるようになる。
またエージェント「人物B」が、キャラクターAのような特定の性格を有さない平均的な世代別の人物の場合も、会話データがユーザ向けにカスタマイズされ得る。すなわち、例えば「人物B」が『20代の人物』の場合、共通レイヤー332Bには20代の平均的な会話データが保持され、ユーザとの対話を続けることでカスタマイズされた会話データがユーザ毎の個人化レイヤー331Bに保持される。また、ユーザは、人物Bの音声として「男性」、「女性」、「高い声」、「低い声」といった好きな音素データを人物B音素DB43から選択し、購入することも可能である。
このような会話DB330のカスタマイズを行う際の具体的な処理について、図9を参照して説明する。図9は、本実施形態による会話DB330の更新処理を示すフローチャートである。
図9に示すように、まず、音声エージェントI/F20は、クライアント端末1からユーザの質問音声を取得(受信)し、これを音声認識によりテキスト化する(ステップS183)。テキスト化されたデータ(質問文データ)は、エージェントIDにより指定されている特定エージェントの対話処理部(ここでは、例えばキャラクターA対話処理部32)に出力される。
次に、キャラクターA対話処理部32は、質問文データが所定のコマンドであるか否かを判断する(ステップS186)。
次いで、所定のコマンドである場合(ステップS186/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、会話DB330Aの個人化レイヤー331Aに質問文データと対で登録する(ステップS189)。所定のコマンドとは、例えば「NG」、「設定」といった言葉であってもよい。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
ユーザ:「おはよう」
キャラクターA:「おはよう」
ユーザ:「NG。元気で頑張ってと答えて」
キャラクターA:「元気で頑張って」
上記の会話の流れでは、『NG』が所定のコマンドであって、キャラクターA対話処理部32は、ユーザから『NG』と発せられた後、ユーザ指定の回答文データ『元気で頑張って』を、質問文データ『おはよう』と対にして会話DB330Aの個人化レイヤー331Aに登録する。
一方、所定のコマンドでない場合(ステップS186/No)、キャラクターA対話処理部32は、質問文データと対になって保持されている回答文データをキャラクターA用会話DB330Aから検索する。質問文データと対になって保持されている回答文データがキャラクターA用会話DB330Aに保持されていない場合、すなわち、ユーザの質問が回答文の無い質問であった場合(ステップS192/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、質問文と対にして個人化レイヤー331Aに登録する(ステップS195)。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
ユーザ:「元気?」
キャラクターA:「質問がわかりません」(該当する回答が無い場合の回答データ例) ユーザ:「『元気?』と聞いたら、『今日も元気だよ』と答えて」
キャラクターA:「今日も元気だよ」
上記会話の流れでは、『元気?』と対になって保持される回答文データが無いため、該当する回答が無い場合の回答データ例である『質問がわかりません』がキャラクターA対話処理部32により取得され、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力され、クライアント端末1で再生される。次いで、ユーザ指定の回答文『今日も元気だよ』が入力されると、キャラクターA対話処理部32は、質問文データ『元気?』と対にして個人化レイヤー331Aに登録する。
なお、回答文の有る質問であった場合(ステップS192/No)、キャラクターA対話処理部32は、当該回答文データを取得し、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力し、クライアント端末1で回答文がキャラクターAの音声で再生される(ステップS198)。
次いで、個人化レイヤーから共通レイヤーへの会話データ移行について、図10を参照して説明する。図10は、本実施形態による個人化レイヤーから共通レイヤーへの会話データ移行処理を示すフローチャートである。ここでは、一例としてキャラクターA対話処理部32の個人化レイヤー331Aから共通レイヤー332Aへの会話データ移行処理について説明する。
図10に示すように、まず、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aを定期的にサーチし(ステップS203)、実質的に同じ内容の会話ペア(質問文データと回答文データのペア)を抽出する(ステップS206)。実質的に同じ内容の会話ペアとは、例えば質問文「元気?」と回答文「今日も元気だよ!」のペアと、質問文「元気ですか?」と回答文「今日も元気だよ!」のペアは、質問文が丁寧語か否かの違いのみであって、実質的に同じ内容の会話ペアと判断され得る。
次に、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aから会話ペアが所定数以上抽出された場合(ステップS209/Yes)、当該会話ペアを(ユーザ毎の)共通レイヤー332Aに登録する(ステップS212)。
このように、ユーザ毎の個人化レイヤー331において実質的に内容が同じ会話ペアを共通レイヤー332に移行することで、共通レイヤー332を成長(会話ペアを拡充)させることが可能となる。
また、本実施形態では、特定エージェントの会話DB(具体的には共通レイヤー)から基本対話用の会話DBへ会話データを移行して基本対話用の会話DBを成長させることも可能である。図11は、本実施形態による基本対話用会話DB330Fへの会話データの移行について説明する図である。例えば、ユーザXおよびユーザYが各々エージェント「キャラクターA」を選択(購入)し、ユーザZがエージェント「人物B」を選択(購入)している場合、図11に示すように、ユーザXのキャラクターA用会話DB330A-X、ユーザYのキャラクターA用会話DB330A-Y、およびユーザZの人物B用会話DB330B-Zが対話処理部30に存在し得る。この場合、各個人化レイヤー331AX、331A-Y、331B-Zには、各ユーザX、ユーザY、ユーザZとの対話に応じて独自の(カスタマイズされた)会話ペアが登録されていく(図9参照)。次いで、同じエージェントの個人化レイヤー331A-X、331A-Yにおいて実質同じ会話ペアが所定数あると、ユーザ毎の共通レイヤー332A-X、332A-Yに各々登録される(図10参照)。
そして、対話処理部30は、複数のエージェント(異なるエージェントを含んでもよい)の共通レイヤー332A-X、332A-Y、332B-Zから実質同じ会話ペアが所定数以上抽出された場合、上位の基本対話用会話DB330Fに会話ペアを移行する。基本対話用会話DB330Fは、基本対話処理部31が有する会話DBである。これにより、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。かかるデータ移行処理について、図12を参照して具体的に説明する。図12は、本実施形態による基本対話用DB330Fへの会話データ移行処理を示すフローチャートである。
図12に示すように、まず、対話処理部30は、定期的に会話DB330の複数の共通レイヤー332をサーチし(ステップS223)、実質同じ会話ペアを抽出する(ステップS226)。
次に、対話処理部30は、複数の共通レイヤー332から実質同じ会話ペアが所定数以上抽出された場合(ステップS229/Yes)、当該会話ペアを基本対話用会話DB330Fに登録する(ステップS232)。
このように、複数のエージェントにおける会話DB330の共通レイヤー332において実質的に内容が同じ会話ペアを、基本対話用会話DB330Fに移行することで、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。
<3-5.広告出力処理>
続いて、広告挿入処理部70による広告情報の挿入処理について図13~図14を参照して説明する。本実施形態では、広告挿入処理部70により、エージェントの発言に広告DB72に格納されている広告情報の挿入を行うことが可能である。広告DB72には、予め広告情報が登録され得る。図13は、本実施形態による広告DB72に登録されている広告情報の一例を示す図である。
図13に示すように、広告情報621は、例えばエージェントID、質問文、広告内容、条件、および確率を含む。エージェントIDは広告内容を発言するエージェントを指定し、質問文は広告内容を挿入するトリガとなるユーザの質問文を指定し、広告内容はエージェントの対話に挿入する広告文章である。また、条件は、広告内容を挿入する条件であって、確率は広告内容を挿入する確率を示す。例えば図13の1段目に示す例では、エージェント「キャラクターA」との対話において、30歳以下のユーザからの質問文に「チョコレート」という単語が含まれている場合に、「BB社の新しく発売されたチョコはミルクがたくさん入っていて美味しいよ」といった広告内容が回答文に挿入される。また、トリガとなる質問文が発せられた際に毎回広告内容を挿入するとユーザが煩わしく思ってしまうこともあるため、本実施形態では、広告を挿入する確率を設定するようにしてもよい。かかる確率は広告料に応じて決定されてもよい。例えば広告料が高いほど確率が高く設定される。
このような広告内容の挿入処理について図14を参照して具体的に説明する。図14は、本実施形態による広告内容の挿入処理を示すフローチャートである。
図14に示すように、まず、広告挿入処理部70は、ユーザとエージェントとの対話(具体的には、対話処理部30による対話処理)を監視する(ステップS243)。
次に、広告挿入処理部70は、ユーザとエージェントとの対話に、広告DB72に登録されている質問文と同一の内容の質問文が登場したか否かを判断する(ステップS246)。
次いで、同一の内容の質問文が登場した場合(ステップS246/Yes)、広告挿入処理部70は、該当する質問文と対応付けられている広告挿入の条件および確率を確認する(ステップS249)。
続いて、広告挿入処理部70は、条件および確率に基づいて、現在、広告が出せる状態であるか否かを判断する(ステップS252)。
次に、広告が出せる状態である場合(ステップS252/Yes)、広告挿入処理部70は、対話処理部30による対話処理を一時停止させ(ステップS255)、広告内容を対話に挿入する(ステップS258)。具体的には、例えばユーザの質問文に対するエージェントの回答文に、広告内容を挿入させる。
そして、広告内容を含む対話(会話文データ)が対話処理部30から音声エージェントI/F20に出力され、音声エージェントI/F20からクライアント端末1に送信され、エージェントの音声で再生される(ステップS261)。具体的には、例えば以下のような会話により、キャラクターAの発言としてユーザに広告内容を提示することができる。
ユーザ:「おはよう」
キャラクターA:「おはよう!今日の調子はどうですか?」
ユーザ:「元気だよ。何か美味しい物食べたいな」
キャラクターA:「CC店の焼肉が美味しいらしいよ」
上記会話では、まず、ユーザの質問文「おはよう」に対して、キャラクターAの会話DBから検索された対応する回答文「おはよう!今日の調子はどうですか?」が音声出力さ
れる。次いで、ユーザの質問文「元気だよ。何か美味しい物食べたいな」に、広告挿入のトリガとなる質問文「何か美味しい物食べたいな」が含まれているため(図13の2段目参照)、広告挿入処理部70は広告挿入処理を行い、キャラクターAの音声で広告内容「CC店の焼肉が美味しいらしいよ」といった回答文が出力される。
以上、本実施形態による通信制御システムの基本的な動作処理として、会話データ登録処理、音素DB生成処理、対話制御処理、会話DB更新処理、および広告挿入処理について説明した。
なお、本実施形態による対話制御処理は、上述した例に限定されない。本実施形態による対話処理部30は、ユーザを所定の感情に導く会話フレームを用いてエージェントの応答を生成することが可能である。以下、図15~図37を参照して具体的に説明する。
<<4.第1の実施形態による対話制御処理>>
<4-1.会話フレームの生成>
まず、会話フレームの生成について説明する。会話フレームの生成は、会話DB生成部50により行われ得る。上述したように、本実施形態による会話DB生成部50は、予め想定された質問文データと回答文データとを組にした会話文データを保存し、会話文データが一定量(例えば100組)集まると、会話文のデータセットとして対話処理部30に出力し、会話文のデータセットが所定の会話DB330(図4参照)に格納される。本実施形態による会話DB生成部50の生成処理はこれに限定されず、会話フレームの生成を行うことも可能である。以下、図15を参照して、会話フレームの生成を行う会話DB生成部50Aの主要構成について説明する。
(4-1-1.会話DB生成部50Aの構成)
図15は、第1の実施形態による会話DB生成部50Aの構成例を示す図である。図15に示すように、会話DB生成部50Aは、制御部500、通信部510、会話履歴DB511、および会話フレームDB512を有する。
通信部510は、外部装置と有線または無線により接続し、データの送受信を行う機能を有する。例えば通信部510は、インターネットに接続し、ネットワーク上の各種ソーシャルメディアサーバやメールサーバからユーザ間のメッセージのやり取りや音声による会話を収集する。
会話履歴DB511は、通信部510により収集されたユーザ間の会話を格納する。なお音声会話の場合、音声会話を音声解析によりテキスト化したデータも併せて蓄積するようにしてもよい。音声会話の音声解析は、例えば制御部500により行われる。また、会話履歴DB511には、音声エージェントI/F20を介して行われたユーザとエージェントとの音声会話やユーザ間の音声会話をテキスト化した会話データも蓄積されてもよい。会話履歴DB511では、会話データの内容と、会話日時、会話者ID、後述するハピネス度等のパラメータが紐付けて格納される。
制御部500は、演算処理装置および制御装置として機能し、各種プログラムに従って会話DB生成部50A内の動作全般を制御する。制御部500は、例えばCPU、マイクロプロセッサ等の電子回路によって実現される。また、本実施形態による制御部500は、ハピネス算出部501、および会話フレーム生成部502として機能する。
ハピネス算出部501は、会話履歴DB511に蓄積された会話データに基づいて、会話毎の発話者の幸福度合いを算出し、算出した値をハピネス度として会話データに紐付けて会話履歴DB511に保存する。ハピネス度の算出は、例えば会話に含まれる特徴的なキーワードに基づいて算出され得る。ハピネス度の詳細な算出方法については、後述する。
会話フレーム生成部502は、ユーザを所定の感情(ここでは、一例として「幸福な感情」)に導くための会話の構造を記述した会話フレームを生成する。例えば会話フレーム生成部502は、会話履歴DB511に蓄積されている会話データを参照し、発話者のハピネス度が上昇した会話を抽出し、ハピネス度上昇より時系列的に前に行われた会話のやり取りに基づいて会話フレームを生成し、会話フレームDB512に蓄積する。会話フレームの詳細な生成方法については、後述する。
会話フレームDB512には、会話フレーム生成部502で生成された会話フレームが蓄積される。
制御部500は、会話フレームDB512に蓄積された会話フレームを、対話処理部30に出力する。当該会話フレームは、対話処理部30によりエージェントの応答文を生成
する際に用いられる。
以上、第1の実施形態による会話DB生成部50Aの構成について具体的に説明した。続いて、第1の実施形態による会話DB生成部50Aの動作処理について説明する。
(4-1-2.会話フレームの生成処理)
図16は、第1の実施形態による会話フレーム生成処理を示すフローチャートである。図16に示すように、まず、会話DB生成部50Aは、通信部510を介して、例えばネットワーク上のソーシャルメディアからユーザ間の会話データを取得する(ステップS303)。取得された会話データは、会話履歴DB511に蓄積される。
次に、ハピネス算出部501は、会話履歴DB511に蓄積された会話データに基づいて、会話毎の発話者のハピネス度を算出する(ステップS306)。ハピネス度の定義は様々考えられるが、本実施形態では一例として慶應義塾大学大学院教授の前野隆司著『幸せのメカニズム』(講談社現代新書)で定義されている「幸福になるための因子」を用いる。ここでは、「幸福になるための因子」として以下の4つの因子が挙げられる。
・目的を達成するための自己成長と自身に向かう特徴の「自己実現と成長」因子
・感謝傾向と他者に向かう特徴の「つながりと感謝」因子
・楽観的・ポジティブで精神的に安定している「前向きと楽観」因子
・自己を確立し他者と比較しない性質である「独立とマイペース」因子
本実施形態では、これら4つの因子のそれぞれの値が大きいほど幸福度が高いと推定する。したがって、例えば各因子に対応する特徴的なキーワードが会話データに含まれる頻度に基づいてハピネス度(幸福度合い)を算出し得る。各因子に対応する特徴的なキーワードの一例は、図18を参照して後述する。
算出したハピネス度は、各会話に紐付けられて会話履歴DB511に格納される。
次いで、会話フレーム生成部502は、会話毎のハピネス度を参照して、ユーザが幸福な感情になる会話フレームを生成する(ステップS309)。生成された会話フレームは、会話フレームDB512に蓄積される。
そして、上記ステップS303~S309が、終了指示があるまで繰り返される(ステップS312)。上記ステップS303~S309は、例えば定期的(1日1回、6時間に1回等)に行われる。
(4-1-3.ハピネス度算出処理)
次に、上記ステップS306で行われるハピネス度算出処理について詳述する。図17は、第1の実施形態によるハピネス度算出処理を示すフローチャートである。
図17に示すように、まず、ハピネス算出部501は、会話履歴DB511に蓄積された会話データの言語解析を行う(ステップS323)。例えばハピネス算出部501は、会話データ(テキスト)を形態素解析する。
次いで、ハピネス算出部501は、解析結果に基づいて会話データの表現検索を行い(ステップS326)、ハピネス度を算出する(ステップS329)。ここで、上述したように、本実施形態では、幸福の度合いを表すハピネス度を算出する際に、主観的幸福の心的要因の因子分析に基づく「幸福の因子」を用いる。具体的には、「幸福の因子」である4つの因子に対応する特徴的なキーワードが会話データに含まれる頻度に基づいてハピネス度を算出する。ここで、図18に特徴的なキーワードにおける4つの因子の評価値の一例を示す。図18に示すテーブルは、例えばハピネス算出部501が有する。
図18に示す4つの因子は、因子1:自己実現と成長因子、因子2:つながりと感謝の因子、因子3:前向きと楽観因子、因子4:独立とマイペース因子である。また、4つの因子の評価値(すなわちハピネス度寄与値)は、0~1で表現されている。例えば1段目の「自己実現」というキーワード(すなわち会話表現)が会話データに含まれている場合、自己実現と成長因子(因子1)の評価値が「1」、他の因子の評価値は「0」である。また、4段目の「ありがとう」というキーワードが会話データに含まれている場合、つながりと感謝の因子(因子2)の評価値が「1」、他の因子の評価値は「0」である。
したがって、ハピネス算出部501は、会話データの形態素解析(単語の抽出)の結果に基づいて、図18に示すテーブルに含まれる全ての表現(キーワード)を会話データから検索し、発見した表現についてそれぞれの因子の寄与値を加算したハピネス度のベクトルを求める。各因子の寄与値をf1~4とすると、ハピネス度のベクトルは下記式1により求められる。
Figure 0007056780000001
例えば、「それほどでも。ありがとうね。」という会話データには、ハピネス度寄与値のテーブルの「ありがとう」という表現が含まれ、図18に示すテーブルを参照すると、ハピネス度寄与値は、happiness = [0,1,0,0]となる(因子2の値が「1」)。
次いで、ハピネス算出部501は、算出したハピネス度を会話履歴DB511の各会話データのメタデータとして保存する(ステップS332)。ここで、図19に、会話履歴DB511に蓄積される会話データの一例を示す。会話データは、会話ID、会話日時、会話者ID、テキスト(会話内容)、およびハピネス度が紐付けられているデータである。図19に示す会話ID: C02-03は、会話内容の中に「計画」という特徴的なキーワードが含まれているため、図18に示すテーブルを参照して、因子1の値が「0.5」と判断され、ハピネス度寄与値は、happiness = [0.5,0,0,0]となっている。
そして、上記ステップS323~S332が、終了指示があるまで繰り返される(ステップS335)。上記ステップS323~S332は、例えば定期的(1日1回、6時間に1回等)に行われる。
(4-1-4.会話フレーム生成処理)
続いて、上記ステップS309で行われる会話フレーム生成処理について詳述する。図20は、第1の実施形態による会話フレーム生成処理を示すフローチャートである。
図20に示すように、まず、会話フレーム生成部502は、会話履歴DB511から、ハピネス度上昇の要因となった会話データを抽出する(ステップS343)。具体的には、会話フレーム生成部502は、会話履歴DB511に蓄積されている会話データのうち、一連の会話の中で同じ発話者IDの会話データのハピネス度が上昇している場合、上昇した会話データの直近にやり取りされた会話データを抽出する。ハピネス度上昇の判定には、例えば所定の閾値を用いてもよい。例えば、図19に示す会話データのうち、一例の会話(例えば会話ID:C01)の中で、発話者ID:U01の会話ID:C01-01のハピネス度[0,0,0,0]と会話ID:C01-03のハピネス度[0,1,0,0]とを比較すると、ハピネス度が「1」上昇しているのが分かる。この場合、会話フレーム生成部502は、上昇した会話データの直近にやり取りされた会話データ、すなわち会話ID:C01-01の会話データ(発話者ID:U01)と会話ID:C01-02の会話データ(発話者ID:U02)を抽出する。
なお、会話データに含まれる、感情を表す特徴的なキーワード(以下、「感情語」と称す)に基づいて算出された感情値(感情を表す値)が各会話データに付与されている場合には、ハピネス度のみならず、感情値が上昇している会話を抽出してもよい。かかる感情値の算出は、ハピネス算出部501によりハピネス度の算出の際に行われてもよい。ハピネス算出部501は、感情語毎の感情値を示す感情値テーブルを有し、会話データの形態素解析結果から会話データに含まれる感情語を検索し、感情語が含まれている場合は感情語の感情値を加算することで、会話データの感情値を算出する。なお、感情語としては、ポジティブ/ネガティブな修飾語や感嘆詞が挙げられる。
以上、ハピネス度上昇の要因となった会話データの抽出について説明した。
次に、会話フレーム生成部502は、抽出した会話データの構文解析を行う(ステップS346)。具体的には、会話フレーム生成部502は、抽出した会話データの文字列を形態素に分け、単語間の文法的な関係(主語-述語、修飾-被修飾等)を解析する。
次いで、会話フレーム生成部502は、構文解析結果に基づいて、抽出した会話データの名詞句を抽象化し(ステップS349)、動詞と抽象化された名詞句から成る会話フレームを生成する(ステップS352)。なお、名詞句が形容詞を含んでいる場合には、図21に示すような形容詞の感情値テーブルを参照して、対応する形容詞の感情値に応じた値(感情値1;「ポジティブ」、感情値-1;「ネガティブ」、感情値0;「中立」)を会話フレームに入れておいてもよい。以下、会話フレームの生成について具体例を挙げて説明する。
例えば、会話フレーム生成部502は、抽出された会話データが、「昨日、美味しいグラタンを作れた!」(会話ID: C01-01)と、「美味しいグラタンを作れるんだ。すごいね」(会話ID: C01-02)の場合、各会話データを構文解析し、共通する名詞句(ここでは「美味しいグラタン(形容詞+名詞)」)を抽象化して下記のような会話フレームを生成する。
条件フレーム:「〈形容詞:ポジティブ〉〈名詞〉を作れた。」
応答フレーム:「〈形容詞:ポジティブ〉〈名詞〉を作れるんだ。すごいね!」
会話フレームは、上記のように当該会話フレームが使われる"条件(条件フレーム)"と、その"応答(応答フレーム)"から成る。また、会話フレームには、形容詞の感情値に応じた値(ここでは、「美味しい」の感情値「1」に対応する値『ポジティブ』)も入れられる。これにより、当該会話フレームは、ポジティブな物を作ったという発話への応答に使われることが分かる。
次いで、会話フレーム生成部502は、生成した会話フレームを会話フレームDB512に登録する(ステップS355)。ここで、会話フレームDB512に登録される会話フレームの一例を図22に示す。図22に示すように、各会話フレームにはフレームIDが付与されている。
そして、上記ステップS343~S355が、終了指示があるまで繰り返される(ステップS358)。上記ステップS343~S355は、例えば定期的(1日1回、6時間に1回等)に行われる。
<4-2.応答文の生成>
続いて、第1の実施形態による会話フレームを用いた応答文の生成について説明する。本実施形態による会話DB生成部50Aは、上述したように会話フレームを生成し、会話フレームが所定数(例えば100組)に達すると、会話フレームのデータセットとして対話処理部30に出力する。対話処理部30は、音声エージェントI/F20を介して入力されたユーザの発話(質問音声)に対してエージェントの応答(回答音声)を生成する際に、予め生成された会話フレームを用いる。ここでは、このような会話フレームを用いて応答を生成する対話処理部300Aの構成および動作処理について具体的に説明する。なお、対話処理部300Aの構成は、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34に共通する。
(4-2-1.対話処理部300Aの構成)
図23は、第1の実施形態による対話処理部300Aの構成例を示す図である。図23に示すように、対話処理部300Aは、質問文検索部310、回答文生成部320、会話DB330、音素データ取得部340、会話解析部350、会話履歴DB360、応答文生成部370、および会話フレームDB380を有する。
質問文検索部310、回答文生成部320、会話DB330、および音素データ取得部340は、図4を参照して説明した同符号の構成と同様であるので、ここでの説明は省略する。
会話解析部350は、音声エージェントI/F20により取得され、テキスト化されたユーザの会話文を取得し、構文解析を行う。なお、会話解析部350は、当該会話文を会話履歴DB360に蓄積してもよい。会話履歴DB360に蓄積された会話文は、会話DB生成部50Aにより収集される。
応答文生成部370は、会話解析部350による解析結果に基づいて、構文が一致する会話フレームを会話フレームDB380から検索する。会話フレームDB380には、会話DB生成部50Aの会話フレームDB512に蓄積された会話フレームのデータセットが保存されている。会話フレームDB380に保存されている会話フレームは、会話DB生成部50Aにより定期的に更新されてもよい。
例えば、応答文生成部370は、ユーザの会話文が「やった!美しい生け花を作れたよ!」の場合、名詞句を抽象化する構文解析結果「やった!<形容詞:ポジティブ><名詞>を作れたよ!」と一致する条件(発話条件フレーム)を会話フレームDB380から検索する。例えば図22に示すような会話フレームが保存されている場合、フレームID: F01の条件フレームが一致する。したがって、応答文生成部370は、当該条件フレームに対応する応答フレーム「<形容詞:ポジティブ><名詞>を作れるんだ。すごいね!」を用いて、「美しい生け花を作れるんだ。すごいね!」を応答文データとして生成する。なお、複数の条件フレームが検索された場合には、例えば最初に検索されたものを選択するようにしてもよいし、検索した全ての条件フレームからランダムに選択するようにしてもよい。
応答文生成部370により生成された応答文データは、音素データ取得部340に出力され、音素データ取得部340により特定エージェントの音素が取得され、応答文データおよび音素データが音声エージェントI/F20に出力される。そして、音声エージェントI/F20により応答文データが特定エージェントの音声で音声化され、クライアント端末1から特定エージェントの発言として出力される。
以上、第1の実施形態による対話処理部300Aの構成について説明した。続いて、本実施形態による対話処理部300Aの動作処理について説明する。
(4-2-2.応答処理)
図24は、第1の実施形態による応答処理を示すフローチャートである。図24に示すように、まず、会話解析部350は、音声エージェントI/F20により取得され、テキスト化されたユーザの会話文を取得する(ステップS363)。
次いで、会話解析部350は、会話文の構文解析を行う(ステップS366)。
次に、会話解析部350は、会話文を会話履歴として会話履歴DB360に保存する(ステップS369)。
次いで、応答文生成部370は、会話解析部350による解析結果に基づき、また、会話フレームDB380を参照し、応答文データの生成を行う(ステップS372)。応答文生成処理の詳細については後述する。
そして、応答文生成部370は、生成した応答文データを音素データ取得部340に出力する(ステップS375)。
(4-2-3.応答文生成処理)
次いで、上記ステップS372に示す応答文の生成処理について図25を参照して説明する。図25は、第1の実施形態による応答文生成処理を示すフローチャートである。
図25に示すように、まず、応答文生成部370は、会話解析部350による会話文の解析結果と、会話フレームDB380に保存されている会話フレームとをマッチングする(ステップS383)。
次いで、応答文生成部370は、会話文の解析結果とマッチする条件フレームを含む会話フレームを選択する(ステップS386)。
そして、応答文生成部370は、選択した会話フレームの応答フレームを用いて、応答文データを生成する(ステップS389)。
(4-2-4.応答文出力処理)
次に、応答文生成部370により生成された応答文データの出力処理について図26を参照して説明する。図26は、第1の実施形態による応答文データの出力処理を示すフローチャートである。
図26に示すように、まず、音素データ取得部340は、応答文生成部370により生成された応答文データを構文解析し(ステップS393)、それぞれの要素に対応する特定エージェントの音素データを取得する(ステップS396)。
次に、音素データ取得部340は、取得した音素データと応答文データとを音声エージェントI/F20へ出力する(ステップS399)。
次いで、音声エージェントI/F20は、音素データから音声スペクトルを生成し、応答文データの音声化(音声合成)を行う(ステップS402)。
そして、音声エージェントI/F20は、生成した応答音声をクライアント端末1へ送信し、クライアント端末1において応答音声が出力される(ステップS405)。
<<5.第2の実施形態による対話制御処理>>
<5-1.会話フレームの生成>
上述した第1の実施形態では、会話フレームの生成において、会話DB511から会話データのハピネス度(幸福の度合い)を抽出し、ハピネス度が上昇した際の会話フレームを学習する方法について説明した。
ここで、人にはそれぞれ性格があり、幸福を感じる会話が異なる場合がある。そこで、第2の実施形態では、会話者の性格を解析し、性格毎に会話フレームを学習することで、ユーザの性格に応じた会話フレームを用いてユーザへの応答を生成し、より効果的な応答を提供することを可能とする。
まず、本実施形態による性格の定義について説明する。人の性格を説明する際には、類型論と特性論の2つの考え方が用いられる。類型論では、性格をいくつかの典型的な類型で説明し、特性論では、性格をいくつかの特性の組合せとして説明する。また、広義の性格であるパーソナリティを、先天的な気質と後天的な性格に分類することもある。本実施形態では、一例として、クロニンジャー(Robert Cloninger)の特性論であるパーソナリティ理論を用いる。かかるパーソナリティ理論では、4つの気質パラメータ「新規性探究、報酬依存、損害回避、固執」と3つの性格パラメータ「自己志向性、協調性、自己超越性」の合計7つの特性から性格を分類する(パーソナリティ7次元モデル)。気質パラメータのそれぞれの特徴と神経伝達物質との関連性については、新規性探究が神経伝達物質のドーパミンと関連し、報酬依存がノルエピネフリンと関連し、損害回避がセロトニンと関連するといった研究がなされている。本実施形態では、新規性探究、報酬依存、損害回避といった3つの気質パラメータを軸とした3次元空間を考え、図27に示すように、それぞれの軸の値の大小により8つの性格(冒険家、激情家、情熱家、神経質、独立した、論理的、生真面目、慎重)に分類する。
(5-1-1.会話DB生成部50Aの構成)
次に、図28を参照して、会話フレームの生成を行う会話DB生成部50Bの主要構成について説明する。図28は、第2の実施形態による会話DB生成部50Bの構成例を示す図である。図28に示すように、会話DB生成部50Bは、制御部520、通信部510、会話履歴DB511、会話フレームDB512、および性格DB513を有する。
通信部510、会話履歴DB511、および会話フレームDB512は、図15を参照して説明した第1の実施形態による同符号の構成と同様であるため、ここでの説明は省略する。
制御部520は、演算処理装置および制御装置として機能し、各種プログラムに従って会話DB生成部50B内の動作全般を制御する。制御部520は、例えばCPU、マイクロプロセッサ等の電子回路によって実現される。また、本実施形態による制御部520は、ハピネス算出部501、会話フレーム生成部502、および性格解析部503として機能する。
ハピネス算出部501および会話フレーム生成部502の機能は、図15を参照して説明した第1の実施形態による同符号の構成と同様である。
性格解析部503は、会話履歴DB511に蓄積されている会話データを参照して、会話データ毎に発話者の性格パラメータを算出する。算出した性格パラメータは、会話データに紐付けられて会話履歴DB511に蓄積される。また、性格解析部503は、発話者ID毎の会話データの性格パラメータを会話履歴DB511から抽出し、これに基づいて発話者ID毎の性格タイプを解析し、性格DB513に蓄積する。性格解析の詳細については、後述する。
性格DB513には、性格解析部503により解析された発話者毎の性格タイプに関する情報が蓄積される。
以上、第2の実施形態による会話DB生成部50Bの構成について具体的に説明した。続いて、第2の実施形態による会話DB生成部50Bの動作処理について説明する。
(5-1-2.会話フレームの生成処理)
図29は、第2の実施形態による会話フレーム生成処理を示すフローチャートである。図16に示すように、まず、会話DB生成部50Aは、通信部510を介して、例えばネットワーク上のソーシャルメディアからユーザ間の会話データを取得する(ステップS413)。取得された会話データは、会話履歴DB511に蓄積される。
次いで、性格解析部503は、会話履歴DB511に蓄積された会話データに基づいて、会話毎の発話者の性格パラメータを算出する(ステップS416)。算出された性格パラメータは会話データに紐付けて会話履歴DB511に保存される。性格パラメータの算出については、図30を参照して詳述する。
次に、ハピネス算出部501は、会話履歴DB511に蓄積された会話データに基づいて、会話毎の発話者のハピネス度を算出する(ステップS419)。算出されたハピネス度は会話データに紐付けて会話履歴DB511に保存される。ハピネス度の算出については、図17を参照して説明した通りである。
次いで、会話フレーム生成部502は、会話毎のハピネス度を参照して、ユーザが幸福な感情になる会話フレームを生成する(ステップS422)。生成された会話フレームは、会話フレームDB512に蓄積される。会話フレームの生成については、図20を参照して説明した通りである。なお、第2の実施形態では、会話フレームの使用が適切とされる性格タイプがメタデータとして紐付けられる。具体的には、会話フレーム生成部502は、会話フレームを生成する際に用いた会話データにおいて、ハピネス度が上昇した発話者IDの性格タイプを性格DB513から取得し、生成した会話フレームにメタデータとして紐付ける。
そして、上記ステップS413~S422が、終了指示があるまで繰り返される(ステップS425)。上記ステップS413~S422は、例えば定期的(1日1回、6時間に1回等)に行われる。
(5-1-3.性格解析処理)
次に、上記ステップS416で行われる性格解析処理について詳述する。図30は、第2の実施形態による性格解析処理を示すフローチャートである。
図30に示すように、まず、性格解析部503は、会話履歴DB511に蓄積された会話データの言語解析を行う(ステップS433)。例えば性格解析部503は、会話データ(テキスト)を形態素解析する。
次いで、性格解析部503は、解析結果に基づいて会話データの表現検索を行い(ステップS436)、性格パラメータを算出する(ステップS439)。ここで、本実施形態では、図27を参照して上述したように、新規性探究、報酬依存、損害回避といった3つの軸による3次元空間を考え、それぞれの軸の値の大小により8つの性格(冒険家、激情家、情熱家、神経質、独立した、論理的、生真面目、慎重)に分類する。性格解析部503は、これら3つの軸に対応する特徴的なキーワードが会話データに含まれる頻度に基づいて性格パラメータを算出する。ここで、図31に特徴的なキーワードにおける3つの性格パラメータ寄与値の一例を示す。図31に示すテーブルは、例えば性格解析部503が有する。
図31に示す3つの性格パラメータ寄与値(新規性探究、報酬依存、存在回避)は、0~1で表現されている。例えば1段目の「刺激が快感」というキーワード(すなわち会話表現)が会話データに含まれている場合、新規性探究の値が「1」、他の値は「0」である。また、4段目の「癖になる」というキーワードが会話データに含まれている場合、報酬依存の値が「1」、他の値は「0」である。
したがって、性格解析部503は、会話データの形態素解析(単語の抽出)の結果に基づいて、図31に示すテーブルに含まれる全ての表現(キーワード)を会話データから検索し、発見した表現についてそれぞれの性格パラメータ寄与値を加算した性格パラメータのベクトルを求める。各性格パラメータ寄与値をg1~3とすると、性格パラメータのベクトルは下記式2により求められる。
Figure 0007056780000002
例えば、「今日は勉強を2時間しかできなかった。受験に間に合うか心配だ。」(発話者ID: U03)という会話データには、性格パラメータ寄与値のテーブルの「間に合うか心配」という表現が含まれ、図31に示すテーブルを参照すると、性格パラメータ寄与値は、c = [0.0,0.0,1.0]となる(損害回避の値が「1.0」)。
次いで、性格解析部503は、算出した性格パラメータを会話履歴DB511の各会話データのメタデータとして保存する(ステップS442)。ここで、図32に、会話履歴DB511に蓄積される会話データの一例を示す。会話データは、会話ID、会話日時、会話者ID、テキスト(会話内容)、ハピネス度、および性格パラメータが紐付けられているデータである。
次に、性格解析部503は、性格DB513を更新する(ステップS445)。性格DB513には、発話者毎の性格タイプに関する情報が蓄積されている。発話者の性格タイプは、図27を参照して説明した3次元空間の中の8つの分類に基づいて判断され得る。ここで、図33に、性格DB513に蓄積される発話者の性格データの一例を示す。性格DB513の性格データは、図33に示すように、発話者ID、発話数、性格パラメータ、および性格タイプが紐付けられている。性格解析部503は、例えば上記会話データ(「今日は勉強を2時間しかできなかった。受験に間に合うか心配だ。」)の発話者ID: U03の発話数に「1」を加算すると共に、当該発話者の性格パラメータの「損害回避」に「1.0」を加算する。
発話者の性格タイプは、図27を参照して説明した3次元空間の中の8つの分類に基づいて判断され得る。具体的には、性格解析部503は、例えば各性格パラメータの値(総和)を発話数(総数)で除算して発話1つ当たりの3つの性格パラメータ(新規性探究、報酬依存、損害回避)を算出し、図27に示す8つの分類のうちどの分類に該当するかを判断する。なお性格解析部503は、各性格パラメータの値を閾値0.5で分類して性格タイプを判断してもよい。ここで、図34に、性格パラメータ寄与値と性格タイプの3次元空間の一例を示す。
図34に示す例では、3つの軸における性格パラメータが閾値0.5で分類された場合における8つの性格タイプが3次元空間で表されている。これにより、各性格タイプの特徴が下記の通りであることが分かる。
・性格タイプ000-新規性探究、報酬依存、及び損害回避が低い「独立」タイプ
・性格タイプ001-新規性探究及び報酬依存が低く、損害回避が高い「論理的」タイプ
・性格タイプ011-新規性探究が低く、報酬依存及び損害回避が高い「慎重」タイプ
・性格タイプ111-新規性探究、報酬依存、及び損害回避が高い「神経質」タイプ
・性格タイプ010-新規性探究及び損害回避が低く、報酬依存が高い「生真面目」タイプ
・性格タイプ110-新規性探究及び報酬依存が高く、損害回避が低い「情熱家」タイプ
・性格タイプ100-新規性探究が高く、報酬依存及び損害回避が低い「冒険家」タイプ
・性格タイプ101-新規性探究及び損害回避が高く、報酬依存が低い「激情家」タイプ
例えば図33の1段目に示す発話者ID: U01の性格タイプを判断する際、性格解析部503は、まず、発話1つ当たりの性格パラメータを下記のように算出する。
・新規性探究 127.9/2736 = 0.046
・報酬依存 354.2/2736 = 0.13
・損害回避 2012.4/2736 = 0.73
これにより、性格解析部503は、算出した性格パラメータを閾値0.5で分類し、新規性探究および報酬依存が低く、損害回避が高い「性格タイプ001」であると判断できる。
このように判断された性格タイプは、上記ステップS422(図29参照)で生成される会話フレームにメタデータとして紐付けられる。すなわち、会話学習部502は、生成した会話フレームの元となった会話データにおいて、ハピネス値が上昇した発話者IDに対応する性格タイプを性格DB513から取得し、生成した会話フレームに紐付ける。例えば、「昨日、美味しいグラタンを作れた!」(発話者ID: U01)、「美味しいグラタンを作れるんだ。すごいね」(発話者ID: U02)、「それほどでも。ありがとうね」(発話者ID: U01)といった一連の会話(会話ID:C01)に基づいて会話フレームを生成した場合を例に説明する。この場合、ハピネス度が上昇した「それほどでも。ありがとうね」という発話を行った発話者ID: U01に対応する性格タイプ001が、会話フレームに紐付けられる。図35に、会話フレームDB512に登録される会話フレームの一例を示す。図25に示すように、各会話フレームには性格タイプが紐付けられている。これにより、本実施形態では、ユーザの性格タイプに応じて使用する会話フレームを選択することができ、より効果的にユーザの感情を所定の感情(ここでは、幸福な感情)に導くことができる。
そして、上記ステップS433~S445が、終了指示があるまで繰り返される(ステップS448)。上記ステップS433~S445は、例えば定期的(1日1回、6時間に1回等)に行われる。
<5-2.応答文の生成>
(5-2-1.対話処理部300Bの構成)
続いて、第2の実施形態による対話処理部300Bの構成について説明する。図36は、第2の実施形態による対話処理部300Bの構成例を示す図である。図36に示すように、対話処理部300Bは、質問文検索部310、回答文生成部320、会話DB330、音素データ取得部340、会話解析部350、会話履歴DB360、応答文生成部370、会話フレームDB380、性格タイプDB390を有する。
質問文検索部310、回答文生成部320、会話DB330、音素データ取得部340、会話解析部350、会話履歴DB360は、図23に示す第1の実施形態と同様であるので、ここでの説明は省略する。
応答文生成部370は、会話解析部350による解析結果に基づいて、構文が一致する会話フレームを会話フレームDB380から検索する。会話フレームDB380には、会話DB生成部50Bの会話フレームDB512に蓄積された会話フレームのデータセットが保存されている。なお、会話フレームDB380には、第1の実施形態で説明した内容に加えて、その会話フレームが使用される性格タイプが記述されている(図35参照)。本実施形態では、この性格タイプと同じ性格タイプの人にのみ、この会話フレームが使用される。
例えば、応答文生成部370は、ユーザの会話文が「やった!美しい生け花を作れたよ!」の場合、名詞句を抽象化する構文解析結果「やった!を作れたよ!」と一致する条件(発話条件フレーム)を会話フレームDB380から検索する。この際、ユーザの性格タイプを性格タイプDB390から取得し、検索の際に用いる。例えば図35に示すような会話フレームが保存されている場合、フレームID:F01、F04、F05の条件フレームが一致する。
応答文生成部370は、ユーザの性格タイプが、損害回避が強いタイプ:001の場合、F01の会話フレームを選択して下記の応答文を生成する。
「美しい生け花を作れるんだ。すごいね!」
一方、ユーザの性格タイプが、報酬依存が強いタイプ:010の場合、応答文生成部370は、F04の会話フレームを選択して下記の応答文を生成する。
「美しい生け花を作るって面白いよね。もっと作ろう!」
また、ユーザの性格タイプが、新規性探究が強いタイプ:100の場合、応答文生成部370は、F05の会話フレームを選択して下記の応答文を生成する。
「君ならもっと美しい生け花を作れるよ。頑張れ!」
応答文生成部370により生成された応答文データは、音素データ取得部340に出力され、音素データ取得部340により特定エージェントの音素が取得され、応答文データおよび音素データが音声エージェントI/F20に出力される。そして、音声エージェントI/F20により応答文データが特定エージェントの音声で音声化され、クライアント端末1から特定エージェントの発言として出力される。
以上、第1の実施形態による対話処理部300Bの構成について説明した。続いて、本実施形態による対話処理部300Bの動作処理について説明する。
(5-2-2.応答文生成処理)
図37は、第2の実施形態による応答文生成処理を示すフローチャートである。図37に示すように、まず、応答文生成部370は、会話者IDを取得する(ステップS453)。会話者IDは、例えばユーザのクライアント端末1から送信され得る。
次に、応答文生成部370は、会話者IDの性格タイプを性格タイプDB390から取得する(ステップS456)。
次いで、応答文生成部370は、会話解析部350により解析された会話文(ユーザの発話音声)の解析結果と、会話フレームDB380に蓄積される会話フレームとのマッチングを行う(ステップS459)。会話解析部350では、第1の実施形態と同様に、音声エージェントI/F20により取得され、テキスト化されたユーザの会話文の構文解析が行われる。
次に、応答文生成部370は、解析結果とマッチする条件フレームを含む会話フレームのうち、さらに会話者(ユーザ)の性格タイプにマッチする会話フレームを選択する(ステップS462)。
そして、応答文生成部370は、選択した会話フレームの応答フレームを用いて、応答文データを生成する(ステップS465)。
以上、本実施形態による応答文生成処理について説明した。なお、第2の実施形態による応答文出力処理は、図26を参照して説明した第1の実施形態による応答文出力処理と同様のため、ここでの説明は省略する。
<<6.まとめ>>
上述したように、本開示の実施形態による通信制御システムでは、ユーザ同士の実際の会話から生成した会話構造を用いてユーザを所定の感情に導くことが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上述したクライアント端末1、またはエージェントサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、クライアント端末1、またはエージェン
トサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
また、上述した実施形態では、インターネット上のエージェントサーバ2で各種機能が実現される構成を示したが、本実施形態はこれに限定されず、図3に示すエージェントサーバ2の構成のうち少なくとも一部が、ユーザのクライアント端末1(スマートホンやウェアラブル端末等)にあってもよい。また、図3に示すエージェントサーバ2の構成全てがクライアント端末1に設けられ、クライアント端末1で全ての処理を行えるようにしてもよい。
また、上述した実施形態では、応答文データを、所定の音素データを用いて音声エージェントI/F20で音声化し、クライアント端末1に送信してエージェントの発言として出力する旨を説明したが、本実施形態はこれに限定されない。例えば音声エージェントI/F20は、応答文データおよび音素データをクライアント端末1に送信し、クライアン
ト端末1において音素データを用いて応答文データの音声化が行われ、エージェントの発言として出力してもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、本技術は以下のような構成も取ることができる。
(1)
ユーザの会話を受信する通信部と、
前記通信部を介して収集されたユーザの会話に基づき生成された会話の構造を記述する会話フレームを蓄積する蓄積部と、
前記収集される会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求め;
前記感情パラメータに基づき、前記会話から前記会話フレームを抽出して前記蓄積部に蓄積する制御部と、
を備える、通信システム。
(2)
前記制御部は、
クライアント端末から前記通信部を介して受信したユーザの会話の構造を解析し、
前記解析された構造に一致する、前記蓄積部に蓄積された前記会話フレームに基づき、エージェントによる応答テキストを生成する、前記(1)に記載の通信システム。
(3)
前記制御部は、
前記会話フレームに、その会話フレームの元となる会話を行ったユーザの性格情報を関連付けて前記蓄積部に蓄積し;
前記解析された前記ユーザの会話の構造に一致する構造および前記クライアント端末のユーザの性格情報に対応する前記会話フレームを前記蓄積部から抽出し、抽出した会話フレームに基づいて応答テキストを生成する、前記(2)に記載の通信システム。
(4)
前記制御部は、前記生成した応答テキストを、前記通信部を介してクライアント端末に送信する、前記(2)または(3)に記載の通信システム。
(5)
前記制御部は、前記応答テキストを音声合成して音声合成データを生成し、前記通信部を介してクライアント端末に送信する、前記(2)または(3)に記載の通信システム。
(6)
前記制御部は、第1ユーザの会話に対応する前記感情パラメータのレベルの上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2のユーザの会話より時系列的に前の第1のユーザの会話の構造を記述する会話条件フレームとを対応付けて前記蓄積部に蓄積する、前記(1)~(5)のいずれか1項に記載の通信システム。
(7)
前記制御部は、
クライアント端末から前記通信部を介して受信したユーザの会話の構造を解析し;
前記蓄積部から、前記解析した構造に一致する前記会話条件フレームを検出すると、検出した会話条件フレームに対応付けて蓄積される会話応答フレームを特定し、当該会話応答フレームに基づいてエージェントによる応答テキストを生成する、前記(6)に記載の通信システム。
(8)
前記制御部は、
前記会話条件フレームおよび前記会話応答フレームに、前記第1ユーザの性格情報を関連付けて前記蓄積部に蓄積し;
前記蓄積部から、前記解析した構造および前記ユーザの性格情報に対応する前記会話条件フレームを検出すると、検出した会話条件フレームに対応付けて蓄積される会話応答フレームを特定し、当該会話応答フレームに基づいてエージェントによる応答テキストを生成する、前記(7)に記載の通信システム。
(9)
前記制御部は、第1ユーザの会話に対応する前記感情パラメータのレベルとしてのハピネス度の上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2のユーザの会話より時系列的に前の第1のユーザの会話の構造を記述する会話条件フレームとを対応付けて前記蓄積部に蓄積する、前記(6)~(8)のいずれか1項に記載の通信システム。
(10)
前記ハピネス度は、幸福に関わる4つの因子に基づいて算出される、前記(9)に記載の通信システム。
(11)
前記制御部は、前記通信部を介して、ソーシャルメディア上でのユーザの会話を収集する、前記(1)~(10)のいずれか1項に記載の通信システム。
(12)
前記制御部は、前記通信部を介して、前記ユーザの音声会話を収集する、前記(11)に記載の通信システム。
(13)
プロセッサが、
ユーザの会話を通信部により受信することと、
前記通信部を介して収集されたユーザの会話に基づき生成された会話の構造を記述する会話フレームを蓄積部に蓄積することと、
前記収集される会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求め; 前記感情パラメータに基づき、前記会話から前記会話フレームを抽出して前記蓄積部に蓄積することと、
を含む、通信制御方法。
1 クライアント端末
2 エージェントサーバ
30 対話処理部
300、300A、300B 対話処理部
310 質問文検索部
320 回答文生成部
330 会話DB
340 音素データ取得部
350 会話解析部
360 会話履歴DB
370 応答文生成部
380 会話フレームDB
390 性格タイプDB
31 基本対話処理部
32 キャラクターA対話処理部
33 人物B対話処理部
34 人物C対話処理部
40 音素記憶部
41 基本用音素DB
42 キャラクターA音素DB
43 人物B音素DB
44 人物C音素DB
50、50A、50B 会話DB生成部
500、520 制御部
501 ハピネス解析部
502 会話学習部
503 性格解析部
510 通信部
511 会話履歴DB
512 会話フレームDB
513 性格DB
60 音素DB生成部
70 広告挿入処理部
72 広告DB
80 フィードバック取得処理部
3 ネットワーク

Claims (11)

  1. 収集されたユーザの会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求め;
    前記感情パラメータに基づき、前記会話に基づき生成された会話の構造を記述する会話フレームを抽出して蓄積部に蓄積する制御部、
    を備え、
    前記制御部は、
    第1ユーザの会話に対応する前記感情パラメータのレベルの上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2ユーザの会話より時系列的に前の第1ユーザの会話の構造を記述する会話条件フレームと、を対応付けて前記蓄積部に蓄積する、
    通信システム。
  2. 前記制御部は、
    前記蓄積部から、前記構造に一致する前記会話条件フレームを検出すると、検出した会話条件フレームに対応付けて蓄積される会話応答フレームを特定し、当該会話応答フレームに基づいてエージェントによる応答テキストを生成する、
    請求項1に記載の通信システム。
  3. 前記制御部は、
    前記会話条件フレームおよび前記会話応答フレームに、前記第1ユーザの性格情報を関連付けて前記蓄積部に蓄積し;
    前記蓄積部から、前記構造および前記ユーザの性格情報に対応する前記会話条件フレームを検出すると、検出した会話条件フレームに対応付けて蓄積される会話応答フレームを特定し、当該会話応答フレームに基づいてエージェントによる応答テキストを生成する、
    請求項2に記載の通信システム。
  4. 前記制御部は、前記応答テキストを前記ユーザの会話の収集元に送信する、
    請求項2または請求項3に記載の通信システム。
  5. 前記制御部は、前記応答テキストを音声合成して音声合成データを生成し、前記ユーザの会話の収集元に送信する、
    請求項2または請求項3に記載の通信システム。
  6. 前記制御部は、
    第1ユーザの会話に対応する前記感情パラメータのレベルとしてのハピネス度の上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2ユーザの会話より時系列的に前の第1のユーザの会話の構造を記述する会話条件フレームとを対応付けて前記蓄積部に蓄積する、
    請求項1乃至請求項5の何れか1項に記載の通信システム。
  7. 前記ハピネス度は、幸福に関わる4つの因子に基づいて算出される、
    請求項6に記載の通信システム。
  8. 前記制御部は、前記ユーザの会話を受信する通信部を介してソーシャルメディア上でのユーザの会話を収集する、
    請求項1乃至請求項7の何れか1項に記載の通信システム。
  9. 前記制御部は、前記通信部を介して前記ユーザの音声会話を収集する、
    請求項8に記載の通信システム。
  10. プロセッサが、
    収集されたユーザの会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求め;
    前記感情パラメータに基づき、前記会話に基づき生成された会話の構造を記述する会話フレームを抽出して蓄積部に蓄積すること、
    を含み、
    第1ユーザの会話に対応する前記感情パラメータのレベルの上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2ユーザの会話より時系列的に前の第1ユーザの会話の構造を記述する会話条件フレームと、を対応付けて前記蓄積部に蓄積する、
    通信制御方法。
  11. 収集されたユーザの会話単位でその会話を発信するユーザの感情に関わる感情パラメータを求め;
    前記感情パラメータに基づき、前記会話に基づき生成された会話の構造を記述する会話フレームを抽出して蓄積部に蓄積すること、
    をコンピュータに実行させ、
    第1ユーザの会話に対応する前記感情パラメータのレベルの上昇の要因と推定される第2ユーザの会話の構造を記述する会話応答フレームと、その要因と推定される第2ユーザの会話より時系列的に前の第1ユーザの会話の構造を記述する会話条件フレームと、を対応付けて前記蓄積部に蓄積する、
    ためのプログラム。
JP2021043437A 2016-01-28 2021-03-17 通信システム、通信制御方法およびプログラム Active JP7056780B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016014238 2016-01-28
JP2016014238 2016-01-28

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017563695A Division JP6859959B2 (ja) 2016-01-28 2016-10-28 通信システムおよび通信制御方法、ならびに、プログラム

Publications (2)

Publication Number Publication Date
JP2021096873A JP2021096873A (ja) 2021-06-24
JP7056780B2 true JP7056780B2 (ja) 2022-04-19

Family

ID=59397529

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017563695A Active JP6859959B2 (ja) 2016-01-28 2016-10-28 通信システムおよび通信制御方法、ならびに、プログラム
JP2021043437A Active JP7056780B2 (ja) 2016-01-28 2021-03-17 通信システム、通信制御方法およびプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017563695A Active JP6859959B2 (ja) 2016-01-28 2016-10-28 通信システムおよび通信制御方法、ならびに、プログラム

Country Status (3)

Country Link
US (1) US11159462B2 (ja)
JP (2) JP6859959B2 (ja)
WO (1) WO2017130497A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6697373B2 (ja) * 2016-12-06 2020-05-20 カシオ計算機株式会社 文生成装置、文生成方法及びプログラム
JP6940428B2 (ja) * 2018-02-15 2021-09-29 アルパイン株式会社 検索結果提供装置および検索結果提供方法
CN108600911B (zh) 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
JP7131077B2 (ja) * 2018-05-24 2022-09-06 カシオ計算機株式会社 会話装置、ロボット、会話装置制御方法及びプログラム
JP6551852B1 (ja) * 2018-08-06 2019-07-31 株式会社エルブズ 情報提供装置、情報提供方法およびプログラム
JP7444430B2 (ja) * 2019-11-25 2024-03-06 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
JP6796762B1 (ja) * 2019-11-28 2020-12-09 有限会社クロマニヨン 仮想人物対話システム、映像生成方法、映像生成プログラム
US11977844B1 (en) * 2020-02-05 2024-05-07 Walker Reading Technologies, Inc. Reading assistance sponsorship system and methodolgy
US11494417B2 (en) * 2020-08-07 2022-11-08 Commvault Systems, Inc. Automated email classification in an information management system
WO2023100960A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 認証装置および認証方法
WO2023195115A1 (ja) * 2022-04-07 2023-10-12 日本電気株式会社 会話装置、会話方法、及び非一時的なコンピュータ可読媒体
JP7169030B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP7169031B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207214A (ja) 1999-01-20 2000-07-28 Victor Co Of Japan Ltd 対話装置
JP2003186881A (ja) 2001-12-13 2003-07-04 Aruze Corp 助言システム及び助言方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3472194B2 (ja) 1999-05-25 2003-12-02 日本電信電話株式会社 自動応答方法及びその装置並びにそのプログラムを記録した媒体
JP2001117581A (ja) 1999-10-22 2001-04-27 Alpine Electronics Inc 感情認識装置
JP4451037B2 (ja) 2001-12-06 2010-04-14 株式会社ユニバーサルエンターテインメント 情報検索システム及び情報検索方法
JP2013190994A (ja) * 2012-03-14 2013-09-26 Kddi Corp 対話誘発装置、対話誘発方法、およびプログラム
JP6267636B2 (ja) 2012-06-18 2018-01-24 エイディシーテクノロジー株式会社 音声応答装置
JP2015069455A (ja) * 2013-09-30 2015-04-13 Necソリューションイノベータ株式会社 会話文生成装置、会話文生成方法、及びプログラム
US9413891B2 (en) * 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
US9710460B2 (en) * 2015-06-10 2017-07-18 International Business Machines Corporation Open microphone perpetual conversation analysis
US10699709B2 (en) * 2018-06-08 2020-06-30 International Business Machines Corporation Conference call analysis and automated information exchange

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207214A (ja) 1999-01-20 2000-07-28 Victor Co Of Japan Ltd 対話装置
JP2003186881A (ja) 2001-12-13 2003-07-04 Aruze Corp 助言システム及び助言方法

Also Published As

Publication number Publication date
US11159462B2 (en) 2021-10-26
JPWO2017130497A1 (ja) 2018-11-22
WO2017130497A1 (ja) 2017-08-03
US20190020609A1 (en) 2019-01-17
JP6859959B2 (ja) 2021-04-14
JP2021096873A (ja) 2021-06-24

Similar Documents

Publication Publication Date Title
JP7056780B2 (ja) 通信システム、通信制御方法およびプログラム
US11595331B2 (en) Communication system and communication control method
JP6860010B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
US20220189479A1 (en) Communication system and communication control method
JP7099589B2 (ja) サーバ、通信制御方法、およびプログラム
CN110309114A (zh) 媒体信息的处理方法、装置、存储介质和电子装置
JP6649318B2 (ja) 言語情報分析装置および方法
Tseng et al. Approaching Human Performance in Behavior Estimation in Couples Therapy Using Deep Sentence Embeddings.
Tank et al. Creation of speech corpus for emotion analysis in Gujarati language and its evaluation by various speech parameters.
KR102101311B1 (ko) 동물구현체를 포함하는 가상현실 플랫폼 제공 방법 및 장치
CN116312486B (zh) 情绪识别方法、装置、计算机可读存储介质及电子设备
JP7180127B2 (ja) 情報提示システム、情報提示方法及びプログラム
Egorow Accessing the interlocutor: recognition of interaction-related interlocutor states in multiple modalities
JP2024037614A (ja) 所定対象用の感情辞書を生成するプログラム、装置、システム及び方法、並びに感情推定プログラム及び装置
CN114298515A (zh) 生成学生素质画像的方法、装置及存储介质
Mori et al. Facial expression generation from speaker's emotional states in daily conversation
CN115982360A (zh) 交互方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220321

R151 Written notification of patent or utility model registration

Ref document number: 7056780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151