JP2021135426A

JP2021135426A - オンライン会話支援方法

Info

Publication number: JP2021135426A
Application number: JP2020032670A
Authority: JP
Inventors: 慶紀岸; Yoshinori Kishi
Original assignee: Holoash Inc
Current assignee: Holoash Inc
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-09-13

Abstract

【課題】ユーザの感情を受け入れながら、継続的に会話を継続させる会話支援方法を提供する。【解決手段】ユーザと疑似ユーザとが会話を行う会話用インターフェースにおける会話を支援する方法であって、サーバ端末は、ユーザから音声データを取得し、音声データを、機械学習により分析し、音声データの分析結果に基づき、ユーザの感情を決定し、決定した感情に基づき、応答データを決定し、会話用インターフェースに応答データを出力させる。【選択図】図６

Description

本発明は、ユーザとのオンラインの会話を支援する方法を提供する。

近年、無人応答方式のチャットシステムが普及している。

例えば、特許文献１において、ユーザが、テキストメッセージとともに、感情情報をチャットサーバに送信し、感情情報に応じた応答文がさらに生成され、ユーザが入力したメッセージとして表示される技術が開示されている。

特開２０１９−１０１６５９号

しかしながら、特許文献１は、ユーザの感情を落ち着かせることを目的としているものの、カスタマー対応を前提とした技術であり、商品の購買意欲を維持させることに主眼が置かれている。

そこで、本発明は、ユーザの感情を受け入れながら、継続的に会話を継続させる会話支援方法を提供することを目的とする。

本発明の一態様における、ユーザと疑似ユーザとが会話を行う会話用インターフェースにおける会話を支援する方法であって、サーバ端末は、ユーザから音声データを取得し、前記音声データを、機械学習により分析し、前記音声データの分析結果に基づき、前記ユーザの感情を決定し、前記決定した感情に基づき、応答データを決定し、前記会話用インターフェースに応答データを出力させる。

本発明によれば、継続的に会話を継続させる会話支援方法を提供することができる。

本発明の第一実施形態に係る、会話支援方法を提供するシステムを示すブロック構成図である。図１のサーバ端末１００を示す機能ブロック構成図である。図１のユーザ端末２００を示す機能ブロック構成図である。サーバ１００に格納されるユーザデータの一例を示す図である。本発明の第一実施形態に係る、会話方法を示すフローチャートの一例である。本発明の第一実施形態に係る、分析処理の一例を説明する概念図である。本発明の第一実施形態に係る、会話用ユーザインターフェース画面の一例を示す図である。

以下、本発明の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本発明の必須の構成要素であるとは限らない。

＜構成＞
図１は、本発明の第一実施形態に係る、ユーザと疑似ユーザとの会話を支援するシステムを示すブロック構成図である。本システム１は、各々ユーザが会話用ユーザインターフェースを介して情報を送受信することで、疑似ユーザと会話を行うサービスを提供する、サーバ端末１００と、サービスの利用者である各ユーザに関連付けられた、複数のユーザ端末２００Ａ、２００Ｂとを有する。

サーバ端末１００と、ユーザ端末２００Ａ、２００Ｂは、各々、ネットワークＮＷを介して接続される。ネットワークＮＷは、インターネット、イントラネット、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等により構成される。

サーバ端末１００は、例えば、ワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。本実施形態においては、説明の便宜上サーバ端末として１台を例示しているが、これに限定されず、複数台であってもよい。

ユーザ端末２００は、例えば、パーソナルコンピュータやタブレット端末等の情報処理装置であるが、スマートフォンや携帯電話、ＰＤＡ等により構成しても良い。

本実施形態では、システム１は、サーバ端末１００と、ユーザ端末２００Ａ、２００Ｂとを備え、ユーザが各々の端末を利用して、サーバ端末１００に対する操作を行う構成として説明するが、サーバ端末１００がスタンドアローンで構成され、サーバ端末自身に、各ユーザが直接操作を行う機能を備えても良い。

図２は、図１のサーバ端末１００の機能ブロック構成図である。サーバ端末１００は、通信部１１０と、記憶部１２０と、制御部１３０とを備える。

通信部１１０は、ネットワークＮＷを介してユーザ端末２００と通信を行うための通信インターフェースであり、例えばＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）等の通信規約により通信が行われる。

記憶部１２０は、各種制御処理や制御部１３０内の各機能を実行するためのプログラム、入力データ等を記憶するものであり、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等から構成される。また、記憶部１２０は、ユーザに関連する各種データを格納する、ユーザデータ格納部１２１、及び、ユーザデータを入力データとした機械学習により生成された学習モデルを格納する学習モデル格納部１２２、及びユーザに対して提供するコンテンツを格納するコンテンツ格納部１２３を有する。なお、上記データ、学習モデル及び／またはコンテンツを含む、各種データを格納したデータベース（図示せず）が記憶部１２０またはサーバ端末１００外に構築されていてもよい。

制御部１３０は、記憶部１２０に記憶されているプログラムを実行することにより、サーバ端末１００の全体の動作を制御するものであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等から構成される。制御部１３０の機能として、ユーザ端末２００においてユーザにより入力された情報を受け付ける情報受付部１３１と、ユーザによる入力が音声である場合に、音声を解析する音声解析部１３２と、解析結果を基に、ユーザに対する応答を処理する応答処理部１３３とを有する。さらに、制御部１３０は、ユーザとの会話用インターフェースを構成する画像他、画像を生成する画像生成部１３４を有する。

情報受付部１３１は、サーバ端末１００が提供し、ユーザ端末２００において、ウェブブラウザまたはアプリケーションを介して表示されるチャット用画面等の会話用ユーザインターフェースを介して、ユーザが、テキストを入力したり、音声入力ボタンを押下しながら音声を入力したとき、ユーザによって入力された情報を、ユーザ端末２００から通信部１１０を介して受付ける。

音声解析部１３２は、ユーザにより入力された情報が音声である場合、音声の周波数等の音声データを、機械学習を用いることで分析を行う。機械学習として、教師あり、または教師なし学習処理を実行することができ、分析手法として、例えば、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いることができる。ここで、教師ありの場合は、個別のユーザ、または、複数のユーザにより入力された音声データ、及び、不安、悲しさ、落着き、平和、幸せ、楽しみ、興奮、怒り等の感情データを教師データとして、音声の周波数及び／または発話内容と感情データとの相関性を学習した、学習モデルを生成することができる。なお、発話内容を理解するため、音声データを基に、テキストデータに変換した場合、図示しないが、自然言語処理を含めた分析処理を実行するテキスト分析部を有し、テキストデータを分析することもできる。

応答処理部１３３は、上記感情データに基づいて、応答データを選択または生成する処理を実行する。また、応答処理部１３３は、選択または生成した応答データを、ユーザ端末２００に送信し、出力させる処理を行う。

画像生成部１３４は、ユーザ端末２００のユーザインターフェースを介して表示される画面情報を生成する。例えば、記憶部１２０に格納された画像及びテキストデータを素材として、所定のレイアウト規則に基づいて、各種画像及びテキストをユーザインターフェースの所定の領域に配置することで、ユーザインターフェースを生成する。画像生成部１３４に関連する処理は、ＧＰＵ（Graphics Processing Unit）によって実行することもできる。

図３は、図１のユーザ端末２００を示す機能ブロック構成図である。ユーザ端末２００は、通信部２１０と、表示操作部２２０と、記憶部２３０と、制御部２４０と、音声入力部２５０と、を有する。

通信部２１０は、ネットワークＮＷを介してサーバ端末１００と通信を行うための通信インターフェースであり、例えばＴＣＰ／ＩＰ等の通信規約により通信が行われる。

表示操作部２２０は、ユーザが指示を入力し、制御部２４０からの入力データに応じてテキスト、画像等を表示するために用いられるユーザインターフェースであり、ユーザ端末２００がパーソナルコンピュータで構成されている場合はディスプレイとキーボードやマウスにより構成され、ユーザ端末２００がスマートフォンまたはタブレット端末で構成されている場合はタッチパネル等から構成される。この表示操作部２２０は、記憶部２３０に記憶されている制御プログラムにより起動されてコンピュータ（電子計算機）であるユーザ端末２００により実行される。

記憶部２３０は、各種制御処理や制御部２４０内の各機能を実行するためのプログラム、入力データ等を記憶するものであり、ＲＡＭやＲＯＭ等から構成される。また、記憶部２３０は、サーバ端末１００との通信内容を一時的に記憶している。

制御部２４０は、記憶部２３０に記憶されているプログラムを実行することにより、ユーザ端末２００の全体の動作を制御するものであり、ＣＰＵやＧＰＵ等から構成される。

音声入力部２５０は、例えば、ユーザ端末２００に内蔵されたマイクであり、ユーザから音声入力を受け付ける。

なお、サーバ端末１００に表示操作部の機能を備える構成としても良く、この場合、ユーザ端末２００を備えない構成としても良い。

図４は、サーバ１００に格納されるユーザデータの一例を示す図である。

図４に示すユーザデータ１０００は、ユーザに関連する各種データを格納する。図４において、説明の便宜上、一ユーザ（ユーザＩＤ「１０００１」で識別されるユーザ）の例を示すが、複数のユーザの情報を格納することができる。ユーザに関連する各種データとして、例えば、ユーザの基本情報（ユーザの氏名、ユーザ名、ＳＮＳ情報、メールアドレス、会員ステータス（無料会員ユーザ、プレミアム会員ユーザ）、付加情報（例えば、ユーザの趣味、性格等）、音声情報（ユーザにより入力（発話）された音声の音声データまたは音声から変換されたテキストデータ）、アクション情報（応答データに対するフィードバック、評価）、及びユーザの会話履歴（疑似ユーザとの会話履歴、及び／または他ユーザとの会話履歴、消費したコンテンツ、商材等）を格納することができる。

＜処理の流れ＞
図５を参照しながら、本実施形態のシステム１が実行する会話支援方法の処理の流れについて説明する。図５は、本発明の第一実施形態に係る、会話支援方法に係るフローチャートの一例である。

ここで、本システム１により提供されるサービスを利用するために、ユーザは、ユーザ端末２００のウェブブラウザまたはアプリケーション等を利用してサーバ端末１００にアクセスし、初めてサービスを利用する場合は、前述のユーザ基本情報等を入力し、既にユーザアカウントを取得済の場合は、例えばＩＤとパスワードを入力する等の所定の認証を受けてログインすることで、サービスが利用可能となる。この認証後、ウェブサイト、アプリケーション等を介して、ユーザと疑似ユーザとが会話を行う、会話用ユーザインターフェースが提供され、図５に示すステップＳ１０１へ進む。

まず、ステップＳ１０１の処理として、サーバ端末１００の制御部１３０の情報受付部１３１は、通信部１１０を介して、ユーザ端末２００から、音声データを受け付ける。例えば、ユーザは、ユーザ端末２００上で表示される会話用ユーザインターフェースの、所定の音声入力用アイコンを押下しながら、音声を発話することで、音声を入力することができる。ここで、ユーザは、例えば、「疲れた」とか、「お腹がすいた」といった音声を入力することができる。情報受付部１３１は、受信した音声データを、ユーザＩＤと関連付けて、記憶部１２０のユーザデータ格納部１２２に格納することができる。

次に、ステップＳ１０２の処理として、サーバ端末１００の制御部１３０の音声解析部１３２は、受信した音声データの解析を実行する。例えば、音声解析部１３２は、ユーザデータ格納部１２２に格納された音声データの解析を行う。ここで、音声解析部１３２が、学習済モデルを用いて解析を行う場合、図６に示すように、音声解析部１３２は、音声データを、事前に機械学習により生成された学習モデルに入力し、音声の周波数、速度等の変数に基づいて、そのユーザの感情を算出し、感情データとして出力する。感情データは、例えば、不安、悲しさ、落着き、平和、幸せ、楽しみ、興奮、怒りのパターンに分類される。また、学習モデルを有しない場合であっても、後述する、ユーザによるフィードバック評価に基づいた強化学習により、ユーザの音声データ入力に対する感情データの出力を行うことができる。例えば、ユーザによる、「疲れた」という音声データに基づいて、音声解析部は、「不安」、「悲しさ」または「落ち着き」といった感情データを分析結果として出力することができる。

また、図６に示すように、音声解析部１３２は、音声データを音声認識技術等によりテキストデータに変換し、図示しないテキストデータ解析部は、変換されたテキストデータを、自然言語分析技術等を用いて分析することができる。例えば、「疲れた」といったテキストは、ネガティブな意味を有する用語として認識され、「不安」や「悲しさ」といった感情データが出力されることになる。また、音声解析部１３２による音声解析と、テキストデータ解析部によるテキストデータ解析との結果を統合して、感情データを抽出することもできる。また、音声解析部１３２及び／またはテキストデータ解析部は、単語ベースではなく、ユーザデータとして格納される会話履歴を参照しながら分析を行うこともできる。例えば、ユーザの「疲れた」という音声またはテキストの直前に、「沢山のことを成し遂げた」とか、「沢山の人に会った」といった会話をしている場合、その「疲れた」という言葉の中に、「落ち着き」や「平和」といった意味が含まれる場合もある。また、音声解析部１３２／テキストデータ解析部は、ユーザによる入力の回数、頻度及び／または時間帯等を、感情データを抽出するための条件に追加することもできる。

次に、ステップＳ１０３の処理として、制御部１３０の応答処理部１３３は、上記ステップで抽出された感情データに基づいて、応答処理を実行する。具体的には、応答処理部１３３は、感情データに基づいて、その感情データに対応する応答データを生成し、応答を実行する。感情データと応答データは対応付けがされ、テーブルとして格納され得る。例えば、応答処理部１３３は、「疲れた」という音声データに対して、抽出された「不安」といった感情データに対し、対応テーブルに基づいて、「今日はゆっくり休んでください」といったテキストデータを選択し、ユーザ端末２００に送信することで、ユーザ端末２００に表示される会話用ユーザインターフェースに、疑似ユーザによる応答として、当該テキストを出力させる処理を行う。

また、図６に示すように、応答処理部１３３は、応答データとして、テキストのほか、音声、画像、映像等のコンテンツを出力させることができる。コンテンツは、サーバ端末１００の記憶部１２０のコンテンツ格納部１２３に格納されたコンテンツのうち、感情データに対応するコンテンツを出力することができるほか、外部のソースのコンテンツへのリンク（ＵＲＬ等）を、ユーザ端末２００に表示される、会話用ユーザインターフェースに表示させることもできる。

さらに、図６に示すように、応答処理部１３３は、例えば、ユーザの「疲れた」という音声データの入力に対して、フード宅配サービスへのリンク、または、フード宅配サービスの特定のメニューのオーダー画面へのリンクを表示させることで、所定のアクションを推薦することができる。その他、「悲しい」という感情データに対し、甘いものを食べることを推薦したり、「興奮した」という感情データに対し、ミルクを飲むことを推薦したりすることもできる。

また、ステップＳ１０４として、応答処理部１３３による、出力された応答データに対し、情報受付部１３１は、ユーザによるフィードバック（評価）を受け付けることもできる。例えば、図６に示すように、ユーザは、出力された応答に対し、気にいったか、気にいらないかに応じて、ＴｈｕｍｂＵｐ／Ｄｏｗｎによる評価、「いいね！」による評価、レーティング、または、反応しないことによる評価を行うことができる。また、ユーザが、コンテンツを消費（例えば、視聴等のアクションを行う）することを、評価として受け付けることもできる。ユーザによる評価は、アクション情報として、入力内容、出力内容とともにユーザデータ格納部１２１に格納され、学習モデルの更新や強化学習等に用いられる。

その他、ユーザの入力回数、頻度及び／または評価に基づいて、アイテムをアンロックして付与したり、ユーザと疑似ユーザとの友だちステータスを更新したり、ユーザに何らかの特典を付与することができる。この場合、例えば、ユーザが入力する時間帯に応じて、アンロックするアイテム（例えば、フクロウというアイテムをアンロックする）を変更することもできる。

図７は、本発明の第一実施形態に係る、会話用ユーザインターフェース画面の一例を示す図である。会話用ユーザインターフェース５００には、ユーザと、アイコン５１０で示される疑似ユーザとの会話表示領域５２０が表示され、ユーザは、音声入力用アイコン５２０を押下したまま発話することで音声を入力できる。ユーザが音声を入力すると、音声はテキストに変換され、会話表示領域にテキスト及び音声データ再生用ボタン（本図では、「疲れた」）が表示される。ユーザによる入力に応答して、疑似ユーザによる応答データ（本図では、「こんにちは」に引き続き、所定の音声／テキストデータ）が表示される。また、付加情報表示領域５４０には、ユーザと疑似ユーザとの親密度及びポイントが表示される。親密度及び／またはポイントは、例えば、ユーザと疑似ユーザとの会話のやりとりの回数及び／または頻度に基づいて付与されることができる。

以上のように、本実施形態によれば、ユーザの入力を受け入れつつ、ユーザとの会話を継続させることができる。

以上、発明に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換および変更を行なって実施することが出来る。これらの実施形態および変形例ならびに省略、置換および変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。

１システム１００サーバ端末、１１０通信部、１２０記憶部、１３０制御部、２００ユーザ端末、ＮＷネットワーク

Claims

ユーザと疑似ユーザとが会話を行う会話用インターフェースにおける会話を支援する方法であって、
サーバ端末は、
ユーザから音声データを取得し、
前記音声データを、機械学習により分析し、
前記音声データの分析結果に基づき、前記ユーザの感情を決定し、
前記決定した感情に基づき、応答データを決定し、
前記会話用インターフェースに応答データを出力させる、
方法。
請求項１に記載の方法であって、
さらに、前記音声データをテキストデータに変換し、当該変換されたテキストデータを、機械学習により分析し、前記テキストデータ及び前記音声データの分析結果に基づき、前記ユーザに感情を決定する、方法。
請求項１に記載の方法であって、
前記出力された応答データに対し、前記ユーザが入力した評価を取得し、
前記機械学習により生成された学習モデルの教師データとして当該学習モデルに入力する、方法。
請求項１に記載の提供方法であって、
前記応答データは、ユーザが視聴可能なコンテンツである方法。
請求項１に記載の方法であって、
前記音声データを分析することは、前記音声データの周波数を分析することを含む、方法。