JP2021135426A - オンライン会話支援方法 - Google Patents
オンライン会話支援方法 Download PDFInfo
- Publication number
- JP2021135426A JP2021135426A JP2020032670A JP2020032670A JP2021135426A JP 2021135426 A JP2021135426 A JP 2021135426A JP 2020032670 A JP2020032670 A JP 2020032670A JP 2020032670 A JP2020032670 A JP 2020032670A JP 2021135426 A JP2021135426 A JP 2021135426A
- Authority
- JP
- Japan
- Prior art keywords
- user
- data
- conversation
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】ユーザの感情を受け入れながら、継続的に会話を継続させる会話支援方法を提供する。【解決手段】ユーザと疑似ユーザとが会話を行う会話用インターフェースにおける会話を支援する方法であって、サーバ端末は、ユーザから音声データを取得し、音声データを、機械学習により分析し、音声データの分析結果に基づき、ユーザの感情を決定し、決定した感情に基づき、応答データを決定し、会話用インターフェースに応答データを出力させる。【選択図】図6
Description
本発明は、ユーザとのオンラインの会話を支援する方法を提供する。
近年、無人応答方式のチャットシステムが普及している。
例えば、特許文献1において、ユーザが、テキストメッセージとともに、感情情報をチャットサーバに送信し、感情情報に応じた応答文がさらに生成され、ユーザが入力したメッセージとして表示される技術が開示されている。
しかしながら、特許文献1は、ユーザの感情を落ち着かせることを目的としているものの、カスタマー対応を前提とした技術であり、商品の購買意欲を維持させることに主眼が置かれている。
そこで、本発明は、ユーザの感情を受け入れながら、継続的に会話を継続させる会話支援方法を提供することを目的とする。
本発明の一態様における、ユーザと疑似ユーザとが会話を行う会話用インターフェースにおける会話を支援する方法であって、サーバ端末は、ユーザから音声データを取得し、前記音声データを、機械学習により分析し、前記音声データの分析結果に基づき、前記ユーザの感情を決定し、前記決定した感情に基づき、応答データを決定し、前記会話用インターフェースに応答データを出力させる。
本発明によれば、継続的に会話を継続させる会話支援方法を提供することができる。
以下、本発明の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本発明の必須の構成要素であるとは限らない。
<構成>
図1は、本発明の第一実施形態に係る、ユーザと疑似ユーザとの会話を支援するシステムを示すブロック構成図である。本システム1は、各々ユーザが会話用ユーザインターフェースを介して情報を送受信することで、疑似ユーザと会話を行うサービスを提供する、サーバ端末100と、サービスの利用者である各ユーザに関連付けられた、複数のユーザ端末200A、200Bとを有する。
図1は、本発明の第一実施形態に係る、ユーザと疑似ユーザとの会話を支援するシステムを示すブロック構成図である。本システム1は、各々ユーザが会話用ユーザインターフェースを介して情報を送受信することで、疑似ユーザと会話を行うサービスを提供する、サーバ端末100と、サービスの利用者である各ユーザに関連付けられた、複数のユーザ端末200A、200Bとを有する。
サーバ端末100と、ユーザ端末200A、200Bは、各々、ネットワークNWを介して接続される。ネットワークNWは、インターネット、イントラネット、無線LAN(Local Area Network)やWAN(Wide Area Network)等により構成される。
サーバ端末100は、例えば、ワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。本実施形態においては、説明の便宜上サーバ端末として1台を例示しているが、これに限定されず、複数台であってもよい。
ユーザ端末200は、例えば、パーソナルコンピュータやタブレット端末等の情報処理装置であるが、スマートフォンや携帯電話、PDA等により構成しても良い。
本実施形態では、システム1は、サーバ端末100と、ユーザ端末200A、200Bとを備え、ユーザが各々の端末を利用して、サーバ端末100に対する操作を行う構成として説明するが、サーバ端末100がスタンドアローンで構成され、サーバ端末自身に、各ユーザが直接操作を行う機能を備えても良い。
図2は、図1のサーバ端末100の機能ブロック構成図である。サーバ端末100は、通信部110と、記憶部120と、制御部130とを備える。
通信部110は、ネットワークNWを介してユーザ端末200と通信を行うための通信インターフェースであり、例えばTCP/IP(Transmission Control Protocol/Internet Protocol)等の通信規約により通信が行われる。
記憶部120は、各種制御処理や制御部130内の各機能を実行するためのプログラム、入力データ等を記憶するものであり、RAM(Random Access Memory)、ROM(Read Only Memory)等から構成される。また、記憶部120は、ユーザに関連する各種データを格納する、ユーザデータ格納部121、及び、ユーザデータを入力データとした機械学習により生成された学習モデルを格納する学習モデル格納部122、及びユーザに対して提供するコンテンツを格納するコンテンツ格納部123を有する。なお、上記データ、学習モデル及び/またはコンテンツを含む、各種データを格納したデータベース(図示せず)が記憶部120またはサーバ端末100外に構築されていてもよい。
制御部130は、記憶部120に記憶されているプログラムを実行することにより、サーバ端末100の全体の動作を制御するものであり、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等から構成される。制御部130の機能として、ユーザ端末200においてユーザにより入力された情報を受け付ける情報受付部131と、ユーザによる入力が音声である場合に、音声を解析する音声解析部132と、解析結果を基に、ユーザに対する応答を処理する応答処理部133とを有する。さらに、制御部130は、ユーザとの会話用インターフェースを構成する画像他、画像を生成する画像生成部134を有する。
情報受付部131は、サーバ端末100が提供し、ユーザ端末200において、ウェブブラウザまたはアプリケーションを介して表示されるチャット用画面等の会話用ユーザインターフェースを介して、ユーザが、テキストを入力したり、音声入力ボタンを押下しながら音声を入力したとき、ユーザによって入力された情報を、ユーザ端末200から通信部110を介して受付ける。
音声解析部132は、ユーザにより入力された情報が音声である場合、音声の周波数等の音声データを、機械学習を用いることで分析を行う。機械学習として、教師あり、または教師なし学習処理を実行することができ、分析手法として、例えば、RNN(Recurrent Neural Network)を用いることができる。ここで、教師ありの場合は、個別のユーザ、または、複数のユーザにより入力された音声データ、及び、不安、悲しさ、落着き、平和、幸せ、楽しみ、興奮、怒り等の感情データを教師データとして、音声の周波数及び/または発話内容と感情データとの相関性を学習した、学習モデルを生成することができる。なお、発話内容を理解するため、音声データを基に、テキストデータに変換した場合、図示しないが、自然言語処理を含めた分析処理を実行するテキスト分析部を有し、テキストデータを分析することもできる。
応答処理部133は、上記感情データに基づいて、応答データを選択または生成する処理を実行する。また、応答処理部133は、選択または生成した応答データを、ユーザ端末200に送信し、出力させる処理を行う。
画像生成部134は、ユーザ端末200のユーザインターフェースを介して表示される画面情報を生成する。例えば、記憶部120に格納された画像及びテキストデータを素材として、所定のレイアウト規則に基づいて、各種画像及びテキストをユーザインターフェースの所定の領域に配置することで、ユーザインターフェースを生成する。画像生成部134に関連する処理は、GPU(Graphics Processing Unit)によって実行することもできる。
図3は、図1のユーザ端末200を示す機能ブロック構成図である。ユーザ端末200は、通信部210と、表示操作部220と、記憶部230と、制御部240と、音声入力部250と、を有する。
通信部210は、ネットワークNWを介してサーバ端末100と通信を行うための通信インターフェースであり、例えばTCP/IP等の通信規約により通信が行われる。
表示操作部220は、ユーザが指示を入力し、制御部240からの入力データに応じてテキスト、画像等を表示するために用いられるユーザインターフェースであり、ユーザ端末200がパーソナルコンピュータで構成されている場合はディスプレイとキーボードやマウスにより構成され、ユーザ端末200がスマートフォンまたはタブレット端末で構成されている場合はタッチパネル等から構成される。この表示操作部220は、記憶部230に記憶されている制御プログラムにより起動されてコンピュータ(電子計算機)であるユーザ端末200により実行される。
記憶部230は、各種制御処理や制御部240内の各機能を実行するためのプログラム、入力データ等を記憶するものであり、RAMやROM等から構成される。また、記憶部230は、サーバ端末100との通信内容を一時的に記憶している。
制御部240は、記憶部230に記憶されているプログラムを実行することにより、ユーザ端末200の全体の動作を制御するものであり、CPUやGPU等から構成される。
音声入力部250は、例えば、ユーザ端末200に内蔵されたマイクであり、ユーザから音声入力を受け付ける。
なお、サーバ端末100に表示操作部の機能を備える構成としても良く、この場合、ユーザ端末200を備えない構成としても良い。
図4は、サーバ100に格納されるユーザデータの一例を示す図である。
図4に示すユーザデータ1000は、ユーザに関連する各種データを格納する。図4において、説明の便宜上、一ユーザ(ユーザID「10001」で識別されるユーザ)の例を示すが、複数のユーザの情報を格納することができる。ユーザに関連する各種データとして、例えば、ユーザの基本情報(ユーザの氏名、ユーザ名、SNS情報、メールアドレス、会員ステータス(無料会員ユーザ、プレミアム会員ユーザ)、付加情報(例えば、ユーザの趣味、性格等)、音声情報(ユーザにより入力(発話)された音声の音声データまたは音声から変換されたテキストデータ)、アクション情報(応答データに対するフィードバック、評価)、及びユーザの会話履歴(疑似ユーザとの会話履歴、及び/または他ユーザとの会話履歴、消費したコンテンツ、商材等)を格納することができる。
<処理の流れ>
図5を参照しながら、本実施形態のシステム1が実行する会話支援方法の処理の流れについて説明する。図5は、本発明の第一実施形態に係る、会話支援方法に係るフローチャートの一例である。
図5を参照しながら、本実施形態のシステム1が実行する会話支援方法の処理の流れについて説明する。図5は、本発明の第一実施形態に係る、会話支援方法に係るフローチャートの一例である。
ここで、本システム1により提供されるサービスを利用するために、ユーザは、ユーザ端末200のウェブブラウザまたはアプリケーション等を利用してサーバ端末100にアクセスし、初めてサービスを利用する場合は、前述のユーザ基本情報等を入力し、既にユーザアカウントを取得済の場合は、例えばIDとパスワードを入力する等の所定の認証を受けてログインすることで、サービスが利用可能となる。この認証後、ウェブサイト、アプリケーション等を介して、ユーザと疑似ユーザとが会話を行う、会話用ユーザインターフェースが提供され、図5に示すステップS101へ進む。
まず、ステップS101の処理として、サーバ端末100の制御部130の情報受付部131は、通信部110を介して、ユーザ端末200から、音声データを受け付ける。例えば、ユーザは、ユーザ端末200上で表示される会話用ユーザインターフェースの、所定の音声入力用アイコンを押下しながら、音声を発話することで、音声を入力することができる。ここで、ユーザは、例えば、「疲れた」とか、「お腹がすいた」といった音声を入力することができる。情報受付部131は、受信した音声データを、ユーザIDと関連付けて、記憶部120のユーザデータ格納部122に格納することができる。
次に、ステップS102の処理として、サーバ端末100の制御部130の音声解析部132は、受信した音声データの解析を実行する。例えば、音声解析部132は、ユーザデータ格納部122に格納された音声データの解析を行う。ここで、音声解析部132が、学習済モデルを用いて解析を行う場合、図6に示すように、音声解析部132は、音声データを、事前に機械学習により生成された学習モデルに入力し、音声の周波数、速度等の変数に基づいて、そのユーザの感情を算出し、感情データとして出力する。感情データは、例えば、不安、悲しさ、落着き、平和、幸せ、楽しみ、興奮、怒りのパターンに分類される。また、学習モデルを有しない場合であっても、後述する、ユーザによるフィードバック評価に基づいた強化学習により、ユーザの音声データ入力に対する感情データの出力を行うことができる。例えば、ユーザによる、「疲れた」という音声データに基づいて、音声解析部は、「不安」、「悲しさ」または「落ち着き」といった感情データを分析結果として出力することができる。
また、図6に示すように、音声解析部132は、音声データを音声認識技術等によりテキストデータに変換し、図示しないテキストデータ解析部は、変換されたテキストデータを、自然言語分析技術等を用いて分析することができる。例えば、「疲れた」といったテキストは、ネガティブな意味を有する用語として認識され、「不安」や「悲しさ」といった感情データが出力されることになる。また、音声解析部132による音声解析と、テキストデータ解析部によるテキストデータ解析との結果を統合して、感情データを抽出することもできる。また、音声解析部132及び/またはテキストデータ解析部は、単語ベースではなく、ユーザデータとして格納される会話履歴を参照しながら分析を行うこともできる。例えば、ユーザの「疲れた」という音声またはテキストの直前に、「沢山のことを成し遂げた」とか、「沢山の人に会った」といった会話をしている場合、その「疲れた」という言葉の中に、「落ち着き」や「平和」といった意味が含まれる場合もある。また、音声解析部132/テキストデータ解析部は、ユーザによる入力の回数、頻度及び/または時間帯等を、感情データを抽出するための条件に追加することもできる。
次に、ステップS103の処理として、制御部130の応答処理部133は、上記ステップで抽出された感情データに基づいて、応答処理を実行する。具体的には、応答処理部133は、感情データに基づいて、その感情データに対応する応答データを生成し、応答を実行する。感情データと応答データは対応付けがされ、テーブルとして格納され得る。例えば、応答処理部133は、「疲れた」という音声データに対して、抽出された「不安」といった感情データに対し、対応テーブルに基づいて、「今日はゆっくり休んでください」といったテキストデータを選択し、ユーザ端末200に送信することで、ユーザ端末200に表示される会話用ユーザインターフェースに、疑似ユーザによる応答として、当該テキストを出力させる処理を行う。
また、図6に示すように、応答処理部133は、応答データとして、テキストのほか、音声、画像、映像等のコンテンツを出力させることができる。コンテンツは、サーバ端末100の記憶部120のコンテンツ格納部123に格納されたコンテンツのうち、感情データに対応するコンテンツを出力することができるほか、外部のソースのコンテンツへのリンク(URL等)を、ユーザ端末200に表示される、会話用ユーザインターフェースに表示させることもできる。
さらに、図6に示すように、応答処理部133は、例えば、ユーザの「疲れた」という音声データの入力に対して、フード宅配サービスへのリンク、または、フード宅配サービスの特定のメニューのオーダー画面へのリンクを表示させることで、所定のアクションを推薦することができる。その他、「悲しい」という感情データに対し、甘いものを食べることを推薦したり、「興奮した」という感情データに対し、ミルクを飲むことを推薦したりすることもできる。
また、ステップS104として、応答処理部133による、出力された応答データに対し、情報受付部131は、ユーザによるフィードバック(評価)を受け付けることもできる。例えば、図6に示すように、ユーザは、出力された応答に対し、気にいったか、気にいらないかに応じて、Thumb Up/Downによる評価、「いいね!」による評価、レーティング、または、反応しないことによる評価を行うことができる。また、ユーザが、コンテンツを消費(例えば、視聴等のアクションを行う)することを、評価として受け付けることもできる。ユーザによる評価は、アクション情報として、入力内容、出力内容とともにユーザデータ格納部121に格納され、学習モデルの更新や強化学習等に用いられる。
その他、ユーザの入力回数、頻度及び/または評価に基づいて、アイテムをアンロックして付与したり、ユーザと疑似ユーザとの友だちステータスを更新したり、ユーザに何らかの特典を付与することができる。この場合、例えば、ユーザが入力する時間帯に応じて、アンロックするアイテム(例えば、フクロウというアイテムをアンロックする)を変更することもできる。
図7は、本発明の第一実施形態に係る、会話用ユーザインターフェース画面の一例を示す図である。会話用ユーザインターフェース500には、ユーザと、アイコン510で示される疑似ユーザとの会話表示領域520が表示され、ユーザは、音声入力用アイコン520を押下したまま発話することで音声を入力できる。ユーザが音声を入力すると、音声はテキストに変換され、会話表示領域にテキスト及び音声データ再生用ボタン(本図では、「疲れた」)が表示される。ユーザによる入力に応答して、疑似ユーザによる応答データ(本図では、「こんにちは」に引き続き、所定の音声/テキストデータ)が表示される。また、付加情報表示領域540には、ユーザと疑似ユーザとの親密度及びポイントが表示される。親密度及び/またはポイントは、例えば、ユーザと疑似ユーザとの会話のやりとりの回数及び/または頻度に基づいて付与されることができる。
以上のように、本実施形態によれば、ユーザの入力を受け入れつつ、ユーザとの会話を継続させることができる。
以上、発明に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換および変更を行なって実施することが出来る。これらの実施形態および変形例ならびに省略、置換および変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。
1 システム 100 サーバ端末、110 通信部、120 記憶部、130 制御部、200 ユーザ端末、NW ネットワーク
Claims (5)
- ユーザと疑似ユーザとが会話を行う会話用インターフェースにおける会話を支援する方法であって、
サーバ端末は、
ユーザから音声データを取得し、
前記音声データを、機械学習により分析し、
前記音声データの分析結果に基づき、前記ユーザの感情を決定し、
前記決定した感情に基づき、応答データを決定し、
前記会話用インターフェースに応答データを出力させる、
方法。 - 請求項1に記載の方法であって、
さらに、前記音声データをテキストデータに変換し、当該変換されたテキストデータを、機械学習により分析し、前記テキストデータ及び前記音声データの分析結果に基づき、前記ユーザに感情を決定する、方法。 - 請求項1に記載の方法であって、
前記出力された応答データに対し、前記ユーザが入力した評価を取得し、
前記機械学習により生成された学習モデルの教師データとして当該学習モデルに入力する、方法。 - 請求項1に記載の提供方法であって、
前記応答データは、ユーザが視聴可能なコンテンツである方法。 - 請求項1に記載の方法であって、
前記音声データを分析することは、前記音声データの周波数を分析することを含む、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020032670A JP2021135426A (ja) | 2020-02-28 | 2020-02-28 | オンライン会話支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020032670A JP2021135426A (ja) | 2020-02-28 | 2020-02-28 | オンライン会話支援方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135426A true JP2021135426A (ja) | 2021-09-13 |
Family
ID=77661174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020032670A Pending JP2021135426A (ja) | 2020-02-28 | 2020-02-28 | オンライン会話支援方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021135426A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023162119A1 (ja) * | 2022-02-25 | 2023-08-31 | ビーサイズ株式会社 | 情報処理端末、情報処理方法、情報処理プログラム |
WO2024023901A1 (ja) * | 2022-07-25 | 2024-02-01 | 日本電信電話株式会社 | 通信端末、コメント出力方法、及びプログラム |
-
2020
- 2020-02-28 JP JP2020032670A patent/JP2021135426A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023162119A1 (ja) * | 2022-02-25 | 2023-08-31 | ビーサイズ株式会社 | 情報処理端末、情報処理方法、情報処理プログラム |
WO2024023901A1 (ja) * | 2022-07-25 | 2024-02-01 | 日本電信電話株式会社 | 通信端末、コメント出力方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907309B2 (en) | Expandable service architecture with configurable dialogue manager | |
CN107636648B (zh) | 基于情绪标识来构造响应 | |
US9847084B2 (en) | Personality-based chatbot and methods | |
US20200395008A1 (en) | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models | |
KR101641572B1 (ko) | 상황 및 선호도 기반 대화 스티커 순위 결정 방법 및 컴퓨터 프로그램 | |
EP3766066B1 (en) | Generating response in conversation | |
US9425974B2 (en) | System and method for increasing clarity and expressiveness in network communications | |
US20140122619A1 (en) | Chatbot system and method with interactive chat log | |
CN111542814A (zh) | 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质 | |
CN113421143A (zh) | 辅助直播的处理方法、装置及电子设备 | |
JP2019514131A (ja) | 顔文字が共に提供される翻訳文提供方法、ユーザ端末、サーバ及びコンピュータプログラム | |
JP2021135426A (ja) | オンライン会話支援方法 | |
CN111556999B (zh) | 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
CN111557001B (zh) | 提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
Gunawan et al. | Development of intelligent telegram chatbot using natural language processing | |
Maher et al. | AI and deep learning-driven chatbots: a comprehensive analysis and application trends | |
KR102017544B1 (ko) | 메신저 플랫폼에 관계없이 복수의 메신저를 이용하는 사용자간 다양한 형식의 채팅 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체 | |
CN107562788B (zh) | 交互方法、装置及计算机可读存储介质 | |
Mauny et al. | A prototype of smart virtual assistant integrated with automation | |
JP2020091800A (ja) | 情報処理装置、情報処理方法、および情報提供システム | |
WO2021157530A1 (ja) | 対話ユーザの感情情報の提供装置 | |
JP6885217B2 (ja) | ユーザ対話支援システム、ユーザ対話支援方法及びプログラム | |
Rieke et al. | The relationship between motives for using a Chatbot and satisfaction with Chatbot characteristics: An exploratory study | |
KR101924217B1 (ko) | 대화 세션 내의 이전의 이력 정보를 이용하여, 사용자간 대화 세션에 대한 모니터링에 기초해서 능동적으로 주문 또는 예약 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체 | |
Gunarathne et al. | Intellemo: A mobile instant messaging application with intelligent emotion identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200323 |