JP2022544969A

JP2022544969A - 音声会話処理方法及び装置

Info

Publication number: JP2022544969A
Application number: JP2022510069A
Authority: JP
Inventors: ▲シン▼ 董; 中原戴; 敏初; 寒顧
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-08-15
Filing date: 2019-12-09
Publication date: 2022-10-24
Anticipated expiration: 2039-12-09
Also published as: US20220293089A1; JP7274043B2; CN110442701A; EP4016330A4; EP4016330A1; CN110442701B; WO2021027198A1

Abstract

本発明は、音声会話処理方法及び装置を開示する。音声会話処理方法は、処理すべきユーザ音声に対応する音声意味を特定するステップと、会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップと、特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するステップと、を含み、前記会話管理エンジンのトレーニングサンプルセットは、少なくとも１つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
【選択図】図１

Description

関連出願の相互引用

本発明は、２０１９年０８月１５日に中国専利局へ提出された、出願番号が２０１９１０７５２７１４．０である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。

本発明は、スマート顧客サービス技術分野に関し、例えば音声会話処理方法及び装置に関する。

マン－マシンインタラクションは、人とコンピュータシステムの間のインタラクション関係を研究する技術である。ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）会話システムは、新型のマン－マシンインタラクション方式であり、自然音声又は自然言語形式によって入出力を行う。現在、ＡＩ会話システムは、スマートフォン、スマートホーム、スマート車載、スマート顧客サービス等のシーンに広く応用されている。

しかし、異なるメーカーにとって必要な会話業務フロー及び内容に区別が存在するため、各メーカーは、自分に属する音声会話システムをカスタマイズする必要がある。現在、業務論理の複雑性は、ＡＩ会話システムの会話フロー開発の複雑さを引き起こし、会話業務カスタマイズ開発の低効率をもたらす。また、メーカーが業務フロー又は内容をメンテナンスや変更する必要があるときに、コードロジックを繰り返し開発するか修正する必要があるため、業務プロセスの後期のメンテナンスに不利であった。

本発明は、上記技術課題の少なくとも１つを解決するための音声会話処理方法及び装置を提供する。

第１態様において、本発明の実施例は、音声会話処理方法を提供する。当該音声会話処理方法は、音声顧客サービスサーバ側に用いられ、処理すべきユーザ音声に対応する音声意味を特定するステップと、会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップと、特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するステップと、を含み、前記会話管理エンジンのトレーニングサンプルセットは、少なくとも１つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。

第２態様において、本発明の実施例は、音声顧客サービス方法を提供する。当該音声顧客サービス方法は、会話フロー設計サーバ側に用いられ、会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも１つの会話ストリームを特定するステップと、前記少なくとも１つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するステップと、前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするステップと、を含み、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。

第３態様において、本発明の実施例は、音声会話処理装置を提供する。当該音声会話処理装置は、処理すべきユーザ音声に対応する音声意味を特定するための音声意味特定手段と、会話管理エンジンに基づいて前記音声意味に対する応答文を特定するための会話管理エンジン呼出手段と、特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するための顧客サービス音声生成手段と、を備え、前記会話管理エンジンのトレーニングサンプルセットは、少なくとも１つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。

第４態様において、本発明の実施例は、音声会話処理装置を提供する。当該音声会話処理装置は、会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも１つの会話ストリームを特定するための会話ストリーム特定手段と、前記少なくとも１つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するための業務カスタマイズファイル生成手段と、前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするための業務カスタマイズファイル送信手段とを備え、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。

第５態様において、本発明の実施例は、電子機器を提供する。当該電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサで実行され得る指令が記憶され、前記少なくとも１つのプロセッサは、前記指令を実行することにより、上記方法のステップを実施可能である。

第６態様において、本発明の実施例は、記憶媒体を提供する。当該記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上記方法のステップは、実施される。

本発明では、会話管理エンジンを利用してユーザ音声の音声意味に対応する応答文を特定する。ここで、会話管理エンジンのトレーニングサンプルセットは、少なくとも１つの、所定順番を持つ複数の会話ノードを含む会話ストリームの会話業務カスタマイズファイルを基に作成される。会話業務カスタマイズファイルの作成が簡単且つ便利であり、コードロジックの修正に関わらないため、会話業務カスタマイズ開発は、より便利且つ効果的になる。また、業務カスタマイズファイルを交換するだけで会話管理エンジンに対する反復操作を完了することができ、業務フローの後期メンテナンスが便利になる。

本発明の実施例の音声会話処理方法のフローチャートである。音声顧客サービスサーバ側に用いられる音声会話処理方法の一例示におけるフローチャートを示す。本実施例に係る会話フローの一例示における模式図を示す。本発明の一実施例に適用される音声会話処理方法の例示的な原理アーキテクチャ模式図を示す。本発明の実施例のオンライン会話システムにおける会話管理エンジンがモデリングを行う原理フローチャートを示す。会話フロー設計サーバ側に用いられる音声顧客サービス方法のフローチャートを示す。会話フローを構築する過程における、会話設計クライアント側の異なる状態でのスクリーンショットインターフェースの例示をそれぞれ示す。本発明の実施例の音声会話処理装置の構造ブロック図を示す。

本発明の実施例の目的、解決手段及び利点がより明確になるように、以下では、本発明の実施例の図面を参照しながら本発明の実施例の解決手段を明確で完全に説明する。説明される実施例は本発明の一部の実施例であり、全部の実施例ではない。なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。

本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピュータストレージメディアに配置できる。

本発明では、「モジュール」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び／又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び／又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び／又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び／又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び／又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。

最後に、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。

本明細書において、用語「エンジン」は、少なくとも１つのアルゴリズムモデルをカプセル化した後で形成された構造を表す。用語「意図」は、語句に対する分類を表し、例えば、ユーザの語句「またね」は、「会話終了」という意図に分類すべきである。

図１に示すように、本発明の実施例の音声会話処理方法の例示的なフローは、複数の実行主体の間の通信インタラクションに係り、例えば会話フロー設計クライアント側１０、会話フロー設計サーバ側２０、音声顧客サービスサーバ側３０及びユーザ端末４０の間で通信インタラクションを行う。クライアント及びユーザ端末は、任意のタイプのノートパソコン、タブレットＰＣ、携帯電話のような端末機器、例えば、特定のアプリケーションプログラムがインストールされた端末機器であってもよい。また、サーバ側は、中心通信ネットワークアーキテクチャにおけるサーバ又はピアツーピア通信ネットワークアーキテクチャにおける業務を提供するためのマスタノード機器として示されてもよい。

図１に示すとおり、本発明の実施例の音声会話処理方法のフロー１００は、以下のステップを含む。

ステップ１０１では、会話フロー設計クライアント側１０が会話フロー設計要求を生成する。

会話フロー設計クライアント側１０は、メーカー音声業務マンのユーザ操作を受け付け、且つユーザ操作に応じて対応する会話フロー設計要求を生成する。会話フロー設計要求は、既に設計された１つ又は複数の会話ストリームに対する要求指令であってもよく、会話ストリームは、所定順番を持つ複数の会話ノードを含んでもよい。

例示として、メーカー音声業務マンは、会話フロー設計クライアント側１０において１つの会話項目に対する複数の会話フローを描画し、且つこれらの複数の会話フローに基づいて会話フロー設計要求を生成してもよい。また、会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成されてもよい。このように、メーカー音声業務マンは、会話ノード枠をドラッグすることにより、会話フローを構築することを迅速に実現することができる。

ステップ１０２では、会話フロー設計クライアント側１０は、会話フロー設計要求を会話フロー設計サーバ側２０へ送信する。

ステップ１０３では、会話フロー設計サーバ側２０は、会話フロー設計要求に基づいて会話業務カスタマイズファイルを生成する。

例示として、会話フロー設計サーバ側２０は、会話フロー設計要求における少なくとも１つの会話ストリームを解析し、且つ会話ストリーム中の各規則的なノードのノード内容及びノードタイプを自動的に認識し、会話業務カスタマイズファイルを生成する。当該会話業務カスタマイズファイルは、ｊｓｏｎファイルであってもよい。ここで、会話フロー設計サーバ側２０は、会話フロー設計クライアント側１０との間の複数回のインタラクション操作（例えば、複数の会話フロー設計要求）により会話業務カスタマイズファイルを特定してもよい。

ステップ１０４では、会話フロー設計サーバ側２０は、会話業務カスタマイズファイルを音声顧客サービスサーバ側３０へ送信する。

ステップ１０５では、音声顧客サービスサーバ側３０は、会話業務カスタマイズファイルに基づいて会話管理エンジンをトレーニングする。

ここで、音声顧客サービスサーバ側３０は、会話業務カスタマイズファイルに基づいて会話管理エンジンに対するトレーニングサンプルセットを生成し、更にトレーニングサンプルセットを利用して会話管理エンジンをトレーニングしてもよい。

ステップ１０６では、ユーザ端末４０は、ユーザ音声を音声顧客サービスサーバ側３０へ送信する。

ここで、会話管理エンジンは、トレーニングされた後でオンラインすることができる。その際、オンライン後の音声顧客サービスサーバ側は、ユーザ端末からのユーザ音声を受信してユーザへサービスを提供してもよい。
ステップ１０７では、音声顧客サービスサーバ側３０は、ユーザ音声に対する顧客サービス音声を特定する。

音声顧客サービスサーバ側３０は、処理すべきユーザ音声に対応する音声意味を特定してもよく、例えばＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏａｒｉｔｉｏｎ、音声認識）機能モジュール及びＮＬＵ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ、自然言語理解）機能モジュールを応用することにより実現される。次に、音声顧客サービスサーバ側３０は、会話管理エンジンを呼び出すことで音声意味に対する応答文を特定し、且つ特定された応答文に基づいてユーザ音声に応答するための顧客サービス音声を生成する。応答文を利用して顧客サービス音声を生成する過程において、音声顧客サービスサーバ側３０は、ＮＬＧ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＧｅｎｅｒａｔｉｏｎ、自然言語生成）機能モジュール及びＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ、音声合成）機能モジュールを応用することにより実現することができる。

ステップ１０８では、音声顧客サービスサーバ側３０は、顧客サービス音声をユーザ端末４０へ送信する。

理解できるように、顧客サービス音声が複数回提供されるように、上記ステップ１０６～１０８は、望ましいサービスがユーザへ提供されるまで、繰り返されてもよい。また、図１に示す実施例は、例示に過ぎず、上記フローにおける一部のステップは、選択可能又は置換可能である。例えば、音声顧客サービスサーバ側は、更にローカルで会話業務カスタマイズファイルを直接取得してもよい。

図２は、本発明の実施例の音声顧客サービスサーバ側３０に用いられる音声会話処理方法の一例におけるフローであり、以下のステップを含む。

ステップ２０１では、処理すべきユーザ音声に対応する音声意味を特定する。

ステップ２０２では、会話管理エンジンに基づいて音声意味に対する応答文を特定し、会話管理エンジンは、汎用会話管理モデル及び業務会話管理モデルを含む。

ステップ２０３では、特定された応答文に基づいて、ユーザ音声に応答するための顧客サービス音声を生成する。

本実施例において、会話管理エンジンは、汎用会話を処理するための汎用会話管理モデルと、専用業務を処理するための業務会話管理モデルとを含む。汎用会話管理モデルは、異なる複数の業務顧客サービス項目で共有してコードロジックを多重化することができ、顧客サービスシステムの開発効率を向上させる。

スマート顧客サービスのコールセンターシーンにおいて、電話には、常に「うん」、「あぁ」、「もしもし」のような特定の電話話し言葉返信が伴う。且つ、電話中においてユーザが挨拶、中断、リピート、解釈等の汎用型の会話要求を行うことが常に伴う。しかし、現在のＡＩ会話システムは、コールセンターシーンにおいてこのような会話要求に対して最適化処理を行うことが少なく、顧客サービスのサービスプロセスが凝りすぎてユーザ体験に影響を与える。

本発明の実施例における汎用会話管理モデルにより、上記会話要求を好適に処理し、ユーザ体験を向上させることができる。ユーザ音声の音声意味の指すユーザの意図を特定し、且つそれが汎用意図セットに属する場合に、汎用会話管理モデルを使用して前記ユーザ意図に対する汎用会話操作を実行する。汎用会話操作は、オペレーターに繋ぐ操作、繰り返し放送操作、会話退出操作及び感嘆詞処理操作のうちのいずれか１種を含む。

表１は、汎用意図セットにおける各汎用意図について実行される汎用会話操作に係る関連フローの記述を示す。

幾つかの実施形態において、ユーザ意図が汎用意図セットに属さないときに、業務会話管理モデルを使用して、以下の業務操作、即ち、ユーザ意図に対応する目標会話ストリームを特定することと、特定された目標会話ストリームにおける会話ノードに基づいて応答文を特定することと、を実行して応答文を特定する。

例示として、会話ノードは、会話開始ノード、ユーザコミュニケーションノード、ユーザ情報認識ノード及びスロットフィリングノードを含む。会話開始ノードは、会話ストリームが開始するノードである。ユーザコミュニケーションノードは、顧客サービスがユーザとコミュニケーションを行う必要のあるノードである。ユーザ情報認識ノードは、他のサービスＡＰＩを呼び出すことにより（例えば、関数により）ユーザ情報を認識するものであってもよい。スロットフィリングノードは、最終的に収集された情報を対応するスロット位置に追加するノードである。このように、ユーザ意図に基づいて目標会話ストリーム中の対応する会話ノードを呼び出すことができ、それにより対応する操作を実行して応答文を特定する。

図３に示す会話フローを参照する。ユーザ音声が顧客サービスプラットフォームに導入されたときに、会話フロー中のユーザ情報認識ノードにより旧ユーザであるか否かを直接認識する。旧ユーザであれば、ユーザが履歴宅配記録に指示された地点で注文するか否かを直接問い合わせ、新ユーザであれば、会話フロー中のユーザコミュニケーションノードを呼び出してユーザの出荷先を問い合わせてもよい。音声認識技術を利用してユーザフィードバック音声における出荷アドレスを取得した後、スロットフィリング操作を完了し、認識されなかった又はスロットフィリングに成功しなかった場合に、オペレーターに繋ぐ処理へ移行してもよい。

図４は、本発明の一実施例に適用される音声会話処理方法の例示的な原理アーキテクチャを示し、全体的にオンラインＡＩ会話システム及びオフラインＤＭ（ＤｉａｌｏｇｕｅＭａｎａｇｅｍｅｎｔ、会話管理）カスタマイズプラットフォームを含む。ここで、オンラインＡＩ会話システムのアクセスサービスモジュールは、ｓｉｐプロトコル（ｓｅｓｓｉｏｎｉｎｉｔｉａｔｉｏｎｐｒｏｔｏｃｏｌ、セッション開始プロトコル）によってユーザクライアントのｃａｌｌｃｅｎｔｅｒに合わせることにより、ユーザクライアント側で指示されたユーザへサービスを提供する。

また、オンラインＡＩ会話システムの内部に幾つかの大きなユニットモジュールがあり、それらは、ＡＳＲモジュール、ＮＬＵモジュール、ＮＬＧモジュール、ＴＴＳモジュール及びＤＭエンジンを含む。ＤＭエンジンは、業務ＤＭと汎用ＤＭに分けられる。

本発明の実施例において、コールセンターシーンについて、ＡＩ会話システムにおける会話管理を業務型ＤＭと汎用型ＤＭの２種類に分ける。業務ＤＭは、具体的な業務フローに関連する会話管理である。汎用ＤＭ設計は、マンマシン会話プロセスの汎用の会話管理を処理するために、会話全体をよりスムーズにするが、具体的な業務シーン及び知識に係らない。

コールセンターシーンの電話会話において、比較的に通常な会話、例えば、挨拶、中断、リピート、解釈等が非常に多い。表１に示すように、これらは、汎用ＤＭを用いてこれらの汎用型の会話ロジックを処理することができる。汎用ＤＭは、汎用モジュールとして任意の業務ＤＭの前側に埋め込まれ、会話を人と人の間のチャットコミュニケーションの効果に更に近づけることができる。このような設計は、ユーザ体験を改善するだけでなく、異なるシーンＤＭのカスタマイズ開発コストを節約することができる。

図５は、本発明の実施例のオンラインＡＩ会話システムにおけるＤＭエンジンがモデリングを行う原理プロセスを示す。業務ＤＭの迅速なカスタマイズを実現するために、会話管理におけるキー要素をモデリングすることにより、業務型会話フローは、ｊｓｏｎファイル方式で記述することができる。具体的な記述は、以下のようになる。
シーン（Ｂｏｔ）：即ち、会話ロボットであり、ある顧客サービス項目として理解されてもよい。

会話ストリーム（Ｆｌｏｗ）：あるタスクを実施する会話フローである。１つの項目は、１つ又は複数の会話ストリームで構成される。

会話ノード（Ｎｏｄｅ）：会話ストリームにおけるあるラウンドの会話であって、異なるノードタイプ、例えば、開始ノード、ユーザコミュニケーションノード、スロットフィリングノード、ユーザ情報認識ノード等を提供する。開始ノードは、当該会話ストリームの開始ノードであり、ユーザコミュニケーションノードは、次のラウンドの会話であり、スロットフィリングノードは、スロット位置を収集するために設計された特殊なノードであってスロット位置情報を補完するために用いられ、ユーザ情報認識ノードは、他のサービスＡＰＩアクセスをカプセル化する。

具体的な操作（Ｏｐｅｒａｔｉｏｎ）：会話ノードに係る具体的な操作、例えば、当該会話ノードがユーザへ返信する話術、用いられるユーザの発話を解析する意図リスト、ジャンプロジック等である。したがって、会話ノードが特定された後、会話ノードにより指示された内容及びタイプに直接応じて対応する具体的な操作を行ってもよい。

図４の例を参照し、オフラインＤＭカスタマイズプラットフォームにより会話フローを設計する。オフラインＤＭカスタマイズプラットフォームは、会話設計ツール及び会話テストツールを含み、グラフィカルドラッグの方式を提供して会話設計及びテストを行う。オフラインＤＭカスタマイズプラットフォームは、項目の会話をｊｓｏｎフォーマットのファイルとして生成する。オンラインＤＭエンジンは、当該ファイルをロードし、ＡＩ会話ロボットを生産し、オンライントラフィックにサービスする。

図６は、会話フロー設計サーバ側に用いられる音声顧客サービス方法のフローを示す。会話フロー設計サーバ側と会話フロー設計クライアント側とのインタラクション操作により会話フローを迅速にカスタマイズし且つ対応する会話業務カスタマイズファイルを構築することを実現する。当該方法は、以下のステップを含む。

ステップ６０１では、会話フロー設計クライアント側からの会話フロー設計要求を取得し、且つ会話フロー設計要求に対応する少なくとも１つの会話ストリームを特定する。会話ストリームは、所定順番を持つ複数の会話ノードを含む。

ステップ６０２では、少なくとも１つの会話ストリームに基づいて会話業務カスタマイズファイルを生成する。

ステップ６０３では、会話業務カスタマイズファイルを音声顧客サービスサーバ側に送信して会話管理エンジンに関するトレーニングサンプルセットを構築することにより、音声顧客サービスサーバ側が会話管理エンジンに基づいて音声サービスを実行するようにする。

会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成される。会話フロー設計クライアント側１０は、メーカー開発者による前記グラフィックスインタフェースに対するユーザ操作を受け付けて対応する前記会話フロー設計要求を生成する。このように、メーカーは、クライアントグラフィックスインターフェースのドラッグ方式を開発することで業務型会話ストリームを生成することにより、対応するｊｓｏｎファイルを生成し、業務型ＤＭカスタマイズを迅速に完了することができる。

以下では、図７Ａ～７Ｚにおける開発クライアント側スクリーンショットを参照して図３に示す具体的な宅配顧客サービスシーンにおいて会話フロー設計クライアント側１０でＤＭを行う例を説明する。

図７Ａに示すように、左側をクリックして新たなシーン部分を作成し、ダイアログボックスをポップアップし、「シーン名」及び「シーン記述」を入力する。ここで、１つのシーンは、１つの顧客サービス項目を表してもよい。

次に、図７Ｂに示すように、会話ストリームを新規作成する。作成されたシーン「宅配」をクリックし、以下のページに進む。左側から順に以下のとおりである。１）シーン配置：シーン名、製品ＩＤ、グローバル変数追加、汎用フロー追加等を含む。２）会話ストリームカスタマイズ：このページで会話ストリームを描画する。３）意図カスタマイズ：ユーザ発話から解析された意図を追加する。４）会話テスト：構築されたモデルをテストする。５）ｂｏｔデバッグ：可視化ツールで構築された会話ストリームモデルによって自動的に生成されたコードに対して修正及びデバッグを行う。

会話フロー配置をクリックして図７Ｃに示すユーザインターフェースに入る。その際、会話ストリーム「ピックアップアドレス収集」を新規作成する。クリックした後のインターフェースは、以下の図のようになる。右側に４種のノードを提供し、当該４種のノードは、それぞれ、開始ノード（又はスタートノード）、会話ノード（又はユーザコミュニケーションノード）、関数ノード（又はユーザ情報認識ノード）及びスロットフィリングノードである。

ノード配置過程において、まず開始ノードに対応する「前置き」を追加する（例えば、図７Ｄ）。図７Ｅに示すインターフェースのスクリーンショットを参照し、具体的な操作は、以下を含む。１）右側の「開始ノード」をクリックし、パネルに開始ノードを追加する。２）開始ノードでの「編集」をクリックする。３）「基本設定」により：ノードの名称を「前置き」に変更し、話術テキスト「こんにちは、ここはｘｘ宅配便」を追加する。４）「ジャンプリンク」により：新たなジャンプロジック「へジャンプ」を追加し、次のノードを選択してジャンプする（次のノードを追加した後こそ、初めてジャンプすることができ、このステップを先にスキップしてもよい）。

次に、関数ノード「新旧顧客判断」を追加する。図７Ｆに示すように、「関数ノード」をクリックし、パネルに関数ノードを作成する。これは、以下のステップを含む。１）クリックして編集し、基本設定では、ノードの名称を「新旧顧客判断」に修正し、関数記述「この携帯番号が履歴注文を所有するか否かを判断する」を追加して保存する。２）開始ノード－関数ノードのジャンプを完了する：「新旧顧客判断」を選択してジャンプし、会話ノードの間のリンクが出現することを見ることができる。３）「シーン配置」に移行し、２つのグローバル変数：ｐｈｏｎｅ_ｎｕｍ、ｈｉｓｔｏｒｉｃａｌ_ｏｒｄｅｒｓを新規作成する。同時にこのページに汎用ＤＭフローを追加することができ、図７Ｇに示すように、使用可能な汎用フローをチェックする。４）会話ストリームに戻り、図７Ｈに示すように、「関数ノード」の基本設定を編集し、パラメータ設定「ｐｈｏｎｅ_ｎｕｍ」を入力し、パラメータ設定「ｈｉｓｔｏｒｉｃａｌ_ｏｒｄｅｒｓ」に戻る。

次に、図７Ｉ－Ｍに示すように、ユーザコミュニケーションノード「この地点で注文？」及び「出荷先を問い合わせる」を追加する。１）２つのユーザコミュニケーションノードを追加し、「編集－基本設定－ノード名」によって「この地点で注文？」及び「出荷先を問い合わせる」とリネームする。２）「新旧顧客判断」を編集し、ジャンプリンクを設定する。下方の「新たなジャンプロジックを追加する」をクリックし、条件「グローバル変数－履歴発注状態ｉｓＮｏｔＥｍｐｔｙ」を設定して「この地点で注文？」にジャンプし、再び「新たなジャンプロジックを追加する」をクリックし、条件「グローバル変数－履歴発注状態ｉｓＥｍｐｔｙ」を設定して「出荷先を問い合わせる」にジャンプする。保存する。３）図７Ｊに示すように、「意図カスタマイズ」に移行し、新たな業務意図を追加し、業務意図「はい」、「いいえ」を追加する。４）会話フローカスタマイズに戻り、会話ノード「この地点で注文？」を編集し、話術テキスト「システムは、最近、ＸＸ市ＸＸ区ＸＸ路ＸＸ号に物品を送ったことがあると検索で分かり、このアドレスをまだ使用しますか？」を入力する。５）業務意図「はい」、「いいえ」を追加する。６）「出荷先を問い合わせる」を編集し、話術「あなたの出荷先がどこにありますか？」を追加する。

次に、図７Ｎ及び７Ｏに示すように、会話ノード「アドレス情報を受信した」を追加する。１）放送会話ノード「アドレス情報を受信した」を追加し、基本設定を修正し、話術「はい、宅配便のお兄さんが宅配便を受け取るのを待ってください。楽しく過ごしてください」を追加し、「放送後の操作」を「会話完了」に修正して保存する。２）「この地点で注文？」を編集してジャンプリンクを設定し、条件「業務意図ｃｏｎｔａｉｎｓ確定」を設定して「アドレス情報を受信した」にジャンプし、条件「業務意図ｃｏｎｔａｉｎｓ否定」を設定して「出荷先を問い合わせる」にジャンプする。

次に、図７Ｐ－７Ｕに示すように、スロットフィリングノード（「スロットフィリング：出荷先」を追加する。１）スロットフィリングノードを追加し、「スロットフィリング：出荷先」とリネームし、会話ノード「出荷先を問い合わせる」を編集し、ジャンプリンクを設定し、「スロットフィリング：出荷先」にジャンプする。２）シーン配置に移行し、グローバル変数「出荷_都市」、「出荷_都道府県」、「出荷_ストリート」を新規作成する。３）意図カスタマイズに移行し、意図「ストリートのみを話した」、「都道府県のみを話した」、「都市のみを話した」、「ストリートと都道府県のみを話した」、「都道府県と都市のみを話した」、「ストリートと都市のみを話した」を新規作成する。４）会話ストリームカスタマイズに戻り、「スロットフィリング：出荷先」を編集し、基本設定をクリックし、以上の６つの意図を追加する。５）「スロットフィリング：出荷先」を編集し、スロット位置配置をクリックし、新たなスロット位置変数を追加し、スロットフィリングを必要とする変数－出荷_都市、必須選択、意図－「ストリートのみを話した」、「都道府県のみを話した」、「ストリート及び都道府県のみを話した」を順に設定し、逆質問文「どの都市にありますか？」を入力し、最大逆質問回数を２に設定する。６）同様に他の２つのスロット位置変数を追加する。

次に、図７Ｖ及び７Ｗに示すように、会話ノード「オペレーターに繋げ」を追加する。１）会話ノード「オペレーターに繋げ」を追加することを含む。話術を設定し、会話完了を選択する。２）「スロットフィリング：出荷先」を編集し、ジャンプリンクをクリックする。条件「スロットフィリングに成功した」の場合に、「アドレス情報を受信した」にジャンプし、条件「スロットフィリングに失敗した」の場合に、「オペレーターに繋げ」にジャンプする。これにより、以上の会話ストリームを完了する。最終的に得られた会話ストリームの結果は、図７Ｘに示される。

次に、ローカルに保存する。図７Ｙに示すように、「シーン配置－ＤＭファイル導出」によりｊｓｏｎファイルをローカルに保存してもよい。

幾つかの実施形態において、機能の完備性が保証されるように、構築された会話ストリームをローカルにテストしてもよい。図７Ｚに示すように、「会話テストクリック－テスト発表－ユーザ音声入力」によってテスト操作を実行する。

本発明の実施例において、高速カスタマイズプラットフォームを提供し、コールセンターのインテリジェント音声開発速度を大幅に加速し、開発コストを著しく低減することができ、それによりコールセンター業界全体のインテリジェント化レベルに影響を与える。

図８に示すように、本発明の一実施例の音声会話処理装置８００は、音声意味特定手段８１０、会話管理エンジン呼出手段８２０及び顧客サービス音声生成手段８３０を備える。音声意味特定手段８１０は、処理すべきユーザ音声に対応する音声意味を特定し、会話管理エンジン呼出手段８２０は、会話管理エンジンに基づいて前記音声意味に対する応答文を特定する。会話管理エンジンのトレーニングサンプルセットは、少なくとも１つの会話ストリームを含む会話業務カスタマイズファイルを基に構築され、且つ会話ストリームは、所定順番を持つ複数の会話ノードを含む。顧客サービス音声生成手段８３０は、特定された応答文に基づいてユーザ音声に応答するための顧客サービス音声を生成する。

上記本発明の実施例の装置は、本発明における対応する方法実施例を実行し、上記本発明の方法実施例の奏する技術的効果を有することができ、ここで繰り返し説明しない。

本発明の実施例では、ハードウェアプロセッサ（ｈａｒｄｗａｒｅｐｒｏｃｅｓｓｏｒ）を介して関連機能モジュールを実現してもよい。

別の態様において、本発明の実施例は、記憶媒体を提供する。当該記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上述したサーバで実行されるローカルの管理方法のステップは、実施される。

上記製品は、本発明の実施例に係る方法を実行可能であり、方法を実行する関連機能モジュール及び有利な作用効果を有する。本実施例において詳しく記述されていない技術的詳細は、本発明の実施例に係る方法を参照可能である。

本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。

（１）モバイル通信デバイス：これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン（例えば、ｉｐｈｏｎｅ（登録商標））、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。

（２）ウルトラモバイルパソコンデバイス：これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、ｉＰａｄ（登録商標）などのＰＤＡ、ＭＩＤ及びＵＭＰＣデバイスなどを含む。

（３）ポータブルエンターテイメントデバイス：これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー（例えば、ｉＰｏｄ（登録商標））、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。

（４）データー交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。

上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス（パーソナルコンピュータ、サーバ又はネットワークデバイスなどである）に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。

Claims

音声顧客サービスサーバ側に用いられる音声会話処理方法であって、
処理すべきユーザ音声に対応する音声意味を特定するステップと、
会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップと、
特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するステップと、を含み、
前記会話管理エンジンのトレーニングサンプルセットは、少なくとも１つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声会話処理方法。
前記会話管理エンジンは、汎用会話管理モデル及び業務会話管理モデルを含み、
会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップは、
前記音声意味によって示されるユーザ意図を特定するステップと、
前記ユーザ意図が汎用意図セットに属するときに、前記汎用会話管理モデルを用いて前記ユーザ意図に対する汎用会話操作を実行するステップと、を含み、
前記汎用会話操作は、オペレーターに繋ぐ操作、繰り返し放送操作、会話退出操作及び感嘆詞処理操作のうちの何れか一項を含む請求項１に記載の音声会話処理方法。
前記ユーザ意図が前記汎用意図セットに属さないときに、前記業務会話管理モデルを用いて、
前記ユーザ意図に対応する目標会話ストリームを特定することと、
特定された目標会話ストリームにおける会話ノードに基づいて前記応答文を特定することと、
を含む業務操作を実行することにより、前記応答文を特定するステップを更に含む請求項２に記載の音声会話処理方法。
前記会話業務カスタマイズファイルは、会話フロー設計サーバ側から取得され、前記会話フロー設計サーバ側は、会話フロー設計クライアント側とのインタラクションを行うことで前記会話業務カスタマイズファイルを作成するように構成される請求項１に記載の音声会話処理方法。
前記会話ノードは、会話開始ノード、ユーザコミュニケーションノード、ユーザ情報認識ノード及びスロットフィリングノードを含む請求項１～４の何れか一項に記載の音声会話処理方法。
会話フロー設計サーバ側に用いられる音声顧客サービス方法であって、
会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも１つの会話ストリームを特定するステップと、
前記少なくとも１つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するステップと、
前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするステップと、を含み、
前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声顧客サービス方法。
前記会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成され、前記会話フロー設計クライアント側は、前記グラフィックスインタフェースに対するユーザ操作を受け付けて対応する前記会話フロー設計要求を生成する請求項６に記載の音声顧客サービス方法。
音声会話処理装置であって、
処理すべきユーザ音声に対応する音声意味を特定するための音声意味特定手段と、
会話管理エンジンに基づいて前記音声意味に対する応答文を特定するための会話管理エンジン呼出手段と、
特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するための顧客サービス音声生成手段と、を備え、
前記会話管理エンジンのトレーニングサンプルセットは、少なくとも１つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声会話処理装置。
電子機器であって、
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサで実行され得る指令が記憶され、前記少なくとも１つのプロセッサは、前記指令を実行することにより、請求項１～７の何れか一項に記載の方法のステップを実施可能である電子機器。
コンピュータプログラムが記憶される記憶媒体であって、
当該コンピュータプログラムがプロセッサによって実行されたときに、請求項１～７の何れか一項に記載の方法のステップは、実施される記憶媒体。