本発明の実施形態は、音声対話分野に関し、特に音声対話の満足度の確定方法及び装置に関する。
人工知能技術の発展につれて、スマート音声対話製品の開発と使用が注目されている。なお、スマート音声対話は、音声入力による対話モードであり、ユーザは、音声で自身の要求を入力可能であり、当該製品は、要求の意図に応じて対応の内容を応答可能である。
音声対話分野において、スマート音声対話製品に対するより良い製造及びアップグレードをするために、当該製品の音声対話の満足度を評価することが重要である。これは、音声対話の満足度の評価により当該製品の音声対話機能がユーザに認められるか否かを反映できるからである。従来技術において、満足度の評価は、主に、ユーザによる一回の要求の意図及び端末による応答の内容を評価処理データとして、幾つかのテキスト処理技術によって意図及び内容の関連性の演算を行って、当該応答に応じたユーザの満足度を標識する。
ただし、端末から返信された内容とユーザ意図との関連性だけでユーザの満足度を取得するのは、ユーザからの音声対話に対するリアルで全面的な評価を取得できないため、従来の評価手段により音声対話の満足度を評価し難い。
本発明の実施形態は、音声対話に対してリアルで全面的な評価を提供可能な音声対話の満足度の確定方法及び装置を提供する。
第一の側面として、本発明の実施形態は、音声対話の満足度の確定方法であって、音声対話の客観データと音声対話の主観データとが含まれる音声対話特徴を取得するステップであって、前記音声対話の客観データと音声対話の主観データは、同一の主題に対するデータである、ステップと、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得するステップと、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップと、を含む音声対話の満足度の確定方法を提供する。
可能的な設計において、前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれ、前記音声対話の主観データには、応答内容の再生が中断された後のユーザによる音声入力に対応するテキスト情報が含まれる。
可能的な設計において、前記客観データに対して評価処理を行って客観評価を取得するステップは、前記ユーザ意図と前記応答内容との意図マッチ度に基づいて、第一客観評価を取得するステップと、前記応答遅延と標準遅延に基づいて、第二客観評価を取得するステップと、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて、第三客観評価を取得するステップと、を含み、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップは、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップを含む。
可能的な設計において、前記主観データに対して評価処理を行って主観評価を取得するステップは、前記テキスト情報に対して語義解析を行って、前記テキスト情報に対応する、感情属性又は主題属性である内容属性を取得するステップと、前記テキスト情報に対応する内容属性に基づいて主観評価を取得するステップと、を含む。
可能的な設計において、前記内容属性が主題属性であれば、前記テキスト情報に対応する内容属性に基づいて主観評価を取得するステップは、前記テキスト情報に対応する主題タイプを取得するステップと、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定するステップと、を含む。
可能的な設計において、前記テキストタイプが感情タイプであれば、前記テキスト情報に対応するテキストタイプに基づいて主観評価を取得するステップは、前記テキスト情報における感情キーワードを抽出するステップと、前記感情キーワードと気分タイプとの対応関係に基づいて、積極的な気分と、消極的な気分と、中性的な気分とからなる群のうちいずれかの気分タイプを取得するステップと、前記気分タイプと所定の評価との対応関係に基づいて主観評価を取得するステップと、を含む。
可能的な設計において、音声対話特徴を取得するステップは、直前の時間帯における第二ログデータ及び直後の時間帯における第三ログデータとの時間間隔が所定の閾値よりも大きい第一ログデータを取得するステップと、前記第一ログデータから、ユーザによる二回の隣接する音声入力のそれぞれに対応する主題を取得するステップと、二回の隣接する音声入力のそれぞれに対応する主題に基づいて、前記音声対話特徴を取得するステップと、を含む。
可能的な設計において、前記方法は、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップの前に、更に客観的なサンプルデータに対して評価処理を行って得られた第一サンプル評価と、主観的なサンプルデータに対して評価処理を行って得られた第二サンプル評価と、ユーザから入力された満足度とが含まれるトレーニングサンプルセットを取得するステップであって、前記客観的なサンプルデータと前記主観的なサンプルデータは、同一の主題に対するデータである、ステップと、前記トレーニングサンプルセットに基づいて、イテレーショントレーニングにより前記満足度評価モデルを取得するステップと、を含む。
第二の側面として、本発明の実施形態は、音声対話の満足度の確定装置であって、音声対話の客観データと音声対話の主観データとが含まれる音声対話特徴を取得する取得モジュールであって、前記声対話の客観データと音声対話の主観データは、同一の主題に対するデータである、取得モジュールと、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得する処理モジュールと、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する確定モジュールと、を備える音声対話の満足度の確定装置を提供する。
可能的な設計において、前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間とが含まれ、前記音声対話の主観データには、応答内容の再生が中断された後のユーザによる音声入力に対応するテキスト情報、或いは応答内容の再生が終了された後のユーザにより入力されたテキスト情報が含まれる。
可能的な設計において、前記処理モジュールは、具体的に、前記ユーザ意図と前記応答内容との意図のマッチ度に基づいて、第一客観評価を取得し、前記応答遅延と標準遅延に基づいて、第二客観評価を取得し、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて、第三客観評価を取得するように構成され、前記確定モジュールは、具体的に、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するように構成されている。
可能的な設計において、前記処理モジュールは、具体的に、前記テキスト情報に対して語義解析を行って前記テキスト情報に対応する、感情属性又は主題属性である内容属性を取得し、前記テキスト情報に対応する内容属性に基づいて主観評価を取得するように構成されている。
可能的な設計において、前記内容属性が主題属性である場合に、前記処理モジュールは、具体的に、前記テキスト情報に対応する主題タイプを取得し、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定するように構成されている。
可能的な設計において、前記テキストタイプが感情タイプである場合に、前記処理モジュールは、具体的に、前記テキスト情報における感情キーワードを抽出し、前記感情キーワードと気分タイプとの対応関係に基づいて、積極的な気分と、消極的な気分と、中性的な気分とからなる群のうちいずれかの気分タイプを取得し、前記気分タイプと所定の評価との対応関係に基づいて主観評価を取得するように構成されている。
可能的な設計において、前記取得モジュールは、具体的に、直前の時間帯における第二ログデータ及び直後の時間帯における第三ログデータとの時間間隔が所定の閾値よりも大きい第一ログデータを取得し、前記第一ログデータから、ユーザによる二回の隣接する音声入力のそれぞれに対応する主題を取得し、二回の隣接する音声入力のそれぞれに対応する主題に基づいて、前記音声対話特徴を取得するように構成されている。
可能的な設計において、前記装置は、トレーニングモジュールを更に備え、当該トレーニングモジュールは、前記客観評価と前記主観評価とを満足度評価モデルの入力として前記満足度評価モデルから出力される音声対話の満足度を取得する前に、客観的なサンプルデータに対して評価処理を行って得られた第一サンプル評価と、主観的なサンプルデータに対して評価処理を行って得られた第二サンプル評価と、ユーザから入力された満足度とが含まれるトレーニングサンプルセットを取得し、前記客観的なサンプルデータと前記主観的なサンプルデータとは同一の主題に対するデータであり、前記トレーニングサンプルセットに基づいて、イテレーショントレーニングにより前記満足度評価モデルを得るように構成されている。
第三の側面として、本発明の実施形態は、音声対話の満足度の確定装置であって、少なくとも一つのプロセッサとメモリとを備え、前記メモリにコンピュータにより実行可能な指令が記憶されており、前記少なくとも一つのプロセッサは、前記メモリに記憶されているコンピュータにより実行可能な指令を実行することにより、前記少なくとも一つのプロセッサに第一の側面又は第一の側面の各種の可能的な設計に記載の音声対話の満足度の確定方法を実行させる音声対話の満足度の確定装置を提供する。
第四の側面として、本発明の実施形態は、コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータに実行可能な指令が記憶されており、前記コンピュータに実行可能な指令がプロセッサにより実行されると、第一の側面又は第一の側面の各種の可能的な設計に記載の音声対話の満足度の確定方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
本発明の実施形態により提供される音声対話の満足度の確定方法及び装置は、同一の主題に対するデータである、音声対話の客観データと音声対話の主観データが含まれる音声対話特徴を取得することで,同一の主題の主観データと客観データを取得することにより、満足度の評価用のデータをリアルで全面的に取得し、評価のデータのリアル性及び全面性を確保することができるため、満足度がより全面的であり、ユーザのリアルな評価により近くなる。客観データに対して評価処理を行って客観評価を取得し、主観データに対して評価処理を行って主観評価を取得し、客観評価と主観評価を満足度評価モデルの入力として、満足度評価モデルから出力される音声対話の満足度を取得することで、満足度評価モデルの手段により満足度を取得することにより、満足度を迅速で正確に取得できるため、当該方法が音声対話量の多い場合に適用できることになる。
本発明の実施形態又は従来技術における技術案をより明確に説明するために、以下に実施例又は従来技術に対する説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本発明の幾つかの実施例であり、当業者にとって創造的な労働を付しない前提でこれら図面に基づいて他の図面を更に得られる。
本発明の実施例により提供される音声対話の満足度の確定システムのアーキテクチャの模式図である。
本発明の実施例により提供される満足度評価モデルの取得の模式図である。
本発明の実施例により提供される音声対話の満足度の確定方法の第一のフローチャートである。
本発明の実施例により提供されるログデータの模式図である。
本発明の実施例により提供される音声対話の満足度の確定方法の第二のフローチャートである。
本発明の実施例により提供される主観評価の取得のフローチャートである。
本発明の実施例により提供される音声対話の満足度の確定装置の構成の模式図である。
本発明の実施例により提供される音声対話の満足度の確定装置のハードウェアの構成図である。
本発明の実施例の目的、技術案及び利点をより明確にするために、以下に本発明の実施例における図面と合わせて本発明の実施例における技術案を明瞭で完備的に説明する。説明される実施例は、全ての実施例ではなく、本発明の一部の実施例であるのは言うまでもない。当業者により本発明における実施例に基づいて創造的な労働を付しない前提で得られる全ての他の実施例も本発明の保護範囲に属される。
図1は、本発明の実施例により提供される音声対話の満足度の確定システムのアーキテクチャの模式図である。図1に示すように、本実施例により提供されるシステムには、端末101と、サーバ102とが備えられる。なお、端末101は、児童ストーリーマシン、携帯電話、タブレット、車載端末などであっても良い。本実施例では、端末101の実現手段に制限せず、当該端末101がユーザと音声対話を実行可能であれば良い。
音声対話(Speech Interaction)とは、音声認識、音声合成、自然言語解析などの技術により、複数種の実際の応用シーンにおいて、端末に「聞き取り可能、言出し可能、理解可能」という機能を与えるようなスマートヒューマンマシンインタラクションの体験であり、スマート問答、スマート再生、インテリジェント検索などのシーンを含む複数の応用シーンに適用される。
ユーザは、音声で端末101へ検索語句を入力する。当該端末101は、当該検索語句によりユーザ意図を取得し、当該意図に応じてローカルで又はサーバ102から、当該意図に対応する応答内容を取得して応答内容をユーザにフィードバックすることができる。例えば、料理の予約、チケットの予約、音楽や映画やある商品の検索などがある。
端末101がユーザへ各種の音声対話サービスを提供可能であるため、ユーザからの音声対話に対するリアルで全面的な評価を取得することが端末における音声対話の開発、アップグレードなどに対して重要である。
本発明の実施例は、音声対話の満足度の確定方法を提供する。当該方法は、音声対話に対してリアルで全面的な評価を提供することができる。当該音声対話の満足度の確定方法は、図1に示された端末101により実行可能である。端末101は、ログデータに基づいて満足度を確定し、その後にサーバ102に当該満足度をフィードバックし、サーバ102に当該満足度に基づいて更なる処理を実行させることができる。本実施例の音声対話の満足度の確定方法は、図2に示されたサーバ102により実行されても良い。端末101は、ログデータをサーバ102へ送信し、サーバ102に当該満足度を確定して更なる処理を実行させる。
本実施例では、当該音声対話の満足度の確定方法の実行主体に対して特別な制限がなく、端末101により実行されてもサーバ102により実行されても良い。本実施例において、端末101とサーバ102は、ログデータを取得した後に、何れも同じ方法を採用して音声対話の満足度を確定しても良い。
本実施例において、満足度を迅速に確定するため、満足度評価モデルにより満足度を確定する。本実施例において、まず図2と合わせて満足度評価モデルを如何に取得する過程を説明する。
図2は、本発明の実施例により提供される満足度評価モデルの取得の模式図である。本実施例において、客観データと主観データとを評価することにより満足度を取得する。これにより、満足度評価モデルを取得する時に、客観的なサンプルデータ及び主観的なサンプルデータを同時に考慮してユーザからの音声対話に対するリアルで全面的な評価を取得する。なお、当該満足度評価モデルは、端末により取得されても良く、サーバにより取得されても良く、サーバにより取得され或いはサーバにより満足度評価モデルが取得された後に当該満足度評価モデルをインストールパッケージで端末へ送信しても良い。
図2に示すように、まずトレーニングサンプルセットを取得する。当該トレーニングサンプルセットには、第一サンプル評価と、第二サンプル評価と、ユーザから入力される満足度とが含まれる。当業者であればわかるように、トレーニングサンプルセットのうち適量なデータ、即ち第一サンプル評価、第二サンプル評価及びユーザから入力される満足度に対してイテレーショントレーニングを行うことにより、満足度評価モデルを取得することができる。
なお、第一サンプル評価は客観的なサンプルデータに対して評価処理を行って得られるものであり、第二サンプル評価は主観的なサンプルデータに対して評価処理を行って得られるものである。本実施例において、当該客観的なサンプルデータと主観的なサンプルデータは、同一の主題に対するデータである。
当該客観的なサンプルデータは、ユーザの感情的なニュアンスを含まないデータ、例えば端末に関するデータである。当該主観的なサンプルデータは、ユーザの感情的なニュアンスを含むデータである。同一の主題に対するデータであれば、何れも取得して主観と客観を区分可能である。
具体的な例示において、ユーザの音声入力に応じてユーザ意図として「私は張三の新しい歌を聞きたい」を取得し、当該意図に応じて端末から返信された応答内容は「××歌」のオーディオファイルである。ユーザにより当該「××歌」について主観的なフィードバックを行う場合に、ユーザは当該オーディオファイルの再生を一旦に中止し、その後に音声で「この歌が私の欲しいものではない」を入力すると共に、端末により自己の満足度を入力する。この過程において、当該「××歌」の再生時間及び応答遅延を取得する。これにより、ユーザは「歌」の主題について端末と二回の対話を行った。
当該過程において、客観的なサンプルデータには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれても良い。客観評価は、これら客観的なサンプルデータについて所定のアルゴリズムにより客観評価を取得することができる。当該所定のアルゴリズムは、前記客観的なサンプルデータを含む関数などであっても良く、本実施例では当該所定のアルゴリズムに対して制限しない。
主観的なサンプルデータには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報が含まれる。当該テキスト情報に対して語義解析を行って主観評価を取得することができる。
当業者であればわかるように、当該客観評価と主観評価は具体的な評価値であっても良く、ユーザから入力される満足度も具体的な値であっても良い。これら値に対してイテレーショントレーニングを行うことにより、満足度評価モデルを取得することができる。
選択的に、異なる客観的なサンプルデータについて、それぞれ評価処理を行ってそれぞれの対応する評価値を取得することもできる。例えば、ユーザ意図と応答内容に応じて評価値x1を取得し、応答遅延に応じて評価値y1を取得し、応答内容の現在再生時間に応じて評価値z1を取得することができる。主観評価に対応する評価値はp1、ユーザから入力される満足度はn1である。
本実施例において、可能的な満足度評価モデルが与えられた。当該満足度評価モデルはAx+By+Cz+Dp=nであっても良い。各評価値を当該満足度評価モデルに代入してイテレーショントレーニングを行うことにより、A、B、C、Dを取得することができる。これにより、満足度評価モデルを取得可能である。評価値は取得された後に、直接に当該モデルに代入されると、最終的な満足度nを取得することができる。本実施例は、一種のモデルを例示して満足度評価モデルを如何に構築することを説明したが、他の形式のモデルは、主観評価と客観評価に対して満足度を提供可能であれば、何れも本実施例の保護範囲に入る。本実施例では、満足度評価モデルの具体的な実現手段について制限しない。
以下に詳細的な実施例を採用して、本発明の実施例において如何に満足度評価モデルにより満足度を取得するについて説明する。
図3は、本発明の実施例により提供される音声対話の満足度の確定方法の第一フローチャートである。当該方法の実行主体は、図1に示された端末又はサーバであっても良い。図3に示すように、当該方法は以下のステップを含む。
S301において、音声対話特徴を取得する。前記音声対話特徴には、音声対話の客観データと音声対話の主観データとが含まれる。なお、前記客観データと前記主観データは、同一の主題に対するデータである。
本実施例の音声対話特徴は、端末のログデータから取得可能である。具体的な実現手順において、端末はユーザから入力された音声を取得した後に、当該音声をテキスト情報に変換し、当該テキスト情報に基づいてユーザ意図を取得し、ユーザ意図に応じて応答内容を取得して応答内容をユーザにフィードバックする。ユーザは、当該応答内容に応じて主観的なフィードバックを行うことができる。
ユーザと端末の対話データについて、データ毎に対応する主題を取得した後に、同一の主題に対する主観データと客観データを取得することができる。具体的に、対話データに対して語義解析、内容解析、データ生成時の時系列解析などを行って同一の主題に対する主観データと客観データを生成することができる。本実施例では、同一の主題のデータを取得する実現手段に制限しない。
選択的に、具体的な例示において、音声の入力時間、テキスト情報及び応答内容の標識、属性など及び応答時間は、何れもログデータを形成することになる。当業者であればわかるように、ログデータにおいて、各ログについて時間を記録し、当該時間情報に基づいて第一ログデータを取得する。なお、第一ログデータは、ユーザと端末が連続的なインタラクションを行う一連のログデータである。
具体的な実現手順において、各ログ記録の間の時間間隔を取得し、二つの時間間隔が所定の閾値よりも大きい場合に、二つの時間間隔の間のログデータ、即ち第一ログデータを取得する。当該第一ログデータは、二つの時間間隔の間の全てのデータである。
当業者であればわかるように、第一ログデータと隣接する前の時間帯における第二ログデータ及び隣接する次の時間帯における第三ログデータとの時間間隔は所定の閾値よりも大きい。なお、第二ログデータ及び第三ログデータは、一つのログデータとして理解しても良く、第一ログデータと類似する、二つの時間間隔の間の全てのデータとして理解しても良い。図4は、本発明の実施例により提供されるログデータの模式図である。図4に示すように、時間軸において、中央部分は第一ログデータのうち各データの記録時間である。当業者であればわかるように、第一ログデータ、第二ログデータ及び第三ログデータは、Session(セッション)に従って区画されるデータに相当する。
第一ログデータが取得された後に、第一ログデータにおいて、ユーザによる二回の隣接する音声入力に対応するテキスト情報に基づいて、前記音声対話特徴を取得する。
当業者であればわかるように、音声対話を行う際に、ユーザと端末の音声対話手順は、音声入力−応答内容−語義入力−応答内容……である。これにより、音声入力と応答内容は繰り返して発生する。
なお、音声入力がテキスト情報に変換された後に、当該テキスト情報に対して語義解析を行うことができる。当該テキスト情報は、ユーザ意図であっても良く、ユーザのフィードバックであっても良い。本実施例において、隣接の二つのテキスト情報のそれぞれがユーザ意図とユーザのフィードバックである場合に、当該ユーザ意図、ユーザのフィードバック及び端末のフィードバックの応答内容の関連情報などを抽出して音声対話特徴を取得する。即ち、音声入力−応答内容−語義入力という手順において特徴情報を抽出する。当該手順はユーザ意図−応答内容−ユーザのフィードバックになる。なお、当該ユーザのフィードバックに他の主題に係わる内容がない場合に、当該ユーザのフィードバックは依然としてユーザ意図に対応する主題に該当し、即ち主題に変化がないと考える。なお、主観データはユーザのフィードバックであり、客観データはユーザ意図及び応答内容の関連情報などを含む。
当業者であればわかるように、一部の連続的な音声入力が二つの異なる主題に同時に係わると、当該音声入力を二つの部分の内容に区分することができる。例えば前部が一つの主題に係わり、後部が他の主題に係わると、前部を一つの主題に分けて音声対話特徴を抽出し、後部を他の主題に分けて音声特徴を抽出することができる。
S302において、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得する。
当業者であればわかるように、客観データと主観データは幾つかのデータである。これらデータは、形式が異なり、フォーマットが異なり、或いはタイプが異なる。データを統一することにより満足度評価モデルの入力を統一するために、客観データに対して評価処理を行って客観評価を取得し、主観データに対して評価処理を行って主観評価を取得することができる。
なお、客観評価と主観評価は何れも評価値である。当該評価値は、満足度の総計値に基づいて算出されても良く、異なるデータタイプに対して確定されても良い。選択的に、当該評価値は、−1〜1の値を取っても良い。
当業者であればわかるように、客観データの評価処理方式及び主観データの評価処理方式は、前記満足度評価モデルを確立する場合の評価処理方式と同じにすることにより、評価値と満足度評価モデルの合理性を確保した。
S303において、前記客観評価と前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する。
客観評価と主観評価を取得した後に、客観評価と主観評価を満足度評価モデルの入力として、満足度評価モデルにより演算や解析などを行う。満足度評価モデルの出力は音声対話の満足度になる。
本発明の実施例により提供された音声対話の満足度の確定方法は、同一の主題に対するデータである、音声対話の客観データと音声対話の主観データが含まれる音声対話特徴を取得することで、同一の主題の主観データと客観データを取得することにより、満足度の評価用のデータをリアルで全面的に取得し、評価のデータのリアル性及び全面性を確保することができるため、満足度がより全面的であり、ユーザのリアルな評価に一層に近くなる。客観データに対して評価処理を行って客観評価を取得し、主観データに対して評価処理を行って主観評価を取得し、客観評価と主観評価を満足度評価モデルの入力として満足度評価モデルから出力される音声対話の満足度を取得することで、満足度評価モデルの手段により満足度を取得することにより、満足度を快速的で正確に取得できるため、当該方法が音声対話量の多い場合に適用できることになる。
以下に具体的な実現方式を採用して、客観評価と主観評価を取得する実現方式を詳しく説明する。なお、本実施例において、音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。音声対話の主観データには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報が含まれる。
なお、ユーザ意図と応答内容との意図マッチ度が高く、応答遅延が短く、応答内容の現在再生時間が長いほど、ユーザの満足度が大きくなり、客観評価の値が大きくなると意味する。
当該テキスト情報の気分情報を取得する。ユーザの気分が良いほど、主観評価の値が大きくなる。
以下、図5及び図6と合わせて詳しく説明する。下記の客観評価と主観評価を取得する実現方式は、前記の図2に示されたモデル確立の実施例に適用しても良く、図3に示された満足度確定の実施例に適用しても良い。
図5は、本発明の実施例により提供される音声対話の満足度の確定方法の第二のフローチャートである。図5に示すように、当該方法は以下のことを含む。
S501において、音声対話特徴を取得する。前記音声対話特徴には、音声対話の客観データと音声対話の主観データが含まれる。前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。
具体的に、S501において音声対話特徴を取得する方式はS101において音声対話特徴を取得する方式と類似する。本実施例の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。
当該客観データには、ユーザ意図及び端末からの当該ユーザ意図に対する各種のフィードバックが含まれる。なお、意図(intent)は領域データに対する操作であり、一般的に動賓語句で命名され、例えば天気の問い合わせ、音楽の検索がある。端末からのユーザ意図に対するフィードバックには、応答内容、応答遅延、応答内容の現在再生時間が含まれる。
S502において、前記ユーザ意図と前記応答内容との意図マッチ度に基づいて、第一客観評価を取得する。
ユーザ意図に対して語義解析を行ってユーザ意図における領域の属性などの内容を取得し、応答内容の領域の属性などの内容を抽出する。領域の属性の類似度に基づいて意図マッチ度を確定する。なお、意図マッチ度の値は0%−100%であっても良い。当該意図マッチ度は第一客観評価に変換可能であり、それに応じて第一客観評価の値は0〜1である。例えば、ユーザ意図が張三のA歌、応答内容が張三のB歌、領域の属性が歌手名、歌名である場合に、類似度が50%、対応する第一客観評価が0.5である。
S503において、前記応答遅延と標準遅延に基づいて、第二客観評価を取得する。
当該標準遅延は、予め設定されたユーザの受入可能な遅延であっても良い。例えば、当該標準遅延が200ms、当該標準遅延に対応する第二客観評価が0である。応答遅延が標準遅延よりも大きい場合に、第二客観評価が0よりも小さく、応答遅延が標準遅延よりも小さい場合に、第二客観評価が0よりも大きい。
可能的な実現方式において、標準遅延に基づいて標準化処理を行って第二客観評価が−1〜1の間にあるようにすることができる。例えば、応答遅延が標準遅延よりも大きい場合に、応答遅延と標準遅延の差が標準遅延よりも大きければ、第二客観評価の値が1であり、当該差が標準遅延よりも小さければ、当該差と標準遅延の比にマイナスを取って第二客観評価を取得する。応答遅延が標準遅延よりも小さい場合に、標準遅延と応答遅延の差を取得し、当該差と標準遅延の比を第二客観評価とする。
S504において、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて、第三客観評価を取得する。
本実施例において、応答内容の現在再生時間が長いほど、ユーザの満足度が高くなると意味する。現在再生時間と標準再生時間の比を第三客観評価とすることができる。
S505において、前記主観データに対して評価処理を行って主観評価を取得する。
S506において、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する。
第一客観評価、第二客観評価、第三客観評価及び主観評価を満足度評価モデルの入力として、満足度評価モデルの処理により、満足度評価モデルから音声対話の満足度を直接に出力する。
当業者であればわかるように、満足度評価モデルを確立する時に、モデルの入力はサンプルデータに対応する第一客観評価、第二客観評価、第三客観評価、主観評価及びユーザから入力される満足度である。そしてイテレーショントレーニングを行って満足度評価モデルを取得する。
本発明の実施例は、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間について客観評価をそれぞれ取得することにより、客観評価に内容、遅延、再生時間などの各種の客観的な要素を総合してユーザの満足度を取得することができ、満足度が正確的で且つ全面的になる。
図6は、本発明の実施例により提供される主観評価を取得するフローチャートである。本実施例により提供される客観評価は、前記の何れか一つの実施例に適用可能である。当該客観評価に対応する音声対話の主観データには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報、又は、応答内容の再生が終了した後にユーザから入力されるテキスト情報、即ちユーザからの応答内容に対するフィードバックが含まれる。当該フィードバックは、直接的なフィードバックであっても良く、気分的なフィードバックなどであっても良い。図6に示すように、当該方法は以下のことを含む。
S601において、テキスト情報に対して語義解析を行って、前記テキスト情報に対応する内容属性を取得する。前記内容属性は感情属性又は主題属性である。
ユーザから応答内容に対して入力された音声フィードバックに対応するテキスト情報が取得された後に、当該テキスト情報に対して語義解析を行って、テキスト情報に対応する内容属性を取得する。本実施例において、内容属性を感情属性と主題属性に分ける。なお、感情属性はユーザが感情を伝える内容を指し、主題属性はユーザから現在の主題に対する更なる操作を指す。
具体的な実現過程において、語義解析によりテキスト情報におけるキーワードを抽出し、当該キーワードを感情バンク又は主題バンクにおける単語とマッチングして当該テキスト情報に対応する内容属性を判断することができる。
S602において、前記テキスト情報に対応する主題タイプを取得する。
S603において、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定する。
なお、S602−S603は、当該テキスト情報の内容属性が主題属性であることに対して設定されるものである。テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、ユーザが現在の主題についてフィードバックされた応答内容に満足できないと意味するため、入力内容を再び繰り返す。従って、当該主観評価は所定の評価値よりも低い。ユーザによる入力が繰り返した回数、及び入力される文字の長さに基づいて具体的な評価値を確定することができる。
S604において、前記テキスト情報における感情キーワードを抽出する。
S605において、前記感情キーワードと気分タイプとの対応関係に基づいて、いずれかの気分タイプを取得する。前記気分タイプには、積極的な気分、消極的な気分及び中性的な気分が含まれる。
S606において、前記気分タイプと所定の評価との対応関係に基づいて、主観評価を取得する。
なお、S604−S606は、内容属性が気分属性であることに対して設定されるものである。テキスト情報における感情キーワードを抽出可能である。本実施例において、気分データベースを予め設置することができる。気分データベースには、積極的な気分サブデータベース、消極的な気分サブデータベース、中性的な気分サブデータベースが含まれる。
当該感情キーワードを気分データベースにおける単語とマッチングする。当該感情キーワードが積極的な気分サブデータベースにマッチされた場合に、気分タイプが積極的な気分であり、対応する主観評価の値が1である。当該感情キーワードが消極的な気分サブデータベースにマッチされた場合に、気分タイプが消極的な気分であり、対応する主観評価の値が−1である。当該感情キーワードが中性的な気分サブデータベースにマッチされた場合に、気分タイプが中性的な気分であり、対応する主観評価の値が0である。
本発明の実施例は、ユーザの主観的なフィードバックに対して解析することにより、ユーザからの音声対話に対する主観的な満足度を取得することができる。本発明の実施例は、主観評価を確定する時に、ユーザの気分及びユーザからの同一の主題に対する繰り返した指示を解析することにより、ユーザの各種の操作に対して評価可能であり、ユーザの各種の表現をごまかせずに、ユーザの満足度をリアルでフィードバックすることができる。
前記の各実施例において、本発明の実施例は一つの主題についての対話に対して満足度の確定を行う過程を示した。具体的な実現過程において、複数の主題についての対話の満足度を連続的に取得することができる。各主題についての対話の満足度の確定方法は、何れも前記の実施例を参照可能である。以下に幾つかの具体的な実施例を提供して複数の主題についての対話に対して如何に満足度を取得するかを説明する。
一つの具体的な例示は、ユーザ意図1−応答内容1−ユーザ意図2−応答内容2−主観的なフィードバック+ユーザ意図3−応答内容3……である。上記の内容からわかるように、ユーザ意図1及び応答内容1について、ユーザはユーザのフィードバックを行わないため、客観評価を取得すれば良い。なお、客観評価の実現方式は前記の実施例を参照可能である。満足度評価モデルは、客観評価のみに関わっても良く、客観評価と主観評価の両方にも関わるが、主観評価の入力が0であっても良い。ユーザ意図2−応答内容2−主観的なフィードバックについて、前記の満足度の確定方法を採用して実現可能である。ユーザ意図3−応答内容3について、具体的な実現状況に基づいて満足度を確定可能である。
複数の満足度を取得した後に、端末又はサーバは、複数の満足度のデータに対して各種の解析を行って端末の製品性能を取得する。
当業者であればわかるように、前記の各主観評価又は客観評価に対応する評価値の値取り方式は、例示的な値取り方式であるが、他の値取り方式を採用しても良い。例えば、5点制、10点制及び100点制の違いにより値取り方式が異なり、本実施例では具体的な値取り方式に制限しない。
図7は、本発明の実施例により提供される音声対話の満足度の確定装置の構成模式図である。図7に示すように、当該装置70は、取得モジュール701と、処理モジュール702と、確定モジュール703とを備え、選択的に更にトレーニングモジュール704を備える。
取得モジュール701は、音声対話特徴を取得する。前記音声対話特徴には、音声対話の客観データと音声対話の主観データが含まれる。なお、前記客観データと前記主観データは、同一の主題に対するデータである。
処理モジュール702は、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得する。
確定モジュール703は、前記客観評価と前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する。
選択的に、前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。前記音声対話の主観データには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報、又は応答内容の再生が終了した後にユーザから入力されたテキスト情報が含まれる。
選択的に、前記処理モジュール702は具体的に、前記ユーザ意図と前記応答内容との意図マッチ度に基づいて第一客観評価を取得し、前記応答遅延と標準遅延に基づいて第二客観評価を取得し、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて第三客観評価を取得する。
前記確定モジュール703は具体的に、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力された音声対話の満足度を取得する。
選択的に、前記処理モジュール702は具体的に、前記テキスト情報に対して語義解析を行って前記テキスト情報に対応する、感情属性又は主題属性である内容属性を取得し、前記テキスト情報に対応する内容属性に基づいて主観評価を取得する。
選択的に、前記内容属性が主題属性であれば、前記処理モジュール702は具体的に、前記テキスト情報に対応する主題タイプを取得し、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定する。
選択的に、前記テキストタイプが感情タイプであれば、前記処理モジュール702は具体的に、前記テキスト情報における感情キーワードを抽出し、前記感情キーワードと気分タイプの対応関係に基づいて、積極的な気分、消極的な気分及び中性的な気分からなる群のうちいずれかの気分タイプを取得し、前記気分タイプと所定の評価の対応関係に基づいて主観評価を取得する。
選択的に、前記取得モジュール701は具体的に、直前(前の隣接する)の時間帯における第二ログデータ及び直後(後の隣接する)の時間帯における第三ログデータとの時間間隔が所定の閾値よりも大きい第一ログデータを取得し、前記第一ログデータからユーザによる二回の隣接する音声入力のそれぞれに対応する主題を取得し、二回の隣接する音声入力のそれぞれに対応する主題に基づいて前記音声対話特徴を取得する。
選択的に、前記客観評価と前記主観評価を満足度評価モデルの入力として前記満足度評価モデルから出力される音声対話の満足度を取得する前に、トレーニングモジュール704は、第一サンプル評価、第二サンプル評価及びユーザから入力される満足度が含まれるトレーニングサンプルセットを取得し、前記トレーニングサンプルセットに基づいて、イテレーショントレーニングにより前記満足度評価モデルを取得する。なお、前記第一サンプル評価は、客観的なサンプルデータに対して評価処理を行って得られ、前記第二サンプル評価は、主観的なサンプルデータに対して評価処理を行って得られる。前記客観的なサンプルデータと前記主観的なサンプルデータは、同一の主題に対するデータである。
本実施例により提供された音声対話の満足度の確定装置は、前記の方法の実施例を実行可能である。その実現方式と技術効果は類似であるため、本実施例では詳しく説明しない。
図8は、本発明の実施例により提供される音声対話の満足度の確定装置のハードウェア構成図である。図8に示すように、当該音声対話の満足度の確定装置80は少なくとも一つのプロセッサ801とメモリ802とを備える。前記メモリ802には、コンピュータ実行指令が記憶される。前記少なくとも一つのプロセッサ801は、前記メモリ802に記憶されているコンピュータ実行指令を実行して前記少なくとも一つのプロセッサ801に前記の音声対話の満足度の確定方法を実行させる。
プロセッサ801の具体的な実現過程は、前記の方法の実施例を参照可能である。その実現原理と技術効果は類似であるため、本実施例では詳しく説明しない。
当該確定装置80には、更に通信部品803が備えられる。なお、プロセッサ801、メモリ802及び通信部品803は、バス804により接続される。
前記の図7と図8の実施例において、当該音声対話の満足度の確定装置は、図1に示された端末又はサーバであっても良い。
本発明の実施例は更にコンピュータ読取可能な記憶媒体を提供した。前記コンピュータ読取可能な記憶媒体にコンピュータ実行指令が記憶される。前記コンピュータ実行指令がプロセッサにより実行されると、前記の音声対話の満足度の確定方法を実現させる。
理解すべきなのは、前記の実施例に開示された装置及び方法は、他の手段で実現されても良い。例えば、ここまで説明された装置の実施例は例示的なものに過ぎない。例えば、前記モジュールの分割は、ロジック機能による分割に過ぎず、実際的に実現される場合に他の分割手段を採用しても良い。例えば複数のモジュールは、他のシステムに組み合わせ、又は集積しても良く、幾つかの特徴を無視し、或いは実行しなくて良い。また、表示し又は論述された同士間の結合、直接的な結合又は通信接続は、幾つかのインターフェース、装置又はモジュールによる間接的な結合又は通信接続であっても良く、電気的、機械的又は他の手段によるものであっても良い。
前記で分離部品として説明されたモジュールは、物理的に分離しても、しなくても良く、モジュールとして表示された部品は、物理的なユニットであっても、でなくても良く。即ち、一つの箇所に位置しても良く、複数のネットワークユニットに配布されても良く。実際の必要に応じてその一部又は全部のモジュールを選択して本実施例の技術案の目的を実現することができる。
また、本発明の各実施例における各機能モジュールは、一つの処理ユニットに集積されても良く、各モジュールとして単独で物理的に存在しても良く、二つ又はそれ以上のモジュールが一つのユニットに集積されても良い。前記のモジュール化されたユニットは、ハードウェアの形式で実現されても良く、ハードウェアと共にソフトウェア機能ユニットを採用して実現されても良い。
前記のソフトウェア機能モジュールで実現された集積モジュールは、コンピュータ読取可能な記憶媒体に記憶されても良い。前記のソフトウェア機能モジュールは記憶媒体に記憶されており、コンピュータ装置(パソコン、サーバ、又はネットワーク装置などであっても良い)又はプロセッサ(processor)に本願の各実施例における前記方法の一部のステップを実行させるように複数の指令を含む。
理解すべきなのは、前記のプロセッサは、中央処理ユニット(Central Processing Unit、CPUと略称する)であっても良く、他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSPと略称する)、専用集積回路(Application Specific Integrated Circuit、ASICと略称する)などであっても良い。汎用プロセッサは、マイクロプロセッサであっても良く、当該プロセッサは、如何なる標準的なプロセッサなどであっても良い。発明と合わせて開示された方法のステップは、直接にハードウェアプロセッサにより実行して完成させても良く、プロセッサにおけるハードウェア及びソフトウェアモジュールにより組合わせて実行して完成させても良い。
メモリは、高速RAMメモリを含んでも良く、不揮発的な記憶NVM、例えば少なくとも一つの磁気ディスクメモリを更に含んでも良く、メモリカード、モバイルハードディスク、読取専用メモリ、磁気ディスク又は光ディスクなどであっても良い。
バスは工業標準アーキテクチャ(Industry Standard Architecture、ISA)バス、外部装置接続(Peripheral Component、PCI)バス、又は拡張工業標準アーキテクチャ(Extended Industry Standard Architecture、EISA)バスなどであっても良い。バスは、アドレスバス、データバス、コントロールバスなどに分けても良い。表現を便利にするために、本願の図面におけるバスは、一本に限定されず、一種のタイプに限定されない。
前記の記憶媒体は、任意のタイプの揮発的又は不揮発的な記憶装置或いはそれらの組み合わせで実現されても良く、例えばスタティックランダムアクセスメモリ(SRAM)、電気消去可能なプログラミング読取専用メモリ(EEPROM)、消去可能なプログラミング読取専用メモリ(EPROM)、プログラミング読取専用メモリ(PROM)、読取専用メモリ(ROM)、磁気メモリ、フラッショメモリ、磁気ディスク又は光ディスクであっても良い。記憶媒体は、汎用的又は専用的なコンピュータにアクセス可能な任意の使用可能な媒体であっても良い。
例示的な記憶媒体がプロセッサに結合されると、プロセッサが当該記憶媒体から情報を読取可能であり、且つ当該記憶媒体に情報を書込可能である。勿論、記憶媒体はプロセッサの構成の一部であっても良い。プロセッサと記憶媒体は、専用集積回路(Application Specific Integrated Circuits、ASICと略称する)に設置されても良い。勿論、プロセッサと記憶媒体は、分離部品として端末又はサーバに設置されても良い。
当業者であればわかるように、前記の各方法の実施例を実現する全て又は一部のステップは、プログラムにより関連のハードウェアを命令して完成させることができる。前記のプログラムは、コンピュータ読み取り可能な記憶媒体に記憶されても良い。当該プログラムは実行されると、前記の各方法の実施例を含むステップを実行する。前記の記憶媒体には、ROM、RAM、磁気ディスク又は光ディスクなどのようなプログラムコードを記憶可能な各種の媒体が含まれる。
最後に説明すべきなのは、前記の各実施例は、制限的なものではなく、本発明の技術案を説明するに過ぎない。当業者であればわかるように、前記の各実施例を参照して本発明を詳しく説明したが、依然として前記の各実施例に記載された技術案を補正し、或いはそのうち一部又は全ての技術特徴を等価に置換することができる。これら補正又は置換により、該当する技術案の本質が本発明の各実施例の技術案の範囲から逸脱することがない。
本発明の実施形態は、音声対話分野に関し、特に音声対話の満足度の確定方法及び装置に関する。
人工知能技術の発展につれて、スマート音声対話製品の開発と使用が注目されている。なお、スマート音声対話は、音声入力による対話モードであり、ユーザは、音声で自身の要求を入力可能であり、当該製品は、要求の意図に応じて対応の内容を応答可能である。
音声対話分野において、スマート音声対話製品に対するより良い製造及びアップグレードをするために、当該製品の音声対話の満足度を評価することが重要である。これは、音声対話の満足度の評価により当該製品の音声対話機能がユーザに認められるか否かを反映できるからである。従来技術において、満足度の評価は、主に、ユーザによる一回の要求の意図及び端末による応答の内容を評価処理データとして、幾つかのテキスト処理技術によって意図及び内容の関連性の演算を行って、当該応答に応じたユーザの満足度を標識する。
ただし、端末から返信された内容とユーザ意図との関連性だけでユーザの満足度を取得するのは、ユーザからの音声対話に対するリアルで全面的な評価を取得できないため、従来の評価手段により音声対話の満足度を評価し難い。
本発明の実施形態は、音声対話に対してリアルで全面的な評価を提供可能な音声対話の満足度の確定方法及び装置を提供する。
第一の側面として、本発明の実施形態は、音声対話の満足度の確定方法であって、音声対話の客観データと音声対話の主観データとが含まれる音声対話特徴を取得するステップであって、前記音声対話の客観データと音声対話の主観データは、同一の主題に対するデータである、ステップと、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得するステップと、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップと、を含む音声対話の満足度の確定方法を提供する。
可能的な設計において、前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれ、前記音声対話の主観データには、応答内容の再生が中断された後のユーザによる音声入力に対応するテキスト情報が含まれる。
可能的な設計において、前記客観データに対して評価処理を行って客観評価を取得するステップは、前記ユーザ意図と前記応答内容との意図マッチ度に基づいて、第一客観評価を取得するステップと、前記応答遅延と標準遅延に基づいて、第二客観評価を取得するステップと、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて、第三客観評価を取得するステップと、を含み、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップは、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップを含む。
可能的な設計において、前記主観データに対して評価処理を行って主観評価を取得するステップは、前記テキスト情報に対して語義解析を行って、前記テキスト情報に対応する、感情属性又は主題属性である内容属性を取得するステップと、前記テキスト情報に対応する内容属性に基づいて主観評価を取得するステップと、を含む。
可能的な設計において、前記内容属性が主題属性であれば、前記テキスト情報に対応する内容属性に基づいて主観評価を取得するステップは、前記テキスト情報に対応する主題タイプを取得するステップと、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定するステップと、を含む。
可能的な設計において、前記内容属性が感情属性であれば、前記テキスト情報に対応する内容属性に基づいて主観評価を取得するステップは、前記テキスト情報における感情キーワードを抽出するステップと、前記感情キーワードと気分タイプとの対応関係に基づいて、積極的な気分と、消極的な気分と、中性的な気分とからなる群のうちいずれかの気分タイプを取得するステップと、前記気分タイプと所定の評価との対応関係に基づいて主観評価を取得するステップと、を含む。
可能的な設計において、音声対話特徴を取得するステップは、直前の時間帯における第二ログデータ及び直後の時間帯における第三ログデータとの時間間隔が所定の閾値よりも大きい第一ログデータを取得するステップと、前記第一ログデータから、ユーザによる二回の隣接する音声入力のそれぞれに対応する主題を取得するステップと、二回の隣接する音声入力のそれぞれに対応する主題に基づいて、前記音声対話特徴を取得するステップと、を含む。
可能的な設計において、前記方法は、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するステップの前に、更に客観的なサンプルデータに対して評価処理を行って得られた第一サンプル評価と、主観的なサンプルデータに対して評価処理を行って得られた第二サンプル評価と、ユーザから入力された満足度とが含まれるトレーニングサンプルセットを取得するステップであって、前記客観的なサンプルデータと前記主観的なサンプルデータは、同一の主題に対するデータである、ステップと、前記トレーニングサンプルセットに基づいて、イテレーショントレーニングにより前記満足度評価モデルを取得するステップと、を含む。
第二の側面として、本発明の実施形態は、音声対話の満足度の確定装置であって、音声対話の客観データと音声対話の主観データとが含まれる音声対話特徴を取得する取得モジュールであって、前記声対話の客観データと音声対話の主観データは、同一の主題に対するデータである、取得モジュールと、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得する処理モジュールと、前記客観評価と前記主観評価とを満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する確定モジュールと、を備える音声対話の満足度の確定装置を提供する。
可能的な設計において、前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間とが含まれ、前記音声対話の主観データには、応答内容の再生が中断された後のユーザによる音声入力に対応するテキスト情報、或いは応答内容の再生が終了された後のユーザにより入力されたテキスト情報が含まれる。
可能的な設計において、前記処理モジュールは、具体的に、前記ユーザ意図と前記応答内容との意図のマッチ度に基づいて、第一客観評価を取得し、前記応答遅延と標準遅延に基づいて、第二客観評価を取得し、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて、第三客観評価を取得するように構成され、前記確定モジュールは、具体的に、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得するように構成されている。
可能的な設計において、前記処理モジュールは、具体的に、前記テキスト情報に対して語義解析を行って前記テキスト情報に対応する、感情属性又は主題属性である内容属性を取得し、前記テキスト情報に対応する内容属性に基づいて主観評価を取得するように構成されている。
可能的な設計において、前記内容属性が主題属性である場合に、前記処理モジュールは、具体的に、前記テキスト情報に対応する主題タイプを取得し、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定するように構成されている。
可能的な設計において、前記内容属性が感情属性である場合に、前記処理モジュールは、具体的に、前記テキスト情報における感情キーワードを抽出し、前記感情キーワードと気分タイプとの対応関係に基づいて、積極的な気分と、消極的な気分と、中性的な気分とからなる群のうちいずれかの気分タイプを取得し、前記気分タイプと所定の評価との対応関係に基づいて主観評価を取得するように構成されている。
可能的な設計において、前記取得モジュールは、具体的に、直前の時間帯における第二ログデータ及び直後の時間帯における第三ログデータとの時間間隔が所定の閾値よりも大きい第一ログデータを取得し、前記第一ログデータから、ユーザによる二回の隣接する音声入力のそれぞれに対応する主題を取得し、二回の隣接する音声入力のそれぞれに対応する主題に基づいて、前記音声対話特徴を取得するように構成されている。
可能的な設計において、前記装置は、トレーニングモジュールを更に備え、当該トレーニングモジュールは、前記客観評価と前記主観評価とを満足度評価モデルの入力として前記満足度評価モデルから出力される音声対話の満足度を取得する前に、客観的なサンプルデータに対して評価処理を行って得られた第一サンプル評価と、主観的なサンプルデータに対して評価処理を行って得られた第二サンプル評価と、ユーザから入力された満足度とが含まれるトレーニングサンプルセットを取得し、前記客観的なサンプルデータと前記主観的なサンプルデータとは同一の主題に対するデータであり、前記トレーニングサンプルセットに基づいて、イテレーショントレーニングにより前記満足度評価モデルを得るように構成されている。
第三の側面として、本発明の実施形態は、音声対話の満足度の確定装置であって、少なくとも一つのプロセッサとメモリとを備え、前記メモリにコンピュータにより実行可能な指令が記憶されており、前記少なくとも一つのプロセッサは、前記メモリに記憶されているコンピュータにより実行可能な指令を実行することにより、前記少なくとも一つのプロセッサに第一の側面又は第一の側面の各種の可能的な設計に記載の音声対話の満足度の確定方法を実行させる音声対話の満足度の確定装置を提供する。
第四の側面として、本発明の実施形態は、コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータに実行可能な指令が記憶されており、前記コンピュータに実行可能な指令がプロセッサにより実行されると、第一の側面又は第一の側面の各種の可能的な設計に記載の音声対話の満足度の確定方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
本発明の実施形態により提供される音声対話の満足度の確定方法及び装置は、同一の主題に対するデータである、音声対話の客観データと音声対話の主観データが含まれる音声対話特徴を取得することで,同一の主題の主観データと客観データを取得することにより、満足度の評価用のデータをリアルで全面的に取得し、評価のデータのリアル性及び全面性を確保することができるため、満足度がより全面的であり、ユーザのリアルな評価により近くなる。客観データに対して評価処理を行って客観評価を取得し、主観データに対して評価処理を行って主観評価を取得し、客観評価と主観評価を満足度評価モデルの入力として、満足度評価モデルから出力される音声対話の満足度を取得することで、満足度評価モデルの手段により満足度を取得することにより、満足度を迅速で正確に取得できるため、当該方法が音声対話量の多い場合に適用できることになる。
本発明の実施形態又は従来技術における技術案をより明確に説明するために、以下に実施例又は従来技術に対する説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本発明の幾つかの実施例であり、当業者にとって創造的な労働を付しない前提でこれら図面に基づいて他の図面を更に得られる。
本発明の実施例により提供される音声対話の満足度の確定システムのアーキテクチャの模式図である。
本発明の実施例により提供される満足度評価モデルの取得の模式図である。
本発明の実施例により提供される音声対話の満足度の確定方法の第一のフローチャートである。
本発明の実施例により提供されるログデータの模式図である。
本発明の実施例により提供される音声対話の満足度の確定方法の第二のフローチャートである。
本発明の実施例により提供される主観評価の取得のフローチャートである。
本発明の実施例により提供される音声対話の満足度の確定装置の構成の模式図である。
本発明の実施例により提供される音声対話の満足度の確定装置のハードウェアの構成図である。
本発明の実施例の目的、技術案及び利点をより明確にするために、以下に本発明の実施例における図面と合わせて本発明の実施例における技術案を明瞭で完備的に説明する。説明される実施例は、全ての実施例ではなく、本発明の一部の実施例であるのは言うまでもない。当業者により本発明における実施例に基づいて創造的な労働を付しない前提で得られる全ての他の実施例も本発明の保護範囲に属される。
図1は、本発明の実施例により提供される音声対話の満足度の確定システムのアーキテクチャの模式図である。図1に示すように、本実施例により提供されるシステムには、端末101と、サーバ102とが備えられる。なお、端末101は、児童ストーリーマシン、携帯電話、タブレット、車載端末などであっても良い。本実施例では、端末101の実現手段に制限せず、当該端末101がユーザと音声対話を実行可能であれば良い。
音声対話(Speech Interaction)とは、音声認識、音声合成、自然言語解析などの技術により、複数種の実際の応用シーンにおいて、端末に「聞き取り可能、言出し可能、理解可能」という機能を与えるようなスマートヒューマンマシンインタラクションの体験であり、スマート問答、スマート再生、インテリジェント検索などのシーンを含む複数の応用シーンに適用される。
ユーザは、音声で端末101へ検索語句を入力する。当該端末101は、当該検索語句によりユーザ意図を取得し、当該意図に応じてローカルで又はサーバ102から、当該意図に対応する応答内容を取得して応答内容をユーザにフィードバックすることができる。例えば、料理の予約、チケットの予約、音楽や映画やある商品の検索などがある。
端末101がユーザへ各種の音声対話サービスを提供可能であるため、ユーザからの音声対話に対するリアルで全面的な評価を取得することが端末における音声対話の開発、アップグレードなどに対して重要である。
本発明の実施例は、音声対話の満足度の確定方法を提供する。当該方法は、音声対話に対してリアルで全面的な評価を提供することができる。当該音声対話の満足度の確定方法は、図1に示された端末101により実行可能である。端末101は、ログデータに基づいて満足度を確定し、その後にサーバ102に当該満足度をフィードバックし、サーバ102に当該満足度に基づいて更なる処理を実行させることができる。本実施例の音声対話の満足度の確定方法は、図2に示されたサーバ102により実行されても良い。端末101は、ログデータをサーバ102へ送信し、サーバ102に当該満足度を確定して更なる処理を実行させる。
本実施例では、当該音声対話の満足度の確定方法の実行主体に対して特別な制限がなく、端末101により実行されてもサーバ102により実行されても良い。本実施例において、端末101とサーバ102は、ログデータを取得した後に、何れも同じ方法を採用して音声対話の満足度を確定しても良い。
本実施例において、満足度を迅速に確定するため、満足度評価モデルにより満足度を確定する。本実施例において、まず図2と合わせて満足度評価モデルを如何に取得する過程を説明する。
図2は、本発明の実施例により提供される満足度評価モデルの取得の模式図である。本実施例において、客観データと主観データとを評価することにより満足度を取得する。これにより、満足度評価モデルを取得する時に、客観的なサンプルデータ及び主観的なサンプルデータを同時に考慮してユーザからの音声対話に対するリアルで全面的な評価を取得する。なお、当該満足度評価モデルは、端末により取得されても良く、サーバにより取得されても良く、サーバにより取得され或いはサーバにより満足度評価モデルが取得された後に当該満足度評価モデルをインストールパッケージで端末へ送信しても良い。
図2に示すように、まずトレーニングサンプルセットを取得する。当該トレーニングサンプルセットには、第一サンプル評価と、第二サンプル評価と、ユーザから入力される満足度とが含まれる。当業者であればわかるように、トレーニングサンプルセットのうち適量なデータ、即ち第一サンプル評価、第二サンプル評価及びユーザから入力される満足度に対してイテレーショントレーニングを行うことにより、満足度評価モデルを取得することができる。
なお、第一サンプル評価は客観的なサンプルデータに対して評価処理を行って得られるものであり、第二サンプル評価は主観的なサンプルデータに対して評価処理を行って得られるものである。本実施例において、当該客観的なサンプルデータと主観的なサンプルデータは、同一の主題に対するデータである。
当該客観的なサンプルデータは、ユーザの感情的なニュアンスを含まないデータ、例えば端末に関するデータである。当該主観的なサンプルデータは、ユーザの感情的なニュアンスを含むデータである。同一の主題に対するデータであれば、何れも取得して主観と客観を区分可能である。
具体的な例示において、ユーザの音声入力に応じてユーザ意図として「私は張三の新しい歌を聞きたい」を取得し、当該意図に応じて端末から返信された応答内容は「××歌」のオーディオファイルである。ユーザにより当該「××歌」について主観的なフィードバックを行う場合に、ユーザは当該オーディオファイルの再生を一旦に中止し、その後に音声で「この歌が私の欲しいものではない」を入力すると共に、端末により自己の満足度を入力する。この過程において、当該「××歌」の再生時間及び応答遅延を取得する。これにより、ユーザは「歌」の主題について端末と二回の対話を行った。
当該過程において、客観的なサンプルデータには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれても良い。客観評価は、これら客観的なサンプルデータについて所定のアルゴリズムにより客観評価を取得することができる。当該所定のアルゴリズムは、前記客観的なサンプルデータを含む関数などであっても良く、本実施例では当該所定のアルゴリズムに対して制限しない。
主観的なサンプルデータには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報が含まれる。当該テキスト情報に対して語義解析を行って主観評価を取得することができる。
当業者であればわかるように、当該客観評価と主観評価は具体的な評価値であっても良く、ユーザから入力される満足度も具体的な値であっても良い。これら値に対してイテレーショントレーニングを行うことにより、満足度評価モデルを取得することができる。
選択的に、異なる客観的なサンプルデータについて、それぞれ評価処理を行ってそれぞれの対応する評価値を取得することもできる。例えば、ユーザ意図と応答内容に応じて評価値x1を取得し、応答遅延に応じて評価値y1を取得し、応答内容の現在再生時間に応じて評価値z1を取得することができる。主観評価に対応する評価値はp1、ユーザから入力される満足度はn1である。
本実施例において、可能的な満足度評価モデルが与えられた。当該満足度評価モデルはAx+By+Cz+Dp=nであっても良い。各評価値を当該満足度評価モデルに代入してイテレーショントレーニングを行うことにより、A、B、C、Dを取得することができる。これにより、満足度評価モデルを取得可能である。評価値は取得された後に、直接に当該モデルに代入されると、最終的な満足度nを取得することができる。本実施例は、一種のモデルを例示して満足度評価モデルを如何に構築することを説明したが、他の形式のモデルは、主観評価と客観評価に対して満足度を提供可能であれば、何れも本実施例の保護範囲に入る。本実施例では、満足度評価モデルの具体的な実現手段について制限しない。
以下に詳細的な実施例を採用して、本発明の実施例において如何に満足度評価モデルにより満足度を取得するについて説明する。
図3は、本発明の実施例により提供される音声対話の満足度の確定方法の第一フローチャートである。当該方法の実行主体は、図1に示された端末又はサーバであっても良い。図3に示すように、当該方法は以下のステップを含む。
S301において、音声対話特徴を取得する。前記音声対話特徴には、音声対話の客観データと音声対話の主観データとが含まれる。なお、前記客観データと前記主観データは、同一の主題に対するデータである。
本実施例の音声対話特徴は、端末のログデータから取得可能である。具体的な実現手順において、端末はユーザから入力された音声を取得した後に、当該音声をテキスト情報に変換し、当該テキスト情報に基づいてユーザ意図を取得し、ユーザ意図に応じて応答内容を取得して応答内容をユーザにフィードバックする。ユーザは、当該応答内容に応じて主観的なフィードバックを行うことができる。
ユーザと端末の対話データについて、データ毎に対応する主題を取得した後に、同一の主題に対する主観データと客観データを取得することができる。具体的に、対話データに対して語義解析、内容解析、データ生成時の時系列解析などを行って同一の主題に対する主観データと客観データを生成することができる。本実施例では、同一の主題のデータを取得する実現手段に制限しない。
選択的に、具体的な例示において、音声の入力時間、テキスト情報及び応答内容の標識、属性など及び応答時間は、何れもログデータを形成することになる。当業者であればわかるように、ログデータにおいて、各ログについて時間を記録し、当該時間情報に基づいて第一ログデータを取得する。なお、第一ログデータは、ユーザと端末が連続的なインタラクションを行う一連のログデータである。
具体的な実現手順において、各ログ記録の間の時間間隔を取得し、二つの時間間隔が所定の閾値よりも大きい場合に、二つの時間間隔の間のログデータ、即ち第一ログデータを取得する。当該第一ログデータは、二つの時間間隔の間の全てのデータである。
当業者であればわかるように、第一ログデータと隣接する前の時間帯における第二ログデータ及び隣接する次の時間帯における第三ログデータとの時間間隔は所定の閾値よりも大きい。なお、第二ログデータ及び第三ログデータは、一つのログデータとして理解しても良く、第一ログデータと類似する、二つの時間間隔の間の全てのデータとして理解しても良い。図4は、本発明の実施例により提供されるログデータの模式図である。図4に示すように、時間軸において、中央部分は第一ログデータのうち各データの記録時間である。当業者であればわかるように、第一ログデータ、第二ログデータ及び第三ログデータは、Session(セッション)に従って区画されるデータに相当する。
第一ログデータが取得された後に、第一ログデータにおいて、ユーザによる二回の隣接する音声入力に対応するテキスト情報に基づいて、前記音声対話特徴を取得する。
当業者であればわかるように、音声対話を行う際に、ユーザと端末の音声対話手順は、音声入力−応答内容−語義入力−応答内容……である。これにより、音声入力と応答内容は繰り返して発生する。
なお、音声入力がテキスト情報に変換された後に、当該テキスト情報に対して語義解析を行うことができる。当該テキスト情報は、ユーザ意図であっても良く、ユーザのフィードバックであっても良い。本実施例において、隣接の二つのテキスト情報のそれぞれがユーザ意図とユーザのフィードバックである場合に、当該ユーザ意図、ユーザのフィードバック及び端末のフィードバックの応答内容の関連情報などを抽出して音声対話特徴を取得する。即ち、音声入力−応答内容−語義入力という手順において特徴情報を抽出する。当該手順はユーザ意図−応答内容−ユーザのフィードバックになる。なお、当該ユーザのフィードバックに他の主題に係わる内容がない場合に、当該ユーザのフィードバックは依然としてユーザ意図に対応する主題に該当し、即ち主題に変化がないと考える。なお、主観データはユーザのフィードバックであり、客観データはユーザ意図及び応答内容の関連情報などを含む。
当業者であればわかるように、一部の連続的な音声入力が二つの異なる主題に同時に係わると、当該音声入力を二つの部分の内容に区分することができる。例えば前部が一つの主題に係わり、後部が他の主題に係わると、前部を一つの主題に分けて音声対話特徴を抽出し、後部を他の主題に分けて音声特徴を抽出することができる。
S302において、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得する。
当業者であればわかるように、客観データと主観データは幾つかのデータである。これらデータは、形式が異なり、フォーマットが異なり、或いはタイプが異なる。データを統一することにより満足度評価モデルの入力を統一するために、客観データに対して評価処理を行って客観評価を取得し、主観データに対して評価処理を行って主観評価を取得することができる。
なお、客観評価と主観評価は何れも評価値である。当該評価値は、満足度の総計値に基づいて算出されても良く、異なるデータタイプに対して確定されても良い。選択的に、当該評価値は、−1〜1の値を取っても良い。
当業者であればわかるように、客観データの評価処理方式及び主観データの評価処理方式は、前記満足度評価モデルを確立する場合の評価処理方式と同じにすることにより、評価値と満足度評価モデルの合理性を確保した。
S303において、前記客観評価と前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する。
客観評価と主観評価を取得した後に、客観評価と主観評価を満足度評価モデルの入力として、満足度評価モデルにより演算や解析などを行う。満足度評価モデルの出力は音声対話の満足度になる。
本発明の実施例により提供された音声対話の満足度の確定方法は、同一の主題に対するデータである、音声対話の客観データと音声対話の主観データが含まれる音声対話特徴を取得することで、同一の主題の主観データと客観データを取得することにより、満足度の評価用のデータをリアルで全面的に取得し、評価のデータのリアル性及び全面性を確保することができるため、満足度がより全面的であり、ユーザのリアルな評価に一層に近くなる。客観データに対して評価処理を行って客観評価を取得し、主観データに対して評価処理を行って主観評価を取得し、客観評価と主観評価を満足度評価モデルの入力として満足度評価モデルから出力される音声対話の満足度を取得することで、満足度評価モデルの手段により満足度を取得することにより、満足度を快速的で正確に取得できるため、当該方法が音声対話量の多い場合に適用できることになる。
以下に具体的な実現方式を採用して、客観評価と主観評価を取得する実現方式を詳しく説明する。なお、本実施例において、音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。音声対話の主観データには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報が含まれる。
なお、ユーザ意図と応答内容との意図マッチ度が高く、応答遅延が短く、応答内容の現在再生時間が長いほど、ユーザの満足度が大きくなり、客観評価の値が大きくなると意味する。
当該テキスト情報の気分情報を取得する。ユーザの気分が良いほど、主観評価の値が大きくなる。
以下、図5及び図6と合わせて詳しく説明する。下記の客観評価と主観評価を取得する実現方式は、前記の図2に示されたモデル確立の実施例に適用しても良く、図3に示された満足度確定の実施例に適用しても良い。
図5は、本発明の実施例により提供される音声対話の満足度の確定方法の第二のフローチャートである。図5に示すように、当該方法は以下のことを含む。
S501において、音声対話特徴を取得する。前記音声対話特徴には、音声対話の客観データと音声対話の主観データが含まれる。前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。
具体的に、S501において音声対話特徴を取得する方式はS101において音声対話特徴を取得する方式と類似する。本実施例の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。
当該客観データには、ユーザ意図及び端末からの当該ユーザ意図に対する各種のフィードバックが含まれる。なお、意図(intent)は領域データに対する操作であり、一般的に動賓語句で命名され、例えば天気の問い合わせ、音楽の検索がある。端末からのユーザ意図に対するフィードバックには、応答内容、応答遅延、応答内容の現在再生時間が含まれる。
S502において、前記ユーザ意図と前記応答内容との意図マッチ度に基づいて、第一客観評価を取得する。
ユーザ意図に対して語義解析を行ってユーザ意図における領域の属性などの内容を取得し、応答内容の領域の属性などの内容を抽出する。領域の属性の類似度に基づいて意図マッチ度を確定する。なお、意図マッチ度の値は0%−100%であっても良い。当該意図マッチ度は第一客観評価に変換可能であり、それに応じて第一客観評価の値は0〜1である。例えば、ユーザ意図が張三のA歌、応答内容が張三のB歌、領域の属性が歌手名、歌名である場合に、類似度が50%、対応する第一客観評価が0.5である。
S503において、前記応答遅延と標準遅延に基づいて、第二客観評価を取得する。
当該標準遅延は、予め設定されたユーザの受入可能な遅延であっても良い。例えば、当該標準遅延が200ms、当該標準遅延に対応する第二客観評価が0である。応答遅延が標準遅延よりも大きい場合に、第二客観評価が0よりも小さく、応答遅延が標準遅延よりも小さい場合に、第二客観評価が0よりも大きい。
可能的な実現方式において、標準遅延に基づいて標準化処理を行って第二客観評価が−1〜1の間にあるようにすることができる。例えば、応答遅延が標準遅延よりも大きい場合に、応答遅延と標準遅延の差が標準遅延よりも大きければ、第二客観評価の値が1であり、当該差が標準遅延よりも小さければ、当該差と標準遅延の比にマイナスを取って第二客観評価を取得する。応答遅延が標準遅延よりも小さい場合に、標準遅延と応答遅延の差を取得し、当該差と標準遅延の比を第二客観評価とする。
S504において、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて、第三客観評価を取得する。
本実施例において、応答内容の現在再生時間が長いほど、ユーザの満足度が高くなると意味する。現在再生時間と標準再生時間の比を第三客観評価とすることができる。
S505において、前記主観データに対して評価処理を行って主観評価を取得する。
S506において、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する。
第一客観評価、第二客観評価、第三客観評価及び主観評価を満足度評価モデルの入力として、満足度評価モデルの処理により、満足度評価モデルから音声対話の満足度を直接に出力する。
当業者であればわかるように、満足度評価モデルを確立する時に、モデルの入力はサンプルデータに対応する第一客観評価、第二客観評価、第三客観評価、主観評価及びユーザから入力される満足度である。そしてイテレーショントレーニングを行って満足度評価モデルを取得する。
本発明の実施例は、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間について客観評価をそれぞれ取得することにより、客観評価に内容、遅延、再生時間などの各種の客観的な要素を総合してユーザの満足度を取得することができ、満足度が正確的で且つ全面的になる。
図6は、本発明の実施例により提供される主観評価を取得するフローチャートである。本実施例により提供される客観評価は、前記の何れか一つの実施例に適用可能である。当該客観評価に対応する音声対話の主観データには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報、又は、応答内容の再生が終了した後にユーザから入力されるテキスト情報、即ちユーザからの応答内容に対するフィードバックが含まれる。当該フィードバックは、直接的なフィードバックであっても良く、気分的なフィードバックなどであっても良い。図6に示すように、当該方法は以下のことを含む。
S601において、テキスト情報に対して語義解析を行って、前記テキスト情報に対応する内容属性を取得する。前記内容属性は感情属性又は主題属性である。
ユーザから応答内容に対して入力された音声フィードバックに対応するテキスト情報が取得された後に、当該テキスト情報に対して語義解析を行って、テキスト情報に対応する内容属性を取得する。本実施例において、内容属性を感情属性と主題属性に分ける。なお、感情属性はユーザが感情を伝える内容を指し、主題属性はユーザから現在の主題に対する更なる操作を指す。
具体的な実現過程において、語義解析によりテキスト情報におけるキーワードを抽出し、当該キーワードを感情バンク又は主題バンクにおける単語とマッチングして当該テキスト情報に対応する内容属性を判断することができる。
S602において、前記テキスト情報に対応する主題タイプを取得する。
S603において、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定する。
なお、S602−S603は、当該テキスト情報の内容属性が主題属性であることに対して設定されるものである。テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、ユーザが現在の主題についてフィードバックされた応答内容に満足できないと意味するため、入力内容を再び繰り返す。従って、当該主観評価は所定の評価値よりも低い。ユーザによる入力が繰り返した回数、及び入力される文字の長さに基づいて具体的な評価値を確定することができる。
S604において、前記テキスト情報における感情キーワードを抽出する。
S605において、前記感情キーワードと気分タイプとの対応関係に基づいて、いずれかの気分タイプを取得する。前記気分タイプには、積極的な気分、消極的な気分及び中性的な気分が含まれる。
S606において、前記気分タイプと所定の評価との対応関係に基づいて、主観評価を取得する。
なお、S604−S606は、内容属性が気分属性であることに対して設定されるものである。テキスト情報における感情キーワードを抽出可能である。本実施例において、気分データベースを予め設置することができる。気分データベースには、積極的な気分サブデータベース、消極的な気分サブデータベース、中性的な気分サブデータベースが含まれる。
当該感情キーワードを気分データベースにおける単語とマッチングする。当該感情キーワードが積極的な気分サブデータベースにマッチされた場合に、気分タイプが積極的な気分であり、対応する主観評価の値が1である。当該感情キーワードが消極的な気分サブデータベースにマッチされた場合に、気分タイプが消極的な気分であり、対応する主観評価の値が−1である。当該感情キーワードが中性的な気分サブデータベースにマッチされた場合に、気分タイプが中性的な気分であり、対応する主観評価の値が0である。
本発明の実施例は、ユーザの主観的なフィードバックに対して解析することにより、ユーザからの音声対話に対する主観的な満足度を取得することができる。本発明の実施例は、主観評価を確定する時に、ユーザの気分及びユーザからの同一の主題に対する繰り返した指示を解析することにより、ユーザの各種の操作に対して評価可能であり、ユーザの各種の表現をごまかせずに、ユーザの満足度をリアルでフィードバックすることができる。
前記の各実施例において、本発明の実施例は一つの主題についての対話に対して満足度の確定を行う過程を示した。具体的な実現過程において、複数の主題についての対話の満足度を連続的に取得することができる。各主題についての対話の満足度の確定方法は、何れも前記の実施例を参照可能である。以下に幾つかの具体的な実施例を提供して複数の主題についての対話に対して如何に満足度を取得するかを説明する。
一つの具体的な例示は、ユーザ意図1−応答内容1−ユーザ意図2−応答内容2−主観的なフィードバック+ユーザ意図3−応答内容3……である。上記の内容からわかるように、ユーザ意図1及び応答内容1について、ユーザはユーザのフィードバックを行わないため、客観評価を取得すれば良い。なお、客観評価の実現方式は前記の実施例を参照可能である。満足度評価モデルは、客観評価のみに関わっても良く、客観評価と主観評価の両方にも関わるが、主観評価の入力が0であっても良い。ユーザ意図2−応答内容2−主観的なフィードバックについて、前記の満足度の確定方法を採用して実現可能である。ユーザ意図3−応答内容3について、具体的な実現状況に基づいて満足度を確定可能である。
複数の満足度を取得した後に、端末又はサーバは、複数の満足度のデータに対して各種の解析を行って端末の製品性能を取得する。
当業者であればわかるように、前記の各主観評価又は客観評価に対応する評価値の値取り方式は、例示的な値取り方式であるが、他の値取り方式を採用しても良い。例えば、5点制、10点制及び100点制の違いにより値取り方式が異なり、本実施例では具体的な値取り方式に制限しない。
図7は、本発明の実施例により提供される音声対話の満足度の確定装置の構成模式図である。図7に示すように、当該装置70は、取得モジュール701と、処理モジュール702と、確定モジュール703とを備え、選択的に更にトレーニングモジュール704を備える。
取得モジュール701は、音声対話特徴を取得する。前記音声対話特徴には、音声対話の客観データと音声対話の主観データが含まれる。なお、前記客観データと前記主観データは、同一の主題に対するデータである。
処理モジュール702は、前記客観データに対して評価処理を行って客観評価を取得し、前記主観データに対して評価処理を行って主観評価を取得する。
確定モジュール703は、前記客観評価と前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力される音声対話の満足度を取得する。
選択的に、前記音声対話の客観データには、ユーザ意図と応答内容、応答遅延、及び応答内容の現在再生時間が含まれる。前記音声対話の主観データには、応答内容の再生が中断された後にユーザによる音声入力に対応するテキスト情報、又は応答内容の再生が終了した後にユーザから入力されたテキスト情報が含まれる。
選択的に、前記処理モジュール702は具体的に、前記ユーザ意図と前記応答内容との意図マッチ度に基づいて第一客観評価を取得し、前記応答遅延と標準遅延に基づいて第二客観評価を取得し、前記応答内容の現在再生時間と前記応答内容の標準再生時間に基づいて第三客観評価を取得する。
前記確定モジュール703は具体的に、前記第一客観評価、前記第二客観評価、前記第三客観評価及び前記主観評価を満足度評価モデルの入力として、前記満足度評価モデルから出力された音声対話の満足度を取得する。
選択的に、前記処理モジュール702は具体的に、前記テキスト情報に対して語義解析を行って前記テキスト情報に対応する、感情属性又は主題属性である内容属性を取得し、前記テキスト情報に対応する内容属性に基づいて主観評価を取得する。
選択的に、前記内容属性が主題属性であれば、前記処理モジュール702は具体的に、前記テキスト情報に対応する主題タイプを取得し、前記テキスト情報に対応する主題タイプがユーザ意図に対応する主題タイプと一致であれば、前記主観評価が所定の評価値よりも低いと確定する。
選択的に、前記内容属性が感情属性であれば、前記処理モジュール702は具体的に、前記テキスト情報における感情キーワードを抽出し、前記感情キーワードと気分タイプの対応関係に基づいて、積極的な気分、消極的な気分及び中性的な気分からなる群のうちいずれかの気分タイプを取得し、前記気分タイプと所定の評価の対応関係に基づいて主観評価を取得する。
選択的に、前記取得モジュール701は具体的に、直前(前の隣接する)の時間帯における第二ログデータ及び直後(後の隣接する)の時間帯における第三ログデータとの時間間隔が所定の閾値よりも大きい第一ログデータを取得し、前記第一ログデータからユーザによる二回の隣接する音声入力のそれぞれに対応する主題を取得し、二回の隣接する音声入力のそれぞれに対応する主題に基づいて前記音声対話特徴を取得する。
選択的に、前記客観評価と前記主観評価を満足度評価モデルの入力として前記満足度評価モデルから出力される音声対話の満足度を取得する前に、トレーニングモジュール704は、第一サンプル評価、第二サンプル評価及びユーザから入力される満足度が含まれるトレーニングサンプルセットを取得し、前記トレーニングサンプルセットに基づいて、イテレーショントレーニングにより前記満足度評価モデルを取得する。なお、前記第一サンプル評価は、客観的なサンプルデータに対して評価処理を行って得られ、前記第二サンプル評価は、主観的なサンプルデータに対して評価処理を行って得られる。前記客観的なサンプルデータと前記主観的なサンプルデータは、同一の主題に対するデータである。
本実施例により提供された音声対話の満足度の確定装置は、前記の方法の実施例を実行可能である。その実現方式と技術効果は類似であるため、本実施例では詳しく説明しない。
図8は、本発明の実施例により提供される音声対話の満足度の確定装置のハードウェア構成図である。図8に示すように、当該音声対話の満足度の確定装置80は少なくとも一つのプロセッサ801とメモリ802とを備える。前記メモリ802には、コンピュータ実行指令が記憶される。前記少なくとも一つのプロセッサ801は、前記メモリ802に記憶されているコンピュータ実行指令を実行して前記少なくとも一つのプロセッサ801に前記の音声対話の満足度の確定方法を実行させる。
プロセッサ801の具体的な実現過程は、前記の方法の実施例を参照可能である。その実現原理と技術効果は類似であるため、本実施例では詳しく説明しない。
当該確定装置80には、更に通信部品803が備えられる。なお、プロセッサ801、メモリ802及び通信部品803は、バス804により接続される。
前記の図7と図8の実施例において、当該音声対話の満足度の確定装置は、図1に示された端末又はサーバであっても良い。
本発明の実施例は更にコンピュータ読取可能な記憶媒体を提供した。前記コンピュータ読取可能な記憶媒体にコンピュータ実行指令が記憶される。前記コンピュータ実行指令がプロセッサにより実行されると、前記の音声対話の満足度の確定方法を実現させる。
理解すべきなのは、前記の実施例に開示された装置及び方法は、他の手段で実現されても良い。例えば、ここまで説明された装置の実施例は例示的なものに過ぎない。例えば、前記モジュールの分割は、ロジック機能による分割に過ぎず、実際的に実現される場合に他の分割手段を採用しても良い。例えば複数のモジュールは、他のシステムに組み合わせ、又は集積しても良く、幾つかの特徴を無視し、或いは実行しなくて良い。また、表示し又は論述された同士間の結合、直接的な結合又は通信接続は、幾つかのインターフェース、装置又はモジュールによる間接的な結合又は通信接続であっても良く、電気的、機械的又は他の手段によるものであっても良い。
前記で分離部品として説明されたモジュールは、物理的に分離しても、しなくても良く、モジュールとして表示された部品は、物理的なユニットであっても、でなくても良く。即ち、一つの箇所に位置しても良く、複数のネットワークユニットに配布されても良く。実際の必要に応じてその一部又は全部のモジュールを選択して本実施例の技術案の目的を実現することができる。
また、本発明の各実施例における各機能モジュールは、一つの処理ユニットに集積されても良く、各モジュールとして単独で物理的に存在しても良く、二つ又はそれ以上のモジュールが一つのユニットに集積されても良い。前記のモジュール化されたユニットは、ハードウェアの形式で実現されても良く、ハードウェアと共にソフトウェア機能ユニットを採用して実現されても良い。
前記のソフトウェア機能モジュールで実現された集積モジュールは、コンピュータ読取可能な記憶媒体に記憶されても良い。前記のソフトウェア機能モジュールは記憶媒体に記憶されており、コンピュータ装置(パソコン、サーバ、又はネットワーク装置などであっても良い)又はプロセッサ(processor)に本願の各実施例における前記方法の一部のステップを実行させるように複数の指令を含む。
理解すべきなのは、前記のプロセッサは、中央処理ユニット(Central Processing Unit、CPUと略称する)であっても良く、他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSPと略称する)、専用集積回路(Application Specific Integrated Circuit、ASICと略称する)などであっても良い。汎用プロセッサは、マイクロプロセッサであっても良く、当該プロセッサは、如何なる標準的なプロセッサなどであっても良い。発明と合わせて開示された方法のステップは、直接にハードウェアプロセッサにより実行して完成させても良く、プロセッサにおけるハードウェア及びソフトウェアモジュールにより組合わせて実行して完成させても良い。
メモリは、高速RAMメモリを含んでも良く、不揮発的な記憶NVM、例えば少なくとも一つの磁気ディスクメモリを更に含んでも良く、メモリカード、モバイルハードディスク、読取専用メモリ、磁気ディスク又は光ディスクなどであっても良い。
バスは工業標準アーキテクチャ(Industry Standard Architecture、ISA)バス、外部装置接続(Peripheral Component、PCI)バス、又は拡張工業標準アーキテクチャ(Extended Industry Standard Architecture、EISA)バスなどであっても良い。バスは、アドレスバス、データバス、コントロールバスなどに分けても良い。表現を便利にするために、本願の図面におけるバスは、一本に限定されず、一種のタイプに限定されない。
前記の記憶媒体は、任意のタイプの揮発的又は不揮発的な記憶装置或いはそれらの組み合わせで実現されても良く、例えばスタティックランダムアクセスメモリ(SRAM)、電気消去可能なプログラミング読取専用メモリ(EEPROM)、消去可能なプログラミング読取専用メモリ(EPROM)、プログラミング読取専用メモリ(PROM)、読取専用メモリ(ROM)、磁気メモリ、フラッショメモリ、磁気ディスク又は光ディスクであっても良い。記憶媒体は、汎用的又は専用的なコンピュータにアクセス可能な任意の使用可能な媒体であっても良い。
例示的な記憶媒体がプロセッサに結合されると、プロセッサが当該記憶媒体から情報を読取可能であり、且つ当該記憶媒体に情報を書込可能である。勿論、記憶媒体はプロセッサの構成の一部であっても良い。プロセッサと記憶媒体は、専用集積回路(Application Specific Integrated Circuits、ASICと略称する)に設置されても良い。勿論、プロセッサと記憶媒体は、分離部品として端末又はサーバに設置されても良い。
当業者であればわかるように、前記の各方法の実施例を実現する全て又は一部のステップは、プログラムにより関連のハードウェアを命令して完成させることができる。前記のプログラムは、コンピュータ読み取り可能な記憶媒体に記憶されても良い。当該プログラムは実行されると、前記の各方法の実施例を含むステップを実行する。前記の記憶媒体には、ROM、RAM、磁気ディスク又は光ディスクなどのようなプログラムコードを記憶可能な各種の媒体が含まれる。
最後に説明すべきなのは、前記の各実施例は、制限的なものではなく、本発明の技術案を説明するに過ぎない。当業者であればわかるように、前記の各実施例を参照して本発明を詳しく説明したが、依然として前記の各実施例に記載された技術案を補正し、或いはそのうち一部又は全ての技術特徴を等価に置換することができる。これら補正又は置換により、該当する技術案の本質が本発明の各実施例の技術案の範囲から逸脱することがない。