JP6968908B2

JP6968908B2 - コンテキスト取得方法及びコンテキスト取得デバイス

Info

Publication number: JP6968908B2
Application number: JP2019563817A
Authority: JP
Inventors: 陽梁; 昆劉; 爽爽喬; 湘粤林; 超韓; 名發朱; 江亮郭; 旭李; 俊劉; 碩李; 世明尹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-02
Filing date: 2019-05-16
Publication date: 2021-11-17
Anticipated expiration: 2039-05-16
Also published as: KR20200004826A; EP3617946B1; JP2020529033A; EP3617946A4; WO2020007129A1; CN108920639A; CN108920639B; EP3617946A1; US20210012777A1

Description

本願は、２０１８年０７月０２日に中国特許局に提案し、出願番号が２０１８１０７０９７９２．８、出願者が北京百度綱訊科技有限公司、発明名称が「音声対話に基づくコンテキスト取得方法及びデバイス」の中国特許出願の優先権を主張し、その全ての内容は引用によって本願に組み合わせられる。
本発明の実施例は音声対話技術に関し、特に音声対話に基づくコンテキスト取得方法及びコンテキスト取得デバイスに関する。

人工知能技術の開発に伴って、インテリジェントな音声対話製品の開発と使用が大きな注目を集めていた。インテリジェントな音声対話は、音声入力に基づく対話モードであり、ユーザーは自分のリクエストを音声で入力でき、当該製品は、リクエストの意図に従って相応のコンテンツに応答できる。

従来の技術において、ウェルカムロボット、警察ロボットなどのインテリジェントサービスロボットのアプリケーションシナリオでは、複数の人が同時にインテリジェントサービスロボットと対話するシナリオがある場合が多い。複数の人がロボットと対話するとき、対話のソースが認識されることができない場合、対話コンテキストを正確に取得することができないため、ユーザーに正確なサービスを提供できず、悪い対話体験をもたらす。現在は、同じユーザーの対話コンテンツに異なる主題がないと仮定し、且つ２人のユーザーの対話コンテンツの主題は重複がないという前提で、自然言語理解を通じて対話意味に従って身元を認識し、同じユーザーの対話コンテキストを取得するようにしている。

しかしながら、実際の使用では、自然言語理解に基づいた仮定は常に真実とは限らなく、音声対話コンテキストを取得するエラー率が高くなることを引き起こす。

本発明の実施例は音声対話コンテキストを取得するエラー率が高いという問題を克服するように、音声対話に基づくコンテキスト取得方法及びデバイスを提供する。

第１態様によれば、本発明の実施例は音声対話に基づくコンテキスト取得方法を提供し、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出するステップと、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると確定すると、前記顔データベースから前記第２顔の特徴に対応した第１ユーザーアイデンティティを取得し、前記第１顔の特徴は１人のユーザーの顔の特徴であり、前記第２顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるステップと、音声データベースに前記第１ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶するステップと、を含む。

一つの可能な設計においては、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在しないと確定すると、前記方法は、更に、前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーの第２ユーザーアイデンティティを生成するステップと、音声終了点を検出した時に、本回の会話と第２ユーザーアイデンティティとを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記第２ユーザーアイデンティティとを顔データベースに関連付けストレージするステップと、を含む。

本回の会話と第２ユーザーアイデンティティを音声データベースに関連付けストレージし、及びターゲットユーザーの顔の特徴と前記第２ユーザーアイデンティティを顔データベースに関連付けストレージすることによって、ユーザーが端末と再度音声対話する時に、顔データベースと音声データベースにおける内容に基づいて記憶された会話からコンテキストを取得することができるようにする。顔データベースと音声データベースを個別に設定することにより、顔データベースと音声データベースを個別に保存し、メンテナンスすることが簡便にできる。

一つの可能な設計においては、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定する前記ステップは、前記第１ユーザーアイデンティティに従って前記音声データベースから前記第１ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定することを含む。

当該時間間隔がプリセット間隔より小さい場合、前の会話と本回の会話はコンテキスト会話である可能性が高いことを意味し、当該時間間隔がプリセット間隔より大きい又は等しい場合、当該会話はユーザーのある主題に対する前の会話であることを意味し、本回のコンテキスト会話と見なすことができない。前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいか否かを判断することによって、本回の会話のコンテキストをより正確に判断することができ、コンテキストを取得する正確性を向上させる。

一つの可能な設計においては、前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいのを確定すると、前記方法は、更に、前記音声データベースから関連付けストレージされた前記第１ユーザーアイデンティティと対応した記憶された会話を削除するステップを含む。

当該時間間隔がプリセット間隔より大きい又は等しい場合、当該会話はユーザーのある主題に対する前の会話であることを意味し、本回のコンテキスト会話と見なすことができない。これにより、音声データベースから関連付けストレージされた第１ユーザーアイデンティティと対応した記憶された会話を削除することにより、音声データベース内のデータを新しいデータに保持することができる。

一つの可能な設計においては、前記方法は、更に、前記顔データベースにおける予め設定された期間内でマッチされない第３ユーザーアイデンティティ及び対応した顔の特徴を削除するステップを含む。

当該削除方法によって、関連付けストレージされたユーザーアイデンティティと顔の特徴を一括削除することができるので、削除効率を向上させ、顔データベースにおけるデータを新しいデータに保持することができ、顔データベースの冗長性を避けることができる。

一つの可能な設計においては、前記シーン画像における各ユーザーの顔の特徴を抽出する前記ステップは、前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することを含む。

顔の特徴モデルによってユーザーの顔の特徴を取得するのは、処理速度が速いだけでなく、且つ精度も高い。

一つの可能な設計においては、前記複数の顔写真を予め設定された顔の特徴モデルに順次に入力する前記ステップの前に、前記方法は、顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルを含むステップと、前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むステップと、前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得するステップと、を含む。

上記のモデルトレーニングプロセスによって、初期の顔の特徴モデルを取得し、当該初期の顔の特徴モデルにおける分類レイヤーを削除して、予め設定された顔の特徴モデルを取得する。分類レイヤーを削除したため、予め設定された顔の特徴モデルを使用する場合、シーン画像からカットアウトして顔写真を取得すると、顔写真が顔の特徴モデルに入力され、顔の特徴モデルが分類結果を出力する代わりに、顔の特徴を直接出力することができる。

一つの可能な設計においては、前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含む。

このような畳み込み、プーリング操作を有するディープニューラルネットワークモデルを使用することにより、画像の歪み、ぼかし、ノイズ等に対して高い堅牢性を有することができ、分類タスクに対して高い一般化可能性を有するようにできる。

第２態様によれば、本発明の実施例は音声対話に基づくコンテキスト取得デバイスを提供し、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出するための抽出モジュール、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると確定すると、前記顔データベースから前記第２顔の特徴に対応した第１ユーザーアイデンティティを取得することに用いられ、前記第１顔の特徴は１人のユーザーの顔の特徴であり、前記第２顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるマッチモジュール、及び音声データベースに前記第１ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶するための取得モジュール、を備える。

一つの可能な設計においては、前記マッチモジュールは更に、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在しないと確定すると、前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーの第２ユーザーアイデンティティを生成すること、及び音声終了点を検出した時に、本回の会話と第２ユーザーアイデンティティとを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記第２ユーザーアイデンティティとを顔データベースに関連付けストレージすることに用いられる。

一つの可能な設計においては、前記取得モジュールは具体的に、前記第１ユーザーアイデンティティに従って前記音声データベースから前記第１ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定することに用いられる。

一つの可能な設計においては、前記取得モジュールは更に、前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記音声データベースから関連付けストレージされた前記第１ユーザーアイデンティティと対応した記憶された会話を削除することに用いられる。

一つの可能な設計においては、前記マッチモジュールは更に、前記顔データベースにおける予め設定された期間内でマッチされない第３ユーザーアイデンティティ及び対応した顔の特徴を削除することに用いられる。

一つの可能な設計においては、前記抽出モジュールは具体的に、前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することに用いられる。

一つの可能な設計においては、モデリングモジュールを更に備え、前記モデリングモジュールは、前記複数の顔写真を予め設定された顔の特徴モデルに順次に入力する前に、顔トレーニングサンプルを取得して、前記顔トレーニングサンプルは顔写真とラベルを含むこと、前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むこと、及び前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得することに用いられる。

第３態様によれば、本発明の実施例は音声対話に基づくコンテキスト取得デバイスを提供し、少なくとも１つのプロセッサとメモリを含み、前記メモリはコンピューター実行命令を記憶し、前記少なくとも１つのプロセッサは前記メモリに記憶されたコンピューター実行命令を実行して、前記少なくとも１つのプロセッサに上記第１態様又は第１態様の様々な可能な設計に記載の音声対話に基づくコンテキスト取得方法を実行させる。

第４態様によれば、本発明の実施例はコンピューター読み取り可能な記憶媒体を提供し、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、プロセッサは前記コンピューター実行命令を実行する際に、上記の第１態様又は第１態様の様々な可能な設計に記載の音声対話に基づくコンテキスト取得方法を実現する。

本実施例による音声対話に基づくコンテキスト取得方法及びコンテキスト取得デバイスは、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出し、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると確定すると、顔データベースから第２顔の特徴に対応した第１ユーザーアイデンティティを取得する。第１顔の特徴は１人のユーザーの顔の特徴であり、第２顔の特徴は顔データベースに記憶された会話状態にあるユーザーの顔の特徴であり、顔認識によってユーザーを正確に身元認識することを実現する。音声データベースに第１ユーザーアイデンティティに対応した記憶された会話が記憶されていると確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶し、ユーザーアイデンティティによって本回の会話と同じユーザーに属する記憶された会話を取得することができ、同じユーザーの会話に従って音声対話のコンテキストを取得し、異なるユーザーの会話をコンテキストとすることを避けて、コンテキストを取得する正確性を向上させる。

本発明の実施例又は従来技術の技術的解決手段をより明確に説明するために、以下、実施例又は従来技術の説明で用いられる図面について簡単に説明する。明らかに、以下の説明における図面は、本発明のいくつかの実施例であり、当業者であれば、これらの図面に基づいて創造的な労働をせずに、これらの図面から他の図面を得ることができる。

本発明の実施例による音声対話に基づくコンテキスト取得方法のシステムアーキテクチャ図である。本発明の実施例による音声対話に基づくコンテキスト取得方法のフローチャート１である。本発明の実施例による音声対話に基づくコンテキスト取得方法のフローチャート２である。本発明の実施例による顔の特徴モデルの構造模式図である。本発明の実施例による音声対話に基づくコンテキスト取得デバイスの構造模式図である。本発明の実施例による音声対話に基づくコンテキスト取得デバイスのハードウェア構造模式図である。

本発明の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本発明の実施例における添付の図面を参照しながら、本発明の実施例における技術的解決手段を明確かつ完全に説明する。記載された実施例は本発明の実施例の一部にすぎず、実施例の全てではないことは明らかである。本発明の実施例に基づき、創造的な労働をせずに、当業者が取得した他の全ての実施例は、いずれも本発明の保護範囲に属する。

図１は本発明の実施例による音声対話に基づくコンテキスト取得方法のシステムアーキテクチャ図である。図１に示すように、当該システムは端末１１０とサーバー１２０を備える。端末１１０はストーリーマシン、携帯電話、タブレット、カーターミナル、ウェルカムロボット、警察ロボット等の音声対話機能を有するデバイスであってよい。

本実施例は端末１１０の実現モードを特に制限せず、端末１１０がユーザーと音声対話できればよい。本実施例において、端末１１０は画像キャプチャ装置を更に備え、画像キャプチャ装置が端末１１０と会話するユーザーの画像をキャプチャすることができる。画像キャプチャ装置はカメラ、ビデオカメラ等であってよい。サーバー１２０は各種のオンラインサービスを提供することができ、ユーザーの質問と回答に対して質問に対応した回答結果を提供することができる。

複数のユーザーが端末１１０と会話する過程に対して、本発明の実施例は同様に適用する。本実施例に関した複数のユーザーが端末１１０と会話する過程は、ユーザーＡが端末１１０と会話する場合に、ユーザーＡが端末１１０と会話する間に、ユーザーＢが更に入って端末１１０と会話し、この時、ユーザーＡとユーザーＢが端末１１０と交互に会話し、これにより、複数人の会話シーンを形成する。

本発明の実施例は声紋に基づいてユーザーを身元認識し、ユーザーのコンテキストを取得することができる。例えばユーザーＡとユーザーＢが同時に端末と対話する過程において、ユーザーＡのコンテキスト及びユーザーＢのコンテキストを取得することができ、それによりコンテキストを取得するエラー率を低下させる。同じユーザーの音声対話のコンテキストを取得した後に、コンテキストを組み合わせてユーザーに質問に対する回答結果をフィードバックし、ユーザー体験を向上させる。

本発明の実施例の実行主体は上記のサーバーであってよく、端末はユーザーが入力した会話を取得した後に、サーバーに会話を送信し、サーバーにより会話の質問に対する回答結果を戻す。当業者は、端末の機能が十分に強い場合、端末が会話を取得した後に、質問に対する回答結果を自己フィードバックしてもよいことを理解することができる。以下、サーバーを実行主体として、本発明の実施例による音声対話に基づくコンテキスト取得方法を詳細に説明する。

図２は本発明の実施例による音声対話に基づくコンテキスト取得方法を示すフローチャート１である。図２に示すように、当該方法は、次のステップを含む。ステップＳ２０１では、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出する。

人間とコンピューターの相互作用技術の開発により、音声認識技術はその重要性を示している。音声認識システムにおいて、音声エンドポイント検出技術は非常に重要な技術であり、一般的に、音声アクティビティ検出技術（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ、ＶＡＤ）とも呼ばれる。音声エンドポイント検出とは連続音声信号内から音声部分の音声開始点と音声終了点を見つけることを指す。音声アクティビティ検出技術の具体的な実現モードについては、本実施例はここで制限しない。音声アクティビティ検出技術の実行者は上記の端末であってもよいし、端末がサーバーにリアルタイムに音声を送信して、サーバーにより実行してもよい。

本実施例における本回の会話と記憶された会話とはユーザーが端末に入力した１本の連続音声、すなわち一文を指す。会話すると記載した場合に、「会話」は実行する動作と理解されることができる。本実施例の「会話」はあるシーンにおいて名詞と示されてもよい。「会話」の品詞については、言語記述シーンに応じて判断することができる。

本回の会話の音声開始点を検出した際に、画像キャプチャ装置が音声開始点にキャプチャしたシーン画像を取得する。すなわち端末と音声対話して端末に話すユーザがいると確定する場合に、現在のシーンでキャプチャしたシーン画像を取得する。端末に複数の人が向かっており、会話が存在した場合、現在のシーン画像には端末のマイクに直面して、且つ口の様子が話し様子であるユーザーが存在し、同時に端末のマイクに対して横向き又はその他の向きを持つユーザーが存在する可能性もある。

シーン画像を取得した後に、シーン画像における各ユーザーの顔の特徴を抽出し、例えば顔の特徴モデルによって顔の特徴を抽出することができる。

抽出過程において、各ユーザーを単位として、ユーザーについて顔の特徴を抽出する。具体的には、シーン画像をカットアウト処理して、各顔の顔写真を取得し、複数の顔写真を予め設定された顔の特徴モデルに順次に入力して、顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得する。

顔の特徴は多次元特徴、例えば多次元ベクトルであってよく、各次元のベクトルは１つの特徴、例えば眉毛の特徴、目の特徴、鼻の特徴等を示し、本実施例はここで繰り返して説明しない。

本実施例において、端末は各サーバーの負荷に応じて、サーバーをスケジュールしてもよく、すなわち負荷が軽いサーバーにより本実施例のステップを実行する。

ステップＳ２０２では、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在するか否かを判断する。第１顔の特徴は１人のユーザーの顔の特徴であり、第２顔の特徴は顔データベースに記憶された会話状態にあるユーザーの顔の特徴であり、存在すると判断すると、ステップＳ２０３を実行し、存在しないと判断すると、ステップＳ２０７を実行する。ステップＳ２０３では、顔データベースから第２顔の特徴に対応した第１ユーザーアイデンティティを取得する。

各ユーザーの顔の特徴を取得した後に、各ユーザーの顔の特徴と顔データベースにおける顔の特徴とをマッチして、顔データベースにおける第２顔の特徴にマッチすることができる一人のユーザーの第１顔の特徴を有するか否かを判断する。

１人のユーザーがマイクに直面している場合、他のユーザーはマイクに直面することができないため、キャプチャされたシーン画像でマイクと会話しているユーザーは１人である。したがって、第２顔の特徴にマッチする一人のユーザーの第１顔の特徴が存在するか否かを判断することができることを、当業者は理解できる。本実施例におけるマッチは顔の特徴の類似性がデフォルト値より大きい前提で、類似性が最も高い２つの顔の特徴と理解されることができ、類似性は２つの顔の特徴のコサイン類似性であってよい。

顔データベースにおける会話状態（口を開けて話す状態）にある第２顔の特徴にマッチする一人のユーザーの顔の特徴が存在する場合、顔データベースから第２顔の特徴に対応した第１ユーザーアイデンティティを取得し、次に、ステップＳ２０４、ステップＳ２０５及びステップＳ２０６を順次に実行する。顔データベースに会話状態にある顔の特徴と対応したユーザーアイデンティティが関連付けストレージされる。

顔データベースにおける会話状態（口を開けて話す状態）にある第２顔の特徴にマッチする一人のユーザーの顔の特徴が存在しない場合、ステップＳ２０７とステップＳ２０８を順次に実行する。

ステップＳ２０４では、音声データベースに第１ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断する。記憶されたと判断すると、ステップＳ２０５を実行し、記憶されていないと判断すると、ステップＳ２０６を実行する。ステップＳ２０５では、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶する。ステップＳ２０６では、本回の会話と第１ユーザーアイデンティティを音声データベースに関連付けストレージする。

顔データベースにおける会話状態（口を開けて話す状態）にある第２顔の特徴にマッチする一人のユーザーの顔の特徴が存在する場合、音声データベースに第１ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断する。音声データベースにユーザーアイデンティティに対応した会話が関連付けストレージされる。

音声データベースに第１ユーザーアイデンティティに対応した記憶された会話が存在すると、本回の会話は予め設定された期間内でユーザーが端末に入力した最初の音声ではないことを意味する。この時、本回の会話と記憶された会話に従って音声対話のコンテキストを確定、すなわち当該記憶された会話から本回の会話のコンテキストを確定する。このように、限られた会話から、自然言語理解を組み合わせて本回の会話に関連する記憶された会話を取得、すなわちコンテキストを取得することができる。本回の会話の音声終了点を取得した後、本回の会話を音声データベースに記憶し、且つ本回の会話と音声データベースにおける第１ユーザーアイデンティティとの関連関係を確立する。

音声データベースに第１ユーザーアイデンティティに対応した記憶された会話が記憶されていないと、本回の会話はユーザーが予め設定された期間内で端末に入力した最初の音声であるということを意味する。予め設定された期間は現在時点の前の予め設定された期間であり、例えば現在時点の前の３０分間である。この時点では、本回の会話はコンテキストを備えていないとみなして、本回の会話と第１ユーザーアイデンティティを音声データベースに関連付けストレージする。

選択可能な一実施態様として、本実施例においては、更に音声データベースと顔データベースを１つのデータベースに併合してもよく、すなわち１つのデータベースにユーザーアイデンティティ、対応した顔の特徴及びユーザー会話を関連付けストレージされていてもよい。選択可能な一実施態様として、更にデータベースに顔の特徴及び対応したユーザー会話を直接に関連付けストレージすることができる。

ここで、各ユーザーの顔の特徴及びデータベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると確定すると、データベースから第２顔の特徴に対応した記憶された会話を取得し、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶する。

本実施例においては、顔データベースと音声データベースとを個別に設定することにより、顔データベースと音声データベースとを個別に保存することができ、メンテナンスの簡便性を高めることができる。

ステップＳ２０７では、各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つターゲットユーザーの第２ユーザーアイデンティティを生成する。

ステップＳ２０８では、音声終了点を検出した場合に、ターゲットユーザーの顔の特徴と第２ユーザーアイデンティティを顔データベースに関連付けストレージして、且つ本回の会話と第２ユーザーアイデンティティを音声データベースに関連付けストレージする。

顔データベースにおける会話状態（口を開けて話す状態）にある第２顔の特徴にマッチする一人のユーザーの顔の特徴が存在しない場合、現在のユーザーはこの前に端末と音声対話したことがないことを意味する。このとき、各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、ターゲットユーザーの第２ユーザーアイデンティティを生成する。ユーザーアイデンティティは数字、文字等又はその組み合わせであってよい。また例えば、更にハッシュアルゴリズムによってターゲットユーザーのユーザーアイデンティティを生成してもよい。本実施例はユーザーアイデンティティの実現方法を特に制限しない。

音声終了点を検出した場合に、ターゲットユーザーの顔の特徴と第２ユーザーアイデンティティを顔データベースに関連付けストレージし、且つ本回の会話と第２ユーザーアイデンティティを音声データベースに関連付けストレージし、ユーザーが端末と再度音声対話するときに、顔データベースと音声データベースにおける内容に基づいて記憶された会話からコンテキストを取得することができるようにする。

本実施例による音声対話に基づくコンテキスト取得方法は、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出し、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると判断すると、顔データベースから第２顔の特徴に対応した第１ユーザーアイデンティティを取得する。第１顔の特徴は１人のユーザーの顔の特徴であり、第２顔の特徴は顔データベースに記憶された会話状態にあるユーザーの顔の特徴である。そして、顔認識によってユーザーを正確に身元認識することを実現し、音声データベースに第１ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶し、ユーザーアイデンティティによって本回の会話と同じユーザーに属する記憶された会話を取得することができ、同じユーザーの会話に従って音声対話のコンテキストを取得し、異なるユーザーの会話をコンテキストとすることを避けて、コンテキストを取得する正確性を向上させる。

以下、音声対話のコンテキストを確定する実現方法を説明する。図３は本発明の実施例による音声対話に基づくコンテキスト取得方法のフローチャート２である。図３に示すように、当該方法は以下のステップを含む。ステップＳ３０１では、第１ユーザーアイデンティティに従って音声データベースから第１ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点を取得する。ステップＳ３０２では、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいか否かを判断し、小さいと判断すると、ステップＳ３０３を実行し、小さくないと判断すると、ステップＳ３０４を実行する。ステップＳ３０３では、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、ステップＳ３０４では、音声データベースから関連付けストレージされた第１ユーザーアイデンティティと対応した記憶された会話を削除する。

具体的な実現過程においては、音声データベースにユーザーアイデンティティ及びユーザーアイデンティティに対応した各文が記憶され、すなわちユーザーアイデンティティとユーザーの少なくとも１つの会話を関連付けストレージする。各会話を記憶する際に、会話の音声開始点の時間と音声終了点の時間も対応させて記憶する。

ターゲットユーザーの顔の特徴に従って第１ユーザーアイデンティティを取得した後に、第１ユーザーアイデンティティに従って音声データベースから第１ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点を取得する。

次に、前の会話の音声終了点の発生時間と本回の会話の音声開始点の発生時間に従って、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔を取得する。

当該時間間隔がプリセット間隔より小さい場合、前の会話と本回の会話はコンテキスト会話である可能性が高いことを意味する。例えばプリセット間隔は１０分間、３０分間等であってよく、本実施例はプリセット間隔を制限しない。

当時間間隔がプリセット間隔より大きい又は等しい場合、会話はユーザーがある主題について行った前の会話であることを意味し、本回のコンテキスト会話と見なすことができない。それにより、音声データベースから関連付けストレージされた第１ユーザーアイデンティティと対応した記憶された会話を削除し、本回の会話はコンテキストが存在しないとして扱う。

選択可能な一実施態様として、音声データベースから関連付けストレージされた第１ユーザーアイデンティティと対応した記憶された会話を削除する場合に、顔データベースから関連付けストレージされた第１ユーザーアイデンティティと対応した顔の特徴を削除してもよい。

選択可能な一実施態様として、両方を非同期的に削除することもでき、顔データベースにおける予め設定された期間内でマッチされない第３ユーザーアイデンティティ及び対応した顔の特徴を削除することができる。当該削除方法によって、関連付けストレージされたユーザーアイデンティティと顔の特徴を一括削除することができ、削除効率を向上させる。

一人のユーザーの会話を取得する度に、上記の操作を行い、それにより音声データベースに記憶された各ユーザーの複数の会話は、すべて時間間隔がプリセット間隔より小さい会話であることを、当業者は理解できる。このため、ユーザーのすべての既存の会話と本回の会話とに基づいて本回の会話のコンテキストを取得する。例えば、ユーザーの本回の会話及び全ての記憶された会話を音声対話のコンテキストとしてもよいし、同じユーザーの会話に対して、自然言語理解に基づいて、全ての記憶された会話から本回の会話のコンテキストを取得してもよい。

本実施例においては、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいか否かを判断することによって、本回の会話のコンテキストをより正確に判断することができ、コンテキストを取得する正確性を向上させる。

上記の実施例において、本発明の実施例は顔の特徴モデルによって各ユーザーの顔の特徴を取得する。以下、詳細的な実施例によって顔の特徴モデルを構築する過程を説明する。

図４は本発明の実施例による顔の特徴モデルの構造模式図である。図４に示すように、顔の特徴モデルは深層畳み込みニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＤｅｅｐＣＮＮ）を採用することができる。当該モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含む。選択可能な一実施態様として、特徴レイヤーは畳み込み層、プーリング層、完全接続層を含む。特徴レイヤーに複数の交互の畳み込み層とプーリング層を有することができる。

具体的な実現過程においては、様々な使用シナリオに対して、顔の特徴モデルに基づいて、異なる深さ、異なる数のニューロン、異なる畳み込みプーリングモードで構成される深層ニューラルネットワークモデルを設計することができる。

モデルをトレーニングする際に、顔トレーニングサンプルを取得し、顔トレーニングサンプルは顔写真とラベルを含む。ラベルは予め較正された顔写真における各特徴の分類結果であり、ラベルは行列形式のベクトルであってよい。

顔写真を入力レイヤーから入力する。入力は実際に行列からなるベクトルである。次に、畳み込み層は重みが異なる畳み込みカーネルを用いて元の画像又は特徴マップ（ｆｅａｔｕｒｅｍａｐ）をスキャン畳み込みし、その中から様々な意味の特徴を抽出し、且つ特徴マップに出力する。プーリング層は連続的な畳み込み層の中間に挟まれ、データとパラメーターの量を圧縮して、オーバーフィットを減少し、すなわち特徴マップを次元削減して、特徴マップにおける主要な特徴を保つ。両層の間の全てのニューロンはウェイト接続を有し、一般的に、完全接続層は畳み込みニューラルネットワークの尾部にある。最後の特徴は分類レイヤーを通した後に結果を出力する。

モデルの出力とラベルとの間のエラー値が予め設定されたサービス要件を満たす閾値より小さくなると、トレーニングを停止する。このような畳み込み、プーリング操作を有するディープニューラルネットワークモデルを使用すると、画像の歪み、ぼかし、ノイズ等に対して高い堅牢性を有することができ、分類タスクに対して高い一般化可能性を有するものとできる。

上記のモデルトレーニング過程によって、初期の顔の特徴モデルを取得し、初期の顔の特徴モデルにおける分類レイヤーを削除して、予め設定された顔の特徴モデルが取得される。分類レイヤーを削除したため、予め設定された顔の特徴モデルを使用する場合、シーン画像からカットアウトして顔写真を取得すると、顔写真が顔の特徴モデルに入力され、顔の特徴モデルが分類結果を出力する代わりに、顔の特徴を直接出力することができる。

本実施例は深層畳み込みニューラルネットワークモデルを使用して顔の特徴を抽出し、身元認識を行うことによって、会話のソースを正確に区別し、一人一人の対話コンテキストを見つけることができるため、マルチプレイヤーシーンでの対話体験を向上させる。

図５は本発明の実施例による音声対話に基づくコンテキスト取得デバイスの構造模式図である。図５に示すように、音声対話に基づくコンテキスト取得デバイス５０は、抽出モジュール５０１、マッチモジュール５０２及び取得モジュール５０３を備える。選択可能な一実施態様においては、モデリングモジュール５０４を更に備える。

抽出モジュール５０１は、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出することに用いられ、マッチモジュール５０２は、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると確定すると、顔データベースから第２顔の特徴に対応した第１ユーザーアイデンティティを取得することに用いられ、第１顔の特徴は１人のユーザーの顔の特徴であり、第２顔の特徴は顔データベースに本回の会話状態にあるユーザーの顔の特徴であり、取得モジュール５０３は、音声データベースに第１ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶することに用いられる。

選択可能な一実施態様として、マッチモジュール５０２は更に、各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在しないと判断すると、各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つターゲットユーザーの第２ユーザーアイデンティティを生成すること、及び音声終了点を検出した時に、本回の会話と第２ユーザーアイデンティティを音声データベースに関連付けストレージし、及びターゲットユーザーの顔の特徴と第２ユーザーアイデンティティを顔データベースに関連付けストレージすることに用いられる。

選択可能な一実施態様として、取得モジュール５０３は具体的に、第１ユーザーアイデンティティに従って音声データベースから第１ユーザーアイデンティティに対応する前の会話の音声開始点と音声終了点を取得すること、及び前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定することに用いられる。

選択可能な一実施態様として、取得モジュール５０３は更に、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと判断すると、音声データベースから関連付けストレージされた第１ユーザーアイデンティティと対応した記憶された会話を削除することに用いられる。

選択可能な一実施態様として、マッチモジュール５０２は更に、顔データベースにおける予め設定された期間内でマッチされない第３ユーザーアイデンティティ及び対応した顔の特徴を削除することに用いられる。

選択可能な一実施態様として、抽出モジュール５０１は具体的に、シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び複数の顔写真を予め設定された顔の特徴モデルに順次に入力して、顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することに用いられる。

モデリングモジュール５０４は、複数の顔写真を予め設定された顔の特徴モデルに順次に入力する前に、顔トレーニングサンプルを取得して、顔トレーニングサンプルは顔写真とラベルを含むこと、顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むこと、及び初期の顔の特徴モデルにおける分類レイヤーを削除して、予め設定された顔の特徴モデルを取得することに用いられる。

選択可能な一実施態様として、顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含む。

本実施例による音声対話に基づくコンテキスト取得デバイスは、その実現原理と技術的効果が上記のコンテキスト取得方法の実施例と同様であるため、ここで繰り返して説明はしない。

図６は本発明の実施例による音声対話に基づくコンテキスト取得デバイスのハードウェア構造模式図である。図６に示すように、音声対話に基づくコンテキスト取得デバイス６０は、少なくとも１つのプロセッサ６０１とメモリ６０２を含む。選択可能な一実施態様として、音声対話のコンテキスト取得デバイス６０は通信部材６０３を更に含む。プロセッサ６０１、メモリ６０２及び通信部材６０３はバス６０４によって接続される。

具体的な実現過程において、少なくとも１つのプロセッサ６０１はメモリ６０２に記憶されたコンピューター実行命令を実行し、少なくとも１つのプロセッサ６０１に以上のような音声対話に基づくコンテキスト取得方法を実行させる。

通信部材６０３はその他のデバイスとデータ対話することができる。

プロセッサ６０１の具体的な実現過程は上記のコンテキスト取得方法の実施例を参照することができ、その実現原理と技術的効果は同様であるため、ここで繰り返して説明はしない。

なお、上記の図６に示すような実施例において、プロセッサは中央処理ユニット（英語、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵと略称）であってもよいし、その他の汎用プロセッサ、デジタル信号プロセッサ（英語、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、ＤＳＰと略称）、特定用途向け集積回路（英語、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣと略称）等であってもよい。汎用プロセッサはマイクロプロセッサであってもよいし、又はプロセッサは任意の従来のプロセッサ等であってもよい。発明に開示された方法を組み合わせたステップは、直接にハードウェアプロセッサにより実行して完成されるように体現されてもよいし、又はプロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによって実行して完成されるように体現されてもよい。

メモリは高速ＲＡＭメモリを含む可能性があり、不揮発性メモリＮＶＭ、例えば少なくとも１つの磁気ディスクメモリを含む可能性もある。

バスは業界標準アーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＩＳＡ）バス、周辺機器相互接続（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔ、ＰＣＩ）バス又は拡張業界標準アーキテクチャ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＥＩＳＡ）バス等であってよい。バスはアドレスバス、データバス、制御バス等に分けられることができる。本願の図面におけるバスは利便性を考慮して表示されているにすぎず、１本のバス又は１種のタイプのバスのみに制限されない。

本願はコンピューター読み取り可能な記憶媒体を更に提供し、コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、プロセッサがコンピューター実行命令を実行する際に、以上のような音声対話に基づくコンテキスト取得方法を実現する。

上記のコンピューター読み取り可能な記憶媒体において、上記読み取り可能な記憶媒体が任意のタイプの揮発性および不揮発性記憶デバイス又はそれらの組み合わせによって実現されることができ、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、ディスク又はＣＤであってよい。読み取り可能な記憶媒体は汎用または特殊用途のコンピューターによってアクセスすることができる任意の利用可能な媒体とすることができる。

例示的な読み取り可能な記憶媒体はプロセッサにカップリングされ、それによりプロセッサが読み取り可能な記憶媒体から情報を読み取ることができ、且つ読み取り可能な記憶媒体へ情報を書き込むことができる。無論、読み取り可能な記憶媒体はプロセッサの構成部分としてもよい。プロセッサ及び読み取り可能な記憶媒体は特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣと略称）に位置させることができる。無論、プロセッサ及び読み取り可能な記憶媒体は分割部材としてデバイス内に存在してもよい。

ユニットの分割は、ロジック機能を分割しているだけであり、実際の実現時には別の分割方式もあり得る。例えば、複数のユニット又は組立部品を結合してもよいし、又は別のシステムに集積してもよいし、或いはいくつかの特徴は無視でき、又は実行しなくてもよい。一方で、表示又は検討した互いの間のカップリング、直接カップリング、又は通信接続は、いくつかのインターフェース、装置又はユニットによる間接カップリング又は通信接続であってよく、接続は電気的、機械的又はその他の様態の接続であってもよい。

上記の分離されたユニットとして説明したユニットは、物理的に分離していてもよいし、又は分離していなくてもよく、ユニットとして表示する部材は物理ユニットであってもよいし、又は物理ユニットではなくてもよい。すなわち１つの場所に位置してもよいし、複数のネットワークユニット内に分布してもよく、実際の需要に応じてその中の一部又は全部のユニットを選択して本実施例における各手段の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは１つの処理ユニットに集積されてもよいし、各ユニットはそれぞれ物理的に別々に存在してもよいし、２つ又は２つ以上のユニットが１つのユニットに集積されていてもよい。

上記機能はソフトウェア機能ユニットの様態で実現するとともに独立した製品として販売又は使用される場合、1つのコンピューター読み取り可能な記憶媒体に記憶することができる。このような理解に基づいて、本発明の実施例の技術的解決手段は、本質的に従来技術に貢献する部分であり、或いは技術的解決手段の一部分はソフトウェア製品の様態で表現することができる。コンピュータソフトウェア製品が１つの記憶媒体に記憶され、一台のコンピューター設備（パーソナルコンピュータ、サーバー、或いはネットワーク設備等である）が本発明の各実施例に記載の方法の全部又は一部を実行するための若干の指令を含む。前述の記憶媒体は、Ｕディスク、モバイルハードディスク、読み出し専用記憶装置（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、「ＲＯＭ」と略称）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、「ＲＡＭ」と略称）、ディスク或いはＣＤ等の様々なプログラムコードを記憶できる媒体を含む。

当業者は、上記の各方法の実施例の全部又は一部のステップの実現を、プログラム命令に関連するハードウェアによって完成することができる。前述のプログラムはコンピューター可読記憶媒体に記憶されることができる。プログラムが実行される際に、上記の各方法の実施例を含むステップを実行し、前述の記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク或いは光ディスク等の様々なプログラムコードを記憶できる媒体を含むことを理解することができる。

最終的に説明すべきなのは、以上の各実施例は、本発明の技術的解決手段を説明するためのものだけであり、本発明の範囲を制限するものではない。上記の各実施例を参照して本発明を詳しく説明したが、当業者は、依然として上記の各実施例に記載の技術的解決手段を修正し、又はその中の一部又は全部の技術的特徴を等価置換することができ、これらの修正又は置換は、対応した技術的解決手段の本質を本発明の各実施例の技術的解決手段の範囲から逸脱させるものではないことを理解すべきである。

Claims

端末に適用される音声対話に基づくコンテキスト取得方法であって、
画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出するステップと、
各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると確定すると、前記顔データベースから前記第２顔の特徴に対応したユーザーアイデンティティを取得し、前記第１顔の特徴は前記本回の会話のユーザーの顔の特徴であり、前記第２顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるステップと、
音声データベースに前記ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断し、前記音声データベースに前記ユーザーアイデンティティに対応した前記記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶するステップと、を含むことを特徴とする音声対話に基づくコンテキスト取得方法。
各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在しないと確定すると、前記方法は、
前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーのユーザーアイデンティティを生成するステップ、及び
音声終了点を検出した時に、前記本回の会話と前記ターゲットユーザーのユーザーアイデンティティを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記ターゲットユーザーのユーザーアイデンティティとを顔データベースに関連付けストレージするステップを更に含むことを特徴とする請求項１に記載のコンテキスト取得方法。
前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定する前記ステップは、
前記ユーザーアイデンティティに従って前記音声データベースから前記ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び
前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定することを含むことを特徴とする請求項１に記載のコンテキスト取得方法。
前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記方法は、
前記音声データベースから関連付けストレージされた前記ユーザーアイデンティティと対応した記憶された会話を削除するステップを更に含むことを特徴とする請求項３に記載のコンテキスト取得方法。
前記方法は、
前記顔データベースにおける予め設定された期間内でマッチされないユーザーアイデンティティ及び対応した顔の特徴を削除するステップを更に含むことを特徴とする請求項１に記載のコンテキスト取得方法。
前記シーン画像における各ユーザーの顔の特徴を抽出する前記ステップは、
前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び
複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することを含むことを特徴とする請求項１に記載のコンテキスト取得方法。
前記複数の顔領域を予め設定された顔の特徴モデルに順次に入力する前記ステップの前に、前記方法は、
顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルとを含むステップと、
前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むステップと、
前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得するステップと、を更に含むことを特徴とする請求項６に記載のコンテキスト取得方法。
前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含むことを特徴とする請求項７に記載のコンテキスト取得方法。
端末に適用される音声対話に基づくコンテキスト取得デバイスであって、
画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出することに用いられる抽出モジュールと、
各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在すると確定すると、前記顔データベースから前記第２顔の特徴に対応したユーザーアイデンティティを取得することに用いられ、前記第１顔の特徴は前記本回の会話のユーザーの顔の特徴であり、前記第２顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるマッチモジュールと、
音声データベースに前記ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断し、前記音声データベースに前記ユーザーアイデンティティに対応した前記記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶することに用いられる取得モジュール、とを含むことを特徴とする音声対話に基づくコンテキスト取得デバイス。
前記マッチモジュールは更に、
各ユーザーの顔の特徴及び顔データベースに従って、第１顔の特徴にマッチする第２顔の特徴が存在しないと確定すると、前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーのユーザーアイデンティティを生成すること、及び
音声終了点を検出した時に、前記本回の会話と前記ターゲットユーザーのユーザーアイデンティティを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記ターゲットユーザーのユーザーアイデンティティとを顔データベースに関連付けストレージすることに用いられることを特徴とする請求項９に記載のコンテキスト取得デバイス。
前記取得モジュールは具体的に、
前記ユーザーアイデンティティに従って前記音声データベースから前記ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び
前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定することに用いられることを特徴とする請求項９に記載のコンテキスト取得デバイス。
前記取得モジュールは更に、
前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記音声データベースから関連付けストレージされた前記ユーザーアイデンティティと対応した記憶された会話を削除することに用いられることを特徴とする請求項１１に記載のコンテキスト取得デバイス。
前記マッチモジュールは更に、
前記顔データベースにおける予め設定された期間内でマッチされないユーザーアイデンティティ及び対応した顔の特徴を削除することに用いられることを特徴とする請求項９に記載のコンテキスト取得デバイス。
前記抽出モジュールは具体的に、
前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び
複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することに用いられることを特徴とする請求項９に記載のコンテキスト取得デバイス。
モデリングモジュールを更に備え、
前記モデリングモジュールは、前記複数の顔領域を予め設定された顔の特徴モデルに順次に入力する前に、
顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルとを含むこと、
前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むこと、及び
前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得することに用いられることを特徴とする請求項１４に記載のコンテキスト取得デバイス。
前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含むことを特徴とする請求項１５に記載のコンテキスト取得デバイス。
音声対話に基づくコンテキスト取得デバイスであって、少なくとも１つのプロセッサとメモリを含み、
前記メモリはコンピュータープログラムを記憶し、
前記少なくとも１つのプロセッサは前記メモリに記憶された前記コンピュータープログラムを実行し、前記少なくとも１つのプロセッサに請求項１〜８のいずれか１項に記載の音声対話に基づくコンテキスト取得方法を実行させることを特徴とする音声対話に基づくコンテキスト取得デバイス。
コンピューター読み取り可能な記憶媒体であって、
前記コンピューター読み取り可能な記憶媒体にコンピュータープログラムが記憶され、プロセッサは前記コンピュータープログラムを実行する際に、請求項１〜８のいずれか１項に記載の音声対話に基づくコンテキスト取得方法を実現することを特徴とするコンピューター読み取り可能な記憶媒体。