JP2020531895A

JP2020531895A - 自然言語処理のためのネットワークベースの学習モデル

Info

Publication number: JP2020531895A
Application number: JP2020508313A
Authority: JP
Inventors: ヤング、スティーヴン
Original assignee: ソニー・インタラクティブエンタテインメントエルエルシー
Priority date: 2017-08-21
Filing date: 2018-07-12
Publication date: 2020-11-05
Anticipated expiration: 2038-07-12
Also published as: EP3673388A4; KR20200040766A; EP3673388A1; US11600266B2; US20210201898A1; CN111316280A; JP6987969B2; WO2019040197A1; KR102451925B1; US10885901B2; CN111316280B; US20190057686A1

Abstract

【解決手段】自然言語処理のためのネットワークベースの学習モデルのシステム及び方法が提供される。情報は、ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納し得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話は、格納されたユーザ相互作用情報に基づいて解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。【選択図】図１

Description

本技術は、自然言語処理に関し、より詳細には、ネットワーク（例えば、ゲームネットワーク）相互作用に基づく自然言語処理のための学習モデルに関する。

現在のコンテンツプラットフォームは、様々なコンテンツ及びそのようなコンテンツに関連するオプションへのアクセスを提供し得る。その結果、そのようなプラットフォームは、構成、設定、及び移動が複雑になり得る。音声コマンドを使用し得るが、そのような音声コマンドにも、従来のワークフローに対応する複合ワークフローまたは複雑なワークフローが必要になり得る。例えば、ゲームのプレーヤは、ユーザデバイス１２０を使用して、ネットワークサーバ１３０でホストされ得るゲームにアクセスし得る。ゲームは、ネットワーク内の他のプレーヤと共にプレイされ得る。例えば、プレーヤＡは、友人であるプレーヤＢ及びプレーヤＣとゲームをプレイすることを望み得る。従来のワークフローを使用して同じことを実行するには、プレーヤがゲームを選択し（例えば、プレーヤのリストをスクロールすることを含み得る）、プレーヤＢに招待状を送信するように指定し（例えば、プレーヤのリストをスクロールすることを含み得る）、プレーヤＣに招待状を送信するように指定する必要があり得る。各ステップを実行することを口頭で要求することは、必ずしも効率的ではない場合がある。したがって、音声コマンドの使用は、従来のワークフローより遅くないにしても、従来のワークフローと同等に遅くなる場合がある。

したがって、当技術分野では、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法が必要である。

本発明の実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法を含む。情報は、ネットワークコンテンツとのユーザ相互作用に関するメモリの格納情報であり得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話は、格納されたユーザ相互作用情報に基づいて解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。

様々な実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステムを含み得る。そのようなシステムは、ユーザ及びネットワークサーバによって行われた音声発話を取り込むマイクロフォンを含むエンドユーザデバイスを含み得る。そのようなネットワークサーバは、通信ネットワークを介して音声発話のデジタル録音を受信するネットワークインターフェイス、ネットワークコンテンツとのユーザ相互作用に関する情報を格納するメモリ、及び格納されたユーザ相互作用情報に基づいて音声発話を解釈し、音声発話の解釈に基づいてユーザの意図を識別し、選択されたワークフローに対応する予測を、識別された意図に基づいて予測するための命令を実行するプロセッサを含み得る。

追加の実施形態は、自然言語処理のためのネットワークベースの学習モデルの方法を含み得る。そのような方法は、ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納すること、ユーザによって行われた音声発話のデジタル録音を取り込むこと、格納されたユーザ相互作用情報に基づいて音声発話を解釈すること、音声発話の解釈に基づいてユーザの意図を識別すること、及び選択されたワークフローに対応する予測を、識別された意図に基づいて予測することを含み得る。

さらなる実施形態は、上述したような自然言語処理のためのネットワークベースの学習モデルの方法を実行するために、プロセッサによって実行可能なプログラムを具体化した非一時的コンピュータ可読記憶媒体を含む。

自然言語処理のためのネットワークベースの学習モデルのシステムが実装され得るネットワーク環境を示す。

自然言語処理のためのネットワークベースの学習モデルで使用し得る例示的なサーバを示す。

自然言語処理のためのネットワークベースの学習モデルの例示的な方法を示すフローチャートである。

使用され得る例示的な電子エンターテイメントシステムである。

本発明の実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法を含む。情報は、ネットワークコンテンツとのユーザ相互作用に関するメモリの格納情報であり得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話を構成する単語及び品詞は、自然言語処理モデルに基づいて識別され得る。そのような単語は、格納されたユーザ相互作用情報などの文脈情報に基づいてさらに解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。

コンテンツネットワークでは、一部のコンテンツ相互作用はさらに、ソーシャル要素を有し得る。例えば、ゲームは１つまたは複数のソーシャルコンタクトと共にプレイされ得る。そのようなゲームの過程で、他のプレーヤとの相互作用には、コンテンツに直接的または間接的に関連する「トラッシュトーク」及び他の会話が含まれ得る。

図１は、コンテンツのソーシャルベースの管理のためのシステムが実装され得るネットワーク環境１００を示す。ネットワーク環境１００は、１つまたは複数のクライアントデバイス１２０Ａ〜Ｃがネットワークサーバ１３０及びサードパーティシステム１４０と通信し得る通信ネットワーク１１０を含み得る。

通信ネットワーク１１０は、ローカルの専用ネットワーク（例えば、イントラネット）であり、及び／または代替的に、より大きな広域ネットワーク（例えば、クラウド）の一部であることが好ましい。通信ネットワーク１１０は、インターネットなどの広域ネットワーク（ＷＡＮ）に通信可能に結合されたローカルエリアネットワーク（ＬＡＮ）とすることができる。インターネットは、ネットワークサービスプロバイダを介して接続されたユーザ間でインターネットプロトコル（ＩＰ）データの送信及び交換を可能にする、相互接続されたコンピュータ及びサーバの広範なネットワークである。ネットワークサービスプロバイダの例には、公衆交換電話網、ケーブルサービスプロバイダ、デジタル加入者線（ＤＳＬ）サービスのプロバイダ、または衛星サービスプロバイダがある。通信ネットワーク１１０は、ネットワーク環境１００の様々な構成要素間の通信を可能にする。

ユーザは、限定されないが、通信ネットワーク１１０を介して通信できる汎用コンピュータ、携帯電話、スマートフォン、パーソナルデジタルアシスタント（ＰＤＡ）、ポータブルコンピューティングデバイス（例えば、ラップトップ、ネットブック、タブレット）、デスクトップコンピューティングデバイス、ハンドヘルドコンピューティングデバイス、タブレットデバイス、ゲームコンソール、スマートテレビ、または任意の他のタイプのコンピューティングデバイスを含むことができる、任意の数の異なる電子コンピューティングデバイス１２０Ａ〜Ｃを使用し得る。そのようなデバイス１２０Ａ〜Ｃは、限定されないが、ダウンロードされたサービスの場合に適切であり得るメモリカードまたはディスクドライブなどの他の記憶媒体からデータにアクセスするように構成されることが好ましい。そのようなデバイス１２０Ａ〜Ｃは、限定されないが、ネットワークインターフェイス及びメディアインターフェイス、非一時的コンピュータ可読記憶装置（メモリ）、及びメモリに格納され得る命令を実行するためのプロセッサなどの標準ハードウェアコンピューティング構成要素を含むことが好ましい。例示的なコンピューティングデバイス１２０は、図４に関してさらに図示及び説明される。いくつかの実施形態では、コンピューティングデバイス１２０は、ユーザ入力を取り込み得る周辺機器（例えば、音声スイッチヘッドセット上のマイクロフォン）及びソフトウェア（例えば、メッセージングアプリケーション）に関連付けられ得る。

ネットワークサーバ１３０は、ネットワークインターフェイス及びメディアインターフェイス、非一時的コンピュータ可読記憶装置（メモリ）、及び命令を実行するか、またはメモリに格納され得る情報にアクセスするためのプロセッサなどの標準的なハードウェアコンピューティング構成要素を含む、当技術分野で既知の任意のタイプのサーバまたは他のコンピューティングデバイスを含み得る。複数のサーバの機能は、単一のサーバに統合され得る。前述のサーバ（または統合サーバ）のいずれも、特定のクライアント側、キャッシュ、またはプロキシサーバの特性を持ち得る。これらの特性は、サーバの特定のネットワーク配置またはサーバの特定の構成に依存し得る。

ネットワークサーバ１３０は、ネットワーク環境１００内のユーザデバイス１２０に利用可能な様々なデジタルメディアコンテンツをホストし得る。（例えば、ユーザデバイス１２０の）各ユーザは、ユーザが自分のコンテンツのライブラリにアクセスすることを可能にするアカウントに関連付けられ得る。そのようなコンテンツは、他のコンテンツと同様に、ユーザによる相互作用を可能にする相互作用コンテンツであり得る。例えば、ゲームは複数のプレーヤによって同時にプレイされてもよいし、プレーヤ間の相互作用を含んでもよい。

サードパーティシステム１４０は、様々なリソースのいずれかをネットワークサーバ１３０に提供して、自然言語処理、解釈、及びユーザの意図の識別を支援し得る。そのようなリソースは、発話が関連する（例えば、ゲームのリクエストを処理する際の）特定の文脈に関する情報を提供し得る。

ネットワークサーバ１３０がコンテンツをホストするので、ネットワークサーバ１３０は、そのようなコンテンツを含む様々なユーザ相互作用を監視及び追跡し得る。そのような相互作用は、ネットワークコンテンツ、ならびにソーシャルコンタクトとの相互作用を含み得る。そのような相互作用は、行動、やり取りされるコミュニケーション、取られたアクション、発生するイベント、到達したマイルストーン（例えば、ポイント、レベル、トロフィ、実績など）、ならびにコンテンツ及び／またはソーシャルコンタクトに対する他の識別可能な反応を含み得る。さらに、コンテンツサーバ１３０は、ジャンル、開発者、プレイ要件（例えば、チームメンバの数、チームメンバの役割）などを含む、ユーザが相互作用するコンテンツタイトル（例えば、特定のゲーム）の詳細を追跡し得る。

カスタマイズされたワークフローの学習モデルは、ワークフローの予測的選択を可能にするために、ネットワーク内のユーザアクティビティ（例えば、コンテンツ及びソーシャル相互作用）に基づいて開発され得る。したがって、ネットワークサーバ１３０は、ネットワーク内のユーザ相互作用に関する情報を追跡し得る。そのような相互作用は、ネットワークコンテンツ、ならびにソーシャルコンタクトとの相互作用を含み得る。追跡された相互作用情報により、特定のコンテンツタイトル、特定のコンテンツタイトルのジャンル、特定のソーシャルサークル、及び相互作用が行われる他の文脈に特有であり得る動作及び傾向のパターンが明らかにされ得る。学習モデルは、経時的に開発され得て、サードパーティサービス１４０によって提供されるリソース及び情報に部分的に依存し得る。

さらに、ネットワークサーバ１３０は、ユーザが相互作用するソーシャルコンタクトに関する情報をさらに格納し得る。そのようなソーシャルコンタクトは、ネットワーク環境１００内のユーザでもあり、ユーザによってそのように指定され得る。いくつかの実施形態では、ユーザは、親密度、共有アクティビティのタイプ、共通のコンテンツのタイプ、共通の関心、定義されたチームまたは氏族（タイトルに固有であってもなくてもよい）、または任意のその他のカテゴリによって、ソーシャルコンタクトをさらに特徴付け得る。ソーシャルコンタクトはまた、対象者属性データ、コミュニティメンバシップ、ユーザのライブラリ内の各コンテンツタイトル、コンテンツタイトルが再生される頻度などを含む、そのコンタクトを特徴付けるために使用され得る様々な他のパラメータに関連付けられ得る。

ユーザデバイス１２０に関連付けられたマイクロフォンは、そのようなユーザ相互作用の過程の間で音声発話を取り込み得る。ネットワークサーバ１３０は、現在のユーザ相互作用、ならびに、いくつかの共通点を共有し得る過去のユーザ相互作用の文脈で音声発話のデジタル記録を分析し得る。そのような分析は、デジタル録音を復号化すること、音声発話をトランスクライブすること、キーワードまたは意図の他の指標を識別するために音声発話の単語を評価すること、１つまたは複数の可能な解釈を識別すること、及びユーザ相互作用情報の文脈に基づいて可能な解釈を絞り込むことを含み得る。各解釈はさらに、特定のワークフローを進めるための異なる意図に関連付けられ得る。次いで、ネットワークサーバ１３０は、音声発話の解釈に基づいて、ユーザが選択したいワークフローに関する予測を行い得る。

図２は、自然言語処理のためのネットワークベースの学習モデルで使用され得る例示的なサーバ２００を示す。サーバ２００は、ネットワークサーバ１３０に関して上述したように、様々な標準ハードウェアを含み得るが、自然言語処理のためのネットワークベースの学習モデルは、自動音声認識２１０、ボイストゥテキスト２２０、自然言語プロセッサ調整２３０、エージェントディスパッチャ２４０（条件アクションルール２５０Ａ及びアクションワークフロー２５０Ｂを含む）、学習モデル２６０、及び予測エンジン２７０など、より専門的な構成要素をさらに含み得る。

自動音声認識２１０は、ユーザ発話のデジタル録音などのデジタル音声録音の復号化を可能にする。そのような発話は、例えば、ｍｐ３ファイルとして取り込まれてもよいが、任意のデジタル音声形式（例えば、ストリーミング音声）を使用してもよい。ボイストゥテキスト２２０は、デジタル録音を分析し、話された単語を識別し、識別された単語に基づいてテキストを生成するための、当技術分野で既知の任意のトランスクリプションアプリケーションを含み得る。

自然言語プロセッサ調整２３０は、自然言語の表現を評価するために人工知能、フィルタ、分類器、機械学習技術などを利用できる任意のプロセッサを含み得る。そのような−学習モデル２６０に格納されている情報によって通知され得る−自然言語プロセッサ調整２３０により、ネットワークサーバ２００は、ユーザによって行われた音声発話の可能な解釈を絞り込み、その音声発話を行う際のユーザのより具体的な意図を識別できる。いくつかの実施形態では、自然言語プロセッサ２３０は、どの特定の意図がユーザによって話されているかを識別する際に、最近行われた相互作用、頻度、相手（例えば、ソーシャルコンタクト）、コンテンツまたはソーシャルコンテンツの特性、識別可能なパターン及び傾向などを含む、様々な要因を重み付けし得る。自然言語プロセッサ調整２３０はさらに、様々なサードパーティサービス１４０を利用して、ユーザによって話された単語の解釈及び異なる文脈での意図の識別を支援し得る。

エージェントディスパッチャ２４０は、そのようなサードパーティサービス１４０を管理し、特定のタスクまたはリクエストを支援するために、どのサードパーティサービス１４０を呼び出すかを具体的に識別し得る。エージェントディスパッチャ２４０はさらに、コンテンツ相互作用に関連して実行される特定の条件アクションルール２５０Ａ及び応答アクション２５０Ｂに関連付けられたワークフロー２５０を管理し得る。例えば、ゲームの文脈では、そのようなワークフロー２５０は、様々なゲーム関連のアクティビティ（例えば、ゲームプレイのためのチームの編成）に関連し得る。各ワークフロー２５０は、どのアクション２５０Ｂ（例えば、タスク及びステップ）がアクティビティに従事することに関与するかを識別するために使用される１つまたは複数の条件アクションルール２５０Ａを含み得る。しかし、各タスク及びステップには、ユーザからの特定の情報（例えば、入力）が必要になり得る。例えば、チームを編成するには、ユーザが１人または複数人のチームメンバを選択する必要があり得る。各ワークフローには、特定のユーザ向けにカスタマイズされた方法で１つまたは複数の機能及びサービスを呼び出すために使用されるプラグ可能なコードが含まれ得る。

図に示すように、様々な入力が（例えば、ユーザアクションを含む環境内の状態を検出するセンサ及びインターフェイスから）受信され、条件アクションルール２５０Ａの観点から評価され得る。そのような評価により、（例えば、アクション２５０Ｂからの）特定の応答アクションを実行すべきであるという発見がもたらされ得る。選択されたアクションに関する情報は、実行またはパフォーマンスのために、指定されたアクチュエータまたは他のアクタに提供され得る。

ユーザによる発話を解釈し、応答するワークフローを識別するための学習モデル２６０は、ユーザに関するデータが収集されるにつれて保存され、経時的に改善され得る。したがって、ユーザの発話の解釈は、ユーザが参照し得る特定のエンティティ及びユーザによって使用される可能性のある品詞の識別に関して改善され得る。学習モデル２６０を改善するために使用される情報は、ネットワークサーバ１３０によって追跡されるように、ネットワーク内で行われ得る任意の様々なユーザ相互作用に関する情報を含み得る。そのようなユーザ相互作用は、ネットワークサーバ１３０でアクセスされるコンテンツに関連して行われ得て、同様に（例えば、メッセージアプリケーション及びその他の方法を介して送信されるメッセージなどの）相互作用は、（ネットワークサーバ１３０のコンテンツにもアクセスする）ソーシャルコンタクトに関連して行われ得る。学習モデル２６０は、ネットワーク内で追加のユーザ相互作用が行われるにつれて、継続的に更新及び改善され得る。したがって、自然言語プロセッサ調整２３０がユーザの意図を識別する際に参照し得る情報のベースは増大し続け、ユーザの意図を学習し、認識の向上を可能にし得る。したがって、学習モジュール２６０は、特定のユーザ及びユーザらのそれぞれの習慣、ネットワーク、及びその他のユーザ固有の特性に固有であり得る方法で、条件アクションルール２５０Ａの改善、ならびに経時的な応答アクション２５０Ｂの選択に関与し得る。

予測エンジン２７０は、自然言語プロセッサ調整２３０によって識別された意図が所定のワークフロー２６０に対応することを識別し得る。識別された意図は、所定のワークフローで実行するために必要な情報も提供し得る。

図３は、自然言語処理のためのネットワークベースの学習モデルの例示的な方法を示すフローチャートである。図３の方法３００は、限定されないが、ＣＤ、ＤＶＤ、またはハードドライブなどの不揮発性メモリを含む、非一時的コンピュータ可読記憶媒体内の実行可能命令として具体化され得る。記憶媒体の命令は、１つのプロセッサ（または複数のプロセッサ）によって実行され、記憶媒体をホストするか、または他の方法で記憶媒体にアクセスするコンピューティングデバイスの様々なハードウェア構成要素に方法を実施させ得る。図３で特定されるステップ（及びその順序）は例示的なものであり、限定されないが、同様の実行の順序を含む様々な代替物、均等物、またはその派生物を含み得る。

方法３００では、ユーザ相互作用に関する情報を追跡し得て、ユーザの音声発話を、取り込み、トランスクライブし、解析し、次いで、追跡された相互作用の文脈で解釈し得て、その解釈に基づいて意図を識別し得て、識別された意図に基づいて、ワークフローの選択を予測し得る。

ステップ３１０では、ネットワーク内のユーザ相互作用に関する情報を追跡し得る。そのような相互作用は、特定のコンテンツタイトルまたは特定のコンタクトに関して行われ得る。特定のコンテンツに関する各コンタクトによる相互作用を含む、特定のコンテンツタイトル及びコンタクトに関する情報（例えば、ユーザプロファイル）も追跡し得る。そのような情報は、学習モデル２６０などのデータベース、ならびにネットワークサーバ２００にアクセス可能な複数の異なるデータベースに格納され得る。

ステップ３２０では、ユーザの音声発話が取り込まれ得る。そのような取り込みは、ユーザデバイス１２０のマイクロフォンを介して行われ得る。そのような音声発話はさらに、通信ネットワーク１１０を介してネットワークサーバ１３０に送信され得る、デジタル録音（例えば、ｍｐ３音声ファイル）として保存され得る。

ステップ３３０では、音声発話をトランスクライブして解析し得る。ネットワークサーバ１３０は、デジタル記録を（例えば、デコーダ２１０を介して）復号化し、復号化されたデジタル記録を（例えば、スピーチトゥテキスト２２０を介して）テキストにトランスクライブして解析し得る。

ステップ３４０では、解析されたテキストは、ステップ３１０からの追跡された相互作用情報の文脈で分析及び解釈され得る。自然言語プロセッサ２３０は、可能性を絞り込むために、エージェントディスパッチャ２４０によって管理されるサードパーティサービス１４０、ならびに学習モデル２６０からの音声発話及び参照リソースの１つまたは複数の可能な解釈を識別し得る。

ステップ３５０では、解釈に基づいて意図を識別し得る。そのような識別は、学習モデル２６０、ならびにネットワーク内のユーザ及びコンテンツに関する情報を維持し得る任意の他のデータベースへの参照を含み得る、様々な要因の重み付けに基づいて、自然言語プロセッサ調整２３０によって行われ得る。そのような重み付けは、コンテンツまたはソーシャルコンテンツの特性に基づき得て、追加情報が追跡されるにつれて経時的に調整され得る。

ステップ３６０では、ワークフロー選択に関する予測を行い得る。予測エンジン２７０は、ステップ３５０で自然言語プロセッサ調整２３０によって識別された意図が、ワークフロー２６０に格納されたワークフローに対応することを識別し得る。

図４は、ユーザが作成したメディアを放送メディアストリームにリアルタイムで組み込む際に使用し得る例示的な電子エンターテイメントシステムである。図４のエンターテイメントシステム４００は、メインメモリ４０５、中央処理装置（ＣＰＵ）４１０、ベクトルユニット４１５、グラフィックス処理ユニット４２０、入力／出力（Ｉ／Ｏ）プロセッサ４２５、Ｉ／Ｏプロセッサメモリ４３０、コントローラインターフェイス４３５、メモリカード４４０、ユニバーサルシリアルバス（ＵＳＢ）インターフェイス４４５、及びＩＥＥＥ１３９４インターフェイス４５０を含む。エンターテイメントシステム４００はさらに、バス４７５を介してＩ／Ｏプロセッサ４２５に接続されるオペレーティングシステム読み取り専用メモリ（ＯＳＲＯＭ）４５５、音声処理ユニット４６０、光ディスク制御ユニット４７０、及びハードディスクドライブ４６５を含む。

エンターテイメントシステム４００は、電子ゲームコンソールであり得る。あるいは、エンターテイメントシステム４００は、汎用コンピュータ、セットトップボックス、ハンドヘルドゲームデバイス、タブレットコンピューティングデバイス、またはモバイルコンピューティングデバイスもしくは電話として実装され得る。エンターテイメントシステムには、特定のフォームファクタ、目的、または設計に応じて、いくつかのオペレーティング構成要素が含まれ得る。

図４のＣＰＵ４１０、ベクトルユニット４１５、グラフィックス処理ユニット４２０及びＩ／Ｏプロセッサ４２５は、システムバス４８５を介して通信する。さらに、図４のＣＰＵ４１０は、専用バス４８０を介してメインメモリ４０５と通信し、ベクトルユニット４１５及びグラフィックス処理ユニット４２０は、専用バス４９０を介して通信し得る。図４のＣＰＵ４１０は、ＯＳＲＯＭ４５５及びメインメモリ４０５に格納されたプログラムを実行する。図４のメインメモリ４０５は、事前に格納されたプログラム、及び光ディスク制御ユニット４７０を使用してＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、または他の光ディスク（図示せず）からＩ／Ｏプロセッサ４２５を介して転送されるプログラムを含み得る。図４のＩ／Ｏプロセッサ４２５はまた、無線または他の通信ネットワーク（例えば、４＄、ＬＴＥ、１Ｇなど）を介して転送されるコンテンツの導入を可能にし得る。図４のＩ／Ｏプロセッサ４２５は、主に、ＣＰＵ４１０、ベクトルユニット４１５、グラフィックス処理ユニット４２０、及びコントローラインターフェイス４３５を含むエンターテイメントシステム４００の様々なデバイス間のデータ交換を制御する。

図４のグラフィックス処理ユニット４２０は、ＣＰＵ４１０及びベクトルユニット４１５から受信したグラフィックス命令を実行して、表示装置（図示せず）に表示するための画像を生成する。例えば、図４のベクトルユニット４１５は、オブジェクトを三次元座標から二次元座標に変換し、二次元座標をグラフィックス処理ユニット４２０に送信し得る。さらに、音声処理ユニット４６０は、スピーカ（図示せず）などのオーディオ機器に出力される音声信号を生成する命令を実行する。他のデバイスは、ＵＳＢインターフェイス４４５、及びシステム４００内にも、またはプロセッサなどの他の構成要素の一部としても組み込まれ得る、無線トランシーバなどのＩＥＥＥ１３９４インターフェイス４５０を介してエンターテイメントシステム４００に接続され得る。

図４のエンターテイメントシステム４００のユーザは、コントローラインターフェイス４３５を介してＣＰＵ４１０に命令を提供する。例えば、ユーザは、メモリカード４４０または他の非一時的コンピュータ可読記憶媒体に特定のゲーム情報を格納するようにＣＰＵ４１０に指示し得るか、または、いくつかの特定のアクションを実行するようゲーム内のキャラクタに指示し得る。

本発明は、様々なエンドユーザデバイスによって動作可能であり得るアプリケーションで実装され得る。例えば、エンドユーザデバイスは、パーソナルコンピュータ、ホームエンターテイメントシステム（例えば、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ２（登録商標）またはＳｏｎｙＰｌａｙＳｔａｔｉｏｎ３（登録商標）またはＳｏｎｙＰｌａｙＳｔａｔｉｏｎ４（登録商標））、携帯ゲームデバイス（例えば、ＳｏｎｙＰＳＰ（登録商標）またはＳｏｎｙＶｉｔａ（登録商標））、または、たとえ知名度の低いメーカのホームエンターテイメントシステムであってもよい。本明細書に記載される本方法論は、様々なデバイス上で動作可能であることを完全に意図している。本発明はまた、本システムの一実施形態が様々なパブリッシャからの様々なタイトルにわたって利用され得るクロスタイトル中立性で実装され得る。

非一時的コンピュータ可読記憶媒体とは、実行のために中央処理装置（ＣＰＵ）に命令を提供することに関与する任意の媒体または複数の媒体を指す。そのような媒体は、それぞれ、限定されないが、光ディスクまたは磁気ディスク及びダイナミックメモリなどの不揮発性媒体及び揮発性媒体を含む多くの形態をとることができる。非一時的コンピュータ可読媒体の一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ−ＲＯＭディスク、デジタルビデオディスク（ＤＶＤ）、任意の他の光学媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨＥＰＲＯＭ、及び任意の他のメモリチップまたはカートリッジを含む。

様々な形態の伝送媒体は、実行のために１つまたは複数の命令の１つまたは複数のシーケンスをＣＰＵに伝送することに関与し得る。バスはデータをシステムＲＡＭに伝送し、そこからＣＰＵが命令を取得して実行する。システムＲＡＭが受信した命令は、ＣＰＵによる実行の前または後のいずれに、任意選択で固定ディスクに格納できる。同様に、様々な形態の記憶装置を、必要なネットワークインターフェイス及びネットワークトポロジと同様に実装できる。

前述の本技術の詳細な説明は、例示及び説明の目的で提示されたものである。説明は、網羅的であること、または技術を開示されている正確な形態に限定することを意図するものではない。上記の教示に照らして、多くの修正及び変形が可能である。記載された実施形態は、技術の原理、その実際の応用を最もよく説明し、他の当業者が、様々な実施形態において、及び考えられる特定の用途に適した様々な修正で技術を利用できるようにするために選択された。技術の範囲は、特許請求の範囲により規定されることが意図される。

Claims

自然言語処理のためのネットワークベースの学習モデルのシステムであって、前記システムが、
ユーザによって行われた音声発話を取り込むマイクロフォンを含むエンドユーザデバイスと、
ネットワークサーバであって、
前記音声発話のデジタル録音を受信するネットワークインターフェイスと、
ネットワークコンテンツとのユーザ相互作用に関する情報を格納するメモリと、
メモリに格納された命令を実行するプロセッサであって、前記プロセッサによる前記命令の実行が、
前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈し、
前記音声発話の前記解釈に基づいて前記ユーザの意図を識別し、
前記識別された意図に基づいて予測を行い、前記予測が選択されたワークフローに対応する、前記プロセッサと
を含む、前記ネットワークサーバとを含む、システム。
前記ネットワークサーバが、１つまたは複数のソーシャルコンタクトとの現在の相互作用中に、前記音声発話が行われたことを識別する、請求項１に記載のシステム。
前記プロセッサが、前記ソーシャルコンタクトとの前記相互作用に重み付けすることによって前記意図を識別する、請求項２に記載のシステム。
重みが、前記ソーシャルコンタクトが属するカテゴリにさらに基づく、請求項３に記載のシステム。
前記プロセッサが、前記音声発話の分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリをさらに識別する、請求項４に記載のシステム。
前記プロセッサが、前記ソーシャルコンタクトのうちの１つの少なくとも１つのユーザプロファイルの分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリをさらに識別する、請求項５に記載のシステム。
前記カテゴリが、対象者属性、再生されているコンテンツタイトル、コンテンツタイトルが再生される頻度、前記コンテンツタイトルのレベル、及びコミュニティメンバシップのうちの少なくとも１つに基づく、請求項４に記載のシステム。
前記プロセッサが、前記ソーシャルコンタクトのうちの１つによる各ネットワークコンテンツとの相互作用に関する情報を重み付けすることによって、前記意図を識別する、請求項２に記載のシステム。
前記ネットワークサーバが、ネットワークコンテンツとの現在の相互作用中に前記音声発話が行われたことを識別し、前記現在の相互作用に関する前記格納されたユーザ相互作用情報をさらに更新する、請求項１に記載のシステム。
前記プロセッサがさらに複数のワークフローを格納し、各ワークフローが、異なるタイプの意図に関連付けられている、請求項１に記載のシステム。
自然言語処理のためのネットワークベースの学習モデルの方法であって、前記方法が、
ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納することと、
ユーザによって行われた音声発話のデジタル録音を取り込むことと、
メモリに格納された命令を実行することであって、プロセッサによる前記命令の実行が、
前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈し、
前記音声発話の前記解釈に基づいて前記ユーザの意図を識別し、
前記識別された意図に基づいて予測を行い、前記予測が選択されたワークフローに対応する、前記予測を行うこととを含む、方法。
１つまたは複数のソーシャルコンタクトとの現在の相互作用中に前記音声発話が行われたことを識別することをさらに含む、請求項１１に記載の方法。
前記意図を識別することが、前記ソーシャルコンタクトとの前記相互作用に重み付けすること含む、請求項１２に記載の方法。
前記重み付けすることが、前記ソーシャルコンタクトが属するカテゴリにさらに基づく、請求項１３に記載の方法。
前記音声発話の分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリを識別することをさらに含む、請求項１４に記載の方法。
前記ソーシャルコンタクトのうちの１つの少なくとも１つのユーザプロファイルの分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリを識別することをさらに含む、請求項１５に記載の方法。
前記カテゴリが、対象者属性、再生されているコンテンツタイトル、コンテンツタイトルが再生される頻度、前記コンテンツタイトルのレベル、及びコミュニティメンバシップのうちの少なくとも１つに基づく、請求項１４に記載の方法。
前記意図を識別することが、前記ソーシャルコンタクトのうちの１つによる各ネットワークコンテンツとの相互作用に関する情報を重み付けすることを含む、請求項１２に記載の方法。
ネットワークコンテンツとの現在の相互作用中に前記音声発話が行われたことを識別し、前記現在の相互作用に関する前記格納されたユーザ相互作用情報を更新することをさらに含む、請求項１１に記載の方法。
複数のワークフローをメモリに格納することをさらに含み、各ワークフローが、異なるタイプの意図に関連付けられている、請求項１１に記載の方法。
自然言語処理のためのネットワークベースの学習モデルの方法を実行するために、プロセッサによって実行可能なプログラムを具体化した非一時的コンピュータ可読媒体であって、前記方法が、
ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納することと、
ユーザによって行われた音声発話のデジタル録音を取り込むことと、
前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈することと、
前記音声発話の前記解釈に基づいて前記ユーザの意図を識別することと、
前記識別された意図に基づいて予測を行うことであって、前記予測が選択されたワークフローに対応する、前記予測を行うことと、を含む、非一時的コンピュータ可読媒体。