JP2020531895A - 自然言語処理のためのネットワークベースの学習モデル - Google Patents

自然言語処理のためのネットワークベースの学習モデル Download PDF

Info

Publication number
JP2020531895A
JP2020531895A JP2020508313A JP2020508313A JP2020531895A JP 2020531895 A JP2020531895 A JP 2020531895A JP 2020508313 A JP2020508313 A JP 2020508313A JP 2020508313 A JP2020508313 A JP 2020508313A JP 2020531895 A JP2020531895 A JP 2020531895A
Authority
JP
Japan
Prior art keywords
user
network
intent
content
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020508313A
Other languages
English (en)
Other versions
JP6987969B2 (ja
Inventor
ヤング、スティーヴン
Original Assignee
ソニー・インタラクティブエンタテインメント エルエルシー
ソニー・インタラクティブエンタテインメント エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー・インタラクティブエンタテインメント エルエルシー, ソニー・インタラクティブエンタテインメント エルエルシー filed Critical ソニー・インタラクティブエンタテインメント エルエルシー
Publication of JP2020531895A publication Critical patent/JP2020531895A/ja
Application granted granted Critical
Publication of JP6987969B2 publication Critical patent/JP6987969B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【解決手段】自然言語処理のためのネットワークベースの学習モデルのシステム及び方法が提供される。情報は、ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納し得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話は、格納されたユーザ相互作用情報に基づいて解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。【選択図】図1

Description

本技術は、自然言語処理に関し、より詳細には、ネットワーク(例えば、ゲームネットワーク)相互作用に基づく自然言語処理のための学習モデルに関する。
現在のコンテンツプラットフォームは、様々なコンテンツ及びそのようなコンテンツに関連するオプションへのアクセスを提供し得る。その結果、そのようなプラットフォームは、構成、設定、及び移動が複雑になり得る。音声コマンドを使用し得るが、そのような音声コマンドにも、従来のワークフローに対応する複合ワークフローまたは複雑なワークフローが必要になり得る。例えば、ゲームのプレーヤは、ユーザデバイス120を使用して、ネットワークサーバ130でホストされ得るゲームにアクセスし得る。ゲームは、ネットワーク内の他のプレーヤと共にプレイされ得る。例えば、プレーヤAは、友人であるプレーヤB及びプレーヤCとゲームをプレイすることを望み得る。従来のワークフローを使用して同じことを実行するには、プレーヤがゲームを選択し(例えば、プレーヤのリストをスクロールすることを含み得る)、プレーヤBに招待状を送信するように指定し(例えば、プレーヤのリストをスクロールすることを含み得る)、プレーヤCに招待状を送信するように指定する必要があり得る。各ステップを実行することを口頭で要求することは、必ずしも効率的ではない場合がある。したがって、音声コマンドの使用は、従来のワークフローより遅くないにしても、従来のワークフローと同等に遅くなる場合がある。
したがって、当技術分野では、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法が必要である。
本発明の実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法を含む。情報は、ネットワークコンテンツとのユーザ相互作用に関するメモリの格納情報であり得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話は、格納されたユーザ相互作用情報に基づいて解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。
様々な実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステムを含み得る。そのようなシステムは、ユーザ及びネットワークサーバによって行われた音声発話を取り込むマイクロフォンを含むエンドユーザデバイスを含み得る。そのようなネットワークサーバは、通信ネットワークを介して音声発話のデジタル録音を受信するネットワークインターフェイス、ネットワークコンテンツとのユーザ相互作用に関する情報を格納するメモリ、及び格納されたユーザ相互作用情報に基づいて音声発話を解釈し、音声発話の解釈に基づいてユーザの意図を識別し、選択されたワークフローに対応する予測を、識別された意図に基づいて予測するための命令を実行するプロセッサを含み得る。
追加の実施形態は、自然言語処理のためのネットワークベースの学習モデルの方法を含み得る。そのような方法は、ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納すること、ユーザによって行われた音声発話のデジタル録音を取り込むこと、格納されたユーザ相互作用情報に基づいて音声発話を解釈すること、音声発話の解釈に基づいてユーザの意図を識別すること、及び選択されたワークフローに対応する予測を、識別された意図に基づいて予測することを含み得る。
さらなる実施形態は、上述したような自然言語処理のためのネットワークベースの学習モデルの方法を実行するために、プロセッサによって実行可能なプログラムを具体化した非一時的コンピュータ可読記憶媒体を含む。
自然言語処理のためのネットワークベースの学習モデルのシステムが実装され得るネットワーク環境を示す。
自然言語処理のためのネットワークベースの学習モデルで使用し得る例示的なサーバを示す。
自然言語処理のためのネットワークベースの学習モデルの例示的な方法を示すフローチャートである。
使用され得る例示的な電子エンターテイメントシステムである。
本発明の実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法を含む。情報は、ネットワークコンテンツとのユーザ相互作用に関するメモリの格納情報であり得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話を構成する単語及び品詞は、自然言語処理モデルに基づいて識別され得る。そのような単語は、格納されたユーザ相互作用情報などの文脈情報に基づいてさらに解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。
コンテンツネットワークでは、一部のコンテンツ相互作用はさらに、ソーシャル要素を有し得る。例えば、ゲームは1つまたは複数のソーシャルコンタクトと共にプレイされ得る。そのようなゲームの過程で、他のプレーヤとの相互作用には、コンテンツに直接的または間接的に関連する「トラッシュトーク」及び他の会話が含まれ得る。
図1は、コンテンツのソーシャルベースの管理のためのシステムが実装され得るネットワーク環境100を示す。ネットワーク環境100は、1つまたは複数のクライアントデバイス120A〜Cがネットワークサーバ130及びサードパーティシステム140と通信し得る通信ネットワーク110を含み得る。
通信ネットワーク110は、ローカルの専用ネットワーク(例えば、イントラネット)であり、及び/または代替的に、より大きな広域ネットワーク(例えば、クラウド)の一部であることが好ましい。通信ネットワーク110は、インターネットなどの広域ネットワーク(WAN)に通信可能に結合されたローカルエリアネットワーク(LAN)とすることができる。インターネットは、ネットワークサービスプロバイダを介して接続されたユーザ間でインターネットプロトコル(IP)データの送信及び交換を可能にする、相互接続されたコンピュータ及びサーバの広範なネットワークである。ネットワークサービスプロバイダの例には、公衆交換電話網、ケーブルサービスプロバイダ、デジタル加入者線(DSL)サービスのプロバイダ、または衛星サービスプロバイダがある。通信ネットワーク110は、ネットワーク環境100の様々な構成要素間の通信を可能にする。
ユーザは、限定されないが、通信ネットワーク110を介して通信できる汎用コンピュータ、携帯電話、スマートフォン、パーソナルデジタルアシスタント(PDA)、ポータブルコンピューティングデバイス(例えば、ラップトップ、ネットブック、タブレット)、デスクトップコンピューティングデバイス、ハンドヘルドコンピューティングデバイス、タブレットデバイス、ゲームコンソール、スマートテレビ、または任意の他のタイプのコンピューティングデバイスを含むことができる、任意の数の異なる電子コンピューティングデバイス120A〜Cを使用し得る。そのようなデバイス120A〜Cは、限定されないが、ダウンロードされたサービスの場合に適切であり得るメモリカードまたはディスクドライブなどの他の記憶媒体からデータにアクセスするように構成されることが好ましい。そのようなデバイス120A〜Cは、限定されないが、ネットワークインターフェイス及びメディアインターフェイス、非一時的コンピュータ可読記憶装置(メモリ)、及びメモリに格納され得る命令を実行するためのプロセッサなどの標準ハードウェアコンピューティング構成要素を含むことが好ましい。例示的なコンピューティングデバイス120は、図4に関してさらに図示及び説明される。いくつかの実施形態では、コンピューティングデバイス120は、ユーザ入力を取り込み得る周辺機器(例えば、音声スイッチヘッドセット上のマイクロフォン)及びソフトウェア(例えば、メッセージングアプリケーション)に関連付けられ得る。
ネットワークサーバ130は、ネットワークインターフェイス及びメディアインターフェイス、非一時的コンピュータ可読記憶装置(メモリ)、及び命令を実行するか、またはメモリに格納され得る情報にアクセスするためのプロセッサなどの標準的なハードウェアコンピューティング構成要素を含む、当技術分野で既知の任意のタイプのサーバまたは他のコンピューティングデバイスを含み得る。複数のサーバの機能は、単一のサーバに統合され得る。前述のサーバ(または統合サーバ)のいずれも、特定のクライアント側、キャッシュ、またはプロキシサーバの特性を持ち得る。これらの特性は、サーバの特定のネットワーク配置またはサーバの特定の構成に依存し得る。
ネットワークサーバ130は、ネットワーク環境100内のユーザデバイス120に利用可能な様々なデジタルメディアコンテンツをホストし得る。(例えば、ユーザデバイス120の)各ユーザは、ユーザが自分のコンテンツのライブラリにアクセスすることを可能にするアカウントに関連付けられ得る。そのようなコンテンツは、他のコンテンツと同様に、ユーザによる相互作用を可能にする相互作用コンテンツであり得る。例えば、ゲームは複数のプレーヤによって同時にプレイされてもよいし、プレーヤ間の相互作用を含んでもよい。
サードパーティシステム140は、様々なリソースのいずれかをネットワークサーバ130に提供して、自然言語処理、解釈、及びユーザの意図の識別を支援し得る。そのようなリソースは、発話が関連する(例えば、ゲームのリクエストを処理する際の)特定の文脈に関する情報を提供し得る。
ネットワークサーバ130がコンテンツをホストするので、ネットワークサーバ130は、そのようなコンテンツを含む様々なユーザ相互作用を監視及び追跡し得る。そのような相互作用は、ネットワークコンテンツ、ならびにソーシャルコンタクトとの相互作用を含み得る。そのような相互作用は、行動、やり取りされるコミュニケーション、取られたアクション、発生するイベント、到達したマイルストーン(例えば、ポイント、レベル、トロフィ、実績など)、ならびにコンテンツ及び/またはソーシャルコンタクトに対する他の識別可能な反応を含み得る。さらに、コンテンツサーバ130は、ジャンル、開発者、プレイ要件(例えば、チームメンバの数、チームメンバの役割)などを含む、ユーザが相互作用するコンテンツタイトル(例えば、特定のゲーム)の詳細を追跡し得る。
カスタマイズされたワークフローの学習モデルは、ワークフローの予測的選択を可能にするために、ネットワーク内のユーザアクティビティ(例えば、コンテンツ及びソーシャル相互作用)に基づいて開発され得る。したがって、ネットワークサーバ130は、ネットワーク内のユーザ相互作用に関する情報を追跡し得る。そのような相互作用は、ネットワークコンテンツ、ならびにソーシャルコンタクトとの相互作用を含み得る。追跡された相互作用情報により、特定のコンテンツタイトル、特定のコンテンツタイトルのジャンル、特定のソーシャルサークル、及び相互作用が行われる他の文脈に特有であり得る動作及び傾向のパターンが明らかにされ得る。学習モデルは、経時的に開発され得て、サードパーティサービス140によって提供されるリソース及び情報に部分的に依存し得る。
さらに、ネットワークサーバ130は、ユーザが相互作用するソーシャルコンタクトに関する情報をさらに格納し得る。そのようなソーシャルコンタクトは、ネットワーク環境100内のユーザでもあり、ユーザによってそのように指定され得る。いくつかの実施形態では、ユーザは、親密度、共有アクティビティのタイプ、共通のコンテンツのタイプ、共通の関心、定義されたチームまたは氏族(タイトルに固有であってもなくてもよい)、または任意のその他のカテゴリによって、ソーシャルコンタクトをさらに特徴付け得る。ソーシャルコンタクトはまた、対象者属性データ、コミュニティメンバシップ、ユーザのライブラリ内の各コンテンツタイトル、コンテンツタイトルが再生される頻度などを含む、そのコンタクトを特徴付けるために使用され得る様々な他のパラメータに関連付けられ得る。
ユーザデバイス120に関連付けられたマイクロフォンは、そのようなユーザ相互作用の過程の間で音声発話を取り込み得る。ネットワークサーバ130は、現在のユーザ相互作用、ならびに、いくつかの共通点を共有し得る過去のユーザ相互作用の文脈で音声発話のデジタル記録を分析し得る。そのような分析は、デジタル録音を復号化すること、音声発話をトランスクライブすること、キーワードまたは意図の他の指標を識別するために音声発話の単語を評価すること、1つまたは複数の可能な解釈を識別すること、及びユーザ相互作用情報の文脈に基づいて可能な解釈を絞り込むことを含み得る。各解釈はさらに、特定のワークフローを進めるための異なる意図に関連付けられ得る。次いで、ネットワークサーバ130は、音声発話の解釈に基づいて、ユーザが選択したいワークフローに関する予測を行い得る。
図2は、自然言語処理のためのネットワークベースの学習モデルで使用され得る例示的なサーバ200を示す。サーバ200は、ネットワークサーバ130に関して上述したように、様々な標準ハードウェアを含み得るが、自然言語処理のためのネットワークベースの学習モデルは、自動音声認識210、ボイストゥテキスト220、自然言語プロセッサ調整230、エージェントディスパッチャ240(条件アクションルール250A及びアクションワークフロー250Bを含む)、学習モデル260、及び予測エンジン270など、より専門的な構成要素をさらに含み得る。
自動音声認識210は、ユーザ発話のデジタル録音などのデジタル音声録音の復号化を可能にする。そのような発話は、例えば、mp3ファイルとして取り込まれてもよいが、任意のデジタル音声形式(例えば、ストリーミング音声)を使用してもよい。ボイストゥテキスト220は、デジタル録音を分析し、話された単語を識別し、識別された単語に基づいてテキストを生成するための、当技術分野で既知の任意のトランスクリプションアプリケーションを含み得る。
自然言語プロセッサ調整230は、自然言語の表現を評価するために人工知能、フィルタ、分類器、機械学習技術などを利用できる任意のプロセッサを含み得る。そのような−学習モデル260に格納されている情報によって通知され得る−自然言語プロセッサ調整230により、ネットワークサーバ200は、ユーザによって行われた音声発話の可能な解釈を絞り込み、その音声発話を行う際のユーザのより具体的な意図を識別できる。いくつかの実施形態では、自然言語プロセッサ230は、どの特定の意図がユーザによって話されているかを識別する際に、最近行われた相互作用、頻度、相手(例えば、ソーシャルコンタクト)、コンテンツまたはソーシャルコンテンツの特性、識別可能なパターン及び傾向などを含む、様々な要因を重み付けし得る。自然言語プロセッサ調整230はさらに、様々なサードパーティサービス140を利用して、ユーザによって話された単語の解釈及び異なる文脈での意図の識別を支援し得る。
エージェントディスパッチャ240は、そのようなサードパーティサービス140を管理し、特定のタスクまたはリクエストを支援するために、どのサードパーティサービス140を呼び出すかを具体的に識別し得る。エージェントディスパッチャ240はさらに、コンテンツ相互作用に関連して実行される特定の条件アクションルール250A及び応答アクション250Bに関連付けられたワークフロー250を管理し得る。例えば、ゲームの文脈では、そのようなワークフロー250は、様々なゲーム関連のアクティビティ(例えば、ゲームプレイのためのチームの編成)に関連し得る。各ワークフロー250は、どのアクション250B(例えば、タスク及びステップ)がアクティビティに従事することに関与するかを識別するために使用される1つまたは複数の条件アクションルール250Aを含み得る。しかし、各タスク及びステップには、ユーザからの特定の情報(例えば、入力)が必要になり得る。例えば、チームを編成するには、ユーザが1人または複数人のチームメンバを選択する必要があり得る。各ワークフローには、特定のユーザ向けにカスタマイズされた方法で1つまたは複数の機能及びサービスを呼び出すために使用されるプラグ可能なコードが含まれ得る。
図に示すように、様々な入力が(例えば、ユーザアクションを含む環境内の状態を検出するセンサ及びインターフェイスから)受信され、条件アクションルール250Aの観点から評価され得る。そのような評価により、(例えば、アクション250Bからの)特定の応答アクションを実行すべきであるという発見がもたらされ得る。選択されたアクションに関する情報は、実行またはパフォーマンスのために、指定されたアクチュエータまたは他のアクタに提供され得る。
ユーザによる発話を解釈し、応答するワークフローを識別するための学習モデル260は、ユーザに関するデータが収集されるにつれて保存され、経時的に改善され得る。したがって、ユーザの発話の解釈は、ユーザが参照し得る特定のエンティティ及びユーザによって使用される可能性のある品詞の識別に関して改善され得る。学習モデル260を改善するために使用される情報は、ネットワークサーバ130によって追跡されるように、ネットワーク内で行われ得る任意の様々なユーザ相互作用に関する情報を含み得る。そのようなユーザ相互作用は、ネットワークサーバ130でアクセスされるコンテンツに関連して行われ得て、同様に(例えば、メッセージアプリケーション及びその他の方法を介して送信されるメッセージなどの)相互作用は、(ネットワークサーバ130のコンテンツにもアクセスする)ソーシャルコンタクトに関連して行われ得る。学習モデル260は、ネットワーク内で追加のユーザ相互作用が行われるにつれて、継続的に更新及び改善され得る。したがって、自然言語プロセッサ調整230がユーザの意図を識別する際に参照し得る情報のベースは増大し続け、ユーザの意図を学習し、認識の向上を可能にし得る。したがって、学習モジュール260は、特定のユーザ及びユーザらのそれぞれの習慣、ネットワーク、及びその他のユーザ固有の特性に固有であり得る方法で、条件アクションルール250Aの改善、ならびに経時的な応答アクション250Bの選択に関与し得る。
予測エンジン270は、自然言語プロセッサ調整230によって識別された意図が所定のワークフロー260に対応することを識別し得る。識別された意図は、所定のワークフローで実行するために必要な情報も提供し得る。
図3は、自然言語処理のためのネットワークベースの学習モデルの例示的な方法を示すフローチャートである。図3の方法300は、限定されないが、CD、DVD、またはハードドライブなどの不揮発性メモリを含む、非一時的コンピュータ可読記憶媒体内の実行可能命令として具体化され得る。記憶媒体の命令は、1つのプロセッサ(または複数のプロセッサ)によって実行され、記憶媒体をホストするか、または他の方法で記憶媒体にアクセスするコンピューティングデバイスの様々なハードウェア構成要素に方法を実施させ得る。図3で特定されるステップ(及びその順序)は例示的なものであり、限定されないが、同様の実行の順序を含む様々な代替物、均等物、またはその派生物を含み得る。
方法300では、ユーザ相互作用に関する情報を追跡し得て、ユーザの音声発話を、取り込み、トランスクライブし、解析し、次いで、追跡された相互作用の文脈で解釈し得て、その解釈に基づいて意図を識別し得て、識別された意図に基づいて、ワークフローの選択を予測し得る。
ステップ310では、ネットワーク内のユーザ相互作用に関する情報を追跡し得る。そのような相互作用は、特定のコンテンツタイトルまたは特定のコンタクトに関して行われ得る。特定のコンテンツに関する各コンタクトによる相互作用を含む、特定のコンテンツタイトル及びコンタクトに関する情報(例えば、ユーザプロファイル)も追跡し得る。そのような情報は、学習モデル260などのデータベース、ならびにネットワークサーバ200にアクセス可能な複数の異なるデータベースに格納され得る。
ステップ320では、ユーザの音声発話が取り込まれ得る。そのような取り込みは、ユーザデバイス120のマイクロフォンを介して行われ得る。そのような音声発話はさらに、通信ネットワーク110を介してネットワークサーバ130に送信され得る、デジタル録音(例えば、mp3音声ファイル)として保存され得る。
ステップ330では、音声発話をトランスクライブして解析し得る。ネットワークサーバ130は、デジタル記録を(例えば、デコーダ210を介して)復号化し、復号化されたデジタル記録を(例えば、スピーチトゥテキスト220を介して)テキストにトランスクライブして解析し得る。
ステップ340では、解析されたテキストは、ステップ310からの追跡された相互作用情報の文脈で分析及び解釈され得る。自然言語プロセッサ230は、可能性を絞り込むために、エージェントディスパッチャ240によって管理されるサードパーティサービス140、ならびに学習モデル260からの音声発話及び参照リソースの1つまたは複数の可能な解釈を識別し得る。
ステップ350では、解釈に基づいて意図を識別し得る。そのような識別は、学習モデル260、ならびにネットワーク内のユーザ及びコンテンツに関する情報を維持し得る任意の他のデータベースへの参照を含み得る、様々な要因の重み付けに基づいて、自然言語プロセッサ調整230によって行われ得る。そのような重み付けは、コンテンツまたはソーシャルコンテンツの特性に基づき得て、追加情報が追跡されるにつれて経時的に調整され得る。
ステップ360では、ワークフロー選択に関する予測を行い得る。予測エンジン270は、ステップ350で自然言語プロセッサ調整230によって識別された意図が、ワークフロー260に格納されたワークフローに対応することを識別し得る。
図4は、ユーザが作成したメディアを放送メディアストリームにリアルタイムで組み込む際に使用し得る例示的な電子エンターテイメントシステムである。図4のエンターテイメントシステム400は、メインメモリ405、中央処理装置(CPU)410、ベクトルユニット415、グラフィックス処理ユニット420、入力/出力(I/O)プロセッサ425、I/Oプロセッサメモリ430、コントローラインターフェイス435、メモリカード440、ユニバーサルシリアルバス(USB)インターフェイス445、及びIEEE1394インターフェイス450を含む。エンターテイメントシステム400はさらに、バス475を介してI/Oプロセッサ425に接続されるオペレーティングシステム読み取り専用メモリ(OS ROM)455、音声処理ユニット460、光ディスク制御ユニット470、及びハードディスクドライブ465を含む。
エンターテイメントシステム400は、電子ゲームコンソールであり得る。あるいは、エンターテイメントシステム400は、汎用コンピュータ、セットトップボックス、ハンドヘルドゲームデバイス、タブレットコンピューティングデバイス、またはモバイルコンピューティングデバイスもしくは電話として実装され得る。エンターテイメントシステムには、特定のフォームファクタ、目的、または設計に応じて、いくつかのオペレーティング構成要素が含まれ得る。
図4のCPU410、ベクトルユニット415、グラフィックス処理ユニット420及びI/Oプロセッサ425は、システムバス485を介して通信する。さらに、図4のCPU410は、専用バス480を介してメインメモリ405と通信し、ベクトルユニット415及びグラフィックス処理ユニット420は、専用バス490を介して通信し得る。図4のCPU410は、OS ROM455及びメインメモリ405に格納されたプログラムを実行する。図4のメインメモリ405は、事前に格納されたプログラム、及び光ディスク制御ユニット470を使用してCD−ROM、DVD−ROM、または他の光ディスク(図示せず)からI/Oプロセッサ425を介して転送されるプログラムを含み得る。図4のI/Oプロセッサ425はまた、無線または他の通信ネットワーク(例えば、4$、LTE、1Gなど)を介して転送されるコンテンツの導入を可能にし得る。図4のI/Oプロセッサ425は、主に、CPU410、ベクトルユニット415、グラフィックス処理ユニット420、及びコントローラインターフェイス435を含むエンターテイメントシステム400の様々なデバイス間のデータ交換を制御する。
図4のグラフィックス処理ユニット420は、CPU410及びベクトルユニット415から受信したグラフィックス命令を実行して、表示装置(図示せず)に表示するための画像を生成する。例えば、図4のベクトルユニット415は、オブジェクトを三次元座標から二次元座標に変換し、二次元座標をグラフィックス処理ユニット420に送信し得る。さらに、音声処理ユニット460は、スピーカ(図示せず)などのオーディオ機器に出力される音声信号を生成する命令を実行する。他のデバイスは、USBインターフェイス445、及びシステム400内にも、またはプロセッサなどの他の構成要素の一部としても組み込まれ得る、無線トランシーバなどのIEEE1394インターフェイス450を介してエンターテイメントシステム400に接続され得る。
図4のエンターテイメントシステム400のユーザは、コントローラインターフェイス435を介してCPU410に命令を提供する。例えば、ユーザは、メモリカード440または他の非一時的コンピュータ可読記憶媒体に特定のゲーム情報を格納するようにCPU410に指示し得るか、または、いくつかの特定のアクションを実行するようゲーム内のキャラクタに指示し得る。
本発明は、様々なエンドユーザデバイスによって動作可能であり得るアプリケーションで実装され得る。例えば、エンドユーザデバイスは、パーソナルコンピュータ、ホームエンターテイメントシステム(例えば、Sony PlayStation2(登録商標)またはSony PlayStation3(登録商標)またはSony PlayStation4(登録商標))、携帯ゲームデバイス(例えば、Sony PSP(登録商標)またはSony Vita(登録商標))、または、たとえ知名度の低いメーカのホームエンターテイメントシステムであってもよい。本明細書に記載される本方法論は、様々なデバイス上で動作可能であることを完全に意図している。本発明はまた、本システムの一実施形態が様々なパブリッシャからの様々なタイトルにわたって利用され得るクロスタイトル中立性で実装され得る。
非一時的コンピュータ可読記憶媒体とは、実行のために中央処理装置(CPU)に命令を提供することに関与する任意の媒体または複数の媒体を指す。そのような媒体は、それぞれ、限定されないが、光ディスクまたは磁気ディスク及びダイナミックメモリなどの不揮発性媒体及び揮発性媒体を含む多くの形態をとることができる。非一時的コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROMディスク、デジタルビデオディスク(DVD)、任意の他の光学媒体、RAM、PROM、EPROM、FLASHEPROM、及び任意の他のメモリチップまたはカートリッジを含む。
様々な形態の伝送媒体は、実行のために1つまたは複数の命令の1つまたは複数のシーケンスをCPUに伝送することに関与し得る。バスはデータをシステムRAMに伝送し、そこからCPUが命令を取得して実行する。システムRAMが受信した命令は、CPUによる実行の前または後のいずれに、任意選択で固定ディスクに格納できる。同様に、様々な形態の記憶装置を、必要なネットワークインターフェイス及びネットワークトポロジと同様に実装できる。
前述の本技術の詳細な説明は、例示及び説明の目的で提示されたものである。説明は、網羅的であること、または技術を開示されている正確な形態に限定することを意図するものではない。上記の教示に照らして、多くの修正及び変形が可能である。記載された実施形態は、技術の原理、その実際の応用を最もよく説明し、他の当業者が、様々な実施形態において、及び考えられる特定の用途に適した様々な修正で技術を利用できるようにするために選択された。技術の範囲は、特許請求の範囲により規定されることが意図される。

Claims (21)

  1. 自然言語処理のためのネットワークベースの学習モデルのシステムであって、前記システムが、
    ユーザによって行われた音声発話を取り込むマイクロフォンを含むエンドユーザデバイスと、
    ネットワークサーバであって、
    前記音声発話のデジタル録音を受信するネットワークインターフェイスと、
    ネットワークコンテンツとのユーザ相互作用に関する情報を格納するメモリと、
    メモリに格納された命令を実行するプロセッサであって、前記プロセッサによる前記命令の実行が、
    前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈し、
    前記音声発話の前記解釈に基づいて前記ユーザの意図を識別し、
    前記識別された意図に基づいて予測を行い、前記予測が選択されたワークフローに対応する、前記プロセッサと
    を含む、前記ネットワークサーバとを含む、システム。
  2. 前記ネットワークサーバが、1つまたは複数のソーシャルコンタクトとの現在の相互作用中に、前記音声発話が行われたことを識別する、請求項1に記載のシステム。
  3. 前記プロセッサが、前記ソーシャルコンタクトとの前記相互作用に重み付けすることによって前記意図を識別する、請求項2に記載のシステム。
  4. 重みが、前記ソーシャルコンタクトが属するカテゴリにさらに基づく、請求項3に記載のシステム。
  5. 前記プロセッサが、前記音声発話の分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリをさらに識別する、請求項4に記載のシステム。
  6. 前記プロセッサが、前記ソーシャルコンタクトのうちの1つの少なくとも1つのユーザプロファイルの分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリをさらに識別する、請求項5に記載のシステム。
  7. 前記カテゴリが、対象者属性、再生されているコンテンツタイトル、コンテンツタイトルが再生される頻度、前記コンテンツタイトルのレベル、及びコミュニティメンバシップのうちの少なくとも1つに基づく、請求項4に記載のシステム。
  8. 前記プロセッサが、前記ソーシャルコンタクトのうちの1つによる各ネットワークコンテンツとの相互作用に関する情報を重み付けすることによって、前記意図を識別する、請求項2に記載のシステム。
  9. 前記ネットワークサーバが、ネットワークコンテンツとの現在の相互作用中に前記音声発話が行われたことを識別し、前記現在の相互作用に関する前記格納されたユーザ相互作用情報をさらに更新する、請求項1に記載のシステム。
  10. 前記プロセッサがさらに複数のワークフローを格納し、各ワークフローが、異なるタイプの意図に関連付けられている、請求項1に記載のシステム。
  11. 自然言語処理のためのネットワークベースの学習モデルの方法であって、前記方法が、
    ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納することと、
    ユーザによって行われた音声発話のデジタル録音を取り込むことと、
    メモリに格納された命令を実行することであって、プロセッサによる前記命令の実行が、
    前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈し、
    前記音声発話の前記解釈に基づいて前記ユーザの意図を識別し、
    前記識別された意図に基づいて予測を行い、前記予測が選択されたワークフローに対応する、前記予測を行うこととを含む、方法。
  12. 1つまたは複数のソーシャルコンタクトとの現在の相互作用中に前記音声発話が行われたことを識別することをさらに含む、請求項11に記載の方法。
  13. 前記意図を識別することが、前記ソーシャルコンタクトとの前記相互作用に重み付けすること含む、請求項12に記載の方法。
  14. 前記重み付けすることが、前記ソーシャルコンタクトが属するカテゴリにさらに基づく、請求項13に記載の方法。
  15. 前記音声発話の分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリを識別することをさらに含む、請求項14に記載の方法。
  16. 前記ソーシャルコンタクトのうちの1つの少なくとも1つのユーザプロファイルの分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリを識別することをさらに含む、請求項15に記載の方法。
  17. 前記カテゴリが、対象者属性、再生されているコンテンツタイトル、コンテンツタイトルが再生される頻度、前記コンテンツタイトルのレベル、及びコミュニティメンバシップのうちの少なくとも1つに基づく、請求項14に記載の方法。
  18. 前記意図を識別することが、前記ソーシャルコンタクトのうちの1つによる各ネットワークコンテンツとの相互作用に関する情報を重み付けすることを含む、請求項12に記載の方法。
  19. ネットワークコンテンツとの現在の相互作用中に前記音声発話が行われたことを識別し、前記現在の相互作用に関する前記格納されたユーザ相互作用情報を更新することをさらに含む、請求項11に記載の方法。
  20. 複数のワークフローをメモリに格納することをさらに含み、各ワークフローが、異なるタイプの意図に関連付けられている、請求項11に記載の方法。
  21. 自然言語処理のためのネットワークベースの学習モデルの方法を実行するために、プロセッサによって実行可能なプログラムを具体化した非一時的コンピュータ可読媒体であって、前記方法が、
    ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納することと、
    ユーザによって行われた音声発話のデジタル録音を取り込むことと、
    前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈することと、
    前記音声発話の前記解釈に基づいて前記ユーザの意図を識別することと、
    前記識別された意図に基づいて予測を行うことであって、前記予測が選択されたワークフローに対応する、前記予測を行うことと、を含む、非一時的コンピュータ可読媒体。
JP2020508313A 2017-08-21 2018-07-12 自然言語処理のためのネットワークベースの学習モデル Active JP6987969B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/682,381 US10885901B2 (en) 2017-08-21 2017-08-21 Network-based learning models for natural language processing
US15/682,381 2017-08-21
PCT/US2018/041837 WO2019040197A1 (en) 2017-08-21 2018-07-12 NETWORKING BASED LEARNING MODELS FOR NATURAL LANGUAGE PROCESSING

Publications (2)

Publication Number Publication Date
JP2020531895A true JP2020531895A (ja) 2020-11-05
JP6987969B2 JP6987969B2 (ja) 2022-01-05

Family

ID=65361069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020508313A Active JP6987969B2 (ja) 2017-08-21 2018-07-12 自然言語処理のためのネットワークベースの学習モデル

Country Status (6)

Country Link
US (2) US10885901B2 (ja)
EP (1) EP3673388A4 (ja)
JP (1) JP6987969B2 (ja)
KR (1) KR102451925B1 (ja)
CN (1) CN111316280B (ja)
WO (1) WO2019040197A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11600266B2 (en) 2017-08-21 2023-03-07 Sony Interactive Entertainment LLC Network-based learning models for natural language processing

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10987593B2 (en) * 2018-09-19 2021-04-27 Sony Interactive Entertainment LLC Dynamic interfaces for launching direct gameplay
US10695671B2 (en) 2018-09-28 2020-06-30 Sony Interactive Entertainment LLC Establishing and managing multiplayer sessions
US11120217B2 (en) * 2018-12-18 2021-09-14 Micro Focus Llc Natural language translation-based orchestration workflow generation
US20230163987A1 (en) * 2021-11-23 2023-05-25 Sony Interactive Entertainment Inc. Personal space bubble in vr environments

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001268669A (ja) * 2000-03-21 2001-09-28 Ricoh Co Ltd 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP2016534616A (ja) * 2013-08-06 2016-11-04 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127563B2 (en) * 2011-09-15 2018-11-13 Stephan HEATH System and method for providing sports and sporting events related social/geo/promo link promotional data sets for end user display of interactive ad links, promotions and sale of products, goods, gambling and/or services integrated with 3D spatial geomapping, company and local information for selected worldwide locations and social networking
US9473809B2 (en) 2011-11-29 2016-10-18 At&T Intellectual Property I, L.P. Method and apparatus for providing personalized content
WO2015053861A2 (en) * 2013-10-09 2015-04-16 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US20170337261A1 (en) * 2014-04-06 2017-11-23 James Qingdong Wang Decision Making and Planning/Prediction System for Human Intention Resolution
US11429883B2 (en) * 2015-11-13 2022-08-30 Microsoft Technology Licensing, Llc Enhanced computer experience from activity prediction
US10810532B2 (en) * 2017-02-28 2020-10-20 Fuji Xerox Co., Ltd. Systems and methods for access control based on machine-learning
US10748172B2 (en) * 2017-03-03 2020-08-18 Twitter, Inc. Increasing social media presence using machine-learning relevance techniques
US10885901B2 (en) 2017-08-21 2021-01-05 Sony Interactive Entertainment LLC Network-based learning models for natural language processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001268669A (ja) * 2000-03-21 2001-09-28 Ricoh Co Ltd 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP2016534616A (ja) * 2013-08-06 2016-11-04 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN, YUNG-NUNG: "DETECTING ACTIONABLE ITEMS IN MEETINGS BY CONVOLUTIONAL DEEP STRUCTURED SEMANTIC MODELS", 2015 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING (ASRU), JPN6021043005, 11 February 2016 (2016-02-11), pages 375 - 382, ISSN: 0004632739 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11600266B2 (en) 2017-08-21 2023-03-07 Sony Interactive Entertainment LLC Network-based learning models for natural language processing

Also Published As

Publication number Publication date
EP3673388A4 (en) 2021-05-19
KR20200040766A (ko) 2020-04-20
EP3673388A1 (en) 2020-07-01
US11600266B2 (en) 2023-03-07
US20210201898A1 (en) 2021-07-01
CN111316280A (zh) 2020-06-19
JP6987969B2 (ja) 2022-01-05
WO2019040197A1 (en) 2019-02-28
KR102451925B1 (ko) 2022-10-07
US10885901B2 (en) 2021-01-05
CN111316280B (zh) 2023-11-07
US20190057686A1 (en) 2019-02-21

Similar Documents

Publication Publication Date Title
JP6987969B2 (ja) 自然言語処理のためのネットワークベースの学習モデル
JP7297836B2 (ja) アシスタントアプリケーションのための音声ユーザインタフェースショートカット
KR102213637B1 (ko) 디바이스들 간의 상태 상호작용의 캡슐화 및 동기화
JP6850805B2 (ja) コンピューティングデバイスにおけるユーザ対話動作の自動実行
US10218770B2 (en) Method and system for sharing speech recognition program profiles for an application
EP2715651A2 (en) Emotion-based user identification for online experiences
WO2023055446A1 (en) Emotion detection & moderation based on voice inputs
WO2019227633A1 (zh) 建立用户画像和建立状态信息分析模型的方法和装置
US20230125367A1 (en) Visual tagging and heat-mapping of emotion
US20210151030A1 (en) Information processing device and information processing method
JP6243564B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
US20240029726A1 (en) Intent Identification for Dialogue Support
US20240029725A1 (en) Customized dialogue support
US11579839B1 (en) Audio analytics and accessibility across applications and platforms
US11992756B2 (en) Personalized VR controls and communications
US11580313B1 (en) Translation and communication filters for social interaction
US20140364239A1 (en) Method and system for creating a virtual social and gaming experience
JP2018156625A (ja) 情報処理装置、情報処理方法、および情報処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200413

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211201

R150 Certificate of patent or registration of utility model

Ref document number: 6987969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150