JP6987814B2 - 自然言語会話に関連する情報の視覚的提示 - Google Patents

自然言語会話に関連する情報の視覚的提示 Download PDF

Info

Publication number
JP6987814B2
JP6987814B2 JP2019136153A JP2019136153A JP6987814B2 JP 6987814 B2 JP6987814 B2 JP 6987814B2 JP 2019136153 A JP2019136153 A JP 2019136153A JP 2019136153 A JP2019136153 A JP 2019136153A JP 6987814 B2 JP6987814 B2 JP 6987814B2
Authority
JP
Japan
Prior art keywords
information
person
search
natural language
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019136153A
Other languages
English (en)
Other versions
JP2020034897A (ja
Inventor
バーナード・モン−レイノー
ジョナ・プロベル
Original Assignee
サウンドハウンド,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サウンドハウンド,インコーポレイテッド filed Critical サウンドハウンド,インコーポレイテッド
Publication of JP2020034897A publication Critical patent/JP2020034897A/ja
Priority to JP2021152158A priority Critical patent/JP2022008437A/ja
Application granted granted Critical
Publication of JP6987814B2 publication Critical patent/JP6987814B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Description

関連出願の相互参照
本願は、2018年8月2日に出願された発明者Bernard Mont-Reynaudによる米国特許出願第16/052,930号に基づく優先権を主張する。
背景
1.発明の分野
本発明は、概して情報を表示することに関し、より具体的には自然言語会話中の発話に関連する情報を自動で視覚的に提示することに関する。
2.関連技術
時として、会話中に、言及したいことの名称を忘れることがある。時として、直ちに調べたいことがあるのに、特にAmazon Alexaのような音声インターフェイスを搭載した情報デバイスを使用しているときには、会話を中断せずにブラウザにアクセスすることができない場合がある。時として、会話の別の参加者が話したことに関する情報が欲しいことがある。時として、まだそれには気付いてもいないが、会話が、特定の情報を要する可能性が極めて高いものに変化する可能性がある場合がある。
たとえば、次のフットボールの試合に関する会話中において、天気予報を知っていることは良いことであろう。別の例において、以前の同僚と昼食を共にする場所に着いたときに、その同僚の子供がどのように過ごしているかを名前を挙げて尋ねたいと思うものの、この同僚の子供の名前を思い出せないことがある。また別の例において、マルチプレイヤーゲームの中でチームのメンバーの現状を知っていることは良いことであろう。
本発明の具体的な特徴、局面、および利点は、以下の説明および添付の図面に関連してより良く理解されるようになるであろう。
発話に関連する情報を自動で視覚的に提示することを容易にするコンピュータアーキテクチャの一例を示す図である。 発話に関連する情報を自動で視覚的に提示する方法の一例のフローチャートを示す図である。 発話に関連する情報を自動で視覚的に提示することを容易にするコンピュータアーキテクチャの別の一例を示す図である。 発話に関連する情報を自動で視覚的に提示する方法の一例の別のフローチャートを示す図である。 発話に関連する情報を自動で視覚的に提示することを容易にするコンピュータアーキテクチャの他の例を示す図である。 発話に関連する情報を自動で視覚的に提示する方法の一例の他のフローチャートを示す図である。 自然言語表現に応じて情報を表示するためのデータフローを示す図である。 関連度スコアを用いて自然言語表現に応じて情報を表示するためのデータフローを示す図である。 複数のトピックについての自然言語表現に応じて情報を表示するためのデータフローを示す図である。 複数のトピックについての自然言語表現に応じて情報を表示するためのデータフローを示す図である。 情報を繰り返すことなく自然言語表現に応じて情報を表示するためのデータフローを示す図である。 検索のためにコンセプトを用いて自然言語表現に応じて情報を表示するためのデータフローを示す図である。 自然言語表現に応じて情報を表示しかつ他の情報を求める要求を受け入れるためのデータフローを示す図である。 代替人間言語による自然言語表現に応じて情報を表示するためのデータフローを示す図である。 特定のユーザについての関連度に基づいて自然言語表現に応じて情報を表示するためのデータフローを示す図である。 複数の人物からの自然言語表現に応じて情報を表示するためのデータフローを示す図である。 ある実施形態に係る複数のデバイスをサポートするコンピュータアーキテクチャを示す図である。 媒体インターフェイスに関連するデバイスモジュールを備えたコンピュータアーキテクチャを示す図である。 1人の参加ユーザのための媒体インターフェイスに関連するデバイスモジュールを備えたコンピュータアーキテクチャを示す図である。 ビデオ会議システムを示す図である。 ウェアラブルデバイスを示す図である。 仮想現実眼鏡を示す図である。 車両のヘッドアップディスプレイを示す図である。 回転ディスクの一例を示す図である。 フラッシュランダムアクセスメモリ(RAM)チップの一例を示す図である。 パッケージングされたシステムオンチップ(SoC)のはんだボール側の一例を示す図である システムオンチップ(SoC)のアーキテクチャの一例を示す図である。 ラックベースのサーバの一例を示す図である。 サーバのアーキテクチャの一例を示す図である。
詳細な説明
本発明は、発話に関連する情報を自動で視覚的に提示するための、方法、システム、マシン、製造製品、およびコンピュータ読取可能コードに及ぶ。辞書によると、発話(utterance)とは、途切れのない一続きの話し言葉または書き言葉である。発話は、音声であろうとテキストであろうと、常に言葉によるものである。会話は順番に話をすることであり、一回の話が発話である。本明細書において、発話を自然言語表現とも呼び、これらの用語を同義で使用する。自然言語表現(natural language expression)(NLE)は、たとえば、話された1つ以上の単語、話された句、話された文、または数単語のテキストで構成される。
本発明の局面は、自然言語理解(natural language understanding)(NLU)および検索を用いて、発話に関連する情報を実質的にリアルタイムで特定する。NLUは、文法規則に従って表現をパースすることと、パースによって抽出された用語の意味論上の意味に従ってパースを解釈することとを含む。検索は、タグの使用、インデックス、ソート、またはコンピュータサイエンスコースで教示されるその他の方法などにより、情報のコーパス内においてもしあれば所望の情報を発見するための、任意のクラスのアルゴリズムである。
特定した関連情報は、たとえば、電話、ビデオ会議、ゲーム、または拡張現実体験中などにおいて、デバイスに、これも実質的にリアルタイムで視覚的に表示することができる。この情報の関連度を予想することができ、この関連情報は、会話に基づいて、ちょうどよいときに関連情報を提供することによって提示することができる。関連情報は、人物から見えるディスプレイに自動的に現れる。
いくつかの局面は、関連度スコアを計算し、情報をその関連度に基づいてフィルタリングする。その他の実施形態は、関連度スコアを、しきい値と比較することにより、または、異なる情報間で関連度スコアを比較することにより、計算する。関連情報と既に表示されている情報との重複を検出することにより、確実に、表示された情報が会話中に繰り返されることがないようにすることができる。しかしながら、過去に表示されたことがあるが今は表示されていない情報は、関連があることが再びわかった場合は、再度表示することができる。表示される情報は、天気、スポーツ、地域のようなトピックに、または、特定のエンティティもしくはアクティビティのような特定されたコンセプトに、関連する可能性がある。
ある局面では、発話を第1の人物から受け、関連情報を第2の人物に対して表示する。別の局面では、発話を第1の人物から受け、関連情報を第1の人物および第2の人物双方に対して表示する。
複数の局面は、人物が、追加情報を要求すること、情報を後で使用するために保存すること、または情報を他人と共有することを、支援することができる。人物は、表示された情報に関する、その関連度などのフィードバックを提供することができる。情報は、異なる人間言語間で翻訳することができる。
いくつかの局面は、ディスプレイに人間の顔とともに表示情報を重畳し、顔位置検出を計算し、顔が重ならないようにディスプレイを動的に配置する。情報選択を、ユーザプロファイルまたは環境要因に基づいて表示するようにする。ある会話における複数または多数の人物からの自然言語表現に対してNLUを実行することができる。任意で、広告またはその他の説得力のある情報を、言葉によるやり取りに関連する情報とともに、表示することができる。
本発明の局面を実現するデバイスは、ビデオ会議システム、拡張現実アイウェア、その他のウェアラブルデバイス、または車両のヘッドアップディスプレイを含む。
本発明の局面は、会話の参加者が言及したい物事の名称を思い出すのを助けること、人物が直ちにブラウザにアクセスできないときにまたは音声インターフェイスを搭載した情報デバイスの使用が会話を中断させるようなときに何かを調べることを可能にすること、会話の他の参加者が言及したことに関する情報を提供すること、および、会話における次の話に関連がある可能性がある情報を提示することなど、さまざまな利点を提供する。
従来のスクリーンキャスティングとは異なり、本発明の局面は、人物のインターフェイスデバイスに情報を自動的に提供する。従来の自動キャプションシステムとは異なり、本発明の局面は、自然言語を理解しそれに応じて反応する。従来のボイスコール解析とは異なり、本発明の局面は、関連情報を検索し、検索結果を人物に提供する。1人のユーザ/話者に対して応答するだけの従来の自然言語質問応答システムとは異なり、本発明の局面は、別の人物が話すことに基づいて、1人以上の人物に対して応答する。従来の拡張現実ビデオ会議システムとは異なり、本発明の局面は、共有仮想オブジェクトの明確なコマンドまたは操作なしで、会話の参加者の表現を解釈しそれに対して作用する。
本発明の実施形態は、以下でより詳細に説明するように、たとえば1つ以上のプロセッサおよびシステムメモリのようなコンピュータハードウェアを含む専用または汎用コンピュータを備えるまたは利用することができる。本発明の範囲に含まれる実施形態はまた、コンピュータ実行可能命令および/またはデータ構造を保持または格納するための物理およびその他のコンピュータ読取可能媒体を含む。このようなコンピュータ読取可能媒体は、汎用または専用コンピュータシステムからアクセス可能な、利用できる任意の媒体であればよい。コンピュータ実行可能命令を格納するコンピュータ読取可能媒体は、コンピュータ記憶媒体(装置)である。コンピュータ実行可能命令を保持するコンピュータ読取可能媒体は、伝送媒体である。このように、限定する訳ではなく一例として、本発明の実施形態は、明確に異なる少なくとも2種類のコンピュータ読取可能媒体、すなわち、コンピュータ記憶媒体(装置)と伝送媒体とを含み得る。
コンピュータ記憶媒体(装置)は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD−ROM)、ソリッドステートドライブ(「SSD」)(たとえばRAMに基づく)、フラッシュメモリ、相変化メモリ(「PCM」)、その他のタイプのメモリ、その他の光ディスク記憶、磁気ディスク記憶もしくはその他の磁気記憶装置、または、コンピュータ実行可能命令もしくはデータ構造の形態の所望のプログラムコード手段を格納するために使用することができかつ汎用もしくは専用コンピュータからアクセス可能な、その他任意の媒体を、含み得る。
「ネットワーク」は、コンピュータシステムおよび/またはモジュールおよび/またはその他の電子デバイス間における電子データの搬送を可能にする1つ以上のデータリンクとして定義される。情報をネットワークまたは別の通信接続(ハードワイヤード、ワイヤレス、またはハードワイヤードまたはワイヤレスの組み合わせ)を介してコンピュータに転送または提供するとき、コンピュータは、この接続を正しく伝送媒体とみなす。伝送媒体は、コンピュータ実行可能命令またはデータ構造の形態の所望のプログラムコード手段を搬送するために使用することができかつ汎用または専用コンピュータからアクセス可能な、ネットワークおよび/またはデータリンクを含み得る。これらを組み合わせたものも、コンピュータ読取可能媒体の範囲に含まれなければならない。
さらに、コンピュータ実行可能命令またはデータ構造の形態のプログラムコード手段は、各種コンピュータシステムコンポーネントに到達すると、伝送媒体からコンピュータ記憶媒体(装置)に(またはその逆に)自動的に転送することができる。たとえば、ネットワークまたはデータリンクを介して受けたコンピュータ実行可能命令またはデータ構造は、ネットワークインターフェイスモジュール(たとえば「NIC」)内のRAMにバッファすることができ、その後、最終的には、コンピュータシステムのRAMにおよび/またはコンピュータシステムの低揮発性コンピュータ記憶媒体(装置)に転送することができる。RAMはまた、ソリッドステートドライブ(SSDまたはペリフェラルコンポーネントインターコネクト拡張(PCIx)ベースのリアルタイムメモリ階層記憶装置、たとえばFusionIO)を含み得る。よって、コンピュータ記憶媒体(装置)は、伝送媒体も(または伝送媒体を主としてすら)利用するコンピュータシステムコンポーネントに含まれ得ることが、理解されるはずである。
コンピュータ実行可能命令は、たとえば、プロセッサで実行されると、汎用コンピュータ、専用コンピュータ、または専用処理装置に、特定の機能または一群の機能を実行させる、命令およびデータを含む。コンピュータ実行可能命令は、たとえば、アセンブリ言語またはさらにはソースコードのような、バイナリ中間フォーマット命令であってもよい。主題を構造的特徴および/または方法論的作用に固有の表現で説明してきたが、以下の請求項において定められる主題は必ずしも上記特徴または作用に限定される訳ではないことが理解されねばならない。それよりもむしろ、上記特徴および作用は、請求項を実現する形態の例として開示される。
パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラマブルコンシューマ電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、携帯情報端末(PDA)、タブレット、ページャ、ルータ、スイッチ、各種記憶装置などを含む、多種のコンピュータシステム構成を有するネットワークコンピューティング環境において、本発明を実施し得ることを、当業者は理解するであろう。また、本発明は、ローカルコンピュータシステムおよびリモートコンピュータシステムがネットワークを介して(ハードワイヤードデータリンク、ワイヤレスデータリンク、またはハードワイヤードおよびワイヤレスデータリンクの組み合わせのいずれかによって)リンクされどちらもタスクを実行する、分散型システム環境で実施することもできる。分散型システム環境におおいて、プログラムモジュールは、ローカルメモリ記憶装置およびリモートメモリ記憶装置双方に配置することができる。
本発明の実施形態は、クラウドコンピューティング環境でも実現できる。この説明および以下の請求項において、「クラウドコンピューティング」は、仮想化を通して素早くプロビジョニングされ最小の管理労力またはサービスプロバイダとのやり取りを伴ってリリースされその後しかるべくスケーリングされることができる、設定可能なコンピューティングリソース(たとえばネットワーク、サーバ、記憶装置、アプリケーション、およびサービス)の共有プールに対する、ユビキタスで便利なオンデマンドのネットワークアクセスを可能にする手法として、定義される。クラウド手法は、さまざまな特徴(たとえば、オンデマンドセルフサービス、ブロードネットワークアクセス、リソースプーリング、迅速な拡張性、測定サービスなど)、サービス(たとえばサービスとしてのソフトウェア(SaaS)、サービスとしてのプラットフォーム(PaaS)、サービスとしてのインフラストラクチャ(IaaS))、およびデプロイ(たとえばプライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウドなど)で、構成することができる。本発明に関して説明するデータベースおよびサーバは、クラウド手法に含めることができる。
さらに、必要に応じて、本明細書に記載の機能は、ハードウェア、ソフトウェア、ファームウェア、デジタルコンポーネント、またはアナログコンポーネントのうちの1つ以上で実行することができる。たとえば、1つ以上の特定用途向け集積回路(ASIC)を製造する、または、フィールドプログラマブルゲートアレイ(FPGA)をプログラムすることにより、本明細書に記載のシステムおよび手順のうちの1つ以上を実施することができる。以下の説明および請求項では、特定の用語を使用して特定のシステムコンポーネントに言及する。コンポーネントは異なる名称で呼ばれる場合もあることを当業者は理解するであろう。この文書は、機能ではなく名称が異なるコンポーネントを区別することは意図していない。
図1は、発話に関連する情報を自動で視覚的に提示することを容易にするコンピュータアーキテクチャ100を示す。示されているように、コンピュータアーキテクチャ100は、デバイス102、104、および108と、ネットワーク記憶装置113とを含む。デバイス104はさらにディスプレイ106を含む。デバイス108はさらに、配信モジュール109と、バッファ111と、検索モジュール112とを含む。
デバイス102および104は、通信ネットワークを介して相互に通信することが可能な電子/デジタルデバイスである(たとえば携帯電話、コンピュータシステムなど)。また、デバイス102および104の各々は、音声通信の伝送を容易にするマイクおよびスピーカー(図示せず)のようなコンポーネントを含み得る。たとえば、人物101は、デバイス102のある場所またはその近くで話すことができる。デバイス102の中にあるマイクは、音響エネルギ(音波)を電気エネルギ(音声信号)に変換する。デバイス102は、(場合によってはデジタルフォーマットの)音声信号をデバイス104に送信する。音声信号は、発話をネットワークを介してデバイス104に伝えることができる。デバイス104は、音声信号をネットワークを介して受信する。デバイス104の中にあるスピーカーは、音声信号を、人物101の話を再生する音響エネルギ(音波)に戻すように変換する。そうすると、人物107は、人物101が話したことを聞くことができる。人物107の音声も同様にデバイス104からデバイス102に伝送される。このように、人物101および107は、それぞれデバイス102および104を用いて、互いに言葉による会話を行うことができる。
ある局面において、通信ネットワーク(たとえばセルラーネットワーク、無線ネットワークなど)は、1つ以上の通信チャネルを、デバイス102および104による使用のために割り当てる。ある局面では、1つのチャネルを割り当てることにより、デバイス102と104との間における音声通信の単方向の伝達を容易にする。別の局面では、複数のチャネルを割り当てることにより、デバイス102と104との間における音声通信の双方向の伝達を容易にする。
一般的に、デバイス108は、デバイス102と104との間の通信チャネル、ネットワーク接続などをモニタリングするように構成されている。デバイス108は、デバイス102と104との間で伝送されるNLEのような音声信号を傍受することができる。検索モジュール112は、必要であれば自動音声認識(automatic speech recognition)(ASR)を用いて、傍受されたNLEの内容に基づきNLEの内容に関連する検索語を作成することができる。NLEに適用されるNLUおよびドメイン知識は、フィルタ、追加用語、または、NLEでは明確に表現されていない関連情報などの、追加の検索パラメータを生成することができる。1つ以上の検索手順が可能である。検索モジュール112は、たとえばウェブサイト、オンラインデータベース、ソーシャルメディアネットワークなどのような、ネットワーク記憶場所に、検索語を含むクエリをサブミットすることができる。関連情報の検索は、ドメイン情報に従って拡大することができる。たとえば、今後数日におけるテニスの試合またはホテルの検索は、テニスの試合またはホテルの日付および場所の天気に関する関連情報を含むように拡大してもよい。ネットワーク記憶場所は、クエリに応じて、さまざまな検索語に適合する情報の場所を特定しこの情報を返すことができる。このように、ネットワーク記憶場所は、デバイス102と104と間で伝送される(したがって人物101と107との間の会話にも関連する)NLEの内容に関連する情報を返すことができる。
デバイス108は、ネットワーク記憶場所から返された関連情報をバッファ111にバッファリングすることができる。バッファ111は、システムメモリ内のキャッシュとして維持することができる、または、より持続性の高い記憶装置に依存することができる。配信モジュール109は、いつ関連情報が人物の関心を引くことができるかを予想することができる。具体的には、配信モジュール109は、傍受されたNLEの情報の内容自体およびその他の特徴(サイズ、ソースデバイスなど)、傍受されたその他のNLEの内容およびその他の特徴(伝達頻度、サイズ、ソースデバイスなど)、人物(101または107)に関する知識および彼らの現在の目的と意図、ならびに過去の対話に基づいて、関連情報に対する人物の関心を予想することができる。その他のNLEは、傍受されたNLEよりも前または後に、傍受することができる。
配信モジュール109は、関連情報を、バッファ111から、傍受されたNLEを受けたデバイスに、この関連情報が人物の関心を引く前に届くように、送信することができる。
図2は、発話に関連する情報を自動で視覚的に提示するための方法の一例のフローチャート200を示す。方法200を、コンピュータアーキテクチャ100内のコンポーネントおよびデータとの関連で説明する。
方法200は、第1のデバイスから第2のデバイスに電子的に送信される自然言語表現を傍受することを含み、自然言語表現は、第1のデバイス102を使用する第1の人物101と第2のデバイス104を使用する第2の人物107との間の会話に含まれる。NLE103などの発話は、先ず傍受され(201)、その後、その自然言語内容が解析される。たとえば、デバイス108は、NLE103がデバイス102からデバイス104に電子的に送信されるときに、NLE103を傍受することができる。NLE103は、人物101と人物107との間の会話の一部である。傍受した自然言語発話(NLE103)を、NLU技術を用いて解析する。このような解析は、コンテンツワード、トピック、または発話の意図を認識することができるであろう。NLU解析の使用については以下でさらに説明する。
方法200は次に、NLE103から抽出された、いずれかのコンテンツワード、トピックまたは意図を含む、NLU解析結果に基づいて、ネットワーク記憶場所に格納されている、自然言語表現に関連する情報の場所を、特定する(202)。たとえば、検索モジュール112は、必要であればASRを用い、かつ場合によってはNLUおよびドメイン知識を用いて、NLE103の内容から、1つ以上のクエリ116を作成することができる。検索モジュール112は、1つ以上のクエリ116を、ローカルディスクおよびデータベースならびにネットワーク記憶場所を含む、1つ以上の記憶装置113に、サブミットする。記憶装置113は、デバイス108から1つ以上のクエリ116を受けることができる。記憶装置113は、これに応じて、関連情報114を特定して返す。関連情報114は、NLE103に関連する情報であればよい。
また、方法200は、自然言語表現103から抽出された任意のコンテンツワード、トピック、または意図に基づき、かつ、現在までの会話に基づき、第2の人物の関心のモデルを更新することを含む。いくつかの局面に従うと、ある人物の関心のモデルは、ユーザプロファイルの一部として格納される長期データ構造である。これは、天気、スポーツ、および株価のようなトピックのリストを含む。いくつかの局面に従うと、ある人物の関心のモデルは、Facebook、Mark Zuckerberg、および株式のティッカーシンボルFB、ならびに人物の子供たちの名前のような、特定のエンティティを含む。いくつかの局面に従うと、ある人物の関心のモデルは、ある意図、トピック、またはエンティティのようなコンテンツワードに関連する、その人物が作成したまたは受けた表現の頻度または最新度に基づく、関心のレベルの表示を含む。
ある局面において、意図(intent)は、スロット値のペアで表され、NLUは主としてNLEからこのようなペアを抽出する。たとえば、NLEが「find me a flight from San Francisco to Seattle(サンフランシスコ発シアトル行きのフライトを探して)」である場合、スロット値のペアは、(INTENT,“FLIGHT_RESERVATION)、(FLIGHT_FROM,“SFO”)、(FLIGHT_TO,“SEA”)、(CITY_FROM,“SAN FRANCISCO”)、(CITY_TO,“SEATTLE”)、対応する日付および時間情報、ならびに、(TOPIC,“TRAVEL”)、のようなものを含み得る。
このような実施形態において、対話の各発話は、スロット値ペアのセット(「バンドル」)を生成し、会話は、複数のこのようなバンドルが一続きになったものとして要約される。いくつかの局面に従うと、これらのバンドルは、JavaScript(登録商標) Object Notation(JSON)または拡張可能なマークアップ言語(XML)を用いて記述されたデータ構造として格納され送信される。上記一続きを、会話の簡単な要約(quick summary)として使用することができる。
このような実施形態において、ある人物の関心のモデルは、この要約に基づいて更新することができる。たとえば、空港エンティティ(「SFO」および「SEA」)、都市エンティティ(「SAN FRANCISCO」および「SEATTLE」)、トピック(「TRAVEL」)、および表現の意図(「FRIGHT_RESERVATION」)はすべて、このモデルの一部になり得る。現在までの会話についての各スロット値ペアに、個別の関連度重みを与えてもよい。連続するバンドル内のスロット値ペアの関連度重みを、蓄積するかそうでなければ組み合わせることにより、第2の人物の関心のプロファイルを、エンティティおよび関連度重みのリストとして作成することができる。重みを蓄積することは、「SFO」からの2つのフライトに関する問い合わせのように情報に互換性がある場合に、適切である。重みを組み合わせることは、「What if I flew to Vancouver instead?(代わりにバンクーバーへのフライトにしてはどうだろうか)」という表現の後で「SEA」の重みを減じるなど、その他の形態を取ることができる。その他の実施形態において、ある人物の関心のモデルは、各々が関連度重みを有するトピック、意図およびエンティティからなる単純なセットよりも複雑な形態を取り得る。モデルのパワーおよび複雑度は、NLUシステムの理解の深さを反映する。たとえば、より賢いシステムは、否定、仮定、ナビゲーション、時系列または特定の日付のイベントの計画などを理解し得る。それでもなお、上述の比較的単純な技術は、現在までの会話に基づいて個人の関心のモデルを更新するのに十分であろう。
いくつかの局面に従うと、方法200はまた、人物の関心のモデルに基づいて、場所を特定した情報の関連度スコアを計算することを含む。情報の位置は、「シアトルの天気」のような特定の検索語に基づく検索クエリに従って特定される。上述のような関連度重みに基づくモデルの実施形態において、関連度スコアの計算は単純である。ある局面では、モデル内に一致するものがない検索語の関連度スコアを低く設定し、モデル内に一致するものがある検索語の関連度スコアは、このモデル内におけるこの検索語の関連度重みである。より複雑な変形例では、「FLIGHT_TO」city(都市へのフライト)に対する「weather(天気)」の関連度重みを用い「Seattle(シアトル)」の関連度重みで乗算することにより、「Seattle weather(シアトルの天気)」の関連度スコアを得る。
いくつかの局面に従うと、方法200はまた、場所を特定した情報の関連度スコアをしきい値と比較することを含む。このしきい値は、固定してもよく、または、正規化要求を反映するようにスケーリングしてもよい。しきい値は、場所を特定した情報が十分にある場合は、送信する情報が少なくなるように、増大する必要がある。これにより、帯域幅を減じることができるとともにシステムユーザを過剰な情報で圧倒することを避けることができる。
方法200は、情報を、この情報が第2の人物の関心を引くと予想されるときまで、バッファリングすることを含む(203)。たとえば、デバイス108は、関連情報114をバッファ111にバッファリングすることができる。配信モジュール109は、NLE103の内容およびその他の特徴(サイズ、ソースデバイスなど)、受けたその他のNLEの内容およびその他の特徴(伝達頻度、サイズ、ソースデバイスなど)、人物101および/または107についての知識などに基づいて、人物107が関連情報114に関心を持つタイミングを予想することができる。
関連度スコアのしきい値よりも大きい場合、方法200は、情報を、第2の人物に対して表示するために第2のデバイスに送信することを含む(204)。たとえば、配信モジュール109は、関連情報114が人物107の関心を引く前にデバイス104に届くように、関連情報114をデバイス104に送信することができる。
デバイス104は、関連情報114をデバイス108から受信することができる。デバイス104は、関連情報114をディスプレイ106に表示することができる。関連情報114をディスプレイ106に表示することにより、NLE103の内容の洞察を人物107に提供することができる。ある局面において、関連情報114は、NLE103がデバイス104のスピーカーから出力されるのと同時に(たとえば出力された時点またはほぼその時点で)表示される。
図3は、発話に関連する情報を自動で視覚的に提示することを容易にするコンピュータアーキテクチャ300を示す。示されているように、コンピュータアーキテクチャ300は、デバイス302および304と記憶装置313とを含む。デバイス304はさらに、ディスプレイ306と、配信モジュール309と、バッファ311と、検索モジュール312とを含む。
デバイス302および304は、通信ネットワークを介して相互に通信することが可能な電子/デジタルデバイスである(たとえば携帯電話、ビデオ会議ユニット、コンピュータシステムなど)。また、デバイス302および304は各々、音声通信の伝達を容易にするマイクおよびスピーカー(図示せず)のようなコンポーネントを含み得る。たとえば、人物301は、デバイス302のある場所またはその近くで話すことができる。デバイス302の中にあるマイクは、音響エネルギ(音波)を電気エネルギ(音声信号)に変換する。デバイス302は、(場合によってはデジタルフォーマットの)音声信号をデバイス304に送信する。音声信号は、たとえば、話された1つ以上の単語、話された句、話された文などのようなNLEを、ネットワークを介してデバイス304に伝えることができる。デバイス304は、音声信号をネットワークを介して受信する。デバイス304の中にあるスピーカーは、音声信号を、人物301の話を再生する音響エネルギ(音波)に戻すように変換する。そうすると、人物307は、人物301が話したことを聞くことができる。人物307の音声も同様にデバイス304からデバイス302に伝送される。このように、人物301および307は、それぞれデバイス302および304を用いて、言葉による会話を行うことができる。
ある局面において、通信ネットワーク(たとえばセルラーネットワーク、無線ネットワークなど)は、1つ以上の通信チャネルを、デバイス302および304による使用のために割り当てる。ある局面では、1つのチャネルを割り当てることにより、デバイス302と304との間における音声通信の単方向の伝達を容易にする。別の局面では、複数のチャネルを割り当てることにより、デバイス302と304との間における音声通信の双方向の伝達を容易にする。
検索モジュール312は、デバイス304で受信したNLEをモニタリングすることができる。検索モジュール312は、必要であればASRを用いて、受信したNLEの内容に基づきNLEの内容に関連する検索語を作成することができる。検索モジュール112について説明したように、NLUおよびドメイン知識を用いることにより、さらに他の関連性の関係および対応する検索を作成することができる。検索モジュール312は、たとえばローカルディスクドライブ、データストアおよびデータベース、ネットワーク記憶場所、およびウェブアプリケーションプログラミングインターフェイス(API)を含む、記憶装置313に、1つ以上のクエリ316をサブミットすることができる。記憶装置313は、クエリに応じて、検索語に適合する情報を返す。このように、デバイス302からデバイス304に送信された(したがって人物301と307との会話にも関連する)NLEの内容に関連する情報を返すことができる。
デバイス304は、記憶装置から返された関連情報をバッファ311にバッファリングすることができる。バッファ311は、システムメモリ、または、より永続性が高い記憶装置であってもよい。配信モジュール309は、いつ関連情報が人物307の関心を引くかを予想する。配信モジュール309は、受信したNLEの内容およびその他の特徴(サイズ、ソースデバイスなど)、受信したその他のNLEの内容およびその他の特徴(伝達頻度、サイズ、ソースデバイスなど)、人物301および/または307についての知識などに基づいて、関連情報における人物307の関心の対象を予想することができる。その他のNLEは、受信したNLEよりも前または後に、受信することができる。
配信モジュール309は、バッファ311からの関連情報を、この関連情報が人物307の関心を引くと予想されたときに、ディスプレイ306に表示することができる。
図4は、発話に関連する情報を自動で視覚的に提示するための方法の一例のフローチャート400を示す。方法400を、コンピュータアーキテクチャ300内のコンポーネントおよびデータとの関連で説明する。
方法400は、自然言語表現を第1のデバイスで受信することを含み、自然言語表現は第2のデバイスから第1のデバイスに電子的に送信され、自然言語表現は、第1のデバイスを使用する第1の人物と第2のデバイスを使用する第2の人物との間の会話に含まれる(401)。たとえば、デバイス304はNLE303を受信することができる。デバイス302は、NLE303を、人物301と人物307との間の会話の一部としてデバイス304に送信することができる。
方法400は本質的には方法200と同様に作用する。本明細書の他の場所に記載されているNLU技術を用いて自然言語発話(NLE303)を解析する。このような解析は、キーワード、動作を表す単語、エンティティ、トピックおよび意図を認識することができる。自然言語表現303から抽出された、コンテンツワード、トピックまたは意図に基づいて、コンピュータ読取可能媒体に格納された、自然言語表現に関連する情報を、特定することができる(402)。たとえば、検索モジュール312は、本明細書の他の場所で説明したように、必要に応じてASRを用い、場合によってはNLUおよびドメイン知識を用いて、NLE303の内容から1つ以上のクエリ316を作成することができる。検索モジュール312は、1つ以上のクエリ316を、ローカルディスクおよびデータベースならびにネットワーク記憶場所を含む1つ以上の記憶装置313にサブミットすることができる。このような記憶装置313は、クエリ316をデバイス308から受けることができる。記憶装置313は、これに応じて関連情報114を特定することができる。関連情報314は、NLE303に関連する情報であってもよい。
方法400は、情報を、この情報が第2の人物の関心を引くと予想されるときまで、バッファリングすることを含む(403)。たとえば、デバイス304は、関連情報314をバッファ311にバッファリングすることができる。配信モジュール309は、NLE303の内容およびその他の特徴(サイズ、ソースデバイスなど)、受けたその他のNLEの内容およびその他の特徴(伝達頻度、サイズ、ソースデバイスなど)、人物301および/または307についての知識などに基づいて、人物307が関連情報314に関心を持つタイミングを予想することができる。
方法400は、情報を、この情報が第2の人物の関心を引くと予想された時点で、第1のデバイスに表示することを含む(404)。たとえば、配信モジュール309は、バッファ311からの関連情報314をディスプレイ306に表示することができる。関連情報314をディスプレイ306に表示することにより、NLE303の内容の洞察、したがって人物301と307との間の会話の洞察を、人物307に提供することができる。ある局面において、関連情報314は、NLE303がデバイス304のスピーカーから出力されるのと同時に(たとえば出力された時点またはほぼその時点で)表示される。
たとえば、NLEが、ホテルへのチェックインに関するものでありユーザが空港内で移動している場合、配信モジュール309は、ホテルアドレスを、ユーザがタクシーの列に並んでいるときに配信するよう予定する。別の例において、人々は、野球の話をしているとき、通常は、最初に得点を尋ね、次にどのイニングかを尋ね、次にどちらのチームが攻撃側かを尋ね、次にボールとストライクのカウントを尋ねる。NLEが野球の試合の得点に関するものであった場合、検索モジュール312は、ゲームスタッツデータ記憶ソース313に、得点、イニング、攻撃チーム、およびカウントをクエリする。デバイス304は、関連情報314を受けてバッファ311に格納する。デバイス304は次に、得点のみを人物307に対して表示する。これは、状況によっては会話に関連しているのが得点のみでありその他の関連情報すべてを表示することは気を散らすことになるので、適切である。しかしながら、人物301がイニング、攻撃チーム、またはカウントに言及している場合、配信モジュール309は、関連情報314すべてがディスプレイ306に表示されるようにして、人物307が、関心を持っている情報すべてを、人物301または人物307がその情報を明確に要求しなくても、簡単に十分知ることができるようにする。
いくつかの局面に従うと、自然言語ドメインは、関連するタイプの情報および関連情報を表示する条件を示す規則に従ってプログラムされる。いくつかの局面に従うと、機械学習アルゴリズムは、多数のユーザの情報要求のパターン、ならびに、多くの会話と、ニューラルネットワークまたはその他予測モデルのような訓練モデルを検出することにより、どのタイプの情報が関連しているかを予測するとともに、NLE内のどのようなトピック、意図、またはエンティティが関連情報の表示を引き起こすかを予測する。
図5は、発話に関連する情報を自動で視覚的に提示することを容易にするコンピュータアーキテクチャ500を示す。示されているように、コンピュータアーキテクチャ500は、デバイス502と記憶装置513とを含む。デバイス502はさらに、ディスプレイ506と、配信モジュール509と、バッファ511と、検索モジュール512と、知覚デバイス517とを含む。
デバイス502は、たとえば、携帯電話、ビデオゲームコンソール、AR/VRヘッドセット、フロントガラスのヘッドアップディスプレイを備えた車両などの、デジタルデバイスであってもよい。また、デバイス502は、マイクおよびスピーカー(図示せず)などのコンポーネントを含み得る。たとえば、デバイス502の範囲内の人物、たとえば人物501および507は、デバイス502のある場所またはその近くで話すことができる。デバイス502の中にあるマイクは、音響エネルギ(音波)を電気エネルギ(音声信号)に変換する。デバイス504の中にあるスピーカーは、音声信号を、たとえば音声を再生する音響エネルギ(音波)に戻すように変換する。
ある局面において、人物501はデバイス502を着用する。知覚デバイス517はマイクに接続することができる。知覚デバイス517は、マイクによってピックアップされた、言葉によるメッセージを受け、NLEを検出することができる。知覚デバイス517は、NLEを検索モジュール512に送ることができる。
検索モジュール512は、必要であればASRを用いて、受けたNLEの内容に基づきNLEの内容に関連する検索語を作成することができる。検索モジュール112について説明したように、NLUおよびドメイン知識を用いることにより、さらに他の関連性の関係および対応する検索を作成することができる。検索モジュール512は、たとえばディスクドライバ、データストア、データベース、ウェブAPIなどの記憶装置に、検索語を含むクエリをサブミットすることができる。記憶装置は、クエリに応じて、検索語に適合する情報を返すことができる。このように、記憶装置は、デバイス502において得られたNLEの内容に関連する情報を返すことができる。
デバイス502は、記憶装置から返された関連情報をバッファ511にバッファリングすることができる。バッファ511は、システムメモリ、または、より永続性が高い記憶装置であってもよい。配信モジュール509は、いつ関連情報が人物501の関心を引くかを予想することができる。配信モジュール509は、検出されたNLEの内容およびその他の特徴(サイズなど)、検出されたその他のNLEの内容およびその他の特徴(検出頻度、サイズなど)、人物501および/または507についての知識などに基づいて、関連情報に対する人物501の関心を予想することができる。その他のNLEは、検出したNLEよりも前または後に、検出することができる。
配信モジュール509は、バッファ511からの関連情報が人物501の関心を引くと予想されたときに、バッファ511からの関連情報をディスプレイ506に表示することができる。
図6は、発話に関連する情報を自動で視覚的に提示するための方法の一例のチャート600を示す。方法600を、コンピュータアーキテクチャ500内のコンポーネントおよびデータとの関連で説明する。
方法600は、言葉によるメッセージを発した人物の近傍に物理的に存在するデバイスで、言葉によるメッセージを知覚することを含む(601)。たとえば、知覚デバイス517は、人物507が発した、言葉によるメッセージ503を知覚することができる。知覚デバイス517は、言葉によるメッセージ503をNLEに変換することができる。知覚デバイス517は、NLEを検索モジュール512に送ることができる。
方法600は、コンピュータ読取可能媒体に格納された言葉によるメッセージに関連する情報の場所を特定することを含む(602)。たとえば、検索モジュール512は、検索モジュール112について説明したように、必要であればASRを用い、場合によってはNLUおよびドメイン知識を用いて、NLEの内容から1つ以上のクエリ516を作成することができる。方法200について説明したように、NLU技術を用いて、NLEを解析することにより、コンテンツワード、トピック、または意図を認識することができる。検索モジュール512は、ローカルディスクおよびデータベース、ネットワーク記憶場所、ならびにウェブAPIを含む、1つ以上の記憶装置513に、1つ以上のクエリ516をサブミットすることができる。記憶装置513は、これに応じて、関連情報514を特定することができる。関連情報514は、NLE503に関連する情報であってもよい。
方法600は、場所を特定した情報を、この場所を特定した情報が別の人物の関心を引くと予想されるときまで、バッファリングすることを含む(603)。たとえば、デバイス502は、関連情報514をバッファ511にバッファリングすることができる。配信モジュール509は、NLEの内容およびその他の特徴(サイズなど)、検出したその他のNLEの内容およびその他の特徴(検出頻度、サイズなど)、人物501および/または507についての知識などに基づいて、人物501が関連情報514に関心を持つタイミングを予想することができる。
方法600は、情報が他方の人物の関心を引くと予想された時点で、この情報をデバイスに表示することを含む(604)。たとえば、配信モジュール509は、バッファ511からの関連情報514をディスプレイ506に表示することができる。関連情報514をディスプレイ506に表示することにより、言葉によるメッセージ503の洞察を人物501に提供することができる。
自然言語理解(NLU)
本明細書に記載されるすべての実施形態において、自然言語表現は、それを受けたときに、当該技術で周知のNLU技術のうちのいずれかを用いて解析することができる。NLU解析は、キーワードマッチング、品詞の検出、動作を表す単語の検出、エンティティの検出、部分パース、または全体のパースを含み得る。NLU解析は、解析されたNLEの意味を表わす解釈を構成することができる。キーワードのようなコンテンツワードの認識を用いることにより、トピックを示唆することができる。NLEの解析は、その意図の認識を含み得る。
抽出されたキーワードまたはコンテンツワード、動作を表す単語、エンティティ、トピックまたは意図または解釈を含む、NLU解析の結果に基づいて、システムは次に、自然言語表現に関連する情報の場所を特定する検索を実行することができる。検索は、たとえば、解釈を検索クエリにマッピングすることにより、または、コンテンツワードをトピックに関連付けることにより、ドメイン知識を活用することができる。システムによっては、演繹的推理が、関連情報の場所を特定する際の検索を補う。次に、以下で説明する技術を用いて、関連情報の関連度を求める。
ある局面において、解釈は、NLU技術によりNLEから抽出されたスロット値のペアとして表現される。たとえば、NLEが「find me a flight from San Francisco to Seattle(サンフランシスコ発シアトル行きのフライトを探して)」である場合、関連するスロット値のペアは、(INTENT,“FLIGHT_RESERVATION)、(FLIGHT_FROM,“SFO”)、(FLIGHT_TO,“SEA”)、(CITY_FROM,“SAN FRANCISCO”)、(CITY_TO,“SEATTLE”)、同様のスロット値フォーマットの日付情報、および、(TOPIC,“TRAVEL”)のような追加情報、のようなものを含み得る。
このような実施形態において、会話における各発話(NLE)は、スロット値ペアのセット(「バンドル」)を生成し、会話は、複数のこのようなバンドルが一続きになったものとして表わすことができる。いくつかの局面に従うと、バンドルは、JavaScript Object Notation(JSON)または拡張可能なマークアップ言語(XML)を用いて記述されたデータ構造として格納され送信される。後述のように、この一続きを、会話の簡単な要約(quick summary)として使用することができ、ある人物の関心のモデルを構築するための基礎となることができる。
いくつかの局面に従うと、方法600はまた、人物の関心のモデルに基づいて、場所を特定した情報の関連度スコアを計算することを含む。情報の位置は、「シアトルの天気」のような特定の検索語に基づく検索クエリに従って特定される。
上述のような関連度重みに基づくモデルの実施形態において、関連度スコアの計算は単純である。ある局面では、モデル内に一致するものがない検索語の関連度スコアを低く設定し、モデル内に一致するものがある検索語の関連度スコアは、このモデル内におけるこの検索語の関連度重みである。より複雑な実施形態では、「FLIGHT_TO」city(都市へのフライト)に対する「weather(天気)」の関連度重みを用い「Seattle(シアトル)」の関連度重みで乗算することにより、「Seattle weather(シアトルの天気)」の関連度スコアを得る。
データフロー
図7〜図16はそれぞれ、発話に関連する情報を視覚的に提示するためのデータフロー700〜1600を示す。データフロー700〜1600は、アーキテクチャ100、300、および500、ならびに示され説明された必要な特徴のサブセットを含むその他のアーキテクチャにおいて、実現することができる。データフロー700〜1600を用いて、方法200、400、および600を補う、および/またはこれらの方法に代わるようにすることができる。データフロー700〜1600に記載されている要素は、他の組み合わせおよび/または順序で用いることもできる。
より具体的には、図7は、自然言語表現に応じて情報を表示するためのデータフロー700を示す。データフロー700において、人物711は参加ユーザ712と会話している。人物711からNLEを取り込む(713)。トピックを、たとえばNLEに対してNLUを実行することによって特定する(714)。
ある局面において、1つのNLEから複数のトピックを特定する。ドメイン文法を用いることで、1つ以上のトピックを認識することができる。トピックはまた、キーワードに対応付けられる。計算した関連度スコアは、複数のトピック各々について、ある表現が各トピックに対応している確率を示すことができる。
トピックに関連し、かつNLEに関連がありそうな情報を検索する(715)。この検索に応じて返された情報を、参加ユーザ712に対して表示する(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
NLEに関連する情報は、ブラウザタブに、または他の情報の隣に表示することができる。NLEに関連する複数の情報を、コンテンツカテゴリによってグループ分けされおよび/または関連度によって分類された複数の情報とともに、表示することができる。また、複数の情報は、時系列で、たとえば人物711が、きっかけとなる自然言語表現を発話したときに、提示することができる。
たとえばテキストベースのインターフェイス、オーディオインターフェース、ビデオインターフェイスなどの、各種インターフェイスを用いることにより、NLEを取り込むことができる。ある局面において、テキストベースのインターフェイスは、テキストとして表現された自然言語を取り込む。別の局面において、音声ベースのインターフェイスは、たとえばローカルまたはリモートマイクによって取り込まれた音声信号のような音声信号に対し、自動音声認識を実行することにより、話された自然言語表現を認識する。いくつかのインターフェイスは、生成された図形またはテキストを透明ガラスの上に重ねることにより、拡張現実体験または車両のヘッドアップディスプレイを作り出す。リアルタイム・リアルライフキャプションシステムなどのその他のインターフェイスは、関連情報を、限られたその他の図形要素(もしあれば)とともに表示する。
関連度スコアおよびしきい値
図8は、関連度スコアを用いて、自然言語表現に応じて情報を表示するためのデータフロー800を示す。補助システムが、関連度の低い(または無関係の)情報で会話を妨害するまたは混乱させてはならない。
データフロー800において、人物711からNLEを取り込む(713)。たとえばNLEに対してNLUを実行することにより、トピックを特定する(714)。トピックに関連し、かつNLEに関連がありそうな情報を検索する(715)。
検索に応じて返された情報について関連度スコアを計算し、この関連度スコアをしきい値と比較する(827)。関連度スコアがしきい値よりも高い場合、返された情報を参加ユーザ712に対して表示する(716)。関連度スコアがしきい値よりも低い場合は返された情報を表示しない。
関連度スコアは、少なくとも部分的に、会話履歴を含む履歴の特定の側面に従う検索結果のランキング(および対応する表示決定)に影響を与える既存のルールに基づくものであってもよい。関連度スコアを計算するときは、最新のクエリまたは表現からのフォアグラウンドトピックと、(以前の会話からの)バックグラウンドトピックを区別してもよい。関連度スコアを計算するときは、会話の参加者の役割も考慮してもよい。たとえば、第1の人物がある物体について説明するとき、第1の人物はその姿を思い浮かべているので、この物体を見る必要はないが、この会話に加わっている第2の人物にとっては、この物体の姿を見ることは有益であろう。したがって、第1の人物よりも第2の人物について、この物体により高い関連度スコアを与えるのが適切であろう。
関連度スコアは、少なくとも部分的に、履歴の特定の側面とともに、検索結果のランキング(および対応する表示決定)に動的に影響を与える、明確なユーザ入力に基づくものであってもよい。たとえば、ユーザは、関連する可能性がある物体の名称をタップすることで、さらなる詳細を、直ちにおよび将来に、得ることができる。別の例において、システムが構成インターフェイスを提供してもよく、このインターフェイスにおいて参加ユーザは個人プロファイルの一部として関心リストを特定することができる。
視覚パネル(または任意のグラフィカル要素)を閉じるような降格アクションにより、広いトピックとは限らないが特定のトピックを降格させることができる。たとえば、特定の書籍に関する情報を却下すると、その関連度スコアは低下するだろうが、その書籍の著者のまたは書籍全般のトピックの関連度スコアは低下しないであろう。ユーザが選択したUIアクションに応じて、降格アクションの影響は、わずかなトピック降格から、トピックを完全に遮断するより強力なトピック降格まで、多様である可能性がある。逆に、昇格アクションは、ある要素に対応付けられた一組のトピックまたはより広いトピックを、昇格させることができる。複数の局面は、ある要素のテキストの選択をサポートすることにより、テキストが記述するトピックまたは局面を昇格させる。クリック、スワイプ、またはその他のジェスチャーを含むさまざまなUIアクションを用いることにより、降格(削除を含む)および昇格が可能である。
複数のトピックからの選択
図9は、複数のトピックに対する自然言語表現に応じて情報を表示するためのデータフロー900を示す。ある局面において、1つ以上のトピックを、可能性がある複数の、関心のあるトピックから、選択する。たとえば、関連度スコアをトピックごとに計算することができ、選択は、関連度スコアに基づいて行ってもよい。
データフロー900において、人物711は参加ユーザ712と会話している。人物711からNLEを取り込む(713)。関心がある複数のトピックを特定する(934)。トピックごとに関連度スコアを計算し、1つ以上のトピックを選択する(937)。この1つ以上のトピックに関連し、かつNLEに関連がありそうな情報を検索する(935)。あるトピックの関連度スコアがしきい値よりも高い場合、このトピックに対応付けられた、返された情報を、参加ユーザ712に対して表示する(716)。関連度スコアがしきい値よりも低い場合は返された情報を表示しない。
また、検索はトピックのスコアに基づいていてもよい。関連度スコアがしきい値よりも高いトピックを検索することができる。ある局面において、関連度スコアがより高い複数のトピックを検索する。複数のトピックを検索することができ、各トピックの関連度スコアに従って表示空間を残しておくことができる。
繰り返しの回避
図10は、複数のトピックに対する自然言語表現に応じて情報を表示するためのデータフロー1000を示す。一連の自然言語表現の間、会話が1つのトピックに留まっている場合がある。このように、ある人物が同一のトピックについて複数の自然言語表現を発話する可能性がある。
1つのシステム設計リスクとして、第1の人物711が同一トピックについて複数の自然言語表現を発しシステムが同一情報を複数回表示するリスクがある。これを回避するための各種方法が存在し得る。
データフロー1000はデータフロー700と同様である。人物711は、参加ユーザ712と会話している。しかしながら、あるトピックを特定した後に、検査を実行することにより、このトピックが最近のトピックのリストに含まれているかを判断する。たとえば、データフロー1000において、人物711からNLEを取り込む(713)。たとえばこのNLEに対してNLUを実行することにより、トピックを特定する(714)。
特定したトピックがトピックのリスト1048に含まれているか否かを判断する(1047)。特定したトピックがトピックのリスト1048に含まれている場合、このトピックは削除してもよい。一方、特定したトピックがトピックのリスト1048に含まれていない場合、特定したトピックをトピックのリスト1048に追加する。また、特定したトピックがトピックのリスト1048に含まれていないとき、このトピックに関連し、かつNLEに関連がありそうな情報を検索する(715)。参加ユーザ712に対してこの検索が表示されるのに応じて、情報が返される(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
トピックは、指定された長さの期間、トピックのリスト1048に保持できる。この期間の長さは、トピックの重要度および/または永続性に応じて決まるものであってもよい。重要度は、トピックに、その構想に応じて割り当てることができ、たとえば、救急のトピックにはレシピのトピックよりも高い重要度を与える。また、重要度は、ユーザプロファイル、場所、または最近の会話履歴から得られる重みに応じてスケーリングすることもできる。たとえば、建物の中において、商品価格は、店舗への方向よりも重要度が高いかもしれないが、自動車の中では、店舗への方向の方が価格よりも重要度が高いかもしれない。永続性は、具体的なユーザプロファイルとの関連で判断することができる。たとえば、住所録において星印が付けられた連絡先は、会話の永続的な話題であるとみなすことができる。システムは、このような星印付きの連絡先についての関連情報を、デバイスローカルのバッファにおいて維持することができる。
図11は、情報を繰り返すことなく自然言語表現に応じて情報を表示するためのデータフロー1100を示す。データフロー1100はデータフロー700と同様である。人物711は、参加ユーザ712と会話している。しかしながら、情報を検索し特定した後に、検査を実行することにより、この情報が情報のデータベースに含まれているか否かを判断する。データフロー1100を用いることで、各種トピックの検索から繰り返し情報が特定されたときに繰り返し情報の表示を防止することができる。たとえば、データフロー1100において、人物711からNLEを取り込む(713)。トピックを、たとえばNLEに対してNLUを実行することによって特定する(714)。トピックに関連し、かつNLEに関連がありそうな情報を検索する(715)。
検索に応じて返された情報が過去情報のデータベース1158に含まれているか否かを判断する(1157)。返された情報が過去情報のデータベース1158に含まれている場合、表示についてこの情報は無視してもよい。一方、返された情報が過去情報のデータベース1158に含まれていない場合、この情報を過去情報のデータベース1158に追加する。また、返された情報が過去情報のデータベース1158に含まれていない場合、返された情報を参加ユーザ712に対して表示する(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
情報は、この情報が存在している間において、およそ参加ユーザ712がトピックを憶えていそうな長さの期間、過去情報のデータベース1158に保存することができる。過去情報のデータベース1158に保存された情報は、リフレッシュ等なしで参加ユーザ712が覚えていそうな期間の後に、繰り返し表示のために検討することができる。
データフロー1000および1100の局面を併用することにより、情報の繰り返し検索および繰り返し表示をそれぞれ防止することができる。情報を検索するか否かまたは表示するか否かの判断は、トピックまたは返された情報それぞれについて計算した関連度に基づいていてもよい。ある局面において、表現される頻度が低いトピックまたはコンセプトに対して高い関連度値が計算される。包括的な頻度計算を、会話の参加者のうちのいずれかまたはすべての参加者の個々のプロファイルについての頻度によってスケーリングすることができる。このように、他方では、ある局面において、極めて高い頻度で表現されるトピックまたはコンセプトについては高い関連度値が計算される。また、流行のトピックもしくはコンセプトについて、または人物の位置もしくは人物のカレンダー上のイベントに関連するトピックもしくはコンセプトについて、より高い関連度値が計算されてもよい。
関連度値は、たとえば、整数、浮動小数点数またはストリングとして表わすことができる。関連度値をしきい値と比較することにより、情報を検索するか否かおよび/または表示するか否かを判断することができる。しきい値は、表示されている他の情報の頻度または最新度に基づいて動的に変動し得る。あるトピックまたはコンセプトに対する関連度値を、同一の自然言語表現から最近表示されたまたは取り込まれたその他のトピックまたはコンセプトの関連度値と比較することができる。
コンセプトの特定
図12は、検索のためにコンセプトを用いて自然言語表現に応じて情報を表示するためのデータフロー1200を示す。ある局面において、検索入力は、トピックよりも粒度が細かくなるように選択され、たとえば、トピック内のコンセプト(粒度がより細かい分類)を選択する。コンセプトは、自然言語表現において言及されたエンティティ値(たとえば人々、場所、または物事)であってもよい。また、コンセプトは、そのインスタンスが任意の教師、任意の都市、または任意の被服製品である、Teachers(教師)、Cities(都市)、または、被服製品(Articles_of_Clothing)のようなエンティティのクラスであってもよい。自然言語質問回答システムにおいて、スロットタイプがエンティティクラスであってもよく、もしあれば、対応するスロットのエンティティ値がクラスのインスタンスである。エンティティクラスは引数であってもよく、エンティティ値はデータソースにアクセスするためのアプリケーションプログラミングインターフェイス(API)の引数の値であってもよい。いくつかの実施形態において、情報の検索はウェブAPI要求を通して行われる。
データフロー1200はデータフロー700と同様である。人物711は、参加ユーザ712と会話している。しかしながら、トピックを特定した後に、コンセプトを特定し、このコンセプトの情報を検索する。たとえば、データフロー1200において、人物711からNLEを取り込む(713)。トピックを、たとえばNLEに対してNLUを実行することによって特定する(714)。
コンセプトを特定する(1267)。このコンセプトに関連し、かつNLEに関連がありそうな情報を検索する(1265)。検索に応じて返された情報を参加ユーザ712に対して表示する(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
いくつかの局面では、コンセプトを、トピックを特定せずに特定する。
ユーザの関心モデル
自然言語表現の解析に続いて、自然言語表現103から抽出された任意のコンテンツワード、トピック、または意図に基づき、かつ現在までの会話に基づき、人物の関心のモデルを更新してもよい。いくつかの局面に従うと、ある人物の関心のモデルは、ユーザプロファイルの一部として格納される長期データ構造である。これは、天気、スポーツ、および株価のようなトピックのリストを含む。いくつかの局面に従うと、ある人物の関心のモデルは、Facebook、Mark Zuckerberg、および株式のティッカーシンボルFB、ならびに人物の子供たちの名前のような、特定のエントリを含む。いくつかの局面に従うと、ある人物の関心のモデルは、ある意図、トピック、またはエンティティのようなコンテンツワードに関連する、その人物が作成したまたは受信した表現の頻度または最新度に基づく、関心のレベルの表示を含む。
先に述べた例において、「find me a flight from San Francisco to Seattle(サンフランシスコ発シアトル行きのフライトを探して)」というNLEは、(INTENT,“FLIGHT_RESERVATION)、(FLIGHT_FROM,“SFO”)、(FLIGHT_TO,“SEA”)、(CITY_FROM,“SAN FRANCISCO”)、(CITY_TO,“SEATTLE”)、日付情報、および(TOPIC,“TRAVEL”)のようなスロット値のペアのバンドルで表される。会話の各発話は、スロット値ペアのバンドルを生成し、会話は複数のこのようなバンドルが一続きになったものとして要約することができる。
ある人物の関心のモデルは、この要約に基づいて更新することができる。たとえば、空港エンティティ(「SFO」および「SEA」)、都市エンティティ(「SAN FRANCISCO」および「SEATTLE」)、トピック(「TRAVEL」)、および表現の意図(「FRIGHT_RESERVATION」)はすべて、このモデルの一部になる。このモデルにおいて、現在までの会話における各スロット値ペアに、個別の関連度重みを与え、連続するバンドル内のスロット値ペアの関連度重みを、蓄積するかそうでなければ組み合わせることにより、第2の人物の関心のプロファイルを、エンティティおよび関連度重みのリストとして作成することができる。重みを蓄積することは、「SFO」からの2つのフライトに関する問い合わせのように情報に互換性がある場合に、適切である。重みを組み合わせることは、「What if I flew to Vancouver instead?(代わりにバンクーバーへのフライトにしてはどうだろうか)」という表現の後で「SEA」の重みを減じるなど、その他の形態を取ることができる。
上記比較的単純な技術を用いることにより、現在までの会話に基づいて人物の関心のモデルを更新することができる。その他の実施形態において、人物の関心のモデルは、各々が関連度重みを有するトピック、意図、およびエンティティからなる単純なセットよりも複雑な形態を取り得る。モデルのパワーおよび複雑度は、NLUシステムの理解の深さを反映する。たとえば、より賢いシステムは、否定、仮定、ナビゲーション、時系列または特定の日付のイベントの計画などを理解し得る。
他の情報を要求
図13は、自然言語表現に応じて情報を表示しかつ他の情報を求める要求を受け入れるためのデータフロー1300を示す。本発明の局面は、人物が、どの情報が見えるかを制御し、関連があると思われる情報にアクセスすることを、可能にする。人物は他の情報を要求することもできる。
データフロー1300において、人物711は参加ユーザ712と会話している。人物711からNLEを取り込む(713)。トピックを、たとえばNLEに対してNLUを実行することによって特定する(714)。
ある局面において、1つのNLEから複数のトピックを特定する。ドメイン文法を用いることで、1つ以上のトピックを認識することができる。トピックはまた、キーワードに対応付けることができる。計算した関連度スコアは、複数のトピック各々について、ある表現が各トピックに対応している確率を示すことができる。
トピックに関連し、かつNLEに関連がありそうな情報を検索する(715)。この検索に応じて返された情報を、参加ユーザ712に対して表示する(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
さらに、情報の表示後、参加ユーザ712は、他の情報を要求することができる(1377)。言葉によらないさまざまな技術を用いて他の情報に対するアクセスを制御することができる(よって会話は中断されない)。他の情報は、ディスプレイをタップもしくはスワイプすること、ボタンをクリックすること、眼鏡に対してまばたきすること、またはその他のジェスチャーにより、アイテムまたはリンクまたはテキストの一部を選択することで、要求することができる。いくつかの局面において、他の情報を要求すると、表示画面のオーバレイ内の他の情報、代わりの表示装置内の他の情報、または表示装置内の異なる画面への切換を生じさせる。
参加ユーザ712の電子デバイスは、情報を却下、共有、フィルタリング、および保存するための詳細なコントロールを含み得る。他の情報を求める要求は、表示された情報に関連するさらなる詳細を求める要求を含み得る。他の情報を求める要求に対する応答は、別の小さな情報、またはウェブ検索からの情報のようなより広範囲の情報である可能性がある。
参加ユーザ712の電子デバイスは、どのような情報がユーザ712が却下するのを支援したかを追跡することができる。モデル(たとえばリスト、ニューラルネットワークなど)を、却下された情報で構成することができる。このモデルを用いて、参加ユーザ712の電子デバイスは、将来同じ情報を示すのかまたは関連情報を示すのかを判断することができる。
関心のある領域の考慮
本発明のいくつかの局面は、表示空間内において関心のある領域を検出し、関心のある領域と重ならない位置に表示情報を配置する。さまざまアルゴリズムのうちのいずれかを用いることにより、関心のある領域を判断することができる。たとえば、ビデオ会議システムは、顔位置検出を実行し、顔がない位置に情報を配置することができる。関心のある領域は、視覚的または時間的頻度が高い情報の存在に基づいて検出することもできる。関心のある対象を認識し、このような対象の近くに情報を配置する、または関心のある対象を指し示す矢印もしくは関心のある対象に接するラインとともに情報を配置することができる。このような局面は、たとえば、進行中の自然言語会話に応答する拡張現実眼鏡に用いることができる。
言語の翻訳
図14は、代替の人間言語による自然言語表現に応じて情報を表示するためのデータフロー1400を示す。会話は、局地的に発生する、または、世界の異なる地域において、異なる言語を話す人々の間で発生する可能性がある。本発明の局面は、NLUを1つの言語で実行し、情報の検索を他の1つ以上の言語で実行することができる。
データフロー1400において、人物711は参加ユーザ712と会話している。第1の言語で人物711からNLEを取り込む(1484)。このNLEを第2の言語に翻訳する(1485)。第2の言語でトピックをNLEから特定する(1486)。
第2の言語で、トピックに関連し、かつNLEに関連がありそうな情報を検索する(1487)。この検索に応じて返された情報を、参加ユーザ712に対して表示する(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
他の局面において、翻訳を、トピックの特定後に実行する。さらに他の局面において、翻訳を、検索から返された情報に対して実行する。第2の言語は、参加ユーザ712が理解する言語であってもよい。
ユーザプロファイルおよび環境依存
図15は、特定のユーザについての関連度に基づいて自然言語表現に応じて情報を表示するためのデータフロー1500を示す。表示する情報は、人物の関心に基づいておよび/または人物の関心に合わせて調整することができる。
データフロー1500はデータフロー800と同様である。人物711は参加ユーザ712と会話している。しかしながら、関連度スコアは、参加ユーザ712についてのユーザプロファイル情報を用いて計算する。たとえば、データフロー1500において、人物711からNLEを取り込む(713)。トピックを、たとえばNLEに対してNLUを実行することによって特定する(714)。トピックに関連し、かつNLEに関連がありそうな情報を検索する(715)。
検索に応じて返された情報について関連度スコアを計算し、関連度スコアをしきい値と比較する(1597)。関連度スコアは、ユーザプロファイル1598(参加ユーザ712についてのユーザプロファイル)からの情報を用いて計算する。検索に応じて返された情報を、参加ユーザ712に対して表示する(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
関連度は、参加ユーザ712の関心に基づいておよび/または関心を予想するために計算することができる。たとえば、ユーザプロファイル1598が、参加ユーザ712に幼い子供がいることを示す場合、サーカス見物についての検索結果の関連度スコアを、机購入についての検索結果の関連度スコアよりも高くすることができる。同様に、ユーザプロファイル1598が、参加ユーザ712がゴルフストアで頻繁に買い物をすることを示す場合、天気についての検索結果の関連度スコアを、クッキングストアについての検索結果の関連度スコアよりも高くすることができる。
あるトピックについての関連度スコアは、関連情報の検索の前に、ユーザプロファイルの内容に基づいて計算することができる。ユーザプロファイルの内容を用いて、トピックが関心を引くトピックである確率または検索結果がある人物の関心を引く確率を表す関連度スコアに重みを付けることもできる。
いくつかの局面において、関連度の計算は、たとえば、ある人物の位置、時刻、曜日、およびその他場面に応じた事情のような、広くは現在の状況と呼ばれる、その他の外部情報にも基づく。たとえば、ある人物が食料雑貨店にいる場合、クーポンに関連する検索結果の関連度を高くすることができる。
その他の局面において、人物が、特定のトピックまたはコンセプトに対する関心または嗜好を明確に示す。人物の関心は、自然言語表現から解釈することができる。たとえば、ある人物が、システムが提示する天気または交通状況に関心を示すことがある。この天気および交通状況に対する関心も、ユーザプロファイルに格納することができる。このように、ある人物の入力は、学習および個別化を容易にするフィードバックを提供することにより、将来より関連性の高い情報をこの人物に提供することができる。
複数および多数の当事者の会話
図16は、複数の人物からの自然言語表現に応じて情報を表示するためのデータフローを示す。本発明の局面は、2人による会話の参加者双方に関連情報を提供することができる。2人による会話において、各人物に1方向で関連情報が提供される。会話に参加している人々はそれぞれ異なる情報要求を有する。
話す人は誰でもその自然言語表現のトピックについての知識があり、聞く人は誰でもそれほどの知識を持たないであろう。聞き手には、話し手が言っていることに関連する背景情報を提供することができる。背景情報を提供することで、聞き手が、最適に情報が与えられた応答を理解し提供するのを支援する。話し手には、天気または位置に関連する情報のような、話し手のトピックに関連する動的情報の現状を提供することができる。動的情報の現状を提供することで、話し手が一層最新で正確な情報を提供するのを支援する。
本発明の局面はまた、3人以上の人々によるビデオ会議のような、1対N、N対1、および、N対Nの会話をサポートする。各人物は固有の見解を有し得る。すべての人物に対して包括的に表示できる情報と、関心に基づいて一部の参加者に表示する情報とがある。
人物711、712および1607が会話に参加している。人物711から第1のNLEを取り込む(713)。第1のトピックを、たとえば第1のNLEに対してNLUを実行することによって特定する(714)。人物1607から第2のNLEを取り込む(1608)。第2のトピックを、たとえば第2のNLEに対してNLUを実行することによって特定する(1609)。
第1のトピックまたは第2のトピックに関連し、かつ第1のNLEまたは第2のNLEに関連がありそうな情報を検索する(1605)。この検索に応じて返された情報を、参加ユーザ712に対して表示する(716)。情報は、適当なときに、たとえばこの情報が参加ユーザ712の関心を引くと予想されるときに、表示することができる。
このように、本発明の局面は、ビデオ会議システムおよび多人数参加型ゲームなどの、多数の人々との対話をサポートすることができる。リソース管理のために、情報検索頻度を、たとえば5つの自然言語表現ごとにのみ、または10秒ごとにのみといったように、限定することができる。このような検索は、前回の検索以降の時間に表現されたトピックおよび/またはコンセプトに基づくものであってもよい。これにより、一部の参加ユーザにとっては気を散らすまたは混乱を招くものとなり得る、表示情報の頻繁な変更を回避する。
検索される情報
多種多様な情報を検索および表示することができる。ある局面において、人々に関する情報、たとえば、名前、位置、年齢、および関係を検索し表示する。その他の局面において、一般知識情報、たとえば、Wikipedia(登録商標)から入手できるものを検索し表示する。
全体的な動作
図17は、ある実施形態に係る複数のデバイスをサポートするコンピュータアーキテクチャ1700を示す。コンピュータアーキテクチャ1700は、人物1711と人物1712との間の双方向会話の局面を示す。人物1711は、マルチメディアインターフェイスデバイス1713(たとえば携帯電話、コンピュータ、VR/IRヘッドセットなど)を介して音声による通信を行う。マルチメディアインターフェイスデバイス1713は、クライアントとして、ネットワーキングプロトコルを用い、クラウドネットワーク1715を介してサーバ1716に対して通信する。サーバ1716は、仮想接続をクラウドネットワーク1715を介してマルチメディアインターフェイスデバイス1714(たとえば携帯電話、コンピュータ、VR/IRヘッドセットなど)に与える。マルチメディアインターフェイスデバイス1714は、音声通信を仮想接続を介して受信する。人物1712は、同様にして、逆にマルチメディアインターフェイスデバイス1713に対して音声による通信を行うことができる。
図18Aは、媒体インターフェイスに関連するデバイスモジュールを備えたコンピュータアーキテクチャ1800を示す。インターフェイスデバイス1813および1814は各々、1つ以上のマイクにより取り込まれた音声の自動音声認識をサポートする。インターフェイスデバイス1813および1814は各々、1つ以上のスピーカーを介し、合成された音声を含む音声を出力することをサポートする。インターフェイスデバイス1813および1814は各々、ビデオの取り込みおよび表示のためのカメラおよびビデオ表示画面(たとえばディスプレイ108、308または508と同様のもの)を有する。インターフェイスデバイス1813および1814は各々、リアルタイムビデオおよび単方向テレキャストを含む、形式が異なるオーディオおよびビデオ符号化、同期化、圧縮、およびエラー訂正符号化を使用することができる。
NLU1823は、話された表現を、傍受した音声から受けることができる。自然言語理解の結果を用いて、ユーザプロファイル1824および会話履歴1825を構築し維持することができる。また、ユーザプロファイル1824は、以前にわかった情報に依存し得る。会話履歴1825、ユーザプロファイル1824、およびその他の環境情報を用いて、関連情報の選択の理解に影響を与え、関連情報の選択の確率を改善することができる。ある局面において、NLU1823はトピックを出力する。情報モジュール1826はこのトピックを用いて関連情報を検索する。情報モジュール1826を、たとえば検索モジュール112、312、または512のような検索モジュールと一体化するおよび/または連携させることができる。任意の広告モジュール1827は、このトピックを用いて関連広告を検索することができる。情報モジュール1826および広告モジュール1827はいずれも、ユーザプロファイル1824および会話履歴1825を用いることにより、それらの検索結果の関連度を高めることができる。
ディスプレイコントロール1828は情報をインターフェイスデバイス1813に提供する。インターフェイスデバイス1813は、ディスプレイコントロール1828からの情報をビデオ画面に提示することができる。同様に、ディスプレイコントロール1829は情報をインターフェイスデバイス1814に提供する。インターフェイスデバイス1814は、ディスプレイコントロール1829からの情報をビデオ画面に提示することができる。ディスプレイコントロール1828および/またはディスプレイコントロール1829を、たとえば配信モジュール109、309、または509のような配信モジュールと一体化するおよび/または連携させることができる。
このようにして、人物1811および人物1812は各々、それぞれの関心に対する関連性がより高い情報を見る。情報は視覚的に提示されて言葉による双方向会話をサポートする。
ビデオ会議システム
各場合において、会話に関連する情報が自動的に提供される。ボブに対して表示される情報は、会話の進行中のアリスの発言と、近い将来においてボブに関連する可能性が高いこととによって決まる。
図19はビデオ会議システム1900を示す。アリスはビデオ会議端末1930を使用しており、ボブはビデオ会議端末1931を使用している。ユーザは、ネットワーク接続を介して互いに通信している。ビデオ会議端末1930はカメラおよびマイクモジュール1932を含む。同様に、ビデオ会議端末1931はカメラおよびマイクモジュール1933を含む。
以下のアリスとボブとの対話およびある実施形態に係る応答システムアクティビティについて検討する。
アリス:「明日ボストンに行きたい?」
システムはボブに対しボストンについてのWikipediaの序文1937を表示する。
システムはアリスに対しボストンのダンキンドーナツレストランの広告1934を表示する。
ボブ:「行けない。洗濯をしなくては。」
システムはボブに対し洗剤の広告1938を表示する。
アリス:「チャーリーは行く予定。」
システムはアリスに対しチャーリーの3つの連絡先を表示する。
アリスは1つを選択する。
システムはボブに対しチャーリーの写真1939を表示する。
ボブ:「何をするの?」
アリス:「フリスビー(登録商標)か水族館。」
システムはアリスに対し天気予報1935およびニューイングランド水族館のクーポン1936を表示する。
システムはボブのプロファイルに基づいてボブに対しボストンコモンまたはニューイングランド水族館の写真を表示する。
この一例としての対話の進行中、情報は、ビデオディスプレイ上に「カード」で表示される。「カード」はビデオ会議において顔に重ならないように配置される。一方の人物に対し、ダンキンドーナツの広告1934、ボストンの天気予報1935、およびニューイングランド水族館のクーポン1936が提示される。他方の人物に対し、ボストンに関するWikipediaの序文の情報1937、洗剤の広告1938、および第3の人物の写真1939が提示される。
各ユーザは、スワイプジェスチャーを用いることにより、カードをディスプレイから削除することができる。そうでなければ、各カードは特定期間後、たとえば10秒後に消え始める。消えつつあるときに、ユーザがカードをタップすると、カードは鮮明になってそのまま残る。そうでなければ、さらに5秒が経過するとカードは消える。ユーザが鮮明なカードをタップすると、システムは、他の情報を要求すること、または、後で参照するためにカードをカードデッキに保存するためのメニューを提供することなどの、対応するアクションを実行する。カードデッキは、ディスプレイの上部から下向きにスワイプしている間に現れるプルダウンメニューからアクセスできる。
1人の参加ユーザ
図18Aに示される局面は、どちらもシステムから支援を受けている2人のユーザ間で対称に機能する。これに対し、図18Bは、1人のユーザである人物1861のみを支援するコンピュータアーキテクチャ1850を示す。この局面において、システムは、非常に似ているが、相互拡張とは対照的に、個人拡張ツールを人物1861に提供する。人物1862は支援を受けない。あるシナリオにおいて、人物1862は電話線の反対側にいる。別のシナリオにおいて、人物1862は人物1861のデスクの反対側にいてもよく、電話は関与していないが、人物1861のみが関連情報を受ける。第3のシナリオにおいて、人物1862は実際の人物ではないが、人物1861は何らかのテキストを口述している。すべてのシナリオにおいて、人物1861は、会話を妨げることなく、音声に関連する情報を受ける。口述のシナリオにおいて、単語の会話は独白である。図18Bに示される局面は、拡張の性質が一方向であることおよびわずかな相違点を除いて、図18Aの局面と同様である。図18Bにおいて、情報1876の関連度を計算するモジュールが露出しているが、図18Aにおいてその存在は暗示的なものにすぎない。また、図18Bにおいて、1つのデバイス1863がシステム全体の機能を提供する。いくつかの局面において、これはローカル内臓デバイスであるが、図18Aにおいて、デバイス1813は、I/O機能を実行するだけであり、おそらくは、NLUおよびその他の機能をサーバに委ねる。これらは、アーキテクチャのいくつかの変形にすぎない。インターフェイスデバイス1863は、1つ以上のマイクによって取り込まれた音声の自動音声認識をサポートし、これは、1つ以上のスピーカーを介して音声を出力し得る。インターフェイスデバイス1863は、システムが生成した支援情報を表示するために使用される表示画面を有する。
NLU1873は、話された表現を、受信した音声から受けることができる。自然言語理解の結果を用いて、ユーザプロファイル1874および会話履歴1875を構築し維持することができる。また、ユーザプロファイル1874は、以前にわかった情報に依存し得る。会話履歴1875、ユーザプロファイル1874、およびその他の環境情報を用いて、最も関連性が高い情報の理解に影響を与え、その選択を助けることができる。ある局面において、NLU1873はトピックを出力する。情報モジュール1876はこのトピックを用いて関連情報を検索する。情報モジュール1876を、たとえば検索モジュール112、312、または512のような検索モジュールと一体化するおよび/または連携させることができる。任意の広告モジュール(図示せず)は、このトピックを用いて関連広告を検索することができる。情報モジュール1876および広告モジュール1877はいずれも、ユーザプロファイル1874および会話履歴1875を用いることにより、検索の関連度を改善することができる。
ディスプレイコントロール1878は情報をデバイス1863の表示画面に提示する。ディスプレイコントロール1878を、たとえば配信モジュール109、309、または509のような配信モジュールと一体化するおよび/または連携させることができる。方法200その他と同様、情報を受ける側に対する情報の関連度を計算し、この関連度をしきい値と比較することにより、情報を表示するか否かを判断する。画面上の空間は限られていることが多く、情報は関連度の順に表示される。
このシステムにおいて、参加ユーザ1861は、その関心により関連性が高い情報を見る。情報は、双方向の言葉による会話をサポートするために視覚的に提示される。ビデオ会議システムにおいて、動作の対称モードもサポートすることができる。たとえば、システムに対し、支援されていないユーザが無料でアクセスしてもよいが、ユーザ支援システムへのアクセスには料金が要求されることになる。
ウェアラブルデバイス
図20はウェアラブルデバイス2000を示す。ウェアラブルデバイス2000は、ストラップ2042で保持された本体2041を含み、ストラップ2042はクラスプ2043で保持されキーパー2044にたくし込まれる。時計本体2041は、情報を示すディスプレイ2047と、片側の総合制御ボタン2045と、NLEを取り込むためのマイク穴2046とを含む。
時計着用者が友人と電話で会話をしている間、時計は、友人がチャーリー・タンであることを検出し、チャーリーの写真と名前とを表示する。時計は、チャーリーが仕事中であることを示す、チャーリーの位置情報を取得し、その情報を表示する。時計は、NLUを用いて会話を傍受しており、チャーリーと着用者とが、パブ・ハウス・バーで冷たいビールを美味しく飲むことを話していると判断する。時計は、レストラン情報を検索し、パブ・ハウス・バーに入るのは30分待ちであるという情報を発見する。時計はまた、時計の着用者がパブ・ハウス・バーに行くための方向に関する追加情報を取得するためにタップするリンクを提供する。
図21は、仮想現実眼鏡2100を示す。仮想現実眼鏡2100は、可撓性プラスチック筐体内のその他の構成部品のうちの、内部バッテリと通信モジュールと処理モジュールとを含む、右のイヤピースユニット2151を備える。この眼鏡はさらに、可撓性プラスチック筐体内のその他の構成部品のうちの、イヤピースユニット2151の重量にほぼ等しい重量を有するバッテリを含む。重みの均等性は、着用者に対し、釣り合いが取れた感覚を与える。最大重量を有するバッテリは、着用者の鼻の上にかかる重量を最小にするために、イヤピースユニットの後部近くに位置する。
仮想現実眼鏡2100はさらに、(たとえばコンピュータアーキテクチャ500に関して説明したように)イヤピースユニット2151の中の、参加着用者からの音声を取り込むための近位マイク穴2153を含む。仮想現実眼鏡2100はさらに、イヤピースユニット2152の中の、他の人々からの音声を取り込むための遠位マイク穴2154を含む。
仮想現実眼鏡2100はさらに、眼鏡を着用者の頭部の周りに巻き付けることができるよう、右のイヤピースユニット2151と左のイヤピースユニット2152とを接続するように搭載された左の表示画面2156と右のイヤピースユニットに搭載された右の表示画面2155とを含む。表示画面2155および2156は、対称であることで、着用者の2つの目の間に交感性の視野(sympathetic visual field)を提供する。
表示画面2155および2156は、OLEDガラスディスプレイであってもよい。イヤピースユニット2151内のプロセッサは、表示画面2155および2156を独立して制御することができる。プロセッサは、情報を、見やすくするためまたは着用者の視野に重ねられた着用者に見える情報の量を最大にするために、画面2155および2156のうちの一方または双方に表示することができる。
いくつかの局面は、眼に対する処方に従い矯正レンズとしても作用する表示画面を提供する。
車両のヘッドアップディスプレイ
図22は、(たとえばフロントガラス2261内の)車両ヘッドアップディスプレイ2200を示す。フロントガラス2261は、バックミラー2262およびハンドル2263の後方の運転者が見ることができる。マイク2264は音声を取り込む。内部コンピュータプロセッサシステムが、取り込まれた音声に対してNLUを実行することにより、会話のトピックを判断し、関連情報を検索する。ダッシュボードに埋め込まれたプロジェクタユニット2266が、フロントガラス2261の視野内の表示領域2265上に関連情報を投影する。
運転者が配偶者と電話で会話しており配偶者が運転者に対して帰宅前に食料雑貨店に立ち寄って欲しいと頼む場合がある。会話のトピック「食料雑貨店」は、会話中に受けたNLEから特定することができる。食料雑貨店の位置情報の検索を実行することができる。食料雑貨店「モール・マート」を特定して表示領域2265に方向(たとえば右折して2キロ)とともに提示することができる。
任意で、結果を、出資者に基づいてフィルタリングしてもよい。たとえば、モール・マートがその店舗位置を表示してもらうべくバックエンドサーバプロバイダに料金を支払っている一方で、マム・ショップおよびポップ・ショップは支払っていないという場合がある。
コンピュータ読取可能媒体
図23Aは、一例としての回転ディスク2371を示す。回転ディスク2371は、非一時的なコンピュータ読取可能媒体の一例である(たとえば回転磁気ディスク)。クラウドデータセンターは、磁気ディスクを用いることにより、サーバのためのコードおよびデータを格納することができる。回転ディスク2371は、1つ以上のコンピュータによって実行されると当該コンピュータに本明細書に記載の方法およびデータフローを実行させる命令を含むコードを格納することができる。回転光ディスクおよびその他の機械的に移動する記憶媒体も意図されている。
図23Bは、一例としてのフラッシュランダムアクセスメモリ(RAM)チップ2372を示す。フラッシュランダムアクセスメモリ(RAM)チップ2372は、一例としての非一時的なコンピュータ読取可能媒体である。データセンターは、フラッシュメモリを用いることにより、サーバプロセッサのための命令を含むコードおよびデータを格納する。モバイルデバイスは、フラッシュメモリを用いることにより、システムオンチップデバイス内のプロセッサのための命令を含むコードおよびデータを格納することができる。フラッシュランダムアクセスメモリ(RAM)チップ2372は、1つ以上のコンピュータによって実行されると当該コンピュータに本明細書に記載の方法およびデータフローを実行させる命令を含むコードを格納することができる。リードまたははんだボールでパッケージングされたその他の移動しない記憶媒体も意図されている。
システムオンチップ(SoC)
図24Aは、一例としての、パッケージングされたシステムオンチップ(SoC)2480のはんだボール(下)側を示す。パッケージングされたSoC2480の下側は、プリント回路基板に対する表面実装はんだ付けのためのボールグリッドアレイとともに示されている。各種のチップ実装に対して各種のパッケージ形状およびサイズが可能である。システムオンチップ(SoC)デバイスは、本明細書に記載の埋込システムおよびIoTデバイスの実施形態を制御することができる。
図24Bはシステムオンチップ(SoC)2480のアーキテクチャの一例を示す。システムオンチップ(SoC)2480は、コンピュータプロセッサ(CPU)コア2481のマルチコアクラスタと、グラフィックスプロセッサ(GPU)コア2482のマルチコアクラスタとを含む。プロセッサコアは、揮発性プログラムおよびデータ記憶のために、ネットワークオンチップ2483を介して、オフチップのダイナミックランダムアクセスメモリ(DRAM)インターフェイス2484に接続する。プロセッサコアはまた、フラッシュRAM非一時的コンピュータ読取可能媒体へのコンピュータプログラムコードの不揮発性記憶のために、フラッシュインターフェイス2485に接続する。
SoC2480はまた、GUIを表示するためのディスプレイインターフェイス186と、さまざまな周辺デバイスに適した各種I/Oインターフェイスデバイスに接続するためのI/Oインターフェイスモジュール2487とを含む。I/Oインターフェイスは、タッチスクリーンセンサのようなセンサ、ジオロケーション受信機、マイク、スピーカー、Bluetooth(登録商標)周辺機器、およびUSBデバイス、特にキーボードおよびマウスなどを、可能にする。また、SoC2480はネットワークインターフェイス2488を含む。ネットワークインターフェイス2488は、プロセッサコアが、インターネット(またはその他のネットワーク)に、有線または無線接続を介してアクセスできるようにする。無線接続は、WiFi(登録商標)、3G、4Gロングタームエヴォリューション(LTE)、5G,およびその他ワイヤレスインターフェイス標準無線、ならびにイーサネット(登録商標)接続ハードウェアのような、無線接続である。インターフェイス2484を介してRAMデバイスに格納されたまたはインターフェイス2485を介してフラッシュデバイスに格納された命令を実行することにより、CPU2481およびGPU2482は、本明細書に記載の方法およびデータフローを実行することができる。
サーバ
図25Aは、一例としてのラックベースのサーバ2590を示す。ラックベースのサーバ2590は、複数のラックマウントマルチプロセッササーバブレードを含み得る。複数のラックマウントマルチプロセッササーバブレードの各々は、ネットワーク接続された多種多様なコンピュータプロセッサを含み得る。ネットワーク接続された多種多様なコンピュータプロセッサは、ソフトウェアを並列に実行することができる。
図25Bは、サーバ2590のアーキテクチャの一例を示す。このアーキテクチャは、CPUコア2591のマルチコアクラスタと、GPUコア2592のマルチコアクラスタとを含む。プロセッサは、プログラムコードおよびデータ記憶のために、基板レベルの相互接続2593を介してRAMデバイス2594に接続する。また、サーバシステム2590は、プロセッサがインターネット(またはその他のネットワーク)にアクセスできるようにするネットワークインターフェイス2595を含む。相互接続2593を介してRAMデバイス2594に格納された命令を実行することにより、CPU2591およびGPU2592は本明細書に記載の方法および/またはデータフローを実行することができる。
本明細書において原理、局面、および実施形態を述べている記載は、その構造的および機能的均等物を包含する。
いくつかの実施形態は方法ステップとして示され説明されている。各方法ステップは、いくつかの実施形態におけるシステムコンポーネントと均等であり得る。
本開示は、興味深い各種局面を示す本発明の各種実施形態を説明している。当業者は多くの改変および変形を認識するであろう。改変および変形は、開示された特徴の関連する任意の組み合わせを含む。
各種実施形態は、人間と機械のいずれかまたは人間と機械を組み合わせたものの挙動を使用する方法である。方法の実施形態は、構成するほとんどのステップが行われるのであれば世界中のどこにおいても完成する。いくつかの実施形態は、このような本明細書に記載の方法の命令を格納するように準備された1つ以上の非一時的なコンピュータ読取可能媒体である。必要なコードのいずれかを含む非一時的なコンピュータ読取可能媒体を保持するマシンであればどのようなマシンであっても完全な実施形態を維持する。いくつかの実施形態は、半導体チップのような物理デバイス、このようなデバイスの論理的または機能的挙動のハードウェア記述言語表現、および、このようなハードウェア記述言語表現を格納するように準備された1つ以上の非一時的なコンピュータ読取可能媒体である。
示し説明した例は、特定の音声言語を用いる。各種実施形態は、その他の言語または言語を組み合わせたものに対しても同様に機能する。示し説明した例は、特定の知識ドメインを使用する。各種実施形態は、その他のドメインまたはドメインを組み合わせたものに対しても同様に機能する。
いくつかの実施形態は自動販売機のような据え置き型である。いくつかの実施形態は自動車のような可動型である。いくつかの実施形態は携帯電話のような携帯型である。いくつかの実施形態はキーボードまたはタッチスクリーンのようなマニュアルインターフェイスを含む。いくつかの実施形態は自然言語表現の形態として人間の思考を用いるニューラルインターフェイスを含む。
これまでの記述は例示および説明を目的として示されている。すべてを網羅することを意図している訳でも、開示されている形態そのものに本発明を限定することを意図している訳でもない。上記教示に照らして多数の改変および変形が可能である。さらに、注目すべきことは、上記代替実施形態のうちのいずれかまたはすべてを、本発明のさらに他の混成実施形態を構成することが所望される任意の組み合わせで使用し得ることである。
さらに、本発明の特定の実施形態について説明し示してきたが、本発明は、そのように説明および示した部分の特定の形態または構成に限定されないものとする。本発明の範囲は、以下の請求項、本願および異なる出願で今後提出される請求項、およびそれらの均等物によって定められるものとする。

Claims (19)

  1. コンピュータによって実現される方法であって、前記方法は、
    第1の人物の発話を含む音声信号を受けるステップと、
    前記音声信号に対して音声認識を適用することにより、前記発話に対応する自然言語表現を得るステップと、
    前記自然言語表現を解析することにより、前記自然言語表現に関連するトピックを特定するステップと、
    前記トピックに関連する情報を検索するステップと、
    前記検索から検索結果を取得するステップと、
    前記検索結果を第2の人物に提供させるステップとを含み、
    前記方法は、
    2以上の前記検索結果のそれぞれについて関連度値を計算するステップをさらに含み、前記関連度値は前記検索結果と前記トピックとの間の関連を表し、さらに、前記検索結果が基づく検索語と前記第2の人物の関心のモデルとの間の関連を表し、
    前記モデルは、現在までの前記第1の人物と前記第2の人物との間の会話から特定されたトピックを含むように更新され、
    前記関連度値は、
    前記検索結果が提供される状況に基づき、
    前記検索語が、前記モデル内に一致する語が無い場合は、前記モデル内に一致する語がある場合よりも低く、
    前記検索結果を提供させるステップは、
    前記関連度値に基づいて、前記検索結果が前記第2の人物の関心を引くと予想されるまで、前記検索結果をバッファリングし、前記検索結果が前記第2の人物の関心を引くと予想されると、前記検索結果を前記第2の人物に提供させることを含み、
    前記方法は、
    2以上の前記検索結果を2以上の前記検索結果のそれぞれの前記関連度値に基づいてランキングするステップをさらに含む、方法。
  2. 前記状況は、位置、時刻、および、曜日のうち少なくとも1つを含む、場面に応じた事情である、請求項1に記載の方法。
  3. 前記検索結果を提供させるステップは、前記検索結果を、前記関連度値が関連度値しきい値よりも高いことに応じて提供させることを含む、請求項1または請求項2に記載の方法。
  4. 前記検索結果を提供させるステップは、前記検索結果を、前記検索結果が最も高い前記関連度値を持つことに応じて提供させることを含む、請求項1または請求項2に記載の方法。
  5. 前記トピックについて関連レベルを計算するステップをさらに含み、前記関連レベルは、前記自然言語表現と前記トピックとの間の関連を表し、
    前記検索は、前記トピックに対応する関連レベルが関連レベルしきい値よりも高いことに応じて実行される、請求項1〜請求項4のいずれか1項に記載の方法。
  6. 前記トピックを特定するステップは、前記自然言語表現に関連する複数のトピックを特定することを含み、
    前記方法は、前記複数のトピックのそれぞれについて関連レベルを計算することを含み、前記関連レベルは、前記自然言語表現と前記トピックとの関連を表し、
    前記検索は、前記関連レベルが最も高いトピックに対して実行される、請求項1〜請求項4のいずれか1項に記載の方法。
  7. 前記検索は、前記トピックが最近のトピックのリストに含まれていないことが確認されたことに応じて実行される、請求項1〜請求項4のいずれか1項に記載の方法。
  8. 前記検索結果を提供させるステップは、前記検索結果が最近提供された検索結果のリストに含まれていないことが確認されたことに応じて、前記検索結果を提供させることを含む、請求項1〜請求項7のいずれか1項に記載の方法。
  9. 前記トピックに関連するコンセプトを特定するステップをさらに含み、
    前記検索は、前記コンセプトに関連する情報を検索することによって実行される、請求項1〜請求項8のいずれか1項に記載の方法。
  10. 前記検索結果を第2の人物のみに対して提供させる、請求項1〜請求項9のいずれか1項に記載の方法。
  11. 前記検索結果を提供させた後に、第2の人物から、言葉によらない技術による、他の情報を求める要求を、受けるステップと、
    前記他の情報を取得するステップと、
    前記他の情報を前記第2の人物に対して提供させるステップとをさらに含む、請求項1〜請求項9のいずれか1項に記載の方法。
  12. 前記検索結果を前記第2の人物に対して提供させるステップは、前記第2の人物に対応付けられたウェアラブルディスプレイデバイスの視界の中に前記検索結果を提供させるステップを含む、請求項10または請求項11に記載の方法。
  13. 前記検索結果を前記第2の人物に対して提供させるステップは、
    前記第2の人物に対応付けられたディスプレイ内における顔の位置を検出するステップと、
    前記第2の人物に対応付けられたディスプレイの、前記顔に重ならない部分に、前記検索結果を提供させるステップとをさらに含む、請求項10〜請求項12のいずれか1項に記載の方法。
  14. 前記検索結果を前記第2の人物に対して提供させるステップは、前記第2の人物に対応付けられた車両のヘッドアップディスプレイに前記検索結果を提供させるステップをさらに含む、請求項10〜請求項13のいずれか1項に記載の方法。
  15. 前記自然言語表現は第1の人間言語の自然言語表現であり、
    前記方法は、前記第1の人間言語の前記自然言語表現を、第2の人間言語の自然言語表現に翻訳するステップをさらに含み、前記自然言語表現を解析するステップは、前記第2の人間言語の前記自然言語表現を解析するステップを含む、請求項10〜請求項14のいずれか1項に記載の方法。
  16. 前記第2の人物に関するプロファイル情報を格納するステップをさらに含み、前記関連度値は、前記第の人物の前記プロファイル情報に基づいて計算される、請求項10〜請求項15のいずれか1項に記載の方法。
  17. 前記プロファイル情報はユーザからのフィードバックに依存する、請求項16に記載の方法。
  18. 第3の人物の第2の発話を含む第2の音声信号を受けるステップと、
    前記第2の音声信号に対して音声認識を適用することにより、前記第2の発話に対応する第2の自然言語表現を得るステップと、
    前記第2の自然言語表現を解析することにより、前記第2の自然言語表現に関連する第2のトピックを特定するステップと、
    前記第2のトピックに関連する情報を検索するステップと、
    前記検索の第2の検索結果を取得するステップと、
    前記第2の検索結果を第2の人物に対して提供させるステップとをさらに含む、請求項1〜請求項17のいずれか1項に記載の方法。
  19. コンピュータのコンポーネントによって実行されると前記コンピュータに請求項1〜請求項18のいずれか1項に記載の方法を実行させるコンピュータ読取可能コード。
JP2019136153A 2018-08-02 2019-07-24 自然言語会話に関連する情報の視覚的提示 Active JP6987814B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021152158A JP2022008437A (ja) 2018-08-02 2021-09-17 自然言語会話に関連する情報の視覚的提示

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/052,930 2018-08-02
US16/052,930 US20200043479A1 (en) 2018-08-02 2018-08-02 Visually presenting information relevant to a natural language conversation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021152158A Division JP2022008437A (ja) 2018-08-02 2021-09-17 自然言語会話に関連する情報の視覚的提示

Publications (2)

Publication Number Publication Date
JP2020034897A JP2020034897A (ja) 2020-03-05
JP6987814B2 true JP6987814B2 (ja) 2022-01-05

Family

ID=69227860

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019136153A Active JP6987814B2 (ja) 2018-08-02 2019-07-24 自然言語会話に関連する情報の視覚的提示
JP2021152158A Pending JP2022008437A (ja) 2018-08-02 2021-09-17 自然言語会話に関連する情報の視覚的提示

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021152158A Pending JP2022008437A (ja) 2018-08-02 2021-09-17 自然言語会話に関連する情報の視覚的提示

Country Status (4)

Country Link
US (2) US20200043479A1 (ja)
JP (2) JP6987814B2 (ja)
KR (2) KR102300606B1 (ja)
CN (1) CN110795608A (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210182342A1 (en) * 2018-08-15 2021-06-17 Nippon Telegraph And Telephone Corporation Major point extraction device, major point extraction method, and non-transitory computer readable recording medium
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
US11017001B2 (en) * 2018-12-31 2021-05-25 Dish Network L.L.C. Apparatus, systems and methods for providing conversational assistance
US11769509B2 (en) * 2019-12-31 2023-09-26 Microstrategy Incorporated Speech-based contextual delivery of content
JP6841535B1 (ja) * 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
US11836161B2 (en) * 2020-02-20 2023-12-05 Rovi Guides, Inc. Systems and methods for predicting where conversations are heading and identifying associated content
CN112002186B (zh) * 2020-09-04 2022-05-06 语惠科技(南京)有限公司 一种基于增强现实技术的信息无障碍系统及方法
JP7341111B2 (ja) * 2020-09-30 2023-09-08 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム
US20220188361A1 (en) * 2020-12-11 2022-06-16 Meta Platforms, Inc. Voice-based Auto-Completions and Auto-Responses for Assistant Systems
CN112820284A (zh) * 2020-12-28 2021-05-18 恒大新能源汽车投资控股集团有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
US11539915B2 (en) 2021-03-20 2022-12-27 International Business Machines Corporation Transmission confirmation in a remote conference
LU500105B1 (en) 2021-04-30 2022-11-02 Microsoft Technology Licensing Llc Video conference collaboration
US11880663B2 (en) 2021-06-30 2024-01-23 Microsoft Technology Licensing, Llc Assistant for providing information on unknown topics

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001298555A (ja) * 2000-04-11 2001-10-26 Nippon Tmi Co Ltd 情報通信装置及び情報通信システム
US20050165742A1 (en) * 2003-12-30 2005-07-28 Weisheke Chin Searching previously viewed web sites
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
JP2007304776A (ja) * 2006-05-10 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置
US8024329B1 (en) * 2006-06-01 2011-09-20 Monster Worldwide, Inc. Using inverted indexes for contextual personalized information retrieval
WO2008032329A2 (en) * 2006-09-13 2008-03-20 Alon Atsmon Providing content responsive to multimedia signals
US20080275701A1 (en) * 2007-04-25 2008-11-06 Xiaotao Wu System and method for retrieving data based on topics of conversation
JP2009157460A (ja) * 2007-12-25 2009-07-16 Hitachi Ltd 情報提示装置及び方法
JP2009205579A (ja) * 2008-02-29 2009-09-10 Toshiba Corp 音声翻訳装置およびプログラム
GB2458309A (en) * 2008-03-13 2009-09-16 Business Partners Ltd Search engine
US9491573B2 (en) * 2008-11-06 2016-11-08 Texas Instruments Incorporated Communication device for providing value-added information based upon content and/or context information
JP5347532B2 (ja) * 2009-01-27 2013-11-20 日本電気株式会社 検索サーバ、情報検索方法およびプログラム
US8537980B2 (en) * 2009-03-27 2013-09-17 Verizon Patent And Licensing Inc. Conversation support
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
JP5075895B2 (ja) * 2009-09-18 2012-11-21 株式会社エヌ・ティ・ティ・ドコモ 情報検索システム及び情報検索方法
JP5315289B2 (ja) * 2010-04-12 2013-10-16 トヨタ自動車株式会社 オペレーティングシステム及びオペレーティング方法
US20120004899A1 (en) * 2010-07-04 2012-01-05 Taymoor Arshi Dynamic ad selection for ad delivery systems
US9292093B2 (en) * 2010-11-18 2016-03-22 Alpine Electronics, Inc. Interface method and apparatus for inputting information with air finger gesture
US9092525B2 (en) * 2011-05-09 2015-07-28 Wyse Technology L.L.C. Method and apparatus for searching non-public data using a single search query
US10499118B2 (en) * 2012-04-24 2019-12-03 Skreens Entertainment Technologies, Inc. Virtual and augmented reality system and headset display
JP2014013494A (ja) * 2012-07-04 2014-01-23 Nikon Corp 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム
JP5831764B2 (ja) * 2012-10-26 2015-12-09 カシオ計算機株式会社 画像表示装置及びプログラム
KR20140078258A (ko) * 2012-12-17 2014-06-25 한국전자통신연구원 대화 인식을 통한 이동 단말 제어 장치 및 방법, 회의 중 대화 인식을 통한 정보 제공 장치
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
KR20160139771A (ko) * 2015-05-28 2016-12-07 삼성전자주식회사 전자 장치, 정보 제공 시스템 및 그 정보 제공 방법
US9949056B2 (en) * 2015-12-23 2018-04-17 Ecole Polytechnique Federale De Lausanne (Epfl) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
KR102151626B1 (ko) * 2016-01-12 2020-09-03 네이버 주식회사 통화 중 특정 태스크를 처리하는 장치 및 그 방법
US10216732B2 (en) * 2016-09-07 2019-02-26 Panasonic Intellectual Property Management Co., Ltd. Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
US10085096B2 (en) * 2016-09-30 2018-09-25 Sorenson Ip Holdings, Llc Integration of audiogram data into a device
US10373515B2 (en) * 2017-01-04 2019-08-06 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10102856B2 (en) * 2017-01-20 2018-10-16 Essential Products, Inc. Assistant device with active and passive experience modes
US10440325B1 (en) * 2018-07-17 2019-10-08 International Business Machines Corporation Context-based natural language participant modeling for videoconference focus classification

Also Published As

Publication number Publication date
JP2022008437A (ja) 2022-01-13
JP2020034897A (ja) 2020-03-05
US20200219490A1 (en) 2020-07-09
CN110795608A (zh) 2020-02-14
KR20210111236A (ko) 2021-09-10
KR102300606B1 (ko) 2021-09-10
KR20200015356A (ko) 2020-02-12
US20200043479A1 (en) 2020-02-06

Similar Documents

Publication Publication Date Title
JP6987814B2 (ja) 自然言語会話に関連する情報の視覚的提示
US11861674B1 (en) Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US20210400235A1 (en) Proactive In-Call Content Recommendations for Assistant Systems
US20170277993A1 (en) Virtual assistant escalation
EP4046097A1 (en) Generating proactive content for assistant systems
US20230206912A1 (en) Digital assistant control of applications
US20220358727A1 (en) Systems and Methods for Providing User Experiences in AR/VR Environments by Assistant Systems
US11567788B1 (en) Generating proactive reminders for assistant systems
US20230164106A1 (en) Generating Context-Aware Rendering of Media Contents for Assistant Systems
US20230128422A1 (en) Voice Command Integration into Augmented Reality Systems and Virtual Reality Systems
EP3605527A2 (en) Visually presenting information relevant to a natural language conversation
US20240045704A1 (en) Dynamically Morphing Virtual Assistant Avatars for Assistant Systems
US20240112674A1 (en) Presenting Attention States Associated with Voice Commands for Assistant Systems
US20240161742A1 (en) Adaptively Muting Audio Transmission of User Speech for Assistant Systems
US20230283878A1 (en) Smart Cameras Enabled by Assistant Systems
US20230353652A1 (en) Presenting Personalized Content during Idle Time for Assistant Systems
US20240119932A1 (en) Systems and Methods for Implementing Smart Assistant Systems
WO2024091266A1 (en) System and method for generating visual captions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20210205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210917

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210929

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211201

R150 Certificate of patent or registration of utility model

Ref document number: 6987814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150