JP2021096847A - ユーザの発言に基づくマルチメディア推奨 - Google Patents

ユーザの発言に基づくマルチメディア推奨 Download PDF

Info

Publication number
JP2021096847A
JP2021096847A JP2020204162A JP2020204162A JP2021096847A JP 2021096847 A JP2021096847 A JP 2021096847A JP 2020204162 A JP2020204162 A JP 2020204162A JP 2020204162 A JP2020204162 A JP 2020204162A JP 2021096847 A JP2021096847 A JP 2021096847A
Authority
JP
Japan
Prior art keywords
response
response material
dialogue
topic
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2020204162A
Other languages
English (en)
Inventor
メータ・ニクヒル
Mehta Nikhil
マルアー スリニバサン・ラムヤ
Malur Srinivasan Ramya
マルアー スリニバサン・ラムヤ
チャンダー・アジャイ
Ajay Chander
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2021096847A publication Critical patent/JP2021096847A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザの発言に基づくマルチメディア推奨のための方法及びシステムを提供する。【解決手段】方法は、ユーザの対話及び予めトレーニングされた言語モデルを取得するステップと、対話コーパス及び応答素材コーパスを取得するステップと、予めトレーニングされた言語モデルを変更するステップと、ユーザの対話の対話トピックを識別するステップと、応答トピックセットを識別するステップと、応答素材コーパスから応答素材セットを選択するステップと、第1の複数の確率と、応答素材セットの各応答素材についてそれぞれの第2の複数の確率と、を決定するステップと、第1の複数の単語を、応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較するステップと、比較に基づき応答素材セットの応答素材を選択するステップと、を含む。【選択図】図3

Description

本開示において議論される実施形態は、ユーザの発言に基づくマルチメディアの推奨に関連する。
ユーザの発言に対する適切な応答を識別することは、ラベルのトレーニング無しでは困難である可能性がある。種々のマルチメディアは、ユーザの発言に対して応答するために使用されてよく、ユーザの発言の中で記録された関心事を解決することに関連してよい。種々の方法及びシステムは、ユーザの発言の感情的及び/又はトピック特性に適切に応答するために、ユーザの発言に対する可能な応答を識別しようとする試みにおいて使用されてよい。
本開示で請求される主題は、任意の欠点を解決する実施形態又は上述のような環境でのみ動作する実施形態に限定されない。むしろ、この背景技術は、本開示に記載の幾つかの実施形態が実施され得る一例である技術領域を説明するためにのみ提供される。
方法は、ユーザの対話を取得するステップを含んでよい。前記対話は第1の複数の単語を含んでよい。前記方法は、予めトレーニングされた言語モデルを変更するステップを更に含んでよい。前記方法は、対話コーパスを取得するステップを更に含んでよい。前記対話コーパスは、個人間の複数の通信を含んでよい。前記対話コーパスは、トレーニングラベルを含まなくてよい。前記方法は、応答素材コーパスを取得するステップを含んでよい。前記応答素材コーパスは、個人の通信に対する可能な応答を含んでよい。前記応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられてよい。前記応答素材コーパスは、トレーニングラベルを含まなくてよい。前記方法は、前記対話コーパス及び前記応答素材コーパスを用いて、前記予めトレーニングされた言語モデルを変更して、前記対話コーパスに基づき対話トピックを識別し、前記応答素材コーパスに基づき対話に対する応答を識別するステップを更に含んでよい。前記方法は、前記変更された言語モデルを用いて、前記ユーザの前記対話の対話トピックを識別するステップを更に含んでよい。前記方法は、前記変更された言語モデルを用いて、応答トピックセットを識別するステップを更に含んでよい。前記応答トピックセットの各応答トピックは、前記応答素材コーパスのそれぞれの応答素材に対応してよい。前記方法は、前記応答素材コーパスから応答素材セットを選択するステップを更に含んでよい。前記応答素材セットの各応答素材は、前記対話トピックに一致する前記それぞれの応答素材に対応するそれぞれの応答トピックに基づき選択されてよい。前記方法は、第1の複数の確率を決定するステップを更に含んでよい。前記第1の複数の確率のうちの各確率は、前記変更された言語モデルに基づき、前記第1の複数の単語の中の各単語の発生確率に対応してよい。前記方法は、前記応答素材セットの各応答素材について、それぞれの第2の複数の確率を決定するステップを更に含んでよい。前記それぞれの第2の複数の確率のうちの各確率は、前記変更された言語モデルに基づき、前記応答素材セットの各応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応してよい。前記方法は、前記第1の複数の単語を、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、前記第1の複数の単語とそれぞれの複数の第2の単語との間の類似度を決定するステップを含んでよい。前記方法は、前記比較に基づき、及び前記第1の複数の確率及び前記それぞれの第2の複数の確率が前記応答素材に対応することに基づき、前記応答素材セットの応答素材を選択するステップを更に含んでよい。
実施形態の目的及び利点は、請求項において特に指摘される要素、特徴、及び組み合わせにより少なくとも実現され達成される。
前述の一般的説明及び以下の詳細な説明は両方とも例として与えられ、説明のためであり、請求される本発明の限定ではない。
例示的な実施形態は、以下の添付の図面の使用を通じて更なる特殊性及び詳細事項により記載され説明される。
ユーザの発言に基づきマルチメディアを推奨することに関連する例示的な環境を示す図である。
ユーザの発言に基づきマルチメディアを推奨することに関連する例示的な選択モジュールを示す。
ユーザの発言に基づきマルチメディアを推奨する例示的な方法のフローチャートである。
ユーザの発言に基づきマルチメディアを推奨するよう構成され得る例示的なコンピューティングシステムを示す。
本開示に記載される幾つかの実施形態は、ユーザの発言に基づきマルチメディアを推奨する方法及びシステムに関連する。メンタルヘルスは世界中に広がる問題である。多くの個人は憂鬱に苦しんでおり、それは自殺へと導いてしまうことがある。伝統的に、個人は、メンタルヘルス問題に取り組もうとしてカウンセラと面会している。しかしながら、メンタルヘルス専門家へのアクセスを求める個人の数の増大に伴い、及びメンタルヘルスサービスを使用することに関連付けられる社会的烙印のために、世界中で増加するメンタルヘルス問題を解決する他の方法が有利であろう。
ユーザがメンタルヘルス問題に関する助けを求めるとき、本開示の1つ以上の実施形態は、ユーザに提示されるべきマルチメディアを識別し得る。幾つかの実施形態では、識別されたマルチメディアは、冗談、画像、ビデオ、音声クリップ、及び/又は他のメディアを含んでよい。識別されたマルチメディアは、ユーザの気分を良くするのに役立ち得る。識別されたマルチメディアは、ユーザの注意を他の物事に向けるのに役立ち得る。代替又は追加で、幾つかの実施形態では、識別されたマルチメディアは、カウンセラがユーザに応答するのを助けるために、人間のオペレータ(例えばカウンセラ)に提示されてよい。これら及び他の実施形態では、カウンセラはより多くのユーザに応答可能であってよい。
本開示の種々の実施形態は、ラベル付けされていないトレーニングデータの使用を含んでよい。ラベル付けされていないトレーニングデータの使用は、機械学習モデルを開発するのに必要なコスト及び/又は時間を削減し得る。代替又は追加で、ラベル付けされていないトレーニングデータの使用は、実際の人間の学習を一層近似的にシミュレートし得る。
本開示の実施形態は、添付の図面を参照して説明される。
図1は、本開示に記載される少なくとも1つの実施形態に従い構成される、ユーザの発言に基づきマルチメディアを推奨することに関連する例示的な環境100を示す図である。環境100は、変更モジュール110、及び選択モジュール120を含んでよい。
変更モジュール110は、変更された言語モデル118を取得するために予めトレーニングされた言語モデル112に関してコンピューティング装置に1つ以上の動作を実行させるよう構成されるコード及びルーチンを含んでよい。追加又は代替として、変更モジュール110は、プロセッサ、(例えば、1つ以上の動作を実行する又は実行を制御する)マイクロプロセッサ、FPGA(field−programmable gate array)、又はASIC(application−specific integrated circuit)を含むハードウェアを用いて実装されてよい。幾つかの他の例では、変更モジュール110は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、変更モジュール110により実行されるとして記載される動作は、変更モジュール110が対応するシステムに実行するよう指示し得る動作を含んでよい。
幾つかの実施形態では、変更モジュール110は、予めトレーニングされた言語モデル112を取得してよい。幾つかの実施形態では、変更モジュール110は、1つ以上のネットワークを介して、予めトレーニングされた言語モデル112を取得してよい。幾つかの実施形態では、予めトレーニングされた言語モデル112は、膨大なテキストに基づきトレーニングされたモデルであってよい。予めトレーニングされた言語モデル112の例は、BERT(Bidirectional Encoder Representations from Transformers)及びXLNetを含んでよい。BERTは、特定のトークンが「マスク」トークンによりランダムに置き換えられる場合に、入力から元のデータを再構成することにより、テキストを理解しようとし得る。XLNetは、次の単語を予測するためにコンテキスト単語を使用してよい。幾つかの実施形態では、順列に基づく目的語(permutation−based objective)を使用してよく、全部又は多くの可能な順列を探してよい。幾つかの実施形態では、現在のトークンを予測するコンテキストは、その前の順列の中に現れる全部の単語であってよい。従って、幾つかの実施形態では、事前トレーニングは、膨大なテキストを用いる一般的トレーニングを含んでよい。変更モジュール110は、次に、特定の、より小さな言語データセットを用いて、対話コーパス114及び応答素材コーパス116のような予めトレーニングされた言語モデル112を変更してよい(例えば、機械学習処理で使用されるような微調整)。
幾つかの実施形態では、予めトレーニングされた言語モデル112は、英語テキストの大きなデータグループに基づきトレーニングされてよい。例えば、予めトレーニングされた言語モデル112は、1つ以上のウェブサイト及び1つ以上の書籍を用いてトレーニングされてよい。これら及び他の実施形態では、例えばXLNetでは、モデルが前の単語が与えられた場合に文の現在の単語を予測することを学習するために、ラベル付けデータは必要なくてよい。
幾つかの実施形態では、ラベル付けトレーニングデータの使用は、機械学習モデルの精度及びロバストネスを向上し得る。しかしながら、ラベル付けされたトレーニングデータの取得は困難であり、高価であり、時間がかかり、又は現実的ではないことがある。更に、幾つかの状況では、トレーニングデータの手動ラベル付けは、人間の注釈者の主観及び偏見を導入することがあり、これは結果として生じるラベルを信頼できないものにしてしまう。トレーニングラベルが無い場合、ラベル無しのトレーニングはロバストではない可能性があるので、機械学習モデルのトレーニングに問題を生じ得る。ラベル無しのトレーニングデータを使用することにより、高価なラベル付きトレーニングデータの必要の無い、機械学習モデルが生成され得る。追加で、ラベル無しのトレーニングデータの使用は、人間の学習を一層近似的にシミュレートし得る。
幾つかの実施形態では、変更モジュール110は、更に、対話コーパス114を取得してよい。通常、対話コーパス114は、個人間の対話に関連するテキストの集合であってよい。対話コーパス114は、通信1 115A、通信2 115B、通信3 115Cのような複数の通信115を含んでよい。3つの通信115が示されるが、対話コーパス114は、任意の数の通信115を含んでよい。対話コーパス114は、個人間の対話及び/又は通信に関連するテキストの集合であってよい。例えば、通信1 115Aはテレビ番組のスクリプトであってよく、通信2 115Bは2人以上の人々の間の会話のトランスクリプトであってよく、通信3 115Cは電話会話のトランスクリプトであってよい。代替又は追加で、通信115は他の対話ソースを含んでよい。例えば、通信1 115Aはテレビ番組のスクリプトであってよく、通信2 115Bは第2のテレビ番組のスクリプトであってよく、通信3 115Cは映画のスクリプトであってよい。
幾つかの実施形態では、変更モジュール110は、更に、応答素材コーパス116を取得してよい。通常、応答素材コーパス116は、個人からの対話に対して応答するために使用されてよいマルチメディアの集合であってよい。応答素材コーパス116は、応答素材1 117A、応答素材2 117B、及び応答素材3 117Cのような複数の応答素材117を含んでよい。3つの応答素材117が示されるが、応答素材コーパス116は、任意の数の応答素材117を含んでよい。応答素材117は、ユーザの対話に応答するために使用され得る、冗談、画像、ビデオ、音声、いい思いつきの手がかり、諺、助言、逸話、等を含んでよい。例えば、幾つかの実施形態では、応答素材116は、異なる冗談であってよく、従って、応答素材1 117Aは第1の冗談であり、応答素材2 117Bは第2の冗談であり、応答素材3 117Cは第3の冗談である。幾つかの実施形態では、応答素材117の各々は、応答素材117の評価を含んでよい。例えば、応答素材117Aが冗談である場合、応答素材117Aの評価は、冗談の「おかしさ」の評価であってよい。幾つかの実施形態では、代替又は追加で、応答素材117Bがいい思いつきの手がかり(inspirational quote)である場合、応答素材117Bの評価は、いい思いつきの手がかりの「いい思いつきレベル」の評価であってよい。評価は、応答素材117の定量的及び/又は質的指標であってよい。
幾つかの実施形態では、対話コーパス114は、応答素材コーパス116と無関係及び/又は異なってよい。つまり、応答素材コーパス116の応答素材117は、対話コーパス114の通信115に応答するために特別に意図され及び/又は記述されなくてよい。
幾つかの実施形態では、変更モジュール110は、対話コーパス114及び応答素材コーパス116を用いて、予めトレーニングされた言語モデル112を変更する(例えば、微調整する)よう構成されてよい。幾つかの実施形態では、変更モジュール110は、特定数のステップ、例えば5000ステップの間、予めトレーニングされた言語モデル112を微調整することにより、予めトレーニングされた言語モデル112を変更してよい。上述の及び他の実施形態では、予めトレーニングされた言語モデル112を変更するステップは、言語モデルの初期トレーニングと同じ又は同様の方法であるが、異なるデータセットを用いて実行されてよい。例えば、言語モデルをトレーニングするステップは、任意の用途に特化しない大きなデータセットを使用してよいが、予めトレーニングされた言語モデルを微調整することにより、予めトレーニングされた言語モデルを変更するステップは、特定の用途に合わせられたより小さなデータセットを使用してよい。例えば、上述のように、予めトレーニングされた言語モデル112は、コンテキスト単語に基づき、所与の単語の後にどんな単語が続くかを予測してよい。予測及びモデルは、言語データの大きなグループに基づいてよく、特定種類の言語に専用でなくてよい。従って、対話のような、特定種類の言語のより小さなサンプルが、特定種類の言語を用いるコンテキストで利用されるとき、予めトレーニングされた言語モデル112の予測的動作を向上するために使用されてよい。従って、変更モジュール110は、予めトレーニングされた言語モデル112を生成する際に実行されるトレーニングモジュールと同様のステップを実行してよいが、異なるトレーニングデータセットを使用してよい。
予めトレーニングされた言語モデル112を変更することにより、予めトレーニングされた言語モデル112は、対話及び応答素材に一層良好に適するように、その予測的動作を調整してよい。変更モジュール110は、予めトレーニングされた言語モデル112を変更(例えば微調整)することにより、変更された言語モデル118を取得してよい。
選択モジュール120は、選択された応答素材124を取得するために、変更された言語モデル118に関してコンピューティング装置に1つ以上の動作を実行させるよう構成されるコード及びルーチンを含んでよい。追加又は代替として、選択モジュール120は、プロセッサ、(例えば、1つ以上の動作を実行する又は実行を制御する)マイクロプロセッサ、FPGA(field−programmable gate array)、又はASIC(application−specific integrated circuit)を含むハードウェアを用いて実装されてよい。幾つかの他の例では、選択モジュール120は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、選択モジュール120により実行されるとして記載される動作は、選択モジュール120が対応するシステムに実行するよう指示し得る動作を含んでよい。
幾つかの実施形態では、変更モジュール110及び選択モジュール120は、単一の装置の部分であってよい。代替又は追加で、幾つかの実施形態では、変更モジュール110及び選択モジュール120は、ソフトウェアとして実装されてよい。例えば、変更モジュール110及び選択モジュール120は、ソフトウェアプログラムの中の異なるモジュールとしてプログラムされてよい。
選択モジュール120は、応答素材コーパス116の応答素材117を選択するよう構成されてよい。幾つかの実施形態では、選択モジュール120は、変更モジュール110から変更された言語モデル118を取得してよい。幾つかの実施形態では、選択モジュール120は、更に、ユーザの対話122を取得してよい。幾つかの実施形態では、ユーザの対話122は、インターネットのようなネットワークを介してユーザから受信されたテキストを含んでよい。例えば、ユーザの対話は、ユーザが、ウェブサイト又はアプリケーションを通じてチャットのようなチャットボックスに入力したテキストに対応してよい。代替又は追加で、幾つかの実施形態では、ユーザの対話は、ユーザにより発信された又はユーザに向けられた電話呼のトランスクリプトであってよい。
幾つかの実施形態では、選択モジュール120は、変更された言語モデル118、応答素材コーパス116、及びユーザの対話122に基づき、選択された応答素材124を取得してよい。これら及び他の実施形態では、選択された応答素材124は、応答素材117のうちの1つであってよい。選択モジュール120の動作の更なる詳細は、図2に関して以下に説明される。
環境100の動作の説明は以下の通りである。変更モジュール110は、予めトレーニングされた言語モデル112、対話コーパス114、及び応答素材コーパス116を取得してよい。次に、変更モジュール110は、対話コーパス114及び応答素材コーパス116を用いて、予めトレーニングされた言語モデル112を変更する(例えば、微調整する)ことにより、変更された言語モデル118を生成してよい。幾つかの実施形態では、変更モジュール110は、変更された言語モデル118を周期的に、例えば予めトレーニングされた言語モデル112が更新されるとき、及び/又は新しい応答素材コーパス116の取得に応答して、生成してよい。
ユーザは、対話に従事してよい。例えば、ユーザは、チャットウインドウにテキストを入力し、及び/又はメンタルヘルス専門家との音声又はビデオ呼に三回してよい。選択モジュール120は、ユーザの対話122を取得してよい。選択モジュール120は、次に、ユーザの対話122、変更された言語モデル118、及び応答素材コーパス116に基づき、応答素材コーパス116のうちの特定の応答素材を選択してよい。幾つかの実施形態では、選択モジュール120は、ユーザの対話122を受信する過程で、複数回、応答素材を選択してよい。例えば、選択モジュール120は、ユーザの第1対話122に応答して、第1時点の第1応答素材を選択してよく、ユーザの第2対話122に応答して、第2時点の第2応答素材を選択してよい。つまり、選択モジュール120は、ユーザとの単一の会話の過程の間に、複数の応答素材を識別してよい。代替又は追加で、選択モジュール120は、第1ユーザからの対話122を取得することに応答して、第1応答素材を選択してよく、第2ユーザからの対話122を取得することに応答して、第2応答素材を取得してよい。
幾つかの実施形態では、環境100の幾つかの要素は時間と共に変化してよい。例えば、応答素材コーパス116、変更された言語モデル118、及び/又はユーザの対話122は、時間と共に変化してよい。例えば、変更モジュール110は、複数の応答素材コーパス116を取得してよく、従って複数の変更された言語モデル118を生成してよい。例えば、ある応答素材コーパス116は冗談を含んでよく、別の応答素材コーパス116は諺を含んでよく、他の応答素材コーパス116は画像を含んでよい。変更モジュール110は、冗談応答素材コーパス116に関連付けられた変更された言語モデル118、諺応答素材コーパス116に関連付けられた変更された言語モデル118、及び画像応答素材コーパス116に関連付けられた変更された言語モデル118を生成してよい。
選択モジュール120は、ユーザの異なる特性及び/又はユーザの対話122に依存して、応答素材を選択するよう構成されてよい。例えば、幾つかの実施形態では、ユーザは、ユーザが冗談よりも諺を好むと示してよい。識別されたユーザ選好に基づき、選択モジュール120は、諺を含む応答素材コーパス116に関連付けられた変更された言語モデル118に基づき、応答素材として諺を選択してよい。追加又は代替として、幾つかの実施形態では、選択モジュール120は、ユーザの対話122に基づき及び/又はユーザの他の特性に基づき、ユーザの選好を推定してよい。
変更、追加、又は省略が、本開示の範囲から逸脱することなく図1に対して行われてよい。例えば、環境100は、図示され本開示で説明されるよりも多数又は少数の要素を含んでよい。更に、幾つかの実施形態では、変更モジュール110及び選択モジュール120は、1つのモジュールであってよい。代替又は追加で、幾つかの実施形態では、変更モジュール110及び選択モジュール120、並びに変更モジュール110及び選択モジュール120に関連して議論された動作は、異なるシステムに渡り分散されてよい。
図2は、ユーザの発言に基づきマルチメディアを推奨することに関連する例示的な選択モジュール200を示す。幾つかの実施形態では、選択モジュール120は、図1の選択モジュール120に対応してよい。図2に示すように、選択モジュールは、トピックモジュール210、基準ランク付けモジュール220、及び類似度モジュール230を含んでよい。
選択モジュール210は、応答素材セット218を取得するために、ユーザの対話212、応答素材コーパス214、及び変更された言語モデル216に関してコンピューティング装置に1つ以上の動作を実行させるよう構成されるコード及びルーチンを含んでよい。追加又は代替として、トピックモジュール210は、プロセッサ、(例えば、1つ以上の動作を実行する又は実行を制御する)マイクロプロセッサ、FPGA(field−programmable gate array)、又はASIC(application−specific integrated circuit)を含むハードウェアを用いて実装されてよい。幾つかの他の例では、トピックモジュール210は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、トピックモジュール210により実行されるとして記載される動作は、トピックモジュール210が対応するシステムに実行するよう指示し得る動作を含んでよい。
幾つかの実施形態では、トピックモジュール210は、ユーザの対話212を取得するよう構成されてよい。ユーザの対話212は、図1のユーザの対話122と同様であってよい。幾つかの実施形態では、トピックモジュール210は、1つ以上のネットワークを介して、ユーザの対話212を取得してよい。幾つかの実施形態では、トピックモジュール210は、応答素材コーパス214を取得するよう構成されてよい。応答素材コーパスは、図1の応答素材コーパス116と同様であってよい。幾つかの実施形態では、トピックモジュール210は、1つ以上のネットワークを介して、応答素材コーパス214を取得してよい。幾つかの実施形態では、トピックモジュール210は、変更された言語モデル216を取得してよい。変更された言語モデル216は、図1の変更された言語モデル118と同様であってよく、微調整された言語モデルを含んでよい。幾つかの実施形態では、応答素材コーパス214及び変更された言語モデル216は結合されてよく、及び/又は応答素材コーパス214は変更された言語モデル216の部分であってよい。幾つかの実施形態では、トピックモジュール210は、図1の変更モジュール110のような変更モジュールから、変更された言語モデル216を取得してよい。
幾つかの実施形態では、トピックモジュール210は、応答素材セット218を識別するよう構成されてよい。応答素材セット218の各応答素材は、応答素材コーパスに含まれる応答素材であってよい。幾つかの実施形態では、トピックモジュール210は、応答素材コーパスの各応答素材に関連付けられたトピック、及びユーザの対話212に関連付けられたトピックを識別してよい。これら及び他の実施形態では、トピックモジュール210は、変更された言語モデル216に基づくテキストに関連付けられたトピックを識別してよい。
例えば、変更された言語モデル216が微調整されたXLNetモデルである例では、トピックモジュール210は、ユーザの対話212のXLNetテキスト埋め込み、及び応答素材コーパス214の各応答素材のXLNetテキスト埋め込みを取得してよい。テキスト埋め込みは、ユーザの対話212及び応答素材コーパス214の各応答素材の主な思想をキャプチャしてよい。幾つかの実施形態では、トピックモジュール210は、応答素材コーパスの各応答素材のトピックを、ユーザの対話212のトピックと比較することにより、応答素材セット218を識別してよい。これら及び他の実施形態では、トピックモジュール210は、ユーザ212の対話の埋め込み及び応答素材コーパス214の各応答素材に基づく最近傍(nearest neighbor)アプローチを実行してよい。例えば、トピックモジュール210は、ユーザの対話212に最も近い埋め込みを有する応答素材コーパス214の応答素材を識別するために、FAISS(Facebook AI Similarity Search)を実行してよい。幾つかの実施形態では、トピックモジュール210は、最も近い10個の応答素材、最も近い20個の応答素材、最も近い30個の応答素材、最も近い50個の応答素材、最も近い100個の応答素材、又は任意の数の応答素材を、応答素材セット218として選択してよい。
基準ランク付けモジュール220は、応答素材サブセット222を取得するために、応答素材セット218に関してコンピューティング装置に1つ以上の動作を実行させるよう構成されるコード及びルーチンを含んでよい。追加又は代替として、基準ランク付けモジュール220は、プロセッサ、(例えば、1つ以上の動作を実行する又は実行を制御する)マイクロプロセッサ、FPGA(field−programmable gate array)、又はASIC(application−specific integrated circuit)を含むハードウェアを用いて実装されてよい。幾つかの他の例では、基準ランク付けモジュール220は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、基準ランク付けモジュール220により実行されるとして記載される動作は、基準ランク付けモジュール220が対応するシステムに実行するよう指示し得る動作を含んでよい。
幾つかの実施形態では、基準ランク付けモジュール220は、トピックモジュール210から応答素材セット218を取得するよう構成されてよい。これら及び他の実施形態では、基準ランク付けモジュール220は、応答素材に関連付けられた1つ以上の基準に基づき、応答素材セット218の応答素材を順序付けするよう構成されてよい。幾つかの実施形態では、1つ以上の基準は、応答素材のランク付け又は評価を含んでよい。例えば、応答素材コーパス216の応答素材が冗談である場合、第1基準は各冗談の「おかしさ」を含んでよい。代替又は追加で、第2基準は、各冗談の「年代的妥当性」を含んでよい。応答素材コーパス216の応答素材が諺又はいい思いつきの手がかりである場合、第1基準は、各諺の「洞察に満ちている程度(insightfulness)」、又は各いい思いつきの手がかりの「いい思いつきの程度(inspiration level)」であってよい。幾つかの実施形態では、1つ以上の基準が、例えばウェブサイト上のレビューのようなユーザレビューから取得されてよい。幾つかの実施形態では、応答素材に関連付けられた基準は、ウェブサイト上のレビューのようなユーザレビューを通じて決定されてよい。
幾つかの実施形態では、基準ランク付けモジュール220は、1つ以上の基準に基づき、応答素材セットの各応答素材をソートしてよい。幾つかの実施形態では、応答素材は、基準に関連付けられた閾値を満たす又は満たさない応答素材に基づき、グループにソートされてよい。応答素材が冗談である例に戻ると、応答素材は、ユーザにより1〜5の「おかしさ」の尺度で評価されてよい。「おかしさ」の閾値は、尺度上で3の評価であってよい。3以上の評価を有する応答素材は、「面白い」と考えられてよく、3未満の評価を有する応答素材は「面白くない」と考えられてよい。幾つかの実施形態では、基準ランク付けモジュール220は、応答素材サブセット222として、「面白い」と決定された応答素材セットの応答素材を選択してよい。追加又は代替で、幾つかの実施形態では、基準ランク付けモジュール220は、1つ以上の基準に基づき、応答素材サブセット222として、特定数の応答素材を選択してよい。例えば、応答素材セット218は、30個の応答素材を含んでよく、基準ランク付けモジュール220は、1つ以上の基準に基づき、30個のうちの20個の応答素材を応答素材サブセット222として選択してよい。
幾つかの実施形態では、基準ランク付けモジュール220は、1つ以上の基準に基づき、応答素材をランク付けするよう又は分類するようトレーニングされてよい機械学習分類器を含んでよい。例えば、機械学習分類器は、ラベル付けされた基準を有しない応答素材について基準を推定するために、ラベル付けされた基準を含まない応答素材を、ラベル付けされた基準を含む応答素材と比較してよい。幾つかの実施形態では、基準ランク付けモジュール220は、ユーザ対話に基づき、最も近い冗談を識別するために、最近傍検索分類器を使用してよい。幾つかの実施形態では、基準ランク付けモジュール220は、FAISSを用いて、大きなデータセットへと拡張可能な最近傍検索を実行してよい。
類似度モジュール230は、選択された応答素材232を取得するために、応答素材サブセット222に関してコンピューティング装置に1つ以上の動作を実行させるよう構成されるコード及びルーチンを含んでよい。追加又は代替として、類似度モジュール230は、プロセッサ、(例えば、1つ以上の動作を実行する又は実行を制御する)マイクロプロセッサ、FPGA(field−programmable gate array)、又はASIC(application−specific integrated circuit)を含むハードウェアを用いて実装されてよい。幾つかの他の例では、類似度モジュール230は、ハードウェア及びソフトウェアの組み合わせを用いて実装されてよい。本開示では、類似度モジュール230により実行されるとして記載される動作は、類似度モジュール230が対応するシステムに実行するよう指示し得る動作を含んでよい。
幾つかの実施形態では、類似度モジュール230は、基準ランク付けモジュール220から応答素材サブセット222を取得するよう構成されてよい。幾つかの実施形態では、類似度モジュール230は、ユーザの対話212を取得するよう構成されてよい。これら及び他の実施形態では、類似度モジュール230は、応答素材サブセット222の特定の応答素材を、選択された応答素材232として選択するよう構成されてよい。これら及び他の実施形態では、類似度モジュール230は、応答素材サブセット222の各応答素材が、ユーザの対話212にどれくらい近く関連付けられるかを識別するよう構成されてよい。
幾つかの実施形態では、類似度モジュール230は、ユーザの対話212を、応答素材サブセット222の応答素材の各々と比較するよう構成されてよい。幾つかの実施形態では、類似度モジュール230は、ユーザの対話212の中の各単語に関連付けられた注目スコアを決定してよい。これら及び他の実施形態では、注目スコアは、単語の発生確率であってよい。例えば、ユーザの対話の中の各単語は、該単語の発生確率に対応する注目スコアを有してよい。同様に、応答素材サブセット222の各応答素材の中の各単語は、該単語の発生確率に対応する注目スコアを有してよい。
類似度モジュール230は、ユーザの対話212と応答素材サブセット222との間の単語の各組み合わせの間のコサイン類似度を計算するよう構成されてよい。例えば、類似度モジュール230は、単語の各組み合わせの類似度を決定するために、word2Vec埋め込み(embeddings)からコサイン類似度を決定するよう構成されてよい。代替又は追加で、幾つかの実施形態では、類似度モジュール230は、ユーザの対話212の単語のサブセットと応答素材サブセット222の各応答素材の単語のサブセットとの間のコサイン類似度を計算するよう構成されてよい。例えば、類似度モジュール230は、各単語の注目スコアを識別してよく、ユーザの対話212の各々及び応答素材サブセット222の各応答素材の中で最高の注目スコアを有する10個の単語を選択してよい。類似度モジュール230は、次に、選択された10個の単語から、単語の各組み合わせの間のコサイン類似度を計算してよい。
応答素材サブセットの各応答素材について、類似度モジュール230は、ユーザの対話212の単語の対応する注目スコア及び特定の応答素材の単語の対応する注目スコアにより、各コサイン類似度を重み付けしてよい。幾つかの実施形態では、コサイン類似度は、各単語の埋め込みの間の距離であってよい。類似度モジュールは、重み付けされたコサイン類似度を結合してよい。幾つかの実施形態では、類似度モジュール230は、結合された重み付けされたコサイン類似度を正規化してよい。これら及び他の実施形態では、類似度モジュール230は、選択された応答素材232として、最高の結合された重み付けされたコサイン類似度を有する応答素材のサブセットの応答素材を選択してよい。
一例として、ユーザの対話212は、2つの単語A及びBを有してよい。応答素材サブセット222の第1応答素材は、2つの単語C及びDを有してよい。応答素材サブセット222の第2応答素材は、3つの単語E、F、及びGを有してよい。類似度モジュール230は、ユーザの対話212の中の各単語について、及び応答素材サブセット222の各応答素材の中の各単語について、注目スコア:AS、AS、AS、AS、AS、AS、ASを決定してよい。ここで、ASは特定の単語の注目スコアを表す。幾つかの実施形態では、ASは、特定の単語が生じる確率であってよい。類似度モジュール230は、ユーザの対話212と応答素材サブセットの応答素材の各々との間の類似度も決定してよい。つまり、第1応答素材についてSAC、SAD、SBC、SBDであり、第2応答素材についてSAE、SAF、SAG、SBE、SBF、SBGである。ここで、Sは2つの単語の間の類似度を表す。類似度モジュール230は、次に、ユーザの対話212の中の単語の対応する注目スコア及び応答素材サブセットの応答素材の各々の中の単語の対応する注目スコアにより、各類似度を重み付けしてよい。例えば、ユーザの対話の単語Aと第1応答素材の単語Cとの間の類似度は、AS×AS×SACである。類似度モジュール230は、次に、特定の応答素材の重み付けされた類似度を結合してよく、結合された重み付けされた類似度を正規化してよい:
Figure 2021096847
類似度モジュール230は、次に、最高の正規化された結合された重み付けされた類似度を有する応答素材を選択してよい。
変更、追加、又は省略が、本開示の範囲から逸脱することなく図2に対して行われてよい。例えば、選択モジュール200は、図示され本開示で説明されるよりも多数又は少数の要素を含んでよい。例えば、幾つかの実施形態では、選択モジュール200は、基準ランク付けモジュール220を含まなくてよい。これら及び他の実施形態では、類似度モジュール230は、トピックモジュール210から応答素材セット218を取得してよく、応答素材サブセット222に関連して上述したのと同様の方法で、応答素材セット218の各応答素材の中の単語について、注目スコア及びコサイン類似度を決定してよい。代替又は追加で、幾つかの実施形態では、選択モジュール200は、更に、提示モジュールを含んでよい。これら及び他の実施形態では、提示モジュールは、ユーザに及び/又はユーザと通信する個人に、選択された応答素材232を提示するよう構成されてよい。更に、幾つかの実施形態では、トピックモジュール210、基準ランク付けモジュール220及び類似度モジュール230は、1つのモジュールであってよい。代替又は追加で、幾つかの実施形態では、トピックモジュール210、基準ランク付けモジュール220、及び類似度モジュール230、並びにトピックモジュール210、基準ランク付けモジュール220、及び類似度モジュール230に関連して議論された動作は、異なるシステムに渡り分散されてよい。
図3は、ユーザの発言に基づきマルチメディアを推奨する例示的な方法のフローチャートである。方法300は、本開示に記載された少なくとも1つの実施形態に従い構成されてよい。方法300は、全体又は部分的に、幾つかの実施形態では、それぞれ図1及び4の環境100及び/又はコンピュータシステム402のようなシステム及び/又は環境により実行されてよい。これら及び他の実施形態では、方法300は、1つ以上の非一時的コンピュータ可読媒体に格納された命令の実行に基づき実行されてよい。別個のブロックを示したが、種々のブロックは、所望の実装に依存して、追加ブロックに分けられ、少ないブロックに結合され、又は削除されてよい。
方法300は、ブロック310で開始してよく、ユーザの対話が取得されてよい。対話は第1の複数の単語を含んでよい。幾つかの実施形態では、ユーザの対話は、相談会合の対話であってよい。ブロック320で、応答素材コーパスが取得されてよい。応答素材コーパスは、個人の通信に対する可能な応答を含んでよい。応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられてよい。幾つかの実施形態では、応答素材コーパスの応答素材は冗談であってよい。
ブロック330で、ユーザの対話の対話トピックが識別されてよい。ブロック340で、応答トピックセットが識別されてよい。応答トピックセットの各応答トピックは、応答素材コーパスのそれぞれの応答素材に対応してよい。
ブロック350で、応答素材セットは、応答素材コーパスから選択されてよい。応答素材セットの各応答素材は、対話トピックに一致するそれぞれの応答素材に対応するそれぞれの応答トピックに基づき選択されてよい。幾つかの実施形態では、応答素材セットを選択するステップは、距離セットを識別するステップを含んでよい。距離セットの各距離は、応答トピックセットのそれぞれの応答トピックに対応してよく、それぞれの応答トピックと対話トピックとの間の距離であってよい。距離は、それぞれの応答トピックと対話トピックとの間の類似度を示してよい。距離セットの距離は、ランク付けされてよい。距離グループは、距離のランク付けに基づき選択されてよい。応答素材セットの各応答素材は、距離グループの中にあるそれぞれの応答素材に対応するそれぞれの応答トピックに対応するそれぞれの距離に基づき選択されてよい。
ブロック360で、第1の複数の確率が決定されてよい。第1の複数の確率のうちの各確率は、第1の複数の単語の中の各単語の発生確率に対応してよい。
ブロック370で、それぞれの第2の複数の確率が、応答素材セットの各応答素材について決定されてよい。それぞれの第2の複数の確率のうちの各確率は、応答素材セットの各応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応してよい。
ブロック380で、第1の複数の単語を、応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、第1の複数の単語とそれぞれの複数の第2の単語との間の類似度を決定してよい。
ブロック390で、比較に基づき、及び第1の複数の確率及びそれぞれの第2の複数の確率が応答素材に対応することに基づき、応答素材セットの応答素材が選択されてよい。幾つかの実施形態では、応答素材セットの応答素材が選択するステップは、応答素材セットの応答素材毎に、第1の複数の単語のうちの第1単語と該応答素材に関連付けられたそれぞれの第2の複数の単語のうちの第2単語との各組み合わせについて、類似度スコア及び重みを取得するステップを含んでよい。重みは、複数の第1の確率のうちの第1単語に対応する確率とそれぞれの第2の複数の確率のうちの第2単語に対応する確率とに基づき決定されてよい。各類似度スコアは、それ自体のそれぞれの重みにより重み付けされてよい。重み付けされた類似度スコアは、それぞれの応答素材について、全体類似度スコアを取得するために結合されてよい。各素材は、応答素材のそれぞれの全体類似度スコアに基づき、応答素材セットから選択されてよい。
当業者は、この及び本願明細書に開示される他の処理、動作及び方法について、実行される機能及び/又は動作が異なる順序で実行されてよいことを理解する。さらに、概説された機能及び動作は例として提供されたものであり、機能及び動作の幾つかは、開示した実施形態の本質を減じることなく、任意であり、少ない機能及び動作に結合され、又は追加の機能及び動作に拡張されてよい。幾つかの実施形態では、方法300は、追加のブロック又はより少ないブロックを含んでよい。
例えば、幾つかの実施形態では、方法300は、予めトレーニングされた言語モデルを取得するステップを含んでよい。これら及び他の実施形態では、方法300は、対話コーパスを取得するステップを更に含んでよい。対話コーパスは、個人間の複数の通信を含んでよい。対話コーパスは、トレーニングラベルを含まなくてよい。これら及び他の実施形態では、応答素材コーパスは、トレーニングラベルを含まなくてよい。これら及び他の実施形態では、方法300は、対話コーパス及び応答素材コーパスを用いて、予めトレーニングされた言語モデルを変更して(例えば、微調整して)、対話コーパスに基づき対話トピックを識別し、応答素材コーパスに基づき対話に対する応答を識別するステップを更に含んでよい。これら及び他の実施形態では、ユーザの対話の対話トピックは、変更された言語モデルを用いて識別されてよい。これら及び他の実施形態では、応答トピックセットは、変更された言語モデルを用いて識別されてよい。これら及び他の実施形態では、第1の複数の確率は、変更された言語モデルに基づき決定されてよい。これら及び他の実施形態では、それぞれ第2の複数の確率は、変更された言語モデルに基づき各応答素材について決定されてよい。
代替又は追加で、幾つかの実施形態では、方法300は、選択された応答素材をユーザに提示するステップを含んでよい。
代替又は追加で、幾つかの実施形態では、方法300は、応答素材コーパスに関連付けられた評価に基づき、応答素材セットをランク付けするステップを含んでよい。応答素材サブセットは、応答素材セットのランク付けに基づき選択されてよい。
図4は、本開示の少なくとも1つの実施形態による、例示的なコンピューティングシステム402のブロック図を示す。コンピューティングシステム402は、ユーザの発言に基づくマルチメディア推奨関連付けられる1つ以上の動作を実施する又は支持するよう構成されてよい。コンピューティングシステム402は、プロセッサ450、メモリ452、及びデータ記憶装置454を含んでよい。プロセッサ450、メモリ452、及びデータ記憶装置454は、通信可能に結合されてよい。
通常、プロセッサ450は、種々のコンピュータハードウェア又はソフトウェアモジュールを含む、任意の適切な専用又は汎用コンピュータ、コンピューティングエンティティ、又は処理装置を含んでよく、任意の適切なコンピュータ可読記憶媒体に格納された命令を実行するよう構成されてよい。例えば、プロセッサ450は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム命令を解釈し及び/又は実行し及び/又はデータを処理するよう構成される任意の他のデジタル若しくはアナログ回路を含んでよい。図4には単一のプロセッサとして示されるが、プロセッサ450は、個々に又は集合的に本開示に記載の任意の数の動作を実行する又は実行を指示するよう構成される任意の数のプロセッサを含んでよい。さらに、プロセッサのうちの1つ以上は、異なるサーバのような1つ以上の異なる電子装置上に存在してよい。
幾つかの実施形態では、プロセッサ450は、プログラム命令を解釈し及び/又は実行し、及び/又はメモリ820、データ記憶装置454、又はメモリ452及びデータ記憶装置454に格納されたデータを処理するよう構成されてよい。幾つかの実施形態では、プロセッサ450は、プログラム命令をデータ記憶装置454からフェッチし、プログラム命令をメモリ452にロードしてよい。プログラム命令がメモリ452にロードされた後に、プロセッサ450は、プログラム命令を実行してよい。
例えば、幾つかの実施形態では、図3の方法300は、プログラム命令として、データ記憶装置454に含まれてよい。プロセッサ450は、データ記憶装置454から方法のプログラム命令をフェッチしてよく、方法のプログラム命令をメモリ452にロードしてよい。方法のプログラム命令がメモリ452にロードされた後に、プロセッサ450はプログラム命令を実行し、その結果、コンピューティングシステムは、命令により指示されるように、方法に関連付けられた動作を実施してよい。
メモリ及びデータ記憶装置454は、格納されたコンピュータ実行可能命令又はデータ構造を運ぶ又は有するコンピュータ可読記憶媒体を含んでよい。このようなコンピュータ可読記憶媒体は、プロセッサ450のような汎用又は専用コンピュータによりアクセスされ得る任意の市販の媒体を含んでよい。例として、限定ではなく、このようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD−ROM)、又は他の光ディスク記憶装置、磁気ディスク記憶装置、又は他の磁気記憶装置、フラッシュメモリ素子(例えば、個体メモリ装置)、又はコンピュータ実行可能命令若しくはデータ構造の形式で特定のプログラムコードを運ぶ又は格納するために使用され得る且つ汎用又は専用コンピュータによりアクセスされ得る任意の他の記憶媒体、を含む有形又は非一時的コンピュータ可読媒体を含んでよい。上記の組み合わせも、コンピュータ可読記憶媒体の範囲に含まれてよい。コンピュータ実行可能命令は、例えば、プロセッサ450に特定動作または一群の動作を実行させるよう構成される命令及びデータを含んでよい。
変更、追加、又は省略が、本開示の範囲から逸脱することなくコンピューティングシステム402に対して行われてよい。例えば、幾つかの実施形態では、コンピューティングシステム402は、明示され又は記載されないことのある任意の数の他のコンポーネントを含んでよい。
上述のように、本願明細書に記載の実施形態は、以下に更に詳細に議論されるように、種々のコンピュータハードウェア又はソフトウェアモジュールを含む特定用途向け又は汎用コンピュータ(例えば、図4のプロセッサ450)の使用を含んでよい。更に、上述のように、本開示に記載の実施形態は、格納されたコンピュータ実行可能命令又はデータ構造を有するコンピュータ可読媒体(例えば、図4のメモリ452又はデータ記憶装置454)を用いて実装されてよい。
本開示で使用されるとき、用語「モジュール」又は「コンポーネント」は、モジュール又はコンポーネントの動作を実行するよう構成される特定ハードウェア実装、及び/又は、コンピューティングシステムの汎用ハードウェア(例えば、コンピュータ可読媒体、処理装置、等)により格納され及び/又は実行され得るソフトウェアオブジェクト又はソフトウェアルーチンを表してよい。幾つかの実施形態では、本開示に記載されたものと異なるコンポーネント、モジュール、エンジン、及びサービスが、コンピューティングシステム上で実行するオブジェクト又はプロセス(例えば、別個のスレッド)として実装されてよい。本開示に記載されたシステム及び方法のうちの一部は、概して(汎用ハードウェアに格納される及び/又はそれにより実行される)ソフトウェアで実装されるとして記載されたが、専用ハードウェア実装又はソフトウェア及び専用ハードウェア実装の組み合わせも、可能であり想定される。この記載において、「コンピューティングエンティティ」は、本開示において前述した任意のコンピューティングシステム、又はコンピューティングシステム上で実行する任意のモジュール若しくはモジュールの組み合わせであってよい。
本開示で及び特に添付の特許請求の範囲(例えば、添付の請求項本体)で使用される用語は、通常、「広義」の用語として意図される(例えば、用語「含む」は「含むが、これに限定されない」と解釈されるべきであり、用語「有する」は「有するが、これに限定されない」と解釈されるべきである、等)。
さらに、特定数の導入された請求項の列挙が意図される場合、このような意図は、請求項中に明示的に示され、このような列挙のない場合、このような意図は存在しない。例えば、理解の支援として、以下の添付の請求項は、請求項の列挙を導入するために、導入フレーズ「少なくとも1つ」及び「1つ以上」の使用を含み得る。しかしながら、このようなフレーズの使用は、同じ請求項が導入フレーズ「1つ以上」又は「少なくとも1つ」及び不定冠詞「a」又は「an」を含むときでも(例えば、「a」及び/又は「an」は「少なくとも1つ」又は「1つ以上」を意味すると解釈されるべきである)、不定冠詞「a」又は「an」による請求項の列挙の導入が、このような導入された請求項の列挙を含む任意の特定の請求項を、1つのこのような列挙のみを含む実施形態に限定することを意味すると考えられるべきではない。つまり、同じことが、請求項の列挙を導入するために使用される定冠詞の使用にも当てはまる。
さらに、特定数の導入された請求項の列挙が明示的に記載される場合、当業者は、このような列挙が、少なくとも列挙された数を意味すると解釈されるべきであることを理解する(例えば、他の修飾のない「2つの列挙」の記載は、少なくとも2つの列挙、又は2以上の列挙を意味する)。さらに、「A、B、及びC等のうちの少なくとも1つ」又は「A、B、及びC等のうちの1つ以上」と同様の記載が使用される例では、通常、このような構成は、A単独で、B単独で、C単独で、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、又はA、B、及びCを一緒に、等を含むことを意図する。
さらに、2以上の選択的な用語を表す任意の離接的な語又はフレーズは、説明、請求項、又は図面にあるかにかかわらず、用語のうちの1つ、用語のうちのいずれか、又は両方の用語を含む可能性を想定すると理解されるべきである。例えば、フレーズ「A又はB」は、「A」又は「B」又は「A及びB」の可能性を含むと理解されるべきである。
本開示に記載された全ての例及び条件付き言語は、読者が本開示及び本開示が技術を更に発展させることに貢献する概念を理解するのを支援する教示目的を意図しており、そのような具体的に列挙された例及び条件に限定されないと解釈されるべきである。本開示の実施形態は詳細に記載されたが、本開示の精神及び範囲から逸脱することなく、これらに種々の変更、代替、及び選択が行われ得る。
以上の実施形態に加えて、更に以下の付記を開示する。
(付記1) 方法であって、
ユーザの対話を取得するステップであって、前記対話は複数の単語を含む、ステップと、
予めトレーニングされた言語モデルを取得するステップと、
対話コーパスを取得するステップであって、前記対話コーパスは個人間の複数の通信を含み、前記対話コーパスはトレーニングラベルを含まない、ステップと、
応答素材コーパスを取得するステップであって、前記応答素材コーパスは、個人の通信に対する可能な応答を含み、前記応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられ、前記応答素材コーパスはトレーニングラベルを含まない、ステップと、
前記対話コーパス及び前記応答素材コーパスを用いて、前記予めトレーニングされた言語モデルを変更して、前記対話コーパスに基づき対話トピックを識別し、前記応答素材コーパスに基づき対話に対する応答を識別するステップと、
前記変更された言語モデルを用いて前記ユーザの前記対話の対話トピックを識別するステップと、
前記変更された言語モデルを用いて、応答トピックセットを識別するステップであって、前記応答トピックセットの各応答トピックは、前記応答素材コーパスのそれぞれの応答素材に対応する、ステップと、
前記応答素材コーパスから応答素材セットを選択するステップであって、前記応答素材セットのそれぞれの応答素材は、前記対話トピックに一致する前記それぞれの応答素材に対応するそれぞれの応答トピックに基づき選択される、ステップと、
第1の複数の確率を決定するステップであって、前記第1の複数の確率のうちのそれぞれの確率は、前記変更された言語モデルに基づき、前記第1の複数の単語の中のそれぞれの単語の発生確率に対応する、ステップと、
前記応答素材セットの各応答素材について、それぞれの第2の複数の確率を決定するステップであって、前記それぞれの第2の複数の確率のうちのそれぞれの確率は、前記変更された言語モデルに基づき、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応する、ステップと、
前記第1の複数の単語を、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、前記第1の複数の単語とそれぞれの第2の複数の単語との間の類似度を決定するステップと、
前記比較に基づき、及び前記第1の複数の確率及び前記それぞれの第2の複数の確率が前記応答素材に対応することに基づき、前記応答素材セットの応答素材を選択するステップと、
を含む方法。
(付記2) 前記応答素材コーパスの前記応答素材は冗談である、請求項1に記載の方法。
(付記3) 前記ユーザの前記対話は相談会合である、請求項1に記載の方法。
(付記4) 前記応答素材コーパスから応答素材セットを選択する前記ステップは、
距離セットを識別するステップであって、前記距離セットの各距離は、前記応答トピックセットのそれぞれの応答トピックに対応し、前記それぞれの応答トピックと前記対話トピックとの間の距離であり、前記距離は前記それぞれの応答トピックと前記対話トピックとの間の類似度を示す、ステップと、
前記距離セットの前記距離をランク付けするステップと、
前記距離の前記ランク付けに基づき、距離グループを選択するステップと、
前記応答素材セットを選択するステップであって、それぞれの応答素材は、前記距離グループの中にある前記それぞれの応答素材に対応する前記それぞれの応答トピックに対応するそれぞれの距離に基づき選択される、ステップと、
を含む、請求項1に記載の方法。
(付記5) 前記応答素材セットのそれぞれの素材を選択する前記ステップは、
前記応答素材セットの各応答素材について、
前記第1の複数の単語のうちの第1単語と前記応答素材に関連付けられたそれぞれの第2の複数の単語の中の第2単語との組み合わせ毎に、類似度スコア及び重みを取得するステップであって、前記重みは、前記第1の複数の確率が前記第1単語に対応する確率とそれぞれの第2の複数の確率が前記第2単語に対応する確率とに基づき決定される、ステップと、
類似度スコアのそれぞれの重みにより該類似度スコアを重み付けするステップと、
前記重み付けされた類似度スコアを結合して、前記それぞれの応答素材の全体類似度スコアを取得するステップと、
前記応答素材のそれぞれの全体類似度スコアに基づき、前記応答素材セットの応答素材を選択するステップと、
を含む、請求項1に記載の方法。
(付記6) 前記選択された応答素材を前記ユーザに提示するステップ、を更に含む請求項1に記載の方法。
(付記7) 非一時的コンピュータ可読媒体であって、動作を実行するためにプロセッサにより実行可能な符号化されたプログラミングコードを有し、前記動作は、
ユーザの対話を取得するステップであって、前記対話は複数の単語を含む、ステップと、
応答素材コーパスを取得するステップであって、前記応答素材コーパスは、個人の通信に対する可能な応答を含み、前記応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられる、ステップと、
前記ユーザの前記対話の対話トピックを識別するステップと、
応答トピックセットを識別するステップであって、前記応答トピックセットの各応答トピックは、前記応答素材コーパスのそれぞれの応答素材に対応する、ステップと、
前記応答素材コーパスから応答素材セットを選択するステップであって、前記応答素材セットのそれぞれの応答素材は、前記対話トピックに一致する前記それぞれの応答素材に対応するそれぞれの応答トピックに基づき選択される、ステップと、
第1の複数の確率を決定するステップであって、前記第1の複数の確率のうちのそれぞれの確率は、前記第1の複数の単語の中のそれぞれの単語の発生確率に対応する、ステップと、
前記応答素材セットの各応答素材について、それぞれの第2の複数の確率を決定するステップであって、前記それぞれの第2の複数の確率のうちのそれぞれの確率は、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応する、ステップと、
前記第1の複数の単語を、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、前記第1の複数の単語とそれぞれの第2の複数の単語との間の類似度を決定するステップと、
前記比較に基づき、及び前記第1の複数の確率及び前記それぞれの第2の複数の確率が前記応答素材に対応することに基づき、前記応答素材セットの応答素材を選択するステップと、
を含む、非一時的コンピュータ可読媒体。
(付記8) 前記応答素材コーパスの前記応答素材は冗談である、請求項7に記載の非一時的コンピュータ可読媒体。
(付記9) 前記ユーザの前記対話は相談会合の対話である、請求項7に記載の非一時的コンピュータ可読媒体。
(付記10) 前記応答素材コーパスから応答素材セットを選択する前記ステップは、
距離セットを識別するステップであって、前記距離セットの各距離は、前記応答トピックセットのそれぞれの応答トピックに対応し、前記それぞれの応答トピックと前記対話トピックとの間の距離であり、前記距離は前記それぞれの応答トピックと前記対話トピックとの間の類似度を示す、ステップと、
前記距離セットの前記距離をランク付けするステップと、
前記距離の前記ランク付けに基づき、距離グループを選択するステップと、
前記応答素材セットを選択するステップであって、それぞれの応答素材は、前記距離グループの中にある前記それぞれの応答素材に対応する前記それぞれの応答トピックに対応するそれぞれの距離に基づき選択される、ステップと、
を含む、請求項7に記載の非一時的コンピュータ可読媒体。
(付記11) 前記応答素材セットのそれぞれの素材を選択する前記ステップは、
前記応答素材セットの各応答素材について、
前記第1の複数の単語のうちの第1単語と前記応答素材に関連付けられたそれぞれの第2の複数の単語の中の第2単語との組み合わせ毎に、類似度スコア及び重みを取得するステップであって、前記重みは、前記第1の複数の確率が前記第1単語に対応する確率とそれぞれの第2の複数の確率が前記第2単語に対応する確率とに基づき決定される、ステップと、
類似度スコアのそれぞれの重みにより該類似度スコアを重み付けするステップと、
前記重み付けされた類似度スコアを結合して、前記それぞれの応答素材の全体類似度スコアを取得するステップと、
前記応答素材のそれぞれの全体類似度スコアに基づき、前記応答素材セットの応答素材を選択するステップと、
を含む、請求項7に記載の非一時的コンピュータ可読媒体。
(付記12) 前記動作は、前記選択された応答素材を前記ユーザに提示するステップを更に含む、請求項7に記載の非一時的コンピュータ可読媒体。
(付記13) 前記動作は、予めトレーニングされた言語モデルを取得するステップを更に含み、
前記ユーザの前記対話の前記対話トピックを識別する前記ステップは、前記予めトレーニングされた言語モデルに基づき、前記ユーザの前記対話の前記対話トピックを識別するステップを含む、請求項7に記載の非一時的コンピュータ可読媒体。
(付記14) システムであって、
1つ以上のプロセッサと、
1つ以上のコンピュータ可読媒体であって、前記1つ以上のプロセッサにより実行されることに応答して、前記システムに動作を実行させる命令を格納するよう構成される1つ以上のコンピュータ可読媒体と、
を含み、前記動作は、
ユーザの対話を取得するステップであって、前記対話は複数の単語を含む、ステップと、
応答素材コーパスを取得するステップであって、前記応答素材コーパスは、個人の通信に対する可能な応答を含み、前記応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられる、ステップと、
前記ユーザの前記対話の対話トピックを識別するステップと、
応答トピックセットを識別するステップであって、前記応答トピックセットの各応答トピックは、前記応答素材コーパスのそれぞれの応答素材に対応する、ステップと、
前記応答素材コーパスから応答素材セットを選択するステップであって、前記応答素材セットのそれぞれの応答素材は、前記対話トピックに一致する前記それぞれの応答素材に対応するそれぞれの応答トピックに基づき選択される、ステップと、
前記応答素材コーパスに関連付けられた評価に基づき、前記応答素材セットをランク付けするステップと、
前記応答素材セットの前記ランク付けに基づき、応答素材サブセットを選択するステップと、
第1の複数の確率を決定するステップであって、前記第1の複数の確率のうちのそれぞれの確率は、前記第1の複数の単語の中のそれぞれの単語の発生確率に対応する、ステップと、
前記応答素材サブセットの各応答素材について、それぞれの第2の複数の確率を決定するステップであって、前記それぞれの第2の複数の確率のうちのそれぞれの確率は、前記応答素材サブセットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応する、ステップと、
前記第1の複数の単語を、前記応答素材サブセットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、前記第1の複数の単語とそれぞれの第2の複数の単語との間の類似度を決定するステップと、
前記比較に基づき、及び前記第1の複数の確率及び前記それぞれの第2の複数の確率が前記応答素材に対応することに基づき、前記応答素材サブセットの応答素材を選択するステップと、
を含む、システム。
(付記15) 前記応答素材コーパスの前記応答素材は冗談である、請求項14に記載のシステム。
(付記16) 前記応答素材コーパスに関連付けられた前記評価は、前記応答素材セットの各応答素材のおかしさを含む、請求項15に記載のシステム。
(付記17) 前記ユーザの前記対話は相談会合の対話である、請求項14に記載のシステム。
(付記18) 前記応答素材コーパスから応答素材セットを選択する前記ステップは、
距離セットを識別するステップであって、前記距離セットの各距離は、前記応答トピックセットのそれぞれの応答トピックに対応し、前記それぞれの応答トピックと前記対話トピックとの間の距離であり、前記距離は前記それぞれの応答トピックと前記対話トピックとの間の類似度を示す、ステップと、
前記距離セットの前記距離をランク付けするステップと、
前記距離の前記ランク付けに基づき、距離グループを選択するステップと、
前記応答素材セットを選択するステップであって、それぞれの応答素材は、前記距離グループの中にある前記それぞれの応答素材に対応する前記それぞれの応答トピックに対応するそれぞれの距離に基づき選択される、ステップと、
を含む、請求項14に記載のシステム。
(付記19) 前記応答素材セットのそれぞれの素材を選択する前記ステップは、
前記応答素材サブセットの各応答素材について、
前記第1の複数の単語のうちの第1単語と前記応答素材に関連付けられたそれぞれの第2の複数の単語の中の第2単語との組み合わせ毎に、類似度スコア及び重みを取得するステップであって、前記重みは、前記第1の複数の確率が前記第1単語に対応する確率とそれぞれの第2の複数の確率が前記第2単語に対応する確率とに基づき決定される、ステップと、
類似度スコアのそれぞれの重みにより該類似度スコアを重み付けするステップと、
前記重み付けされた類似度スコアを結合して、前記それぞれの応答素材の全体類似度スコアを取得するステップと、
前記応答素材のそれぞれの全体類似度スコアに基づき、前記応答素材サブセットの応答素材を選択するステップと、
を含む、請求項14に記載のシステム。
(付記20) 前記動作は、予めトレーニングされた言語モデルを取得するステップを更に含み、
前記ユーザの前記対話の前記対話トピックを識別する前記ステップは、前記予めトレーニングされた言語モデルに基づき、前記ユーザの前記対話の前記対話トピックを識別するステップを含む、請求項14に記載のシステム。
100 環境
110 変更モジュール
112 予めトレーニングされた言語モデル
114 対話コーパス
115 通信
116 応答素材コーパス
117 応答素材
118 変更された言語モデル
120 選択モジュール
122 ユーザの対話
124 選択された応答素材

Claims (20)

  1. 方法であって、
    ユーザの対話を取得するステップであって、前記対話は複数の単語を含む、ステップと、
    予めトレーニングされた言語モデルを取得するステップと、
    対話コーパスを取得するステップであって、前記対話コーパスは個人間の複数の通信を含み、前記対話コーパスはトレーニングラベルを含まない、ステップと、
    応答素材コーパスを取得するステップであって、前記応答素材コーパスは、個人の通信に対する可能な応答を含み、前記応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられ、前記応答素材コーパスはトレーニングラベルを含まない、ステップと、
    前記対話コーパス及び前記応答素材コーパスを用いて、前記予めトレーニングされた言語モデルを変更して、前記対話コーパスに基づき対話トピックを識別し、前記応答素材コーパスに基づき対話に対する応答を識別するステップと、
    前記変更された言語モデルを用いて前記ユーザの前記対話の対話トピックを識別するステップと、
    前記変更された言語モデルを用いて、応答トピックセットを識別するステップであって、前記応答トピックセットの各応答トピックは、前記応答素材コーパスのそれぞれの応答素材に対応する、ステップと、
    前記応答素材コーパスから応答素材セットを選択するステップであって、前記応答素材セットのそれぞれの応答素材は、前記対話トピックに一致する前記それぞれの応答素材に対応するそれぞれの応答トピックに基づき選択される、ステップと、
    第1の複数の確率を決定するステップであって、前記第1の複数の確率のうちのそれぞれの確率は、前記変更された言語モデルに基づき、前記第1の複数の単語の中のそれぞれの単語の発生確率に対応する、ステップと、
    前記応答素材セットの各応答素材について、それぞれの第2の複数の確率を決定するステップであって、前記それぞれの第2の複数の確率のうちのそれぞれの確率は、前記変更された言語モデルに基づき、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応する、ステップと、
    前記第1の複数の単語を、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、前記第1の複数の単語とそれぞれの第2の複数の単語との間の類似度を決定するステップと、
    前記比較に基づき、及び前記第1の複数の確率及び前記それぞれの第2の複数の確率が前記応答素材に対応することに基づき、前記応答素材セットの応答素材を選択するステップと、
    を含む方法。
  2. 前記応答素材コーパスの前記応答素材は冗談である、請求項1に記載の方法。
  3. 前記ユーザの前記対話は相談会合である、請求項1に記載の方法。
  4. 前記応答素材コーパスから応答素材セットを選択する前記ステップは、
    距離セットを識別するステップであって、前記距離セットの各距離は、前記応答トピックセットのそれぞれの応答トピックに対応し、前記それぞれの応答トピックと前記対話トピックとの間の距離であり、前記距離は前記それぞれの応答トピックと前記対話トピックとの間の類似度を示す、ステップと、
    前記距離セットの前記距離をランク付けするステップと、
    前記距離の前記ランク付けに基づき、距離グループを選択するステップと、
    前記応答素材セットを選択するステップであって、それぞれの応答素材は、前記距離グループの中にある前記それぞれの応答素材に対応する前記それぞれの応答トピックに対応するそれぞれの距離に基づき選択される、ステップと、
    を含む、請求項1に記載の方法。
  5. 前記応答素材セットのそれぞれの素材を選択する前記ステップは、
    前記応答素材セットの各応答素材について、
    前記第1の複数の単語のうちの第1単語と前記応答素材に関連付けられたそれぞれの第2の複数の単語の中の第2単語との組み合わせ毎に、類似度スコア及び重みを取得するステップであって、前記重みは、前記第1の複数の確率が前記第1単語に対応する確率とそれぞれの第2の複数の確率が前記第2単語に対応する確率とに基づき決定される、ステップと、
    類似度スコアのそれぞれの重みにより該類似度スコアを重み付けするステップと、
    前記重み付けされた類似度スコアを結合して、前記それぞれの応答素材の全体類似度スコアを取得するステップと、
    前記応答素材のそれぞれの全体類似度スコアに基づき、前記応答素材セットの応答素材を選択するステップと、
    を含む、請求項1に記載の方法。
  6. 前記選択された応答素材を前記ユーザに提示するステップ、を更に含む請求項1に記載の方法。
  7. 非一時的コンピュータ可読媒体であって、動作を実行するためにプロセッサにより実行可能な符号化されたプログラミングコードを有し、前記動作は、
    ユーザの対話を取得するステップであって、前記対話は複数の単語を含む、ステップと、
    応答素材コーパスを取得するステップであって、前記応答素材コーパスは、個人の通信に対する可能な応答を含み、前記応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられる、ステップと、
    前記ユーザの前記対話の対話トピックを識別するステップと、
    応答トピックセットを識別するステップであって、前記応答トピックセットの各応答トピックは、前記応答素材コーパスのそれぞれの応答素材に対応する、ステップと、
    前記応答素材コーパスから応答素材セットを選択するステップであって、前記応答素材セットのそれぞれの応答素材は、前記対話トピックに一致する前記それぞれの応答素材に対応するそれぞれの応答トピックに基づき選択される、ステップと、
    第1の複数の確率を決定するステップであって、前記第1の複数の確率のうちのそれぞれの確率は、前記第1の複数の単語の中のそれぞれの単語の発生確率に対応する、ステップと、
    前記応答素材セットの各応答素材について、それぞれの第2の複数の確率を決定するステップであって、前記それぞれの第2の複数の確率のうちのそれぞれの確率は、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応する、ステップと、
    前記第1の複数の単語を、前記応答素材セットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、前記第1の複数の単語とそれぞれの第2の複数の単語との間の類似度を決定するステップと、
    前記比較に基づき、及び前記第1の複数の確率及び前記それぞれの第2の複数の確率が前記応答素材に対応することに基づき、前記応答素材セットの応答素材を選択するステップと、
    を含む、非一時的コンピュータ可読媒体。
  8. 前記応答素材コーパスの前記応答素材は冗談である、請求項7に記載の非一時的コンピュータ可読媒体。
  9. 前記ユーザの前記対話は相談会合の対話である、請求項7に記載の非一時的コンピュータ可読媒体。
  10. 前記応答素材コーパスから応答素材セットを選択する前記ステップは、
    距離セットを識別するステップであって、前記距離セットの各距離は、前記応答トピックセットのそれぞれの応答トピックに対応し、前記それぞれの応答トピックと前記対話トピックとの間の距離であり、前記距離は前記それぞれの応答トピックと前記対話トピックとの間の類似度を示す、ステップと、
    前記距離セットの前記距離をランク付けするステップと、
    前記距離の前記ランク付けに基づき、距離グループを選択するステップと、
    前記応答素材セットを選択するステップであって、それぞれの応答素材は、前記距離グループの中にある前記それぞれの応答素材に対応する前記それぞれの応答トピックに対応するそれぞれの距離に基づき選択される、ステップと、
    を含む、請求項7に記載の非一時的コンピュータ可読媒体。
  11. 前記応答素材セットのそれぞれの素材を選択する前記ステップは、
    前記応答素材セットの各応答素材について、
    前記第1の複数の単語のうちの第1単語と前記応答素材に関連付けられたそれぞれの第2の複数の単語の中の第2単語との組み合わせ毎に、類似度スコア及び重みを取得するステップであって、前記重みは、前記第1の複数の確率が前記第1単語に対応する確率とそれぞれの第2の複数の確率が前記第2単語に対応する確率とに基づき決定される、ステップと、
    類似度スコアのそれぞれの重みにより該類似度スコアを重み付けするステップと、
    前記重み付けされた類似度スコアを結合して、前記それぞれの応答素材の全体類似度スコアを取得するステップと、
    前記応答素材のそれぞれの全体類似度スコアに基づき、前記応答素材セットの応答素材を選択するステップと、
    を含む、請求項7に記載の非一時的コンピュータ可読媒体。
  12. 前記動作は、前記選択された応答素材を前記ユーザに提示するステップを更に含む、請求項7に記載の非一時的コンピュータ可読媒体。
  13. 前記動作は、予めトレーニングされた言語モデルを取得するステップを更に含み、
    前記ユーザの前記対話の前記対話トピックを識別する前記ステップは、前記予めトレーニングされた言語モデルに基づき、前記ユーザの前記対話の前記対話トピックを識別するステップを含む、請求項7に記載の非一時的コンピュータ可読媒体。
  14. システムであって、
    1つ以上のプロセッサと、
    1つ以上のコンピュータ可読媒体であって、前記1つ以上のプロセッサにより実行されることに応答して、前記システムに動作を実行させる命令を格納するよう構成される1つ以上のコンピュータ可読媒体と、
    を含み、前記動作は、
    ユーザの対話を取得するステップであって、前記対話は複数の単語を含む、ステップと、
    応答素材コーパスを取得するステップであって、前記応答素材コーパスは、個人の通信に対する可能な応答を含み、前記応答素材コーパスの各応答素材は、それぞれの第2の複数の単語に関連付けられる、ステップと、
    前記ユーザの前記対話の対話トピックを識別するステップと、
    応答トピックセットを識別するステップであって、前記応答トピックセットの各応答トピックは、前記応答素材コーパスのそれぞれの応答素材に対応する、ステップと、
    前記応答素材コーパスから応答素材セットを選択するステップであって、前記応答素材セットのそれぞれの応答素材は、前記対話トピックに一致する前記それぞれの応答素材に対応するそれぞれの応答トピックに基づき選択される、ステップと、
    前記応答素材コーパスに関連付けられた評価に基づき、前記応答素材セットをランク付けするステップと、
    前記応答素材セットの前記ランク付けに基づき、応答素材サブセットを選択するステップと、
    第1の複数の確率を決定するステップであって、前記第1の複数の確率のうちのそれぞれの確率は、前記第1の複数の単語の中のそれぞれの単語の発生確率に対応する、ステップと、
    前記応答素材サブセットの各応答素材について、それぞれの第2の複数の確率を決定するステップであって、前記それぞれの第2の複数の確率のうちのそれぞれの確率は、前記応答素材サブセットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語の中の各単語の発生確率に対応する、ステップと、
    前記第1の複数の単語を、前記応答素材サブセットのそれぞれの応答素材に関連付けられたそれぞれの第2の複数の単語と比較して、前記第1の複数の単語とそれぞれの第2の複数の単語との間の類似度を決定するステップと、
    前記比較に基づき、及び前記第1の複数の確率及び前記それぞれの第2の複数の確率が前記応答素材に対応することに基づき、前記応答素材サブセットの応答素材を選択するステップと、
    を含む、システム。
  15. 前記応答素材コーパスの前記応答素材は冗談である、請求項14に記載のシステム。
  16. 前記応答素材コーパスに関連付けられた前記評価は、前記応答素材セットの各応答素材のおかしさを含む、請求項15に記載のシステム。
  17. 前記ユーザの前記対話は相談会合の対話である、請求項14に記載のシステム。
  18. 前記応答素材コーパスから応答素材セットを選択する前記ステップは、
    距離セットを識別するステップであって、前記距離セットの各距離は、前記応答トピックセットのそれぞれの応答トピックに対応し、前記それぞれの応答トピックと前記対話トピックとの間の距離であり、前記距離は前記それぞれの応答トピックと前記対話トピックとの間の類似度を示す、ステップと、
    前記距離セットの前記距離をランク付けするステップと、
    前記距離の前記ランク付けに基づき、距離グループを選択するステップと、
    前記応答素材セットを選択するステップであって、それぞれの応答素材は、前記距離グループの中にある前記それぞれの応答素材に対応する前記それぞれの応答トピックに対応するそれぞれの距離に基づき選択される、ステップと、
    を含む、請求項14に記載のシステム。
  19. 前記応答素材セットのそれぞれの素材を選択する前記ステップは、
    前記応答素材サブセットの各応答素材について、
    前記第1の複数の単語のうちの第1単語と前記応答素材に関連付けられたそれぞれの第2の複数の単語の中の第2単語との組み合わせ毎に、類似度スコア及び重みを取得するステップであって、前記重みは、前記第1の複数の確率が前記第1単語に対応する確率とそれぞれの第2の複数の確率が前記第2単語に対応する確率とに基づき決定される、ステップと、
    類似度スコアのそれぞれの重みにより該類似度スコアを重み付けするステップと、
    前記重み付けされた類似度スコアを結合して、前記それぞれの応答素材の全体類似度スコアを取得するステップと、
    前記応答素材のそれぞれの全体類似度スコアに基づき、前記応答素材サブセットの応答素材を選択するステップと、
    を含む、請求項14に記載のシステム。
  20. 前記動作は、予めトレーニングされた言語モデルを取得するステップを更に含み、
    前記ユーザの前記対話の前記対話トピックを識別する前記ステップは、前記予めトレーニングされた言語モデルに基づき、前記ユーザの前記対話の前記対話トピックを識別するステップを含む、請求項14に記載のシステム。
JP2020204162A 2019-12-18 2020-12-09 ユーザの発言に基づくマルチメディア推奨 Withdrawn JP2021096847A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/719,206 US11361762B2 (en) 2019-12-18 2019-12-18 Recommending multimedia based on user utterances
US16/719206 2019-12-18

Publications (1)

Publication Number Publication Date
JP2021096847A true JP2021096847A (ja) 2021-06-24

Family

ID=73597926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020204162A Withdrawn JP2021096847A (ja) 2019-12-18 2020-12-09 ユーザの発言に基づくマルチメディア推奨

Country Status (3)

Country Link
US (1) US11361762B2 (ja)
EP (1) EP3839800A1 (ja)
JP (1) JP2021096847A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220253609A1 (en) * 2021-02-08 2022-08-11 Disney Enterprises, Inc. Social Agent Personalized and Driven by User Intent
CN113449094A (zh) * 2021-07-08 2021-09-28 京东科技控股股份有限公司 语料获取方法、装置、电子设备及存储介质
CN116578731B (zh) * 2023-07-05 2023-09-29 之江实验室 多媒体信息处理方法、系统、计算机设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630986B1 (en) * 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange
DE10043531A1 (de) * 2000-09-05 2002-03-14 Philips Corp Intellectual Pty Sprachdialogsystem
US10078631B2 (en) * 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10146768B2 (en) * 2017-01-25 2018-12-04 Google Llc Automatic suggested responses to images received in messages using language model
EP3525107A1 (en) 2018-02-09 2019-08-14 Digital Genius Limited Conversational agent
US10832659B2 (en) * 2018-08-31 2020-11-10 International Business Machines Corporation Intent authoring using weak supervision and co-training for automated response systems
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US11074908B2 (en) * 2019-03-29 2021-07-27 Nuance Communications, Inc. System and method for aligning ASR model weights with NLU concepts
US20200395008A1 (en) * 2019-06-15 2020-12-17 Very Important Puppets Inc. Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
US20210141820A1 (en) * 2019-11-13 2021-05-13 International Business Machines Corporation Omnichannel virtual assistant using artificial intelligence

Also Published As

Publication number Publication date
US20210193130A1 (en) 2021-06-24
US11361762B2 (en) 2022-06-14
EP3839800A1 (en) 2021-06-23

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN110309283B (zh) 一种智能问答的答案确定方法及装置
US20200388282A1 (en) Intent-specific automatic speech recognition result generation
Tatman Gender and dialect bias in YouTube’s automatic captions
US9495350B2 (en) System and method for determining expertise through speech analytics
US9582757B1 (en) Scalable curation system
US9154629B2 (en) System and method for generating personalized tag recommendations for tagging audio content
JP2021096847A (ja) ユーザの発言に基づくマルチメディア推奨
CN111428010B (zh) 人机智能问答的方法和装置
US20140074470A1 (en) Phonetic pronunciation
CN111414462B (zh) 一种对话语句确定方法、装置、计算机设备和介质
US20210350209A1 (en) Intent and context-aware dialogue based virtual assistance
US10049656B1 (en) Generation of predictive natural language processing models
US20160071510A1 (en) Voice generation with predetermined emotion type
US9922650B1 (en) Intent-specific automatic speech recognition result generation
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
US11289075B1 (en) Routing of natural language inputs to speech processing applications
US11361759B2 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
CN115640398A (zh) 评论生成模型训练方法、评论生成方法、设备及存储介质
CN115186056A (zh) 文本风格迁移方法、装置、电子设备及存储介质
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
US11875125B2 (en) System and method for designing artificial intelligence (AI) based hierarchical multi-conversation system
JP2021039727A (ja) テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
Liu et al. Personalized Natural Language Understanding.
CN116127003A (zh) 文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230804

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20240126