JP7051190B2

JP7051190B2 - コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラム

Info

Publication number: JP7051190B2
Application number: JP2020025932A
Authority: JP
Inventors: カオ，ホンウェイ; チョン，レイ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2019-08-30
Filing date: 2020-02-19
Publication date: 2022-04-11
Anticipated expiration: 2040-02-19
Also published as: JP2021039715A; US20210065235A1; CN110517096A

Description

本発明は、人工知能の技術分野に関し、特に、コンテンツ埋込方法、装置、電子デバイス、記憶媒体、及びプログラムに関する。

コンテンツ埋込は、広げようとするコンテンツを既存の表示情報に埋め込むものであり、プレゼンテンション情報をより多くの情報要素と融合させられることができる。「プロダクト・プレイスメント」（ＰｒｏｄｕｃｔＰｌａｃｅｍｅｎｔ）を例にすると、「プロダクト・プレイスメント」は、製品及びサービスの象徴となるオーディオ／ビデオロゴのシンボルを、映画又は舞台の作品に融合させる広告方式を意味する。一般に、プロダクト・プレイスメントは視聴者に印象を与えることをもってマーケティングの目的を果たす。しかしながら、従来の広告の埋め込み方法には、（１）通常、広告コンテンツの起動時の広告に埋め込まれるが、起動時の広告の利用頻度が低い、（２）広告が画面を介して表示されることが多く、ユーザにとってユーザエクスペリエンスが良くないという問題があった。

本発明は、従来技術における上記の１つ又は複数の技術課題を解決するためのコンテンツ埋込方法、装置、電子デバイス及び記憶媒体を提供する。

本発明の第１態様は、コンテンツ埋込方法を提供する。当該方法は、
音声情報を受信することと、
音声情報に対して第１応答データを生成することと、
音声情報に基づいて第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することと、を含む。
本実施形態によれば、音声情報に対応するアプリケーションサービスのコンテンツと、埋め込まれるコンテンツと、をシームレスにドッキングさせて、より高い埋込効果をなして、良いユーザエクスペリエンスを得られる。

１つの実施形態において、音声情報に基づいて第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することは、
音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得ることと、
音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することと、を含む。
本実施形態によれば、ユーザ情報を解析することにより、ユーザイメージ像に基づきコンテンツが埋め込まれるため、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

１つの実施形態において、音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得ることは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得ること、を含む。
本実施形態によれば、ユーザ情報を解析してユーザイメージ像を得るため、ユーザに対応したサービスを提供することができる。

１つの実施形態において、音声情報に対して第１応答データを生成した後、
第１応答データから特徴ベクトルを抽出すること、をさらに含む。
本実施形態によれば、第１応答データから抽出した特徴ベクトルを後続の関連付け分析に用いて、特徴ベクトルと関連付けて解析を行うことにより、分類の効率や精度を高めることができる。

１つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する前に、
埋め込むべき少なくとも１つの第２コンテンツを受信すること、をさらに含む。
本実施形態によれば、コンテンツ提供者から提供された広めようとするコンテンツを受信して、その後に該コンテンツのうちの適切な部分を応答データに埋め込むようにすることで、コンテンツ提供者のコンテンツを埋め込む目的を達成するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。

１つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することは、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得ることと、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することと、を含む。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、コンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

本発明の第２態様は、コンテンツ埋込方法を提供する。当該方法は、
音声情報を受信することと、
音声情報に対応する第１応答データと、音声情報と、第１コンテンツとに基づいて生成される第２応答データを、音声情報に基づいてサーバにリクエストすることと、
第２応答データを受信することと、
第２応答データを音声情報の返信情報とすることと、を含む。
本実施形態によれば、スキルアプリケーションサービスの応答データを取得した上で、ユーザイメージ像に基づいて生成される第２応答データをさらにリクエストすることで返信情報の内容がユーザのニーズに適合し、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

１つの実施形態において、第１応答データは音声情報に対して生成され、当該方法は、
第１応答データから特徴ベクトルを抽出すること、をさらに含む。
本実施形態によれば、第１応答データから抽出した特徴ベクトルを後続の関連付け分析に用いて、特徴ベクトルと関連付けて解析を行うことにより、分類の効率や精度を高めることができる。

１つの実施形態において、当該方法は、
埋め込むべき少なくとも１つの第２コンテンツを受信すること、をさらに含む。
本実施形態によれば、コンテンツ提供者から提供された、広めようとするコンテンツを受信して、その後に該コンテンツのうちの適切な部分を応答データに埋め込むようにすることで、コンテンツ提供者のコンテンツを埋め込む目的を実現するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。

１つの実施形態において、当該方法は、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得ることと、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することと、をさらに含む。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、コンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

本発明の第３態様は、コンテンツ埋込装置を提供する。当該コンテンツ埋込装置は、
音声情報を受信する第１受信ユニットと、
音声情報に対して第１応答データを生成する第１生成ユニットと、
音声情報に基づいて第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する第２生成ユニットと、を含む。

１つの実施形態において、第２生成ユニットは、
音声情報に対応するユーザ情報を解析して記音声情報に対応するユーザイメージ像を得る解析サブユニットと、
音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する生成サブユニットと、を含む。

１つの実施形態において、解析サブユニットは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得る。

１つの実施形態において、当該装置は、
第１応答データを受信した後、第１応答データから特徴ベクトルを抽出する第１抽出ユニット、をさらに含む。

１つの実施形態において、当該装置は、埋め込むべき少なくとも１つの第２コンテンツを受信する第２受信ユニット、をさらに含む。

１つの実施形態において、第２生成ユニットは、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する。

本発明の第４態様は、コンテンツ埋込装置を提供する。当該コンテンツ埋込装置は、
音声情報を受信する第３受信ユニットと、
音声情報に対応する第１応答データと、音声情報と、第１コンテンツとに基づいて生成される第２応答データを、音声情報に基づいてサーバにリクエストするリクエストユニットと、
第２応答データを受信する第４受信ユニットと、
第２応答データを音声情報の返信情報とする返信ユニットと、を含む。

１つの実施形態において、第１応答データは前記音声情報に対して生成され、当該装置は、
第１応答データから特徴ベクトルを抽出する第２抽出ユニット、をさらに含む。
１つの実施形態において、当該装置は、埋め込むべき少なくとも１つの第２コンテンツを受信する第５受信ユニット、をさらに含む、

１つの実施形態において、当該装置は、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する第３生成ユニット、をさらに含む

本発明の第５態様は、電子デバイスを提供する。当該電子デバイスは、
１つ又は複数のプロセッサと、
１つ又は複数のプロセッサに通信可能に接続する記憶装置と、を含み、
記憶装置は、１つ又は複数のプロセッサにより実行可能なコマンドを記憶しており、１つ又は複数のプロセッサが、１つ又は複数のコマンドを実行する場合、いずれか１つの実施形態に提供されたコンテンツ埋込方法を実行させる。

本発明の第６態様は、コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体を提供する。当該コンピュータコマンドがいずれか１つの実施形態に提供されたコンテンツ埋込方法を実行させるために用いられる。

上記の技術案のうちの少なくとも１つの技術案は、下記のメリット及び有益的な効果を有する。
本発明によれば、ユーザ情報を解析して、ユーザイメージ像に基づいてコンテンツを埋め込むことにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

上記の選択可能な実施形態によるその他の効果は、具体的な実施形態とあわせて後述する。

本発明の一実施形態に係るコンテンツ埋込方法の模式図である。本発明のコンテンツ埋込方法を例示的に示すフローチャートである。本発明の一実施形態に係るコンテンツ埋込方法のフローチャートである。本発明の一実施形態に係るスマート音声埋込式システムの構成模式図である。本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。本発明の一実施形態のコンテンツ埋込方法に係る電子デバイスの構成図である。

図面において特に規定されない限り、複数の図面において同様の図面符号は、同様又は類似的な部材又はエレメントを示す。これらの図面は必ずしも実際の比例に従って製図されたものではない。これらの図面は本発明に基づいて開示された幾つかの実施形態を描いたものに過ぎず、本発明の範囲に対する制限としてはならないことを理解すべきである。略述は、単に説明のために過ぎず、いかなる限定をも目的としない。上記に記載されている例示的な様態、実施形態、及び特徴以外に、図面及び下記の詳細説明を参照することによって、本発明のさらなる様態、実施形態、及び特徴の理解を促す。

図１は本発明の一実施形態に係るコンテンツ埋込方法の模式図である。図１に示された実施形態は、対話型ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）システムに応用できる。当該コンテンツ埋込方法では、以下のステップＳ１１０～Ｓ１４０を含む。
Ｓ１１０において、音声情報を受信する。
Ｓ１２０において、音声情報に対応する第１応答データと、音声情報と、第１コンテンツとに基づいて生成される第２応答データを、音声情報に基づいてサーバにリクエストする。
Ｓ１３０において、第２応答データを受信する。
Ｓ１４０において、第２応答データを音声情報の返信情報とする。
コンテンツ埋込は、表示情報をより多くの情報要素と融合させることができる。また、「プロダクト・プレイスメント」（ＰｒｏｄｕｃｔＰｌａｃｅｍｅｎｔ）を例にすると、「プロダクト・プレイスメント」は映画、テレビドラマ、ゲーム等の発展に伴って興った広告手法である。映画の劇中やゲームの中で企業等の製品あるいはサービスを挿入して、知らず知らずのうちに宣伝効果を浸透させる。プロダクト・プレイスメントの表現可能な空間は非常に広く、映画や娯楽番組の中で多くの適した埋め込み対象物や埋め込み手法を見つけることができる。一般的な広告埋め込む対象物には、商品、標識、ＶＩ（ＶｉｓｕａｌＩｄｅｎｔｉｔｙ、すなわち、企業ＶＩ視覚化デザイン、一般的に「ビジュアル・アイデンティティ・システム」と訳される。）、ＣＩ（ＣｏｒｐｏｒａｔｅＩｄｅｎｔｉｔｙ、企業のシンボルやロゴ）、包装、ブランド名、企業キャラクター等がある。通常、視聴者は広告の挿入に対して抵抗感があるため、広告のコンテンツをこれらの娯楽項目に埋め込む手法はハードセールス手法より効果が大きく改善される。
本実施形態において、ユーザの音声情報は、スマート音声装置を介して受信することができる。例えば、ユーザはスマート音声装置に「今日の天気は如何ですか？」と話すと、スマート音声装置は音声情報を対話型ＡＩシステムに送信する。ステップＳ１１０において、対話型ＡＩシステムは、スマート音声装置から音声情報を受信する。

ステップＳ１２０において、対話型ＡＩシステムは、音声情報に基づいてサーバに応答データリクエストを送信する。一例として、サーバは、スマート音声埋込型システム及びスキルアプリケーションサービスを含むことができる。サーバ側で対応するスキルアプリケーションサービスを呼び出し、音声情報に対応する応答データ、すなわち、第１応答データを得る。上記の例では、サーバ端は、ユーザが天気の調べを意図していると認識し、対応するスキルアプリケーションサービス「気象サービス」を起動する。「気象サービス」は、ユーザの意図に応じて、「今日は雨が降ります」等の第１応答データを生成する。そして、第１応答データと音声情報をスマート音声埋込式システムに送信する。

スマート音声埋込型システムは、第１応答データと、音声情報と、第１コンテンツとに基づき、第２応答データを生成する。そのうち、第１コンテンツは、スマート音声埋込式システムにより、関連分析を経って得られた、埋め込みに適したコンテンツである。スマート音声埋込式システムは音声情報に基づき、第１応答データに第１コンテンツを埋め込んで、第２応答データを生成する。例えば、生成された第２応答データは、「ＸＸブランドの傘より、今日は雨が降るとお知らせいたします。」のようなデータである。
１つの実施形態において、スマート音声埋込型システムは、音声情報に対応するユーザイメージ像に基づき、第１応答データに第１コンテンツを埋め込んで、第２応答データを生成する。ユーザイメージ像を構築する際、ユーザの各具体的な情報をタグとして抽象化し、これらのタグを利用してユーザイメージを具体化し、ユーザそれぞれに対応したサービスを提供する。ユーザイメージ像として、１）性別、年齢、育てられた環境、２）生活の状況、生活のスタイル、生活の習慣、３）性格描写、及び内心の望み、４）消費に対する考え方、好み、嫌み等が挙げられる。
Ｓ１４０において、第２応答データに対して自然な音声を合成する処理を行い、自然な音声を合成する処理を行った結果を音声情報の返信情報としてスマート音声装置に返信する。例えば、返信情報は「ＸＸブランドの傘より、今日は雨が降るとお知らせいたします。傘をお忘れなく！」という情報である。その後、スマート音声装置は返信情報をユーザにアナウンスする。
１つの実施形態において、第１応答データは音声情報に対して生成され、上述の方法は、
第１応答データから特徴ベクトルを抽出すること、をさらに含む
本実施形態では、対話型ＡＩシステムは、対応するスキルアプリケーションサービスを呼び出し、音声情報に対応する応答データ、すなわち、第１応答データを得る。例えば、ユーザが天気の状況を問い合わせると、対応するスキルアプリケーションサービス「気象サービス」が呼び出される。「気象サービス」は、ユーザの意図に応じて第１応答データを生成し、例えば「今日は雨が降る」等の第１応答データを生成する。対話型ＡＩシステムは、第１応答データから特徴ベクトルを抽出する。第１応答データの形式として、テキスト、写真、ビデオ等の形式を含み得る。例えば、「気象サービス」から返信されたコンテンツが「今日は雨が降りますｘｘｘ」及び雨天の写真等である。スキルアプリケーションサービスの返信コンテンツを解析して、主成分を抽出する、すなわち返信コンテンツから名詞、動詞等のエンティティを抽出することができる。抽出されたエンティティリストにより、第１応答データの特徴ベクトルが構成される。
本実施形態では、第１応答データから抽出された特徴ベクトルを後続の関連分析に用いてもよい。特徴ベクトルを用いることで、分類の効率や精度を高めることができる。

１つの実施形態において、上述の方法は、埋め込むべき少なくとも１つの第２コンテンツを受信すること、をさらに含む。コンテンツの提供者はＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ、グラフィカルユーザインターフェース）やＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ、アプリケーションプログラミングインターフェース）を介して、広めたいコンテンツ、例えばテキスト、写真、ビデオ等を提供する。
本実施形態では、コンテンツの提供者より、広めたいコンテンツを受信し、その後に当該コンテンツのうちの適切な部分を応答データに埋め込む。もって、コンテンツ提供者のコンテンツを埋め込む目的を達成するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。
１つの実施形態において、上述の方法は、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得ることと、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することと、をさらに含む。
本実施形態では、対話型ＡＩシステムより第２応答データを生成してもよい。例えば、第２コンテンツと第１応答データとのマッチング度合いを計算してもよく、第２コンテンツとユーザイメージ像とのマッチング度合いを計算してもよい。例えば、複数のコンテンツ提供者が第２コンテンツを提供しているとする。変わらずまた「プロダクト・プレイスメント」（ＰｒｏｄｕｃｔＰｌａｃｅｍｅｎｔ）を例にすると、広告主Ａはスポーツ用品の広告コンテンツを、広告主Ｂは農産物の広告コンテンツを、広告主Ｃは化粧品の広告コンテンツをそれぞれ提供しているとする。ユーザが「今日の天気は如何ですか。ジョギングに行って体を鍛えたいです。」と話したとする。このユーザに対応するユーザイメージ像は、その趣味がスポーツであることが記述されている。スキルアプリケーションサービスはユーザの意図に基づき、第１応答データとして、「今日は晴れていて、運動やレジャーに適しています。」及び晴天の写真を返信する。第２コンテンツと第１応答データとのマッチング度合いを計算し、広告主Ａがスポーツ用品の広告コンテンツを提供しているのに対し、第１応答データには「運動に適しています」の内容があるため、広告主Ａが提供する広告コンテンツと第１応答データとの間のマッチング度合いは高い。一方で、第２コンテンツとユーザイメージ像とのマッチング度合いを計算し、広告主Ａがスポーツ用品の広告コンテンツを提供しているため、ユーザイメージ像が記述されている趣味がスポーツであるため、広告主Ａが提供する広告コンテンツとユーザイメージ像とのマッチング度合いは高い。広告主Ａが提供する広告コンテンツと第１応答データ及びユーザイメージ像との間に高いマッチング度合いがあるため、複数の広告主が提供する第２コンテンツから、広告主Ａが提供するスポーツ用品の広告コンテンツを選択して、第１応答データに埋め込んで、第２応答データを生成する。例えば、「今日は晴れています。運動やレジャーレジャーに行くといいでしょう。運動服と運動靴に着替えて運動しましょう。ＸＸブランドの運動靴がただいま値引きセール中です。一足如何ですか。」という応答データを生成する。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、コンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。
本実施形態では、自然言語処理技術を用いて、コンテンツの相関性に応じて埋め込むタイプの音声アナウンス情報を生成し、コンテンツを埋め込む目的を実現する。図２に示すように、本実施形態に係るコンテンツ埋込方法を例示的に示すフローチャートは以下の通りである。
ステップ１）ユーザはスマート音声装置に「今日の天気は如何ですか。」と発話する。スマート音声装置はユーザの音声情報を持つデータストリームを対話型ＡＩシステムに送信する。
ステップ２）対話型ＡＩシステムは、データストリームを音声認識して、自然言語処理を行い、ユーザの意図を識別した後、ユーザの意図に応じて、スキルアプリケーションサービスに応答データリクエストを送信する。対話型ＡＩシステムは、特定の話題に対して、スキルアプリケーションサービスを介して業務ロジックを実現することができる。例えば、具体的なスキルアプリケーションサービスは「気象サービス」である。
ステップ３）具体的なスキルアプリケーションサービス、例えば「気象サービス」は、ユーザの意図に応じて対応するコンテンツを見つけて、テキスト、写真等の形式のコンテンツを対話型ＡＩシステムに返信する。例えば、「今日は雨が降りますｘｘｘ」及び雨天の写真等である。
ステップ４）対話型ＡＩシステムはスマート音声埋込型システムを起動する。スマート音声埋込型システムは、ユーザ情報（例えば、問合せの履歴や内容等）、具体的なスキルアプリケーションサービスの応答データ（例えば、「今日は雨が降りますｘｘｘ」及び雨天の写真等）を、コンテンツ提供者が提供するコンテンツと関連付けて解析し、例えば広告主が提供する広告コンテンツに関連付けて解析して、具体的な技能応用サービスの応答データを修正する。例えば、修正の結果は「ＸＸブランドの傘より、今日は雨が降るとお知らせいたしますｘｘ」となる。スマート音声埋込型システムは修正した結果を対話型ＡＩシステムに返信する。そして対話型ＡＩシステムは上記修正の結果に対して自然な音声を合成する処理を行い、最終的な処理結果を得る。
ステップ５）対話型ＡＩシステムは自然な音声が合成された最終的な処理結果をスマート音声装置に返信する。この実施形態では、スマート音声装置がユーザに対する最終的応答は「「ＸＸブランドの傘より、今日は雨が降るとお知らせいたしますｘｘｘｘ。傘をお忘れなきよう！ｘｘｘ」との情報である。
もう１つの例では、対話プロセスは、対話型ＡＩシステム及びスマート音声装置を、スキルアプリケーションサービスによって駆動させてもよい。例えば「気象サービス」は対話型ＡＩシステムとスマート音声装置を駆動して、自発的に天気予報を放送する。「天気サービス」で提供される放送内容は「今日は雨が降りますｘｘｘ」及び雨天の写真等である。「気象サービス」は、放送コンテンツを対話型ＡＩシステムに送信する。対話型ＡＩシステムはスマート音声埋込型システムを呼び出して内容をインプットする。コンテンツインプリメントの方法は、上記のプロセスと同様であり、スマート音声装置のユーザ登録のユーザイメージ像に基づいて、「気象サービス」によって生成された放送内容にコンテンツを埋め込んで、最終的な放送内容を生成することができる。
本実施形態によれば、スキルアプリケーションサービスの応答データを取得した上で、さらにユーザイメージ像に基づき第２応答データを生成するようリクエストすることにより、ユーザのニーズに適合したコンテンツが返信情報に埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

図３は本発明の一実施形態に係るコンテンツ埋込方法のフローチャートである。図３に示す実施形態はサーバに適用することができ、当該コンテンツ埋込方法では、以下のステップＳ３１０～Ｓ３３０を含む。
Ｓ３１０において、音声情報を受信する。
Ｓ３２０において、音声情報に対して第１応答データを生成する。
Ｓ３３０において、音声情報に基づき、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する。

前述したように、対話型ＡＩシステムは音声情報に基づき、第２応答データをサーバにリクエストする。サーバは音声情報及び埋め込みに適したコンテンツに基づき、第２応答データを生成する。
Ｓ３１０において、サーバは、対話型ＡＩシステムからの音声情報を受信する。Ｓ３２０において、サーバは、対話型ＡＩシステムからの音声情報に対して、第１応答データを生成する。１つの例では、サーバは、スマート音声埋込型システムやスキルアプリケーションサービスを含んでもよい。スキルアプリケーションサービスは、対話型ＡＩシステムからの音声情報を受信し、音声情報に対応する第１応答データを対話型ＡＩシステムに返信する。スキルアプリケーションサービスは、音声情報に対して、音声識別し、自然言語処理を行って、ユーザの意図を識別する。例えば、ユーザの音声情報である「今日の天気は如何ですか？」に基づき、ユーザが天気の調べを意図していると認識することができる。ユーザの意図に基づき、具体的なスキルアプリケーションサービスを起動して、音声情報に対応する応答データ、すなわち第１応答データを得ることができる。上述した例では、ユーザが天気の調べを意図していると認識したため、具体的にはスキルアプリケーションサービス「気象サービス」を起動する。「気象サービス」は、ユーザの意図に応じて、「今日は雨が降ります」等の第１応答データを返信する。そして、対話型ＡＩシステムは、第２応答データをリクエストするよう、第１応答データと音声情報をスマート音声埋込式システムに送信する。Ｓ３３０において、スマート音声埋込型システムは、音声情報と第１応答データを受信し、埋め込みに適した第１コンテンツを特定するし、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する。
本実施形態によれば、音声情報に対応するアプリケーションサービスのコンテンツと、埋め込まれるコンテンツと、をシームレスにドッキングさせて、より高い埋込効果をなして、良いユーザエクスペリエンスを得られる。

１つの実施形態では、１つの実施形態において、音声情報に基づいて第１応答データに第１コンテンツを埋め込んで、第２応答データを生成することは、
音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得ることと、
音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することと、を含む。

前述したように、対話型ＡＩシステムは、音声情報及びスキルアプリケーションサービスにより生成された第１応答データに基づき、スマート音声埋込型システムを起動し、第２応答データをリクエストする。スマート音声埋込型システムは、音声情報と、音声情報に対応するユーザイメージ像と、埋め込みに適したコンテントとに基づき、第２応答データを生成する。
この実施形態では、受信したユーザの音声情報に基づき、ユーザの身分標識を識別してもよく、例えばユーザの登録ＩＤを識別する。ユーザの身分標識に基づき、対応するユーザイメージ像を取得する。そして、ユーザイメージ像に基づき、埋め込みに適した第１コンテンツを特定する。その後、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する。
本実施形態によれば、ユーザ情報を解析し、ユーザイメージ像に基づき広告にコンテンツを埋め込むため、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

１つの実施形態において、音声情報に対応するユーザ情報に対して解析を行い、音声情報に対応するユーザイメージ像を得ることは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得ること、を含む。
この実施形態では、受信したユーザの音声情報に基づき、音声情報に対応するユーザイメージ像を得ることができる。例えば、ユーザ登録時にユーザの音声情報、年齢、性別、趣味等個性情報を得ることができる。ユーザの音声情報を受信する際、声紋識別技術を利用して、登録ユーザの音声情報に対応する登録ＩＤを識別することができ、もってユーザの個性情報を得ることができる。ユーザの個性情報に基づき、ユーザイメージ像を構築し、構築されたユーザイメージ像には、年齢や性別、趣味等の個性情報を含んでもよい。
１つの例では、ユーザの登録ＩＤを識別した後、ユーザの問合せ履歴を調べてもよい。例えば、該ユーザは毎日も天気の状況を調べる。また、音声情報におけるコンテキストを解析してもよい。例えば、ユーザが「今日の天気は如何ですか？」と問合せをしている。該音声情報に関連するコンテキストも含まれる。例えば、ユーザが「今日の天気は如何ですか。ジョギングに行って体を鍛えたいです。」と言う。この音声情報におけるコンテキストに対して語義解析を行い、ユーザの趣味がスポーツであることが分かる。ユーザの問合せ履歴及び／又はユーザ問合せのコンテキストに対する解析に基づき、ユーザイメージ像を構築することができる。
後続する処理において、ユーザイメージ像に基づき、適したコンテンツを埋め込んでもよい。１つの実施形態では、ユーザイメージ像には、個体イメージ像及び／又は群イメージ像を含んでもよい。例えば、ユーザイメージ像において、該ユーザの趣味がスポーツであると記述されている場合、スポーツ用品類のコンテンツを埋め込んでもよく、ユーザのパーソナライズ化ニーズを合致することができる。

１つの実施形態において、音声情報に対して第１応答データを生成した後に、
第１応答データから特徴ベクトルを抽出すること、をさらに含む。
前述したように、スキルアプリケーションサービスは、ユーザの意図標識に基づき、対応するコンテンツを見つけて、これらのコンテンツ、すなわち第１応答データを対話型ＡＩシステムに返信する。第１応答データの形式として、テキスト、写真、ビデオ等の形式を含み得る。例えば、「気象サービス」から返信されたコンテンツが「今日は雨が降りますｘｘｘ」及び雨天の写真等である。スキルアプリケーションサービスの返信コンテンツを解析して、主成分を抽出する、すなわち返信コンテンツから名詞、動詞等のエンティティを抽出することができる。抽出されたエンティティリストにより、第１応答データの特徴ベクトルが構成される。
本実施形態では、第１応答データから抽出された特徴ベクトルを後続の関連分析に用いてもよい。特徴ベクトルに対して関連分析を行うことで、分類の効率や精度を高めることができる。

１つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する前に、
埋め込むべき少なくとも１つの第２コンテンツを受信すること、をさらに含む。
コンテンツの提供者はＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ、グラフィカルユーザインターフェース）やＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ、アプリケーションプログラミングインターフェース）を介して、広めたいコンテンツ、例えばテキスト、写真、ビデオ等を提供する。コンテンツの提供者より提供されたコンテンツは第２コンテンツと称する。スマート音声埋込型システムは第２コンテンツを受信した後、第２コンテンツと第１応答データとを関連付けて分析を行うことができる。関連度が高いとの関連分析の結果が得られた場合に、該コンテンツを埋め込んでもよい。
本実施形態では、コンテンツの提供者より、広めたいコンテンツを受信し、その後に当該コンテンツのうちの適切な部分を応答データに埋め込む。もって、コンテンツ提供者のコンテンツを埋め込む目的を達成するとともに、埋め込まれるコンテンツはユーザのニーズにも合致する。

１つの実施形態において、音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することは、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得ることと、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成することと、を含む。
この実施形態では、第２コンテンツと第１応答データとのマッチング度合いを計算してもよく、第２コンテンツとユーザイメージ像とのマッチング度合いを計算してもよい。例えば、複数のコンテンツ提供者が第２コンテンツを提供しているとする。変わらずまた「プロダクト・プレイスメント」（ＰｒｏｄｕｃｔＰｌａｃｅｍｅｎｔ）を例にすると、広告主Ａはスポーツ用品の広告コンテンツを、広告主Ｂは農産物の広告コンテンツを、広告主Ｃは化粧品の広告コンテンツをそれぞれ提供しているとする。ユーザが「今日の天気は如何ですか。ジョギングに行って体を鍛えたいです。」と話したとする。このユーザに対応するユーザイメージ像は、その趣味がスポーツであることが記述されている。スキルアプリケーションサービスはユーザの意図に基づき、第１応答データとして、「今日は晴れていて、運動やレジャーに適しています。」及び晴天の写真を返信する。第２コンテンツと第１応答データとのマッチング度合いを計算し、広告主Ａがスポーツ用品の広告コンテンツを提供しているのに対し、第１応答データには「運動に適しています」の内容があるため、広告主Ａが提供する広告コンテ BR>塔cと第１応答データとの間のマッチング度合いは高い。一方で、第２コンテンツとユーザイメージ像とのマッチング度合いを計算し、広告主Ａがスポーツ用品の広告コンテンツを提供しているため、ユーザイメージ像が記述されている趣味がスポーツであるため、広告主Ａが提供する広告コンテンツとユーザイメージ像とのマッチング度合いは高い。広告主Ａが提供する広告コンテンツと第１応答データ及びユーザイメージ像との間に高いマッチング度合いがあるため、複数の広告主が提供する第２コンテンツから、広告主Ａが提供するスポーツ用品の広告コンテンツを選択して、第１応答データに埋め込んで、第２応答データを生成する。例えば、「今日は晴れています。運動やレジャーレジャーに行くといいでしょう。運動服と運動靴に着替えて運動しましょう。ＸＸブランドの運動靴がただいま値引きセール中です。一足如何ですか。」という応答データを生成する。
上述した例では、第２コンテンツからマッチング度合いの高い第１コンテンツを見つけた場合に、第１コンテンツを第１応答データに埋め込む。第２コンテンツからマッチング度合いの高い第１コンテンツを見つけることができなかった場合に、当面埋め込みに適したコンテンツがないとし、コンテンツを埋め込むステップを実行しなくてもよい。この場合、スマート音声埋込型システムは、対話型ＡＩシステムに対して返信する第２応答データにおいて、第１応答データにコンテンツを埋め込んでいないことを注記してもよい。
本実施形態によれば、ユーザイメージ像と、スキルアプリケーションサービスの応答データと、埋め込まれるコンテンツとを関連付けて解析することにより、ユーザのニーズに適合したコンテンツが埋め込まれ、ユーザによい知能的なパーソナライズ化サービスを提供し、ユーザエクスペリエンスを良好にすることができる。

図４は、本発明の一実施形態に係るスマート音声埋込式システムの構成模式図である。図４に示されたように、１つの例では、スマート音声埋込型システムは、コンテンツ提供者導入サブシステムと、問合せ文書解析サブシステムと、コンテンツ解析サブシステムと、関連解析サブシステムと、コンテンツ再組み合わせサブシステムとを含んでもよい。
コンテンツ提供者導入サブシステムについては、コンテンツ提供者がＧＵＩやＡＰＩを介して、広めたいコンテンツ、例えばテキスト、写真、ビデオ等を提供する。コンテンツ提供者の提供したコンテンツは即時に関連解析サブシステムに提供してもよく、リアルタイムに発効することができる。
問合せ文書解析サブシステムについては、コンテキスト、問合せ履歴、ユーザ自身の関連データ、例えばユーザの個性情報等を含む、ユーザの問合せ文書に対して解析を行い、具現化されたユーザイメージ像を構築する。
コンテンツ解析サブシステムについては、例えばテキスト、写真、ビデオ等、スキルアプリケーションサービスより返信されたコンテンツに対して解析を行い、主成分を抽出して、特徴ベクトルを見つける。
関連解析サブシステムについては、複数のコンテンツ提供者より提供されたコンテンツと、ユーザイメージ像と、スキルアプリケーションサービスより返信された第１応答データとを関連付けて解析を行い、埋め込みに最も適したコンテンツを計算する。そのうち、ユーザイメージ像には、個体イメージ像及び／又は群イメージ像を含んでもよく、例えば該ユーザ及び同型のその他のユーザの問合せコンテンツや履歴データ等を含んでもよい。
コンテンツ再組み合わせサブシステムについては、埋め込みに最も適したコンテンツをあるアリコリズム（例えば、自然言語生成技術）で、スキルアプリケーションサービスより返信された第１応答データに埋め込んで、ユーザに対して返信する第２応答データを生成してもよい。

図５は、本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。図５に示すように、当該コンテンツ埋込装置は、
音声情報を受信する第１受信ユニット１００と、
音声情報に対して第１応答データを生成する第１生成ユニット２００と、
音声情報に基づいて第１応答データに第１コンテンツを埋め込んで、第２応答データを生成する第２生成ユニット３００と、を含む。

１つの実施形態では、第２生成ユニット３００は、
音声情報に対応するユーザ情報を解析して、音声情報に対応するユーザイメージ像を得る解析サブユニットと、
音声情報に対応するユーザイメージ像に基づいて、第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する生成サブユニットと、を含む。

１つの実施形態では、解析サブユニットは、
音声情報のコンテキストと、音声情報に対応するユーザの問合せ履歴と、前記音声情報に対応するユーザの個性情報とに基づいて、音声情報に対応するユーザイメージ像を得る。

図６は、本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。図６に示すように、１つの実施形態において、この装置は、第１応答データを受信した後、第１応答データから特徴ベクトルを抽出する第１抽出ユニット１２０、をさらに含む。

１つの実施形態において、この装置は、埋め込むべき少なくとも１つの第２コンテンツを受信する第２受信ユニット１４０、をさらに含む。
１つの実施形態において、第２生成ユニット３００は、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する。

図７は、本発明の一実施形態に係るコンテンツ埋込装置の構成模式図である。図７に示された実施形態は、対話型ＡＩシステムに適用されてもよい。図７に示すように、本実施形態に係るコンテンツ埋込装置は、
音声情報を受信する第３受信ユニット６００と、
音声情報に対応する第１応答データと、音声情報と、第１コンテンツとに基づいて生成される第２応答データを、音声情報に基づいてサーバにリクエストするリクエストユニット７００と、
第２応答データを受信する第４受信ユニット７５０と、
第２応答データを音声情報の返信情報とする返信ユニット８００と、を含む。

１つの実施形態では、第１応答データは音声情報に対して生成され、
この装置は、第１応答データから特徴ベクトルを抽出する第２抽出ユニット、をさらに含む。

１つの実施形態では、この装置は、埋め込むべき少なくとも１つの第２コンテンツを受信する第５受信ユニット、をさらに含む。

１つの実施形態では、この装置は、
少なくとも１つの第２コンテンツと、音声情報に対応するユーザイメージ像と、特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、少なくとも１つの第２コンテンツから第１コンテンツを得、
第１コンテンツを第１応答データに埋め込んで、第２応答データを生成する第３生成ユニット、をさらに含む。

本願の実施形態に係るコンテンツ埋込装置の各ユニットの機能は、上述の方法に対応する説明を参照してもよく、ここでは説明を省略する。

本願に係る実施形態では、電子デバイスと非一過性のコンピュータ可読取記録媒体をさらに提供する。
図８に示すように、本願の一実施形態のコンテンツ埋込方法に係る電子デバイスの構成図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子デバイスはパーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、及びその他の類似のコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、及びそれらの機能は例示的なものに過ぎず、本明細書で説明されたもの及び／又は要求される本明細書の実施を制限することは意図されない。
図８に示すように、当該電子デバイスは、１つ又は複数のプロセッサ８０１と、メモリ８０２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子デバイス内で実行される命令を処理してもよく、また、外部入出力デバイス（例えば、インターフェースに接続された表示デバイス）にグラフィックユーザインターフェース（ＧｒａｐｈｉｃａＵｓｅｒＩｎｔｅｒｆａｃｅ，ＧＵＩ）を表示するための、メモリ又はメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリ及び複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作（例えば、サーバアレイ、ブレードサーバのセット、又はマルチプロセッサシステムとして）を提供する。図８においてプロセッサ８０１を例とする。

メモリ８０２は、本明細書にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本明細書で提供されるコンテンツ埋込方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行されることができる命令を記憶する。本明細書における非一過性のコンピュータ可読記憶媒体は、本明細書で提供されたコンテンツ埋込方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ８０２は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラム及びユニットを記憶するために使用されてもよく、本発明の実施形態におけるコンテンツ埋込方法に対応するプログラム命令／ユニット（例えば、図５に示される第１受信ユニット１００、第１生成ユニット２００、第２生成ユニット３００、図６に示される抽出ユニット１２０、第２受信ユニット１４０、図７に示される第３受信ユニット６００、リクエストユニット７００、第４受信ユニット７５０、返信ユニット８００）のようなものである。プロセッサ８０１は、メモリ７０２に記憶されている非一過性のソフトウェアプログラム、命令及びユニットを実行することにより、サーバの様々な機能アプリケーション及びデータ処理、すなわち上述した方法に関する実施形態に係るコンテンツ埋込方法を実行する。

メモリ８０２は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、コンテンツ埋込方法に係る電子デバイスの使用によって生成されたデータ等を記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ８０２は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態では、メモリ８０２はオプションとして、プロセッサ８０１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介してコンテンツ埋込方法に係る電子デバイスに接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワーク及びその組み合わせを含むが、これらに限定されない。

コンテンツ埋込方法に係る電子デバイスは、入力装置８０３と出力装置８０４とをさらに含むことができる。プロセッサ８０１、メモリ８０２、入力装置８０３、及び出力装置８０４は、バス又は他の方法で接続されてもよく、図８ではバスを介して接続されている。

入力装置８０３は、入力された数字又は文字を受信し、コンテンツ埋込方法に係る電子デバイスのユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つ又は複数のマウスボタン、トラックボール、ジョイスティック等を含むことができる。出力装置８０４は、表示装置、補助照明装置（例えばＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）等を含むことができる。この表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書におけるシステム及び技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実装されてもよく、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、及び／又は解釈されてもよく、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置より、データと命令を受信し、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に、データと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードともいう）は、プログラマブルプロセッサのマシン命令を含み、プロセス指向及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのイントラクションを提供するために、本明細書で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、入力をコンピュータに提供するためのキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音響入力、音声入力、又は触覚入力を含む）で受信されてもよい。

本明細書で説明されているシステム及び技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、又は中間部構成要素を含む計算システム（例えば、アプリケーションサーバ）、又は、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインターフェース又はネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインターフェース又はネットワークブラウザを介して本明細書で説明されたシステム及び技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ）に実行されてもよく、又は、このようなバックグラウンド構成要素、中間部構成要素、又はフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ，ＷＡＮ）及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。
本明細書の実施形態によれば、ユーザ情報に関わる行為の関連コンテンツから関心ポイントを直接識別することにより、ユーザにプッシュされる関心ポイントがユーザの意図に合致し、ユーザエクスペリエンスを良好にすることができる。ユーザ情報に関わる行為の関連内容から直接に関心点を識別するため、プッシュされる関心点がユーザのニーズを満たしていない問題を回避し、ユーザエクスペリエンスを良好にすることができる。
上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本明細書で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本明細書で開示された技術案が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び代替が可能であることを理解するべきである。本発明の要旨及び原則内における変更、均等な置換及び改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims

音声情報を受信することと、
前記音声情報に対して第１応答データを生成することと、
前記第１応答データから特徴ベクトルを抽出することと、
前記音声情報に対応するユーザ情報を解析して、前記音声情報に対応するユーザイメージ像を得ることと、
埋め込むべき少なくとも１つの第２コンテンツを受信することと、
前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも１つの第２コンテンツから第１コンテンツを得ることと、
前記第１コンテンツを前記第１応答データに埋め込んで、第２応答データを生成することと、
を含み、
前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも１つの第２コンテンツと前記第１応答データとのマッチング度合いを計算することと、前記少なくとも１つの第２コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することと、を含む、
ことを特徴とするコンテンツ埋込方法。
前記音声情報に対応するユーザ情報を解析して、前記音声情報に対応する前記ユーザイメージ像を得ることは、
前記音声情報のコンテキストと、前記音声情報に対応するユーザの問合せ履歴と、前記音声情報に対応するユーザの個性情報とに基づいて、前記音声情報に対応する前記ユーザイメージ像を得ること、を含む、
ことを特徴とする請求項１に記載のコンテンツ埋込方法。
音声情報を受信することと、
前記音声情報に対応する第１応答データと、前記音声情報と、前記第１応答データに関連した第１コンテンツとに基づいて生成される第２応答データを、前記音声情報に基づいてサーバにリクエストすることと、
前記第１応答データから特徴ベクトルを抽出することと、
埋め込むべき少なくとも１つの第２コンテンツを受信することと、
前記少なくとも１つの第２コンテンツと、前記音声情報に対応するユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも１つの第２コンテンツから前記第１コンテンツを得ることと、
前記第１コンテンツを前記第１応答データに埋め込んで、前記第２応答データを生成することと、
前記第２応答データを受信することと、
前記第２応答データを前記音声情報の返信情報とすることと、を含み、
前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも１つの第２コンテンツと前記第１応答データとのマッチング度合いを計算することと、前記少なくとも１つの第２コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することと、を含む、
ことを特徴とするコンテンツ埋込方法。
前記音声情報に対応する第１応答データを生成することをさらに含む、
ことを特徴とする請求項３に記載のコンテンツ埋込方法。
音声情報を受信する第１受信ユニットと、
前記音声情報に対して第１応答データを生成する第１生成ユニットと、
前記第１応答データから特徴ベクトルを抽出する第１抽出ユニットと、
埋め込むべき少なくとも１つの第２コンテンツを受信する第２受信ユニットと、
前記少なくとも１つの第２コンテンツと、前記音声情報に対応するユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも１つの第２コンテンツから第１コンテンツを得、前記第１応答データに関連した前記第１コンテンツを前記第１応答データに埋め込んで、第２応答データを生成する第２生成ユニットと、を含み、
前記第２生成ユニットは、前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも１つの第２コンテンツと前記第１応答データとのマッチング度合いを計算することと、前記少なくとも１つの第２コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することとによって、前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することを行う、
ことを特徴とするコンテンツ埋込装置。
前記第２生成ユニットは、
前記音声情報に対応するユーザ情報を解析して、前記音声情報に対応する前記ユーザイメージ像を得る解析サブユニットと、
前記音声情報に対応する前記ユーザイメージ像に基づいて、前記第１コンテンツを前記第１応答データに埋め込んで、前記第２応答データを生成する生成サブユニットと、を含む、
ことを特徴とする請求項５に記載のコンテンツ埋込装置。
前記解析サブユニットは、
前記音声情報のコンテキストと、前記音声情報に対応するユーザの問合せ履歴と、前記音声情報に対応するユーザの個性情報とに基づいて、前記音声情報に対応する前記ユーザイメージ像を得る、
ことを特徴とする請求項６に記載のコンテンツ埋込装置。
前記第１応答データを受信した後、前記第１応答データから特徴ベクトルを抽出する第１抽出ユニット、をさらに含む、
ことを特徴とする請求項７に記載のコンテンツ埋込装置。
埋め込むべき前記少なくとも１つの第２コンテンツを受信する第２受信ユニット、をさらに含む、
ことを特徴とする請求項８に記載のコンテンツ埋込装置。
前記第２生成ユニットは、
前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも１つの第２コンテンツから前記第１コンテンツを得、
前記第１コンテンツを前記第１応答データに埋め込んで、前記第２応答データを生成する、
ことを特徴とする請求項９に記載のコンテンツ埋込装置。
音声情報を受信する第３受信ユニットと、
前記音声情報に対応する第１応答データと、前記音声情報と、前記第１応答データに関連した第１コンテンツとに基づいて生成される第２応答データを、前記音声情報に基づいてサーバにリクエストするリクエストユニットと、
前記第１応答データから特徴ベクトルを抽出する第２抽出ユニットと、
埋め込むべき少なくとも１つの第２コンテンツを受信する第５受信ユニットと、
前記少なくとも１つの第２コンテンツと、前記音声情報に対応するユーザイメージ像と、前記特徴ベクトルとを関連付けて解析し、関連付けて解析した結果に基づいて、前記少なくとも１つの第２コンテンツから前記第１コンテンツを得、前記第１コンテンツを前記第１応答データに埋め込んで、前記第２応答データを生成する第３生成ユニットと、
前記第２応答データを受信する第４受信ユニットと、
前記第２応答データを前記音声情報の返信情報とする返信ユニットと、を含み、
前記第３生成ユニットは、前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することは、前記少なくとも１つの第２コンテンツと前記第１応答データとのマッチング度合いを計算することと、前記少なくとも１つの第２コンテンツと前記ユーザイメージ像とのマッチング度合いを計算することとによって、前記少なくとも１つの第２コンテンツと、前記音声情報に対応する前記ユーザイメージ像と、前記特徴ベクトルとを関連付けて解析することを行う、
ことを特徴とするコンテンツ埋込装置。
前記第１応答データは前記音声情報に対して生成される、
ことを特徴とする請求項１１に記載のコンテンツ埋込装置。
１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサに通信可能に接続する記憶装置と、を含み、
前記記憶装置は、前記１つ又は複数のプロセッサより実行可能コマンドを記憶しており、前記１つ又は複数のプロセッサは、前記１つ又は複数のコマンドを実行する場合、請求項１～４のいずれか１項に記載のコンテンツ埋込方法を実行させる、
ことを特徴とする電子デバイス。
コンピュータコマンドが記憶された非一過性のコンピュータ可読記憶媒体であって、
当該コンピュータコマンドが請求項１～４のいずれか１項に記載のコンテンツ埋込方法を実行させるために用いられる、
ことを特徴とするコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１～４のいずれか１項に記載のコンテンツ埋込方法を実現することを特徴とするプログラム。