JP7504978B2 - server - Google Patents

server Download PDF

Info

Publication number
JP7504978B2
JP7504978B2 JP2022207117A JP2022207117A JP7504978B2 JP 7504978 B2 JP7504978 B2 JP 7504978B2 JP 2022207117 A JP2022207117 A JP 2022207117A JP 2022207117 A JP2022207117 A JP 2022207117A JP 7504978 B2 JP7504978 B2 JP 7504978B2
Authority
JP
Japan
Prior art keywords
audio
user
advertisement
content
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022207117A
Other languages
Japanese (ja)
Other versions
JP2023024713A (en
Inventor
達雄 田中
正士 須崎
克典 新井
祐一郎 豊崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2022207117A priority Critical patent/JP7504978B2/en
Publication of JP2023024713A publication Critical patent/JP2023024713A/en
Application granted granted Critical
Publication of JP7504978B2 publication Critical patent/JP7504978B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、マイクロフォンを有するスピーカと通信するサーバに関する。 The present invention relates to a server that communicates with a speaker that has a microphone.

マイクロフォンおよび通信機能を備え、音声による操作や情報検索を可能とするスマートスピーカの普及が始まっている(例えば、非特許文献1参照)。 Smart speakers that are equipped with microphones and communication functions and allow voice control and information searches are beginning to become popular (see, for example, non-patent document 1).

https://www.is.nri.co.jp/report/short-research/2017/000213.html、平成30年5月9日検索https://www.is.nri.co.jp/report/short-research/2017/000213.html, retrieved May 9, 2018

現在のスマートスピーカを含むシステムは、ユーザから音声で要求を受け、その要求を処理することができる。このような状況において、さらに有益なスマートスピーカシステムを創出することが望まれている。 Current systems including smart speakers can receive voice requests from users and process those requests. In this situation, it is desirable to create a more useful smart speaker system.

本発明はこうした課題に鑑みてなされたものであり、その目的は、スマートスピーカを効果的な広告媒体として用いることができる技術の提供、またはスマートスピーカシステムのさらなる改善にある。 The present invention was made in consideration of these problems, and its purpose is to provide technology that allows smart speakers to be used as effective advertising media, or to further improve smart speaker systems.

本発明のある態様は、サーバに関する。このサーバは、マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して前記スピーカのマイクロフォンを介して取得された音声情報を受け付ける受付手段と、受け付けた音声情報における配信要求に応じて、画像を伴わない音声コンテンツを取得する取得手段と、受け付けた音声情報に基づいてユーザ認証を行う認証手段と、画像を伴わない音声広告を音声広告保持手段から選択する選択手段と、取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信する送信手段と、を備え、前記選択手段は、取得された音声コンテンツの内容との関連性と、受け付けた音声情報におけるユーザの発話内容との関連性と、認証されたユーザのアカウントの属性との関連性とのうちの複数の関連性のうちの第1の関連性を用いて音声広告の候補を選択し、前記複数の関連性のうちの他の関連性を更に用いて、選択した音声広告の候補から音声広告を選択し、前記第1の関連性又は前記他の関連性は、受け付けた音声情報におけるユーザの発話内容との関連性を含み、受け付けた音声情報におけるユーザの発話内容との関連性は、前記スピーカとユーザとの現在の対話セッションに含まれる該ユーザの複数の発話のうちの最新でない発話内容との関連性を含む One aspect of the present invention relates to a server, which includes a receiving means for receiving voice information acquired from a speaker having a microphone and a communication function via a network through the microphone of the speaker, an acquiring means for acquiring voice content not accompanied by an image in response to a distribution request in the received voice information, an authenticating means for performing user authentication based on the received voice information, a selecting means for selecting a voice advertisement not accompanied by an image from a voice advertisement storage means, and a transmitting means for transmitting the acquired voice content and the selected voice advertisement together to the speaker via the network, and the selecting means is configured to select a content of the acquired voice content and a content of the selected voice advertisement based on the content of the acquired voice content and a content of the selected voice advertisement. A candidate audio advertisement is selected using a first relevance among a plurality of relevances including a relevance to the user's speech content in the received audio information and a relevance to an attribute of the authenticated user's account, and a candidate audio advertisement is selected from the selected candidate audio advertisements using another relevance among the plurality of relevances , the first relevance or the other relevance including a relevance to the user's speech content in the received audio information, and the relevance to the user's speech content in the received audio information including a relevance to a non-latest speech content of the user's multiple utterances included in a current interaction session between the speaker and the user .

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。 In addition, any combination of the above components, or mutual substitution of the components or expressions of the present invention between devices, methods, systems, computer programs, and recording media storing computer programs, are also valid aspects of the present invention.

本発明によれば、スマートスピーカを効果的な広告媒体として用いることができる技術を提供できる、またはスマートスピーカシステムをさらに改善することができる。 The present invention provides technology that allows smart speakers to be used as effective advertising media, or further improves smart speaker systems.

第1の実施の形態に係る音声広告配信システムの構成を示す模式図である。1 is a schematic diagram showing a configuration of an audio advertisement delivery system according to a first embodiment; 図1のスマートスピーカの機能および構成を示すブロック図である。FIG. 2 is a block diagram showing the functions and configuration of the smart speaker of FIG. 1. 図1の管理サーバのハードウエア構成図である。FIG. 2 is a hardware configuration diagram of the management server of FIG. 1. 図1の管理サーバの機能および構成を示すブロック図である。FIG. 2 is a block diagram showing the functions and configuration of the management server of FIG. 1 . 図4の音声コンテンツ保持部の一例を示すデータ構造図である。5 is a data structure diagram showing an example of an audio content storage unit in FIG. 4. 図4の音声広告保持部の一例を示すデータ構造図である。5 is a data structure diagram showing an example of an audio advertisement storage unit in FIG. 4 . 図4の音声情報保持部の一例を示すデータ構造図である。5 is a data structure diagram showing an example of a voice information storage unit in FIG. 4. 図4のユーザ情報保持部の一例を示すデータ構造図である。5 is a data structure diagram showing an example of a user information storage unit in FIG. 4 . 図4のセッション情報保持部の一例を示すデータ構造図である。5 is a data structure diagram illustrating an example of a session information storage unit in FIG. 4. 図1の管理サーバにおける一連の処理の流れを示すフローチャートである。2 is a flowchart showing the flow of a series of processes in the management server of FIG. 1 . ユーザの部屋の模式的な上面図である。FIG. 2 is a schematic top view of a user's room. 第3の実施の形態に係る音声操作システムの構成を示す模式図である。FIG. 13 is a schematic diagram showing a configuration of a voice operation system according to a third embodiment. 第4の実施の形態に係る音声操作システムの構成を示す模式図である。FIG. 13 is a schematic diagram showing a configuration of a voice operation system according to a fourth embodiment. 図13の管理サーバの機能および構成を示すブロック図である。FIG. 14 is a block diagram showing the functions and configuration of the management server of FIG. 13. 図14のユーザ情報保持部の一例を示すデータ構造図である。15 is a data structure diagram showing an example of a user information storage unit in FIG. 14 .

以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。 In the following, identical or equivalent components, parts, and processes shown in each drawing will be given the same reference numerals, and duplicate explanations will be omitted where appropriate. In addition, some parts that are not important for the explanation will be omitted in each drawing.

(第1の実施の形態)
第1の実施の形態に係る音声広告配信システムでは、ユーザはスマートスピーカを用いて、例えば以下のような作業を行うことができる。
・簡単な調べ物
・天気予報の確認
・ニュースを聞く
・アラームの設定
・スケジュールの確認
・計算をする
・音楽の再生
・スマート家電のコントロール。
音声広告配信システムはスマートスピーカのマイクロフォンを介してユーザの発話を取得し、発話を音声認識することでユーザが音声コンテンツ(例えば、検索結果、天気予報、ニュース、スケジュール、計算結果、音楽など)の配信を要求していることを理解する。システムは、要求されている音声コンテンツを用意してスマートスピーカに配信するのであるが、この際、スマートスピーカでの音声コンテンツ再生前に音声広告が再生されるように、音声広告を配信対象の音声コンテンツに挿入する。
(First embodiment)
In the audio advertisement delivery system according to the first embodiment, a user can use the smart speaker to perform, for example, the following tasks.
- Simple research - Check the weather forecast - Listen to the news - Set alarms - Check schedules - Do calculations - Play music - Control smart home appliances.
The audio advertisement delivery system acquires the user's speech via the microphone of the smart speaker, and by performing voice recognition on the speech, understands that the user is requesting the delivery of audio content (e.g., search results, weather forecast, news, schedule, calculation results, music, etc.). The system prepares the requested audio content and delivers it to the smart speaker, and at this time, inserts the audio advertisement into the audio content to be delivered so that the audio advertisement is played before the audio content is played on the smart speaker.

この音声広告は、例えば配信対象の音声コンテンツに合わせた音声広告や、これまでの対話の内容に基づいた音声広告や、音声コンテンツの配信の直前にスマートスピーカが集音したスマートスピーカの周りの音に基づいた音声広告であってもよい。 This audio advertisement may be, for example, an audio advertisement that matches the audio content to be delivered, an audio advertisement based on the content of previous conversations, or an audio advertisement based on sounds around the smart speaker that were picked up by the smart speaker immediately before the delivery of the audio content.

音声広告の長さは、ユーザとの対話の状況やスマートスピーカの周りの状況に合わせて調整されてもよい。調整の態様としては、例えば配信対象の音声コンテンツの内容に応じて音声広告の長さを調整してもよいし、音声広告の重要部分を抽出してもよい。 The length of the audio advertisement may be adjusted according to the situation of the dialogue with the user or the situation around the smart speaker. For example, the length of the audio advertisement may be adjusted according to the content of the audio content to be delivered, or important parts of the audio advertisement may be extracted.

音声広告の再生のタイミングについて、ユーザがスマートスピーカの周りにいる場合に広告効果がより高いこと、またユーザがスマートスピーカや他のユーザと会話しているときに音声広告が出力されるとユーザが不快に感じうること、を考慮して決定されてもよい。例えば、音声広告は、スマートスピーカの周りにユーザがいると判定されるときのみ再生されてもよい。また、音声広告は、ユーザが他のユーザと会話していたり、スマートスピーカに対して発話しているときには再生されなくてもよい。後者の場合、ユーザが発話を止めると音声広告の出力を開始または再開してもよい。また、音声広告は他の電子機器、例えばテレビジョン(以下、TVという)と連携して出力されてもよい。例えば、TVで広告を流した後に、続報をスマートスピーカから音声で出力してもよい。この場合、次のTVの広告を消音してもよい。あるいはまた、スマートスピーカでの音声広告の再生後に関連する広告をTVで流してもよい。 The timing of playing the audio advertisement may be determined taking into consideration that the advertising effect is higher when the user is around the smart speaker, and that the user may feel uncomfortable if the audio advertisement is output when the user is talking to the smart speaker or another user. For example, the audio advertisement may be played only when it is determined that the user is around the smart speaker. Also, the audio advertisement may not be played when the user is talking to another user or speaking to the smart speaker. In the latter case, the output of the audio advertisement may be started or resumed when the user stops speaking. Also, the audio advertisement may be output in cooperation with another electronic device, such as a television (hereinafter referred to as TV). For example, after an advertisement is played on the TV, a follow-up report may be output by voice from the smart speaker. In this case, the next TV advertisement may be muted. Alternatively, a related advertisement may be played on the TV after the audio advertisement is played on the smart speaker.

音声広告配信システムはスマートスピーカを介して取得したユーザの発話から声紋を取得し、声紋認証によりユーザ認証を行う機能を有する。また、音声広告配信システムはWebサービスやSNSなどの他のサービスと連携しており、音声広告配信システムにおける認証ユーザと、他のサービスにおけるユーザのアカウントと、を関連付けることができる。この場合、音声広告配信システムは、認証ユーザに対して、認証ユーザのアカウントに紐付く音声広告を選択してもよい。例えば、音声広告配信システムは、スマートスピーカで収集した情報と、アカウント属性と、に基づく音声広告を選択してもよい。また、音声広告配信システムは、スマートスピーカで収集した情報でアカウント属性を更新してもよい。 The audio advertising distribution system has a function of acquiring a voiceprint from a user's speech acquired via a smart speaker, and authenticating the user through voiceprint authentication. The audio advertising distribution system also works with other services such as web services and SNS, and can associate an authenticated user in the audio advertising distribution system with a user's account in the other service. In this case, the audio advertising distribution system may select an audio advertisement linked to the authenticated user's account for the authenticated user. For example, the audio advertising distribution system may select an audio advertisement based on information collected by the smart speaker and account attributes. The audio advertising distribution system may also update the account attributes with information collected by the smart speaker.

図1は、第1の実施の形態に係る音声広告配信システム2の構成を示す模式図である。音声広告配信システム2は、管理サーバ4と、スマートスピーカ10と、TV12と、を備える。管理サーバ4とスマートスピーカ10とTV12とはインターネットなどのネットワーク6を介して通信可能に接続されている。スマートスピーカ10およびTV12はいずれも、ユーザ8の部屋14に設置されている。スマートスピーカ10はマイクロフォンおよび通信機能を有するスピーカであり、上述の通りネットワーク6に接続されると共に、TV12ともP2P(Peer to Peer)通信16が可能に構成される。図1ではスマートスピーカ10と管理サーバ4とが通信する例を示しているが、スマートスピーカ10の数に制限はなく、ユーザ8の数にも制限はない。 FIG. 1 is a schematic diagram showing the configuration of an audio advertising distribution system 2 according to a first embodiment. The audio advertising distribution system 2 includes a management server 4, a smart speaker 10, and a TV 12. The management server 4, the smart speaker 10, and the TV 12 are connected to each other so as to be able to communicate with each other via a network 6 such as the Internet. Both the smart speaker 10 and the TV 12 are installed in a room 14 of a user 8. The smart speaker 10 is a speaker having a microphone and a communication function, and is connected to the network 6 as described above, and is configured to be able to perform P2P (Peer to Peer) communication 16 with the TV 12. FIG. 1 shows an example in which the smart speaker 10 and the management server 4 communicate with each other, but there is no limit to the number of smart speakers 10, and there is no limit to the number of users 8.

ユーザ8は、「何か甲村太郎の歌が聴きたい」、「今日のニュースを教えて」、「今夜の天気は?」、「出雲大社について教えて」、等の音声コンテンツの配信要求を表す文をスマートスピーカ10に向けて発話する。スマートスピーカ10のマイクロフォンはユーザ8が発話した音声を電気信号に変換し、スマートスピーカ10は変換の結果得られた電気信号を音声信号として、ネットワーク6を介して管理サーバ4に送信する。管理サーバ4は受信した音声信号に対して音声認識処理を行うことでユーザがどのような音声コンテンツの配信を求めているかを理解する。管理サーバ4は、要求された音声コンテンツに音声広告を添付した配信情報を生成し、ネットワーク6を介してスマートスピーカ10に送信する。スマートスピーカ10は、配信情報を受信すると、まず音声広告を出力し、次いで音声コンテンツを出力する。 The user 8 speaks a sentence to the smart speaker 10, such as "I want to hear some song by Taro Komura," "Tell me today's news," "What's the weather like tonight?", or "Tell me about Izumo Taisha Shrine," requesting the delivery of audio content. The microphone of the smart speaker 10 converts the voice spoken by the user 8 into an electrical signal, and the smart speaker 10 transmits the electrical signal obtained as a result of the conversion as an audio signal to the management server 4 via the network 6. The management server 4 performs voice recognition processing on the received audio signal to understand what kind of audio content the user is requesting to be delivered. The management server 4 generates delivery information with an audio advertisement attached to the requested audio content, and transmits it to the smart speaker 10 via the network 6. When the smart speaker 10 receives the delivery information, it first outputs the audio advertisement, and then outputs the audio content.

なお、スマートスピーカ10はディスプレイを備えても備えなくてもよいが、管理サーバ4から配信されるコンテンツは、静止画や動画などの画像と音声とが一体となったコンテンツではなく、画像を伴わない音声コンテンツ(または、音声のみからなるコンテンツ)である。音声広告も同様に、画像を伴わない音声広告である。 The smart speaker 10 may or may not have a display, but the content distributed from the management server 4 is not content that combines images and audio, such as still images or videos, but audio content without images (or content consisting of audio only). Similarly, audio advertisements are audio advertisements without images.

図2は、図1のスマートスピーカ10の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。 Figure 2 is a block diagram showing the functions and configuration of the smart speaker 10 of Figure 1. Each block shown here can be realized in hardware terms by elements and mechanical devices such as a computer CPU, and in software terms by a computer program, etc., but here we depict functional blocks realized by the cooperation of these. Therefore, those skilled in the art who have read this specification will understand that these functional blocks can be realized in various ways by combining hardware and software.

スマートスピーカ10は、スピーカ102と、マイクロフォン104と、通信部106と、入力部108と、処理部110と、を備える。通信部106はネットワーク6との通信におけるインタフェースとして機能とし、かつ、P2P通信16におけるインタフェースとしても機能する。入力部108は電源ボタン、音量調節ボタン等の物理的な入力機構を含む。処理部110は、スピーカ102、マイクロフォン104、通信部106、入力部108を制御し、スマートスピーカ10の各種機能を実現する。 The smart speaker 10 comprises a speaker 102, a microphone 104, a communication unit 106, an input unit 108, and a processing unit 110. The communication unit 106 functions as an interface for communication with the network 6, and also functions as an interface for P2P communication 16. The input unit 108 includes physical input mechanisms such as a power button and a volume control button. The processing unit 110 controls the speaker 102, microphone 104, communication unit 106, and input unit 108 to realize various functions of the smart speaker 10.

本実施の形態では、ユーザの発話をマイクロフォン104が音声信号に変換し、通信部106が音声信号を管理サーバ4に送信し、管理サーバ4が音声信号に音声認識処理を施すことを想定している。しかしながら、スマートスピーカにおいて少なくとも一部の音声認識処理が行われる場合や、スマートスピーカにおいて後述の音声コンテンツ取得処理や音声広告選択処理が行われる場合や、スマートスピーカがスタンドアローンである場合にも、本実施の形態の技術的思想を適用可能である。なお、スマートスピーカで行われた音声認識の結果を管理サーバに送ること、および、スマートスピーカから音声信号をそのまま管理サーバに送ること、はいずれも、ユーザの発話に対応する音声情報を管理サーバに送ると言いうるものである。 In this embodiment, it is assumed that the microphone 104 converts the user's speech into an audio signal, the communication unit 106 transmits the audio signal to the management server 4, and the management server 4 performs voice recognition processing on the audio signal. However, the technical idea of this embodiment can also be applied to cases where at least a part of the voice recognition processing is performed in the smart speaker, where the audio content acquisition processing and audio advertisement selection processing described below are performed in the smart speaker, or where the smart speaker is a standalone device. Note that sending the results of the voice recognition performed in the smart speaker to the management server, and sending the audio signal directly from the smart speaker to the management server can both be said to send audio information corresponding to the user's speech to the management server.

図3は、図1の管理サーバ4のハードウエア構成図である。管理サーバ4は、メモリ130と、プロセッサ132と、通信インタフェース134と、ディスプレイ136と、入力インタフェース138と、を含む。これらの要素はそれぞれバス140に接続され、バス140を介して互いに通信する。 Figure 3 is a hardware configuration diagram of the management server 4 in Figure 1. The management server 4 includes a memory 130, a processor 132, a communication interface 134, a display 136, and an input interface 138. Each of these elements is connected to a bus 140 and communicates with each other via the bus 140.

メモリ130は、データやプログラムを記憶するための記憶領域である。データやプログラムは、メモリ130に恒久的に記憶されてもよいし、一時的に記憶されてもよい。プロセッサ132は、メモリ130に記憶されているプログラムを実行することにより、管理サーバ4における各種機能を実現する。通信インタフェース134は、管理サーバ4の外部との間でデータの送受信を行うためのインタフェースである。例えば、通信インタフェース134はネットワーク6にアクセスするためのインタフェースを含む。ディスプレイ136は、各種情報を表示するためのデバイスであり、例えば、液晶ディスプレイや有機EL(Electroluminescence)ディスプレイなどである。入力インタフェース138は、ユーザからの入力を受け付けるためのデバイスである。入力インタフェース138は、例えば、マウスやキーボードやディスプレイ138上に設けられたタッチパネルを含む。 The memory 130 is a storage area for storing data and programs. The data and programs may be stored in the memory 130 permanently or temporarily. The processor 132 executes the programs stored in the memory 130 to realize various functions in the management server 4. The communication interface 134 is an interface for sending and receiving data to and from the outside of the management server 4. For example, the communication interface 134 includes an interface for accessing the network 6. The display 136 is a device for displaying various information, such as a liquid crystal display or an organic EL (Electroluminescence) display. The input interface 138 is a device for receiving input from a user. The input interface 138 includes, for example, a mouse, a keyboard, and a touch panel provided on the display 138.

図4は、図1の管理サーバ4の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。 Figure 4 is a block diagram showing the functions and configuration of the management server 4 in Figure 1. Each block shown here can be realized in hardware terms by elements and mechanical devices such as a computer CPU, and in software terms by computer programs, etc., but here we show functional blocks realized by the cooperation of these. Therefore, those skilled in the art who have read this specification will understand that these functional blocks can be realized in various ways by combining hardware and software.

管理サーバ4は、音声コンテンツ保持部402と、音声広告保持部404と、音声情報保持部406と、ユーザ情報保持部408と、セッション情報保持部410と、音声信号受付部412と、音声認識部414と、ユーザ認証部416と、セッション管理部418と、コンテンツ取得部420と、広告選択部422と、広告調整部424と、送信情報生成部426と、送信部428と、タイミング制御部430と、属性更新部432と、を備える。 The management server 4 includes an audio content storage unit 402, an audio advertisement storage unit 404, an audio information storage unit 406, a user information storage unit 408, a session information storage unit 410, an audio signal reception unit 412, a voice recognition unit 414, a user authentication unit 416, a session management unit 418, a content acquisition unit 420, an advertisement selection unit 422, an advertisement adjustment unit 424, a transmission information generation unit 426, a transmission unit 428, a timing control unit 430, and an attribute update unit 432.

図5は、図4の音声コンテンツ保持部402の一例を示すデータ構造図である。音声コンテンツ保持部402は、音声コンテンツを特定するコンテンツIDと、音声コンテンツを特徴付けるキーワードと、音声コンテンツのデータと、を対応付けて保持する。キーワードに加えてまたは代えて、タグなどの他のメタデータが用いられてもよい。 Figure 5 is a data structure diagram showing an example of the audio content storage unit 402 of Figure 4. The audio content storage unit 402 stores a content ID that identifies the audio content, keywords that characterize the audio content, and audio content data in association with each other. Other metadata such as tags may be used in addition to or instead of keywords.

音声コンテンツ保持部402に保持されるデータは、予めまたは要求に応じて管理サーバ4によって生成され登録されたデータであってもよい。音声コンテンツのデータを作成する際に、公知の音声合成技術が用いられてもよい。あるいはまた、音声コンテンツ保持部402に保持されるデータは、予めまたは要求に応じて管理サーバ4が他のサービスのサーバから取得したデータであってもよい。 The data held in the audio content holding unit 402 may be data that has been generated and registered by the management server 4 in advance or upon request. When creating the audio content data, a known voice synthesis technique may be used. Alternatively, the data held in the audio content holding unit 402 may be data that the management server 4 has acquired from a server of another service in advance or upon request.

図6は、図4の音声広告保持部404の一例を示すデータ構造図である。音声広告保持部404は、音声広告を特定する広告IDと、音声広告を特徴付けるキーワードと、音声広告の属性と、音声広告のデータと、を対応付けて保持する。キーワードに加えてまたは代えて、タグなどの他のメタデータが用いられてもよい。音声広告保持部404に保持されるデータは、管理サーバ4を運用する主体が広告主から受領したデータであってもよい。 Figure 6 is a data structure diagram showing an example of the audio advertisement storage unit 404 of Figure 4. The audio advertisement storage unit 404 stores an advertisement ID that identifies an audio advertisement, keywords that characterize the audio advertisement, attributes of the audio advertisement, and audio advertisement data, in association with each other. Other metadata such as tags may be used in addition to or instead of keywords. The data stored in the audio advertisement storage unit 404 may be data received from an advertiser by the entity operating the management server 4.

図7は、図4の音声情報保持部406の一例を示すデータ構造図である。音声情報保持部406は、スマートスピーカ10のマイクロフォン104を介して取得された音声情報を保持する。音声情報は、後述の音声認識部414にて音声信号を音声認識することにより得られるユーザの発話内容を含む。音声情報保持部406は、ユーザを特定するユーザIDと、スマートスピーカ10とユーザとの対話セッションのセッションIDと、対話セッションにおけるユーザまたはシステムの発話内容と、を対応付けて保持する。なお、音声情報保持部406は、システムの発話内容に対応するユーザIDとしてシステム固有のIDを保持する。 Figure 7 is a data structure diagram showing an example of the voice information storage unit 406 of Figure 4. The voice information storage unit 406 stores voice information acquired via the microphone 104 of the smart speaker 10. The voice information includes the user's speech content obtained by performing voice recognition on the voice signal in the voice recognition unit 414 described below. The voice information storage unit 406 stores a user ID that identifies the user, a session ID of an interaction session between the smart speaker 10 and the user, and the speech content of the user or the system in the interaction session, in association with each other. The voice information storage unit 406 stores a system-specific ID as a user ID corresponding to the system's speech content.

図8は、図4のユーザ情報保持部408の一例を示すデータ構造図である。ユーザ情報保持部408は、ユーザIDと、ユーザの声紋のデータと、他のサービスにおけるユーザのアカウントを特定するアカウントIDと、アカウントの属性と、ユーザが不快に感じた広告を特定するNG広告IDと、を対応付けて保持する。声紋のデータは、ユーザの音声広告配信システム2への初回登録時に取得されてもよい。 Figure 8 is a data structure diagram showing an example of the user information storage unit 408 of Figure 4. The user information storage unit 408 stores a user ID, the user's voiceprint data, an account ID that identifies the user's account in other services, account attributes, and an NG ad ID that identifies an advertisement that the user finds unpleasant, in association with each other. The voiceprint data may be acquired when the user registers with the audio ad distribution system 2 for the first time.

図9は、図4のセッション情報保持部410の一例を示すデータ構造図である。セッション情報保持部410は、スマートスピーカ10とユーザとの現在の対話セッションの状態を保持する。セッション情報保持部410は、現在存在しているまたは維持されている対話セッションに係るユーザのユーザIDと、該対話セッションのセッションIDと、該対話セッションの状態と、を対応付けて保持する。対話セッションの状態は、ユーザが発話中であることを示す「発話中」と、ユーザが他のユーザと会話中であることを示す「会話中」と、ユーザが発話しておらずユーザによる次の発話またはシステムによる次の発話を待っている「発話待ち」と、の三つなかから選択される。対話セッションが終了したと判定された場合、セッション情報保持部410からその対話セッションに関するエントリが削除される。すなわち、ある対話セッションのセッションIDがセッション情報保持部410に登録されていると、その対話セッションは継続中であり、その対話セッションに係るユーザがスマートスピーカ10の周囲にいると判定される。 9 is a data structure diagram showing an example of the session information storage unit 410 in FIG. 4. The session information storage unit 410 stores the state of the current dialogue session between the smart speaker 10 and the user. The session information storage unit 410 stores the user ID of the user related to the currently existing or maintained dialogue session, the session ID of the dialogue session, and the state of the dialogue session in association with each other. The state of the dialogue session is selected from three states: "Speaking", which indicates that the user is speaking; "Conversing", which indicates that the user is talking to another user; and "Waiting for speech", which indicates that the user is not speaking and is waiting for the next speech by the user or the next speech by the system. When it is determined that the dialogue session has ended, the entry related to the dialogue session is deleted from the session information storage unit 410. In other words, when the session ID of a certain dialogue session is registered in the session information storage unit 410, it is determined that the dialogue session is ongoing and that the user related to the dialogue session is in the vicinity of the smart speaker 10.

図4に戻り、音声信号受付部412は、スマートスピーカ10からネットワーク6を介して、ユーザの発話内容を表す音声信号を受け付ける。上述の通り音声信号は、ユーザの発話音声をマイクロフォン104で変換した電気信号であり、特に音声の波形を表す電気信号である。発話内容は、スマートスピーカ10(または音声広告配信システム2)への問いかけ・応答と、ひとり言と、他のユーザとの会話と、を含む。 Returning to FIG. 4, the audio signal receiving unit 412 receives an audio signal representing the content of the user's speech from the smart speaker 10 via the network 6. As described above, the audio signal is an electrical signal converted from the user's speech by the microphone 104, and in particular is an electrical signal representing the waveform of the speech. The content of the speech includes questions and responses to the smart speaker 10 (or the audio advertising distribution system 2), monologue, and conversations with other users.

音声認識部414は、音声信号受付部412が受け付けた音声信号に対して所定の音声認識処理を施す。音声認識部414は音声認識により音声信号からユーザの発話内容を導出する。音声認識部414における音声認識処理は、n-gramや隠れマルコフモデルを用いる公知の音声認識技術を用いて実現されてもよい。 The voice recognition unit 414 performs a predetermined voice recognition process on the voice signal received by the voice signal receiving unit 412. The voice recognition unit 414 derives the contents of the user's speech from the voice signal by voice recognition. The voice recognition process in the voice recognition unit 414 may be realized using a known voice recognition technology that uses n-gram or a hidden Markov model.

ユーザ認証部416は、音声信号受付部412が受け付けた音声信号から声紋を抽出または取得する。ユーザ認証部416は、抽出された声紋に基づくユーザ認証(すなわち、声紋認証)を行う。ユーザ認証部416はユーザ情報保持部408を参照し、ユーザ情報保持部408に保持されている声紋のなかに抽出された声紋と一致する声紋があるか否かを判定する。ユーザ認証部416は、一致する声紋があればその声紋に対応するユーザIDを特定し、特定されたユーザIDと音声認識部414において導出された発話内容とを対応付ける。この場合、音声信号受付部412が受け付けた音声信号に対応する発話を行ったユーザは、管理サーバ4によって声紋認証されたこととなる。ユーザ認証部416は、一致する声紋がなければ、一致なしまたはユーザ不明を表す出力を生成する。管理サーバ4はこの出力に応じてユーザの新規登録を開始してもよい。 The user authentication unit 416 extracts or acquires a voiceprint from the voice signal received by the voice signal receiving unit 412. The user authentication unit 416 performs user authentication based on the extracted voiceprint (i.e., voiceprint authentication). The user authentication unit 416 refers to the user information storage unit 408 and determines whether or not there is a voiceprint that matches the extracted voiceprint among the voiceprints stored in the user information storage unit 408. If there is a matching voiceprint, the user authentication unit 416 identifies the user ID corresponding to the voiceprint and associates the identified user ID with the speech content derived in the voice recognition unit 414. In this case, the user who made the utterance corresponding to the voice signal received by the voice signal receiving unit 412 is voiceprint authenticated by the management server 4. If there is no matching voiceprint, the user authentication unit 416 generates an output indicating no match or an unknown user. The management server 4 may start new user registration in response to this output.

セッション管理部418は、スマートスピーカ10とユーザとの対話セッションを管理する。セッション管理部418は、音声情報保持部406とセッション情報保持部410とを管理する。セッション管理部418は、ユーザ認証部416によって対応付けられたユーザIDおよび発話内容に、スマートスピーカ10とそのユーザとの対話セッションを特定するセッションIDを対応付けて音声情報保持部406に登録する。 The session management unit 418 manages the dialogue session between the smart speaker 10 and the user. The session management unit 418 manages the voice information storage unit 406 and the session information storage unit 410. The session management unit 418 associates a session ID that identifies the dialogue session between the smart speaker 10 and the user with the user ID and speech content associated by the user authentication unit 416, and registers them in the voice information storage unit 406.

セッション管理部418は、ユーザ認証部416によって対応付けられたユーザIDおよび発話内容に基づいてスマートスピーカ10とそのユーザとの現在の対話セッションの状態を決定する。セッション管理部418は、決定された状態でセッション情報保持部410を更新する。例えば、セッション管理部418は、発話内容の解析結果が発言の途中であることを示す場合、現在の対話セッションの状態を「発話中」に決定する。セッション管理部418は、発話内容の解析結果が発言の終わりであることを示す場合、現在の対話セッションの状態を「発話待ち」に決定する。セッション管理部418は、発話内容の解析結果が対話セッションの終了を示す場合(例えば、発話内容が「またね」や「バイバイ」などの対話セッションの終了を示す語である場合)、該対話セッションのセッションIDを有する全てのエントリをセッション情報保持部410から削除する。セッション管理部418は「発話待ち」状態のまま所定の期間が経過した対話セッションをセッション情報保持部410から削除してもよい。ここで、発話内容に基づいて対話セッションの状態を決定したが、発話内容に代えて、又は、発話内容に加えて、別途備えられたカメラからの撮像情報から対話セッションの状態を決定してもよい。ここでのカメラはスマートスピーカ10自体に配設されていてもよいし、通信機能を有するカメラ単体を別途用いてもよいし、カメラ機能を有するテレビ又はカメラ機能を有するコンピュータを別途用いてもよい。 The session management unit 418 determines the state of the current dialogue session between the smart speaker 10 and its user based on the user ID and the speech content associated by the user authentication unit 416. The session management unit 418 updates the session information storage unit 410 with the determined state. For example, when the analysis result of the speech content indicates that the speech is in progress, the session management unit 418 determines the state of the current dialogue session to be "in speech". When the analysis result of the speech content indicates that the speech is at the end, the session management unit 418 determines the state of the current dialogue session to be "waiting for speech". When the analysis result of the speech content indicates the end of the dialogue session (for example, when the speech content is a word indicating the end of the dialogue session such as "see you later" or "bye-bye"), the session management unit 418 deletes all entries having the session ID of the dialogue session from the session information storage unit 410. The session management unit 418 may delete from the session information storage unit 410 a dialogue session that has remained in the "waiting for speech" state for a predetermined period of time. Here, the state of the dialogue session is determined based on the content of the utterance, but instead of or in addition to the content of the utterance, the state of the dialogue session may be determined from image information from a separately provided camera. The camera here may be disposed in the smart speaker 10 itself, or a separate camera with a communication function may be used, or a television with a camera function or a computer with a camera function may be used separately.

コンテンツ取得部420は、音声認識部414において導出された発話内容が音声コンテンツの配信要求を含む場合、要求されている音声コンテンツを音声コンテンツ保持部402から取得する。例えば、発話内容が「何か甲村太郎の歌が聴きたい」などの音楽コンテンツの配信要求である場合、コンテンツ取得部420は要求されている音楽コンテンツを音声コンテンツ保持部402から取得する。あるいはまた、コンテンツ取得部420は、音楽配信サービスのサーバにアクセスし、要求されている音楽コンテンツをメタデータと共にそのサーバから取得してもよい。この場合、コンテンツ取得部420は取得した音楽コンテンツおよびメタデータを音声コンテンツ保持部402に登録してもよい。 When the speech content derived in the voice recognition unit 414 includes a request for distribution of voice content, the content acquisition unit 420 acquires the requested voice content from the voice content storage unit 402. For example, when the speech content is a request for distribution of music content such as "I want to hear some song by Taro Komura," the content acquisition unit 420 acquires the requested music content from the voice content storage unit 402. Alternatively, the content acquisition unit 420 may access a server of a music distribution service and acquire the requested music content together with metadata from the server. In this case, the content acquisition unit 420 may register the acquired music content and metadata in the voice content storage unit 402.

発話内容が「今日のニュースを教えて」、「今夜の天気は?」などの情報コンテンツの配信要求である場合、コンテンツ取得部420は要求されている情報コンテンツを音声コンテンツ保持部402から取得する。あるいはまた、コンテンツ取得部420は、情報配信サービスのサーバにアクセスし、要求されている情報コンテンツをテキスト形式でメタデータと共にそのサーバから取得してもよい。この場合、コンテンツ取得部420は、所定の音声合成処理を用いることで、取得したテキスト形式の情報コンテンツを音声データに変換してもよい。コンテンツ取得部420は、音声データとなった情報コンテンツおよびメタデータを音声コンテンツ保持部402に登録してもよい。音声合成処理は、公知の音声合成技術を用いて実現されてもよい。 When the spoken content is a request for distribution of information content such as "Tell me today's news" or "What's the weather like tonight?", the content acquisition unit 420 acquires the requested information content from the voice content storage unit 402. Alternatively, the content acquisition unit 420 may access a server of an information distribution service and acquire the requested information content in text format together with metadata from the server. In this case, the content acquisition unit 420 may convert the acquired information content in text format into voice data by using a predetermined voice synthesis process. The content acquisition unit 420 may register the information content and metadata that have become voice data in the voice content storage unit 402. The voice synthesis process may be realized using a known voice synthesis technique.

発話内容が「出雲大社について教えて」などの検索結果の配信要求である場合、コンテンツ取得部420は要求されている検索結果を音声コンテンツ保持部402から取得する。あるいはまた、コンテンツ取得部420は、検索サービスのサーバにアクセスし、要求されている検索結果をテキスト形式でメタデータと共にそのサーバから取得してもよい。この場合、コンテンツ取得部420は、所定の音声合成処理を用いることで、取得したテキスト形式の検索結果を音声データに変換してもよい。コンテンツ取得部420は、音声データとなった検索結果およびメタデータを音声コンテンツ保持部402に登録してもよい。 If the spoken content is a request for distribution of search results such as "Tell me about Izumo Taisha Shrine," the content acquisition unit 420 acquires the requested search results from the audio content storage unit 402. Alternatively, the content acquisition unit 420 may access a search service server and acquire the requested search results in text format together with metadata from the server. In this case, the content acquisition unit 420 may convert the acquired text-format search results into audio data by using a predetermined voice synthesis process. The content acquisition unit 420 may register the search results and metadata that have become audio data in the audio content storage unit 402.

広告選択部422は、コンテンツ取得部420によって取得された音声コンテンツに添付すべき音声広告を、音声広告保持部404から選択する。広告選択部422における音声広告の選択の基準は、(1)コンテンツ取得部420によって取得された音声コンテンツの内容との関連性、(2)音声情報保持部406に保持される、スマートスピーカ10とユーザとの現在の対話セッションにおけるユーザの発話内容との関連性、(3)認証されたユーザのアカウントの属性との関連性、のうちのいずれかまたはそれらの任意の組み合わせである。 The advertisement selection unit 422 selects an audio advertisement to be attached to the audio content acquired by the content acquisition unit 420 from the audio advertisement storage unit 404. The criteria for selecting an audio advertisement in the advertisement selection unit 422 are any one of the following, or any combination of: (1) relevance to the content of the audio content acquired by the content acquisition unit 420; (2) relevance to the content of the user's utterance in the current interactive session between the smart speaker 10 and the user, which is stored in the audio information storage unit 406; and (3) relevance to the attributes of the authenticated user's account.

例えば、(1)について、「出雲大社について教えて」という検索結果の配信要求に対して、コンテンツ取得部420によって「出雲大社は、古くは…」という音声コンテンツの音声データが取得される。広告選択部422はコンテンツ取得部420によって取得された「出雲大社は、古くは…」に対応するキーワード「出雲大社、神、縁結び」を音声コンテンツ保持部402から取得する。広告選択部422は、音声広告保持部404を参照し、取得したキーワード「出雲大社、神、縁結び」に対応するキーワード「出雲大社、縁結び」を有する「出雲大社に旅行に行きたい?それならABC旅行者に相談だ」という音声広告の音声データを選択する。このように、音声コンテンツのキーワードと音声広告のキーワードとを比較することにより、コンテンツ取得部420によって取得された音声コンテンツの内容に対応する音声広告が広告選択部422によって選択される。 For example, in regard to (1), in response to a request for delivery of a search result of "Tell me about Izumo Taisha," the content acquisition unit 420 acquires audio data of audio content "Izumo Taisha was once...." The advertisement selection unit 422 acquires the keyword "Izumo Taisha, God, Matchmaking" corresponding to "Izumo Taisha was once..." acquired by the content acquisition unit 420 from the audio content storage unit 402. The advertisement selection unit 422 refers to the audio advertisement storage unit 404 and selects audio data of an audio advertisement "Want to travel to Izumo Taisha? Then consult ABC Travelers" that has the keyword "Izumo Taisha, Matchmaking" corresponding to the acquired keyword "Izumo Taisha, God, Matchmaking." In this way, by comparing the keywords of the audio content with the keywords of the audio advertisement, the advertisement selection unit 422 selects an audio advertisement that corresponds to the content of the audio content acquired by the content acquisition unit 420.

例えば、(2)について、スマートスピーカ10とユーザとの間で
(ユーザ)「駅までタクシーで間に合う?」
(スマートスピーカ10)「間に合います」
(ユーザ)「今夜の天気は?」
という対話が行われているとする。「今夜の天気は?」という情報コンテンツの配信要求に対して、コンテンツ取得部420によって「今夜のC地方の天気はにわか雨、気温は…」という音声コンテンツの音声データが取得される。広告選択部422は、音声情報保持部406を参照し、スマートスピーカ10とユーザとの現在の対話セッションにおけるユーザの発話内容として「駅までタクシーで間に合う?」を特定する。広告選択部422は特定された「駅までタクシーで間に合う?」という発話内容から「駅、タクシー」というキーワードを抽出する。広告選択部422は、音声広告保持部404を参照し、抽出されたキーワード「駅、タクシー」に対応するキーワード「タクシー、配車」を有する「すぐくるZZZタクシー配車サービス」という音声広告の音声データを選択する。このように、音声情報保持部406を参照することにより、広告選択部422は、スマートスピーカ10とユーザとの現在の対話セッションにおけるユーザの発話内容に基づいて音声広告を選択することができる。
For example, in regard to (2), between the smart speaker 10 and the user (user) “Can I make it to the station by taxi in time?”
(Smart Speaker 10) "We'll make it."
(User) "What's the weather like tonight?"
Assume that the following dialogue is taking place. In response to a request for delivery of information content "What's the weather tonight?", the content acquisition unit 420 acquires voice data of voice content "The weather in C region tonight is a sudden rain shower, and the temperature is...". The advertisement selection unit 422 refers to the voice information storage unit 406 and identifies "Can you make it to the station by taxi?" as the user's utterance content in the current dialogue session between the smart speaker 10 and the user. The advertisement selection unit 422 extracts the keyword "station, taxi" from the identified utterance content "Can you make it to the station by taxi?" The advertisement selection unit 422 refers to the voice advertisement storage unit 404 and selects voice data of a voice advertisement "ZZZ taxi dispatch service coming soon" having the keyword "taxi, dispatch" corresponding to the extracted keyword "station, taxi". In this way, by referring to the voice information storage unit 406, the advertisement selection unit 422 can select a voice advertisement based on the user's utterance content in the current dialogue session between the smart speaker 10 and the user.

なお、上記の例において(2)ではなく(1)の基準が用いられる場合、広告選択部422はコンテンツ取得部420によって取得された「今夜のC地方の天気はにわか雨、気温は…」に対応するキーワード「C地方、雨、低温」を音声コンテンツ保持部402から取得する。広告選択部422は、音声広告保持部404を参照し、取得したキーワード「C地方、雨、低温」に対応するキーワード「傘、雨」を有する「CB社のハイパー傘は10年壊れません!」という音声広告の音声データを選択する。このように、スマートスピーカ10とユーザとの対話の内容が同じでも、用いる基準によって選択される音声広告が異なる場合がある。 In the above example, if criterion (1) is used instead of criterion (2), the advertisement selection unit 422 acquires from the audio content storage unit 402 the keyword "C region, rain, low temperature" corresponding to "Tonight's weather in C region is showers, the temperature is..." acquired by the content acquisition unit 420. The advertisement selection unit 422 refers to the audio advertisement storage unit 404 and selects audio data for an audio advertisement saying "CB's Hyper Umbrella will last for 10 years!", which has the keyword "umbrella, rain" corresponding to the acquired keyword "C region, rain, low temperature." In this way, even if the content of the dialogue between the smart speaker 10 and the user is the same, the audio advertisement selected may differ depending on the criterion used.

例えば、(3)について、「今日のニュースを教えて」という情報コンテンツの配信要求に対して、コンテンツ取得部420によって「今朝6時頃、A県B市で火事があり、…」という音声コンテンツの音声データが取得される。併せて、ユーザ認証部416における声紋認証により「今日のニュースを教えて」の発話主のユーザが認証され、該ユーザのユーザID「B102」が特定される。広告選択部422は、特定されたユーザID「B102」に対応するアカウントの属性「子供、男性、独身」をユーザ情報保持部408から取得する。広告選択部422は、音声広告保持部404を参照し、取得した属性「子供、男性、独身」に対応する属性「子供、男性」を有する「F市に来たら、SLに乗れるよ」という音声広告の音声データを選択する。また、特定されたユーザID「B102」に対応するアカウントの属性が「大人、女性、独身」であったなら、広告選択部422は、音声広告保持部404を参照し、その属性に対応する属性「独身、大人」を有する「出雲大社に旅行に行きたい?それならABC旅行社に相談だ」という音声広告の音声データを選択する。このように、認証されたユーザのアカウントの属性と音声広告の属性とを比較することにより、認証されたユーザのアカウントの属性に対応する音声広告が広告選択部422によって選択される。 For example, in regard to (3), in response to a request for delivery of information content "Tell me today's news," the content acquisition unit 420 acquires voice data of the voice content "At around 6 o'clock this morning, there was a fire in City B, Prefecture A, ...". In addition, the user who spoke "Tell me today's news" is authenticated by voiceprint authentication in the user authentication unit 416, and the user ID "B102" of the user is identified. The advertisement selection unit 422 acquires the attributes "children, male, single" of the account corresponding to the identified user ID "B102" from the user information storage unit 408. The advertisement selection unit 422 refers to the audio advertisement storage unit 404, and selects the audio data of the audio advertisement "If you come to City F, you can ride a steam locomotive," which has the attributes "children, male" corresponding to the acquired attributes "children, male, single." Furthermore, if the attributes of the account corresponding to the identified user ID "B102" are "adult, female, single," the advertisement selection unit 422 refers to the audio advertisement storage unit 404 and selects the audio data of the audio advertisement "Want to take a trip to Izumo Taisha Shrine? Then consult ABC Travel Agency," which has the attribute "single, adult" corresponding to the attributes. In this way, by comparing the attributes of the authenticated user's account with the attributes of the audio advertisement, the advertisement selection unit 422 selects the audio advertisement corresponding to the attributes of the authenticated user's account.

あるいはまた、特定されたユーザID「B102」に対応するアカウントの属性が「大人、男性、既婚」であったなら、広告選択部422はまずその属性に対応する「クリスマスプレゼントなら、XX貴金属の指輪がお勧めです」、「火災保険ならXYZ火災海上保険にお任せを」、「すぐくるZZZタクシー配車サービス」、「出雲大社に旅行に行きたい?それならABC旅行社に相談だ」の四つの音声広告を候補として選択する。さらに広告選択部422は、コンテンツ取得部420によって取得された「今朝6時頃、A県B市で火事があり、…」に対応するキーワード「A県、B市、火事」を音声コンテンツ保持部402から取得する。広告選択部422は、選択した四つの候補のうち、取得したキーワード「A県、B市、火事」に対応するキーワード「火事、火災、保険」を有する「火災保険ならXYZ火災海上保険にお任せを」という音声広告の音声データを選択する。このように、(3)の基準で候補を選択し、(1)の基準で絞り込む、という形での(1)の基準と(3)の基準との組み合わせも可能である。 Alternatively, if the attributes of the account corresponding to the specified user ID "B102" are "adult, male, married", the advertisement selection unit 422 first selects four audio advertisements corresponding to the attributes as candidates: "For Christmas presents, we recommend a ring made of XX precious metal", "For fire insurance, leave it to XYZ Fire and Marine Insurance", "ZZZ taxi dispatch service that will come quickly", and "Want to go on a trip to Izumo Taisha? Then consult with ABC Travel Agency". Furthermore, the advertisement selection unit 422 acquires the keyword "A prefecture, B city, fire" corresponding to "Around 6 o'clock this morning, there was a fire in B city, A prefecture, ..." acquired by the content acquisition unit 420 from the audio content storage unit 402. The advertisement selection unit 422 selects the audio data of the audio advertisement "For fire insurance, leave it to XYZ Fire and Marine Insurance" that has the keyword "fire, fire, insurance" corresponding to the acquired keyword "A prefecture, B city, fire" from the four selected candidates. In this way, it is possible to combine criteria (1) and (3), by selecting candidates using criteria (3) and then narrowing them down using criteria (1).

例えば、スマートスピーカ10とユーザとの間で
(ユーザ)「何か甲村太郎の歌が聴きたい」
(スマートスピーカ10)「クリスマスソングなどいかがでしょうか?」
(ユーザ)「じゃあ、それで」
という対話が行われているとする。「何か甲村太郎の歌が聴きたい」という音楽コンテンツの配信要求に対して、コンテンツ取得部420によって甲村太郎のクリスマスソングの音声データが取得される。管理サーバ4は、スマートスピーカ10を介してユーザに、クリスマスソングでよいか問い合わせる。管理サーバ4は、ユーザの「じゃあ、それで」という肯定の応答を受けると、取得した甲村太郎のクリスマスソングの音声データに音声広告を付してスマートスピーカ10に送信する。ここで、広告選択部422はコンテンツ取得部420によって取得された甲村太郎のクリスマスソングに対応するキーワード「甲村太郎(作詞作曲)、乙アニメ(主題歌)、丙映画(挿入歌)、クリスマスソング、指輪」を音声コンテンツ保持部402から取得する。広告選択部422は、音声広告保持部404を参照し、取得したキーワード「甲村太郎(作詞作曲)、乙アニメ(主題歌)、丙映画(挿入歌)、クリスマスソング、指輪」に対応するキーワードを有する「乙アニメ、金曜午後6時から、放送中!」(キーワード:「乙アニメ、金曜、午後6時」)および「クリスマスプレゼントなら、XX貴金属の指輪がお勧めです」(キーワード:「クリスマス、プレゼント、指輪」)の二つの音声広告を候補として選択する。さらに広告選択部422は、声紋認証により認証されたユーザのユーザID「A101」に対応するアカウントの属性「大人、男性、既婚」をユーザ情報保持部408から取得する。広告選択部422は、選択した二つの候補のうち、取得した属性「大人、男性、既婚」に対応する属性「大人」を有する「クリスマスプレゼントなら、XX貴金属の指輪がお勧めです」という音声広告の音声データを選択する。また、声紋認証により認証されたユーザのユーザIDが「A105」であったなら、広告選択部422は、選択した二つの候補のうち、取得した属性「子供、女性、独身」に対応する属性「女性、子供」を有する「乙アニメ、金曜午後6時から、放送中!」という音声広告の音声データを選択する。このように、(1)の基準で候補を選択し、(3)の基準で絞り込む、という形での(1)の基準と(3)の基準との組み合わせも可能である。
For example, between the smart speaker 10 and the user, (user) "I want to listen to some songs by Taro Komura"
(Smart Speaker 10) "How about some Christmas songs?"
(User) "Okay then."
Assume that the following dialogue is taking place. In response to a music content distribution request of "I want to hear some song by Taro Komura," the content acquisition unit 420 acquires audio data of Taro Komura's Christmas song. The management server 4 inquires of the user via the smart speaker 10 whether a Christmas song is OK. When the management server 4 receives an affirmative response of "Okay then," from the user, it attaches an audio advertisement to the acquired audio data of Taro Komura's Christmas song and transmits it to the smart speaker 10. Here, the advertisement selection unit 422 acquires from the audio content storage unit 402 the keywords "Taro Komura (lyrics and composition), B anime (theme song), C movie (insert song), Christmas song, ring" corresponding to Taro Komura's Christmas song acquired by the content acquisition unit 420. The advertisement selection unit 422 refers to the audio advertisement storage unit 404 and selects two audio advertisements as candidates, "Anime B, on air from 6pm on Friday!" (keyword: "Anime B, Friday, 6pm") and "For a Christmas present, we recommend a ring made of XX precious metal" (keyword: "Christmas, present, ring"), which have keywords corresponding to the acquired keywords "Taro Komura (lyrics and composition), Anime B (theme song), Movie C (insert song), Christmas song, ring". Furthermore, the advertisement selection unit 422 acquires from the user information storage unit 408 the attributes "adult, male, married" of the account corresponding to the user ID "A101" of the user authenticated by voiceprint authentication. Of the two selected candidates, the advertisement selection unit 422 selects the audio data of the audio advertisement "For a Christmas present, we recommend a ring made of XX precious metal" which has the attribute "adult" corresponding to the acquired attribute "adult, male, married". Moreover, if the user ID of the user authenticated by voiceprint authentication is "A105", the advertisement selection unit 422 selects, from the two selected candidates, the audio data of the audio advertisement "Anime No. 2, on air from 6pm on Friday!", which has the attribute "female, child" corresponding to the acquired attribute "child, female, single". In this way, it is also possible to combine criteria (1) and (3) in such a way that candidates are selected based on criterion (1) and then narrowed down based on criterion (3).

また、(1)の基準と(2)の基準との組み合わせや(2)の基準と(3)の基準との組み合わせや(1)、(2)、(3)の三つの基準の組み合わせも可能である。
あるいはまた、(1)、(2)、(3)の基準以外にも、スマートスピーカ10が集音したスマートスピーカ10の周囲の物音やユーザ同士の会話に基づいて音声広告が選択されてもよい。例えば、ユーザと他のユーザとの間で交わされた「ティッシュペーパーがないね」、「そうだね、ECサイトで頼もうか」という会話をスマートスピーカ10が拾っていた場合、広告選択部422はその会話内容から「ティッシュペーパー」というキーワードを抽出し、抽出された「ティッシュペーパー」を宣伝する音声広告を選択してもよい。また、例えば、犬や猫の鳴き声をスマートスピーカ10が拾っていた場合、広告選択部422はその鳴き声から「犬、猫」というキーワードを特定し、特定された「犬、猫」に関連するドッグフードやキャットフードを宣伝する音声広告を選択してもよい。
Also possible are a combination of criteria (1) and (2), a combination of criteria (2) and (3), and a combination of the three criteria (1), (2), and (3).
Alternatively, in addition to the criteria (1), (2), and (3), the audio advertisement may be selected based on sounds around the smart speaker 10 collected by the smart speaker 10 or conversations between users. For example, if the smart speaker 10 picks up a conversation between a user and another user, such as "There's no tissue paper," or "Yeah, let's order some from an EC site," the advertisement selection unit 422 may extract the keyword "tissue paper" from the content of the conversation and select an audio advertisement promoting the extracted "tissue paper." Also, for example, if the smart speaker 10 picks up the cries of a dog or cat, the advertisement selection unit 422 may identify the keyword "dog, cat" from the cries and select an audio advertisement promoting dog food or cat food related to the identified "dog, cat."

広告調整部424は、広告選択部422によって選択された音声広告の長さを調整するか否かを判定する。広告調整部424は、調整すると判定された場合、選択された音声広告に所定の抽出アルゴリズムを適用することにより該音声広告から一部分(例えば、比較的重要な部分)を抽出する。広告調整部424は音声広告の長さを調整するか否かを、コンテンツ取得部420によって取得された音声コンテンツの内容および/またはスマートスピーカ10とユーザとの現在の対話セッションの状態に基づいて判定してもよい。 The advertisement adjustment unit 424 determines whether to adjust the length of the audio advertisement selected by the advertisement selection unit 422. If the advertisement adjustment unit 424 determines to adjust the length of the audio advertisement, it extracts a portion (e.g., a relatively important portion) from the selected audio advertisement by applying a predetermined extraction algorithm to the audio advertisement. The advertisement adjustment unit 424 may determine whether to adjust the length of the audio advertisement based on the content of the audio content acquired by the content acquisition unit 420 and/or the state of the current interactive session between the smart speaker 10 and the user.

例えば、広告調整部424はセッション情報保持部410を参照し、選択された音声広告に対応するセッションの状態が「会話中」である場合は調整すると判定し、「発話待ち」であれば調整しないと判定してもよい。あるいはまた、広告調整部424は、コンテンツ取得部420によって取得された音声コンテンツの内容に基づいて音声広告の長さを決定してもよい。例えば、広告調整部424は音声コンテンツの再生時間に合わせて音声広告の長さを決めてもよい。比較的長い音声コンテンツについては音声広告を複数回再生するようにしてもよい。また例えば、広告調整部424は音声コンテンツがニュースや天気予報などの情報コンテンツである場合、ユーザはより早く所望の情報を得たいと考えている蓋然性が高いので、調整すると判定してもよい。 For example, the advertisement adjustment unit 424 may refer to the session information storage unit 410 and determine to adjust if the state of the session corresponding to the selected audio advertisement is "talking", and determine not to adjust if the state is "waiting for speech". Alternatively, the advertisement adjustment unit 424 may determine the length of the audio advertisement based on the content of the audio content acquired by the content acquisition unit 420. For example, the advertisement adjustment unit 424 may determine the length of the audio advertisement according to the playback time of the audio content. For relatively long audio content, the audio advertisement may be played multiple times. Also, for example, if the audio content is information content such as news or a weather forecast, the advertisement adjustment unit 424 may determine to adjust since there is a high probability that the user wants to obtain the desired information as quickly as possible.

音声広告のうち人が話している部分、人が大きな音で話している部分、背景音が段々と大きくなる部分などを重要部分として抽出する技術が知られており、ハードディスク録画機等で用いられている。所定の抽出アルゴリズムは、この公知の技術を用いて構成されてもよい。なお、広告調整部424は音声広告の長さに加えてまたは代えて、音声広告の音量を調整してもよい。 Technology is known for extracting important parts of an audio advertisement, such as parts where a person is speaking, parts where a person is speaking loudly, and parts where background sounds gradually get louder, and this technology is used in hard disk recorders and the like. The specified extraction algorithm may be configured using this known technology. Note that the advertisement adjustment unit 424 may adjust the volume of the audio advertisement in addition to or instead of the length of the audio advertisement.

送信情報生成部426は、コンテンツ取得部420によって取得された音声コンテンツと、広告選択部422によって選択された音声広告と、を合わせてひとつの送信情報を生成する。広告調整部424により音声広告の長さが調整されている場合は、広告選択部422によって選択された音声広告の代わりに、広告調整部424によって長さが調整された音声広告が用いられる。送信情報生成部426は、送信情報がスマートスピーカ10によって受信され再生されたときに、音声広告の再生が音声コンテンツの再生よりも時間的に前となるように、送信情報を構成する。例えば、送信情報がヘッダと音声コンテンツと音声広告とを含む場合、送信情報生成部426はヘッダ、音声広告、音声コンテンツの順に並ぶよう送信情報を生成してもよい。 The transmission information generation unit 426 generates one piece of transmission information by combining the audio content acquired by the content acquisition unit 420 and the audio advertisement selected by the advertisement selection unit 422. If the length of the audio advertisement has been adjusted by the advertisement adjustment unit 424, the audio advertisement whose length has been adjusted by the advertisement adjustment unit 424 is used instead of the audio advertisement selected by the advertisement selection unit 422. The transmission information generation unit 426 configures the transmission information so that when the transmission information is received and played by the smart speaker 10, the audio advertisement is played back temporally before the audio content is played back. For example, when the transmission information includes a header, audio content, and audio advertisement, the transmission information generation unit 426 may generate the transmission information so that the header, audio advertisement, and audio content are arranged in this order.

送信部428は、送信情報生成部426によって生成された送信情報をスマートスピーカ10に、ネットワーク6を介して送信する。スマートスピーカ10は、ネットワーク6を介して送信情報を受信すると、送信情報に含まれる音声広告をまず再生した後に、送信情報に含まれる音声コンテンツを再生する。あるいはまた、後述のタイミング制御部430がネットワーク6を介してスマートスピーカ10からの音声の出力を制御してもよい。この場合、タイミング制御部430は、スマートスピーカ10にまず送信情報に含まれる音声広告を出力させ、次いで送信情報に含まれる音声コンテンツを出力させる。いずれにせよ、音声広告と音声コンテンツとは連続的に再生される。すなわち、音声広告と音声コンテンツとの間に他の音声は存在しない。特に、音声広告は音声コンテンツの直前に再生される。 The transmitting unit 428 transmits the transmission information generated by the transmission information generating unit 426 to the smart speaker 10 via the network 6. When the smart speaker 10 receives the transmission information via the network 6, it first plays the audio advertisement included in the transmission information, and then plays the audio content included in the transmission information. Alternatively, the timing control unit 430 described below may control the output of audio from the smart speaker 10 via the network 6. In this case, the timing control unit 430 causes the smart speaker 10 to first output the audio advertisement included in the transmission information, and then output the audio content included in the transmission information. In either case, the audio advertisement and the audio content are played back consecutively. That is, there is no other audio between the audio advertisement and the audio content. In particular, the audio advertisement is played back immediately before the audio content.

あるいはまた、音声広告は音声コンテンツの途中に埋め込まれてもよいし、音声コンテンツが出力された後に音声広告が出力されてもよい。 Alternatively, audio advertisements may be embedded in the middle of the audio content, or may be output after the audio content is output.

タイミング制御部430は、ネットワーク6を介してスマートスピーカ10と通信し、スマートスピーカ10からの音声出力のタイミングを制御する。タイミング制御部430はセッション情報保持部410を参照し、スマートスピーカ10の周囲にユーザが存在するか否かを判定する。タイミング制御部430は、スマートスピーカ10とユーザとの対話セッションのセッションIDがセッション情報保持部410に保持されている場合、スマートスピーカ10の周囲にユーザが存在すると判定する、またはユーザの存在を検知する。タイミング制御部430は、そのようなセッションIDがセッション情報保持部410に保持されていない場合、スマートスピーカ10の周囲にユーザが存在しないと判定する。 The timing control unit 430 communicates with the smart speaker 10 via the network 6 and controls the timing of audio output from the smart speaker 10. The timing control unit 430 refers to the session information storage unit 410 and determines whether or not a user is present around the smart speaker 10. If a session ID of an interactive session between the smart speaker 10 and the user is stored in the session information storage unit 410, the timing control unit 430 determines that a user is present around the smart speaker 10 or detects the presence of a user. If such a session ID is not stored in the session information storage unit 410, the timing control unit 430 determines that no user is present around the smart speaker 10.

タイミング制御部430は、スマートスピーカ10の周囲においてユーザの存在が検知されない場合、または、セッション情報保持部410に保持されているスマートスピーカ10とユーザとの対話セッションの状態が「発話中」あるいは「会話中」となっている場合、スマートスピーカ10からの音声広告の出力を制限する。タイミング制御部430は、ユーザの存在が検知されると、スマートスピーカ10からの音声広告の出力を許可する。タイミング制御部430は、対話セッションの状態が「発話待ち」に変更されると、スマートスピーカ10からの音声広告の出力を許可する。 The timing control unit 430 restricts the output of audio advertisements from the smart speaker 10 when the presence of a user is not detected around the smart speaker 10, or when the state of the dialogue session between the smart speaker 10 and the user stored in the session information storage unit 410 is "speaking" or "conversing". When the timing control unit 430 detects the presence of a user, it allows the output of audio advertisements from the smart speaker 10. When the state of the dialogue session is changed to "waiting for speech", the timing control unit 430 allows the output of audio advertisements from the smart speaker 10.

タイミング制御部430は、スマートスピーカ10に関連付けられたTV12の出力と、スマートスピーカ10から出力される音声広告とが連携するように、該音声広告の出力のタイミングを制御する。例えば、タイミング制御部430は、TV12から「続きはスピーカで!」という広告が流れ終わったタイミングで、スマートスピーカ10から「テレビで紹介したこの商品は…」という音声広告の出力が開始されるよう、スマートスピーカ10を制御する。この場合、タイミング制御部430は、TV12からネットワーク6を介して現在放映されているチャネルの番号を取得する。タイミング制御部430は予め放映のスケジュールを他のサービスのサーバから取得しておく。タイミング制御部430は、取得されたチャネルの番号と、放映のスケジュールと、から、TV12で流される広告の内容と、開始タイミングと、終了タイミングとを特定することができる。タイミング制御部430は、特定された内容に関連する音声広告を音声広告保持部404から選択し、スマートスピーカ10に送信する(音声コンテンツに付随してもしなくてもよい)。タイミング制御部430は、送信した音声広告の出力を、TV12で流される広告の終了タイミングで開始するようスマートスピーカ10を制御する。 The timing control unit 430 controls the timing of the output of the audio advertisement so that the output of the TV 12 associated with the smart speaker 10 and the audio advertisement output from the smart speaker 10 are linked. For example, the timing control unit 430 controls the smart speaker 10 so that the output of the audio advertisement "This product introduced on TV is..." starts from the smart speaker 10 at the timing when the advertisement "Continue on the speaker!" from the TV 12 ends. In this case, the timing control unit 430 acquires the number of the channel currently being broadcast from the TV 12 via the network 6. The timing control unit 430 acquires the broadcast schedule in advance from the server of another service. The timing control unit 430 can specify the content, start timing, and end timing of the advertisement to be broadcast on the TV 12 from the acquired channel number and broadcast schedule. The timing control unit 430 selects an audio advertisement related to the specified content from the audio advertisement storage unit 404 and transmits it to the smart speaker 10 (which may or may not be attached to the audio content). The timing control unit 430 controls the smart speaker 10 to start outputting the transmitted audio advertisement at the end of the advertisement aired on the TV 12.

属性更新部432は、スマートスピーカ10で収集した音声情報でユーザのアカウントの属性を更新する。例えば図8のユーザ情報保持部408に示されるアカウントIDが検索サービスのアカウントのものである場合、検索サービスのサイトを訪問したユーザにこのアカウントIDが付与される。このユーザがどのようなものを検索しているかという情報からこのユーザのアカウントの属性が導出され、図8のユーザ情報保持部408の属性として登録される。 The attribute update unit 432 updates the attributes of the user's account with the voice information collected by the smart speaker 10. For example, if the account ID shown in the user information storage unit 408 in FIG. 8 is for an account of a search service, this account ID is given to a user who visits the site of the search service. The attributes of this user's account are derived from information about what this user is searching for, and are registered as attributes in the user information storage unit 408 in FIG. 8.

一方、管理サーバ4では、スマートスピーカ10とユーザとの対話の内容、および、ユーザと他のユーザとの会話の内容を解析することで、ユーザの嗜好を把握することができる。属性更新部432は、このようにスマートスピーカ10を介して把握された嗜好で、ユーザ情報保持部408の属性を更新する。属性更新部432は、更新内容をアカウントIDに関連付けて検索サービスのサーバに提供してもよい。これにより、検索サービスは、これまで検索サービスでは得られなかったユーザの嗜好を得ることができ、このようにして得た嗜好を用いてブラウザの広告出力を最適化することができる。なお、スマートスピーカ10を介して得られるユーザの嗜好、属性と、検索サービスにより把握される嗜好、属性とは、それぞれを識別可能に保持されてもよい。これにより、片方の嗜好、属性のみを用いて音声広告を選択する場合にも対応できるようになる。 On the other hand, the management server 4 can grasp the user's preferences by analyzing the contents of the dialogue between the smart speaker 10 and the user, and the contents of the conversation between the user and other users. The attribute update unit 432 updates the attributes in the user information storage unit 408 with the preferences thus grasped via the smart speaker 10. The attribute update unit 432 may provide the update contents to the search service server in association with the account ID. This allows the search service to obtain user preferences that could not be obtained by the search service so far, and the browser's advertisement output can be optimized using the preferences thus obtained. Note that the user's preferences and attributes obtained via the smart speaker 10 and the preferences and attributes grasped by the search service may be retained in a manner that allows them to be distinguished from each other. This makes it possible to handle cases where audio advertisements are selected using only one of the preferences and attributes.

また、属性更新部432は、スマートスピーカ10から音声広告が出力されたとき、ユーザから興味無しの直接又は間接の表現をスマートスピーカ10を介して受信したか否か判定する。属性更新部432は、受信した場合、対応する出力されていた音声広告の広告IDを、ユーザのユーザIDに対応付けてNG広告IDとしてユーザ情報保持部408に登録する。広告選択部422は、音声広告を選択する際、ユーザ情報保持部408を参照し、認証されたユーザのユーザIDに対応して保持されるNG広告IDで特定される音声広告を選択の対象から除く。広告選択部422は、NG広告IDで特定される音声広告の後継の音声広告を選択の対象から除いてもよい。広告選択部422は、NG広告IDで特定される音声広告の属性やキーワードに対応するまたはそれと同じ属性やキーワードを有する音声広告を選択の対象から除いてもよい。 When an audio advertisement is output from the smart speaker 10, the attribute update unit 432 determines whether a direct or indirect expression of disinterest has been received from the user via the smart speaker 10. If the attribute update unit 432 has received an advertisement ID of the corresponding output audio advertisement, the attribute update unit 432 registers the advertisement ID of the corresponding output audio advertisement in the user information storage unit 408 as an NG advertisement ID in association with the user ID of the user. When selecting an audio advertisement, the advertisement selection unit 422 refers to the user information storage unit 408 and excludes an audio advertisement identified by an NG advertisement ID stored in association with the user ID of the authenticated user from the selection targets. The advertisement selection unit 422 may exclude an audio advertisement that is a successor to an audio advertisement identified by an NG advertisement ID from the selection targets. The advertisement selection unit 422 may exclude an audio advertisement that corresponds to or has the same attributes or keywords as the attributes or keywords of the audio advertisement identified by the NG advertisement ID from the selection targets.

以上の構成による管理サーバ4の動作を説明する。
図10は、図1の管理サーバ4における一連の処理の流れを示すフローチャートである。管理サーバ4は、ネットワーク6を介してスマートスピーカ10から、音声コンテンツの配信要求を表す音声信号を受け付ける(S302)。管理サーバ4は、受け付けた音声信号に対して音声認識処理を行う(S304)ことで、要求されている音声コンテンツを特定する。管理サーバ4は、要求されている音声コンテンツを音声コンテンツ保持部402または外部から取得する(S306)。管理サーバ4は、音声広告保持部404から音声広告を選択する(S308)。管理サーバ4は、選択された音声広告の長さの調整が必要か否かを判定する(S310)。必要と判定された場合(S310のYES)、管理サーバ4は音声広告の長さを調整する(S312)。管理サーバ4は、ステップS306で取得された音声コンテンツと、ステップS308で選択された音声広告(ステップS310でNOの場合)またはステップS312で長さが調整された音声広告(ステップS310でYESの場合)と、に基づいて送信情報を生成する(S314)。管理サーバ4は、生成された送信情報をスマートスピーカ10にネットワーク6を介して送信する(S316)。管理サーバ4は、現在が音声広告を出力するのに適したタイミングであるか否かを判定する(S318)。適したタイミングである場合(S318のYES)、管理サーバ4はまずスマートスピーカ10に音声広告を出力させ(S320)、続いて音声コンテンツを出力させる(S322)。
The operation of the management server 4 configured as above will now be described.
10 is a flowchart showing a series of processing steps in the management server 4 of FIG. 1. The management server 4 receives a voice signal representing a request for delivery of voice content from the smart speaker 10 via the network 6 (S302). The management server 4 performs a voice recognition process on the received voice signal (S304) to identify the requested voice content. The management server 4 acquires the requested voice content from the voice content storage unit 402 or from the outside (S306). The management server 4 selects a voice advertisement from the voice advertisement storage unit 404 (S308). The management server 4 determines whether or not the length of the selected voice advertisement needs to be adjusted (S310). If it is determined that adjustment is necessary (YES in S310), the management server 4 adjusts the length of the voice advertisement (S312). The management server 4 generates transmission information based on the audio content acquired in step S306 and the audio advertisement selected in step S308 (if NO in step S310) or the audio advertisement whose length was adjusted in step S312 (if YES in step S310) (S314). The management server 4 transmits the generated transmission information to the smart speaker 10 via the network 6 (S316). The management server 4 determines whether the current timing is suitable for outputting the audio advertisement (S318). If the current timing is suitable (YES in S318), the management server 4 first causes the smart speaker 10 to output the audio advertisement (S320), and then causes the smart speaker 10 to output the audio content (S322).

上述の実施の形態において、保持部の例は、ハードディスクや半導体メモリである。また、本明細書の記載に基づき、各部を、図示しないCPUや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶する半導体メモリなどにより実現できることは本明細書に触れた当業者には理解される。 In the above-described embodiment, examples of the storage unit are a hard disk and a semiconductor memory. Furthermore, based on the description in this specification, it will be understood by those skilled in the art who have read this specification that each unit can be realized by a CPU (not shown), an installed application program module, a system program module, a semiconductor memory that temporarily stores the contents of data read from a hard disk, and the like.

本実施の形態に係る管理サーバ4によると、スマートスピーカ10での音声コンテンツの再生に合わせて音声広告が再生される。これにより、音声コンテンツの配信に合わせた音声広告の提供が可能となる。また、本実施の形態では、音声コンテンツの再生の前に音声広告が再生される。この場合の音声広告をユーザに聞いてもらえる蓋然性は、音声コンテンツの再生の後に音声広告を再生する場合よりも高い。したがって、より効果的な広告の提供が可能となる。 According to the management server 4 of this embodiment, audio advertisements are played in accordance with the playback of audio content on the smart speaker 10. This makes it possible to provide audio advertisements in accordance with the delivery of audio content. Furthermore, in this embodiment, audio advertisements are played before the playback of audio content. In this case, the likelihood that the user will hear the audio advertisement is higher than when the audio advertisement is played after the playback of audio content. This makes it possible to provide more effective advertisements.

また、本実施の形態に係る管理サーバ4では、音声広告は音声コンテンツの内容やスマートスピーカ10を介して得られた音声情報や認証ユーザのアカウントの属性に基づいて選択される。このように選択される音声広告は、ユーザの嗜好や要望に沿うものである蓋然性が高い。したがって、ユーザへの訴求力がより高い音声広告を提供することができる。 In addition, in the management server 4 according to this embodiment, audio advertisements are selected based on the content of the audio content, the audio information obtained via the smart speaker 10, and the attributes of the authenticated user's account. Audio advertisements selected in this manner are highly likely to be in line with the user's preferences and requests. Therefore, audio advertisements that are more appealing to users can be provided.

また、本実施の形態に係る管理サーバ4では、スマートスピーカ10からの音声広告の出力のタイミングが適宜制御される。したがって、ユーザの会話や発話の邪魔とならないような音声広告の出力が可能となる。または、TV12などの他の電子機器と連携した音声広告の提供が可能となる。 In addition, in the management server 4 according to this embodiment, the timing of audio advertisement output from the smart speaker 10 is appropriately controlled. Therefore, it is possible to output audio advertisements that do not interfere with the user's conversation or speech. Alternatively, it is possible to provide audio advertisements in cooperation with other electronic devices such as the TV 12.

本実施の形態において、周囲の物音やユーザ同士の会話をスマートスピーカ10が取得できることに関連して、管理サーバ4は、音声コンテキストを理解することで児童虐待が行われているか否かを判定してもよい。管理サーバ4は、自動虐待に関する音声データを編集し、所定の捜査機関に提供してもよい。捜査機関は全体の音声データを聞くことができる。 In this embodiment, in relation to the smart speaker 10 being able to acquire surrounding sounds and conversations between users, the management server 4 may determine whether or not child abuse is occurring by understanding the voice context. The management server 4 may also edit voice data related to child abuse and provide it to a specified investigative agency. The investigative agency can listen to the entire voice data.

本実施の形態において、ユーザ認証部416による声紋認証によりユーザIDが特定され、ユーザ情報保持部408を参照することでこのユーザIDに対応する属性が特定される。この場合、管理サーバ4は、ユーザの属性に応じて音声コンテンツまたは音声広告の出力の態様を変更してもよい。例えば、ユーザの属性が子供である場合、管理サーバ4は、音声コンテンツまたは音声広告において、なるべく簡単な言葉を用い、汚い言葉は削除または言い換えてもよい。あるいはまた、ユーザの属性が老人である場合、管理サーバ4は、音声コンテンツまたは音声広告において、音量を大きくし、または発音をより明瞭化してもよい。 In this embodiment, the user ID is identified by voiceprint authentication by the user authentication unit 416, and the attributes corresponding to this user ID are identified by referring to the user information storage unit 408. In this case, the management server 4 may change the manner of outputting audio content or audio advertisements depending on the user attributes. For example, if the user attribute is a child, the management server 4 may use as simple words as possible in the audio content or audio advertisements, and delete or rephrase foul language. Alternatively, if the user attribute is an elderly person, the management server 4 may increase the volume or make the pronunciation clearer in the audio content or audio advertisements.

本実施の形態では、ユーザ認証部416によりユーザが認証される場合について説明したが、これに限られず、ユーザ認証はなくてもよい。この場合、音声広告の選択にユーザの属性は反映されない。ここで、本実施の形態ではS320で音声広告を出力する動作を説明したが、この音声広告の出力に加え、この出力状況を管理サーバ4で記憶することもできる。出力状況の例としては、「対象広告を最後まで再生した」、「対象広告は途中で停止された」、「対象広告の再生に加え、広告が対象とする製品に関して追加情報を出力した」などである。「対象広告を最後まで再生した」はスマートスピーカ10が対象の音声データを最後まで出力した場合にその旨を管理サーバ4に報告することで実現することができる。また、途中での停止、追加情報の出力は共に、管理サーバ4が制御するものであるから当然に管理することができる。 In this embodiment, the case where the user is authenticated by the user authentication unit 416 has been described, but this is not limiting, and user authentication may not be required. In this case, the user attributes are not reflected in the selection of the audio advertisement. Here, in this embodiment, the operation of outputting the audio advertisement in S320 has been described, but in addition to outputting this audio advertisement, the management server 4 can also store this output status. Examples of output status are "the target advertisement has been played to the end," "the target advertisement has been stopped midway," and "in addition to playing the target advertisement, additional information regarding the product targeted by the advertisement has been output." "The target advertisement has been played to the end" can be realized by the smart speaker 10 reporting this to the management server 4 when it has output the target audio data to the end. In addition, both the stopping midway and the output of the additional information are controlled by the management server 4, so they can naturally be managed.

本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目1)
マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して配信要求を受け付ける機能と、
受け付けた配信要求に応じて、画像を伴わない音声コンテンツを取得する機能と、
画像を伴わない音声広告を音声広告保持手段から選択する機能と、
取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信する機能と、をサーバに実現させるためのコンピュータプログラム。
(項目2)
マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して配信要求を受け付けることと、
受け付けた配信要求に応じて、画像を伴わない音声コンテンツを取得することと、
画像を伴わない音声広告を音声広告保持手段から選択することと、
取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信することと、を含む方法。
The technical idea according to the present embodiment may be expressed by the following items.
(Item 1)
a function of receiving a distribution request via a network from a speaker having a microphone and a communication function;
A function of acquiring audio content without images in response to the received distribution request;
a function of selecting an audio advertisement without an image from an audio advertisement storage means;
a computer program for causing the server to realize a function of transmitting the acquired audio content and the selected audio advertisement together to the speaker via the network.
(Item 2)
receiving a distribution request via a network from a speaker having a microphone and a communication function;
Acquiring audio content without accompanying images in response to the received distribution request;
selecting an audio advertisement without an image from an audio advertisement storage means;
transmitting the captured audio content together with the selected audio advertisement to the speaker over the network.

(第2の実施の形態)
第2の実施の形態では、ある現実の空間内に複数のスマートスピーカが異なる位置に配置されており、そのそれぞれが第1の実施の形態の管理サーバ4と同様の管理サーバとネットワークを介して接続される。
Second Embodiment
In the second embodiment, multiple smart speakers are placed at different positions in a real space, and each of them is connected via a network to a management server similar to the management server 4 in the first embodiment.

図11は、ユーザ204の部屋202の模式的な上面図である。この部屋202の中には固定の第1スマートスピーカ208と、固定の第2スマートスピーカ210と、固定の第3スマートスピーカ212と、固定の第4スマートスピーカ214と、可動の第5スマートスピーカ216と、TV206と、が配置されている。各スマートスピーカは管理サーバとネットワークを介して通信する。なお、図11では五つのスマートスピーカが示されているが、スマートスピーカの数に制限はない。各スマートスピーカは部屋202の壁や床や天井に設置されてもよい。 Figure 11 is a schematic top view of a room 202 of a user 204. In this room 202, a fixed first smart speaker 208, a fixed second smart speaker 210, a fixed third smart speaker 212, a fixed fourth smart speaker 214, a movable fifth smart speaker 216, and a TV 206 are arranged. Each smart speaker communicates with a management server via a network. Note that although five smart speakers are shown in Figure 11, there is no limit to the number of smart speakers. Each smart speaker may be installed on the wall, floor, or ceiling of the room 202.

(1)スマートスピーカの位置の自動決定
管理サーバは各スマートスピーカの部屋202における位置を記録、管理している。この位置は、ユーザ204が管理サーバ4に登録してもよい。あるいはまた、管理サーバは、五つのスマートスピーカのマイクロフォンおよびスピーカを用いて、各スマートスピーカの位置を自動的に決定してもよい。
(1) Automatic Determination of Smart Speaker Location The management server records and manages the location of each smart speaker in the room 202. This location may be registered in the management server 4 by the user 204. Alternatively, the management server may automatically determine the location of each smart speaker using the microphones and speakers of the five smart speakers.

管理サーバは、あるスマートスピーカが出力する音声を他のスマートスピーカ10が検出することによりスマートスピーカ間の相対位置を決定する。例えば、第2スマートスピーカ210、第3スマートスピーカ212、第4スマートスピーカ214の位置が知られおり、第1スマートスピーカ208の位置を決定する場合、管理サーバは、第1スマートスピーカ208のスピーカに所定波長の音のパルスを出力させる。管理サーバは、第2スマートスピーカ210、第3スマートスピーカ212、第4スマートスピーカ214それぞれから、所定波長の音のパルスを受けた時刻を取得する。管理サーバは、取得した時刻からパルスの伝搬時間を算出し、算出された伝搬時間と音速とから距離を算出する。管理サーバは、算出された各距離と、第2、第3および第4スマートスピーカ210、212、214の既知の位置と、から第1スマートスピーカ208の位置を算出する。 The management server determines the relative positions between the smart speakers by having the other smart speakers 10 detect the sound output by one smart speaker. For example, when the positions of the second smart speaker 210, the third smart speaker 212, and the fourth smart speaker 214 are known and the position of the first smart speaker 208 is to be determined, the management server causes the speaker of the first smart speaker 208 to output a pulse of sound of a predetermined wavelength. The management server acquires the time at which the pulse of sound of a predetermined wavelength was received from each of the second smart speaker 210, the third smart speaker 212, and the fourth smart speaker 214. The management server calculates the propagation time of the pulse from the acquired times, and calculates the distance from the calculated propagation time and the speed of sound. The management server calculates the position of the first smart speaker 208 from each of the calculated distances and the known positions of the second, third, and fourth smart speakers 210, 212, and 214.

第5スマートスピーカ216は、例えばロボットに装着されたスマートスピーカであり、自ら動くことができる。第1、第2、第3および第4スマートスピーカ208、210、212、214の位置が既知の場合、管理サーバは、上記の位置算出処理により第5スマートスピーカ216の位置を追跡することができる。また、第5スマートスピーカ216は、自分の位置を基準にして他のスマートスピーカの位置を決める場合、そのスマートスピーカが発する音を受け易い位置に移動してもよい。 The fifth smart speaker 216 is, for example, a smart speaker attached to a robot, and can move by itself. When the positions of the first, second, third and fourth smart speakers 208, 210, 212, 214 are known, the management server can track the position of the fifth smart speaker 216 by the position calculation process described above. In addition, when the fifth smart speaker 216 determines the positions of other smart speakers based on its own position, it may move to a position where it is easy to receive sounds emitted by those smart speakers.

図11に示されるシステムの構成要素としては、マイクロフォンおよびスピーカの両方が搭載されているスマートスピーカやスマートフォンが望ましいが、一般にスピーカしかないテレビやラジオ、その他の電気機器でも、スピーカはあるため音声再生の支援は行うことができる。また、通信機能を備えた電気機器もある。これにより、複数の位置からのスピーカ出力が可能となる。電気機器を配置する位置はユーザが管理サーバに設定することで通知してもよいし、上述の位置算出処理により、あるいは無線通信の電波により管理サーバが自動的に決定してもよい。 As components of the system shown in FIG. 11, smart speakers or smartphones equipped with both a microphone and a speaker are desirable, but televisions, radios, and other electrical devices that generally only have speakers can also assist with audio playback because they have speakers. Some electrical devices also have communication capabilities, which allows speaker output from multiple positions. The position of the electrical device may be notified to the management server by the user by setting it, or it may be automatically determined by the management server using the position calculation process described above or wireless communication radio waves.

(2)可動スマートスピーカの用途
音声出力において、スピーカの位置によって対象のユーザへの聞こえ方が変わる場合がある。したがって、管理サーバは、より適切に音が聞こえる位置に第5スマートスピーカ216を移動させる制御を行ってもよい。
(2) Use of Movable Smart Speaker In audio output, the way the target user hears the sound may change depending on the position of the speaker. Therefore, the management server may control the fifth smart speaker 216 to move to a position where the sound can be heard more appropriately.

また、TV206などは一般にマイクロフォン機能を備えておらず、したがってこのままでは上記の位置算出処理に参加することはできない。しかしながら、第5スマートスピーカ216がTV206の位置まで移動し、TV206のマイクロフォン機能を代行することにより、TV206も位置算出処理に参加することができるようになる。 Furthermore, TV 206 and other devices generally do not have a microphone function, and therefore cannot participate in the above-mentioned position calculation process in this state. However, if the fifth smart speaker 216 moves to the position of TV 206 and takes over the microphone function of TV 206, TV 206 will also be able to participate in the position calculation process.

(3)ユーザの位置に応じた音声出力
各スマートスピーカの位置が既知の場合、ユーザ204の位置が分かれば、ユーザ204に最も近いスマートスピーカを特定することができる。ユーザ204が「テレビをつけて」などの音声出力要求を発話すると、五つのスマートスピーカがその発話を音声信号に変換し、管理サーバに送信する。管理サーバは音声信号に音声認識処理を施し、ユーザ204の音声出力要求を理解する。管理サーバは、ユーザ204の部屋202における位置に対応するスマートスピーカを特定する。特に管理サーバは、ユーザ204の位置に最も近い第2スマートスピーカ210を特定する。このとき管理サーバは、各スマートスピーカのマイクロフォンがユーザの発話を受けたときの音量を比較し、その音量が最も大きい第2スマートスピーカ210をユーザ204の位置に最も近いスマートスピーカとして特定する。あるいはまた、ユーザ204がスマートフォンを用いている場合は、管理サーバはスマートフォンの現在位置を取得することによりユーザ204の位置を特定することができる。
(3) Voice output according to user's position When the position of each smart speaker is known, if the position of the user 204 is known, the smart speaker closest to the user 204 can be identified. When the user 204 utters a voice output request such as "Turn on the TV," the five smart speakers convert the utterance into a voice signal and transmit it to the management server. The management server performs voice recognition processing on the voice signal to understand the voice output request of the user 204. The management server identifies the smart speaker corresponding to the position of the user 204 in the room 202. In particular, the management server identifies the second smart speaker 210 closest to the position of the user 204. At this time, the management server compares the volume of the voice when the microphone of each smart speaker receives the user's voice, and identifies the second smart speaker 210 with the largest volume as the smart speaker closest to the position of the user 204. Alternatively, if the user 204 uses a smartphone, the management server can identify the position of the user 204 by acquiring the current position of the smartphone.

管理サーバは、上記のように特定された第2スマートスピーカ210に、TV206で流される映像に付随する音声を送信する。このようにすることで、ユーザ204は自分に一番近い第2スマートスピーカ210からTV206の音声出力を受けることができる。 The management server transmits the audio accompanying the video being played on the TV 206 to the second smart speaker 210 identified as described above. In this way, the user 204 can receive the audio output of the TV 206 from the second smart speaker 210 that is closest to the user 204.

あるいはまた、スマートスピーカのスピーカが指向性を有する場合、管理サーバは指向性を制御してもよい。例えば、第1、第2、第3および第4スマートスピーカ208、210、212、214のスピーカが出力の指向性を有する場合、管理サーバは、各スピーカの音声出力がユーザ204の位置に向くよう各スマートスピーカを制御する。管理サーバは、各スマートスピーカにTV206で流される映像に付随する音声を送信する。この場合、各スマートスピーカは音声をユーザ204に向けて出力する。 Alternatively, if the speakers of the smart speakers have directionality, the management server may control the directivity. For example, if the first, second, third and fourth smart speakers 208, 210, 212, 214 have output directionality, the management server controls each smart speaker so that the audio output of each speaker is directed toward the position of the user 204. The management server transmits audio accompanying the video streamed on the TV 206 to each smart speaker. In this case, each smart speaker outputs audio toward the user 204.

なお、指向性を有するスマートスピーカは、現在の音声出力の向きを視認可能な態様でユーザに示してもよい。例えば、スマートスピーカの上面に指向性を示す矢印をLED等で表示してもよい。 In addition, a directional smart speaker may indicate to the user the direction of the current audio output in a visible manner. For example, an arrow indicating the directionality may be displayed on the top surface of the smart speaker using an LED or the like.

この例によると、例えばスマートスピーカに対してコンテンツ再生を指示したユーザとそれ以外のユーザとが部屋202の中にいる場合に、その指示したユーザを対象として音声を出力することができる。ユーザごとにサーバプロセスを割り当てる構成をとることで、第1のユーザの位置に向くよう第1のスマートスピーカを制御し、第2のユーザの位置に向くよう第2のスマートスピーカを制御して、第1のスマートスピーカと第2のスマートスピーカとが同時に音声を出力するようにしてもよい。ひとつのスマートスピーカにおいて音声出力装置を複数備え、サーバにおいてユーザごとにサーバプロセスを割り当てる構成をとることで、ひとつのスマートスピーカを制御して、第1のユーザの位置に向く音声と、第2のユーザの位置に向く音声とを同時に出力するようにしてもよい。 According to this example, for example, when a user who has instructed a smart speaker to play content and other users are present in room 202, audio can be output for the instructed user. By adopting a configuration in which a server process is assigned to each user, the first smart speaker may be controlled to face the position of the first user, and the second smart speaker may be controlled to face the position of the second user, so that the first smart speaker and the second smart speaker output audio simultaneously. By adopting a configuration in which one smart speaker has multiple audio output devices and the server assigns a server process to each user in the server, one smart speaker may be controlled to output audio directed to the position of the first user and audio directed to the position of the second user simultaneously.

本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目3)
それぞれがマイクロフォンおよび通信機能を有する複数のスピーカを備えるシステムであって、
あるスピーカが出力する音声を他のスピーカが検出することによりスピーカ間の相対位置を決定するよう構成されるシステム。
(項目4)
それぞれがマイクロフォンおよび通信機能を有する複数のスピーカとネットワークを介して通信するサーバであって、前記複数のスピーカは同じ現実空間内の異なる位置に配置されており、
前記サーバは、
前記複数のスピーカのうちのいずれかを介して前記現実空間内のユーザから音声出力要求を受け付ける手段と、
前記ユーザの位置に対応するスピーカを特定する手段と、
特定されたスピーカに音声コンテンツを送信する手段と、を備えるサーバ。
(項目5)
それぞれがマイクロフォンおよび通信機能を有する複数のスピーカとネットワークを介して通信するサーバであって、前記複数のスピーカは同じ現実空間内の異なる位置に配置されており、
前記サーバは、
前記複数のスピーカのうちのいずれかを介して前記現実空間内のユーザから音声出力要求を受け付ける手段と、
前記ユーザの位置に向けて音声が出力されるよう、前記複数のスピーカのうちの少なくともひとつの指向性を制御する手段と、を備えるサーバ。
The technical idea according to the present embodiment may be expressed by the following items.
(Item 3)
A system comprising a plurality of speakers, each having a microphone and a communication function,
A system configured to determine the relative positions of speakers by having one speaker detect the sound output by another speaker.
(Item 4)
A server that communicates with a plurality of speakers via a network, each of the speakers having a microphone and a communication function, the plurality of speakers being arranged at different positions within the same real space;
The server,
means for receiving a voice output request from a user in the real space via any one of the plurality of speakers;
means for identifying a speaker corresponding to a position of the user;
and means for transmitting audio content to the identified speaker.
(Item 5)
A server that communicates with a plurality of speakers via a network, each of the speakers having a microphone and a communication function, the plurality of speakers being arranged at different positions within the same real space;
The server,
means for receiving a voice output request from a user in the real space via any one of the plurality of speakers;
and a means for controlling directivity of at least one of the plurality of speakers so that sound is output toward the position of the user.

(第3の実施の形態)
図12は、第3の実施の形態に係る音声操作システム232の構成を示す模式図である。音声操作システム232は、管理サーバ234と、スマートスピーカ240と、TV242と、スマートフォン248と、を備える。管理サーバ234とスマートスピーカ240とTV242とスマートフォン248とはインターネットなどのネットワーク236を介して通信可能に接続されている。スマートスピーカ240およびTV242はいずれも、ユーザ238の部屋244に設置されている。スマートスピーカ240はスマートフォン248とP2P通信246が可能に構成される。
Third Embodiment
12 is a schematic diagram showing the configuration of a voice operation system 232 according to a third embodiment. The voice operation system 232 includes a management server 234, a smart speaker 240, a TV 242, and a smartphone 248. The management server 234, the smart speaker 240, the TV 242, and the smartphone 248 are communicatively connected via a network 236 such as the Internet. The smart speaker 240 and the TV 242 are both installed in a room 244 of a user 238. The smart speaker 240 is configured to be capable of P2P communication 246 with the smartphone 248.

TV242を音声で操作する場合、ユーザ238は、「テレビをつけて」等の操作指示を表す文をスマートスピーカ240に向けて発話する。スマートスピーカ240のマイクロフォンはユーザ238が発話した音声を電気信号に変換し、スマートスピーカ240は変換の結果得られた電気信号を音声信号として、ネットワーク236を介して管理サーバ234に送信する。管理サーバ234は受信した音声信号に対して音声認識処理を行うことでユーザ238がTV242の電源を入れることを要求していると理解する。管理サーバ234は、要求された操作を実現するための、すなわちTV242の電源を入れるための指示信号を生成し、ネットワーク236を介してTV242に送信する。TV242はネットワーク236を介して指示信号を受信すると、電源オフ状態から電源オン状態に移行する。 When operating the TV 242 by voice, the user 238 speaks a sentence expressing an operation instruction, such as "Turn on the TV," toward the smart speaker 240. The microphone of the smart speaker 240 converts the voice spoken by the user 238 into an electrical signal, and the smart speaker 240 transmits the electrical signal obtained as a result of the conversion as an audio signal to the management server 234 via the network 236. The management server 234 performs voice recognition processing on the received audio signal and understands that the user 238 is requesting to turn on the TV 242. The management server 234 generates an instruction signal to realize the requested operation, i.e., to turn on the TV 242, and transmits it to the TV 242 via the network 236. When the TV 242 receives the instruction signal via the network 236, it transitions from a power-off state to a power-on state.

このように、スマートスピーカ10を介した制御、操作は基本的に音声により行われる。しかしながら、部屋244にユーザ238以外のユーザがいる場合、音声での制御を嫌がるユーザ238もいる。また、ユーザ238だけが部屋244にいる場合でも、制御内容によっては音声での制御を避けたい場合もある。その場合に、音声操作システム232は、スマートフォン248を介して、スマートスピーカ240のシステム側(管理サーバ234)に対してテキストでの制御を行うことを可能としている。 In this way, control and operation via smart speaker 10 is basically performed by voice. However, if there are users other than user 238 in room 244, some users 238 may dislike voice control. Even if only user 238 is in room 244, there may be cases where user 238 wishes to avoid voice control depending on the content of the control. In such cases, voice operation system 232 makes it possible to perform text control on the system side (management server 234) of smart speaker 240 via smartphone 248.

スマートフォン248での操作を可能とするために、スマートフォン248は、管理サーバ234専用のアプリケーションをダウンロードしてインストールする。スマートフォン248でそのアプリケーションが起動されると、そのアプリケーションは、P2P通信246やローカルネットワークを介してスマートスピーカ240から管理サーバ234のURLを取得する。アプリケーションは、取得したURLを用いて管理サーバ234との接続を確立する。スマートフォン248と管理サーバ234との間の接続が確立されると、スマートフォン248に入力された操作内容がその接続を通じて管理サーバ234に送信される。管理サーバ234は受信した操作内容を実現するよう指示信号を生成して送信する。 To enable operation on the smartphone 248, the smartphone 248 downloads and installs an application dedicated to the management server 234. When the application is started on the smartphone 248, the application obtains the URL of the management server 234 from the smart speaker 240 via P2P communication 246 or a local network. The application establishes a connection with the management server 234 using the obtained URL. When a connection between the smartphone 248 and the management server 234 is established, the operation content input to the smartphone 248 is transmitted to the management server 234 through the connection. The management server 234 generates and transmits an instruction signal to realize the received operation content.

例えば、管理サーバ234は、「テレビをつけて」というテキスト文字列をスマートフォン248から受信すると、受信したテキスト文字列を解析することでユーザ238がTV242の電源を入れることを要求していると理解する。管理サーバ234は、要求された操作を実現するための、すなわちTV242の電源を入れるための指示信号を生成し、ネットワーク236を介してTV242に送信する。TV242はネットワーク236を介して指示信号を受信すると、電源オフ状態から電源オン状態に移行する。 For example, when the management server 234 receives a text string "Turn on the TV" from the smartphone 248, the management server 234 analyzes the received text string and understands that the user 238 is requesting to turn on the TV 242. The management server 234 generates an instruction signal to perform the requested operation, i.e., to turn on the TV 242, and transmits the instruction signal to the TV 242 via the network 236. When the TV 242 receives the instruction signal via the network 236, it transitions from a power-off state to a power-on state.

本実施の形態に係る音声操作システム232によると、ユーザ238は、状況に応じて音声による操作とスマートフォン248を介した操作とを使い分けることができる。 According to the voice operation system 232 of this embodiment, the user 238 can selectively use voice operation and operation via the smartphone 248 depending on the situation.

本実施の形態では、管理サーバ234がスマートスピーカ240またはスマートフォン248を介してユーザ238から操作指示を受け付ける場合を説明したが、これに限られず、例えば第1の実施の形態のように管理サーバ234がスマートスピーカ240またはスマートフォン248を介してユーザ238から音声コンテンツの配信要求を受け付けてもよい。 In this embodiment, the management server 234 receives an operation instruction from the user 238 via the smart speaker 240 or the smartphone 248. However, this is not limited to this. For example, as in the first embodiment, the management server 234 may receive a request for delivery of audio content from the user 238 via the smart speaker 240 or the smartphone 248.

本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目6)
マイクロフォンおよび通信機能を有するスピーカとネットワークを介して通信するサーバであって、
前記スピーカのマイクロフォンを介してユーザから受け付けた要求を処理する手段と、
前記スピーカと通信する他の電子機器を介して前記ユーザから受け付けた要求を処理する手段と、を備えるサーバ。
The technical idea according to the present embodiment may be expressed by the following items.
(Item 6)
A server that communicates with a speaker having a microphone and a communication function via a network,
means for processing requests received from a user via a microphone of said speaker;
and means for processing requests received from the user via other electronic devices in communication with the speaker.

(第4の実施の形態)
第4の実施の形態は、管理サーバにおけるレイヤ分けに関する。本実施の形態では、話者別にサーバプロセス(またはサーバ)を変える。声紋認証により誰が話しているかをサーバは認識することができる。対象のユーザが通常使用しているサーバプロセス(またはサーバ)が処理を行う。
(Fourth embodiment)
The fourth embodiment relates to layering in a management server. In this embodiment, a server process (or a server) is changed depending on the speaker. The server can recognize who is speaking by voiceprint authentication. The server process (or a server) that the target user normally uses performs the processing.

図13は、第4の実施の形態に係る音声操作システム252の構成を示す模式図である。音声操作システム252は、管理サーバ254と、スマートスピーカ260と、TV262と、を備える。管理サーバ254とスマートスピーカ260とTV262とはインターネットなどのネットワーク256を介して通信可能に接続されている。スマートスピーカ260およびTV262はいずれも部屋264に設置されており、部屋264には三人のユーザ(第1ユーザ266、第2ユーザ268、第3ユーザ270)がいる。 Figure 13 is a schematic diagram showing the configuration of a voice operation system 252 according to the fourth embodiment. The voice operation system 252 includes a management server 254, a smart speaker 260, and a TV 262. The management server 254, the smart speaker 260, and the TV 262 are communicatively connected via a network 256 such as the Internet. The smart speaker 260 and the TV 262 are both installed in a room 264, and there are three users in the room 264 (a first user 266, a second user 268, and a third user 270).

TV262を音声で操作する場合、第1ユーザ266は、「テレビをつけて」等の操作指示を表す文をスマートスピーカ260に向けて発話する。スマートスピーカ260のマイクロフォンは第1ユーザ266が発話した音声を電気信号に変換し、スマートスピーカ260は変換の結果得られた電気信号を音声信号として、ネットワーク256を介して管理サーバ254に送信する。管理サーバ254は受信した音声信号に対して声紋認証を行い、第1ユーザ266を特定する。管理サーバ254は、特定された第1ユーザ266に対応するサーバプロセスを選択し、選択されたサーバプロセスが以降の要求の処理を行う。TV262は、管理サーバ254の選択されたサーバプロセスからネットワーク236を介して指示信号を受信すると、電源オフ状態から電源オン状態に移行する。管理サーバ254において、第1ユーザ266とは異なる第2ユーザ268や第3ユーザ270の発話に対して、第1ユーザ266に対応するサーバプロセスとは異なるサーバプロセスが割り当てられる。 When operating the TV 262 by voice, the first user 266 speaks a sentence expressing an operation instruction such as "Turn on the TV" to the smart speaker 260. The microphone of the smart speaker 260 converts the voice spoken by the first user 266 into an electrical signal, and the smart speaker 260 transmits the electrical signal obtained as a result of the conversion as an audio signal to the management server 254 via the network 256. The management server 254 performs voiceprint authentication on the received audio signal to identify the first user 266. The management server 254 selects a server process corresponding to the identified first user 266, and the selected server process processes subsequent requests. When the TV 262 receives an instruction signal from the selected server process of the management server 254 via the network 236, it transitions from a power-off state to a power-on state. In the management server 254, a server process different from the server process corresponding to the first user 266 is assigned to the speech of the second user 268 or the third user 270 different from the first user 266.

図14は、図13の管理サーバ254の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。 Figure 14 is a block diagram showing the functions and configuration of the management server 254 in Figure 13. Each block shown here can be realized in hardware terms by elements and mechanical devices such as a computer CPU, and in software terms by computer programs, etc., but here we have depicted a functional block realized by the cooperation of these. Therefore, those skilled in the art who have read this specification will understand that these functional blocks can be realized in various ways by combining hardware and software.

管理サーバ254は、ユーザ情報保持部272と、音声信号受付部274と、ユーザ認証部276と、サーバプロセス群278と、を備える。サーバプロセス群278は、それぞれが特定のユーザに割り当てられた複数のサーバプロセスSP1、SP2、SP3、…を含む。以下では、ユーザごとにサーバプロセスが異なる場合を説明するが、他の実施の形態では、ユーザごとにサーバそのものを異ならせてもよい。サーバが異なれば当然サーバプロセスも異なることとなる。 The management server 254 comprises a user information storage unit 272, an audio signal receiving unit 274, a user authentication unit 276, and a server process group 278. The server process group 278 includes a number of server processes SP1, SP2, SP3, ... each assigned to a specific user. Below, a case will be described in which the server process differs for each user, but in other embodiments, the server itself may be different for each user. Different servers will naturally result in different server processes.

図15は、図14のユーザ情報保持部272の一例を示すデータ構造図である。ユーザ情報保持部272は、ユーザIDと、ユーザの声紋のデータと、ユーザに割り当てられたサーバプロセスのIDと、を対応付けて保持する。 Figure 15 is a data structure diagram showing an example of the user information storage unit 272 of Figure 14. The user information storage unit 272 stores a user ID, voiceprint data of the user, and the ID of a server process assigned to the user, in association with each other.

図14に戻り、音声信号受付部274は、スマートスピーカ260からネットワーク256を介して、三人のユーザ266、268、270のうちのいずれかの発話内容を表す音声信号を受け付ける。 Returning to FIG. 14, the voice signal receiving unit 274 receives a voice signal representing the speech content of one of the three users 266, 268, 270 from the smart speaker 260 via the network 256.

ユーザ認証部276は、音声信号受付部274が受け付けた音声信号から声紋を抽出または取得する。ユーザ認証部276は、抽出された声紋に基づく声紋認証を行う。ユーザ認証部276はユーザ情報保持部272を参照し、ユーザ情報保持部272に保持されている声紋のなかに抽出された声紋と一致する声紋があるか否かを判定する。ユーザ認証部276は、一致する声紋があればその声紋に対応するユーザIDおよびサーバプロセスIDを特定する。ユーザ認証部276は、一致する声紋がなければ、一致なしまたはユーザ不明を表す出力を生成する。 The user authentication unit 276 extracts or acquires a voiceprint from the voice signal received by the voice signal receiving unit 274. The user authentication unit 276 performs voiceprint authentication based on the extracted voiceprint. The user authentication unit 276 refers to the user information storage unit 272 and determines whether or not there is a voiceprint that matches the extracted voiceprint among the voiceprints stored in the user information storage unit 272. If there is a matching voiceprint, the user authentication unit 276 identifies the user ID and server process ID corresponding to that voiceprint. If there is no matching voiceprint, the user authentication unit 276 generates an output indicating no match or an unknown user.

ユーザ認証部276でサーバプロセスIDが特定されると、サーバプロセス群278に含まれるサーバプロセスのうち、特定されたサーバプロセスIDを有するサーバプロセスが起動する。起動したサーバプロセスは、音声信号受付部274が受け付けた音声信号に対する以降の処理を行う。 When the user authentication unit 276 identifies a server process ID, a server process having the identified server process ID is started among the server processes included in the server process group 278. The started server process performs subsequent processing on the audio signal accepted by the audio signal acceptance unit 274.

サーバプロセス群278に含まれる各サーバプロセスは、第3の実施の形態で説明したような電子機器の操作機能を実現する。他の実施の形態では、サーバプロセスは、例えば第1の実施の形態で説明したような音声コンテンツの配信機能を実現してもよい。 Each server process included in the server process group 278 realizes the operation function of the electronic device as described in the third embodiment. In other embodiments, the server process may realize, for example, the delivery function of audio content as described in the first embodiment.

例えば、第1ユーザ266が部屋264に住む住人である場合、第1ユーザ266のサーバプロセスにはTV262を制御する権限が付与されている。第2ユーザ268および第3ユーザ270が第1ユーザ266の部屋264に遊びに来た来訪者である場合、それらのユーザのサーバプロセスには、TV262を制御する権限は付与されない。したがって、第2ユーザ268または第3ユーザ270がTV262を音声操作する場合、第2ユーザ268または第3ユーザ270のサーバプロセスが第1ユーザ266のサーバプロセスに、TV262の操作依頼を送信する。捜査依頼を受けたサーバプロセスは、第1ユーザ266に対してその操作を行ってよいかを問い合わせ、第1ユーザ266から同意を得ることができれば対象の操作を実行する。 For example, if the first user 266 is a resident of the room 264, the server process of the first user 266 is given the authority to control the TV 262. If the second user 268 and the third user 270 are visitors who have come to the room 264 of the first user 266, the server processes of these users are not given the authority to control the TV 262. Therefore, when the second user 268 or the third user 270 operates the TV 262 by voice, the server process of the second user 268 or the third user 270 sends a request to operate the TV 262 to the server process of the first user 266. The server process that receives the investigation request inquires of the first user 266 whether it is OK to perform the operation, and if consent is obtained from the first user 266, executes the target operation.

あるいはまた、スマートスピーカ260の所有者である第1ユーザ266が、ゲスト(来訪者)である第2ユーザ268および第3ユーザ270に対して権限を設定してもよい。例えば、スマートスピーカ260を介した電灯の制御を可能としつつ、スマートスピーカ260を介したECサイトでの購入は不可としてもよい。 Alternatively, a first user 266 who is the owner of smart speaker 260 may set permissions for a second user 268 and a third user 270 who are guests (visitors). For example, it may be possible to control a light via smart speaker 260, but not to make purchases on an e-commerce site via smart speaker 260.

本実施の形態に係る音声操作システム252によると、ユーザごとにサーバプロセスを割り当てることで、ユーザごとに実行可能な操作やアクセス可能な情報や権限などを異ならせることができる。 According to the voice operation system 252 of this embodiment, by assigning a server process to each user, the operations that can be executed, the information that can be accessed, the authority, etc. can be made different for each user.

本実施の形態では、管理サーバ254が複数のサーバプロセスを有し、管理サーバ254が音声信号を受けて声紋認証し、用いるサーバプロセスを特定する場合について説明したが、これに限られない。例えば、複数のサーバが存在する場合に、スマートスピーカ260からの音声信号を全てのサーバに送信し、各サーバで声紋認証を行ってもよい。あるいはまた、いずれか一人のユーザのサーバ若しくはサーバプロセス、又は、いずれか一つのサーバ若しくはサーバプロセスが音声信号を受け、対象のユーザの音声信号のみを抽出し、対象のサーバ若しくはサーバプロセスに転送してもよい。 In this embodiment, the case has been described where the management server 254 has multiple server processes, and the management server 254 receives an audio signal, performs voiceprint authentication, and identifies the server process to be used, but this is not limited to the above. For example, when multiple servers exist, the audio signal from the smart speaker 260 may be sent to all the servers, and voiceprint authentication may be performed on each server. Alternatively, a server or server process of any one user, or any one server or server process, may receive an audio signal, extract only the audio signal of the target user, and transfer it to the target server or server process.

本実施の形態では、操作指示を出す第1ユーザ266と操作対象のTV262とが同じ部屋264にある場合について説明したが、これに限られず、操作対象の電子機器の遠隔操作を可能としてもよい。例えば、第2ユーザ268が第1ユーザ266の部屋264に遊びに来ているときに、第2ユーザ268が自分の部屋(部屋264とは異なる)のエアコンを起動したいと思ったとする。第2ユーザ268は「私の部屋のエアコンをつけて」という操作指示を表す文をスマートスピーカ260に向けて発話する。管理サーバ254は声紋認証および音声認識により第2ユーザ268の要求を理解する。管理サーバ254は、第2ユーザ268の部屋のスマートスピーカと接続されている別の管理サーバに、第2ユーザ268の要求を転送する。この際、認証データとして音声信号を添付する。 In this embodiment, the first user 266 who issues the operation instruction and the TV 262 to be operated are in the same room 264, but the present invention is not limited to this, and the electronic device to be operated may be remotely operated. For example, assume that the second user 268 wants to start the air conditioner in his/her own room (different from the room 264) when visiting the room 264 of the first user 266. The second user 268 speaks a sentence representing an operation instruction, "Turn on the air conditioner in my room," to the smart speaker 260. The management server 254 understands the request of the second user 268 by voiceprint authentication and voice recognition. The management server 254 transfers the request of the second user 268 to another management server connected to the smart speaker in the room of the second user 268. At this time, a voice signal is attached as authentication data.

本実施の形態に係る技術的思想は以下の項目により表されてもよい。
(項目7)
マイクロフォンおよび通信機能を有するスピーカとネットワークを介して通信するサーバであって、
前記スピーカのマイクロフォンを介して取得された音声信号を解析することで話者を特定する手段と、
特定された話者に割り当てられたサーバプロセスを用いて、前記音声信号に係る処理を行う手段と、を備えるサーバ。
The technical idea according to the present embodiment may be expressed by the following items.
(Item 7)
A server that communicates with a speaker having a microphone and a communication function via a network,
means for identifying a speaker by analyzing a voice signal acquired through a microphone of the speaker;
and means for performing processing of the speech signal using a server process assigned to the identified speaker.

なお、前記各実施の形態において、スマートスピーカに加え、ネットワークに接続したテレビ又はコンピュータと連携する動作も説明したが、スマートスピーカで音声広告を出力した後に、ユーザの音声制御に応じて追加の情報を前記テレビ又はコンピュータに表示することもできる。この時に管理サーバ4が前記テレビ又はコンピュータに表示すべきURLを送信することで実現されるが、このURLのパラメータの中にスマートスピーカ又は管理サーバ4により追加の情報リクエストがなされたことを示す情報を追加することもできる。これにより、リクエスト先のシステム側で管理サーバ4又はスマートスピーカを用いたリクエストであることを把握することができる。ここで、送信方法の一例として、URLのパラメータを用いたが、他の方法にて通知してもよい。 In addition to the smart speaker, each of the above embodiments also describes the operation of linking with a television or computer connected to a network. After the smart speaker outputs an audio advertisement, additional information can also be displayed on the television or computer in response to the user's voice control. This is achieved by the management server 4 sending a URL to be displayed on the television or computer, and information indicating that a request for additional information has been made by the smart speaker or management server 4 can also be added to the parameters of this URL. This allows the system to which the request is made to know that the request used the management server 4 or smart speaker. Here, URL parameters are used as an example of a transmission method, but notification may be made by other methods.

以上、実施の形態に係るシステムの構成と動作について説明した。これらの実施の形態は例示であり、各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解される。実施の形態同士の組み合わせも可能である。 The above describes the configuration and operation of the system according to the embodiments. These embodiments are merely examples, and those skilled in the art will understand that various modifications are possible in the combination of each component and each process, and that such modifications are also within the scope of the present invention. Combinations of the embodiments are also possible.

2 音声広告配信システム、 4 管理サーバ、 6 ネットワーク、 8 ユーザ、 10 スマートスピーカ。 2 Audio advertising delivery system, 4 Management server, 6 Network, 8 User, 10 Smart speaker.

Claims (10)

マイクロフォンおよび通信機能を有するスピーカから、ネットワークを介して前記スピーカのマイクロフォンを介して取得された音声情報を受け付ける受付手段と、
受け付けた音声情報における配信要求に応じて、画像を伴わない音声コンテンツを取得する取得手段と、
受け付けた音声情報に基づいてユーザ認証を行う認証手段と、
画像を伴わない音声広告を音声広告保持手段から選択する選択手段と、
取得された音声コンテンツと選択された音声広告とを合わせて前記スピーカに、前記ネットワークを介して送信する送信手段と、を備え、
前記選択手段は、取得された音声コンテンツの内容との関連性と、受け付けた音声情報におけるユーザの発話内容との関連性と、認証されたユーザのアカウントの属性との関連性とのうちの複数の関連性のうちの第1の関連性を用いて音声広告の候補を選択し、前記複数の関連性のうちの他の関連性を更に用いて、選択した音声広告の候補から音声広告を選択し、
前記第1の関連性又は前記他の関連性は、受け付けた音声情報におけるユーザの発話内容との関連性を含み、
受け付けた音声情報におけるユーザの発話内容との関連性は、前記スピーカとユーザとの現在の対話セッションに含まれる該ユーザの複数の発話のうちの最新でない発話内容との関連性を含む、サーバ。
a receiving means for receiving voice information acquired via a network from a speaker having a microphone and a communication function, the voice information being acquired via the microphone of the speaker;
an acquisition means for acquiring audio content not accompanied by an image in response to a distribution request in the received audio information;
an authentication means for performing user authentication based on the received voice information;
A selection means for selecting an audio advertisement without an image from the audio advertisement storage means;
a transmission means for transmitting the acquired audio content and the selected audio advertisement together to the speaker via the network;
the selection means selects a voice advertisement candidate using a first relevance among a plurality of relevances among a relevance with the content of the acquired voice content, a relevance with the content of the user's utterance in the received voice information, and a relevance with an attribute of the authenticated user's account, and selects a voice advertisement from the selected voice advertisement candidates using another relevance among the plurality of relevances ;
The first relevance or the other relevance includes a relevance to a user's speech content in the received voice information,
A server , wherein the relevance of the received voice information to the user's speech content includes relevance to non-latest speech content among a plurality of utterances of the user included in a current dialogue session between the speaker and the user .
前記選択手段は、取得された音声コンテンツの内容との関連性と、認証されたユーザのアカウントの属性との関連性とを少なくとも用いて、音声広告の候補を選択したうえで、選択した音声広告の候補から音声広告を選択する請求項1に記載のサーバ。 The server according to claim 1, wherein the selection means selects audio advertisement candidates using at least the relevance to the content of the acquired audio content and the relevance to the attributes of the authenticated user's account, and then selects an audio advertisement from the selected audio advertisement candidates. 前記選択手段は、認証されたユーザのアカウントの属性との関連性を用いて音声広告の候補を選択し、取得された音声コンテンツの内容との関連性を更に用いて、選択した音声広告の候補から音声広告を選択する請求項1又は2に記載のサーバ。 The server according to claim 1 or 2, wherein the selection means selects audio advertisement candidates using relevance to attributes of the authenticated user's account, and further selects an audio advertisement from the selected audio advertisement candidates using relevance to the content of the acquired audio content. 取得された音声コンテンツの内容との関連性を用いて音声広告の候補又は音声広告を選択することは、取得された音声コンテンツの内容に関連するキーワードを用いて音声広告の候補又は音声広告を選択することを含む請求項1から3のいずれか一項に記載のサーバ。 The server according to any one of claims 1 to 3, wherein selecting a candidate audio advertisement or an audio advertisement using relevance to the content of the acquired audio content includes selecting a candidate audio advertisement or an audio advertisement using a keyword related to the content of the acquired audio content. 前記複数の関連性は、前記スピーカのマイクロフォンを介して取得された、前記スピーカの周囲の音又はユーザと他のユーザとの間で交わされた会話の内容との関連性を更に含む請求項1に記載のサーバ。 The server according to claim 1, wherein the multiple associations further include associations with sounds around the speaker acquired through a microphone of the speaker or with the contents of conversations between the user and other users. 前記ネットワークを介して、前記スピーカからの音声出力のタイミングを制御する制御手段を更に備え、
前記制御手段は、ユーザの存在が検知されない場合、または、ユーザの会話が継続していると判定される場合、前記スピーカからの音声広告の出力を制限する請求項1からのいずれか一項に記載のサーバ。
a control unit that controls a timing of audio output from the speaker via the network,
The server according to any one of claims 1 to 5 , wherein the control means limits the output of audio advertisements from the speaker when the presence of a user is not detected or when it is determined that the user's conversation is continuing.
前記ネットワークを介して、前記スピーカからの音声出力のタイミングを制御する制御手段を更に備え、
前記制御手段は、ユーザの存在が検知される場合に、前記スピーカから音声広告が出力されるように制限する請求項1からのいずれか一項に記載のサーバ。
a control unit that controls a timing of audio output from the speaker via the network,
6. The server according to claim 1, wherein the control means restricts audio advertisements to be output from the speaker when the presence of a user is detected.
認証されたユーザのアカウントの属性を、受け付けた音声情報を用いて更新する更新手段を更に備え、
前記選択手段は、認証されたユーザのアカウントの更新された属性を、音声広告の選択に用いる請求項1からのいずれか一項に記載のサーバ。
The method further includes updating means for updating an attribute of an account of the authenticated user using the received voice information,
The server according to claim 1 , wherein the selection means uses updated attributes of an authenticated user's account to select an audio advertisement.
前記スピーカを介して受け付けた音声広告に対するユーザからのフィードバックの表現を用いて、認証されたユーザのアカウントの属性を更新する更新手段を更に備え、
前記選択手段は、認証されたユーザのアカウントの更新された属性を、音声広告の選択に用いる請求項1からのいずれか一項に記載のサーバ。
and updating means for updating attributes of an account of the authenticated user using an expression of feedback from the user in response to the audio advertisement received via the speaker;
The server according to claim 1 , wherein the selection means uses updated attributes of an authenticated user's account to select an audio advertisement.
前記選択手段は、特定の音声広告に興味がないことを示す、音声広告に対するユーザからのフィードバックの表現を前記スピーカを介して受け付けた場合、前記特定の音声広告に関連付けられる音声広告を選択の対象から除外する請求項1からのいずれか一項に記載のサーバ。 The server according to any one of claims 1 to 7, wherein the selection means, when receiving an expression of feedback from the user regarding a particular audio advertisement via the speaker indicating no interest in the particular audio advertisement, excludes audio advertisements associated with the particular audio advertisement from the selection targets.
JP2022207117A 2018-05-16 2022-12-23 server Active JP7504978B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022207117A JP7504978B2 (en) 2018-05-16 2022-12-23 server

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018094722A JP7235946B2 (en) 2018-05-16 2018-05-16 server
JP2022207117A JP7504978B2 (en) 2018-05-16 2022-12-23 server

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018094722A Division JP7235946B2 (en) 2018-05-16 2018-05-16 server

Publications (2)

Publication Number Publication Date
JP2023024713A JP2023024713A (en) 2023-02-16
JP7504978B2 true JP7504978B2 (en) 2024-06-24

Family

ID=68613161

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018094722A Active JP7235946B2 (en) 2018-05-16 2018-05-16 server
JP2022207117A Active JP7504978B2 (en) 2018-05-16 2022-12-23 server

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018094722A Active JP7235946B2 (en) 2018-05-16 2018-05-16 server

Country Status (1)

Country Link
JP (2) JP7235946B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274596B (en) * 2020-01-23 2023-03-14 百度在线网络技术(北京)有限公司 Device interaction method, authority management method, interaction device and user side
US11880866B2 (en) 2020-11-12 2024-01-23 Samsung Electronics Co., Ltd. Electronic apparatus for providing advertisement through voice assistant and control method thereof
WO2022107227A1 (en) * 2020-11-17 2022-05-27 株式会社I’mbesideyou Advertisement distribution system, server device, and advertisement distribution method
JP6990472B1 (en) 2021-03-23 2022-01-12 ユニロボット株式会社 A system for communicating with people and a program for that purpose

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002083211A (en) 2000-09-07 2002-03-22 Dny:Kk Advertisement transmission method and system
JP2002259819A (en) 2001-03-06 2002-09-13 Masahiro Seki Advertisement system using portable telephone
JP2004108985A (en) 2002-09-19 2004-04-08 Denso Corp Navigation system
JP2013525875A (en) 2010-04-02 2013-06-20 サムスン エレクトロニクス カンパニー リミテッド Apparatus and method for forcibly watching advertisements
JP2013125470A (en) 2011-12-15 2013-06-24 Yahoo Japan Corp Advertisement determination system, advertisement determination method and program
JP2016177442A (en) 2015-03-19 2016-10-06 ヤフー株式会社 Information processing device and method
JP2017173929A (en) 2016-03-18 2017-09-28 株式会社リコー Printing system, printing method, information processing apparatus, and information processing program
CN107798114A (en) 2017-11-03 2018-03-13 胡渐佳 Intelligent sound box speech advertising is embedded in player method
JP2018044949A (en) 2017-08-18 2018-03-22 ヤフー株式会社 Information processor, method for information processing, and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230399A (en) * 2001-02-01 2002-08-16 Fuji Xerox Co Ltd Service providing device
JP2003036386A (en) * 2001-07-24 2003-02-07 Nec System Technologies Ltd Advertising system, server equipment thereof, advertisement delivery method thereof, and advertisement delivery program thereof
CN107169526B (en) * 2012-11-09 2020-10-16 加州理工学院 Method for automatic feature analysis, comparison and anomaly detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002083211A (en) 2000-09-07 2002-03-22 Dny:Kk Advertisement transmission method and system
JP2002259819A (en) 2001-03-06 2002-09-13 Masahiro Seki Advertisement system using portable telephone
JP2004108985A (en) 2002-09-19 2004-04-08 Denso Corp Navigation system
JP2013525875A (en) 2010-04-02 2013-06-20 サムスン エレクトロニクス カンパニー リミテッド Apparatus and method for forcibly watching advertisements
JP2013125470A (en) 2011-12-15 2013-06-24 Yahoo Japan Corp Advertisement determination system, advertisement determination method and program
JP2016177442A (en) 2015-03-19 2016-10-06 ヤフー株式会社 Information processing device and method
JP2017173929A (en) 2016-03-18 2017-09-28 株式会社リコー Printing system, printing method, information processing apparatus, and information processing program
JP2018044949A (en) 2017-08-18 2018-03-22 ヤフー株式会社 Information processor, method for information processing, and program
CN107798114A (en) 2017-11-03 2018-03-13 胡渐佳 Intelligent sound box speech advertising is embedded in player method

Also Published As

Publication number Publication date
JP2023024713A (en) 2023-02-16
JP2019200598A (en) 2019-11-21
JP7235946B2 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
JP7504978B2 (en) server
US11551669B2 (en) Locally distributed keyword detection
US11501773B2 (en) Network microphone device with command keyword conditioning
US11854547B2 (en) Network microphone device with command keyword eventing
US11710487B2 (en) Locally distributed keyword detection
US11361756B2 (en) Conditional wake word eventing based on environment
CN111919249B (en) Continuous detection of words and related user experience
US11482224B2 (en) Command keywords with input detection windowing
US11899762B2 (en) Association via audio
EP3557450B1 (en) Guest login
US11984123B2 (en) Network device interaction by range
US11771866B2 (en) Locally distributed keyword detection
US11556307B2 (en) Local voice data processing
US20230289132A1 (en) Concurrency rules for network microphone devices having multiple voice assistant services
WO2020202862A1 (en) Response generation device and response generation method
WO2020026799A1 (en) Information processing device, information processing method, and program
KR20180045633A (en) Method for providing of voice recognition service and apparatus thereof
KR20210017730A (en) Method and server for providing music service in store
JP7136656B2 (en) Information processing system and program
US20230252979A1 (en) Gatekeeping for voice intent processing
JP5242856B1 (en) Music playback program and music playback system
JP2011180272A (en) Karaoke music selection reservation device connected to host system through cradle

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221223

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240612

R150 Certificate of patent or registration of utility model

Ref document number: 7504978

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150