JP2019164710A - Device, method, and program for processing information - Google Patents

Device, method, and program for processing information Download PDF

Info

Publication number
JP2019164710A
JP2019164710A JP2018053252A JP2018053252A JP2019164710A JP 2019164710 A JP2019164710 A JP 2019164710A JP 2018053252 A JP2018053252 A JP 2018053252A JP 2018053252 A JP2018053252 A JP 2018053252A JP 2019164710 A JP2019164710 A JP 2019164710A
Authority
JP
Japan
Prior art keywords
user
information
output
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018053252A
Other languages
Japanese (ja)
Other versions
JP6499343B1 (en
Inventor
山本 学
Manabu Yamamoto
学 山本
孝太 坪内
Kota Tsubouchi
孝太 坪内
中村 浩樹
Hiroki Nakamura
浩樹 中村
太士 岩▲瀬▼張
Futoshi Iwasebari
太士 岩▲瀬▼張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018053252A priority Critical patent/JP6499343B1/en
Application granted granted Critical
Publication of JP6499343B1 publication Critical patent/JP6499343B1/en
Publication of JP2019164710A publication Critical patent/JP2019164710A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a device, method and program for processing information, which allow for measuring effect of voice information.SOLUTION: An information processing device according to an embodiment comprises: a detection unit configured to detect behavior of a user when voice information is output from an audio output unit; and a determination unit configured to determine whether the voice information was acknowledged by the user or not on the basis of the behavior detected by the detection unit.SELECTED DRAWING: Figure 5

Description

本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関する。   The present invention relates to an information processing apparatus, an information processing method, and an information processing program.

近年、インターネットなどのネットワークの飛躍的な普及に伴い、ネットワークを介した広告配信が盛んに行われている。かかる広告配信の一つの形態として、音声広告が知られている(例えば、特許文献1参照)。音声広告は、注意を引きやすく、他の作業をしながらでも情報が得られるため、視覚的効果を狙った広告よりも広告機会、広告効果の向上が期待されている。   In recent years, with the rapid spread of networks such as the Internet, advertisement distribution via networks has been actively performed. As one form of such advertisement distribution, a voice advertisement is known (for example, see Patent Document 1). Since voice advertisements are easy to draw attention and information can be obtained while performing other tasks, it is expected that the advertising opportunities and the advertising effects will be improved more than the advertisements aimed at visual effects.

特開2016−61997号公報JP, 2006-61997, A

しかしながら、音声広告は、画面に表示される動画広告、広告バナー、およびテキスト広告といった広告と異なり、広告を表示する画面が存在していないため、クリックによる広告効果の判断ができない。上記特許文献1に記載の技術では、広告配信の候補を推定して音声広告を出力することで広告効果を向上させることができるが、出力された音声広告の広告効果を判定するものではない。また、音声広告の広告効果に限らず、ユーザに提供される音声情報についても同様に、音声情報がユーザに提供された場合における音声情報の効果を測定することが望ましい。   However, unlike advertisements such as video advertisements, advertisement banners, and text advertisements that are displayed on the screen, voice advertisements do not have a screen for displaying advertisements, and therefore cannot determine the effect of advertisement by clicking. In the technique described in Patent Document 1, the advertisement effect can be improved by estimating advertisement delivery candidates and outputting a voice advertisement, but does not determine the advertisement effect of the output voice advertisement. Further, not only the advertising effect of the voice advertisement but also the voice information provided to the user, it is desirable to measure the effect of the voice information when the voice information is provided to the user.

本願は、上記に鑑みてなされたものであって、音声情報の効果を測定することができる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。   The present application has been made in view of the above, and an object thereof is to provide an information processing apparatus, an information processing method, and an information processing program capable of measuring the effect of audio information.

本願に係る情報処理装置は、音声出力器から音声情報が出力された場合のユーザの振る舞いを検出する検出部と、前記検出部によって検出された振る舞いに基づいて前記音声情報が前記ユーザに受容されたか否かを判定する判定部とを備える。   An information processing apparatus according to the present application includes: a detection unit that detects a user's behavior when audio information is output from an audio output device; and the audio information is received by the user based on the behavior detected by the detection unit. And a determination unit for determining whether or not.

実施形態の一態様によれば、音声情報の効果を測定することができる情報処理装置、情報処理方法、および情報処理プログラムを提供することができる。   According to one aspect of the embodiment, an information processing apparatus, an information processing method, and an information processing program that can measure the effect of audio information can be provided.

図1は、実施形態に係る情報処理システムの構成例を示す図である。FIG. 1 is a diagram illustrating a configuration example of an information processing system according to an embodiment. 図2は、実施形態に係る音声情報効果判定処理の説明図である。FIG. 2 is an explanatory diagram of a sound information effect determination process according to the embodiment. 図3は、実施形態に係るスマートスピーカの構成例を示す図である。FIG. 3 is a diagram illustrating a configuration example of the smart speaker according to the embodiment. 図4は、実施形態に係る発話テーブルの一例を示す図である。FIG. 4 is a diagram illustrating an example of an utterance table according to the embodiment. 図5は、実施形態に係る情報提供装置の構成例を示す図である。FIG. 5 is a diagram illustrating a configuration example of the information providing apparatus according to the embodiment. 図6は、実施形態に係る発話テーブル記憶部に記憶される発話テーブルの一例を示す図である。FIG. 6 is a diagram illustrating an example of an utterance table stored in the utterance table storage unit according to the embodiment. 図7は、実施形態に係るコンテンツ記憶部に記憶されるコンテンツテーブルの一例を示す図である。FIG. 7 is a diagram illustrating an example of a content table stored in the content storage unit according to the embodiment. 図8は、実施形態に係る音声広告記憶部に記憶される音声広告テーブルの一例を示す図である。FIG. 8 is a diagram illustrating an example of a voice advertisement table stored in the voice advertisement storage unit according to the embodiment. 図9は、実施形態に係るユーザ情報記憶部に記憶されるユーザ情報テーブルの一例を示す図である。FIG. 9 is a diagram illustrating an example of a user information table stored in the user information storage unit according to the embodiment. 図10は、実施形態に係る情報処理システムによる発話制御処理の一例を示すフローチャート(その1)である。FIG. 10 is a flowchart (part 1) illustrating an example of an utterance control process by the information processing system according to the embodiment. 図11は、実施形態に係る情報処理システムによる発話制御処理の一例を示すフローチャート(その2)である。FIG. 11 is a flowchart (part 2) illustrating an example of an utterance control process by the information processing system according to the embodiment. 図12は、実施形態に係る情報処理システムによる出力制御処理の一例を示すフローチャートである。FIG. 12 is a flowchart illustrating an example of output control processing by the information processing system according to the embodiment. 図13は、実施形態に係る情報処理システムによる音声情報効果判定処理の一例を示すフローチャートである。FIG. 13 is a flowchart illustrating an example of a sound information effect determination process by the information processing system according to the embodiment. 図14は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。FIG. 14 is a diagram illustrating an example of a hardware configuration of a computer that executes a program.

以下に、本願に係る情報処理装置、情報処理方法、および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、および情報処理プログラムが限定されるものではない。   Hereinafter, an information processing apparatus, an information processing method, and a form for implementing an information processing program (hereinafter referred to as “embodiment”) according to the present application will be described in detail with reference to the drawings. Note that the information processing apparatus, the information processing method, and the information processing program according to the present application are not limited by this embodiment.

〔1.情報提供システム〕
図1は、実施形態に係る情報処理システムの構成例を示す図である。図1に示すように、実施形態に係る情報処理システム100は、スマートスピーカ1と、情報提供装置2と、端末装置3と、複数の機器4〜4(nは2以上の整数)と、複数のセンサ装置5〜5(mは2以上の整数)とを備える。以下、機器4〜4の各々を区別せずに示す場合、機器4と記載し、センサ装置5〜5の各々を区別せずに示す場合、センサ装置5と記載する。
[1. Information providing system)
FIG. 1 is a diagram illustrating a configuration example of an information processing system according to an embodiment. As illustrated in FIG. 1, the information processing system 100 according to the embodiment includes a smart speaker 1, an information providing device 2, a terminal device 3, and a plurality of devices 4 1 to 4 n (n is an integer equal to or greater than 2). And a plurality of sensor devices 5 1 to 5 m (m is an integer of 2 or more). Hereinafter, when each of the devices 4 1 to 4 n is illustrated without being distinguished from each other, the device 4 is referred to as a device 4, and when each of the sensor devices 5 1 to 5 m is illustrated without being distinguished from each other, it is referred to as a sensor device 5.

スマートスピーカ1、情報提供装置2、端末装置3、機器4、およびセンサ装置5は、ネットワーク6を介して無線または有線で互いに通信可能に接続される。ネットワーク6は、例えば、LAN(Local Area Network)や、インターネットなどのWAN(Wide Area Network)であり、1以上のネットワークで構成される。   The smart speaker 1, the information providing device 2, the terminal device 3, the device 4, and the sensor device 5 are connected to be communicable with each other wirelessly or via a network 6. The network 6 is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network) such as the Internet, and is composed of one or more networks.

スマートスピーカ1、端末装置3、機器4、およびセンサ装置5は、ユーザUの周囲の領域ARに配置されている。領域ARは、例えばユーザUの部屋または家である。また、図示していないがユーザU〜U(kは2以上の整数)の領域AR〜ARの各々にも、領域ARと同様に、スマートスピーカ1、端末装置3、機器4、およびセンサ装置5が配置されている。以下、ユーザU〜Uの各々を区別せずに示す場合、ユーザUと記載する。 Smart speaker 1, the terminal device 3, device 4, and the sensor device 5 is arranged in the area AR 1 surrounding the user U 1. The area AR 1 is, for example, a room or a house of the user U 1 . Furthermore, also each of the regions AR 2 to Ar k of the illustrated non Although the user U 2 ~U k (k is an integer of 2 or more), as in the area AR 1, the smart speaker 1, the terminal device 3, device 4 , And a sensor device 5 are arranged. Hereinafter, when each of the users U 1 to U k is shown without being distinguished, it is referred to as a user U.

スマートスピーカ1は、対話型の音声操作に対応するAI(人工知能:Artificial Intelligence)アシスタント機能を利用可能なスピーカであり、ユーザUは、スマートスピーカ1と対話することで様々な情報を取得することができる。例えば、スマートスピーカ1は、ユーザUからの指示を示す入力情報を情報提供装置2へ送信し、入力情報応じた情報提供装置2からネットワーク6を介して提供されるコンテンツ(例えば、音楽、ニュース、交通情報、天候などの各種情報)を取得し、内蔵している音声出力器から取得したコンテンツを出力することができる。   The smart speaker 1 is a speaker that can use an AI (Artificial Intelligence) assistant function corresponding to interactive voice operation, and the user U obtains various information by interacting with the smart speaker 1. Can do. For example, the smart speaker 1 transmits input information indicating an instruction from the user U to the information providing apparatus 2, and content (for example, music, news, etc.) provided from the information providing apparatus 2 according to the input information via the network 6. (Various information such as traffic information and weather) can be acquired, and the acquired content can be output from the built-in audio output device.

また、スマートスピーカ1は、ユーザUからの指示に従って機器4を制御することができる。例えば、機器4が照明機器である場合、スマートスピーカ1は、ユーザUからの指示に従って照明機器である機器4のオンとオフを制御することができる。   In addition, the smart speaker 1 can control the device 4 in accordance with an instruction from the user U. For example, when the device 4 is a lighting device, the smart speaker 1 can control on and off of the device 4 that is the lighting device in accordance with an instruction from the user U.

情報提供装置2は、スマートスピーカ1から出力される情報に基づいて、ユーザUからの指示に応じたコンテンツをスマートスピーカ1へネットワーク6を介して提供することができる。例えば、情報提供装置2は、スマートスピーカ1から送信されるユーザUの発話情報に基づき、ユーザUの指示を判定し、判定した指示に応じたコンテンツをスマートスピーカ1へ提供することができる。   The information providing apparatus 2 can provide content corresponding to an instruction from the user U to the smart speaker 1 via the network 6 based on information output from the smart speaker 1. For example, the information providing apparatus 2 can determine the instruction of the user U based on the utterance information of the user U transmitted from the smart speaker 1 and can provide the smart speaker 1 with content corresponding to the determined instruction.

端末装置3は、例えば、スマートフォン、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット型端末、携帯電話機、PDA(Personal Digital Assistant)等により実現される。かかる端末装置3は、例えば、情報通知アプリケーションを含む複数のアプリケーションを有しており、情報提供装置2から通知されるコンテンツを取得して表示したりする。端末装置3は、端末装置3の動作状態を示す情報やユーザUによる端末装置3の操作履歴を示す情報をスマートスピーカ1や情報提供装置2へ通知することができる。   The terminal device 3 is realized by, for example, a smartphone, a desktop PC (Personal Computer), a notebook PC, a tablet terminal, a mobile phone, a PDA (Personal Digital Assistant), or the like. The terminal device 3 has a plurality of applications including an information notification application, for example, and acquires and displays content notified from the information providing device 2. The terminal device 3 can notify the smart speaker 1 and the information providing device 2 of information indicating the operation state of the terminal device 3 and information indicating the operation history of the terminal device 3 by the user U.

機器4は、ユーザUの周囲に存在する機器である。例えば、機器4には、冷蔵庫、照明機器、洗濯機、エアーコンディショナー、テレビジョン受像機、食器洗浄機、食器乾燥機、電磁調理器、電子レンジといった種々の機器が含まれる。機器4は、機器4の動作状態を示す情報やユーザUによる機器4の操作履歴を示す情報をスマートスピーカ1や情報提供装置2へ通知することができる。   The device 4 is a device that exists around the user U. For example, the device 4 includes various devices such as a refrigerator, a lighting device, a washing machine, an air conditioner, a television receiver, a dishwasher, a dish dryer, an electromagnetic cooker, and a microwave oven. The device 4 can notify the smart speaker 1 and the information providing device 2 of information indicating the operation state of the device 4 and information indicating the operation history of the device 4 by the user U.

センサ装置5は、ユーザUの周囲に存在するセンサである。センサ装置5は、例えば、温度センサ、湿度センサ、照度センサ、気圧センサ、ドアの開閉を検出する開閉センサといったセンサを含む。また、センサ装置5は、ユーザUを撮像する撮像部を含む。センサ装置5は、温度の計測値、湿度の計測値、照度の計測値、気圧の計測値、ドアの開閉情報、撮像画像の情報といったセンサ情報をスマートスピーカ1や情報提供装置2へ通知することができる。なお、センサ装置5は、スマートスピーカ1や機器4に内蔵されていてもよい。   The sensor device 5 is a sensor that exists around the user U. The sensor device 5 includes, for example, sensors such as a temperature sensor, a humidity sensor, an illuminance sensor, an atmospheric pressure sensor, and an open / close sensor that detects opening / closing of a door. The sensor device 5 includes an imaging unit that images the user U. The sensor device 5 notifies the smart speaker 1 and the information providing device 2 of sensor information such as temperature measurement values, humidity measurement values, illuminance measurement values, atmospheric pressure measurement values, door opening / closing information, and captured image information. Can do. The sensor device 5 may be built in the smart speaker 1 or the device 4.

実施形態に係る情報処理システム100は、スマートスピーカ1の音声出力器から出力された音声情報がユーザUに受容されたか否かを判定する音声情報効果判定処理を実行することができる。以下、音声情報効果判定処理について具体的に説明する。図2は、実施形態に係る音声情報効果判定処理の説明図であり、図2に示す例では、音声情報効果判定処理の一例である情報提供装置2によって音声情報効果判定処理が実行される。以下においては、音声広告を音声情報の一例に挙げて説明する。   The information processing system 100 according to the embodiment can execute a sound information effect determination process for determining whether or not the sound information output from the sound output device of the smart speaker 1 has been received by the user U. Hereinafter, the audio information effect determination process will be specifically described. FIG. 2 is an explanatory diagram of the sound information effect determination process according to the embodiment. In the example illustrated in FIG. 2, the sound information effect determination process is executed by the information providing apparatus 2 which is an example of the sound information effect determination process. In the following, a voice advertisement will be described as an example of voice information.

情報提供装置2は、音声広告をスマートスピーカ1へネットワーク6を介して出力する(ステップS1)。これにより、音声広告がスマートスピーカ1から出力される。音声広告は、音声の広告コンテンツであり、例えば、人の声、音楽、効果音などが含まれる。   The information providing apparatus 2 outputs the voice advertisement to the smart speaker 1 via the network 6 (Step S1). Thereby, a voice advertisement is output from the smart speaker 1. The voice advertisement is a voice advertisement content, and includes, for example, human voice, music, sound effects and the like.

情報提供装置2は、音声広告がスマートスピーカ1から出力された場合のユーザUの振る舞いを検出するための情報をスマートスピーカ1やセンサ装置5から取得し、取得した情報に基づいて、ユーザUの振る舞いを検出する(ステップS2)。   The information providing device 2 acquires information for detecting the behavior of the user U when the voice advertisement is output from the smart speaker 1 from the smart speaker 1 or the sensor device 5, and based on the acquired information, the user U's A behavior is detected (step S2).

ステップS2において、情報提供装置2は、スマートスピーカ1から音声広告の出力が開始された後にスマートスピーカ1、端末装置3、またはセンサ装置5で撮像される撮像画像に基づいて、ユーザUの振る舞いを検出することができる。例えば、情報提供装置2は、ユーザUの身体的な振る舞い(例えば、目線の動き、頭部の動き、手の動き、足の動き、口の動きなど)や、ユーザUの機器4への振る舞い(例えば、機器4をオフ)を検出することができる。   In step S <b> 2, the information providing device 2 performs the behavior of the user U based on the captured image captured by the smart speaker 1, the terminal device 3, or the sensor device 5 after the output of the voice advertisement from the smart speaker 1 is started. Can be detected. For example, the information providing apparatus 2 is a physical behavior of the user U (for example, eye movement, head movement, hand movement, foot movement, mouth movement, etc.) or a behavior of the user U to the device 4. (For example, the device 4 is turned off) can be detected.

また、情報提供装置2は、音声広告出力期間内にスマートスピーカ1に入力される音の情報に基づいて、ユーザUの振る舞いを検出することができる。例えば、情報提供装置2は、スマートスピーカ1に入力される音の情報に基づいて、ユーザUの発話による振る舞い、およびユーザUが行っていた作業における振る舞いなどを検出することができる。   In addition, the information providing apparatus 2 can detect the behavior of the user U based on sound information input to the smart speaker 1 during the audio advertisement output period. For example, the information providing apparatus 2 can detect the behavior of the user U's utterance, the behavior of the work that the user U was performing, and the like based on the sound information input to the smart speaker 1.

情報提供装置2は、検出したユーザUの振る舞いに基づいて、音声広告がユーザUに受容されたか否かを判定する(ステップS3)。例えば、情報提供装置2は、会話中のユーザUが発話を止めたり、会話中のユーザUが発話の音量を下げたりした場合、音声広告がユーザUに受容されたと判定することができる。一方、情報提供装置2は、例えば、ユーザUが音量を下げずに会話を継続した場合、音声広告がユーザUに受容されていないと判定することができる。   Based on the detected behavior of the user U, the information providing apparatus 2 determines whether or not the voice advertisement has been received by the user U (step S3). For example, the information providing apparatus 2 can determine that the voice advertisement has been received by the user U when the user U in conversation stops speaking or the user U in conversation reduces the volume of speech. On the other hand, for example, when the user U continues the conversation without reducing the volume, the information providing apparatus 2 can determine that the voice advertisement is not accepted by the user U.

また、情報提供装置2は、例えばユーザUが音声広告に関する発話をしたり、ユーザUが機器4をオフする行為をしたりした場合に、音声広告がユーザUに受容されたと判定することができる。一方、情報提供装置2は、音声広告の広告対象の商品またはサービスに対しユーザUが否定的な発話をした場合に、音声広告がユーザUに受容されていないと判定することができる。   Further, the information providing apparatus 2 can determine that the voice advertisement has been received by the user U when, for example, the user U speaks about the voice advertisement or the user U performs an action of turning off the device 4. . On the other hand, the information providing apparatus 2 can determine that the voice advertisement is not accepted by the user U when the user U makes a negative utterance with respect to the advertisement target product or service.

また、情報提供装置2は、例えば、広告出力期間においてユーザUが一定時間以上視線をスマートスピーカ1に向けたり、移動中のユーザUが広告出力期間において一定時間移動を停止したりした場合、音声広告がユーザUに受容されたと判定することができる。一方、情報提供装置2は、例えば、移動中のユーザUが音声広告の出力後にも移動を継続した場合、音声広告がユーザUに受容されていないと判定することができる。   Further, the information providing apparatus 2 may, for example, provide a voice message when the user U turns his / her line of sight toward the smart speaker 1 for a certain time or more during the advertisement output period, or when the moving user U stops moving for a certain time during the advertisement output period. It can be determined that the advertisement is received by the user U. On the other hand, for example, when the moving user U continues moving after the voice advertisement is output, the information providing apparatus 2 can determine that the voice advertisement is not accepted by the user U.

情報提供装置2は、音声広告がユーザUに受容されたと判定すると、音声広告の広告効果を更新する(ステップS4)。例えば、情報提供装置2は、テキスト広告またはバナー広告のクリックに相当する広告効果を付加する。具体的には、情報提供装置2は、音声広告の出力回数に対する音声広告の受容回数の割合を演算し、演算した割合を音声広告効果とすることができる。これにより、音声広告においてCTR(Click Through Rate)に相当する広告効果指標を得ることができる。   When the information providing apparatus 2 determines that the voice advertisement is received by the user U, the information providing apparatus 2 updates the advertising effect of the voice advertisement (step S4). For example, the information providing apparatus 2 adds an advertisement effect corresponding to a click on a text advertisement or a banner advertisement. Specifically, the information providing apparatus 2 can calculate the ratio of the number of times the voice advertisement is received with respect to the number of times the voice advertisement is output, and can set the calculated ratio as the voice advertisement effect. Thereby, an advertisement effect index corresponding to CTR (Click Through Rate) can be obtained in the voice advertisement.

このように、情報提供装置2は、音声広告による新たな広告効果を測定することができ、これにより、広告主に対して適切な広告効果指標を提供することが可能になる。   As described above, the information providing apparatus 2 can measure a new advertisement effect by the voice advertisement, and can thereby provide an appropriate advertisement effect index to the advertiser.

〔2.スマートスピーカ1の構成〕
次に、実施形態に係るスマートスピーカ1の構成について具体的に説明する。図3は、実施形態に係るスマートスピーカ1の構成例を示す図である。図3に示すように、スマートスピーカ1は、通信部10と、音声出力器11と、音声入力器12と、撮像部13と、記憶部14と、制御部15とを備える。
[2. Configuration of Smart Speaker 1]
Next, the configuration of the smart speaker 1 according to the embodiment will be specifically described. FIG. 3 is a diagram illustrating a configuration example of the smart speaker 1 according to the embodiment. As shown in FIG. 3, the smart speaker 1 includes a communication unit 10, an audio output device 11, an audio input device 12, an imaging unit 13, a storage unit 14, and a control unit 15.

通信部10は、ネットワーク6を介して情報提供装置2、端末装置3、機器4、およびセンサ装置5などの装置と通信可能な通信インターフェイスである。制御部15は通信部10を介して情報提供装置2、端末装置3、機器4、およびセンサ装置5と情報の送受信を行うことができる。なお、スマートスピーカ1は、通信部10以外の通信部によって端末装置3、機器4、およびセンサ装置5と通信する構成であってもよい。   The communication unit 10 is a communication interface capable of communicating with devices such as the information providing device 2, the terminal device 3, the device 4, and the sensor device 5 via the network 6. The control unit 15 can transmit / receive information to / from the information providing device 2, the terminal device 3, the device 4, and the sensor device 5 via the communication unit 10. The smart speaker 1 may be configured to communicate with the terminal device 3, the device 4, and the sensor device 5 by a communication unit other than the communication unit 10.

例えば、ネットワーク6がLANとWANで構成され、且つ通信部10がLANに接続される場合、制御部15は、LANを介して端末装置3、機器4、およびセンサ装置5と情報の送受信を行い、LANおよびWANを介して情報提供装置2と情報の送受信を行う。   For example, when the network 6 includes a LAN and a WAN and the communication unit 10 is connected to the LAN, the control unit 15 transmits and receives information to and from the terminal device 3, the device 4, and the sensor device 5 via the LAN. , Information is transmitted to and received from the information providing apparatus 2 via the LAN and WAN.

音声出力器11は、制御部15から出力される電気信号に応じた振動を行うことで、電気信号に応じた音波をスマートスピーカ1の外部へ出力する。音声出力器11は、例えば、振動板と、電気信号に応じて振動板を振動させる駆動機構とを備える。なお、図3に示す例では、一つの音声出力器11のみ図示しているが、スマートスピーカ1には、音声出力器11が複数設けられてもよい。   The audio output device 11 outputs a sound wave corresponding to the electric signal to the outside of the smart speaker 1 by performing vibration according to the electric signal output from the control unit 15. The audio output device 11 includes, for example, a diaphragm and a drive mechanism that vibrates the diaphragm according to an electric signal. In the example illustrated in FIG. 3, only one audio output device 11 is illustrated, but the smart speaker 1 may be provided with a plurality of audio output devices 11.

音声入力器12は、マイクロフォンであり、外部から入力される音波を電気信号に変換し、変換した電気信号を制御部15へ出力する。なお、図3に示す例では、一つの音声入力器12のみ図示しているが、スマートスピーカ1には、音声入力器12が複数設けられてもよい。   The voice input device 12 is a microphone, converts a sound wave input from the outside into an electric signal, and outputs the converted electric signal to the control unit 15. In the example illustrated in FIG. 3, only one voice input device 12 is illustrated, but the smart speaker 1 may be provided with a plurality of voice input devices 12.

撮像部13は、例えば、COMS(Complementary Metal Oxide Semiconductor)イメージセンサを有しており、スマートスピーカ1の周囲を撮像する。撮像部13は、撮像結果である撮像情報を制御部15へ出力する。撮像情報には、スマートスピーカ1の周囲の撮像画像の情報が含まれる。   The imaging unit 13 includes, for example, a complementary metal oxide semiconductor (COMS) image sensor, and images the periphery of the smart speaker 1. The imaging unit 13 outputs imaging information that is an imaging result to the control unit 15. The imaging information includes information on captured images around the smart speaker 1.

記憶部14は、スマートスピーカ1へのユーザUの操作履歴20、および自発的な発話を行うための発話テーブル21を記憶する。   The storage unit 14 stores an operation history 20 of the user U to the smart speaker 1 and an utterance table 21 for performing spontaneous utterance.

操作履歴20は、スマートスピーカ1への操作内容と操作時刻とがユーザUの操作毎に関連付けられた情報である。操作内容は、例えば、各種のコンテンツ(例えば、スケジュール、メール、ニュース、音楽、交通情報など)の音声出力器11からの出力を開始する音声操作、各種のコンテンツの音声出力器11からの出力を停止する音声操作などの種々の操作が含まれる。   The operation history 20 is information in which the operation content and operation time for the smart speaker 1 are associated with each operation of the user U. The operation details include, for example, an audio operation for starting output of various contents (for example, schedule, mail, news, music, traffic information, etc.) from the audio output device 11 and outputs from the audio output device 11 of various contents. Various operations such as a voice operation to stop are included.

図4は、実施形態に係る発話テーブル21の一例を示す図である。図4に示す発話テーブル21は、「コンテンツID」と、「発話内容」と、「モデル」とが互いに関連付けられた情報を含む。「コンテンツID」は、コンテンツに固有の識別情報である。   FIG. 4 is a diagram illustrating an example of the utterance table 21 according to the embodiment. The utterance table 21 illustrated in FIG. 4 includes information in which “content ID”, “utterance content”, and “model” are associated with each other. “Content ID” is identification information unique to the content.

「発話内容」は、例えば、コンテンツの利用の可否の問い合わせを行うための発話情報である。例えば、「発話内容」は、コンテンツがニュースである場合、「今日のニュースはいかがですか?」、「ニュースが“X”件あります」などである。また、「発話内容」は、コンテンツがメールである場合、「メールが“X”通届いています」などであり、コンテンツがスケジュールである場合、「本日は、“X”件の予定があります」などである。なお、“X”の情報は、情報提供装置2から制御部15が取得して発話内容に追加することができる。   “Speech content” is, for example, utterance information for inquiring whether to use the content. For example, “content of utterance” is “How is the news today?” Or “There are“ X ”news” if the content is news. In addition, “content of utterance” is “If the content is an email”, “E-mail is“ X ”received”, etc. If the content is a schedule, “There are“ X ”schedules today” Etc. The information “X” can be acquired from the information providing apparatus 2 by the control unit 15 and added to the utterance content.

また、「発話内容」は、コンテンツそのものであってもよい。この場合、発話テーブル21には発話内容は設定されず、制御部15がコンテンツIDに基づいて情報提供装置2からコンテンツを取得する。   Further, the “utterance content” may be the content itself. In this case, the utterance content is not set in the utterance table 21, and the control unit 15 acquires content from the information providing apparatus 2 based on the content ID.

「モデル」は、発話に対する過去のユーザUの反応と発話時の過去のユーザUに関するコンテキスト情報とに基づいて生成されるタイミング判定モデルであり、コンテンツ毎に異なる。例えば、タイミング判定モデルは、発話に対する過去のユーザUの反応を目的変数とし、ユーザUに関するコンテキストを説明変数とする回帰モデルである。目的変数は、教師データとも呼ばれ、説明変数は、素性または特徴量とも呼ばれる。タイミング判定モデルにおいて説明変数の数は多いほど精度が良くなるが、説明変数の数は一つであってもよい。   The “model” is a timing determination model generated based on the past user U's reaction to the utterance and the context information regarding the past user U at the time of the utterance, and is different for each content. For example, the timing determination model is a regression model in which the reaction of the past user U to an utterance is an objective variable and the context related to the user U is an explanatory variable. The objective variable is also called teacher data, and the explanatory variable is also called a feature or a feature amount. In the timing determination model, the accuracy increases as the number of explanatory variables increases, but the number of explanatory variables may be one.

図3に示す制御部15は、入力処理部31と、情報出力部32と、情報取得部33と、出力処理部34と、コンテキスト取得部35と、タイミング決定部36とを備える。入力処理部31は、音声入力器12から出力される電気信号からユーザUの音声を認識する。   The control unit 15 illustrated in FIG. 3 includes an input processing unit 31, an information output unit 32, an information acquisition unit 33, an output processing unit 34, a context acquisition unit 35, and a timing determination unit 36. The input processing unit 31 recognizes the user U's voice from the electrical signal output from the voice input device 12.

また、入力処理部31は、撮像部13から出力される撮像情報からユーザUのジェスチャーを判定する。なお、入力処理部31は、撮像部を含むセンサ装置5から撮像情報を取得し、取得した撮像情報に基づいて、ユーザUのジェスチャーを判定することができる。   Further, the input processing unit 31 determines the gesture of the user U from the imaging information output from the imaging unit 13. Note that the input processing unit 31 can acquire imaging information from the sensor device 5 including the imaging unit, and can determine the gesture of the user U based on the acquired imaging information.

また、入力処理部31は、撮像部13から出力される撮像情報からユーザUの口の動きを検出し、検出した口の動きからユーザUの口パク(無音発声)の内容を判定することができる。すなわち、入力処理部31は、撮像部13から出力される撮像情報から読唇を行うことができる。入力処理部31は、読唇の結果をユーザUの発話情報とする。なお、入力処理部31は、ユーザUの音声が識別できる場合、読唇を行わない。   Further, the input processing unit 31 detects the movement of the mouth of the user U from the imaging information output from the imaging unit 13, and determines the content of the user U's mouth (silent utterance) from the detected movement of the mouth. it can. That is, the input processing unit 31 can read a lip from the imaging information output from the imaging unit 13. The input processing unit 31 uses the result of lip reading as utterance information of the user U. Note that the input processing unit 31 does not perform lip reading when the voice of the user U can be identified.

情報出力部32は、ユーザUがウェークアップワードを発話したと入力処理部31によって認識された場合、ウェークアップワードに続くユーザUの発話情報を情報提供装置2へ出力する。発話情報は、ユーザUの音声情報そのものであっても、テキスト情報であってもよい。また、情報出力部32は、入力処理部31によって判定されたジェスチャーの情報であるジェスチャー情報を情報提供装置2へ出力する。なお、ウェークアップワードは、スマートスピーカ1に予め設定されたワードであるが、情報出力部32は、ウェークアップワードの発話にかかわらずユーザUの発話情報およびジェスチャー情報を情報提供装置2へ出力することもできる。   When the input processing unit 31 recognizes that the user U has uttered a wake-up word, the information output unit 32 outputs the utterance information of the user U following the wake-up word to the information providing apparatus 2. The utterance information may be the voice information itself of the user U or text information. Further, the information output unit 32 outputs gesture information, which is information on the gesture determined by the input processing unit 31, to the information providing apparatus 2. Note that the wake-up word is a word preset in the smart speaker 1, but the information output unit 32 may output the utterance information and gesture information of the user U to the information providing apparatus 2 regardless of the utterance of the wake-up word. it can.

また、情報出力部32は、例えば、情報提供装置2からコンテキスト情報を取得しない場合などにおいて、コンテキスト取得部35で取得したコンテキスト情報を継続して繰り返し情報提供装置2へ出力することもできる。   In addition, for example, when the context information is not acquired from the information providing device 2, the information output unit 32 can continuously output the context information acquired by the context acquiring unit 35 to the information providing device 2 repeatedly.

また、情報出力部32は、音声出力器11からの音声広告の出力が開始されたときから予め設定された期間(以下、広告出力期間と記載する場合がある)において、音声入力器12へ入力される音を含む音情報および撮像部13から出力される撮像情報を含む撮像情報を情報提供装置2へ出力する。なお、予め設定された期間は、例えば、音声出力器11からの音声広告の出力が開始されたときから開始し、音声広告の出力が停止または終了されたときに終了する期間、または、音声出力器11からの音声広告の出力が開始されたときから開始し、音声広告の出力が停止または終了されてから一定期間後に終了する期間である。なお、情報出力部32は、広告出力期間において、端末装置3の音声入力器またはセンサ装置5へ入力される音を含む音情報を端末装置3またはセンサ装置5から取得して情報提供装置2へ出力することもできる。   In addition, the information output unit 32 is input to the voice input device 12 during a preset period (hereinafter sometimes referred to as an advertisement output period) from when the voice advertisement output from the voice output device 11 is started. Imaging information including the sound information including the sound to be output and the imaging information output from the imaging unit 13 is output to the information providing apparatus 2. Note that the preset period starts, for example, when the output of the audio advertisement from the audio output device 11 is started and ends when the output of the audio advertisement is stopped or ended, or the audio output This is a period that starts when the output of the audio advertisement from the device 11 is started and ends after a certain period after the output of the audio advertisement is stopped or ended. The information output unit 32 acquires sound information including sound input to the voice input device or the sensor device 5 of the terminal device 3 from the terminal device 3 or the sensor device 5 to the information providing device 2 during the advertisement output period. It can also be output.

情報取得部33は、情報提供装置2からコンテンツ毎のタイミング判定モデルを含むモデル情報を取得し、取得したタイミング判定モデル情報を発話テーブル21に設定することができる。また、情報取得部33は、情報提供装置2からコンテンツを取得する。出力処理部34は、情報取得部33によって取得されたコンテンツを電気信号へ変換して音声出力器11へ出力する。これにより、スマートスピーカ1からコンテンツが音として出力される。   The information acquisition unit 33 can acquire model information including a timing determination model for each content from the information providing device 2 and set the acquired timing determination model information in the utterance table 21. The information acquisition unit 33 acquires content from the information providing device 2. The output processing unit 34 converts the content acquired by the information acquisition unit 33 into an electrical signal and outputs it to the audio output unit 11. As a result, the content is output as sound from the smart speaker 1.

なお、出力処理部34は、コンテンツを情報提供装置2から文字情報として取得した場合、文字情報を音声合成処理によって音声信号(電気信号)へ変換して音声出力器11へ出力する。また、出力処理部34は、コンテンツを情報提供装置2から音声情報として取得した場合、音声情報をデジタルアナログ変換によって音声信号(電気信号)へ変換して音声出力器11へ出力する。   When the content is acquired as character information from the information providing device 2, the output processing unit 34 converts the character information into a voice signal (electric signal) by voice synthesis processing and outputs the voice signal to the voice output device 11. Further, when the content is acquired as audio information from the information providing device 2, the output processing unit 34 converts the audio information into an audio signal (electric signal) by digital / analog conversion and outputs the audio signal to the audio output device 11.

コンテキスト取得部35は、ユーザUに関するコンテキスト情報を取得するコンテンツ取得処理を実行する。コンテキスト取得部35は、端末装置3、機器4、およびセンサ装置5から直接または情報提供装置2を介してコンテキスト情報を取得することができる。   The context acquisition unit 35 executes content acquisition processing for acquiring context information regarding the user U. The context acquisition unit 35 can acquire context information from the terminal device 3, the device 4, and the sensor device 5 directly or via the information providing device 2.

具体的には、コンテキスト取得部35は、ユーザUの周囲の状況を示す周囲情報をコンテキスト情報の少なくとも一部として取得することができる。例えば、コンテキスト取得部35は、ユーザUの周囲に存在する1以上のセンサ装置5から出力されるセンサ情報から周囲情報を取得することができる。   Specifically, the context acquisition unit 35 can acquire the surrounding information indicating the situation around the user U as at least a part of the context information. For example, the context acquisition unit 35 can acquire ambient information from sensor information output from one or more sensor devices 5 present around the user U.

センサ情報は、例えば、ユーザUの周囲の明るさを示す照度情報、ユーザUの周囲の気温を示す気温情報、およびユーザUの周囲の湿度を示す湿度情報の少なくとも一つが含まれている。コンテキスト取得部35は、照度情報、気温情報、および湿度情報を周囲情報として取得することができる。   The sensor information includes at least one of illuminance information indicating brightness around the user U, temperature information indicating temperature around the user U, and humidity information indicating humidity around the user U, for example. The context acquisition unit 35 can acquire illuminance information, temperature information, and humidity information as ambient information.

また、コンテキスト取得部35は、ユーザUの周囲に存在する1以上の機器の状態を示す機器情報から周囲情報を取得することができる。ここで、1以上の機器とは、スマートスピーカ1、端末装置3、および機器4のうち1以上の機器である。機器情報は、例えば、機器のオン/オフといった機器の稼動状態を示す情報や、動作状態を示す情報である。   Further, the context acquisition unit 35 can acquire ambient information from device information indicating the state of one or more devices existing around the user U. Here, the one or more devices are one or more devices among the smart speaker 1, the terminal device 3, and the device 4. The device information is, for example, information indicating an operation state of the device such as device on / off or information indicating an operation state.

例えば、端末装置3の場合、動作状態を示す情報には、端末装置3で表示中のアプリケーションの種別や表示中のコンテンツの内容などが含まれる。また、機器がエアコンである場合、動作状態を示す情報には、エアコンの設定風量や設定温度などの情報が含まれる。   For example, in the case of the terminal device 3, the information indicating the operation state includes the type of application being displayed on the terminal device 3 and the content of the content being displayed. When the device is an air conditioner, the information indicating the operation state includes information such as a set air volume and a set temperature of the air conditioner.

また、コンテキスト取得部35は、ユーザUの周囲に存在する1以上の機器への操作履歴を示す操作履歴情報から周囲情報を取得することができる。1以上の機器とは、スマートスピーカ1、端末装置3、および機器4のうち1以上の機器である。操作履歴情報には、例えば、機器への操作内容と操作時刻とが関連付けられた情報がユーザUの操作毎に含まれる。コンテキスト取得部35は、スマートスピーカ1の操作履歴情報を記憶部14から取得することができる。   Further, the context acquisition unit 35 can acquire the surrounding information from the operation history information indicating the operation history for one or more devices existing around the user U. The one or more devices are one or more devices among the smart speaker 1, the terminal device 3, and the device 4. The operation history information includes, for example, information associated with the operation content on the device and the operation time for each operation of the user U. The context acquisition unit 35 can acquire the operation history information of the smart speaker 1 from the storage unit 14.

また、コンテキスト取得部35は、例えば、ユーザUの撮像情報を示す撮像情報を撮像部13、端末装置3、機器4、またはセンサ装置5から取得することができる。コンテキスト取得部35は、取得した撮像情報からユーザUの状況を示す情報といったコンテキスト情報を取得することができる。   The context acquisition unit 35 can acquire, for example, imaging information indicating the imaging information of the user U from the imaging unit 13, the terminal device 3, the device 4, or the sensor device 5. The context acquisition unit 35 can acquire context information such as information indicating the situation of the user U from the acquired imaging information.

また、コンテキスト取得部35は、例えば、音声入力器12へ入力される音を含む音情報から、ユーザUの会話の状態、ユーザUの発話状態、ユーザUの周囲の音(機器4の音を含む)などのコンテキスト情報を取得することができる。   In addition, the context acquisition unit 35, for example, from the sound information including the sound input to the voice input device 12, the conversation state of the user U, the speech state of the user U, the sounds around the user U (the sound of the device 4). Context information) can be acquired.

タイミング決定部36は、コンテキスト取得部35によって取得されたコンテキスト情報に基づいて、音声出力器11からの発話に対する過去のユーザUの反応を考慮した発話のタイミングである発話タイミングを決定する。   Based on the context information acquired by the context acquisition unit 35, the timing determination unit 36 determines an utterance timing that is an utterance timing in consideration of a past user U's reaction to an utterance from the audio output device 11.

例えば、タイミング決定部36は、記憶部14に記憶された発話テーブルに含まれるコンテンツ毎のタイミング判定モデルにコンテキスト取得部35で取得されたコンテキスト情報を入力情報として入力してモデルを用いた演算を行う。タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが予め設定された閾値であるか否かを判定する。   For example, the timing determination unit 36 inputs the context information acquired by the context acquisition unit 35 as input information to the timing determination model for each content included in the utterance table stored in the storage unit 14 and performs an operation using the model. Do. The timing determination unit 36 determines whether or not the score that is the calculation result of the timing determination model is a preset threshold value.

タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが閾値以上であると判定した場合、発話テーブル21において、スコアが閾値以上であるタイミング判定モデルに関連付けられた発話内容を出力するタイミングになったと判定する。また、タイミング決定部36は、スコアが閾値以上であるタイミング判定モデルが同時に2以上ある場合、スコアが閾値以上であるタイミング判定モデルのうち最も高いスコアのタイミング判定モデルに関連付けられた発話内容を出力するタイミングになったと判定する。   When the timing determination unit 36 determines that the score, which is the calculation result of the timing determination model, is greater than or equal to the threshold, the timing determination unit 36 outputs the utterance content associated with the timing determination model whose score is greater than or equal to the threshold in the utterance table 21. It is determined that it has become. In addition, when there are two or more timing determination models having a score equal to or higher than the threshold, the timing determination unit 36 outputs the utterance content associated with the timing determination model having the highest score among the timing determination models having a score equal to or higher than the threshold. It is determined that the timing has been reached.

なお、タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが閾値以上であると判定した場合でも、発話内容を出力するタイミングになったとは判定しないことができる。例えば、タイミング決定部36は、スコアが閾値以上であるタイミング判定モデルに関連付けられた発話内容を前回出力してから予め設定した期間(以下、出力禁止期間と記載する)を経過していない場合、発話タイミングになったとは判定しないことができる。   Note that the timing determination unit 36 can not determine that it is time to output the utterance content even when the score, which is the calculation result of the timing determination model, is determined to be greater than or equal to the threshold value. For example, when the timing determination unit 36 has not passed a preset period (hereinafter referred to as an output prohibition period) since the utterance content associated with the timing determination model whose score is equal to or greater than the threshold value was previously output, It cannot be determined that the utterance timing has come.

また、タイミング決定部36は、スコアが閾値以上であるタイミング判定モデルに関連付けられた発話内容を現時刻から予め設定された期間(以下、設定期間と記載する)前までの間に予め設定された回数(以下、出力上限回数と記載する)を超えた場合、発話タイミングになったとは判定しないことができる。   In addition, the timing determination unit 36 sets the utterance content associated with the timing determination model having a score equal to or higher than the threshold value in advance from the current time to a preset period (hereinafter referred to as a set period). When the number of times (hereinafter referred to as the output upper limit number) is exceeded, it cannot be determined that the speech timing has come.

また、タイミング決定部36は、タイミング判定モデルの演算結果であるスコアが閾値以上であると判定した場合でも、ユーザUがスマートスピーカ1を操作中の場合や音声出力器11からコンテンツや発話が出力中であれば、発話タイミングになったとは判定しない。この場合、タイミング決定部36は、ユーザUによるスマートスピーカ1の操作が終了した時点で、継続してスコアが閾値以上であるタイミング判定モデルがあれば、ユーザUによるスマートスピーカ1の操作が終了してから一定期間後に、発話内容を出力するタイミングになったと判定することができる。   Even when the timing determination unit 36 determines that the score, which is the calculation result of the timing determination model, is equal to or greater than the threshold, the content or utterance is output from the audio output device 11 when the user U is operating the smart speaker 1. If it is medium, it is not determined that the utterance timing has come. In this case, the timing determination unit 36 ends the operation of the smart speaker 1 by the user U if there is a timing determination model whose score is continuously equal to or higher than the threshold when the operation of the smart speaker 1 by the user U ends. It can be determined that it is time to output the utterance content after a certain period of time.

また、タイミング決定部36は、ユーザUによる音声操作に基づいて、上述した出力禁止期間、および出力上限回数をコンテンツ毎に発話テーブル21に設定することができる。なお、コンテンツ毎に設定可能な情報は、出力禁止期間、および出力上限回数に限定されない。また、出力禁止期間、および出力上限回数といった情報はユーザUの設定によらず予め発話テーブル21に設定されていてもよい。   Moreover, the timing determination part 36 can set the output prohibition period mentioned above and the output upper limit frequency in the speech table 21 for every content based on the voice operation by the user U. The information that can be set for each content is not limited to the output prohibition period and the output upper limit number. Information such as the output prohibition period and the output upper limit count may be set in the utterance table 21 in advance regardless of the setting of the user U.

このように、タイミング決定部36は、コンテキスト情報に基づいて、発話タイミングと、かかる発話タイミングで出力すると判定した発話内容(以下、出力対象発話内容と記載する場合がある)とを決定することができる。タイミング決定部36は、発話タイミングと出力対象発話内容とを音声出力器11からの発話に対する過去のユーザUの反応を考慮して、発話タイミングと出力対象発話内容とを決定することから、発話タイミングをより適切に決定することができる。   As described above, the timing determination unit 36 can determine the utterance timing and the utterance content determined to be output at the utterance timing (hereinafter, may be described as the output target utterance content) based on the context information. it can. The timing determination unit 36 determines the utterance timing and the output target utterance content by considering the utterance timing and the output target utterance content in consideration of the past reaction of the user U to the utterance from the voice output device 11. Can be determined more appropriately.

例えば、ユーザUが暗い場所に位置し、ユーザUの周囲に収集車(例えば、ゴミ収集車)がいる状況で何度発話しても、発話に対するユーザUの反応がないとする。この場合、タイミング判定モデルは、ユーザUが暗い場所に位置し、かつ、ユーザUの周囲に収集車がいることを示す場合に出力するスコアが閾値よりも小さくなるように生成される。そのため、タイミング決定部36は、ユーザUが暗い場所に位置し、かつ、ユーザUの周囲に収集車がいることをコンテキスト情報が示す場合、発話タイミングでないと判定する。   For example, it is assumed that the user U does not react to the utterance no matter how many times the utterance is made in a situation where the user U is located in a dark place and there is a collection vehicle (for example, a garbage collection vehicle) around the user U. In this case, the timing determination model is generated so that the score to be output when the user U is located in a dark place and the collection vehicle is around the user U is smaller than the threshold value. Therefore, when the context information indicates that the user U is located in a dark place and there is a collection vehicle around the user U, the timing determination unit 36 determines that it is not the utterance timing.

また、食器洗浄機と電子レンジとが共に使用されている状態では、発話に対するユーザUの反応がないとする。この場合、タイミング判定モデルは、食器洗浄機と電子レンジとが共に使用されている状態である場合に出力するスコアが閾値よりも小さくなるように生成される。そのため、タイミング決定部36は、食器洗浄機と電子レンジとが共に使用されていることをコンテキスト情報が示す場合、発話タイミングでないと判定する。   Further, it is assumed that the user U does not react to the utterance in a state where the dishwasher and the microwave oven are used together. In this case, the timing determination model is generated so that the score output when the dishwasher and the microwave oven are both used is smaller than the threshold value. Therefore, when the context information indicates that both the dishwasher and the microwave oven are used, the timing determination unit 36 determines that it is not the utterance timing.

また、ユーザUが端末装置3を操作中(例えば、端末装置3でウェブページを閲覧中、または端末装置3で音楽を再生中)である場合に、発話に対するユーザUの反応がないとする。この場合、タイミング判定モデルは、ユーザUが端末装置3を操作中である場合に出力するスコアが閾値よりも小さくなるように生成される。そのため、タイミング決定部36は、ユーザUが端末装置3を操作中であることをコンテキスト情報が示す場合、発話タイミングでないと判定する。   Further, when the user U is operating the terminal device 3 (for example, browsing a web page on the terminal device 3 or playing music on the terminal device 3), it is assumed that the user U does not react to the utterance. In this case, the timing determination model is generated so that the score output when the user U is operating the terminal device 3 is smaller than the threshold value. For this reason, when the context information indicates that the user U is operating the terminal device 3, the timing determination unit 36 determines that it is not the utterance timing.

また、例えば、発話が開始された後において、ユーザUの会話が続く場合やユーザUが「やめて」と発話した場合を不正解データとして、且つ発話時のコンテキスト情報を特徴量としてタイミング判定モデルが生成される。この場合、タイミング決定部36は、ユーザUがユーザUの会話を続けるようなコンテキストやユーザUが「やめて」と発話するようなコンテキストでは、発話タイミングでないと判定することができる。   Further, for example, when the user U's conversation continues after the start of the utterance or when the user U utters “Stop”, the timing determination model uses the incorrect information as the answer data and the context information at the time of the utterance as the feature amount. Generated. In this case, the timing determination unit 36 can determine that it is not the utterance timing in a context in which the user U continues the conversation of the user U or a context in which the user U utters “Stop”.

このように、タイミング決定部36は、現在のユーザUに関するコンテキストが発話に適したコンテキストである場合に、発話タイミングであると決定することができる。また、タイミング判定モデルはコンテンツ毎に生成されているため、コンテンツ毎の適切な発話タイミングが決定される。例えば、朝の時間帯であれば、交通機関の運行状態に関するコンテンツやニュースのコンテンツにユーザUが反応することが多い。そのため、交通機関の運行状態に関するコンテンツやニュースのコンテンツには、朝の時間帯が発話タイミングになりやすいタイミング判定モデルが生成される。   In this manner, the timing determination unit 36 can determine that it is the utterance timing when the context regarding the current user U is a context suitable for utterance. In addition, since the timing determination model is generated for each content, an appropriate speech timing for each content is determined. For example, in the morning time zone, the user U often reacts to content related to the operation state of transportation facilities or news content. For this reason, a timing determination model in which the morning time zone is likely to be the utterance timing is generated for the content related to the operation state of the transportation facility and the content of the news.

出力処理部34は、タイミング決定部36によって決定された発話タイミングで、タイミング決定部36によって決定された出力対象発話内容を音声出力器11から出力する。例えば、発話テーブル21が図4に示す状態で、出力対象発話内容が「発話内容XA」である場合、出力処理部34は、発話内容XAに基づく電信信号を音声出力器11へ出力することで、発話内容XAが音声出力器11から音声で出力される。   The output processing unit 34 outputs the output target utterance content determined by the timing determination unit 36 from the voice output device 11 at the utterance timing determined by the timing determination unit 36. For example, when the utterance table 21 is in the state shown in FIG. 4 and the output utterance content is “utterance content XA”, the output processing unit 34 outputs a telegraph signal based on the utterance content XA to the voice output device 11. The utterance content XA is output from the audio output unit 11 as audio.

〔3.情報提供装置2の構成〕
次に、実施形態に係る情報提供装置2の構成について具体的に説明する。図5は、実施形態に係る情報提供装置2の構成例を示す図である。図5に示すように、情報提供装置2は、通信部41と、記憶部42と、制御部43とを備える。
[3. Configuration of information providing apparatus 2]
Next, the configuration of the information providing apparatus 2 according to the embodiment will be specifically described. FIG. 5 is a diagram illustrating a configuration example of the information providing apparatus 2 according to the embodiment. As illustrated in FIG. 5, the information providing apparatus 2 includes a communication unit 41, a storage unit 42, and a control unit 43.

通信部41は、ネットワーク6を介してスマートスピーカ1、端末装置3、機器4、およびセンサ装置5などの装置と通信可能な通信インターフェイスである。制御部43は通信部41を介して情報提供装置2、スマートスピーカ1、端末装置3、機器4、およびセンサ装置5と情報の送受信を行うことができる。   The communication unit 41 is a communication interface that can communicate with devices such as the smart speaker 1, the terminal device 3, the device 4, and the sensor device 5 via the network 6. The control unit 43 can exchange information with the information providing device 2, the smart speaker 1, the terminal device 3, the device 4, and the sensor device 5 through the communication unit 41.

記憶部42は、発話テーブル記憶部51と、コンテンツ記憶部52と、音声広告記憶部53と、ユーザ情報記憶部54と、コンテキスト記憶部55と、出力態様判定情報記憶部56とを有する。   The storage unit 42 includes an utterance table storage unit 51, a content storage unit 52, a voice advertisement storage unit 53, a user information storage unit 54, a context storage unit 55, and an output mode determination information storage unit 56.

発話テーブル記憶部51は、スマートスピーカ1毎の発話テーブル21の情報を記憶する。図6は、実施形態に係る発話テーブル記憶部51に記憶される発話テーブルの一例を示す図である。図6に示す発話テーブル71は、「コンテンツID」と、「発話内容」と、「モデル」とが互いに関連付けられた情報を「機器ID」毎に含む。   The utterance table storage unit 51 stores information of the utterance table 21 for each smart speaker 1. FIG. 6 is a diagram illustrating an example of an utterance table stored in the utterance table storage unit 51 according to the embodiment. The utterance table 71 illustrated in FIG. 6 includes information in which “content ID”, “utterance content”, and “model” are associated with each other for each “device ID”.

発話テーブル71における「コンテンツID」、「発話内容」、および「モデル」は、発話テーブル21における「コンテンツID」、「発話内容」、および「モデル」と同様の情報である。「機器ID」は、スマートスピーカ1毎に固有の識別情報である。   The “content ID”, “utterance content”, and “model” in the utterance table 71 are the same information as the “content ID”, “utterance content”, and “model” in the utterance table 21. “Device ID” is identification information unique to each smart speaker 1.

図5に示すコンテンツ記憶部52は、スマートスピーカ1へ提供する各種のコンテンツを記憶する。図7は、実施形態に係るコンテンツ記憶部52に記憶されるコンテンツテーブルの一例を示す図である。図7に示すコンテンツテーブル72は、「コンテンツID」と、「コンテンツ」とが互いに関連付けられた情報である。   The content storage unit 52 illustrated in FIG. 5 stores various types of content to be provided to the smart speaker 1. FIG. 7 is a diagram illustrating an example of a content table stored in the content storage unit 52 according to the embodiment. The content table 72 illustrated in FIG. 7 is information in which “content ID” and “content” are associated with each other.

「コンテンツ」には、聴覚的出力用コンテンツと、視覚的出力用コンテンツとが含まれる。聴覚的出力用コンテンツは、音声で出力されるコンテンツであり、視覚的出力用コンテンツは文字、画像などといった音声以外の態様で出力されるコンテンツである。   “Content” includes audio output content and visual output content. The audio output content is content that is output in sound, and the visual output content is content that is output in a form other than sound, such as characters and images.

図5に示す音声広告記憶部53は、音声広告の情報などを記憶する。図8は、実施形態に係る音声広告記憶部53に記憶される音声広告テーブルの一例を示す図である。図8に示す音声広告テーブル73は、「広告ID」と、「音声広告」と、「出力回数」と、「受容回数」と、「受容率」とが互いに関連付けられた情報である。「広告ID」は、音声広告毎に固有の識別情報である。   The voice advertisement storage unit 53 illustrated in FIG. 5 stores voice advertisement information and the like. FIG. 8 is a diagram illustrating an example of a voice advertisement table stored in the voice advertisement storage unit 53 according to the embodiment. The voice advertisement table 73 shown in FIG. 8 is information in which “advertisement ID”, “voice advertisement”, “output count”, “acceptance count”, and “acceptance rate” are associated with each other. “Advertisement ID” is identification information unique to each voice advertisement.

「音声広告」は、音声広告のコンテンツであり、例えば、スマートスピーカ1の音声出力器11または端末装置3の音声出力器から出力される。なお、音声広告テーブル73の「音声広告」は、音声広告のコンテンツそのものであるが、音声広告のコンテンツの格納場所を示す情報であってもよい。   The “voice advertisement” is a content of the voice advertisement, and is output from, for example, the voice output device 11 of the smart speaker 1 or the voice output device of the terminal device 3. The “voice advertisement” in the voice advertisement table 73 is the voice advertisement content itself, but may be information indicating the storage location of the voice advertisement content.

「出力回数」は、音声広告がユーザUに提供された回数を示す情報であり、例えば、音声広告がスマートスピーカ1や端末装置3へ出力される度に制御部43によってインクリメントされる。「受容回数」は、音声広告がユーザUに受容された回数であり、例えば、音声広告がユーザUに受容される度に制御部43によってインクリメントされる。「受容率」は、出力回数に対する受容回数の割合であり、例えば、制御部43によって演算される。   The “number of times of output” is information indicating the number of times the voice advertisement is provided to the user U, and is incremented by the control unit 43 every time the voice advertisement is output to the smart speaker 1 or the terminal device 3, for example. The “acceptance count” is the number of times the voice advertisement is accepted by the user U, and is incremented by the control unit 43 every time the voice advertisement is accepted by the user U, for example. “Acceptance rate” is the ratio of the number of times of acceptance to the number of outputs, and is calculated by the control unit 43, for example.

例えば、図8に示す音声広告テーブル73において、広告ID「A101」の音声広告は、出力回数が29817回で、受容回数が827回で、受容率が0.0278であることを示している。また、広告ID「A102」の音声広告は、出力回数が8372回で、受容回数が352回で、受容率が0.0420であることを示している。   For example, the voice advertisement table 73 shown in FIG. 8 indicates that the voice advertisement with the advertisement ID “A101” has an output count of 29817, an acceptance count of 827, and an acceptance rate of 0.0278. The voice advertisement with the advertisement ID “A102” indicates that the output count is 8372, the acceptance count is 352, and the acceptance rate is 0.0420.

図5に示すユーザ情報記憶部54は、ユーザUの情報を記憶する。図9は、実施形態に係るユーザ情報記憶部54に記憶されるユーザ情報テーブルの一例を示す図である。図9に示すユーザ情報テーブル74は、「ユーザID」と、「ユーザ属性」と、「機器ID」と、「機器アドレス」とが互いに関連付けられた情報である。   The user information storage unit 54 illustrated in FIG. 5 stores user U information. FIG. 9 is a diagram illustrating an example of a user information table stored in the user information storage unit 54 according to the embodiment. The user information table 74 illustrated in FIG. 9 is information in which “user ID”, “user attribute”, “device ID”, and “device address” are associated with each other.

「ユーザID」は、ユーザU毎に固有の識別情報である。「ユーザ属性」は、ユーザUの属性を示す情報である。ユーザUの属性は、例えば、性別、および年齢の他、住所、職業などのデモグラフィック属性であるが、ユーザUの嗜好などを示すサイコグラフィック属性を含んでもよい。「機器ID」は、ユーザUが所有するスマートスピーカ1に固有の識別情報、およびユーザUが所有する端末装置3に固有の識別情報を含む。「機器アドレス」は、ユーザUが所有するスマートスピーカ1または端末装置3のネットワーク6上のアドレスである。   “User ID” is identification information unique to each user U. “User attribute” is information indicating the attribute of the user U. The attribute of the user U is, for example, demographic attributes such as address and occupation in addition to gender and age, but may include psychographic attributes indicating the preference of the user U and the like. The “device ID” includes identification information unique to the smart speaker 1 owned by the user U and identification information unique to the terminal device 3 owned by the user U. The “device address” is an address on the network 6 of the smart speaker 1 or the terminal device 3 owned by the user U.

出力態様判定情報記憶部56は、スマートスピーカ1からコンテンツの出力要求があった場合に、出力要求の対象となるコンテンツの出力態様を決定するための出力態様判定情報を含む。出力態様には、上述したように、コンテンツの出力種別、およびコンテンツの出力先の少なくとも一つが含まれる。   The output mode determination information storage unit 56 includes output mode determination information for determining the output mode of the content that is the target of the output request when there is a content output request from the smart speaker 1. As described above, the output mode includes at least one of the content output type and the content output destination.

出力態様判定情報は、例えば、ユーザUに関するコンテキストと各出力態様との関係を規定する情報であり、モデルまたはテーブルを含む。出力態様判定情報に含まれるテーブルは、ユーザUに関するコンテキストと各出力態様との関係を規定するテーブルである。また、出力態様判定情報に含まれるモデルは、学習部64による学習によって生成されるモデルである。   The output mode determination information is, for example, information that defines the relationship between the context related to the user U and each output mode, and includes a model or a table. The table included in the output mode determination information is a table that defines the relationship between the context related to the user U and each output mode. The model included in the output mode determination information is a model generated by learning by the learning unit 64.

図5に示す制御部43は、情報取得部61と、情報出力部62と、コンテキスト取得部63と、学習部64と、出力態様決定部65と、検出部66と、判定部67と、広告効果更新部68とを備える。   5 includes an information acquisition unit 61, an information output unit 62, a context acquisition unit 63, a learning unit 64, an output mode determination unit 65, a detection unit 66, a determination unit 67, and an advertisement. An effect updating unit 68.

情報取得部61は、スマートスピーカ1から送信される情報を取得する。例えば、情報取得部61は、スマートスピーカ1からユーザUの指示を示す入力情報(例えば、発話情報、ジェスチャーによる操作内容を示す情報)を取得することができる。また、情報取得部61は、例えば、ユーザUの撮像画像を示す撮像情報をスマートスピーカ1、端末装置3、機器4、またはセンサ装置5から取得することができる。   The information acquisition unit 61 acquires information transmitted from the smart speaker 1. For example, the information acquisition unit 61 can acquire input information indicating the instruction of the user U from the smart speaker 1 (for example, utterance information, information indicating operation content by gesture). Moreover, the information acquisition part 61 can acquire the imaging information which shows the user U's captured image from the smart speaker 1, the terminal device 3, the apparatus 4, or the sensor apparatus 5, for example.

また、情報取得部61は、ユーザUの周囲に存在する1以上の機器(例えば、スマートスピーカ1、端末装置3、機器4など)への操作履歴を示す操作履歴情報をスマートスピーカ1、端末装置3、または機器4から取得することができる。   In addition, the information acquisition unit 61 displays operation history information indicating an operation history for one or more devices (for example, the smart speaker 1, the terminal device 3, the device 4, and the like) existing around the user U. 3 or from the device 4.

情報出力部62は、出力態様決定部65によって決定される出力態様に基づいて、ユーザUの入力情報に応じたコンテンツ(聴覚的出力用コンテンツ)をコンテンツ記憶部52から取得する。例えば、情報出力部62は、出力態様決定部65によって決定される出力種別が聴覚的出力である場合、ユーザUの入力情報に応じたコンテンツであって音声のコンテンツをコンテンツ記憶部52から取得する。   Based on the output mode determined by the output mode determination unit 65, the information output unit 62 acquires content (acoustic output content) corresponding to the input information of the user U from the content storage unit 52. For example, when the output type determined by the output mode determination unit 65 is an auditory output, the information output unit 62 acquires content corresponding to the input information of the user U and audio content from the content storage unit 52. .

また、情報出力部62は、出力態様決定部65によって決定される出力種別が視覚的出力である場合、ユーザUの入力情報に応じたコンテンツであって文字または画像のコンテンツ(視覚的出力用コンテンツ)をコンテンツ記憶部52のコンテンツテーブル72から取得する。また、情報出力部62は、出力態様決定部65によって決定される出力種別が聴覚的出力および視覚的出力である場合、ユーザUの入力情報に応じたコンテンツであって音声および文字(または画像)を含むコンテンツをコンテンツ記憶部52のコンテンツテーブル72から取得する。   Further, when the output type determined by the output mode determination unit 65 is visual output, the information output unit 62 is content corresponding to the input information of the user U and is content of characters or images (visual output content). ) Is acquired from the content table 72 of the content storage unit 52. In addition, when the output type determined by the output mode determination unit 65 is an auditory output or a visual output, the information output unit 62 is content corresponding to the input information of the user U, and includes voice and characters (or images). Is acquired from the content table 72 of the content storage unit 52.

情報出力部62は、出力態様決定部65によって決定される出力態様に基づいて、記憶部42から取得したコンテンツをスマートスピーカ1および端末装置3の少なくとも一つに出力する。情報出力部62は、出力態様決定部65によって決定される出力先の機器アドレスを記憶部42のユーザ情報テーブル74から取得し、取得した機器アドレス宛にコンテンツを送信する。   The information output unit 62 outputs the content acquired from the storage unit 42 to at least one of the smart speaker 1 and the terminal device 3 based on the output mode determined by the output mode determination unit 65. The information output unit 62 acquires the device address of the output destination determined by the output mode determination unit 65 from the user information table 74 of the storage unit 42, and transmits the content to the acquired device address.

例えば、情報出力部62は、出力態様決定部65によって決定される出力先がスマートスピーカ1である場合、記憶部42から取得したコンテンツをスマートスピーカ1の機器アドレス宛へ送信する。また、情報出力部62は、出力態様決定部65によって決定される出力先が端末装置3である場合、記憶部42から取得したコンテンツを端末装置3の機器アドレス宛へ送信する。   For example, when the output destination determined by the output mode determination unit 65 is the smart speaker 1, the information output unit 62 transmits the content acquired from the storage unit 42 to the device address of the smart speaker 1. In addition, when the output destination determined by the output mode determination unit 65 is the terminal device 3, the information output unit 62 transmits the content acquired from the storage unit 42 to the device address of the terminal device 3.

コンテキスト取得部63は、ユーザUに関するコンテキスト情報を取得するコンテンツ取得処理を実行する。コンテキスト取得部63は、情報取得部61で取得した情報からコンテキスト情報を取得することができる。コンテキスト取得部63によって取得されるコンテキスト情報は、コンテキスト取得部35によって取得されるコンテキスト情報と同じであるが、コンテキスト取得部35によって取得されるコンテキスト情報と一部または全部が異なる情報であってもよい。   The context acquisition unit 63 executes content acquisition processing for acquiring context information regarding the user U. The context acquisition unit 63 can acquire context information from the information acquired by the information acquisition unit 61. The context information acquired by the context acquisition unit 63 is the same as the context information acquired by the context acquisition unit 35, but even if the context information acquired by the context acquisition unit 35 is partly or entirely different information. Good.

なお、コンテキスト取得部63が取得するコンテキスト情報には、ユーザUの指示の種別を示す入力種別情報が含まれる。入力種別情報は、例えば、ユーザUの指示が音声、ジェスチャー、および口の動きのいずれであるかを示す情報である。なお、コンテキスト取得部63は、スマートスピーカ1、端末装置3、機器4、またはセンサ装置5からユーザUの撮像画像が情報提供装置2へ送信される場合、ユーザUの撮像画像からユーザUのジェスチャーや口の動きを判定することで、入力種別情報を取得することもできる。   The context information acquired by the context acquisition unit 63 includes input type information indicating the type of instruction from the user U. The input type information is information indicating, for example, whether the instruction of the user U is voice, gesture, or mouth movement. When the captured image of the user U is transmitted from the smart speaker 1, the terminal device 3, the device 4, or the sensor device 5 to the information providing device 2, the context acquisition unit 63 determines the user U's gesture from the captured image of the user U. The input type information can also be acquired by determining the movement of the mouth.

学習部64は、コンテキスト取得部63によって取得されるユーザU毎のコンテキスト情報に基づいて、発話テーブル71のタイミング判定モデルをユーザU毎且つコンテンツ毎に生成することができる。かかるタイミング判定モデルは、上述したように、発話に対する過去のユーザUの反応と発話時の過去のユーザUに関するコンテキスト情報とに基づいて生成されるモデルである。   The learning unit 64 can generate the timing determination model of the utterance table 71 for each user U and for each content based on the context information for each user U acquired by the context acquisition unit 63. As described above, the timing determination model is a model generated based on the past user U's reaction to the utterance and the context information regarding the past user U at the time of the utterance.

学習部64は、スマートスピーカ1からの自発的な発話を開始してから予め設定された期間においてコンテキスト情報に含まれるユーザUの動作またはユーザUの発話がスマートスピーカ1からの自発的な発話に対して肯定的な反応であるか否かを教師データとする。   The learning unit 64 starts the spontaneous utterance from the smart speaker 1, and the operation of the user U included in the context information or the utterance of the user U becomes a spontaneous utterance from the smart speaker 1 during a preset period. Whether it is a positive reaction or not is used as teacher data.

例えば、学習部64は、スマートスピーカ1の自発的発話に対するユーザUの発話が肯定的である場合、スマートスピーカ1の自発的発話に対して肯定的な反応であると判定する。例えば、学習部64は、「今日のニュースはいかがですか?」などの自発的発話に対して、ユーザUの発話が例えば「よろしく」、「うん」などである場合、肯定的な反応であると判定することができる。   For example, when the user U's utterance with respect to the spontaneous utterance of the smart speaker 1 is positive, the learning unit 64 determines that the reaction is a positive reaction with respect to the spontaneous utterance of the smart speaker 1. For example, the learning unit 64 responds positively to a spontaneous utterance such as “How about today's news?” If the utterance of the user U is, for example, “Thank you” or “Yes”. Can be determined.

また、学習部64は、スマートスピーカ1の自発的発話に対するユーザUの発話がない場合、またはスマートスピーカ1の自発的発話に対するユーザUの発話が否定的である場合、スマートスピーカ1の自発的発話に対して肯定的な反応ではないと判定する。例えば、学習部64は、「今日のニュースはいかがですか?」などの自発的発話に対して、ユーザUの発話がない場合、またはユーザUの発話が例えば「いらない」、「やめて」などである場合、肯定的な反応ではないと判定することができる。   Further, the learning unit 64 does not utter the user U with respect to the spontaneous utterance of the smart speaker 1 or if the utterance of the user U with respect to the spontaneous utterance with the smart speaker 1 is negative, the spontaneous utterance of the smart speaker 1. It is determined that the response is not positive. For example, the learning unit 64 responds to a spontaneous utterance such as “How about today's news?” In the case where there is no utterance of the user U, or the utterance of the user U is “not required”, “stop”, etc. In some cases, it can be determined that there is no positive response.

なお、自発的発話に対するユーザUの反応が肯定的であるか否かは、上述した例に限定されない。例えば、学習部64は、ユーザUが頷いた場合に、自発的発話に対して肯定的な反応であると判定することができる。また、学習部64は、ユーザUがスマートスピーカ1から遠ざかった場合に、自発的発話に対して肯定的な反応ではないと判定することができる。   Note that whether or not the reaction of the user U to the spontaneous utterance is positive is not limited to the above-described example. For example, the learning unit 64 can determine that the reaction is a positive response to the spontaneous utterance when the user U speaks. In addition, the learning unit 64 can determine that the reaction is not a positive response to the spontaneous utterance when the user U moves away from the smart speaker 1.

学習部64は、上述のように自発的発話に対して肯定的な反応であるか否かを教師データとし、自発的発話を開始してから予め設定された期間においてコンテキスト情報に含まれる1以上の情報を特徴量として機械学習を行ってタイミング判定モデルを生成および更新する。   The learning unit 64 uses the teacher data as to whether or not the reaction is a positive response to the spontaneous utterance as described above, and is included in the context information in a predetermined period after starting the spontaneous utterance. The timing determination model is generated and updated by performing machine learning using the above information as a feature amount.

なお、タイミング判定モデルは、上述した例に限定されるものではなく、例えば、SVM(Support Vector Machine)やその他の機械学習法を用いて生成されるモデルであってもよい。また、タイミング判定モデルの生成は、深層学習(ディープラーニング)の技術を用いて行われてもよい。例えば、タイミング判定モデルの生成は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて行われてもよい。   The timing determination model is not limited to the above-described example, and may be a model generated using, for example, SVM (Support Vector Machine) or other machine learning methods. The generation of the timing determination model may be performed using a deep learning technique. For example, the generation of the timing determination model may be appropriately performed using various deep learning techniques such as DNN (Deep Neural Network), RNN (Recurrent Neural Network), and CNN (Convolutional Neural Network).

学習部64は、生成したタイミング判定モデルを発話テーブル71に設定する。また、学習部64は、発話テーブル71に設定されたタイミング判定モデルを、新たに取得される発話に対するユーザUの反応とコンテキスト情報とに基づいてタイミング判定モデルを更新することができる。例えば、学習部64は、情報提供装置2の処理負荷が少ない時間帯(例えば、深夜)などにタイミング判定モデルを更新することができる。   The learning unit 64 sets the generated timing determination model in the utterance table 71. The learning unit 64 can update the timing determination model set in the utterance table 71 based on the reaction of the user U to the newly acquired utterance and the context information. For example, the learning unit 64 can update the timing determination model in a time zone (for example, midnight) when the processing load on the information providing apparatus 2 is low.

また、学習部64は、複数のユーザUに共通のタイミング判定モデル(以下、共通判定モデルと記載する場合がある)をコンテンツ毎または特定のコンテンツについて生成することができる。この場合、学習部64は、発話に対する過去の複数のユーザUの反応と発話時の過去の複数のユーザUに関するコンテキスト情報とに基づいて、共通判定モデルを生成することができる。   The learning unit 64 can generate a timing determination model common to a plurality of users U (hereinafter, sometimes referred to as a common determination model) for each content or specific content. In this case, the learning unit 64 can generate a common determination model based on the past responses of the plurality of users U to the utterance and the context information regarding the plurality of past users U at the time of utterance.

また、学習部64は、共通判定モデルをコンテンツ毎に生成した後、かかる共通判定モデルをベースにして新たに取得される発話に対する各ユーザUの反応とコンテキスト情報とに基づいて、各ユーザUに固有のタイミング判定モデルを生成することもできる。   In addition, after generating a common determination model for each content, the learning unit 64 determines each user U based on the reaction and context information of each user U with respect to an utterance newly acquired based on the common determination model. A unique timing determination model can also be generated.

また、学習部64は、複数のコンテンツに共通かつ複数のユーザUに共通のタイミング判定モデルを生成することもできる。この場合、学習部64は、任意の発話に対する過去の複数のユーザUの反応と任意の発話時の過去の複数のユーザUに関するコンテキスト情報とに基づいて、複数のユーザUに共通のタイミング判定モデルを生成することができる。   The learning unit 64 can also generate a timing determination model common to a plurality of contents and common to a plurality of users U. In this case, the learning unit 64 uses a timing determination model common to the plurality of users U based on the reactions of the plurality of users U in the past with respect to an arbitrary utterance and the context information regarding the plurality of users U in the past at an arbitrary utterance. Can be generated.

また、学習部64は、コンテンツに対する過去のユーザUの反応と過去のユーザUに関するコンテキスト情報とに基づいて出力態様毎に出力態様判定モデルを生成することができる。例えば、ユーザUの反応が否定的な反応であるか否かまたは肯定的な反応であるか否かを教師データとし、ユーザUの反応時のコンテキスト情報を特徴量として機械学習を行うことができる。   Further, the learning unit 64 can generate an output mode determination model for each output mode based on the past user U's reaction to the content and the context information regarding the past user U. For example, machine learning can be performed by using whether the user U's reaction is a negative reaction or a positive reaction as teacher data and using context information at the time of the user U's reaction as a feature amount. .

否定的な反応は、例えば、スマートスピーカ1からコンテンツが音声として出力された場合におけるユーザUの否定的な発話(例えば、「いらない」や「やめて」など)である。また、否定的な反応は、例えば、端末装置3からコンテンツが文字または画像として出力された場合におけるユーザUの端末装置3に対する非操作である。   The negative reaction is, for example, a negative utterance (for example, “do not need” or “stop”) of the user U when the content is output as sound from the smart speaker 1. Moreover, a negative reaction is non-operation with respect to the terminal device 3 of the user U when a content is output as a character or an image from the terminal device 3, for example.

また、肯定的な反応は、例えば、スマートスピーカ1からコンテンツが音声として出力された場合におけるユーザUの否定的な発話がない状態である。肯定的な反応は、例えば、端末装置3からコンテンツが文字または画像として出力された場合における端末装置3に対する操作である。   Moreover, a positive reaction is a state in which there is no negative utterance of the user U when content is output as audio from the smart speaker 1, for example. The positive reaction is, for example, an operation on the terminal device 3 when the content is output from the terminal device 3 as characters or images.

出力態様決定部65は、コンテンツの出力要求があった場合、コンテキスト取得部63によって取得されたコンテキスト情報に基づいて、ユーザUに提供されるコンテンツの出力態様を決定する。出力態様には出力種別および出力先が含まれるが、出力態様決定部65は、出力種別および出力先の一方のみを決定することもできる。出力態様決定部65による出力態様の決定は、出力態様判定情報記憶部56に記憶された上述の出力態様判定情報を用いて行われる。   When there is a content output request, the output mode determination unit 65 determines the output mode of content provided to the user U based on the context information acquired by the context acquisition unit 63. Although the output type includes an output type and an output destination, the output mode determination unit 65 can also determine only one of the output type and the output destination. The output mode determination unit 65 determines the output mode using the above-described output mode determination information stored in the output mode determination information storage unit 56.

出力態様決定部65は、コンテキスト情報に含まれるユーザUの状況を示す状況情報に基づいて、出力態様を決定することができる。例えば、出力態様決定部65は、ユーザUが移動中である場合、出力種別を聴覚的出力とし且つ出力先をスマートスピーカ1とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUは移動しながら端末装置3の画面を見ることなくコンテンツを把握することができる。   The output mode determination unit 65 can determine the output mode based on the status information indicating the status of the user U included in the context information. For example, when the user U is moving, the output mode determination unit 65 can determine a mode in which the output type is an auditory output and the output destination is the smart speaker 1 as the content output mode. As a result, the user U can grasp the content without looking at the screen of the terminal device 3 while moving.

また、出力態様決定部65は、スマートスピーカ1および端末装置3のうちユーザUの現在位置に近い機器を出力先とすることができ、これにより、ユーザUによるコンテンツの把握を容易にすることができる。   In addition, the output mode determination unit 65 can use a device close to the current position of the user U among the smart speaker 1 and the terminal device 3 as an output destination, thereby facilitating the grasping of the content by the user U. it can.

また、出力態様決定部65は、ユーザUが会話中である場合、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUが会話を中断することなくコンテンツを把握することができる。   In addition, when the user U is in conversation, the output mode determination unit 65 can determine a mode in which the output type is visual output and the output destination is the terminal device 3 as the content output mode. Thereby, the user U can grasp the content without interrupting the conversation.

また、出力態様決定部65は、コンテキスト情報に含まれるユーザUの周囲の状況を示す周囲情報に基づいて、出力態様を決定することができる。例えば、出力態様決定部65は、ユーザUの周囲に他人が存在する場合に、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、例えば、コンテンツがユーザUのスケジュールやユーザUへのメールである場合に、スマートスピーカ1からコンテンツで音声出力されないため、ユーザUのスケジュールやメールを他人に知られることを防止することができる。   Moreover, the output mode determination part 65 can determine an output mode based on the surrounding information which shows the surrounding condition of the user U contained in context information. For example, when there is another person around the user U, the output mode determination unit 65 can determine the mode in which the output type is the visual output and the output destination is the terminal device 3 as the content output mode. . Thus, for example, when the content is a schedule of the user U or an email to the user U, the content is not output as voice from the smart speaker 1, so that the schedule or email of the user U can be prevented from being known to others. it can.

出力態様決定部65は、ユーザUの周囲に存在する他人が寝ている場合に、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、例えば、ユーザUの周囲で寝ている他人をコンテンツの出力によって起こしてしまうといった事態を回避することができる。   The output mode determination unit 65 may determine, as a content output mode, a mode in which the output type is a visual output and the output destination is the terminal device 3 when another person around the user U is sleeping. it can. Thereby, for example, it is possible to avoid a situation in which another person sleeping around the user U is awakened by the output of the content.

また、出力態様決定部65は、ユーザUの周囲の音が大きい場合に、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUの周囲の騒音や機器4の発する音でコンテンツが把握できなくなるといった事態を回避することができる。   Further, the output mode determination unit 65 can determine a mode in which the output type is a visual output and the output destination is the terminal device 3 as the content output mode when the sound around the user U is loud. As a result, it is possible to avoid a situation in which the content cannot be grasped by noise around the user U or sound generated by the device 4.

また、出力態様決定部65は、ユーザUの周囲に他人が存在しない場合や、ユーザUの周囲の音が小さい場合、出力種別を聴覚的出力とし且つ出力先をスマートスピーカ1とする態様を、コンテンツの出力態様として決定することができる。これにより、ユーザUは端末装置3の画面を見ることなく、コンテンツを把握することができる。   Further, the output mode determination unit 65 sets the mode in which the output type is an auditory output and the output destination is the smart speaker 1 when there is no other person around the user U or when the sound around the user U is small. It can be determined as a content output mode. Thereby, the user U can grasp the content without looking at the screen of the terminal device 3.

また、出力態様決定部65は、スマートスピーカ1への入力種別がジェスチャーまたは口の動きである場合、出力種別を視覚的出力とし且つ出力先を端末装置3とする態様を、コンテンツの出力態様として決定することができる。また、出力態様決定部65は、スマートスピーカ1への発話(有音発話)である場合、出力種別を聴覚的出力とし且つ出力先をスマートスピーカ1とする態様を、コンテンツの出力態様として決定することができる。   In addition, when the input type to the smart speaker 1 is a gesture or movement of the mouth, the output mode determination unit 65 sets the output type as a visual output and sets the output destination as the terminal device 3 as the content output mode. Can be determined. Further, in the case of utterance (speech utterance) to the smart speaker 1, the output mode determination unit 65 determines a mode in which the output type is an auditory output and the output destination is the smart speaker 1 as the content output mode. be able to.

これにより、ユーザUは、所望の出力態様に応じた入力種別でスマートスピーカ1へ入力することができ、ユーザUは、スマートスピーカ1または端末装置3から所望の出力態様でコンテンツを確認することができる。出力態様決定部65が出力態様判定モデルに基づいて入力種別に応じた出力態様を決定する場合、出力態様判定モデルは、例えば、入力種別を特徴量としての重みを大きくしたり、特徴量を入力種別のみとしたりすることで、出力態様決定部65は、入力種別に応じた出力態様を決定することができる。なお、出力態様決定部65は、入力種別と出力態様とが入力種別毎に対応付けられた出力態様判定テーブルに基づいて、入力種別に応じた出力態様を決定することもできる。   Thereby, the user U can input to the smart speaker 1 with the input type according to the desired output mode, and the user U can confirm the content in the desired output mode from the smart speaker 1 or the terminal device 3. it can. When the output mode determination unit 65 determines the output mode according to the input type based on the output mode determination model, for example, the output mode determination model increases the weight using the input type as the feature amount or inputs the feature amount. By making only the type, the output mode determination unit 65 can determine the output mode according to the input type. Note that the output mode determination unit 65 can also determine the output mode according to the input type based on the output mode determination table in which the input type and the output mode are associated with each input type.

また、出力態様決定部65は、出力態様判定情報として出力態様毎の出力態様判定モデルを含む場合、出力態様毎の出力態様判定モデルにコンテキスト情報を入力する。出力態様決定部65は、出力態様毎の出力態様判定モデルの出力に基づいて、コンテンツの出力態様を決定する。   Moreover, when the output mode determination unit 65 includes an output mode determination model for each output mode as the output mode determination information, the output mode determination unit 65 inputs context information to the output mode determination model for each output mode. The output mode determination unit 65 determines the output mode of the content based on the output of the output mode determination model for each output mode.

例えば、ユーザUの反応が否定的な反応であるか否かを教師データとして出力態様判定モデルが生成される場合、出力態様決定部65は、出力するスコアが最も低い出力態様判定モデルに対応する出力態様を、コンテンツの出力態様として決定することができる。また、ユーザUの反応が肯定的な反応であるか否かを教師データとして出力態様判定モデルが生成される場合、出力態様決定部65は、出力するスコアが最も高い出力態様判定モデルに対応する出力態様を、コンテンツの出力態様として決定することができる。   For example, when an output mode determination model is generated using teacher data as to whether or not the reaction of the user U is a negative response, the output mode determination unit 65 corresponds to the output mode determination model with the lowest output score. The output mode can be determined as the content output mode. Further, when the output mode determination model is generated using whether or not the reaction of the user U is a positive response as teacher data, the output mode determination unit 65 corresponds to the output mode determination model with the highest score to be output. The output mode can be determined as the content output mode.

このように、出力態様決定部65は、ユーザUの状況やユーザUの周囲の状況に応じてコンテンツの出力態様を決定することができるため、ユーザUへのコンテンツの提供を適切に行うことができる。   Thus, since the output mode determination unit 65 can determine the output mode of the content according to the situation of the user U and the situation around the user U, the content can be appropriately provided to the user U. it can.

検出部66は、スマートスピーカ1の音声出力器11または端末装置3の音声出力器(図示せず)から音声広告が出力された場合のユーザUの振る舞いを検出する。検出部66は、情報取得部61によって取得される撮像情報を画像解析することで、音声広告が出力された場合のユーザUの振る舞いを検出することができる。   The detection unit 66 detects the behavior of the user U when an audio advertisement is output from the audio output device 11 of the smart speaker 1 or the audio output device (not shown) of the terminal device 3. The detection unit 66 can detect the behavior of the user U when a voice advertisement is output by performing image analysis on the imaging information acquired by the information acquisition unit 61.

例えば、検出部66は、情報取得部61によって取得される撮像情報に基づいて、ユーザUの目線の動き、ユーザUの頭部の動き、ユーザUの口の動き、ユーザUの手の動き、およびユーザUの足の動きのうち少なくとも一つの身体的振る舞いをユーザUの振る舞いとして検出することができる。   For example, the detection unit 66, based on the imaging information acquired by the information acquisition unit 61, the movement of the eyes of the user U, the movement of the head of the user U, the movement of the mouth of the user U, the movement of the hand of the user U, In addition, at least one physical behavior among the movements of the feet of the user U can be detected as the behavior of the user U.

また、検出部66は、情報取得部61によって取得される撮像情報に基づいて、ユーザUが行っている作業の状態を検出することができる。例えば、検出部66は、ユーザUが食器洗い、ミシンでの縫製、および料理といった作業を中断したか否かを検出することができる。   Further, the detection unit 66 can detect the state of work performed by the user U based on the imaging information acquired by the information acquisition unit 61. For example, the detection unit 66 can detect whether or not the user U has interrupted operations such as washing dishes, sewing with a sewing machine, and cooking.

また、検出部66は、情報取得部61によって取得される音情報を音響解析することで、音声広告が出力された場合のユーザUの振る舞いを検出することができる。例えば、検出部66は、音情報に基づいて、ユーザUの会話における振る舞い、ユーザUによるスマートスピーカ1への発話による問いかけ、ユーザUが行っていた作業における振る舞い、およびユーザUの機器4への振る舞いなどを検出することができる。   In addition, the detection unit 66 can detect the behavior of the user U when a voice advertisement is output by acoustically analyzing the sound information acquired by the information acquisition unit 61. For example, based on the sound information, the detection unit 66 behaves in the conversation of the user U, asks the user U by speaking to the smart speaker 1, the behavior in the work performed by the user U, and the user U's device 4 The behavior can be detected.

具体的には、検出部66は、音情報に基づいて、会話中のユーザUが発話を止める、および会話中のユーザUが発話の音量を下げるといった振る舞いを検出することができる。また、検出部66は、ユーザUが情報を検索するための発話、およびユーザUが情報を確認するための発話といった振る舞いを検出することができる。   Specifically, based on the sound information, the detection unit 66 can detect such behavior that the user U during conversation stops speaking and the user U during conversation decreases the volume of speech. In addition, the detection unit 66 can detect behaviors such as an utterance for the user U to search for information and an utterance for the user U to confirm information.

また、検出部66は、音情報に基づいて、食器洗いや料理といった作業をユーザUが中断したか否かを検出することができる。例えば、検出部66は、水道の蛇口から水が吐出する音が消えた場合や食器を洗う音が消えた場合、食器洗いを中断したと判定することができる。   Moreover, the detection part 66 can detect whether the user U interrupted operations, such as dishwashing and cooking, based on sound information. For example, the detection unit 66 can determine that the dishwashing is interrupted when the sound discharged from the water faucet disappears or the sound of washing the dishes disappears.

また、ユーザUが機器4をオフすることで機器4から出力される音である機器音が停止するため、検出部66は、音情報に基づいて、ユーザUが機器4をオフする振る舞いを行ったことを検出することができる。検出部66が音情報に基づいてオフを検出する機器4は、例えば、電子レンジ、洗濯機、食器洗浄機、ミシン、テレビジョン受像機、ラジオ受信器などの比較的大きな音を発する機器である。   In addition, since the device sound that is the sound output from the device 4 stops when the user U turns off the device 4, the detection unit 66 behaves to turn off the device 4 based on the sound information. Can be detected. The device 4 that detects the off based on the sound information by the detection unit 66 is a device that emits a relatively loud sound such as a microwave oven, a washing machine, a dishwasher, a sewing machine, a television receiver, and a radio receiver. .

また、検出部66は、情報取得部61によって取得された操作履歴情報に基づいて、スマートスピーカ1、端末装置3、または機器4へのユーザUの振る舞いを検出することができる。例えば、検出部66は、操作履歴情報に基づいて、ユーザUが機器をオフしたりオンしたりする振る舞いおよびユーザUが情報を検索する振る舞いなどを検出することができる。   Further, the detection unit 66 can detect the behavior of the user U with respect to the smart speaker 1, the terminal device 3, or the device 4 based on the operation history information acquired by the information acquisition unit 61. For example, the detection unit 66 can detect a behavior in which the user U turns off or on the device, a behavior in which the user U searches for information, and the like based on the operation history information.

判定部67は、検出部66によって検出されたユーザUの振る舞いに基づいて音声広告がユーザUに受容されたか否かを判定する。例えば、判定部67は、検出部66によって検出されたユーザUの身体的な振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する。   The determination unit 67 determines whether or not the voice advertisement has been received by the user U based on the behavior of the user U detected by the detection unit 66. For example, the determination unit 67 determines that the voice advertisement has been received by the user U when the physical behavior of the user U detected by the detection unit 66 is a specific behavior.

特定の振る舞いは、例えば、広告出力期間においてユーザUが一定時間以上視線をスマートスピーカ1に向ける、音声広告の出力開始時に移動中のユーザUが広告出力期間において一定時間以上移動を停止する、および広告出力期間においてユーザUが頷くなどといった振る舞いである。また、特定の振る舞いは、音声広告の出力開始前に継続的に手が動いていたユーザUが広告出力期間において一定時間以上手を止める、およびユーザUが特定のジェスチャーをしたなどといった振る舞いである。   The specific behavior is, for example, that the user U directs his / her line of sight to the smart speaker 1 for a certain time or more in the advertisement output period, the user U who is moving at the start of outputting the voice advertisement stops moving for a certain time or more in the advertisement output period, and This is a behavior such as the user U whispering during the advertisement output period. In addition, the specific behavior is such that the user U who has been continuously moving before starting the output of the voice advertisement stops his hand for a certain time or more during the advertisement output period, and the user U has made a specific gesture. .

また、判定部67は、検出部66が音情報に基づいて検出したユーザUの振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する。特定の振る舞いは、例えば、会話中のユーザUが発話を止める、会話中のユーザUが発話の音量を下げる、ユーザUが音声広告に関する発話をする、ユーザUが作業を中断する、およびユーザUが機器をオフするなどといった振る舞いである。なお、ユーザUによる音声広告に関する発話は、例えば、「それで?」、「続きは?」などである。   The determination unit 67 determines that the voice advertisement has been received by the user U when the behavior of the user U detected by the detection unit 66 based on the sound information is a specific behavior. Specific behaviors are, for example, that the user U in conversation stops speaking, the user U in conversation decreases the volume of speech, the user U speaks about voice advertisements, the user U interrupts work, and the user U Behaves like turning off the device. Note that the utterance regarding the voice advertisement by the user U is, for example, “So then?”, “Continue?”, And the like.

また、判定部67は、検出部66が操作履歴情報に基づいて検出したユーザUの振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する。特定の振る舞いは、例えば、ユーザUが音声広告の広告対象の商品またはサービスに関する検索をする、およびユーザUが機器をオフするなどといった振る舞いである。   The determination unit 67 determines that the voice advertisement has been received by the user U when the behavior of the user U detected by the detection unit 66 based on the operation history information is a specific behavior. The specific behavior is, for example, a behavior in which the user U searches for a product or service to be advertised for voice advertisement, and the user U turns off the device.

判定部67は、ユーザUの振る舞いが否定的な振る舞いである場合に、音声広告がユーザUに受容されていないと判定することができる。否定的な振る舞いは、例えば、ユーザUが否定的な発話をする、およびユーザUが否定的な身体的振る舞いをするなどといった振る舞いである。   The determination unit 67 can determine that the voice advertisement is not accepted by the user U when the behavior of the user U is a negative behavior. The negative behavior is, for example, a behavior in which the user U makes a negative utterance and the user U makes a negative physical behavior.

例えば、判定部67は、ユーザUが「やめて」、「聞きたくない」、および「嫌い」といった否定的な発話をした場合に、ユーザUが否定的な振る舞いをしたと判定することができる。また、例えば、判定部67は、ユーザUが耳を手で塞いだ場合に、ユーザUが否定的な振る舞いをしたと判定することができる。   For example, the determination unit 67 can determine that the user U behaves negatively when the user U makes a negative utterance such as “stop”, “do not want to hear”, and “dislike”. Further, for example, the determination unit 67 can determine that the user U behaves negatively when the user U covers his ear with his hand.

なお、判定部67は、ユーザUの振る舞いが特定の振る舞いでないと判定した場合、音声広告がユーザUに受容されていないと判定することもできる。これにより、判定部67はユーザUが否定的な振る舞いをしたか否かを判定しなくてもよく、処理負荷が軽減される。   Note that when the determination unit 67 determines that the behavior of the user U is not a specific behavior, the determination unit 67 can also determine that the voice advertisement is not accepted by the user U. Thereby, the determination part 67 does not need to determine whether the user U behaved negatively, and a processing load is reduced.

また、判定部67は、ユーザUの振る舞いが特定の振る舞いでも否定的な振る舞いでもないと判定した場合、ユーザUによる音声広告の非受容度が低いと判定し、ユーザUの振る舞いが否定的な振る舞いである場合、ユーザUによる音声広告の非受容度が高いと判定することもできる。   In addition, when the determination unit 67 determines that the behavior of the user U is neither a specific behavior nor a negative behavior, the determination unit 67 determines that the non-acceptance of the voice advertisement by the user U is low, and the behavior of the user U is negative. In the case of behavior, it can be determined that the non-acceptance level of the voice advertisement by the user U is high.

また、判定部67は、ユーザUの振る舞いが特定の振る舞いである場合に、音声広告がユーザUに受容されたと判定する処理を行わないこともできる。例えば、判定部67は、ユーザUの振る舞いが否定的な振る舞いである場合に、音声広告がユーザUに受容されていないと判定し、ユーザUの振る舞いが否定的な振る舞いではない場合に、音声広告がユーザUに受容されていると判定することができる。   Further, the determination unit 67 may not perform a process of determining that the voice advertisement is received by the user U when the behavior of the user U is a specific behavior. For example, the determination unit 67 determines that the voice advertisement is not accepted by the user U when the behavior of the user U is negative, and the voice of the user U when the behavior of the user U is not negative. It can be determined that the advertisement is received by the user U.

上述した特定の振る舞いおよび否定的な振る舞いは、ユーザUの属性に応じて設定される。ユーザUの属性は、例えば、性別、年齢、住所、および職業の少なくとも一つを含む。例えば、判定部67は、ユーザUが子供である場合、ユーザUが飛び跳ねる、およびユーザUが踊り出すといった振る舞いをした場合、音声広告がユーザUに受容されたと判定する。   The specific behavior and the negative behavior described above are set according to the attribute of the user U. The attribute of the user U includes, for example, at least one of sex, age, address, and occupation. For example, when the user U is a child, the determination unit 67 determines that the voice advertisement has been received by the user U when the user U jumps and the user U dances.

なお、判定部67は、ユーザUに受容されたと判定する基準とする特定の振る舞いを音声広告の時間的長さや種類に応じて変更することもできる。また、判定部67は、一つの音声広告を出力している期間(例えば、30秒)における所定期間(例えば、5秒)毎に、音声広告がユーザUに受容されているか否かを判定することもできる。   In addition, the determination part 67 can also change the specific behavior used as the reference | standard which determines with having received by the user U according to the time length and kind of a voice advertisement. Further, the determination unit 67 determines whether or not the voice advertisement is received by the user U every predetermined period (for example, 5 seconds) in a period (for example, 30 seconds) in which one voice advertisement is output. You can also

広告効果更新部68は、音声広告がユーザUに受容されたと判定すると、音声広告テーブル73において音声広告の受容回数を更新する。これにより、テキスト広告またはバナー広告のクリックに相当する広告効果を音声広告に対して得ることができる。そして、広告効果更新部68は、音声広告の出力回数に対する音声広告の受容回数の割合である受容率を演算し、演算した受容率を音声広告効果として音声広告テーブル73に設定することができる。これにより、音声広告においてCTRに相当する広告効果指標を得ることができる。   When the advertisement effect update unit 68 determines that the voice advertisement has been received by the user U, the advertisement effect update unit 68 updates the number of times the voice advertisement is received in the voice advertisement table 73. Thereby, the advertisement effect equivalent to the click of a text advertisement or a banner advertisement can be acquired with respect to a voice advertisement. Then, the advertisement effect update unit 68 can calculate the acceptance rate that is the ratio of the number of times the voice advertisement is received with respect to the number of times the voice advertisement is output, and can set the calculated acceptance rate in the voice advertisement table 73 as the sound advertisement effect. Thereby, the advertisement effect index corresponding to CTR can be obtained in the voice advertisement.

また、広告効果更新部68は、音声広告のコンバージョン回数を外部装置から取得することができる。音声広告のコンバージョン回数とは、商品やサービスの購入、サンプルの申し込み、およびパンフレットの申し込みといった音声広告の目的を達成した回数である。広告効果更新部68は、音声広告の受容回数に対する音声広告のコンバージョン回数の割合であるコンバージョン率を演算し、演算したコンバージョン率を音声広告効果とすることができる。これにより、音声広告においてCVR(Conversion Rate)に相当する広告効果指標を得ることができる。   Moreover, the advertisement effect update unit 68 can acquire the number of conversions of the voice advertisement from an external device. The number of conversions of the voice advertisement is the number of times that the purpose of the voice advertisement such as purchase of products and services, sample application, and brochure application is achieved. The advertisement effect updating unit 68 can calculate a conversion rate that is a ratio of the number of conversions of the voice advertisement to the number of receptions of the voice advertisement, and can set the calculated conversion rate as the voice advertisement effect. Thereby, an advertisement effect index corresponding to CVR (Conversion Rate) can be obtained in the voice advertisement.

また、判定部67によって非受容度が判定された場合、広告効果更新部68は、音声広告の出力回数に対する音声広告の非受容度毎の非受容回数の割合を演算することができる。この場合、広告効果更新部68は、例えば、非受容度が2の非受容回数を音声広告の受容回数から減算し、減算結果を音声広告の受容回数とすることもできる。   When the non-acceptance level is determined by the determination unit 67, the advertisement effect update unit 68 can calculate the ratio of the non-acceptance frequency for each non-acceptance level of the audio advertisement to the output frequency of the audio advertisement. In this case, for example, the advertisement effect update unit 68 can subtract the number of non-acceptances with a non-acceptance level of 2 from the number of accepted voice advertisements, and set the subtraction result as the number of accepted voice advertisements.

〔4.情報処理システム100の処理フロー〕
次に、実施形態に係る情報処理システム100による発話制御処理の手順について説明する。図10および図11は、実施形態に係る情報処理システム100による発話制御処理の一例を示すフローチャートである。
[4. Processing flow of information processing system 100]
Next, a procedure of speech control processing by the information processing system 100 according to the embodiment will be described. 10 and 11 are flowcharts illustrating an example of the utterance control process by the information processing system 100 according to the embodiment.

まず、スマートスピーカ1の発話制御処理について説明する。図10に示すように、スマートスピーカ1の制御部15は、コンテンツ出力処理中か否かを判定する(ステップS10)。制御部15は、ステップS10の処理において、例えば、制御部15がユーザUからコンテンツの出力要求を受け付けてから出力要求に対応するコンテンツの出力が完了するまでの間をコンテンツ出力処理中として扱う。   First, the speech control process of the smart speaker 1 will be described. As shown in FIG. 10, the control unit 15 of the smart speaker 1 determines whether or not content output processing is being performed (step S10). In the process of step S10, the control unit 15 treats, for example, a period from when the control unit 15 receives a content output request from the user U to when the output of the content corresponding to the output request is completed, during the content output process.

制御部15は、コンテンツ出力中ではないと判定した場合(ステップS10:No)、発話処理中か否かを判定する(ステップS11)。制御部15は、ステップS11の処理において、例えば、音声入力器12からの発話の出力を開始してから発話に対するユーザUの要求を受け可能な期間が終了するまでの期間を発話処理中として扱う。   When determining that the content is not being output (step S10: No), the control unit 15 determines whether or not the speech process is being performed (step S11). In the process of step S11, for example, the control unit 15 treats the period from the start of the utterance output from the voice input device 12 to the end of the period during which the request of the user U for the utterance can be received as the utterance process is in progress. .

制御部15は、発話処理中ではないと判定した場合(ステップS11:No)、ユーザUに関するコンテキスト情報を取得し(ステップS12)、取得したコンテキスト情報を発話テーブル21に含まれる各タイミング判定モデルに入力する(ステップS13)。   When it determines with the utterance process not being performed (step S11: No), the control part 15 acquires the context information regarding the user U (step S12), and uses the acquired context information for each timing determination model included in the utterance table 21. Input (step S13).

つづいて、制御部15は、予め設定された閾値以上のスコアを出力するタイミング判定モデルがあるか否かを判定する(ステップS14)。制御部15は、閾値以上のスコアを出力するタイミング判定モデルがあると判定した場合(ステップS14:Yes)、閾値以上のスコアを出力するタイミング判定モデルが複数であるか否かを判定する(ステップS15)。   Subsequently, the control unit 15 determines whether there is a timing determination model that outputs a score equal to or higher than a preset threshold (step S14). If it is determined that there is a timing determination model that outputs a score equal to or higher than the threshold (step S14: Yes), the control unit 15 determines whether there are a plurality of timing determination models that output a score equal to or higher than the threshold (step S14). S15).

制御部15は、タイミング判定モデルが複数であると判定した場合(ステップS15:Yes)、最もスコアが高いタイミング判定モデルを選択する(ステップS16)。また、制御部15は、タイミング判定モデルが複数ではないと判定した場合(ステップS15:No)、閾値以上のスコアを出力するタイミング判定モデルを選択する(ステップS17)。制御部15は、選択したタイミング判定モデルに関連付けられた発話内容を発話テーブル21から取得し、取得した発話内容を音声入力器12から出力する(ステップS18)。   When it is determined that there are a plurality of timing determination models (step S15: Yes), the control unit 15 selects the timing determination model with the highest score (step S16). Moreover, the control part 15 selects the timing determination model which outputs the score more than a threshold value, when it determines with there being not two or more timing determination models (step S15: No) (step S17). The control unit 15 acquires the utterance content associated with the selected timing determination model from the utterance table 21, and outputs the acquired utterance content from the voice input device 12 (step S18).

制御部15は、ステップS18の処理が終了した場合、コンテンツ出力中であると判定した場合(ステップS10:Yes)、発話処理中であると判定した場合(ステップS11:Yes)、または閾値上のスコアを出力するタイミング判定モデルがないと判定した場合(ステップS14:No)、図10に示す処理を終了する。   When the process of step S18 is completed, the control unit 15 determines that the content is being output (step S10: Yes), determines that the speech process is being performed (step S11: Yes), or exceeds the threshold value. When it determines with there being no timing determination model which outputs a score (step S14: No), the process shown in FIG. 10 is complete | finished.

次に、情報提供装置2の処理を説明する。図11に示すように、情報提供装置2の制御部43は、スマートスピーカ1が自発的に発話をする時のユーザUの反応を示す反応情報を取得する(ステップS20)。また、制御部43は、スマートスピーカ1が自発的に発話をする時のユーザUに関するコンテキスト情報を取得する(ステップS21)。制御部43は、ステップS20で取得した反応情報とステップS21で取得したコンテキスト情報を記憶部42に記憶する(ステップS22)。   Next, processing of the information providing apparatus 2 will be described. As illustrated in FIG. 11, the control unit 43 of the information providing device 2 acquires reaction information indicating the reaction of the user U when the smart speaker 1 speaks spontaneously (step S20). Moreover, the control part 43 acquires the context information regarding the user U when the smart speaker 1 speaks spontaneously (step S21). The control unit 43 stores the reaction information acquired in step S20 and the context information acquired in step S21 in the storage unit 42 (step S22).

つづいて、制御部43は、記憶部42に記憶した反応情報およびコンテキスト情報に基づいて、コンテンツ毎のタイミング判定モデルを生成または更新し(ステップS23)、図11に示す処理を終了する。例えば、制御部43は、発話テーブル71にタイミング判定モデルが生成されていないコンテンツのタイミング判定モデルを生成した場合、発話テーブル71にタイミング判定モデルを追加する。また、制御部43は、発話テーブル71のタイミング判定モデルを更新した場合、更新したタイミング判定モデルを発話テーブル71に上書きする。   Subsequently, the control unit 43 generates or updates a timing determination model for each content based on the reaction information and context information stored in the storage unit 42 (step S23), and ends the process illustrated in FIG. For example, when the timing determination model of the content for which the timing determination model is not generated in the utterance table 71 is generated, the control unit 43 adds the timing determination model to the utterance table 71. In addition, when the timing determination model of the utterance table 71 is updated, the control unit 43 overwrites the updated timing determination model on the utterance table 71.

次に、情報処理システム100による出力制御処理について説明する。図12は、実施形態に係る情報処理システム100による出力制御処理の一例を示すフローチャートである。   Next, output control processing by the information processing system 100 will be described. FIG. 12 is a flowchart illustrating an example of output control processing by the information processing system 100 according to the embodiment.

図12に示すように、制御部43は、スマートスピーカ1からコンテンツの出力要求があるか否かを判定する(ステップS30)。制御部43は、コンテンツの出力要求があると判定した場合(ステップS30:Yes)、出力要求を行ったスマートスピーカ1のユーザUに関するコンテキスト情報を取得する(ステップS31)。   As shown in FIG. 12, the control unit 43 determines whether or not there is a content output request from the smart speaker 1 (step S30). When it is determined that there is a content output request (step S30: Yes), the control unit 43 acquires context information regarding the user U of the smart speaker 1 that has made the output request (step S31).

そして、制御部43は、取得したコンテキスト情報に基づいて、出力要求されたコンテンツの出力態様を決定する(ステップS32)。制御部43は、ステップS32で決定した出力態様でコンテンツを出力する(ステップS33)。制御部43は、ステップS33の処理が終了した場合、または出力要求がないと判定した場合(ステップS30:No)、図12に示す処理を終了する。   Then, the control unit 43 determines the output mode of the content requested to be output based on the acquired context information (step S32). The control unit 43 outputs the content in the output mode determined in step S32 (step S33). When the process of step S33 is completed or when it is determined that there is no output request (step S30: No), the control unit 43 ends the process illustrated in FIG.

次に、情報処理システム100による音声情報効果判定処理について説明する。図13は、実施形態に係る情報処理システム100による音声情報効果判定処理の一例を示すフローチャートである。   Next, audio information effect determination processing by the information processing system 100 will be described. FIG. 13 is a flowchart illustrating an example of the sound information effect determination process by the information processing system 100 according to the embodiment.

図13に示すように、情報提供装置2の制御部43は、音声広告の出力タイミングであるか否かを判定する(ステップS40)。制御部43は、音声広告の出力タイミングであると判定した場合(ステップS40:Yes)、音声広告をスマートスピーカ1へ出力する(ステップS41)。   As illustrated in FIG. 13, the control unit 43 of the information providing apparatus 2 determines whether it is the output timing of the voice advertisement (Step S <b> 40). When it determines with it being the output timing of an audio advertisement (step S40: Yes), the control part 43 outputs an audio advertisement to the smart speaker 1 (step S41).

つづいて、制御部43は、音声広告テーブル73において、ステップS41で出力した音声広告の出力回数をインクリメントする(ステップS42)。また、制御部43は、音声出力期間における撮像情報、音情報および機器操作情報をスマートスピーカ1、端末装置3、機器4、およびセンサ装置5の少なくとも一つから取得する(ステップS43)。   Subsequently, the control unit 43 increments the number of times the voice advertisement is output in step S41 in the voice advertisement table 73 (step S42). Further, the control unit 43 acquires imaging information, sound information, and device operation information in the audio output period from at least one of the smart speaker 1, the terminal device 3, the device 4, and the sensor device 5 (step S43).

制御部43は、ステップS43で取得した情報に基づいて、ユーザUの振る舞いを検出し(ステップS44)、検出した振る舞いが特定の振る舞いであるか否かを判定する(ステップS45)。制御部43は、ステップS44で検出した振る舞いが特定の振る舞いであると判定した場合(ステップS45:Yes)、音声広告がユーザUに受容されたと判定し(ステップS46)、音声広告テーブル73において、ステップS41で出力した音声広告の受容回数をインクリメントする(ステップS47)。   The control unit 43 detects the behavior of the user U based on the information acquired in step S43 (step S44), and determines whether or not the detected behavior is a specific behavior (step S45). When the control unit 43 determines that the behavior detected in step S44 is a specific behavior (step S45: Yes), the control unit 43 determines that the voice advertisement is received by the user U (step S46). The number of times of acceptance of the voice advertisement output in step S41 is incremented (step S47).

一方、制御部43は、ステップS44で検出した振る舞いが特定の振る舞いではないと判定した場合(ステップS45:No)、音声広告がユーザUに受容されていないと判定する(ステップS48)。制御部43は、ステップS47またはステップS48の処理が終了した場合、または、音声広告の出力タイミングではないと判定した場合(ステップS40:No)、図13に示す処理を終了する。   On the other hand, when the control unit 43 determines that the behavior detected in step S44 is not a specific behavior (step S45: No), the control unit 43 determines that the voice advertisement is not accepted by the user U (step S48). When the process of step S47 or step S48 ends, or when it is determined that it is not the output timing of the voice advertisement (step S40: No), the control unit 43 ends the process shown in FIG.

〔5.変形例〕
上述した例では、情報提供装置2において、タイミング判定モデルを生成する学習部64が設けられるが、スマートスピーカ1に学習部64が設けられてもよい。また、上述した例では、スマートスピーカ1において、コンテキスト取得部35およびタイミング決定部36が設けられるが、情報提供装置2において、コンテキスト取得部35およびタイミング決定部36が設けられてもよい。
[5. (Modification)
In the example described above, the learning unit 64 that generates the timing determination model is provided in the information providing apparatus 2, but the learning unit 64 may be provided in the smart speaker 1. In the example described above, the context acquisition unit 35 and the timing determination unit 36 are provided in the smart speaker 1, but the context acquisition unit 35 and the timing determination unit 36 may be provided in the information providing apparatus 2.

また、上述した例では、タイミング判定モデルを用いて発話タイミングを決定したが、過去の発話に対するユーザUの反応を考慮して発話タイミングを決定することができればよく、上述した例に限定されない。例えば、スマートスピーカ1は、タイミング判定モデルに代えて、過去の発話に対する反応情報とコンテキスト情報とに基づいて生成される判定条件情報によって、現在のコンテキストが発話に適しているコンテキストであるか否かを判定することもできる。なお、上記判定条件情報には、発話タイミングであると判定するコンテキストの条件が含まれる。   In the example described above, the utterance timing is determined using the timing determination model. However, the utterance timing may be determined in consideration of the reaction of the user U with respect to the past utterance, and is not limited to the above example. For example, the smart speaker 1 determines whether the current context is a context suitable for utterance based on determination condition information generated based on reaction information and context information with respect to a past utterance instead of the timing determination model. Can also be determined. The determination condition information includes a context condition for determining that it is the utterance timing.

また、上述した例では、ユーザUのジェスチャーや口の動きをスマートスピーカ1で検出したが、ユーザUのジェスチャーや口の動きを情報提供装置2で検出する構成であってもよい。   In the above-described example, the user U's gesture and mouth movement are detected by the smart speaker 1, but the user U's gesture and mouth movement may be detected by the information providing apparatus 2.

また、上述した例では、スマートスピーカ1から出力される音声情報の一例として音声広告を挙げて説明したが、スマートスピーカ1から出力される音声情報は、音声広告に限定されない。例えば、情報提供装置2の制御部43は、「今日は晴れですね」、「今日は仕事お休みですね」といったプッシュ発話型の音声情報などをスマートスピーカ1から出力した場合のユーザUの振る舞いに基づいて、音声情報がユーザUに受容されたか否かを判定することができる。そして、情報提供装置の制御部43は、音声情報の出力回数に対する音声情報の受容回数の割合を演算し、演算した割合を音声情報効果とすることができる。これにより、音声情報においてCTRに相当する効果指標を得ることができる。   In the above-described example, the voice advertisement is described as an example of the voice information output from the smart speaker 1, but the voice information output from the smart speaker 1 is not limited to the voice advertisement. For example, the control unit 43 of the information providing device 2 behaves as the user U when the smart speaker 1 outputs push utterance type voice information such as “Today is sunny” or “Today is a work holiday”. Based on the above, it can be determined whether or not the audio information has been received by the user U. And the control part 43 of an information provision apparatus can calculate the ratio of the frequency | count of reception of the audio | voice information with respect to the frequency | count of output of audio | voice information, and can make the calculated ratio the audio | voice information effect. Thereby, the effect parameter | index equivalent to CTR can be obtained in audio | voice information.

なお、効果の判定対象となる音声情報は、情報提供装置2からスマートスピーカ1へ出力する音声情報に限定されず、スマートスピーカ1に記憶された音声情報であってもよい。   Note that the audio information that is the target of the effect determination is not limited to the audio information output from the information providing device 2 to the smart speaker 1, and may be audio information stored in the smart speaker 1.

また、上述した例では、情報処理システム100は、ユーザUの肯定的な反応でない場合であっても、ユーザUが受容したと判定する場合があるが、ユーザUが肯定的な反応である場合のみ、ユーザUが受容したと判定することもできる。すなわち、情報処理システム100は、音声情報効果判定処理において、発話制御処理および出力制御処理におけるユーザUの肯定的な反応があったと判定されるユーザUの状態を、ユーザUの受容し、それ以外をユーザの非受容とすることができる。また、情報処理システム100は、発話制御処理および出力制御処理において、音声情報効果判定処理におけるユーザUが受容したと判定されるユーザUの状態を、ユーザUの肯定的な反応とし、それ以外をユーザの肯定的でない反応とすることができる。   Further, in the above-described example, the information processing system 100 may determine that the user U has received even if the user U is not a positive reaction, but the user U is a positive reaction. It can also be determined that the user U has received it. That is, the information processing system 100 accepts the state of the user U determined to have received a positive reaction from the user U in the speech control process and the output control process in the voice information effect determination process, and otherwise Can be unacceptable to the user. Further, the information processing system 100 sets the state of the user U determined to be accepted by the user U in the speech information effect determination process in the speech control process and the output control process as a positive reaction of the user U, and otherwise This can be a negative user response.

〔6.プログラム〕
上述した実施形態におけるスマートスピーカ1および情報提供装置2の各々は、例えば図14に示すような構成のコンピュータ200がプログラムを実行することによって実現される。図14は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。コンピュータ200は、CPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、HDD(Hard Disk Drive)204、通信インターフェイス(I/F)205、入出力インターフェイス(I/F)206、およびメディアインターフェイス(I/F)207を備える。
[6. program〕
Each of the smart speaker 1 and the information providing apparatus 2 in the above-described embodiment is realized by, for example, a computer 200 configured as shown in FIG. 14 executing a program. FIG. 14 is a diagram illustrating an example of a hardware configuration of a computer that executes a program. A computer 200 includes a central processing unit (CPU) 201, a random access memory (RAM) 202, a read only memory (ROM) 203, a hard disk drive (HDD) 204, a communication interface (I / F) 205, an input / output interface (I). / F) 206 and media interface (I / F) 207.

CPU201は、ROM203またはHDD204に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM203は、コンピュータ200の起動時にCPU201によって実行されるブートプログラムや、コンピュータ200のハードウェアに依存するプログラム等を格納する。 HDD204は、CPU201によって実行されるプログラムによって使用されるデータ等を格納する。通信インターフェイス205は、ネットワーク6を介して他の機器からデータを受信してCPU201へ送り、CPU201が生成したデータを、ネットワーク6を介して他の機器へ送信する。   The CPU 201 operates based on a program stored in the ROM 203 or the HDD 204 and controls each unit. The ROM 203 stores a boot program executed by the CPU 201 when the computer 200 is started up, a program depending on the hardware of the computer 200, and the like. The HDD 204 stores data used by programs executed by the CPU 201. The communication interface 205 receives data from other devices via the network 6 and sends the data to the CPU 201, and transmits data generated by the CPU 201 to other devices via the network 6.

CPU201は、入出力インターフェイス206を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。CPU201は、入出力インターフェイス206を介して、入力装置からデータを取得する。また、CPU201は、生成したデータを、入出力インターフェイス206を介して出力装置へ出力する。   The CPU 201 controls an output device such as a display and a printer and an input device such as a keyboard and a mouse via the input / output interface 206. The CPU 201 acquires data from the input device via the input / output interface 206. Further, the CPU 201 outputs the generated data to the output device via the input / output interface 206.

メディアインターフェイス207は、記録媒体208に格納されたプログラムまたはデータを読み取り、RAM202を介してCPU201に提供する。CPU201は、当該プログラムを、メディアインターフェイス207を介して記録媒体208からRAM202上にロードし、ロードしたプログラムを実行する。記録媒体208は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。   The media interface 207 reads a program or data stored in the recording medium 208 and provides it to the CPU 201 via the RAM 202. The CPU 201 loads the program from the recording medium 208 onto the RAM 202 via the media interface 207, and executes the loaded program. The recording medium 208 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. Etc.

コンピュータ200が上述した実施形態に係るスマートスピーカ1として機能する場合、コンピュータ200のCPU201は、RAM202上にロードされたプログラムを実行することにより、図3に示す入力処理部31、情報出力部32、情報取得部33、出力処理部34、コンテキスト取得部35、およびタイミング決定部36の各機能を実現する。また、例えば、HDD204は、図3に示す記憶部14と同様の情報を記憶する。   When the computer 200 functions as the smart speaker 1 according to the above-described embodiment, the CPU 201 of the computer 200 executes a program loaded on the RAM 202, whereby the input processing unit 31, the information output unit 32, and the like illustrated in FIG. Each function of the information acquisition unit 33, the output processing unit 34, the context acquisition unit 35, and the timing determination unit 36 is realized. For example, the HDD 204 stores the same information as the storage unit 14 illustrated in FIG.

また、コンピュータ200が上述した実施形態に係る情報提供装置2として機能する場合、コンピュータ200のCPU201は、RAM202上にロードされたプログラムを実行することにより、図5に示す情報取得部61、情報出力部62、コンテキスト取得部63、学習部64、出力態様決定部65、検出部66、判定部67、および広告効果更新部68の各機能を実現する。また、例えば、HDD204は、図5に示す記憶部42と同様の情報を記憶する。   Further, when the computer 200 functions as the information providing apparatus 2 according to the above-described embodiment, the CPU 201 of the computer 200 executes the program loaded on the RAM 202, whereby the information acquisition unit 61 and the information output illustrated in FIG. The functions of the unit 62, the context acquisition unit 63, the learning unit 64, the output mode determination unit 65, the detection unit 66, the determination unit 67, and the advertisement effect update unit 68 are realized. For example, the HDD 204 stores the same information as the storage unit 42 illustrated in FIG.

コンピュータ200のCPU201は、プログラムを、記録媒体208から読み取って実行するが、他の例として、他の装置から、ネットワーク6を介してこれらのプログラムを取得してもよい。   The CPU 201 of the computer 200 reads the program from the recording medium 208 and executes it, but as another example, the program may be acquired from another device via the network 6.

〔7.効果〕
上述したように、実施形態に係る情報提供装置2(情報処理装置の一例)は、音声出力器11から音声広告が出力された場合のユーザUの振る舞いを検出する検出部66と、検出部66によって検出された振る舞いに基づいて音声情報がユーザUに受容されたか否かを判定する判定部67とを備える。これにより、ユーザUに提供される音声情報の効果を測定することができる。
[7. effect〕
As described above, the information providing apparatus 2 (an example of an information processing apparatus) according to the embodiment detects the behavior of the user U when the voice advertisement is output from the voice output device 11, and the detection unit 66. And a determination unit 67 that determines whether or not the voice information is received by the user U based on the behavior detected by the user U. Thereby, the effect of the audio | voice information provided to the user U can be measured.

また、検出部66は、ユーザUを撮像する撮像部から出力されるユーザUの撮像画像に基づいて、ユーザUの振る舞いを検出する。これにより、ユーザUの発話による音声情報への反応がない場合であっても、音声情報がユーザUに受容されたか否かを判定することが可能となる。   The detection unit 66 detects the behavior of the user U based on the captured image of the user U output from the imaging unit that captures the user U. Thereby, even when there is no reaction to the voice information due to the utterance of the user U, it is possible to determine whether or not the voice information is received by the user U.

また、検出部66は、ユーザUの発話をユーザUの振る舞いとして検出する。判定部67は、ユーザUの発話の状態に基づいて、音声情報がユーザUに受容されたか否かを判定する。例えば、判定部67は、音声情報の出力開始後にユーザUの発話が止まった場合に、音声情報がユーザUに受容されたと判定する。また、判定部67は、音声情報の出力開始後に音声情報に関する音声をユーザUが音声入力器12に入力した場合に、音声情報がユーザUに受容されたと判定する。これにより、音声情報がユーザUに受容されたか否かをより適切に判定することができる。   The detection unit 66 detects the user U's utterance as the behavior of the user U. The determination unit 67 determines whether or not the audio information has been received by the user U based on the state of the utterance of the user U. For example, the determination unit 67 determines that the audio information has been received by the user U when the user U's speech stops after the output of the audio information is started. Further, the determination unit 67 determines that the voice information has been received by the user U when the user U inputs a voice related to the voice information to the voice input device 12 after the output of the voice information is started. Thereby, it can be determined more appropriately whether or not the voice information is received by the user U.

また、検出部66は、ユーザUの周囲に存在する機器4から出力される音である機器音の変化をユーザUの振る舞いとして検出する。判定部67は、音声情報の出力開始後に機器音が停止または変更された場合に、音声情報がユーザUに受容されたと判定する。これにより、ユーザUからの発話や身体的な振る舞いがない場合であっても、音声情報がユーザUに受容されたか否かを適切に判定することができる。   Further, the detection unit 66 detects a change in the device sound, which is a sound output from the device 4 existing around the user U, as the behavior of the user U. The determination unit 67 determines that the audio information is received by the user U when the device sound is stopped or changed after the output of the audio information is started. Thereby, even if there is no utterance or physical behavior from the user U, it is possible to appropriately determine whether or not the voice information is received by the user U.

また、検出部66は、音声情報の出力開始後のユーザUによる機器4の操作履歴に基づいて、ユーザUの振る舞いを検出する。これにより、ユーザUからの発話や身体的な振る舞いがない場合であっても、音声情報がユーザUに受容されたか否かを適切に判定することができる。   Further, the detection unit 66 detects the behavior of the user U based on the operation history of the device 4 by the user U after the start of outputting the audio information. Thereby, even if there is no utterance or physical behavior from the user U, it is possible to appropriately determine whether or not the voice information is received by the user U.

また、検出部66は、ユーザUの目線の動き、頭部の動き、口の動き、手の動き、および足の動きのうち少なくとも一つの身体的な振る舞いを検出する。これにより、例えば、ユーザUが音声情報を受容する身体的な振る舞いをした場合に、音声情報がユーザUに受容されたか否かを判定することが可能となる。   In addition, the detection unit 66 detects at least one physical behavior among the eye movement of the user U, the head movement, the mouth movement, the hand movement, and the foot movement. Thereby, for example, when the user U behaves physically to receive voice information, it is possible to determine whether or not the voice information has been received by the user U.

また、検出部66は、ユーザUの周囲に存在する音声入力器12に入力される音に基づいて、ユーザUの振る舞いを検出する。これにより、例えば、ユーザUやユーザUの周囲を撮像する撮像部がない場合であっても、ユーザUの振る舞いを検出することができる。   The detection unit 66 detects the behavior of the user U based on the sound input to the voice input device 12 existing around the user U. Thereby, for example, even when there is no user U or an imaging unit that captures the surroundings of the user U, the behavior of the user U can be detected.

また、判定部67は、音声出力器11から音声情報が出力された場合のユーザUによる機器の操作履歴に音声情報に関する検索が含まれる場合に、音声情報がユーザUに受容されたと判定する。これにより、ユーザUからの発話や身体的な振る舞いがない場合であっても、音声情報がユーザUに受容されたか否かを適切に判定することができる。   Further, the determination unit 67 determines that the audio information is received by the user U when a search related to the audio information is included in the operation history of the device by the user U when the audio information is output from the audio output device 11. Thereby, even if there is no utterance or physical behavior from the user U, it is possible to appropriately determine whether or not the voice information is received by the user U.

また、判定部67は、検出部66によって検出されたユーザUの振る舞いが特定の振る舞いである場合に、音声情報がユーザUに受容されたと判定する。そして、特定の振る舞いは、ユーザUの属性に応じて設定される。これにより、音声情報がユーザUに受容されたか否かを適切に判定することができる。   The determination unit 67 determines that the audio information has been received by the user U when the behavior of the user U detected by the detection unit 66 is a specific behavior. The specific behavior is set according to the attribute of the user U. Thereby, it can be determined appropriately whether the audio | voice information was received by the user U. FIG.

また、情報提供装置2は、音声情報のユーザUへの出力回数(提供回数の一例)と音声情報のユーザUによる受容回数とに基づいて、音声情報の効果を更新する広告効果更新部68(効果更新部の一例)を備える。これにより、音声情報の効果を精度よく測定することができる。   Further, the information providing device 2 updates the effect of the voice information based on the number of times that the voice information is output to the user U (an example of the number of times of provision) and the number of times the user U receives the voice information. An example of an effect update unit). Thereby, the effect of audio | voice information can be measured accurately.

〔8.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
[8. Others]
In addition, among the processes described in the above-described embodiments and modifications, all or a part of the processes described as being automatically performed can be manually performed, or are described as being performed manually. All or part of the processing can be automatically performed by a known method.

この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。   In addition, the processing procedures, specific names, and information including various data and parameters shown in the document and drawings can be arbitrarily changed unless otherwise specified. For example, the various types of information illustrated in each drawing is not limited to the illustrated information.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。   Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.

例えば、情報処理システム100は、入力処理部31、コンテキスト取得部35およびタイミング決定部36の少なくとも一つをスマートスピーカ1とは異なる情報提供装置2または別の装置に設ける構成であってもよい。また、スマートスピーカ1は、上述した情報提供装置2の処理の一部または全部を行うことができる構成であってもよい。なお、情報提供装置2は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。   For example, the information processing system 100 may have a configuration in which at least one of the input processing unit 31, the context acquisition unit 35, and the timing determination unit 36 is provided in the information providing device 2 different from the smart speaker 1 or in another device. The smart speaker 1 may be configured to be able to perform part or all of the processing of the information providing apparatus 2 described above. The information providing apparatus 2 may be realized by a plurality of server computers. Depending on the function, the information providing apparatus 2 may be realized by calling an external platform or the like with an API (Application Programming Interface) or network computing. Can be changed.

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、入力処理部31は、入力処理手段や入力処理回路に読み替えることができる。   In addition, the above-described embodiments and modifications can be combined as appropriate within a range that does not contradict processing contents. In addition, the “section (module, unit)” described above can be read as “means” or “circuit”. For example, the input processing unit 31 can be read as input processing means or an input processing circuit.

1 スマートスピーカ
2 情報提供装置
3 端末装置
4,4〜4 機器
5,5〜5 センサ装置
6 ネットワーク
10,41 通信部
11 音声出力器
12 音声入力器
13 撮像部
14,42 記憶部
15,43 制御部
20 操作履歴
21 発話テーブル
31 入力処理部
32,62 情報出力部
33,61 情報取得部
34 出力処理部
35,63 コンテキスト取得部
36 タイミング決定部
51 発話テーブル記憶部
52 コンテンツ記憶部
53 音声広告記憶部
54 ユーザ情報記憶部
55 コンテキスト記憶部
56 出力態様判定情報記憶部
64 学習部
65 出力態様決定部
66 検出部
67 判定部
68 広告効果更新部
71 発話テーブル
72 コンテンツテーブル
73 音声広告テーブル
74 ユーザ情報テーブル
100 情報処理システム
1 Smart Speaker 2 information providing apparatus 3 terminal device 4, 4 1 to 4 n devices 5,5 1 to 5 m sensor device 6 network 10,41 communication unit 11 audio output device 12 a voice input unit 13 imaging unit 14, 42 memory unit 15, 43 Control unit 20 Operation history 21 Utterance table 31 Input processing unit 32, 62 Information output unit 33, 61 Information acquisition unit 34 Output processing unit 35, 63 Context acquisition unit 36 Timing determination unit 51 Utterance table storage unit 52 Content storage unit 53 voice advertisement storage unit 54 user information storage unit 55 context storage unit 56 output mode determination information storage unit 64 learning unit 65 output mode determination unit 66 detection unit 67 determination unit 68 advertisement effect update unit 71 utterance table 72 content table 73 voice advertisement table 74 User information table 100 Information processing Stem

Claims (16)

音声出力器から音声情報が出力された場合のユーザの振る舞いを検出する検出部と、
前記検出部によって検出された振る舞いに基づいて前記音声情報が前記ユーザに受容されたか否かを判定する判定部と、を備える
ことを特徴とする情報処理装置。
A detection unit that detects a user's behavior when audio information is output from the audio output device;
An information processing apparatus comprising: a determination unit that determines whether or not the voice information has been received by the user based on behavior detected by the detection unit.
前記検出部は、
前記音声出力器から前記音声情報として音声広告が出力された場合のユーザの振る舞いを検出し、
前記判定部は、
前記検出部によって検出された振る舞いに基づいて前記音声広告が前記ユーザに受容されたか否かを判定する
ことを特徴とする請求項1に記載の情報処理装置。
The detector is
Detecting user behavior when a voice advertisement is output as the voice information from the voice output device,
The determination unit
The information processing apparatus according to claim 1, wherein it is determined whether or not the voice advertisement is received by the user based on a behavior detected by the detection unit.
前記検出部は、
前記ユーザの周囲に存在する音声入力器に入力される音に基づいて、前記振る舞いを検出する
ことを特徴とする請求項1または2に記載の情報処理装置。
The detector is
The information processing apparatus according to claim 1, wherein the behavior is detected based on a sound input to an audio input device existing around the user.
前記検出部は、
前記ユーザの発話を前記振る舞いとして検出し、
前記判定部は、
前記ユーザの発話の状態に基づいて、前記音声情報が前記ユーザに受容されたか否かを判定する
ことを特徴とする請求項3に記載の情報処理装置。
The detector is
Detecting the user's utterance as the behavior,
The determination unit
The information processing apparatus according to claim 3, wherein it is determined whether or not the voice information has been received by the user based on a state of the user's utterance.
前記判定部は、
前記音声情報の出力開始後に前記ユーザの発話が止まった場合に、前記音声情報が前記ユーザに受容されたと判定する
ことを特徴とする請求項4に記載の情報処理装置。
The determination unit
The information processing apparatus according to claim 4, wherein when the user stops speaking after the start of outputting the voice information, the voice information is determined to be accepted by the user.
前記判定部は、
前記音声情報の出力開始後に前記音声情報に関する音声をユーザが前記音声入力器に入力した場合に、前記音声情報が前記ユーザに受容されたと判定する
ことを特徴とする請求項4または5に記載の情報処理装置。
The determination unit
6. The determination according to claim 4, wherein, when a user inputs a voice related to the voice information to the voice input device after starting to output the voice information, the voice information is determined to be received by the user. Information processing device.
前記検出部は、
前記ユーザの周囲に存在する機器から出力される音である機器音の変化を前記振る舞いとして検出し、
前記判定部は、
前記音声情報の出力開始後に前記機器音が停止または変更された場合に、前記音声情報が前記ユーザに受容されたと判定する
ことを特徴とする請求項3〜6のいずれか一つに記載の情報処理装置。
The detector is
Detecting a change in device sound, which is a sound output from a device around the user, as the behavior,
The determination unit
The information according to any one of claims 3 to 6, wherein when the device sound is stopped or changed after the output of the sound information is started, it is determined that the sound information is received by the user. Processing equipment.
前記検出部は、
前記ユーザを撮像する撮像部から出力される前記ユーザの撮像画像に基づいて、前記振る舞いを検出する
ことを特徴とする請求項1〜7のいずれか一つに記載の情報処理装置。
The detector is
The information processing apparatus according to claim 1, wherein the behavior is detected based on a captured image of the user output from an imaging unit that captures the user.
前記検出部は、
前記ユーザの目線の動き、頭部の動き、口の動き、手の動き、および足の動きのうち少なくとも一つの身体的な振る舞いを検出する
ことを特徴とする請求項8に記載の情報処理装置。
The detector is
The information processing apparatus according to claim 8, wherein at least one physical behavior is detected among the movement of the user's eyes, the movement of the head, the movement of the mouth, the movement of the hand, and the movement of the foot. .
前記検出部は、
前記音声情報の出力開始後の前記ユーザによる機器の操作履歴に基づいて、前記ユーザの振る舞いを検出する
ことを特徴とする請求項1〜9のいずれか一つに記載の情報処理装置。
The detector is
The information processing apparatus according to claim 1, wherein the behavior of the user is detected based on an operation history of the device by the user after the output of the audio information is started.
前記判定部は、
前記音声出力器から前記音声情報が出力された場合の前記ユーザによる機器の操作履歴に前記音声情報に関する検索が含まれる場合に、前記音声情報が前記ユーザに受容されたと判定する
ことを特徴とする請求項10に記載の情報処理装置。
The determination unit
When the user operation history of the device when the audio information is output from the audio output device includes a search related to the audio information, it is determined that the audio information is received by the user. The information processing apparatus according to claim 10.
前記判定部は、
前記検出部によって検出された振る舞いが特定の振る舞いである場合に、前記音声情報が前記ユーザに受容されたと判定し、
前記特定の振る舞いは、前記ユーザの属性に応じて設定される
ことを特徴とする請求項1〜11のいずれか一つに記載の情報処理装置。
The determination unit
When the behavior detected by the detection unit is a specific behavior, it is determined that the voice information is received by the user,
The information processing apparatus according to claim 1, wherein the specific behavior is set according to an attribute of the user.
前記音声情報の前記ユーザへの提供回数と前記音声情報の前記ユーザによる受容回数とに基づいて、前記音声情報の効果を更新する効果更新部を備える
ことを特徴とする請求項1〜12のいずれか一つに記載の情報処理装置。
The effect update part which updates the effect of the said audio | voice information based on the frequency | count of provision to the said user of the said audio | voice information and the frequency | count of acceptance of the said audio | voice information by the said user is provided. The information processing apparatus according to claim 1.
前記音声出力器は、スマートスピーカに含まれる音声出力器である
ことを特徴とする請求項1〜13のいずれか一つに記載の情報処理装置。
The information processing apparatus according to claim 1, wherein the audio output device is an audio output device included in a smart speaker.
コンピュータが実行する情報処理方法であって、
音声出力器から音声情報が出力された場合のユーザの振る舞いを検出する検出工程と、
前記検出工程によって検出された振る舞いに基づいて前記音声情報が前記ユーザに受容されたか否かを判定する判定工程と、を含む
ことを特徴とする情報処理方法。
An information processing method executed by a computer,
A detection step for detecting a user's behavior when audio information is output from the audio output device;
A determination step of determining whether or not the voice information has been received by the user based on the behavior detected by the detection step.
音声出力器から音声情報が出力された場合のユーザの振る舞いを検出する検出手順と、
前記検出手順によって検出された振る舞いに基づいて前記音声情報が前記ユーザに受容されたか否かを判定する判定手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
A detection procedure for detecting a user's behavior when audio information is output from the audio output device;
A determination procedure for determining whether or not the audio information has been received by the user based on the behavior detected by the detection procedure;
An information processing program for causing a computer to execute.
JP2018053252A 2018-03-20 2018-03-20 Information processing apparatus, information processing method, and information processing program Active JP6499343B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018053252A JP6499343B1 (en) 2018-03-20 2018-03-20 Information processing apparatus, information processing method, and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018053252A JP6499343B1 (en) 2018-03-20 2018-03-20 Information processing apparatus, information processing method, and information processing program

Publications (2)

Publication Number Publication Date
JP6499343B1 JP6499343B1 (en) 2019-04-10
JP2019164710A true JP2019164710A (en) 2019-09-26

Family

ID=66092642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018053252A Active JP6499343B1 (en) 2018-03-20 2018-03-20 Information processing apparatus, information processing method, and information processing program

Country Status (1)

Country Link
JP (1) JP6499343B1 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197266A (en) * 2007-02-09 2008-08-28 Sharp Corp Reproduction apparatus, reproduction system, reproduction method and computer program
WO2014207833A1 (en) * 2013-06-26 2014-12-31 株式会社fuzz Advertisement effectiveness analysis system, advertisement effectiveness analysis device, and advertisement effectiveness analysis program
JP2016051407A (en) * 2014-09-01 2016-04-11 ヤフー株式会社 Information processing device, distribution device, reproduction method, and reproduction program
JP2016058798A (en) * 2014-09-05 2016-04-21 ヤフー株式会社 Information processor, control method, and control program
JP2016061996A (en) * 2014-09-19 2016-04-25 ヤフー株式会社 Advertisement distribution device, advertisement distribution method, and advertisement distribution program
JP2016090727A (en) * 2014-10-31 2016-05-23 カシオ計算機株式会社 Content output apparatus and program
JP2017058316A (en) * 2015-09-18 2017-03-23 ヤフー株式会社 Information processing apparatus, information processing method, and program
US20170346583A1 (en) * 2013-03-12 2017-11-30 Comcast Cable Communications, Llc Advertisement Tracking

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197266A (en) * 2007-02-09 2008-08-28 Sharp Corp Reproduction apparatus, reproduction system, reproduction method and computer program
US20170346583A1 (en) * 2013-03-12 2017-11-30 Comcast Cable Communications, Llc Advertisement Tracking
WO2014207833A1 (en) * 2013-06-26 2014-12-31 株式会社fuzz Advertisement effectiveness analysis system, advertisement effectiveness analysis device, and advertisement effectiveness analysis program
JP2016051407A (en) * 2014-09-01 2016-04-11 ヤフー株式会社 Information processing device, distribution device, reproduction method, and reproduction program
JP2016058798A (en) * 2014-09-05 2016-04-21 ヤフー株式会社 Information processor, control method, and control program
JP2016061996A (en) * 2014-09-19 2016-04-25 ヤフー株式会社 Advertisement distribution device, advertisement distribution method, and advertisement distribution program
JP2016090727A (en) * 2014-10-31 2016-05-23 カシオ計算機株式会社 Content output apparatus and program
JP2017058316A (en) * 2015-09-18 2017-03-23 ヤフー株式会社 Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
JP6499343B1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
JP6400871B1 (en) Utterance control device, utterance control method, and utterance control program
US11810562B2 (en) Reducing the need for manual start/end-pointing and trigger phrases
CN110546630B (en) Method for providing information and electronic device supporting the same
CN108885485A (en) Digital assistants experience based on Detection of Existence
JP2021167950A (en) Method, system, and media for correcting ambient background noise based on mood and/or behavior information
JP5586436B2 (en) Lifestyle collection device, user interface device, and lifestyle collection method
JP6557376B1 (en) Output control device, output control method, and output control program
US10147426B1 (en) Method and device to select an audio output circuit based on priority attributes
WO2020195821A1 (en) Information processing device, information processing method, and information processing program
JP2017144521A (en) Information processing device, information processing method and program
JP6973380B2 (en) Information processing device and information processing method
JP6767322B2 (en) Output control device, output control method and output control program
JP6499343B1 (en) Information processing apparatus, information processing method, and information processing program
KR102532299B1 (en) Apparatus and method for replacing and outputting an advertisement
US11302317B2 (en) Information processing apparatus and information processing method to attract interest of targets using voice utterance
JP6787957B2 (en) Utterance control device, utterance control method, and utterance control program
CN112866480B (en) Information processing method, information processing device, electronic equipment and storage medium
WO2020054361A1 (en) Information processing system, information processing method, and recording medium
US20220157303A1 (en) Information processing device and information processing method
WO2020149031A1 (en) Response processing device and response processing method
CN115720659A (en) Inferring assistant actions by an assistant device based on ambient sensing
JP2020030245A (en) Terminal device, determination method, determination program, and determination device
JP2019035897A (en) Determination device, determination method, and determination program
JP6688820B2 (en) Output device, output method, and output program
JP2017228269A (en) Generation device, generation method, and generation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180320

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180418

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180807

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181130

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20181130

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20181210

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20181211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190314

R150 Certificate of patent or registration of utility model

Ref document number: 6499343

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350