JP2020060861A - Agent system, agent method, and program - Google Patents

Agent system, agent method, and program Download PDF

Info

Publication number
JP2020060861A
JP2020060861A JP2018190241A JP2018190241A JP2020060861A JP 2020060861 A JP2020060861 A JP 2020060861A JP 2018190241 A JP2018190241 A JP 2018190241A JP 2018190241 A JP2018190241 A JP 2018190241A JP 2020060861 A JP2020060861 A JP 2020060861A
Authority
JP
Japan
Prior art keywords
content
utterance
vehicle
occupant
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018190241A
Other languages
Japanese (ja)
Inventor
永 久保
Hisashi Kubo
永 久保
侑紀 松浦
Yuki Matsuura
侑紀 松浦
亮介 田中
Ryosuke Tanaka
亮介 田中
Original Assignee
本田技研工業株式会社
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 本田技研工業株式会社, Honda Motor Co Ltd filed Critical 本田技研工業株式会社
Priority to JP2018190241A priority Critical patent/JP2020060861A/en
Publication of JP2020060861A publication Critical patent/JP2020060861A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide an agent system, an agent method, and a program with which it is possible to talk with an appropriate utterer.SOLUTION: The agent system comprises: a microphone (30) for collecting speeches inside of the vehicle room of a vehicle; a speaker (50) for outputting a speech to the inside of the vehicle room; an interpretation unit (210) for acquiring the speeches collected by the microphone and interpreting the content of utterance of an occupant included in the acquired speeches; and an agent control unit (220) for causing a speech addressed to the occupant to be outputted by the speaker in accordance with the content of the utterance interpreted by the interpretation unit, and when the content of the utterance interpreted by the interpretation unit means a speech addressed to the host device, estimating the utterer who performed the utterance from among a plurality of occupants on the basis of the content of the utterance.SELECTED DRAWING: Figure 1

Description

本発明は、エージェントシステム、エージェント方法、およびプログラムに関する。   The present invention relates to an agent system, an agent method, and a program.
近年、種々の機器のインターフェースとして、エージェントシステムが提供する対話を用いる技術が知られている(例えば、特許文献1参照)。   In recent years, a technique of using a dialogue provided by an agent system as an interface of various devices has been known (for example, see Patent Document 1).
特開2010−212775号公報JP, 2010-212775, A
ここで、エージェントシステムが車両において用いられる場合、エージェントシステムは、運転者以外の乗員とエージェントシステムとの対話が、運転者の運転の妨げにならなように、又は運転者とエージェントシステムとの対話が、他の乗員の快適性を損なわないように、発話者を推定し、推定した発話者と対話することが求められる。しかしながら、従来の技術では、発話の有無を検出することができても、発話者を推定することまでは困難である場合があった。   Here, when the agent system is used in a vehicle, the agent system is designed so that the interaction between the occupant other than the driver and the agent system does not hinder the driving of the driver or the interaction between the driver and the agent system. However, it is required to estimate the speaker and interact with the estimated speaker so as not to impair the comfort of other occupants. However, in the conventional technology, even if it is possible to detect the presence or absence of utterance, it may be difficult to estimate the speaker.
本発明の態様は、このような事情を考慮してなされたものであり、適切な発話者と対話することができるエージェントシステム、エージェント方法、およびプログラムを提供することを目的の一つとする。   An aspect of the present invention has been made in consideration of such circumstances, and an object thereof is to provide an agent system, an agent method, and a program capable of interacting with an appropriate speaker.
この発明に係るエージェントシステム、エージェント方法、およびプログラムは、以下の構成を採用した。
(1):この発明の一態様に係るエージェントシステムは、車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部と、前記解釈部によって解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させるエージェント制御部であって、前記解釈部により解釈された前記発話の内容が自装置への話しかけを意味する場合、前記発話の内容に基づいて、複数の乗員の中から、前記発話を行った発話者を推定するエージェント制御部と、を備える。
The agent system, the agent method, and the program according to the present invention have the following configurations.
(1): An agent system according to an aspect of the present invention obtains and acquires a microphone that collects voice in a vehicle compartment, a speaker that outputs voice in the vehicle compartment, and a voice collected by the microphone. An interpreting unit that interprets the content of the occupant's utterance included in the voice, and an agent control unit that causes the speaker to output a voice to speak to the occupant according to the content of the utterance interpreted by the interpreting unit. When the content of the utterance interpreted by the interpreter means talking to the device itself, agent control for estimating a speaker who has made the utterance from among a plurality of occupants based on the content of the utterance. And a section.
(2):上記(1)の態様において、前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、前記車両の運行に係る内容であるか否かを判定し、前記発話の内容が前記車両の運行に係る内容であると判定した場合、前記車両の運転者が前記発話者であると推定するものである。   (2): In the aspect of (1) above, the agent control unit determines whether or not the content of the utterance interpreted by the interpreting unit is content related to the operation of the vehicle, and When it is determined that the content is related to the operation of the vehicle, the driver of the vehicle is estimated to be the speaker.
(3):上記(1)〜(2)の態様において、前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、運転席から実行可能な前記車両の操作に係る内容であるか否かを判定し、前記発話の内容が前記運転席から実行可能な前記車両の操作に係る内容であると判定した場合、前記車両の運転者が前記発話者であると推定するものである。   (3): In the above aspects (1) and (2), in the agent control unit, the content of the utterance interpreted by the interpreting unit is content related to an operation of the vehicle that can be executed from a driver's seat. When it is determined that the content of the utterance is content related to the operation of the vehicle that can be executed from the driver's seat, it is estimated that the driver of the vehicle is the utterer. .
(4):上記(1)〜(3)の態様において、前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、運転席から実行可能でない前記車両の操作に係る内容であるか否かを判定し、前記発話の内容が前記運転席から実行可能でない前記車両の操作に係る内容であると判定した場合、前記車両の運転者以外の乗員が前記発話者であると推定するものである。   (4): In the above aspects (1) to (3), the agent control unit is such that the content of the utterance interpreted by the interpretation unit is content related to an operation of the vehicle that is not executable from the driver's seat. If it is determined that the content of the utterance is related to the operation of the vehicle that is not executable from the driver's seat, it is estimated that an occupant other than the driver of the vehicle is the utterer. It is a thing.
(5):上記(1)〜(4)の態様において、前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、何かを指示する内容である場合、前記指示に係る指示対象の位置を特定し、特定した前記位置から物理的に遠い前記乗員を前記発話者として推定するものである。   (5): In the above aspects (1) to (4), when the content of the utterance interpreted by the interpreting unit is a content that indicates something, the agent control unit gives an instruction related to the instruction. The position of the target is specified, and the occupant physically far from the specified position is estimated as the speaker.
(6):この発明の一態様に係るエージェント方法は、車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータが、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈し、解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させ、解釈された前記発話の内容が自装置への話しかけを意味する場合、前記発話の内容に基づいて、複数の乗員の中から、前記発話を行った発話者を推定する。   (6): In an agent method according to an aspect of the present invention, a computer installed in a vehicle, which includes a microphone that collects voice in the vehicle interior of the vehicle and a speaker that outputs the voice in the vehicle interior, is the microphone. The voice collected by is acquired, the content of the utterance of the occupant included in the acquired voice is interpreted, and the speaker outputs a voice for speaking to the occupant according to the content of the interpreted utterance, and the voice is interpreted. When the content of the utterance means talking to the own device, the speaker who has made the utterance is estimated from the plurality of occupants based on the content of the utterance.
(7):この発明の一態様に係るプログラムは、車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータに、前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈させ、解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させ、解釈された前記発話の内容が自装置への話しかけを意味する場合、前記発話の内容に基づいて、複数の乗員の中から、前記発話を行った発話者を推定させる。   (7): A program according to one aspect of the present invention provides a computer mounted on a vehicle, which includes a microphone that collects a voice in a vehicle interior of a vehicle and a speaker that outputs a voice in the vehicle interior. The collected voice is acquired, the content of the utterance of the occupant included in the acquired voice is interpreted, and the speaker outputs the voice that speaks to the occupant according to the interpreted content of the utterance. When the content of the utterance means talking to the own device, the speaker who has made the utterance is estimated from the plurality of occupants based on the content of the utterance.
(1)〜(7)によれば、適切な発話者と対話することができる。   According to (1) to (7), it is possible to talk with an appropriate speaker.
(2)〜(3)によれば、適切に運転者と対話することができる。   According to (2) to (3), it is possible to appropriately interact with the driver.
(4)によれば、適切に運転者以外の乗員と対話することができる。   According to (4), it is possible to appropriately interact with an occupant other than the driver.
第1実施形態に係るエージェント装置1の構成図である。It is a block diagram of the agent apparatus 1 which concerns on 1st Embodiment. 車両Mに設置される表示部およびスピーカを模式的に示す図である。3 is a diagram schematically showing a display unit and a speaker installed in vehicle M. FIG. 車両Mの後部座席に設置される表示部を模式的に示す図である。3 is a diagram schematically showing a display unit installed in a rear seat of a vehicle M. FIG. 後部座席付近のスピーカの位置を説明するための図である。It is a figure for demonstrating the position of the speaker near a backseat. 第1実施形態に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。3 is a flowchart showing a series of processing flow of the agent control device 100 according to the first embodiment. 変形例に係る操作機器情報196の内容の一例を示す図である。It is a figure which shows an example of the content of the operating device information 196 which concerns on a modification. 変形例に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。8 is a flowchart showing a series of processing flow of the agent control device 100 according to a modification. 第2実施形態に係るエージェント装置2の構成図である。It is a block diagram of the agent apparatus 2 which concerns on 2nd Embodiment. 家族構成情報198の内容の一例を示す図である。It is a figure which shows an example of the content of the family structure information 198. 第2実施形態に係るエージェント制御装置100aの処理の一連の流れを示すフローチャートである。It is a flow chart which shows a series of flows of processing of agent control device 100a concerning a 2nd embodiment.
以下、図面を参照し、本発明のエージェントシステム、エージェント方法、およびプログラムの実施形態について説明する。また、以下では、車両に搭載され、対話型エージェント機能を備えたエージェント装置によって、エージェントシステムが構成される場合について説明する。エージェント装置とは、例えば、車両の乗員と対話をしながら、乗員の要求に基づく各種の情報提供や車両内の機器の制御を行うものである。また、エージェント装置は、乗員の表情や声の調子から乗員の状態を判断して運転支援を行ったり、乗員のライフスタイルや嗜好を学習して、状況に応じた選択肢の提案を行うこともできる。エージェント装置は、乗員に対話者を視認させるため、擬人化された動物やキャラクタ等の画像(以下、エージェント画像と称する)を表示部に表示させる。エージェント装置は、例えば、乗員の音声を認識する音声認識処理(音声をテキスト化する処理)に加え、自然言語機能(テキストの構造や意味を理解する処理)、対話制御処理、検索処理等を統合的に利用して実現される。また、これらの処理の一部または全部は、AI(Artificial Intelligence)技術によって実現される。また、これらの処理を行う構成の一部または全部は、車両と通信可能なサーバ装置等に設けられる。以降の説明では、これらの処理を行う構成のすべてを、車両に搭載されるエージェント装置が備える場合について説明する。   Embodiments of an agent system, an agent method, and a program of the present invention will be described below with reference to the drawings. Further, a case will be described below in which an agent system is configured by an agent device mounted on a vehicle and having an interactive agent function. The agent device is, for example, for providing various information based on a request of an occupant and controlling devices in the vehicle while interacting with the occupant of the vehicle. In addition, the agent device can judge the occupant's state from the occupant's facial expression and tone of voice to provide driving assistance, or learn the occupant's lifestyle and tastes and propose options according to the situation. . The agent device displays an image of an anthropomorphized animal or character (hereinafter, referred to as an agent image) on the display unit so that the occupant can visually recognize the interlocutor. For example, the agent device integrates a natural language function (a process of understanding the structure and meaning of a text), a dialogue control process, a search process, etc. in addition to a voice recognition process (a process of converting a voice into a text) for recognizing a voice of a passenger. It is realized by using it. Further, some or all of these processes are realized by AI (Artificial Intelligence) technology. Further, a part or all of the configuration for performing these processes is provided in a server device or the like that can communicate with the vehicle. In the following description, the case where the agent device mounted on the vehicle is provided with all of the configurations for performing these processes will be described.
[全体構成]
図1は、第1実施形態に係るエージェント装置1の構成図である。エージェント装置1は、車両Mの乗員と対話を行い、乗員からの音声等による問い合わせに対して、問い合わせに対する回答を、所定の出力態様で乗員に提示する。以下の説明において、乗員とは、例えば、運転席に着座する乗員(以下、運転者)であるが、これに加えて助手席や後部座席に着座する乗員(同乗者)でもよい。エージェント装置1は、エージェントシステムの一例である。
[overall structure]
FIG. 1 is a configuration diagram of an agent device 1 according to the first embodiment. The agent device 1 interacts with an occupant of the vehicle M and presents a reply to the inquiry to the occupant in a predetermined output mode in response to a voice inquiry from the occupant. In the following description, an occupant is, for example, an occupant seated in the driver's seat (hereinafter referred to as a driver), but in addition to this, an occupant seated in a passenger seat or a rear seat (passenger) may be used. The agent device 1 is an example of an agent system.
エージェント装置1は、通信装置10と、車室内カメラ20と、マイク30と、表示部40と、スピーカ50と、着座センサ60と、操作部70と、ナビゲーション装置80と、エージェント制御装置100とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図1に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。   The agent device 1 includes a communication device 10, a vehicle interior camera 20, a microphone 30, a display unit 40, a speaker 50, a seating sensor 60, an operation unit 70, a navigation device 80, and an agent control device 100. Prepare These devices and devices are connected to each other via multiple communication lines such as CAN (Controller Area Network) communication lines, serial communication lines, and wireless communication networks. The configuration shown in FIG. 1 is merely an example, and a part of the configuration may be omitted, or another configuration may be added.
通信装置10は、例えば、セルラー網やWi−Fi網、Bluetooth(登録商標)、DSRC(Dedicated Short Range Communication)等を利用して、ネットワークNWを介して他車両やサーバ装置等の他の装置(不図示)と通信する。   The communication device 10 uses, for example, a cellular network, a Wi-Fi network, Bluetooth (registered trademark), DSRC (Dedicated Short Range Communication), or the like, and another device such as another vehicle or a server device via the network NW ( (Not shown).
車室内カメラ20は、例えば、車両Mの車室内に設置されたシートに着座する乗員の顔を含む画像を撮像する。車室内カメラ20は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラである。車室内カメラ20は、例えば、所定のタイミングで乗員を撮像する。車室内カメラ20の撮像画像は、エージェント制御装置100に出力される。   The vehicle interior camera 20 captures an image including the face of an occupant seated on a seat installed in the vehicle interior of the vehicle M, for example. The vehicle interior camera 20 is, for example, a digital camera using a solid-state imaging device such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor). The vehicle interior camera 20 images an occupant at a predetermined timing, for example. The image captured by the vehicle interior camera 20 is output to the agent control device 100.
マイク30は、車室内の音声を集音する音声入力装置である。例えば、マイク30は、ステアリングホイールに設置される。また、マイク30は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイク30は、ステアリングホイール、インストルメントパネル、またはシートに設置される。   The microphone 30 is a voice input device that collects voice in the vehicle interior. For example, the microphone 30 is installed on the steering wheel. In addition, the microphone 30 is installed near the front when an occupant sits on a seat in the passenger compartment. For example, the microphone 30 is installed on a steering wheel, an instrument panel, or a seat.
表示部40は、車室内のシートに着座する乗員の前方付近に設置される。また、スピーカ50は、車室内のシート付近または表示部40付近に設置される。表示部40およびスピーカ50は、車室内に複数設置されてよい。また、着座センサ60は、車室内のシートにそれぞれ設けられる。   The display unit 40 is installed near the front of an occupant seated on a seat in the vehicle compartment. The speaker 50 is installed near the seat in the vehicle compartment or near the display unit 40. A plurality of display units 40 and speakers 50 may be installed in the vehicle compartment. The seating sensor 60 is provided on each seat in the vehicle compartment.
図2は、車両Mに設置される表示部およびスピーカを模式的に示す図である。図2の車室内には、表示部40A〜40Dと、スピーカ50A〜50Fとが設置されている。表示部40Aは、例えば、HUD(Head-Up Display)装置である。HUD装置は、風景に重畳させて画像を視認させる装置であり、一例として、車両Mのフロントウインドシールドやコンバイナーに画像を含む光を投光することで、乗員に虚像を視認させる装置である。乗員は、主に運転者であるが、運転者以外の乗員であってもよい。表示部40Aは、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。   FIG. 2 is a diagram schematically showing a display unit and a speaker installed in the vehicle M. Display units 40A to 40D and speakers 50A to 50F are installed in the vehicle interior of FIG. The display unit 40A is, for example, a HUD (Head-Up Display) device. The HUD device is a device for visually recognizing an image by superimposing it on a landscape. For example, the HUD device is a device for causing a passenger to visually recognize a virtual image by projecting light including an image on a front windshield or a combiner of the vehicle M. The occupant is mainly a driver, but may be a occupant other than the driver. The display unit 40A displays an image corresponding to the navigation processing executed by the navigation device 80, other images, and the like.
表示部40B〜40Dは、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)表示装置等である。表示部40Bは、インストルメントパネルIPにおける運転席(例えばステアリングホイールに最も近い座席)の正面付近に設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置され、車両Mの乗員の中で、特に運転席ST1に着座する運転手が視認すべき情報を提示する。表示部40Bは、例えば、車両Mの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像を表示する。   The display units 40B to 40D are, for example, LCD (Liquid Crystal Display) and organic EL (Electro Luminescence) display devices. The display unit 40B is provided in the vicinity of the front of the driver's seat (for example, the seat closest to the steering wheel) on the instrument panel IP, and is installed at a position where an occupant can visually recognize it through a gap between the steering wheels or through the steering wheel. Among the occupants of M, the information to be visually recognized by the driver sitting in the driver's seat ST1 is presented. The display unit 40B displays, for example, an image of the speed of the vehicle M, the engine speed, the remaining fuel amount, the radiator water temperature, the traveling distance, and other information.
表示部40Cは、インストルメントパネルIPの中央付近に設けられ、車両Mの乗員の中で、特に運転手と助手席(運転席の隣の座席)ST2に着座する乗員とが視認すべき情報を提示する。表示部40Cは、例えば、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。また、表示部40Cは、テレビ番組を表示したり、DVDを再生したり、ダウンロードされた映画等のコンテンツを表示してもよい。   The display section 40C is provided near the center of the instrument panel IP, and displays information to be visually recognized by the driver and the passenger seating in the passenger seat (the seat next to the driver seat) ST2 among the passengers of the vehicle M. Present. The display unit 40C displays, for example, an image corresponding to the navigation processing executed by the navigation device 80, other images, and the like. Further, the display unit 40C may display a television program, play a DVD, or display contents such as downloaded movies.
表示部40Dは、インストルメントパネルIPにおける助手席ST2の正面付近に設けられ、車両Mの乗員の中で、特に助手席ST2に着座する乗員が視認すべき情報を提示する。表示部40Dは、例えば、表示部40Cと同様に、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、テレビ番組、DVDを再生した動画、ダウンロードされた映画等のコンテンツを表示する。   The display unit 40D is provided in the vicinity of the front of the passenger seat ST2 on the instrument panel IP and presents information that should be visually recognized by the passengers of the vehicle M, particularly those seated in the passenger seat ST2. Similar to the display unit 40C, the display unit 40D displays contents such as an image corresponding to the navigation processing executed by the navigation device 80, a television program, a moving image reproduced from a DVD, and a downloaded movie.
スピーカ50Aおよびスピーカ50Bは、例えば、車両Mの左右の前方の窓柱(いわゆるAピラー)に設置される。また、スピーカ50Cは、運転席側のドアの下部に設置され、スピーカ50Dは、助手席側のドアの下部に設置される。スピーカ50Eは、表示部40C付近、つまり、インストルメントパネルIPの中央付近に設置される。スピーカ50Fは、車室内の天井の中央部付近に設置される。スピーカ50A、および50Cは、例えば、運転者が傾聴すべき情報(例えば、表示部40A〜40Cに表示される画像に応じた音声)を出力する。また、スピーカ50B、および50Dは、例えば、助手席ST2に着座する乗員が傾聴すべき情報(例えば、表示部40C〜40Dに表示される画像に応じた音声)を出力する。   The speakers 50A and 50B are installed, for example, on the left and right front window pillars (so-called A pillars) of the vehicle M. The speaker 50C is installed under the door on the driver's seat side, and the speaker 50D is installed under the door on the passenger seat side. The speaker 50E is installed near the display section 40C, that is, near the center of the instrument panel IP. The speaker 50F is installed near the center of the ceiling in the vehicle compartment. The speakers 50A and 50C output, for example, information that the driver should listen to (for example, sound according to images displayed on the display units 40A to 40C). Further, the speakers 50B and 50D output, for example, information to be listened to by an occupant seated in the passenger seat ST2 (for example, sound corresponding to the images displayed on the display units 40C to 40D).
図3は、車両Mの後部座席に設置される表示部を模式的に示す図である。図3の車室内には、表示部40E〜40Fが設置されている。表示部40E〜40Fは、例えば、LCDや有機EL表示装置等である。表示部40Eは、例えば、運転席ST1のヘッドレストの後ろに設けられ、車両Mの乗員の中で、特に運転席ST1の後ろの座席(以下、後部座席ST3)に着座する乗員が視聴すべき情報を提示する。表示部40Eは、例えば、表示部40C〜40Dと同様に、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、テレビ番組、DVDを再生した動画、ダウンロードされた映画等のコンテンツを表示する。   FIG. 3 is a diagram schematically showing a display unit installed in the back seat of the vehicle M. Display units 40E to 40F are installed in the vehicle interior of FIG. The display units 40E to 40F are, for example, LCDs, organic EL display devices, and the like. The display unit 40E is provided, for example, behind the headrest of the driver's seat ST1 and is information to be viewed by an occupant of the vehicle M, in particular, a passenger seated behind the driver's seat ST1 (hereinafter, rear seat ST3). To present. Similar to the display units 40C to 40D, the display unit 40E displays contents such as an image corresponding to the navigation processing executed by the navigation device 80, a television program, a moving image reproduced from a DVD, and a downloaded movie.
表示部40Fは、例えば、助手席ST2のヘッドレストの後ろに設けられ、車両Mの乗員の中で、特に助手席ST2の後ろの座席(以下、後部座席ST4)に着座する乗員が視聴するべき情報を提示する。表示部40Eは、例えば、表示部40C〜40Fと同様に、ナビゲーション装置80により実行されるナビゲーション処理に対応する画像、テレビ番組、DVDを再生した動画、ダウンロードされた映画等のコンテンツを表示する。以降の説明において、運転席ST1、助手席ST2、後部座席ST3、および後部座席ST4を互いに区別しない場合には、単にシートSTと記載する。   The display unit 40F is provided, for example, behind the headrest of the passenger seat ST2, and information to be viewed by an occupant of the vehicle M, particularly, a passenger seated behind the passenger seat ST2 (hereinafter, rear seat ST4). To present. Similar to the display units 40C to 40F, the display unit 40E displays contents such as images corresponding to the navigation processing executed by the navigation device 80, TV programs, moving images reproduced from DVDs, downloaded movies, and the like. In the following description, when the driver's seat ST1, the passenger seat ST2, the rear seat ST3, and the rear seat ST4 are not distinguished from each other, they are simply described as the seat ST.
なお、上述した表示部40A〜40Fの設置位置は、一例であり、これに限られない。また、車室内には、乗員が車両Mのサイドミラーによって視認可能な情報を車外カメラによって取得し、取得した情報を表示する表示部が設置されていてもよい。   The installation positions of the display units 40A to 40F described above are examples, and the present invention is not limited to this. In addition, a display unit may be installed in the vehicle compartment to acquire information that can be visually recognized by a side mirror of the vehicle M by an outside camera and display the acquired information.
また、車両Mには、後部座席付近にスピーカが設けられる。図4は、後部座席付近のスピーカの位置を説明するための図である。図4の例では、図2に示すスピーカ50A〜50Fの他に、運転席ST1と助手席ST2の後方に設置された後部座席ST3付近にスピーカ50Gおよび50Hが設けられている。具体的には、スピーカ50Gおよび50Hは、左右の方向ドアの下部に設けられる。また、スピーカ50は、車両Mの前方ドアと後方ドアとの間に設けられる窓柱(いわゆるBピラー)に設けられてもよく、後部座席の方向に設けられてもよい。スピーカ50Gは、例えば、後部座席ST3に着座する乗員が傾聴すべき情報(例えば、表示部40Eに表示される画像に応じた音声)を出力する。また、スピーカ50Hは、例えば、後部座席ST4に着座する乗員が傾聴すべき情報(例えば、表示部40Fに表示される画像に応じた音声)を出力する。   Further, the vehicle M is provided with a speaker near the rear seat. FIG. 4 is a diagram for explaining the position of the speaker near the rear seat. In the example of FIG. 4, in addition to the speakers 50A to 50F shown in FIG. 2, speakers 50G and 50H are provided near the rear seat ST3 installed behind the driver seat ST1 and the passenger seat ST2. Specifically, the speakers 50G and 50H are provided below the left and right direction doors. Further, the speaker 50 may be provided on a window pillar (so-called B pillar) provided between the front door and the rear door of the vehicle M, or may be provided in the rear seat direction. The speaker 50G outputs, for example, information (for example, sound corresponding to the image displayed on the display unit 40E) that the occupant seated in the rear seat ST3 should listen to. Further, the speaker 50H outputs, for example, information to be listened to by an occupant seated in the rear seat ST4 (for example, sound corresponding to the image displayed on the display unit 40F).
また、車両Mには、運転席ST1、助手席ST2、後部座席ST3、および後部座席ST4のそれぞれに着座センサ60(図示する着座センサ60A〜60D)が設けられる。着座センサ60は、例えば、圧力センサによって実現され、シートSTに乗員が着座していることを示す信号をエージェント制御装置100に出力する。   In the vehicle M, seating sensors 60 (seat sensors 60A to 60D shown in the figure) are provided in each of the driver seat ST1, the passenger seat ST2, the rear seat ST3, and the rear seat ST4. The seating sensor 60 is realized by, for example, a pressure sensor, and outputs a signal indicating that an occupant is seated on the seat ST to the agent control device 100.
図1に戻り、操作部70は、乗員からの手動による操作を受け付ける。操作部70は、例えば、スイッチやボタン、キー等を備える。操作部70は、例えば、ステアリングホイールやインストルメントパネルに設けられる。また、操作部70は、タッチパネルとして、表示部40と一体に構成されてもよい。   Returning to FIG. 1, the operation unit 70 receives a manual operation from an occupant. The operation unit 70 includes, for example, switches, buttons, keys and the like. The operation unit 70 is provided, for example, on a steering wheel or an instrument panel. The operation unit 70 may be configured as a touch panel integrally with the display unit 40.
ナビゲーション装置80は、例えば、GNSS(Global Navigation Satellite System)衛星から受信した信号に基づいて、車両Mの位置を特定する。また、ナビゲーション装置80は、特定された車両Mの位置(或いは入力された任意の位置)から、操作部70や表示部40を用いて乗員により入力された目的地までの経路(以下、地図上経路)を、地図情報82を参照して決定する。地図情報82は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。地図情報82は、道路の曲率やPOI(Point Of Interest)情報等を含んでもよい。   The navigation device 80 identifies the position of the vehicle M based on, for example, a signal received from a GNSS (Global Navigation Satellite System) satellite. Further, the navigation device 80 uses the operation unit 70 and the display unit 40 to reach a destination (hereinafter, referred to as a map on the map) from the identified position of the vehicle M (or any input position). The route) is determined with reference to the map information 82. The map information 82 is, for example, information in which a road shape is represented by a link indicating a road and nodes connected by the link. The map information 82 may include road curvature, POI (Point Of Interest) information, and the like.
ナビゲーション装置80は、地図上経路に基づいて、表示部40を用いた経路案内を行ってもよい。ナビゲーション装置80は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。ナビゲーション装置80は、通信装置10を介してナビゲーションサーバ(不図示)に現在位置と目的地を送信し、ナビゲーションサーバから地図上経路と同等の経路を取得してもよい。   The navigation device 80 may perform route guidance using the display unit 40 based on the route on the map. The navigation device 80 may be realized by, for example, the function of a terminal device such as a smartphone or a tablet terminal owned by an occupant. The navigation device 80 may transmit the current position and the destination to the navigation server (not shown) via the communication device 10 and acquire a route equivalent to the route on the map from the navigation server.
ナビゲーション装置80は、地図上経路に基づいて、表示部40による地図画像表示やスピーカによる音声出力によって、経路案内を行ってもよい。なお、ナビゲーション装置80は、エージェント制御装置100の機能の一つとしてエージェント制御装置100に備えられてもよい。   The navigation device 80 may perform route guidance based on the route on the map by displaying a map image on the display unit 40 or outputting a voice from a speaker. The navigation device 80 may be included in the agent control device 100 as one of the functions of the agent control device 100.
[エージェント制御装置100]
エージェント制御装置100は、例えば、音声入力部110と、乗員状態解析部120と、提示制御部130と、画像生成部140と、音声生成部150と、アプリ呼出部160と、第1記憶部180と、第2記憶部190と、制御部200とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)等のコンピュータプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め第1記憶部180に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで第1記憶部180、または第2記憶部190にインストールされてもよい。
[Agent control device 100]
The agent control device 100 includes, for example, a voice input unit 110, an occupant state analysis unit 120, a presentation control unit 130, an image generation unit 140, a voice generation unit 150, an application calling unit 160, and a first storage unit 180. And a second storage unit 190 and a control unit 200. These components are realized, for example, by a computer processor such as a CPU (Central Processing Unit) executing a program (software). In addition, some or all of these components are hardware (circuits) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), and GPU (Graphics Processing Unit). Part; including circuitry), or may be realized by cooperation of software and hardware. The program may be stored in the first storage unit 180 in advance, or may be stored in a detachable storage medium such as a DVD or a CD-ROM, and the storage medium is attached to the drive device to store the program. It may be installed in the unit 180 or the second storage unit 190.
第1記憶部180は、例えば、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。第1記憶部180は、例えば、電話アプリ182、ラジオアプリ184等のプロセッサによって読み出されて実行されるプログラム、その他の情報等が格納される。電話アプリ182と、ラジオアプリ184の詳細については、後述する。   The first storage unit 180 is realized by, for example, a HDD, a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), a ROM (Read Only Memory), a RAM (Random Access Memory), or the like. The first storage unit 180 stores, for example, programs read and executed by a processor such as the telephone application 182 and the radio application 184, other information, and the like. Details of the telephone application 182 and the radio application 184 will be described later.
第2記憶部190は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。第2記憶部190は、例えば、回答情報192、パーソナルプロファイル194等の情報が格納される。回答情報192には、文字情報や画像、音声等が含まれ、これらはエージェント装置1の対話に際に用いられる。パーソナルプロファイル194には、発話者の音声の特徴情報や、発話者に関する情報(例えば、性別や年齢、好きなジャンル)等が含まれる。パーソナルプロファイル194は、車両Mの購入時等において、車両Mの所有者によって操作部70から入力された情報に基づいて生成され、第2記憶部190に記憶されてもよく、車両Mにおける乗員の発話の蓄積によって生成(学習)されてもよい。   The second storage unit 190 is realized by, for example, a HDD, a flash memory, an EEPROM, a ROM, a RAM, or the like. The second storage unit 190 stores information such as reply information 192 and personal profile 194, for example. The reply information 192 includes character information, images, voices, etc., which are used in the dialogue of the agent device 1. The personal profile 194 includes characteristic information of the voice of the speaker, information about the speaker (for example, sex, age, favorite genre), and the like. The personal profile 194 may be generated based on the information input from the operation unit 70 by the owner of the vehicle M when the vehicle M is purchased, or the like, and may be stored in the second storage unit 190. It may be generated (learned) by accumulating utterances.
音声入力部110は、マイク30による音声の入力を受け付ける。音声入力部110は、受け付けられた音声(音声ストリーム)を、制御部200に供給する。   The voice input unit 110 receives a voice input from the microphone 30. The audio input unit 110 supplies the received audio (audio stream) to the control unit 200.
乗員状態解析部120は、車室内カメラ20により撮像された画像に対する解析処理を行い、人物形状や顔形状等の特徴情報を抽出することで車室内のシートに着座する乗員の位置や、乗員の挙動、視線に関する情報を取得する。乗員の挙動には、例えば、乗員の顔の向きや体の姿勢が含まれる。また、乗員状態解析部120は、シートに設けられた圧力センサやその他の検知センサにより、シートに着座する乗員の位置を検知してもよい。   The occupant state analysis unit 120 performs an analysis process on the image captured by the vehicle interior camera 20 and extracts characteristic information such as a person shape and a face shape to detect the position of the occupant seated in the passenger compartment and the occupant's seat. Get information about behavior and line of sight. The occupant's behavior includes, for example, the occupant's face direction and body posture. Further, the occupant state analysis unit 120 may detect the position of the occupant seated on the seat by using a pressure sensor provided on the seat or another detection sensor.
また、乗員状態解析部120は、マイク30により収音された音声を解析し、解析した声の調子から乗員の特徴を解析してもよい。   Further, the occupant state analysis unit 120 may analyze the voice picked up by the microphone 30 and analyze the feature of the occupant from the analyzed tone of the voice.
提示制御部130は、音声入力部110から取得した音声に対する回答情報192に基づいて、乗員に提示する内容を制御する。音声を乗員に提示する内容には、例えば、表示部40により画面に表示させる内容と、スピーカ50により出力させる内容と、車両内の各機能を実現するアプリケーション(以下、アプリと称する)を実行する内容とが含まれる。   The presentation control unit 130 controls the content to be presented to the occupant based on the answer information 192 for the voice acquired from the voice input unit 110. The contents to be presented to the occupant include, for example, contents to be displayed on the screen by the display unit 40, contents to be output from the speaker 50, and an application (hereinafter, referred to as an app) for realizing each function in the vehicle. The contents and are included.
また、提示制御部130は、乗員状態解析部120により解析された乗員の状態に基づいて、乗員に提示する内容を制御してもよい。また、提示制御部130は、乗員からの入力情報や乗員に提示した内容の履歴情報を第1記憶部180に記憶しておき、記憶した履歴情報から乗員のライフスタイルや嗜好を学習して、状況に応じた提示内容の制御を行ってもよい。   Further, the presentation control unit 130 may control the content to be presented to the occupant based on the occupant state analyzed by the occupant state analysis unit 120. Further, the presentation control unit 130 stores the input information from the occupant and the history information of the contents presented to the occupant in the first storage unit 180, and learns the occupant's lifestyle and taste from the stored history information, The presentation content may be controlled according to the situation.
画像生成部140は、エージェント画像を生成するとともに、生成したエージェント画像を表示する表示部40および画面上における表示位置を設定し、設定した表示部40の表示位置にエージェント画像を表示させる。エージェント画像は、例えば、少なくとも観者によって表情や顔向きが認識される程度の顔画像を含む。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて顔向きが認識されるものである。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことで、顔向きが認識されるものであってもよい。   The image generation unit 140 generates the agent image, sets the display unit 40 that displays the generated agent image and the display position on the screen, and displays the agent image at the set display position of the display unit 40. The agent image includes, for example, at least a face image whose facial expression and face orientation are recognized by the viewer. For example, in the agent image, parts simulating the eyes and nose are shown in the face area, and the face orientation is recognized based on the position of the part in the face area. In addition, the agent image may be perceived three-dimensionally, and the face orientation may be recognized by the viewer including the head image in the three-dimensional space.
例えば、画像生成部140は、音声の内容や回答情報の内容に基づいて、エージェントの表情を変化させたエージェント画像を生成してもよい。例えば、画像生成部140は、乗員からのリクエストに対して適切な回答が得られていない場合には、悲しそうな表情のエージェントの画像を生成し、「ありがとう」等の音声が入力された場合には、うれしそうな表情のエージェントの画像を生成する。また、画像生成部140は、回答情報を表示部40に表示するための画像(以下、回答画像と称する)を生成し、生成した回答画像を表示部40に表示させる。   For example, the image generation unit 140 may generate an agent image in which the facial expression of the agent is changed based on the content of voice and the content of answer information. For example, the image generation unit 140 generates an image of an agent with a sad expression when a proper response to the request from the occupant is not obtained, and when a voice such as "Thank you" is input. Generates an image of the agent with a joyful look. The image generation unit 140 also generates an image (hereinafter, referred to as an answer image) for displaying the answer information on the display unit 40, and causes the display unit 40 to display the generated answer image.
音声生成部150は、乗員に出力する対話用の音声を生成する。例えば、音声生成部150は、一以上のスピーカ50を用いて、エージェント画像の表示位置に対応する位置に音像を定位させるための音声を生成する。音像が定位するとは、例えば、スピーカ50から出力されて乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。音像は、例えば、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数(HRTF;Head-related transfer function)に基づいて定まる。音声生成部150は、このような原理を利用して、音像を所定の位置に定位させることができる。   The voice generation unit 150 generates a conversation voice output to an occupant. For example, the sound generation unit 150 uses one or more speakers 50 to generate sound for localizing a sound image at a position corresponding to the display position of the agent image. The localization of the sound image means, for example, determining the spatial position of the sound source felt by the occupant by adjusting the volume of the sound output from the speaker 50 and transmitted to the left and right ears of the occupant. The sound image is determined based on, for example, the sound characteristics originally possessed by the sound source, the information on the vehicle interior environment, and the head-related transfer function (HRTF). The sound generation unit 150 can localize the sound image at a predetermined position by using such a principle.
アプリ呼出部160は、提示制御部130により選択されたアプリを第1記憶部180により呼び出し、呼び出したアプリを制御部200で実行することで、そのアプリの機能を実現させる。例えば、制御部200により電話アプリ182が実行された場合には、通信装置10を介して外部の通話機能を備えた端末と通信を行い、マイク30やスピーカ50を用いて、端末所持者との通話が実現される。また、制御部200によりラジオアプリ184が実行された場合には、通信装置10を介してラジオ局から乗員が指定した周波数で発信された音声情報を取得し、取得した音声情報をスピーカ50から出力する機能が実現される。また、制御部200によりナビアプリ176が実行された場合には、ナビゲーション装置80と連携した経路案内機能等が実現される。   The application calling unit 160 calls the application selected by the presentation control unit 130 by the first storage unit 180 and causes the control unit 200 to execute the called application, thereby realizing the function of the application. For example, when the telephone application 182 is executed by the control unit 200, communication is performed with the terminal having an external call function via the communication device 10, and the microphone 30 and the speaker 50 are used to communicate with the terminal holder. The call is realized. Further, when the radio application 184 is executed by the control unit 200, the voice information transmitted from the radio station at the frequency designated by the occupant is acquired via the communication device 10, and the acquired voice information is output from the speaker 50. The function to do is realized. Further, when the navigation application 176 is executed by the control unit 200, a route guidance function or the like linked with the navigation device 80 is realized.
[エージェント装置1が応対する乗員について]
制御部200の説明に先立って、エージェント装置1が応対する乗員について説明する。上述したように、車両Mの乗員は、エージェント装置1に対して質問や指示等を発話し、エージェント装置1は、乗員が発話した内容に応じた回答を出力する。この場合、エージェント画像は、質問や指示等を発話した乗員が視認し易い表示部40に表示され、且つ回答を示す音声は、質問や指示等を発話した乗員が傾聴し易いスピーカ50から出力されることが好ましい。本実施形態のエージェント装置1は、発話した乗員を推定し、推定した乗員に対して応対を行う。以下、制御部200の処理の内容について説明する。
[About the occupant handled by the agent device 1]
Prior to the description of the control unit 200, an occupant handled by the agent device 1 will be described. As described above, the occupant of the vehicle M utters a question, an instruction, or the like to the agent device 1, and the agent device 1 outputs an answer according to the content uttered by the occupant. In this case, the agent image is displayed on the display unit 40 that is easily visible to the occupant who uttered the question or instruction, and the voice indicating the answer is output from the speaker 50 that is easily listened to by the occupant who uttered the question or instruction. Preferably. The agent device 1 according to the present embodiment estimates the occupant who speaks, and responds to the estimated occupant. Hereinafter, the content of the processing of the control unit 200 will be described.
[制御部200]
制御部200は、例えば、エージェント制御装置100の各機能部に実行および停止を制御する。制御部200は、例えば、各機能部からの要求をAPI(Application Programming Interface)によって受け付け、受け付けた要求に基づく処理を実行する機能部を選択し、選択した機能部に、APIを介して処理を実行させる。制御部200は、受け付けた要求に基づく処理を実行する機能部として、解釈部210と、第1推定部220と、対話生成部230とを備える。
[Control unit 200]
The control unit 200 controls, for example, each functional unit of the agent control device 100 to execute and stop. The control unit 200 receives, for example, a request from each functional unit by an API (Application Programming Interface), selects a functional unit that executes a process based on the received request, and processes the selected functional unit via the API. Let it run. The control unit 200 includes an interpretation unit 210, a first estimation unit 220, and a dialogue generation unit 230 as functional units that execute processing based on the received request.
解釈部210には、例えば、音声区間検出部212と、音声認識部214と、自然言語処理部216とが含まれる。音声区間検出部212は、音声ストリームから音声区間を検出する。例えば、音声区間検出部212は、例えば、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。また、音声区間検出部212は、混合ガウス分布モデル(GMM;Gaussian mixture model) に基づくフレーム単位の音声・非音声識別に基づく区間検出を行ってもよく、予め第2記憶部190等に記憶された音声区間を検出するためのデータベースとのマッチング処理により区間検出を行ってもよい。   The interpretation unit 210 includes, for example, a voice section detection unit 212, a voice recognition unit 214, and a natural language processing unit 216. The voice section detection unit 212 detects a voice section from the voice stream. For example, the voice section detection unit 212 detects the voice section based on, for example, the amplitude of the voice waveform in the voice stream and the zero crossing. Further, the voice section detection unit 212 may perform section detection based on voice / non-voice identification in frame units based on a Gaussian mixture model (GMM), and is stored in advance in the second storage unit 190 or the like. The section may be detected by a matching process with a database for detecting the voice section.
音声認識部214は、音声区間検出部212による音声区間における音声を認識し、音声を文字情報としてテキスト化する。また、音声認識部214は、音声から発話者の特徴を特定してもよい。発話者の特徴には、例えば、性別や年齢、運転者であるか、同乗者であるかの情報が含まれる。また、音声認識部214は、第2記憶部190に記憶されたパーソナルプロファイル194に記憶された個人の音声の特徴情報と照合して、個人を特定してもよい。   The voice recognition unit 214 recognizes the voice in the voice section by the voice section detection unit 212, and converts the voice into text as character information. Further, the voice recognition unit 214 may identify the feature of the speaker from the voice. The characteristics of the speaker include, for example, sex, age, information as to whether the driver is a driver or a fellow passenger. Further, the voice recognition unit 214 may identify the individual by collating with the feature information of the voice of the individual stored in the personal profile 194 stored in the second storage unit 190.
自然言語処理部216は、音声認識部214によりテキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味を解釈する。自然言語処理には、形態素解析、構文解析、意味解析、文脈解析等が含まれる。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位(形態素)ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位や文脈単位で意味を解釈する。   The natural language processing unit 216 executes natural language processing on the character information converted into text by the voice recognition unit 214, and interprets the meaning of the character information. Natural language processing includes morphological analysis, syntactic analysis, semantic analysis, context analysis, and the like. In the morphological analysis, for example, character information is divided into units of the smallest meaningful expression element, and a part of speech or the like for each divided unit (morpheme) is analyzed. In the syntactic analysis, for example, the sentence structure is analyzed based on the morphemes obtained by the morphological analysis. In the semantic analysis, for example, a group having meaning is determined based on the syntax obtained by the syntax analysis. The context analysis interprets the meaning in sentence units or context units, for example.
また、自然言語処理部216は、解釈した意味に対応するコマンドを生成する。例えば、解釈結果として、「東京駅まで何キロ?」、「東京駅までどのくらい走る?」等の意味が解釈された場合、自然言語処理部216は、標準文字情報「東京駅までの距離は?」に置き換えたコマンドを生成する。これにより、文字揺らぎがあった場合にも回答情報を取得しやすくすることができる。   The natural language processing unit 216 also generates a command corresponding to the interpreted meaning. For example, when the interpretation results are interpreted as meanings such as “how many kilometers to Tokyo station?” And “how much to run to Tokyo station?”, The natural language processing unit 216 causes the standard language information “the distance to Tokyo station?”. Command replaced with As a result, it is possible to easily obtain the answer information even when there is character fluctuation.
また、自然言語処理部216は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を解釈し、解釈結果に基づくコマンドを生成してもよい。自然言語処理部216は、生成されたコマンドを用いて第2記憶部190に記憶された回答情報192のコマンドを参照し、合致するコマンドに対応する回答情報192を取得する。自然言語処理部216は、音声認識部214によりテキスト化された文字情報の構造や意味を理解し、理解した意味に基づいて、第2記憶部190に記憶された回答情報192を検索し、対応する文字情報や画像、音声等を取得する。   Further, the natural language processing unit 216 may interpret the meaning of the character information by using artificial intelligence processing such as machine learning processing using probability, and generate a command based on the interpretation result. The natural language processing unit 216 refers to the command of the response information 192 stored in the second storage unit 190 using the generated command, and acquires the response information 192 corresponding to the matching command. The natural language processing unit 216 understands the structure and meaning of the character information converted into text by the voice recognition unit 214, searches the answer information 192 stored in the second storage unit 190 based on the understood meaning, and responds. Acquire character information, images, sounds, etc.
次に、第1推定部220について説明する。第1推定部220は、エージェント装置1に対して発話した乗員(つまり、発話者)を推定する機能部である。第1推定部220には、例えば、発話者推定部222と、操作判定部224と、指示対象判定部226とが含まれる。   Next, the first estimation unit 220 will be described. The first estimation unit 220 is a functional unit that estimates the occupant (that is, the speaker) who uttered to the agent device 1. The first estimation unit 220 includes, for example, a speaker estimation unit 222, an operation determination unit 224, and an instruction target determination unit 226.
発話者推定部222は、エージェント装置1に対して行われた発話の内容に基づいて、発話者を推定する。以下、発話者推定部222が、発話者が車両Mの運転者であると推定する場合について説明し、次に、発話者が車両Mの運転者以外であると推定する場合について説明する。   The speaker estimation unit 222 estimates the speaker based on the content of the utterance made to the agent device 1. Hereinafter, a case where the speaker estimation unit 222 estimates that the speaker is the driver of the vehicle M will be described, and then a case where the speaker is estimated to be other than the driver of the vehicle M will be described.
[発話者が運転者;発話の内容が車両Mの運行に係る内容である場合]
発話者推定部222は、発話の内容が、車両Mの運行に係る内容であるか否かを判定する。発話者推定部222は、発話の内容が車両Mの運行に係る内容であると判定した場合、発話者が車両Mの運転者であると推定する。車両Mの運行に係る内容とは、例えば、車両Mが走行する車線の制限速度を確認する内容(例えば、「この道路の制限速度は何kmか?」)や、周辺に存在する一方通行の位置を確認する内容(例えば、「この辺りに一方通行あるか?」)等である。発話の内容がこのような内容と合致する場合、発話者推定部222は、発話者が運転者であると推定する。
[The speaker is the driver; the content of the utterance relates to the operation of the vehicle M]
The speaker estimation unit 222 determines whether or not the content of the utterance is related to the operation of the vehicle M. The speaker estimation unit 222 estimates that the speaker is the driver of the vehicle M when determining that the content of the speech is related to the operation of the vehicle M. The contents relating to the operation of the vehicle M include, for example, the contents of confirming the speed limit of the lane in which the vehicle M is traveling (for example, "What is the speed limit of this road?") And the one-way traffic existing in the vicinity. The contents to confirm the position (for example, "Is there one way in this area?") When the content of the utterance matches such content, the speaker estimation unit 222 estimates that the speaker is the driver.
[発話者が運転者;発話の内容が車両Mの操作に係る内容である場合]
発話者推定部222は、発話の内容が、運転席ST1から実行可能な車両Mの操作に係る内容であるか否かを判定する。発話者推定部222は、発話の内容が、運転席ST1から実行可能な車両Mの操作に係る内容であると判定した場合、発話者が車両Mの運転者であると推定する。運転席ST1から実行可能な車両Mの操作は、例えば、運転席ST1の近傍に設けられる運転操作子の操作である。運転操作子は、例えば、ステアリングホイールや、アクセルペダル、ブレーキペダル、シフトレバー、ウインカレバーなどの各種操作子である。運転席ST1から実行可能な車両Mの操作に係る内容とは、例えば、運転操作子の操作方法や場所を確認する内容(例えば、「ウインカレバーは左右どっち?」、「ハザードランプの場所はどこ?」)等である。発話の内容がこのような内容と合致する場合、発話者推定部222は、発話者が運転者であると推定する。
[The speaker is the driver; the content of the utterance is related to the operation of the vehicle M]
The speaker estimation unit 222 determines whether or not the content of the utterance is content related to the operation of the vehicle M that can be executed from the driver seat ST1. When the speaker estimation unit 222 determines that the content of the utterance is the content related to the operation of the vehicle M that can be executed from the driver's seat ST1, the speaker estimation unit 222 estimates that the speaker is the driver of the vehicle M. The operation of the vehicle M that can be executed from the driver seat ST1 is, for example, an operation of a driving operator provided near the driver seat ST1. The driving operators are various operators such as a steering wheel, an accelerator pedal, a brake pedal, a shift lever, and a winker lever. The contents related to the operation of the vehicle M that can be executed from the driver's seat ST1 are, for example, contents for confirming the operation method and the place of the driver (for example, “Which is the blinker lever, right or left?”, “Where is the hazard lamp? ? ”) Etc. When the content of the utterance matches such content, the speaker estimation unit 222 estimates that the speaker is the driver.
[発話者が運転者以外;発話の内容が車両Mの運行や操作に係る内容ではない場合]
発話者推定部222は、発話の内容が、車両Mの運行や、運転席ST1から実行可能な操作に係る内容ではないと判定した場合、発話者が車両Mの運転者以外の乗員であると推定する。車両Mの運行や、運転席ST1から実行可能な操作ではない内容とは、例えば、(例えば、「明日のスーパーのセールの目玉は何?」や、「昨日のワールドカップのハイライト見せて」)等である。
[The speaker is other than the driver; when the content of the utterance is not related to the operation or operation of the vehicle M]
When the speaker estimation unit 222 determines that the content of the utterance is not related to the operation of the vehicle M or the operation executable from the driver's seat ST1, the utterer is an occupant other than the driver of the vehicle M. presume. The contents of the operation of the vehicle M and the operations that cannot be executed from the driver's seat ST1 include, for example, "What is the highlight of tomorrow's supermarket sale?" And "Show me the highlights of yesterday's World Cup." ) Etc.
対話生成部230は、発話者推定部222によって推定された発話者と、自然言語処理部216によって解釈された発話の内容を示す文字情報に基づいて、乗員と対話を行うための文章、或いは文節(以下、単に文章)を生成する。   The dialogue generation unit 230, based on the speaker estimated by the speaker estimation unit 222 and the character information indicating the content of the utterance interpreted by the natural language processing unit 216, a sentence or a phrase for dialogue with the occupant. (Hereinafter referred to simply as a sentence) is generated.
画像生成部140は、対話生成部230によって生成された文章に基づいて、エージェント画像を生成する。提示制御部130は、画像生成部140によって生成されたエージェント画像を表示する表示部40および画面上における表示位置を設定し、設定した表示部40の表示位置にエージェント画像を表示させる画像生成部140は、例えば、対話生成部230によって生成された文章が疑問文である場合には、質問しているような表情のエージェント画像を生成し、文章が否定形である場合には、悲しそうな表情のエージェント画像を生成する。否定形である文章とは、例えば、対話によってリクエストされた処理を実行不能であることを伝える文章である。提示制御部130は、例えば、画像生成部140によって生成されたエージェント画像を、発話者推定部222によって推定された発話者が視認し易い表示部40(発話者が運転者であれば表示部40A〜40Cの少なくともいずれか)にエージェント画像を表示させる。   The image generation unit 140 generates an agent image based on the sentence generated by the dialogue generation unit 230. The presentation control unit 130 sets the display unit 40 that displays the agent image generated by the image generation unit 140 and the display position on the screen, and displays the agent image at the set display position of the display unit 40. For example, when the sentence generated by the dialogue generation unit 230 is an interrogative sentence, an agent image having a facial expression asking a question is generated, and when the sentence is a negative form, a sad expression Generate an agent image of. The negative sentence is, for example, a sentence that tells that the process requested by the dialog cannot be executed. The presentation control unit 130 may display the agent image generated by the image generation unit 140, for example, on the display unit 40 where the speaker estimated by the speaker estimation unit 222 is easy to see (if the speaker is the driver, the display unit 40A). To at least 40C) to display the agent image.
音声生成部150は、対話生成部230によって生成された文節に基づいて、乗員に出力する対話用の音声を生成する。提示制御部130は、例えば、発話者推定部222によって推定された発話者が傾聴し易いスピーカ50(発話者が運転者であれば、スピーカ50A、および50C)に生成した音声を出力させる。   The voice generation unit 150 generates a voice for dialogue output to the occupant based on the clause generated by the dialogue generation unit 230. The presentation control unit 130 causes the speaker 50, which is estimated by the speaker estimation unit 222, that the speaker easily listens to (the speakers 50A and 50C if the speaker is a driver) to output the generated sound.
[処理フロー]
図5は、第1実施形態に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS100)。解釈部210は、例えば、エージェント装置1に対する対話を開始する際に用いられるウェイクワードが、車両Mの乗員によって発話された場合、車両Mの乗員が発話したと判定する。なお、解釈部210は、車両Mの乗員の発話が疑問形である(例えば、末尾の抑揚が上がっている)場合、車両Mの乗員が発話したと判定してもよい。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。
[Processing flow]
FIG. 5 is a flowchart showing a series of flow of processing of the agent control device 100 according to the first embodiment. First, the interpretation unit 210 determines whether or not the occupant of the vehicle M speaks (step S100). For example, when the wake word used when starting the dialogue with the agent device 1 is uttered by the occupant of the vehicle M, the interpretation unit 210 determines that the occupant of the vehicle M has uttered. Note that the interpreter 210 may determine that the occupant of the vehicle M uttered when the utterance of the occupant of the vehicle M is in the question form (for example, the intonation at the end is raised). The interpretation unit 210 waits until the occupant of the vehicle M speaks.
解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS102)。次に、発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの運行に係る内容であるか否かを判定する(ステップS104)。発話者推定部222は、発話の内容が車両Mの運行に係る内容であると判定した場合、発話者が運転者であると推定する(ステップS106)。対話生成部230は、発話者推定部222によって発話者が運転者であると推定された場合、運転者と対話を行うための文章を生成する(ステップS108)。発話者推定部222は、発話の内容が車両Mの運行に係る内容ではないと判定した場合、発話者が運転者以外の乗員であると推定する(ステップS110)。対話生成部230は、発話者推定部222によって発話者推定部222によって発話者が運転者以外の乗員であると推定された場合、当該乗員と対話を行うための文章を生成する(ステップS108)。   When the interpreting unit 210 determines that the occupant of the vehicle M speaks, the interpreting unit 210 interprets (understands) the meaning of the content of the utterance by the processes of the voice section detecting unit 212, the voice recognizing unit 214, and the natural language processing unit 216 ( Step S102). Next, the speaker estimation unit 222 determines whether the content of the utterance understood by the interpretation unit 210 is related to the operation of the vehicle M (step S104). When the speaker estimation unit 222 determines that the content of the utterance is related to the operation of the vehicle M, the speaker estimation unit 222 estimates that the speaker is the driver (step S106). When the speaker estimation unit 222 estimates that the speaker is the driver, the dialog generation unit 230 generates a sentence for dialogue with the driver (step S108). When the speaker estimation unit 222 determines that the content of the speech is not related to the operation of the vehicle M, the speaker estimation unit 222 estimates that the speaker is an occupant other than the driver (step S110). When the speaker estimation unit 222 estimates that the speaker is an occupant other than the driver, the dialogue generation unit 230 generates a sentence for dialogue with the occupant (step S108). .
提示制御部130は、対話生成部230によって生成された文章に基づいて画像生成部140が生成したエージェント画像を表示部40に表示させ、当該文章に基づいて音声生成部150が生成した音声をスピーカ50に出力させる(ステップS114)。提示制御部130は、例えば、発話者が運転者である場合、運転者が視認しやすい表示部40にエージェント画像を表示させ、且つ運転者が傾聴し易いスピーカ50に音声を出力させる。また、提示制御部130は、発話者が運転者以外の乗員である場合、当該乗員が視認しやすい表示部40にエージェント画像を表示させ、且つ当該乗員が傾聴し易いスピーカ50に音声を出力させる。提示制御部130は、車両Mに運転者以外の乗員が複数存在する場合、着座センサ60によって着座が検出されている乗員と対話を行うための音声を生成する。   The presentation control unit 130 causes the display unit 40 to display the agent image generated by the image generation unit 140 based on the sentence generated by the dialogue generation unit 230, and outputs the voice generated by the voice generation unit 150 based on the sentence to the speaker. It is made to output to 50 (step S114). For example, when the speaker is a driver, the presentation control unit 130 displays the agent image on the display unit 40 that is easy for the driver to visually recognize, and outputs the sound to the speaker 50 that the driver can easily listen to. When the speaker is an occupant other than the driver, the presentation control unit 130 causes the display unit 40 that the occupant can easily view to display the agent image, and causes the speaker 50 that the occupant can easily listen to to output the sound. . When a plurality of occupants other than the driver are present in the vehicle M, the presentation control unit 130 generates a voice for interacting with the occupant whose seating is detected by the seating sensor 60.
なお、対話生成部230は、運転者以外の乗員が複数存在する場合、運転者以外の乗員全員と対話を行うための音声を生成してもよい。また、対話生成部230は、車室内カメラ20によって発話が検出されたタイミングに口の動き(つまり、発話)が撮像されている特定の乗員と対話を行うための音声を生成してもよい。   Note that, when there are a plurality of passengers other than the driver, the dialogue generation unit 230 may generate a voice for dialogue with all the passengers other than the driver. Further, the dialogue generation unit 230 may generate a voice for dialogue with a specific occupant whose mouth movement (that is, utterance) is imaged at the timing when the utterance is detected by the vehicle interior camera 20.
また、発話者推定部222は、発話の内容に、乗員の体調の変化や疲労に係る内容が含まれる場合には、発話者が運転者であると推定してもよい。乗員の体調の変化や疲労に係る内容は、例えば、「そろそろ眠い」、「疲れた」等である。   Further, the speaker estimation unit 222 may presume that the speaker is a driver when the contents of the utterance include contents related to a change in physical condition of the occupant and fatigue. The contents relating to the change in physical condition of the occupant and the fatigue are, for example, "I am almost sleepy" and "I am tired".
[第1実施形態のまとめ]
以上説明したように、本実施形態のエージェント装置1は、車両Mの車室内の音声を収集するマイク30と、車室内に音声を出力するスピーカ50と、マイク30によって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部210と、解釈部210によって解釈された発話の内容に応じて、スピーカ50に乗員に話しかける音声を出力させるエージェント装置1であって、解釈部210により解釈された発話の内容がエージェント装置1への話しかけを意味する場合、発話の内容に基づいて、複数の乗員の中から、発話を行った発話者を推定する第1推定部220とを備えることにより、適切な発話者と対話することができる。
[Summary of First Embodiment]
As described above, the agent device 1 according to the present embodiment acquires the microphone 30 that collects the sound in the vehicle interior of the vehicle M, the speaker 50 that outputs the sound in the vehicle interior, and the sound collected by the microphone 30. The interpreter 210 interprets the content of the occupant's utterance included in the acquired voice, and the agent device 1 that causes the speaker 50 to output a voice to speak to the occupant according to the content of the utterance interpreted by the interpreter 210. Then, when the content of the utterance interpreted by the interpretation unit 210 means talking to the agent device 1, the first estimation for estimating the speaker who has made the utterance from the plurality of occupants based on the content of the utterance. By including the unit 220, it is possible to interact with an appropriate speaker.
<変形例>
以下、第1実施形態に係る変形例について説明する。第1実施形態では、発話の内容が、車両の運行に係る内容である場合において、発話者を推定する場合について説明した。変形例では、発話の内容が車両の操作に係る内容である場合において、発話者を推定する場合について説明する。なお、上述した実施形態と同様の構成については、同一の符号を付して説明を省略する。
<Modification>
Hereinafter, modified examples according to the first embodiment will be described. In the first embodiment, the case where the speaker is estimated when the content of the utterance is related to the operation of the vehicle has been described. In the modification, a case will be described in which the speaker is estimated when the content of the utterance is related to the operation of the vehicle. The same components as those of the above-described embodiment are designated by the same reference numerals and the description thereof will be omitted.
図6は、変形例に係る操作機器情報196の内容の一例を示す図である。変形例のエージェント装置1おいて、第2記憶部190には、操作機器情報196が記憶される。図6に示される通り、操作機器情報196は、例えば、車両Mが備える機器であり、車両Mの乗員が操作可能な機器(図示する操作対象機器)を示す情報と、当該操作対象機器を操作可能な乗員が着座するシートSTを示す情報とが互いに対応付けられた情報である。   FIG. 6 is a diagram showing an example of the content of the operation device information 196 according to the modification. In the agent device 1 of the modified example, the operating device information 196 is stored in the second storage unit 190. As illustrated in FIG. 6, the operating device information 196 is, for example, a device included in the vehicle M, and information indicating a device (an operation target device shown in the drawing) that can be operated by an occupant of the vehicle M and operating the operation target device. The information indicating the seat ST on which a possible passenger is seated is information associated with each other.
変形例の発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中であるか否かを判定する。車両Mの操作に係る内容とは、例えば、操作対象機器の操作方法を質問する内容(「これの使い方教えて?」、「これの動かし方教えて?」)等である。発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中であると判定した場合、当該操作対象機器を操作可能な乗員が発話者であると推定する。発話者推定部222は、操作機器情報196を参照し、当該操作対象機器に対応付けられたシートSTに着座する乗員を発話者と推定する。   The speaker estimation unit 222 of the modified example determines whether or not the content of the utterance is related to the operation of the vehicle M, and the operation target device of the operation included in the content of the utterance is being operated. The content related to the operation of the vehicle M is, for example, the content of asking the operation method of the operation target device (“Tell me how to use this?” And “Tell me how to move it?”). When the speaker estimation unit 222 determines that the content of the utterance is related to the operation of the vehicle M and the operation target device of the operation included in the content of the utterance is being operated, the operation target device can be operated. It is estimated that the occupant is the speaker. The speaker estimation unit 222 estimates the occupant seated on the seat ST associated with the operation target device as the speaker by referring to the operation device information 196.
ここで、乗員は、操作方法を知りたい操作対象機器を操作しつつ、エージェント装置1に対して操作対象機器の操作方法を質問する内容の発話をする場合がある。このような状況において、変形例のエージェント装置1は、適切な乗員(この場合、操作方法を知りたい乗員)と対話することができる。   Here, there are cases where the occupant speaks to the agent device 1 asking about the operation method of the operation target device while operating the operation target device for which the operation method is desired. In such a situation, the agent device 1 of the modification can interact with an appropriate occupant (in this case, an occupant who wants to know the operation method).
また、変形例の発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中ではないか否かを判定する。発話者推定部222は、発話の内容が車両Mの操作に係る内容であり、且つ発話の内容に含まれる操作の操作対象機器が操作中ではないと判定した場合、当該操作対象機器から物理的に遠い乗員が発話者であると推定する。発話者推定部222は、操作機器情報196を参照し、当該操作対象機器に対応付けられたシートSTとは異なるシートSTに着座する乗員を発話者と推定する。   In addition, the speaker estimation unit 222 of the modified example determines whether the content of the utterance is related to the operation of the vehicle M and the operation target device of the operation included in the content of the utterance is not being operated. When the speaker estimation unit 222 determines that the content of the utterance is related to the operation of the vehicle M and the operation target device of the operation included in the content of the utterance is not being operated, the speaker estimation unit 222 physically detects the operation target device. It is estimated that the occupant far from is the speaker. The speaker estimation unit 222 estimates the occupant who is seated on the seat ST different from the seat ST associated with the operation target device, with reference to the operation device information 196.
ここで、乗員は、物理的に遠い位置(つまり、自身で操作することができない)の操作対象機器の操作をエージェント装置1に依頼する場合がある。例えば、助手席ST2の乗員が、「後部座席のテレビを消して?」と発話する場合がある。このような状況において、変形例のエージェント装置1によれば、適切な乗員(この場合、操作対象機器から物理的に遠い位置に着座する乗員)と対話することができる。   Here, the occupant may request the agent device 1 to operate the operation target device at a physically distant position (that is, it cannot be operated by itself). For example, the passenger in the passenger seat ST2 may utter "turn off the TV in the rear seat?". In such a situation, according to the agent device 1 of the modified example, it is possible to interact with an appropriate occupant (in this case, an occupant who is physically distant from the operation target device).
[処理フロー]
図7は、変形例に係るエージェント制御装置100の処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS200)。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS202)。次に、発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容であるか否かを判定する(ステップS204)。発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容ではないと判定した場合、図7に示されるフローチャートの処理では発話者を特定することができないものとみなし、処理を終了する。
[Processing flow]
FIG. 7 is a flowchart showing a series of processing flow of the agent control device 100 according to the modification. First, the interpretation unit 210 determines whether the occupant of the vehicle M speaks (step S200). The interpretation unit 210 waits until the occupant of the vehicle M speaks. When the interpreting unit 210 determines that the occupant of the vehicle M speaks, the interpreting unit 210 interprets (understands) the meaning of the content of the utterance by the processes of the voice section detecting unit 212, the voice recognizing unit 214, and the natural language processing unit 216 ( Step S202). Next, the speaker estimation unit 222 determines whether the content of the speech understood by the interpretation unit 210 is related to the operation of the vehicle M (step S204). If the speaker estimation unit 222 determines that the content of the speech understood by the interpretation unit 210 is not related to the operation of the vehicle M, the speaker cannot be identified by the process of the flowchart illustrated in FIG. 7. And ends the processing.
発話者推定部222は、解釈部210によって理解された発話の内容が車両Mの操作に係る内容である場合、発話の内容に含まれる操作の操作対象機器が操作中であるか否かを判定する(ステップS206)。発話者推定部222は、発話の内容に含まれる操作の操作対象機器が操作中であると判定した場合、当該操作対象機器を操作可能な乗員が発話者であると推定する(ステップS208)。対話生成部230は、発話者推定部222によって発話者と推定された操作対象機器を操作可能な乗員と対話を行うための文章を生成する(ステップS210)。発話者推定部222は、発話の内容に含まれる操作の操作対象機器が操作中ではないと判定した場合、当該操作対象機器から物理的に遠い位置に着座する乗員が発話者であると推定する(ステップS212)。対話生成部230は、発話者と推定された操作対象機器から物理的に遠い位置の乗員と対話を行うための文章を生成する(ステップS214)。提示制御部130は、対話生成部230によって生成された文章に基づいて画像生成部140が生成したエージェント画像を表示部40に表示させ、当該文章に基づいて音声生成部150が生成した音声をスピーカ50に出力させる(ステップS216)。   If the content of the utterance understood by the interpretation unit 210 is related to the operation of the vehicle M, the speaker estimation unit 222 determines whether the operation target device of the operation included in the content of the utterance is being operated. Yes (step S206). When it is determined that the operation target device of the operation included in the content of the utterance is being operated, the speaker estimation unit 222 estimates that the occupant who can operate the operation target device is the speaker (step S208). The dialogue generation unit 230 generates a sentence for dialogue with an occupant who can operate the operation target device estimated to be the speaker by the speaker estimation unit 222 (step S210). When the speaker estimation unit 222 determines that the operation target device of the operation included in the content of the utterance is not being operated, the speaker estimation unit 222 estimates that the occupant seated at a position physically distant from the operation target device is the speaker. (Step S212). The dialogue generation unit 230 generates a sentence for dialogue with the occupant physically located far from the operation target device estimated to be the speaker (step S214). The presentation control unit 130 causes the display unit 40 to display the agent image generated by the image generation unit 140 based on the sentence generated by the dialogue generation unit 230, and outputs the voice generated by the voice generation unit 150 based on the sentence to the speaker. It is made to output to 50 (step S216).
なお、対話生成部230は、操作対象機器を操作可能な乗員、或いは操作対象機器から物理的に遠い位置の乗員が複数該当する場合、操作対象機器を操作可能な乗員全員、或いは操作対象機器から物理的に遠い位置の乗員全員と対話を行うための音声を生成してもよい。また、対話生成部230は、操作対象機器を操作可能な複数の乗員の中で、車室内カメラ20によって発話が検出されたタイミングに発話が撮像されている特定の乗員、或いは、操作対象機器から物理的に遠い位置の複数の乗員の中で、車室内カメラ20によって発話が検出されたタイミングに発話が撮像されている特定の乗員と対話を行うための音声を生成してもよい。   In addition, when the occupant who can operate the operation target device or the occupants physically located far from the operation target device correspond to all the occupants who can operate the operation target device, or the operation target device. Audio may be generated to interact with all occupants at physically distant locations. In addition, the dialogue generation unit 230 selects, from among a plurality of occupants who can operate the operation target device, a specific occupant whose utterance is imaged at the timing when the utterance is detected by the vehicle interior camera 20, or an operation target device. A voice for interacting with a specific occupant whose utterance is captured may be generated at a timing when the utterance is detected by the vehicle interior camera 20 among a plurality of occupants physically located far away.
<第2実施形態>
以下、第2実施形態について説明する。第1実施形態では、エージェント装置1が発話者と対話する場合について説明した。第2実施形態では、エージェント装置2が発話者の発話の内容に適した乗員と対話する場合について説明する。なお、上述した実施形態と同様の構成については、同一の符号を付して説明を省略する。
<Second Embodiment>
The second embodiment will be described below. In the first embodiment, the case where the agent device 1 interacts with the speaker has been described. In the second embodiment, a case where the agent device 2 interacts with an occupant suitable for the content of the utterance of the utterer will be described. The same components as those of the above-described embodiment are designated by the same reference numerals and the description thereof will be omitted.
[全体構成]
図8は、第2実施形態に係るエージェント装置2の構成図である。エージェント装置2は、エージェント装置1が備えるエージェント制御装置100に代えて(或いは、加えて)、エージェント制御装置100aを備える。エージェント制御装置100aは、例えば、音声入力部110と、乗員状態解析部120と、提示制御部130と、画像生成部140と、音声生成部150と、アプリ呼出部160と、第1記憶部180と、第2記憶部190aと、制御部200aを備える。なお、本実施形態において、エージェント装置2が備える着座センサ60は、シートSTに乗員が着座していることを示す信号に代えて(或いは、加えて)圧力値を示す信号をエージェント制御装置100aに供給する。
[overall structure]
FIG. 8 is a configuration diagram of the agent device 2 according to the second embodiment. The agent device 2 includes an agent control device 100a instead of (or in addition to) the agent control device 100 included in the agent device 1. The agent control device 100a includes, for example, a voice input unit 110, an occupant state analysis unit 120, a presentation control unit 130, an image generation unit 140, a voice generation unit 150, an application calling unit 160, and a first storage unit 180. And a second storage unit 190a and a control unit 200a. In the present embodiment, the seating sensor 60 included in the agent device 2 sends a signal indicating a pressure value to the agent control device 100a instead of (or in addition to) a signal indicating that an occupant is seated on the seat ST. Supply.
第2記憶部190aには、第2記憶部190に記憶される情報に代えて(或いは、加えて)回答情報192と、パーソナルプロファイル194と、操作機器情報196と、家族構成情報198とが記憶される。   Instead of (or in addition to) the information stored in the second storage unit 190, the second storage unit 190a stores reply information 192, a personal profile 194, operating device information 196, and family configuration information 198. To be done.
図9は、家族構成情報198の内容の一例を示す図である。家族構成情報198は、例えば、エージェント装置2が発話に対して回答すべき被回答者を推定する際に用いられ、車両Mに乗車する頻度の高い乗員に係る情報である。車両Mに乗車する頻度の高い乗員は、例えば、車両Mの所有者の家族や親族である。以降の説明では、家族構成情報198が、車両Mの所有者の家族に係る情報である場合について説明する。図9に示される一例において、家族構成情報198は、車両Mの乗員の氏名と、年齢と、親族呼称(または、通称)と、体重とを示す情報が互いに対応付けられた乗員毎のレコードを複数含む情報である。親族呼称は、例えば、「パパ」、「ママ」、「お兄ちゃん」、「おじいちゃん」、「おばあちゃん」、或いはそれらを推定可能な類義語(「お父さん」、「お母さん」等)である。家族構成情報198は、例えば、車両Mの購入時等において、車両Mの所有者によって操作部70から入力された情報に基づいて生成され、第2記憶部190aに記憶される。   FIG. 9 is a diagram showing an example of the contents of the family structure information 198. The family structure information 198 is used, for example, when the agent device 2 estimates the respondents who should reply to the utterance, and is the information regarding the occupants who frequently get on the vehicle M. The occupant who frequently rides on the vehicle M is, for example, a family member or a relative of the owner of the vehicle M. In the following description, the case where the family structure information 198 is information related to the family of the owner of the vehicle M will be described. In the example shown in FIG. 9, the family structure information 198 is a record for each occupant in which information indicating the name, age, relative name (or common name), and weight of the occupant of the vehicle M is associated with each other. This is information that includes multiple items. The relative name is, for example, “daddy”, “mama”, “big brother”, “grandpa”, “grandma”, or a synonym that can deduce them (“father”, “mother”, etc.). The family structure information 198 is generated based on the information input from the operation unit 70 by the owner of the vehicle M when the vehicle M is purchased, for example, and is stored in the second storage unit 190a.
[エージェント装置2が応対する乗員について]
図8に戻り、制御部200aの説明に先立って、エージェント装置2が応対する乗員について説明する。上述したように、車両Mの乗員は、エージェント装置2に対して質問や指示等を発話し、エージェント装置2は、乗員が発話した内容に応じた回答を出力する。ここで、発話の内容には、回答を出力すべき乗員(以下、被回答者)を指示、或いは示唆する内容が含まれる場合がある。被回答者を指示、或いは示唆する発話の内容は、例えば、「助手席の人にカーマニュアルを見せて」、「今どのあたりにいるか後ろの人に教えてあげて」等である。この場合、エージェント画像は、被回答者が視認し易い表示部40に表示され、且つ回答を示す音声は、被回答者が傾聴し易いスピーカ50から出力されることが好ましい。本実施形態のエージェント装置2は、発話した乗員の発話内容に基づいて応対する被回答者を推定し、推定した被回答者に対して応対を行う。以下、制御部200aの処理の内容について説明する。
[About the occupant handled by the agent device 2]
Returning to FIG. 8, prior to the description of the control unit 200a, the occupant handled by the agent device 2 will be described. As described above, the occupant of the vehicle M utters a question, an instruction, or the like to the agent device 2, and the agent device 2 outputs an answer according to the content uttered by the occupant. Here, the content of the utterance may include the content of instructing or suggesting the occupant (hereinafter, the respondent) who should output the answer. The content of the utterance that indicates or suggests the respondent is, for example, "show the car manual to the passenger in the passenger seat", "tell a person in the back where he is now", and the like. In this case, it is preferable that the agent image is displayed on the display unit 40 that the respondent can easily visually recognize, and the voice indicating the answer is output from the speaker 50 that the respondent can easily listen to. The agent device 2 according to the present embodiment estimates the respondent to respond based on the utterance content of the occupant who speaks, and responds to the estimated respondent. The contents of the processing of the control unit 200a will be described below.
制御部200aは、制御部200が備える構成に代えて(或いは、加えて)、解釈部210と、第1推定部220と、対話生成部230と、第2推定部240とを備える。第2推定部240は、エージェント装置2に対して発話者が発話した発話の内容に基づいて、被回答者を推定する機能部である。第2推定部240には、被回答者推定部242と、乗員位置推定部244とが含まれる。   The control unit 200a includes an interpretation unit 210, a first estimation unit 220, a dialogue generation unit 230, and a second estimation unit 240 instead of (or in addition to) the configuration included in the control unit 200. The second estimating unit 240 is a functional unit that estimates the respondent based on the content of the utterance uttered by the utterer to the agent device 2. The second estimation unit 240 includes a respondent estimation unit 242 and an occupant position estimation unit 244.
被回答者推定部242は、エージェント装置2に対して行われた発話の内容に基づいて、被回答者を推定する。以下、被回答者推定部242が、被回答者を推定する処理の内容について説明する。   The respondent estimation unit 242 estimates the respondent based on the content of the utterance made to the agent device 2. Hereinafter, the content of the process by which the respondent estimation unit 242 estimates the respondent will be described.
[発話の内容に被回答者を示すキーワードが含まれる場合]
被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれるか否かを判定する。被回答者を特定するキーワードは、例えば、「運転者」、「助手席の人」、「後部座席の人」、或いはそれらを推定可能な類義語(例えば、「前の人」「後ろの人」、「右の人」、「左の人」)等の、被回答者(の着座位置)を即座に特定可能なキーワードである。被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれている場合、当該キーワードが示す乗員を被回答者として推定する。
[When the utterance includes a keyword indicating the respondent]
The respondent estimation unit 242 determines whether the content of the utterance includes a keyword that identifies the respondent. The keyword that identifies the respondent is, for example, “driver”, “person in the passenger seat”, “person in the back seat”, or synonyms that can deduce them (eg, “front person” or “rear person”). , "Right person", "left person") and the like, which can immediately identify the respondent (the sitting position). When the content of the utterance includes a keyword specifying the respondent, the respondent estimation unit 242 estimates the occupant indicated by the keyword as the respondent.
[発話の内容に被回答者を示すキーワードが含まれない場合]
また、被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれていない場合、発話の内容と、家族構成情報198とに基づいて、被回答者を推定する。ここで、発話の内容には、被回答者を即座に特定可能ではなくとも、被回答者を推定可能なキーワードが含まれる場合がある。被回答者を推定可能なキーワードは、例えば、親族呼称や通称であり、この場合の発話の内容は、例えば、「パパに今聞いていた曲を聞かせてあげて」等である。被回答者推定部242は、発話の内容に被回答者を推定可能なキーワードを検索キーとして家族構成情報198を検索し、当該キーワードの親族呼称や通称によって呼ばれる乗員のレコードを取得する。被回答者推定部242は、取得したレコードと、乗員の体重、乗員の音声、または乗員が撮像された画像とに基づいて、被回答者を推定する。
[When the utterance does not include the keyword indicating the respondent]
Further, when the content of the utterance does not include the keyword for identifying the respondent, the respondent estimation unit 242 estimates the respondent based on the content of the utterance and the family structure information 198. Here, the content of the utterance may include a keyword capable of presuming the respondent even if the respondent cannot be immediately specified. The keyword with which the respondent can be estimated is, for example, a relative name or a common name, and the content of the utterance in this case is, for example, "let dad hear the song that he is listening to". The respondent estimation unit 242 searches the family structure information 198 using a keyword that can presume the respondent based on the content of the utterance, and acquires a record of an occupant who is called by the relative name or common name of the keyword. The respondent estimation unit 242 estimates the respondent based on the acquired record and the weight of the occupant, the voice of the occupant, or the image captured by the occupant.
乗員の体重に基づいて被回答者を推定する場合、被回答者推定部242は、各シートSTに設けられる各着座センサ60から圧電センサの圧力値を示す情報を取得する。被回答者推定部242は、取得したレコードに示される体重と、着座センサ60から取得した圧力値によって換算される体重とが合致する乗員を特定し、特定した乗員を被回答者として推定する。   When estimating the respondent based on the weight of the occupant, the respondent estimation unit 242 acquires information indicating the pressure value of the piezoelectric sensor from each seating sensor 60 provided on each seat ST. The respondent estimation unit 242 identifies the occupant whose weight shown in the acquired record and the weight converted by the pressure value obtained from the seating sensor 60 match, and estimates the identified occupant as the respondent.
乗員の音声に基づいて被回答者を推定する場合、被回答者推定部242は、マイク30によって取得された各乗員の音声を示す情報を取得する。被回答者推定部242は、取得した音声に基づいて、乗員の年齢を解析する。被回答者推定部242は、例えば、音声の音の高低や、周波数、声の特徴等に基づいて、乗員の年齢を解析する。被回答者推定部242は、取得したレコードに示される年齢と、解析した年齢とが合致する乗員を特定し、特定した乗員を被回答者として推定する。   When estimating the respondent based on the voice of the occupant, the respondent estimation unit 242 acquires the information indicating the voice of each occupant acquired by the microphone 30. The respondent estimation unit 242 analyzes the age of the occupant based on the acquired voice. The respondent estimation unit 242 analyzes the age of the occupant based on, for example, the pitch of the sound of the voice, the frequency, the characteristics of the voice, and the like. The respondent estimation unit 242 identifies an occupant whose age indicated in the acquired record matches the analyzed age, and estimates the identified occupant as the respondent.
なお、家族構成情報198のレコードには、乗員の音声のサンプルデータが含まれていてもよい。この場合、被回答者推定部242は、マイク30によって取得された各乗員の音声の中で、取得したレコードに含まれる音声のサンプルデータと一致度が高い音声の乗員を特定し、特定した乗員を被回答者として推定する。   Note that the record of the family structure information 198 may include sample data of the voice of the occupant. In this case, the respondent estimation unit 242 identifies the occupant whose voice has a high degree of agreement with the sample data of the voice included in the acquired record among the voices of the respective occupants obtained by the microphone 30, and identifies the identified occupant. Is estimated as the respondent.
乗員が撮像された画像に基づいて被回答者を推定する場合、被回答者推定部242は、車室内カメラ20によって各乗員(特に顔部)が撮像された画像を示す情報を取得する。被回答者推定部242は、取得した撮像された画像に基づいて、乗員の年齢を解析する。被回答者推定部242は、例えば、撮像された乗員の顔の特徴に基づいて、乗員の年齢を解析する。被回答者推定部242は、取得したレコードに示される年齢と、解析した年齢とが合致する乗員を特定し、特定した乗員を被回答者として推定する。   When the occupant estimates the respondent based on the captured image, the respondent estimation unit 242 acquires information indicating the image in which each occupant (particularly the face) is captured by the vehicle interior camera 20. The respondent estimation unit 242 analyzes the age of the occupant based on the acquired captured image. The respondent estimation unit 242 analyzes the age of the occupant, for example, based on the imaged facial features of the occupant. The respondent estimation unit 242 identifies an occupant whose age indicated in the acquired record matches the analyzed age, and estimates the identified occupant as the respondent.
なお、家族構成情報198のレコードには、乗員が撮像された画像のサンプルデータが含まれていてもよい。この場合、被回答者推定部242は、車室内カメラ20によって各乗員が撮像された画像の中で、取得したレコードに含まれる画像に示される乗員と一致度が高い撮像された画像の乗員を特定し、特定した乗員を被回答者として推定する。   Note that the record of the family structure information 198 may include sample data of an image captured by the occupant. In this case, the respondent estimation unit 242 determines the occupants of the captured image having a high degree of coincidence with the occupant shown in the image included in the acquired record among the images captured by the vehicle interior camera 20 for each occupant. The specified occupant is estimated as the respondent.
乗員位置推定部244は、被回答者推定部242によって被回答者として推定された乗員の位置(例えば、どのシートSTに着座しているか)を推定する。乗員位置推定部244は、被回答者推定部242が被回答者の着座位置を即座に特定可能なキーワードによって被回答者を推定した場合、当該着座位置を被回答者の位置として推定する。また、乗員位置推定部244は、被回答者推定部242が体重によって被回答者を推定した場合、取得したレコードに示される体重と、合致する体重を検出した着座センサ60が設けられているシートSTの位置を、被回答者の位置として推定する。また、乗員位置推定部244は、被回答者推定部242が音声によって被回答者を推定した場合、取得したレコードに示される年齢と、合致する年齢の音声であると解析された音声による発話が検出されたタイミングに口の動き(つまり、発話)が撮像された乗員のシートSTの位置を、被回答者の位置として推定する。また、乗員位置推定部244は、被回答者推定部242が画像によって被回答者を推定した場合、取得したレコードに示される年齢と、合致する年齢であると解析された乗員が撮像された画像において、当該乗員が着座しているシートSTの位置を、被回答者の位置として推定する。   The occupant position estimating unit 244 estimates the position of the occupant estimated as the respondent by the respondent estimating unit 242 (for example, which seat ST is seated). When the respondent estimation unit 242 estimates the respondent by a keyword that can immediately identify the seated position of the respondent, the occupant position estimation unit 244 estimates the seated position as the position of the respondent. In addition, when the respondent estimation unit 242 estimates the respondent based on the weight, the occupant position estimation unit 244 is provided with the seating sensor 60 that detects the weight that matches the weight shown in the acquired record. The position of ST is estimated as the position of the respondent. In addition, when the respondent estimation unit 242 estimates the respondent by voice, the occupant position estimation unit 244 makes a voice utterance that is analyzed as voice of an age that matches the age indicated in the acquired record. The position of the seat ST of the occupant whose mouth movement (that is, utterance) is imaged at the detected timing is estimated as the position of the respondent. Further, when the respondent estimation unit 242 estimates the respondent by the image, the occupant position estimation unit 244 captures an image of the occupant whose age is indicated in the acquired record and which is analyzed as a matching age. At, the position of the seat ST on which the occupant is seated is estimated as the position of the respondent.
対話生成部230は、被回答者推定部242によって推定された被回答者と、自然言語処理部216によって解釈された発話の内容を示す文字情報に基づいて、乗員と対話を行うための文章を生成する。   The dialogue generation unit 230, based on the respondent estimated by the respondent estimation unit 242 and the character information indicating the content of the utterance interpreted by the natural language processing unit 216, creates a sentence for dialogue with the occupant. To generate.
画像生成部140がエージェント画像を生成する処理、音声生成部150が音声を生成する処理、および提示制御部130がエージェント画像や音声を表示部40やスピーカ50に出力させる処理は、上述した処理と同様であるため、説明を省略する。   The process in which the image generation unit 140 generates the agent image, the process in which the voice generation unit 150 generates the voice, and the process in which the presentation control unit 130 outputs the agent image and the voice to the display unit 40 and the speaker 50 are the same as those described above. Since it is the same, the description is omitted.
[処理フロー]
図10は、第2実施形態に係るエージェント制御装置100aの処理の一連の流れを示すフローチャートである。まず、解釈部210は、車両Mの乗員が発話したか否かを判定する(ステップS300)。解釈部210は、車両Mの乗員によって発話されるまでの間、待機する。解釈部210は、車両Mの乗員が発話したと判定した場合、音声区間検出部212、音声認識部214、および自然言語処理部216の処理によって、発話の内容の意味を解釈(理解)する(ステップS302)。
[Processing flow]
FIG. 10 is a flowchart showing a series of processing flow of the agent control device 100a according to the second embodiment. First, the interpretation unit 210 determines whether or not the occupant of the vehicle M speaks (step S300). The interpretation unit 210 waits until the occupant of the vehicle M speaks. When the interpreting unit 210 determines that the occupant of the vehicle M speaks, the interpreting unit 210 interprets (understands) the meaning of the content of the utterance by the processes of the voice section detecting unit 212, the voice recognizing unit 214, and the natural language processing unit 216 ( Step S302).
次に、被回答者推定部242は、解釈部210によって理解された発話の内容に被回答者を特定するキーワードが含まれるか否かを判定する(ステップS304)。被回答者推定部242は、発話の内容に被回答者を特定するキーワード(例えば、「運転者」、「助手席の人」、「後部座席の人」)が含まれていると判定した場合、当該キーワードが示す乗員を被回答者として推定する(ステップS306)。   Next, the respondent estimation unit 242 determines whether or not the content of the utterance understood by the interpretation unit 210 includes a keyword that identifies the respondent (step S304). When the respondent estimation unit 242 determines that the content of the utterance includes a keyword that identifies the respondent (for example, “driver”, “person in front passenger seat”, “person in rear seat”) , The passenger indicated by the keyword is estimated as the respondent (step S306).
被回答者推定部242は、解釈部210によって理解された発話の内容に被回答者を特定するキーワードが含まれていないと判定した場合、発話の内容に被回答者を推定可能なキーワードが含まれているか否かを判定する(ステップS308)。被回答者推定部242は、発話の内容に被回答者を特定するキーワードが含まれておらず、且つ被回答者を推定可能なキーワードも含まれていないと判定した場合、図10に示されるフローチャートの処理では、被回答者を推定することができないものとみなし、処理を終了する。   When the respondent estimation unit 242 determines that the content of the utterance understood by the interpretation unit 210 does not include the keyword identifying the respondent, the content of the utterance includes the keyword capable of estimating the respondent. It is determined whether or not (step S308). When the respondent estimation unit 242 determines that the content of the utterance does not include the keyword identifying the respondent, and does not include the keyword capable of estimating the respondent, the answeree estimation unit 242 is illustrated in FIG. 10. In the process of the flowchart, it is considered that the respondent cannot be estimated, and the process ends.
被回答者推定部242は、発話の内容に被回答者を推定可能なキーワード(例えば、「パパ」、「ママ」、「お兄ちゃん」、「おじいちゃん」、「おばあちゃん」等)が含まれていると判定した場合、家族構成情報198に含まれる当該キーワードが示す乗員のレコードと、各種情報(例えば、体重、音声、乗員が撮像された画像)とに基づいて、被回答者を推定する(ステップS310)。被回答者推定部242は、ステップS310の処理において、特定の被回答者が推定されたか否かを判定する(ステップS312)。被回答者推定部242は、特定の被回答者を推定した場合、処理をステップS318に進める。   The respondent estimation unit 242 includes keywords capable of estimating the respondent in the content of the utterance (for example, “daddy”, “mama”, “big brother”, “grandpa”, “grandma”, etc.). If it is determined that the respondent is estimated based on the occupant record indicated by the keyword included in the family structure information 198 and various information (for example, weight, voice, and image of the occupant captured) (step). S310). The respondent estimation unit 242 determines whether or not a specific respondent has been estimated in the process of step S310 (step S312). When the respondent estimation unit 242 estimates the specific respondent, the process proceeds to step S318.
被回答者推定部242は、特定の被回答者を推定していない場合、発話の内容に車両Mの乗員のすべてを示すキーワードが含まれるか否かを判定する(ステップS314)。車両Mの乗員のすべてを示すキーワードは、例えば、「みんな」、「全員」、「すべての乗員」等である。被回答者推定部242は、発話の内容に車両Mの乗員のすべてを示すキーワードが含まれないと判定した場合、図10に示されるフローチャートの処理では、被回答者を推定することができないものとみなし、処理を終了する。被回答者推定部242は、発話の内容に車両Mの乗員のすべてを示すキーワードが含まれると判定した場合、車両Mの乗員全員を被回答者と推定する(ステップS316)。   When the specific respondent is not estimated, the respondent estimation unit 242 determines whether or not the content of the utterance includes the keywords indicating all the occupants of the vehicle M (step S314). The keywords indicating all the occupants of the vehicle M are, for example, "everyone", "everyone", "all occupants", and the like. When the respondent estimation unit 242 determines that the content of the utterance does not include the keywords indicating all the occupants of the vehicle M, the respondent estimation unit 242 cannot estimate the respondent by the process of the flowchart illustrated in FIG. 10. And ends the processing. When the respondent estimation unit 242 determines that the content of the utterance includes the keywords indicating all the occupants of the vehicle M, it estimates all the occupants of the vehicle M as respondents (step S316).
対話生成部230は、被回答者推定部242によって推定された被回答者と対話を行うための文章を生成する(ステップS318)。提示制御部130は、対話生成部230によって生成された文章に基づいて画像生成部140が生成したエージェント画像を表示部40に表示させ、当該文章に基づいて音声生成部150が生成した音声をスピーカ50に出力させる(ステップS320)。ここで、提示制御部130は、乗員位置推定部244によって推定された被回答者が視認しやすい表示部40、および傾聴し易いスピーカ50に各種情報を出力する。   The dialogue generation unit 230 generates a sentence for dialogue with the respondent estimated by the respondent estimation unit 242 (step S318). The presentation control unit 130 causes the display unit 40 to display the agent image generated by the image generation unit 140 based on the sentence generated by the dialogue generation unit 230, and outputs the voice generated by the voice generation unit 150 based on the sentence to the speaker. It is made to output to 50 (step S320). Here, the presentation control unit 130 outputs various types of information to the display unit 40 that is easily viewed by the respondent and the speaker 50 that is easy to listen to, which is estimated by the occupant position estimation unit 244.
なお、被回答者推定部242がステップS308において被回答者を推定可能なキーワードが含まれていないと判定した場合、被回答者推定部242は、車両Mの乗員全員を被回答者として推定してもよい。また、被回答者推定部242がステップS312において特定の被回答者を推定していないと判定した場合、車両Mの乗員全員を被回答者として推定してもよい。   If the respondent estimation unit 242 determines in step S308 that no keyword capable of estimating the respondent is included, the respondent estimation unit 242 estimates all the occupants of the vehicle M as respondents. May be. In addition, when the respondent estimation unit 242 determines in step S312 that the specific respondent is not estimated, all the occupants of the vehicle M may be estimated as respondents.
[第2実施形態のまとめ]
以上説明したように、本実施形態のエージェント装置2は、車両Mの車室内の音声を収集するマイク30と、車室内に音声を出力するスピーカ50と、マイク30によって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部210と、解釈部210によって解釈された発話の内容に応じて、スピーカ50に乗員に話しかける音声を出力させるエージェント装置2であって、解釈部210により解釈された発話の内容がエージェント装置2への話しかけを意味する場合、発話の内容に基づいて、複数の乗員の中から、エージェント装置2の回答を受ける被回答者を推定する第2推定部240とを備えることにより、適切な発話者と対話することができる。
[Summary of Second Embodiment]
As described above, the agent device 2 according to the present embodiment acquires the microphone 30 that collects the voice in the vehicle interior of the vehicle M, the speaker 50 that outputs the voice in the vehicle interior, and the voice collected by the microphone 30. The interpreting unit 210 that interprets the content of the occupant's utterance included in the acquired voice, and the agent device 2 that outputs the voice that speaks to the occupant to the speaker 50 according to the content of the utterance interpreted by the interpreting unit 210. Then, when the content of the utterance interpreted by the interpretation unit 210 means talking to the agent device 2, the respondent who receives the answer from the agent device 2 is estimated from the plurality of occupants based on the content of the utterance. By including the second estimating unit 240, the user can interact with an appropriate speaker.
なお、被回答者推定部242は、発話の内容に車両Mの乗員全員に係る内容が含まれると判定した場合、車両Mの乗員全員を被回答者として推定してもよい。車両Mの乗員全員に係る内容は、例えば、「この先一本道?」等の車両Mの周囲環境に係る内容、車両Mの行先に係る内容、車両Mの現在位置に係る内容、車両Mの進行方向に存在する施設に係る内容等である。この結果、エージェント装置2は、車両Mの乗員全員に係る内容を、適切に全員に提示することができる。   In addition, when the respondent estimation unit 242 determines that the content of the utterance includes the content related to all the occupants of the vehicle M, all the occupants of the vehicle M may be estimated as the respondents. The contents related to all the occupants of the vehicle M include, for example, contents related to the surrounding environment of the vehicle M such as “Is this one road ahead?”, Contents related to the destination of the vehicle M, contents related to the current position of the vehicle M, and the progress of the vehicle M. The contents are related to facilities existing in the direction. As a result, the agent device 2 can appropriately present the contents related to all the occupants of the vehicle M to all.
また、被回答者推定部242が車両Mの乗員全員を被回答者として推定する場合や、高齢の乗員を被回答者として推定する場合、提示制御部130は、スピーカ50から出力させる対話を、通常の音声よりも低い周波数、及び大きい音量によって出力させてもよい。これにより、エージェント装置2は、より被回答者にわかりやすい形態によって対話することができる。   When the respondent estimation unit 242 estimates all the occupants of the vehicle M as respondents or when the elderly occupants are estimated as respondents, the presentation control unit 130 causes the speaker 50 to output a dialogue. The output may be performed at a frequency lower than that of normal voice and a louder volume. As a result, the agent device 2 can interact in a form that is more understandable to the respondent.
また、被回答者推定部242は、発話の内容に、乗員の興味関心がある内容が含まれる場合には、当該興味関心がある乗員を被回答者として推定してもよい。乗員の興味関心がある内容とは、例えば、「ワールドカップ、私の好きなベルギー代表の結果教えて」等である。この場合、家族構成情報198のレコードには、乗員の興味関心に関する情報(この場合、応援するサッカーチームの情報)が含まれる。また、この場合、発話者推定部222は、発話の内容に、乗員の興味関心がある内容が含まれる場合には、家族構成情報198を参照し、当該内容に興味関心がある乗員を発話者として推定してもよい。   In addition, when the content of the utterance includes the content of interest to the occupant, the respondent estimation unit 242 may estimate the occupant of interest as the respondent. The contents of interest to the occupants include, for example, "World Cup, tell me the results of my favorite Belgian national team." In this case, the record of the family structure information 198 includes information on the interests and interests of the occupants (in this case, information on the soccer team to support). Further, in this case, the speaker estimation unit 222 refers to the family structure information 198 when the contents of the utterance include contents that the occupant is interested in, and utters the occupant who is interested in the contents. May be estimated as
[エージェント装置の他の構成例]
なお、エージェント装置1、およびエージェント装置2(以下、単にエージェント装置)は、その機能の一部がサーバ装置に設けられていてもよい。この場合、エージェント装置が備える構成のうち、例えば、解釈部210、および第2記憶部190がサーバ装置に備えられていてもよい。この場合、エージェント装置とサーバ装置とは、例えば、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等のネットワークNWによりデータの送受信が可能な状態で接続されている。サーバ装置は、複数のエージェント装置との通信が可能であってもよい。サーバ装置が備える通信部は、例えば、セルラー網やWi−Fi網、Bluetooth、DSRC等を利用して、ネットワークNWを介してエージェント装置と通信する。この通信部は、エージェント装置から送信された音声ストリームを受信する。また、通信部は、対話生成部230により生成された音声や文字情報、画像等の回答情報をエージェント装置に送信する。この場合、エージェント装置とサーバー装置とは、エージェントシステムの一例である。
[Another configuration example of the agent device]
It should be noted that the agent device 1 and the agent device 2 (hereinafter simply referred to as an agent device) may have some of their functions provided in the server device. In this case, of the configurations included in the agent device, for example, the interpretation unit 210 and the second storage unit 190 may be included in the server device. In this case, the agent device and the server device are connected to each other via a network NW such as the Internet, a WAN (Wide Area Network), or a LAN (Local Area Network) so that data can be transmitted and received. The server device may be capable of communicating with a plurality of agent devices. The communication unit included in the server device communicates with the agent device via the network NW using, for example, a cellular network, a Wi-Fi network, Bluetooth, DSRC, or the like. The communication unit receives the audio stream transmitted from the agent device. In addition, the communication unit transmits the answer information such as voice and character information and images generated by the dialogue generation unit 230 to the agent device. In this case, the agent device and the server device are examples of the agent system.
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。   As described above, the embodiments for carrying out the present invention have been described by using the embodiments, but the present invention is not limited to these embodiments at all, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1、2…エージェント装置、10…通信装置、20…車室内カメラ、30…マイク、40、40A、40B、40C、40D、40E、40F…表示部、50、50A、50B、50C、50D、50E、50F、50G、50H…スピーカ、60、60A、60B、60C、60D…着座センサ、70…操作部、80…ナビゲーション装置、82…地図情報、100、100a…エージェント制御装置、110…音声入力部、120…乗員状態解析部、130…提示制御部、140…画像生成部、150…音声生成部、160…アプリ呼出部、176…ナビアプリ、180…第1記憶部、182…電話アプリ、184…ラジオアプリ、190、190a…第2記憶部、192…回答情報、194…パーソナルプロファイル、196…操作機器情報、198…家族構成情報、200、200a…制御部、210…解釈部、212…音声区間検出部、214…音声認識部、216…自然言語処理部、220…第1推定部、222…発話者推定部、224…操作判定部、226…指示対象判定部、230…対話生成部、240…第2推定部、242…被回答者推定部、244…乗員位置推定部、ST…シート、ST1…運転席、ST2…助手席、ST3、ST4…後部座席 1, 2 ... Agent device, 10 ... Communication device, 20 ... Vehicle camera, 30 ... Microphone, 40, 40A, 40B, 40C, 40D, 40E, 40F ... Display unit, 50, 50A, 50B, 50C, 50D, 50E , 50F, 50G, 50H ... Speaker, 60, 60A, 60B, 60C, 60D ... Seating sensor, 70 ... Operation part, 80 ... Navigation device, 82 ... Map information, 100, 100a ... Agent control device, 110 ... Voice input part , 120 ... Occupant state analysis section, 130 ... Presentation control section, 140 ... Image generation section, 150 ... Voice generation section, 160 ... Application calling section, 176 ... Navi application, 180 ... First storage section, 182 ... Telephone application, 184 ... radio application, 190, 190a ... second storage section, 192 ... answer information, 194 ... personal profile, 196 ... operating device Information, 198 ... Family configuration information, 200, 200a ... Control section, 210 ... Interpretation section, 212 ... Speech section detection section, 214 ... Speech recognition section, 216 ... Natural language processing section, 220 ... First estimation section, 222 ... Utterance Person estimation unit, 224 ... operation determination unit, 226 ... instruction target determination unit, 230 ... dialogue generation unit, 240 ... second estimation unit, 242 ... respondent estimation unit, 244 ... occupant position estimation unit, ST ... seat, ST1 … Driver's seat, ST2… Passenger seat, ST3, ST4… Rear seat

Claims (7)

  1. 車両の車室内の音声を収集するマイクと、
    前記車室内に音声を出力するスピーカと、
    前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈する解釈部と、
    前記解釈部によって解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させるエージェント制御部であって、前記解釈部により解釈された前記発話の内容が自装置への話しかけを意味する場合、前記発話の内容に基づいて、複数の乗員の中から、前記発話を行った発話者を推定するエージェント制御部と、
    を備えるエージェントシステム。
    A microphone that collects the sound inside the vehicle cabin,
    A speaker for outputting voice into the vehicle interior;
    An interpreting unit that acquires the voice collected by the microphone and that interprets the content of the occupant's speech included in the acquired voice,
    An agent control unit for outputting a voice for speaking to the occupant to the speaker according to the content of the utterance interpreted by the interpreting unit, wherein the content of the utterance interpreted by the interpreting unit speaks to itself. In the case of meaning, based on the content of the utterance, from among a plurality of occupants, an agent control unit that estimates the speaker who made the utterance,
    An agent system including.
  2. 前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、前記車両の運行に係る内容であるか否かを判定し、前記発話の内容が前記車両の運行に係る内容であると判定した場合、前記車両の運転者が前記発話者であると推定する、
    請求項1に記載のエージェントシステム。
    The agent control unit determines whether the content of the utterance interpreted by the interpreting unit is content related to operation of the vehicle, and the content of the utterance is content related to operation of the vehicle. If determined, it is estimated that the driver of the vehicle is the speaker,
    The agent system according to claim 1.
  3. 前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、運転席から実行可能な前記車両の操作に係る内容であるか否かを判定し、前記発話の内容が前記運転席から実行可能な前記車両の操作に係る内容であると判定した場合、前記車両の運転者が前記発話者であると推定する、
    請求項1又は請求項2に記載のエージェントシステム。
    The agent control unit determines whether the content of the utterance interpreted by the interpreting unit is content related to the operation of the vehicle that can be executed from the driver's seat, and the content of the utterance is from the driver's seat. If it is determined that the content is related to the operation of the vehicle that can be executed, it is estimated that the driver of the vehicle is the speaker,
    The agent system according to claim 1 or 2.
  4. 前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、運転席から実行可能でない前記車両の操作に係る内容であるか否かを判定し、前記発話の内容が前記運転席から実行可能でない前記車両の操作に係る内容であると判定した場合、前記車両の運転者以外の乗員が前記発話者であると推定する、
    請求項1から請求項3のうちいずれか一項に記載のエージェントシステム。
    The agent control unit determines whether the content of the utterance interpreted by the interpreting unit is content related to operation of the vehicle that is not executable from the driver's seat, and the content of the utterance is from the driver's seat. When it is determined that the content is related to the operation of the vehicle that is not executable, it is estimated that an occupant other than the driver of the vehicle is the speaker.
    The agent system according to any one of claims 1 to 3.
  5. 前記エージェント制御部は、前記解釈部によって解釈された前記発話の内容が、何かを指示する内容である場合、前記指示に係る指示対象の位置を特定し、特定した前記位置から物理的に遠い前記乗員を前記発話者として推定する、
    請求項1から請求項4のうちいずれか一項に記載のエージェントシステム。
    When the content of the utterance interpreted by the interpretation unit is a content to instruct something, the agent control unit identifies the position of the instruction target according to the instruction and is physically far from the identified position. Estimating the occupant as the speaker,
    The agent system according to any one of claims 1 to 4.
  6. 車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータが、
    前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈し、
    解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させ、
    解釈された前記発話の内容が自装置への話しかけを意味する場合、前記発話の内容に基づいて、複数の乗員の中から、前記発話を行った発話者を推定する、
    エージェント方法。
    A computer mounted on a vehicle, which includes a microphone that collects sound in the vehicle interior of the vehicle and a speaker that outputs sound in the vehicle interior,
    Acquiring the voice collected by the microphone, interpreting the contents of the utterance of the occupant included in the acquired voice,
    According to the content of the interpreted utterance, the speaker outputs a voice for speaking to the occupant,
    When the content of the interpreted utterance means talking to the own device, based on the content of the utterance, the speaker who made the utterance is estimated from among a plurality of occupants,
    Agent way.
  7. 車両の車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、を備える車両に搭載されたコンピュータに、
    前記マイクによって収集された音声を取得し、取得した前記音声に含まれる乗員の発話の内容を解釈させ、
    解釈された前記発話の内容に応じて、前記スピーカに前記乗員に話しかける音声を出力させ、
    解釈された前記発話の内容が自装置への話しかけを意味する場合、前記発話の内容に基づいて、複数の乗員の中から、前記発話を行った発話者を推定させる、
    プログラム。
    A computer mounted on a vehicle, comprising: a microphone for collecting voice in a vehicle interior of the vehicle; and a speaker for outputting voice in the vehicle interior,
    Acquiring the voice collected by the microphone, interpret the contents of the occupant's speech included in the acquired voice,
    According to the content of the interpreted utterance, the speaker outputs a voice for speaking to the occupant,
    When the interpreted content of the utterance means talking to the own device, based on the content of the utterance, from among a plurality of occupants, the speaker who made the utterance is estimated.
    program.
JP2018190241A 2018-10-05 2018-10-05 Agent system, agent method, and program Pending JP2020060861A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018190241A JP2020060861A (en) 2018-10-05 2018-10-05 Agent system, agent method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018190241A JP2020060861A (en) 2018-10-05 2018-10-05 Agent system, agent method, and program

Publications (1)

Publication Number Publication Date
JP2020060861A true JP2020060861A (en) 2020-04-16

Family

ID=70219855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018190241A Pending JP2020060861A (en) 2018-10-05 2018-10-05 Agent system, agent method, and program

Country Status (1)

Country Link
JP (1) JP2020060861A (en)

Similar Documents

Publication Publication Date Title
US20200286450A1 (en) Agent device, method of controlling agent device, and storage medium
US10994612B2 (en) Agent system, agent control method, and storage medium
JP5052241B2 (en) On-vehicle voice processing apparatus, voice processing system, and voice processing method
JP2020060861A (en) Agent system, agent method, and program
JP2020060623A (en) Agent system, agent method, and program
CN111016824A (en) Communication support system, communication support method, and storage medium
US20200152203A1 (en) Agent device, agent presentation method, and storage medium
JP2020060830A (en) Agent device, agent presentation method, and program
JP2020059401A (en) Vehicle control device, vehicle control method and program
JP2020160833A (en) Information providing device, information providing method, and program
JP2020055348A (en) Agent device, agent control method, and program
JP2020160848A (en) Server apparatus, information providing system, information providing method, and program
JP2020160832A (en) Agent device, agent system, agent device control method, and program
JP2021026124A (en) Voice interactive device, voice interactive method, and program
JP2020135110A (en) Agent device, control method of agent device, and program
JP2019159559A (en) Information providing apparatus
WO2020070878A1 (en) Agent device, agent control method, and program
JP2020160108A (en) Agent device, agent device control method and program
JP2020144712A (en) Agent device, control method of agent device, and program
JP2021105770A (en) Conversation assistant device and method
JP2020147214A (en) Agent device, system, control method for agent device, and program
JP2021105636A (en) Agent system, agent method, and program
JP2021096717A (en) Information providing device, information providing method, and program
JP2020160132A (en) Agent device, agent device control method and program, agent server as well as agent server control method
JP2020154994A (en) Agent system, agent server, control method of agent server, and program