JP2024067341A - Information presentation method and information presentation device for vehicle - Google Patents
Information presentation method and information presentation device for vehicle Download PDFInfo
- Publication number
- JP2024067341A JP2024067341A JP2022177333A JP2022177333A JP2024067341A JP 2024067341 A JP2024067341 A JP 2024067341A JP 2022177333 A JP2022177333 A JP 2022177333A JP 2022177333 A JP2022177333 A JP 2022177333A JP 2024067341 A JP2024067341 A JP 2024067341A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- driver
- vehicle
- person
- guidance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004891 communication Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 description 54
- 230000000694 effects Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Landscapes
- Navigation (AREA)
Abstract
Description
本発明は、車両の情報提示方法及び情報提示装置に関するものである。 The present invention relates to a vehicle information presentation method and information presentation device.
取得した音声データを音声ファイルに録音し、当該音声データに対して音声認識処理を行って道案内に用いる表現を抽出し、抽出した表現を、音声ファイル、走行ルート、及び音声を取得した時の自車位置と対応付けて記録し、記録した走行ルートと同じルートを走行する場合に、自車位置が、記録した自車位置から所定範囲内であることを検出したときは、記録した自車位置に対応する音声ファイルを出力するナビゲーション方法が知られている(特許文献1)。 A navigation method is known in which acquired voice data is recorded in a voice file, the voice data is subjected to voice recognition processing to extract expressions to be used for route guidance, the extracted expressions are recorded in association with the voice file, the driving route, and the vehicle's position at the time the voice was acquired, and when traveling along the same route as the recorded driving route, if it is detected that the vehicle's position is within a predetermined range from the recorded vehicle position, the voice file corresponding to the recorded vehicle position is output (Patent Document 1).
人間は、様々な音声が同時に発出されている場合でも、これらの音声の中から自分に必要な情報及び重要な情報を無意識に選択して聞き取ることができる。これをカクテルパーティー効果とも言う。 Even when various sounds are being produced simultaneously, humans can unconsciously select and hear the information they need and that is important to them. This is also known as the cocktail party effect.
上記従来技術では、記録した走行ルートと同じルートを走行する場合に、記録した自車位置から所定範囲内で、記録した音声ファイルが、運転者に情報を提示する案内音声として出力される。この案内音声を出力した時に運転者が他者と会話をしていると、上述したカクテルパーティー効果により、運転者は、他者が発した音声のみを選択的に聞き取ってしまい、案内音声の方を聞き逃してしまうという問題がある。 In the above-mentioned conventional technology, when driving along the same route as the recorded driving route, the recorded audio file is output as a guidance voice that presents information to the driver within a specified range from the recorded vehicle position. If the driver is talking to someone else when this guidance voice is output, there is a problem that the driver will selectively hear only the voice uttered by the other person due to the cocktail party effect mentioned above, and miss the guidance voice.
本発明が解決しようとする課題は、他者と会話中の運転者が案内音声を聞き逃すことを抑制できる、車両の情報提示方法及び情報提示装置を提供することである。 The problem that the present invention aims to solve is to provide a vehicle information presentation method and information presentation device that can prevent a driver who is talking to someone from missing audio guidance.
本発明は、車両の運転者が他者と会話している場合に、他者の音声と類似する、運転者に情報を提示する案内音声を生成し、生成した案内音声を他者の発話位置から出力することによって上記課題を解決する。 The present invention solves the above problem by generating guidance voice that is similar to the voice of another person when the driver of a vehicle is talking to another person and presents information to the driver, and outputting the generated guidance voice from the position where the other person is speaking.
本発明によれば、他者と会話中の運転者が案内音声を聞き逃すことを抑制できる。 The present invention can prevent a driver who is engaged in a conversation with another person from missing the audio guidance.
以下、本発明の実施形態を図面に基づいて説明する。 The following describes an embodiment of the present invention with reference to the drawings.
[情報提示システムの構成]
図1は、本発明に係る情報提示システム1を示すブロック図である。情報提示システム1は、例えば車載システムであり、図1に示すように車内カメラ11、マイクロフォン12、通信装置13、ナビゲーション装置14、スピーカー15及び情報提示装置16を備える。情報提示システム1を構成する装置は、CAN(Controller Area Network)その他の車載LANによって接続され、互いに情報を授受できる。
[Configuration of information presentation system]
Fig. 1 is a block diagram showing an information presentation system 1 according to the present invention. The information presentation system 1 is, for example, an in-vehicle system, and as shown in Fig. 1, includes an in-
車内カメラ11は、車内に設置されたカメラであり、CCD、CMOSなどの撮像素子を備えるカメラ、超音波カメラ、赤外線カメラなどが挙げられる。車内カメラ11が撮影する対象物は、車内に存在する物体であり、主として乗員(具体的には乗員の顔)である。車内カメラ11は、乗員を特定できるように乗員の顔を撮影できる位置に設置される。また、車内カメラ11は、取得された画像から乗員の人数と着座位置が特定できる位置に設置されてもよい。なお、一台の車内カメラ11で全ての乗員を撮影できない場合は、複数台の車内カメラ11を設置してもよい。
The in-
マイクロフォン12は、車内の音を音声データとして取得する装置であり、スタンドマイク、接話型マイク、ガンマイクなどが挙げられる。マイクロフォン12は、指向性及び無指向性のいずれでもよく、有線及び無線のいずれかの通信方式を用いる。マイクロフォン12で取得される音声は車両の車室内の音声であり、乗員が発する声、通信装置13及びスピーカー15から出力される音声などが含まれる。マイクロフォン12は、車室内の音声が検出できる範囲内で適宜の位置に設置でき、その台数は、マイクロフォン12の検出範囲と車室の大きさに応じて適宜の台数とする。
The microphone 12 is a device that captures sounds inside the vehicle as audio data, and examples of such microphones include a stand microphone, a close-talking microphone, and a gun microphone. The
通信装置13は、運転者(ドライバー)が車外の人間と通話するための装置であり、ネットワークを介し、車外の人間の有する通信装置13aと通信できる。なお、本実施形態では、通信装置13aは、情報提示システム1には含まれないものとする。通信装置13は、例えばスマートフォンのような携帯端末であり、通信装置13が備えるマイクロフォンとスピーカーに代えて、車載のマイクロフォン12及びスピーカー15を用いて通話できる。
The communication device 13 is a device that allows the driver to communicate with people outside the vehicle, and can communicate with a communication device 13a owned by a person outside the vehicle via a network. In this embodiment, the communication device 13a is not included in the information presentation system 1. The communication device 13 is, for example, a mobile terminal such as a smartphone, and can communicate using the
ナビゲーション装置14は、地図情報(図示しない)を参照し、車両の現在位置から、乗員により設定された目的地までの走行経路を算出する装置である。車両の現在位置は、GPS(Global Positioning System)を用いた測位システムなどから取得する。ナビゲーション装置14は、例えば、高精細地図情報(HDマップ)の道路情報及び施設情報などを用いて、車両が現在位置から目的地まで到達するための走行経路を検索する。走行経路は、車両が走行する道路、走行車線及び車両の走行方向の情報を含み、例えば線形で表示される。
The
図1に示すように、車内カメラ11により取得された画像データ、マイクロフォン12により取得された音声データ、通信装置13から出力された音声データ、及びナビゲーション装置14にて算出された走行経路の案内情報は、必要に応じて各装置から出力され、情報提示装置16により取得される。
As shown in FIG. 1, image data acquired by the in-
スピーカー15は、電気信号エネルギーを音響エネルギーに変換して空間に放出する装置であり、拡声器とも言う。図1に示すように、スピーカー15は、情報提示装置16から出力された案内音声の信号を、音声に変換して車室内に放出(出力)する。スピーカー15は、乗員に音声を伝達できる範囲内で適宜の位置に設置でき、その台数は、スピーカー15の伝達範囲と車室の大きさに応じて適宜の台数とする。
The
上述した車内カメラ11、マイクロフォン12及びスピーカー15の車室における配置の一例を、図2を用いて示す。図2は、車両Vの高さ方向に垂直な断面図である。図2に示す車両Vの右前側には運転席A1が設けられ、左前側には助手席A2が設けられ、車両Vの後側には後部座席A3、A4が設けられている。また、図2に示す車両Vでは、運転席A1には運転者B1が座り、助手席A2には乗員B2が座り、後部座席A3には乗員B3が座り、後部座席A4には乗員B4が座っているものとする。乗員B2~B4は、運転者B1と同じ車両Vに乗車する同乗者である。
An example of the arrangement of the above-mentioned in-
図2に示す車両Vでは、運転者B1及び乗員B2~B4を撮影するため、運転席A1と助手席A2との間に車内カメラ11が設置されている。具体的には、車内カメラ11は、ウィンドシールドの上部に設置された後写鏡に備え付けられている。また、運転者B1の音声を取得するため、運転席A1の前方にマイクロフォン12aが設置され、乗員B2の音声を取得するため、助手席A2の前方にマイクロフォン12bが設置されている。具体的には、マイクロフォン12aは、車両Vのステアリングホイール又はインストルメントパネルに設置され、マイクロフォン12bは、グローブボックスに設置されている。また、乗員B3、B4の音声を取得するため、車両Vのルーフの車室中央付近にマイクロフォン12cが設置されている。さらに、運転者B1に音声を伝達するため、運転席A1の右前方にスピーカー15aが設置され、乗員B2に音声を伝達するため、助手席A2の左前方にスピーカー15bが設置され、乗員B3、B4に音声を伝達するため、後部座席A3の右後方にスピーカー15cが設置され、後部座席A4の左後方にスピーカー15dが設置されている。
In vehicle V shown in FIG. 2, an in-
図1に戻り、情報提示装置16は、情報提示システム1を構成する各装置を制御して協働させ、車両の乗員に情報を提示するための装置である。情報提示装置16は、例えばコンピュータであり、プロセッサであるCPU(Central Processing Unit)と、プログラムが格納されたROM(Read Only Memory)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とを備える。CPUは、ROMに格納されたプログラムを実行し、情報提示装置16が有する機能を実現するための動作回路である。 Returning to FIG. 1, the information presentation device 16 is a device that controls and cooperates with each device that constitutes the information presentation system 1 to present information to vehicle occupants. The information presentation device 16 is, for example, a computer, and includes a CPU (Central Processing Unit) that is a processor, a ROM (Read Only Memory) that stores programs, and a RAM (Random Access Memory) that functions as an accessible storage device. The CPU is an operating circuit that executes the programs stored in the ROM and realizes the functions of the information presentation device 16.
情報提示装置16は、車両の乗員に情報を提示する情報提示機能を有する。情報提示装置16のROMには情報提示機能を実現するプログラムが格納され、CPUがROMに格納されたプログラムを実行することで、情報提示機能が実現される。図1には、情報提示機能を実現する機能ブロックとして、特定部2、取得部3、モデル生成部4、音声生成部5及び出力部6を便宜的に抽出して示す。以下、図1に示す各機能ブロックが有する機能について説明する。
The information presentation device 16 has an information presentation function that presents information to vehicle occupants. A program that realizes the information presentation function is stored in the ROM of the information presentation device 16, and the information presentation function is realized by the CPU executing the program stored in the ROM. For convenience, FIG. 1 shows the
[各機能ブロックの機能]
特定部2は、乗員の人数と、各乗員の着座位置とを特定する機能を有する。情報提示装置16は、特定部2の機能により、車内カメラ11から取得した画像を解析し、各座席について、乗員が座っているか否かを判定する。例えば、車内カメラ11から取得した画像に対してパターンマッチングを行い、乗員が座席に座っているパターンを検出した場合は、乗員が座席に座っていると判定する。この場合に、各座席の乗員の顔を識別し、乗員を特定してもよい。
[Functions of each functional block]
The
これに代え又はこれに加え、情報提示装置16は、各座席に設置された圧力センサの圧力値を取得し、圧力値が所定圧力値以上であるか否かを判定してもよい。所定圧力値は、例えば、成人が座席に座った場合に計測される圧力値とし、圧力値が所定圧力値以上であれば乗員が座席に座っていると判定し、圧力値が所定圧力値未満であれば乗員が座席に座っていないと判定する。 Alternatively or in addition, the information presentation device 16 may obtain the pressure value of a pressure sensor installed in each seat and determine whether the pressure value is equal to or greater than a predetermined pressure value. The predetermined pressure value may be, for example, a pressure value measured when an adult is seated in the seat, and if the pressure value is equal to or greater than the predetermined pressure value, it is determined that an occupant is seated in the seat, and if the pressure value is less than the predetermined pressure value, it is determined that no occupant is seated in the seat.
図2に示す車両Vであれば、情報提示装置16は、運転席A1、助手席A2及び後部座席A3、A4に設置された圧力センサの圧力値を検出し、各圧力センサの圧力値が所定圧力値以上であるため、乗員の人数が4人であることを特定する。また、情報提示装置16は、車内カメラ11から取得した画像に対してパターンマッチングを行い、運転者B1及び乗員B2~B4の顔を識別し、運転者B1の着座位置が運転席A1であり、乗員B2の着座位置が助手席A2であり、乗員B3の着座位置が後部座席A3であり、乗員B4の着座位置が後部座席A4であると特定する。
For vehicle V shown in FIG. 2, the information presentation device 16 detects pressure values from pressure sensors installed in the driver's seat A1, passenger seat A2, and rear seats A3 and A4, and determines that the number of occupants is four because the pressure values from each pressure sensor are equal to or greater than a predetermined pressure value. The information presentation device 16 also performs pattern matching on the image acquired from the in-
取得部3は、車両Vの運転者B1が他者と会話しているか否かを判定し、運転者B1が他者と会話していると判定した場合に、当該他者の音声を取得する機能を有する。本実施形態の他者とは、車両Vの運転者B1が会話し得る人間であり、具体的には、車両Vに乗車している同乗者と、通信装置13を介して運転者B1と通話する車外の通話者とのうち少なくとも一方である。つまり、本実施形態では、特定部2の機能により、運転者B1以外の乗員が存在しないと判定された場合でも、運転者B1が通話者と会話することがある。
The
情報提示装置16は、運転者B1が他者と会話しているか否かを判定するため、取得部3の機能により、マイクロフォン12から車両Vの車室内の音声を取得し、取得した音声から乗員の音声を抽出する。具体的には、車室内の音声から、車両Vの機器から出力された音声、車両Vの走行に伴い車両Vを構成する部品から発生する音、車外の騒音などを除去する処理を行う。車両Vの機器から出力された音声としては、スピーカー15から出力されたラジオの音声、ナビゲーション装置14の効果音などが挙げられる。また、車両Vを構成する部品から発生する音としては、タイヤが路面を転がる音、エンジンの作動音、制動時のブレーキの音などが挙げられる。情報提示装置16は、これらの音声(音)の波形と逆位相の波形を有する音声を、取得した車室内の音声に重ね合わせ、乗員の音声以外の音声(音)を除去する。
In order to determine whether the driver B1 is talking to another person, the information presentation device 16 acquires the voice in the vehicle V from the
また、情報提示装置16は、車内カメラ11から取得した画像を解析して各乗員の口の動きを検出する。そして、取得した音声における乗員の発話のタイミングと、運転者B1の口の動きとを比較し、運転者B1が発話しているか否かを判定する。より具体的には、運転者B1が、ある一定の時間内に複数回発話したか否かを判定する。当該一定の時間は、運転者B1が他人と会話をしていることを確認できる範囲内で適宜の時間を設定でき、例えば5~30秒である。情報提示装置16は、ある一定の時間内に運転者B1が複数回発話したと判定した場合は、運転者B1が同乗者及び/又は通話者と会話していると認識する。これに対し、ある一定の時間内に運転者B1が複数回発話しなかったと判定した場合は、運転者B1が同乗者及び/又は通話者と会話していないと認識する。
The information presentation device 16 also analyzes the images acquired from the in-
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしているものとすると、情報提示装置16は、マイクロフォン12a~12cから車室内の音声を取得し、取得した音声から、通信装置13が備えるスピーカーと、スピーカー15から出力された音声を除去する。また、車両Vが走行する際に発生する摩擦音、振動音なども除去する。これにより、取得した車室内の音声から、運転者B1と乗員B2の音声のみを抽出する。次に、車内カメラ11から取得した画像を解析し、運転者B1の口の動きを検出する。そして、運転者B1の口の動きと、抽出した音声におけるの発話のタイミングとを比較し、ある一定の時間内に運転者B1が複数回発話したと判定する。これにより、情報提示装置16は、運転者B1が同乗者と会話していることを認識する。
For example, if driver B1 and passenger B2 are having a conversation in vehicle V shown in FIG. 2, information presentation device 16 acquires the voice in the vehicle cabin from
運転者B1以外の乗員が存在すると判定された場合は、情報提示装置16は、ある一定の時間内に運転者B1と、運転者B1以外の乗員の少なくとも一名とが発話したか否かを判定してもよい。この場合、ある一定の時間内に運転者B1と、運転者B1以外の乗員とが発話したと判定したときは、情報提示装置16は、運転者B1が同乗者と会話していると認識する。これに対し、一定の時間内に運転者B1と、運転者B1以外の乗員とが発話しなかったと判定したときは、情報提示装置16は、運転者B1が同乗者と会話していないと認識する。なお、運転者B1以外の乗員が複数存在する場合は、同様の方法により、乗員同士が会話をしているか否かを判定してもよい。 When it is determined that there is an occupant other than the driver B1, the information presentation device 16 may determine whether or not the driver B1 and at least one of the occupants other than the driver B1 have spoken within a certain period of time. In this case, when it is determined that the driver B1 and the occupant other than the driver B1 have spoken within a certain period of time, the information presentation device 16 recognizes that the driver B1 is talking to a passenger. In contrast, when it is determined that the driver B1 and the occupant other than the driver B1 have not spoken within a certain period of time, the information presentation device 16 recognizes that the driver B1 is not talking to a passenger. Note that when there are multiple occupants other than the driver B1, it may be determined by a similar method whether or not the occupants are talking to each other.
また、運転者B1以外の乗員が存在しないと判定された場合、又は運転者B1以外の乗員が発話していないと判定された場合は、情報提示装置16は、通信装置13が、情報提示システム1の外部の通信装置13aと通話中であるか否かを判定してもよい。この場合、通信装置13が外部の通信装置13aと通話中であると判定したときは、情報提示装置16は、運転者B1が通話者と会話していると判定し、通信装置13が外部の通信装置13aと通話中でないと判定したときは、運転者B1が同乗者及び通話者のいずれとも会話をしていないと判定する。 In addition, if it is determined that there are no occupants other than the driver B1, or if it is determined that no occupants other than the driver B1 are speaking, the information presentation device 16 may determine whether the communication device 13 is in a call with a communication device 13a external to the information presentation system 1. In this case, when it is determined that the communication device 13 is in a call with the external communication device 13a, the information presentation device 16 determines that the driver B1 is talking to the caller, and when it is determined that the communication device 13 is not in a call with the external communication device 13a, it determines that the driver B1 is not talking to either a passenger or the caller.
さらに、情報提示装置16は、複数のマイクロフォン12が取得した音声の波形同士の位相の差と、マイクロフォン12が設置された位置との関係に基づき、どの乗員がどの音声を発話したのかを特定してもよい。例えば、図2に示す車両Vにおいて運転者B1が発話した場合は、ある波形を有する音声がマイクロフォン12aにて検出された後、同じ波形を有する音声がマイクロフォン12cにて検出される。マイクロフォン12aとマイクロフォン12cにおける当該音声の検出タイミングの差は、運転者B1とマイクロフォン12aの距離と、運転者B1とマイクロフォン12cの距離の差に比例するため、当該音声は運転者B1が発話したものと特定できる。この場合は、車内カメラ11から取得した画像を用いずに、運転者B1が発話しているか否か(つまり、運転者B1が他人と会話しているか否か)を判定できる。
Furthermore, the information presentation device 16 may identify which occupant has spoken which voice based on the phase difference between the waveforms of the voices acquired by the
情報提示装置16は、運転者B1が他者と会話していると判定した場合は、取得部3の機能により、運転者B1と会話する他者の音声を取得する。情報提示装置16は、運転者B1が、同じ車両Vに乗車している同乗者と会話している場合は、同乗者の音声を取得し、運転者B1が、通信装置13を介して車外の通話者と会話している場合は、通話者の音声を取得する。これに対し、運転者B1が他者と会話していないと判定した場合は、情報提示装置16は、運転者B1が他者と会話しているか否かの判定を繰り返す。又はこれに代え、情報提示装置16は、スタンバイの状態になる。以下、同乗者の音声を第1音声とも言い、通話者の音声を第2音声とも言うこととする。
When the information presentation device 16 determines that the driver B1 is talking to another person, it acquires the voice of the other person who is talking to the driver B1 through the function of the
同乗者の第1音声は、上述と同様の方法で、車室内の音声から同乗者の音声を抽出して取得する。例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合は、マイクロフォン12a~12cから車室内の音声を取得し、取得した音声から、スピーカー15から出力された音声などを除去し、運転者B1と乗員B2の音声のみを抽出する。次に、車内カメラ11から取得した画像から乗員B2の口の動きを検出し、運転者B1と乗員B2のみの音声から、乗員B2の口が開いている(つまり、乗員B2が発話している)部分のみをさらに抽出する。これに対し、通話者の第2音声は、通信装置13のスピーカー又は車両Vのスピーカー15から出力される通話者の音声を取得する。
The first voice of the passenger is obtained by extracting the voice of the passenger from the voice in the vehicle cabin in the same manner as described above. For example, when the driver B1 and the passenger B2 are talking in the vehicle V shown in FIG. 2, the voice in the vehicle cabin is obtained from the
モデル生成部4は、案内音声を生成するための音声モデルを生成する機能を有する。音声モデルとは、音声の特徴量が設定されたモデルであり、例えば、入力されたテキストを読み上げて人工音声を生成するソフトウェアである。特徴量とは、音声の特徴を示す数値であり、具体的には、発音の速さ、声の大きさ、母音と子音の音声の波形、単語の使用頻度、方言の種類とその使用頻度などが挙げられる。
The
これらの特徴量は、発話された内容に対する形態素解析、音声の波形に対する周波数解析などの解析により求められる。特に、情報提示装置16は、取得した音声に対して周波数解析を行い、周波数解析により得られた周波数成分とその振幅を特徴量として算出する。周波数解析とは、ある波形を複数の単純な正弦波と余弦波に分解することで、当該波形に含まれる周波数成分とその振幅を求めることを言う。情報提示装置16は、取得した音声の波形の所定範囲で上述の各種解析を実行する。当該所定範囲は、例えば、運転者B1と会話している乗員が発話を開始してから、運転者B1又は他の乗員が発話を開始するまでの範囲である。また、当該所定範囲は、運転者B1と会話している乗員が発話を開始してから、一つの文を発話し終えるまでの範囲であってもよい。 These features are obtained by morphological analysis of the spoken content, frequency analysis of the voice waveform, and other analyses. In particular, the information presentation device 16 performs frequency analysis on the acquired voice, and calculates the frequency components and their amplitudes obtained by the frequency analysis as features. Frequency analysis refers to determining the frequency components and their amplitudes contained in a waveform by breaking down the waveform into multiple simple sine waves and cosine waves. The information presentation device 16 performs the above-mentioned various analyses within a predetermined range of the acquired voice waveform. The predetermined range is, for example, the range from when the occupant who is talking to the driver B1 starts speaking to when the driver B1 or another occupant starts speaking. The predetermined range may also be the range from when the occupant who is talking to the driver B1 starts speaking to when he finishes speaking a sentence.
情報提示装置16は、モデル生成部4の機能により、音声に対して周波数解析などの解析を行い、当該音声の特徴量を算出し、取得した音声に類似する案内音声を生成できる音声モデルを生成する。情報提示装置16は、算出された特徴量に基づき、機械学習(例えば深層学習)を用いて新規な音声モデルを生成してもよく、算出された特徴量を用いて、予め登録された音声モデルを変更することで音声モデルを生成してもよい。また、情報提示装置16は、特徴量に基づき、予め登録された複数の音声モデルから特徴量が最も類似する音声モデルを選択してもよい。予め登録された音声モデルから一のモデルを選択することで、時間のかかる、音声モデルを生成する工程を省略できる。
The information presentation device 16 uses the functions of the
なお、特徴量が最も類似するとは、特徴量同士の差が最も小さい(つまり最も似ている)ことを言う。例えば、特徴量(特に周波数成分とその振幅)の差が最も小さくなることを言う。一例として、周波数成分とその振幅について、小さい周波数成分から順番に周波数を比較し、周波数の差を足し合わせた時に差の総和が最も小さくなるものが、最も類似する特徴量である。また、別の例として、小さい周波数成分から順番に振幅の差を求め、振幅の差を足し合わせた時に差の総和が最も小さくなるものが、最も類似する特徴量である。 The feature quantities being most similar means that the difference between the feature quantities is the smallest (i.e., they are the most similar). For example, this means that the difference between feature quantities (particularly frequency components and their amplitudes) is the smallest. As an example, when comparing frequency components and their amplitudes in order from the smallest frequency components, the feature quantity with the smallest sum of the differences when the differences in frequency are added is the most similar feature quantity. As another example, when comparing amplitude differences in order from the smallest frequency components, the feature quantity with the smallest sum of the differences when the differences in amplitude are added is the most similar feature quantity.
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合に、乗員B2の音声を取得したときは、情報提示装置16は、乗員B2の音声に対して周波数解析を行い、乗員B2の音声に含まれる周波数成分とその振幅を算出する。そして、当該周波数成分と振幅に基づき、ナビゲーション装置14のデフォルトの音声モデルを変更し、乗員B2の音声に類似する案内音声を生成するための音声モデルを生成する。
For example, in the case where the driver B1 and the occupant B2 are having a conversation in the vehicle V shown in FIG. 2, when the voice of the occupant B2 is acquired, the information presentation device 16 performs a frequency analysis on the voice of the occupant B2 and calculates the frequency components and their amplitudes contained in the voice of the occupant B2. Then, based on the frequency components and the amplitudes, the default voice model of the
音声生成部5は、運転者B1に情報を提示する案内音声を生成する機能を有する。運転者B1に提示する情報とは、例えばナビゲーション装置14から出力される情報であり、特に、車両Vが、設定された走行経路に沿って走行するための情報である。具体的には、車両Vの走行状態、交差点における右左折の要否、右左折専用車線の有無、車線変更の要否、回避の必要がある障害物の位置などが挙げられる。また、案内音声により提示される情報には、目的地付近の観光情報、近隣の施設情報、ニュースなどの時事情報、車両Vの故障情報などの、走行経路に沿って走行するための情報以外の情報が含まれる。これらの情報を総称して案内情報とも言う。
The
情報提示装置16は、上述の案内情報を運転者B1に伝達するため、音声生成部5の機能により、音声モデルを用いて案内音声を生成する。具体的には、同乗者の第1音声と類似する案内音声と、通話者の第2音声と類似する案内音声のうち少なくとも一方を生成する。生成される案内音声の内容は、図1に示すとおり、ナビゲーション装置14から取得した案内情報に基づく。以下、同乗者の第1音声と類似する案内音声を第1案内音声とも言い、通話者の第2音声と類似する案内音声を第2案内音声とも言うこととする。
In order to convey the above-mentioned guidance information to the driver B1, the information presentation device 16 generates a guidance voice using a voice model through the function of the
情報提示装置16が生成する案内音声は、運転者B1と会話している他者の音声と類似している。案内音声が他者の音声と類似しているとは、案内音声が他者の音声と同一であることを含み、他者と会話をしている運転者B1に対して案内音声を出力した場合に、カクテルパーティー効果が抑制され、運転者B1が案内音声を聞き逃すことが抑制できることを言う。つまり、会話している乗員の音声と似た音声であれば、運転者B1は、会話中であっても案内音声を無意識に選択して聞き取ることができる。 The guidance voice generated by the information presentation device 16 is similar to the voice of another person who is conversing with the driver B1. The guidance voice being similar to the voice of another person includes the guidance voice being identical to the voice of the other person, and means that when a guidance voice is output to the driver B1 who is conversing with another person, the cocktail party effect is suppressed, and it is possible to prevent the driver B1 from missing the guidance voice. In other words, if the voice is similar to the voice of the passenger who is conversing, the driver B1 can unconsciously select and hear the guidance voice even during a conversation.
一例として、他者の音声の波形と、生成した案内音声の波形とに対し、上述の所定範囲において周波数解析を行い、周波数成分とその振幅を算出する。次に、他者の音声に含まれる周波数成分と、案内音声に含まれる周波数成分を、値の小さい順に互いに対応付ける。次に、他者の音声の周波数成分の振幅と、他者の音声の周波数成分に対応する、案内音声の周波数成分の振幅とを比較する。そして、対応する各周波数成分において、案内音声の振幅が、他者の音声の振幅の±10%の範囲内であるか否かを判定する。案内音声の振幅が、他者の音声の振幅の±10%の範囲内あると判定した場合は、案内音声は他者の音声と類似すると判定する。これに対し、案内音声の振幅が、他者の音声の振幅の-10%未満の範囲内又は+10%を超える範囲内であると判定した場合は、案内音声は他者の音声と類似しないと判定する。なお、他者の音声に対する周波数解析は、上述の所定範囲にて行い、案内音声に対する周波数解析は、生成した案内音声全体に対して行うものとする。 As an example, frequency analysis is performed on the waveform of the other person's voice and the generated guidance voice within the above-mentioned specified range to calculate the frequency components and their amplitudes. Next, the frequency components contained in the other person's voice and the frequency components contained in the guidance voice are associated with each other in ascending order of value. Next, the amplitude of the frequency components of the other person's voice is compared with the amplitude of the frequency components of the guidance voice corresponding to the frequency components of the other person's voice. Then, for each corresponding frequency component, it is determined whether the amplitude of the guidance voice is within a range of ±10% of the amplitude of the other person's voice. If it is determined that the amplitude of the guidance voice is within a range of ±10% of the amplitude of the other person's voice, it is determined that the guidance voice is similar to the other person's voice. On the other hand, if it is determined that the amplitude of the guidance voice is within a range of less than -10% or more than +10% of the amplitude of the other person's voice, it is determined that the guidance voice is not similar to the other person's voice. Note that the frequency analysis of the other person's voice is performed within the above-mentioned specified range, and the frequency analysis of the guidance voice is performed on the entire generated guidance voice.
別の例として、他者の音声に含まれる周波数成分と、案内音声に含まれる周波数成分とを、値が小さい順に対応させる。そして、対応する二つの周波数成分の差の最大値が5~50[Hz]以下であるか否かを判定する。対応する二つの周波数成分の差の最大値が5~50[Hz]以下であると判定した場合は、案内音声は他者の音声と類似すると判定する。これに対し、対応する二つの周波数成分の差の最大値が5~50[Hz]を超えると判定した場合は、案内音声は他者の音声と類似しないと判定する。なお、他者の音声と案内音声に対して周波数解析を行う範囲は、上述の例と同様である。 As another example, the frequency components contained in the voice of another person and the frequency components contained in the guidance voice are matched in ascending order of value. Then, it is determined whether the maximum value of the difference between the two corresponding frequency components is 5 to 50 [Hz] or less. If it is determined that the maximum value of the difference between the two corresponding frequency components is 5 to 50 [Hz] or less, it is determined that the guidance voice is similar to the voice of another person. In contrast, if it is determined that the maximum value of the difference between the two corresponding frequency components exceeds 5 to 50 [Hz], it is determined that the guidance voice is not similar to the voice of another person. Note that the range in which frequency analysis is performed on the voice of another person and the guidance voice is the same as in the above example.
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合に、乗員B2の音声を取得し、乗員B2の音声に類似する案内音声を生成するための音声モデルを生成したときは、情報提示装置16は、ナビゲーション装置14から案内情報を取得する。案内情報が、前方の交差点を右折する必要があるとの情報である場合は、情報提示装置16は、取得した案内情報に基づき、音声モデルを用いて、例えば「次の交差点を右に曲がります」という案内音声を生成する。当該案内音声は、乗員B2の音声と類似しており、一例として、乗員B2の音声に含まれる周波数成分ごとに、当該案内音声に含まれる周波数成分の中から最も値が近い周波数成分を選択し、二つの周波数成分を対応させた場合に、対応する二つの周波数成分の差の最大値が5~50[Hz]以下である。
For example, in the case where the driver B1 and the passenger B2 are having a conversation in the vehicle V shown in FIG. 2, when the voice of the passenger B2 is acquired and a voice model for generating a guidance voice similar to the voice of the passenger B2 is generated, the information presentation device 16 acquires guidance information from the
出力部6は、音声生成部5の機能により生成した案内音声を、運転者B1と会話している他者の発話位置から出力する機能を有する。他者の発話位置とは、他者の音声が放出(又は出力)される位置であり、例えば他者の頭部の位置であり、特に口の位置である。他者が同乗者である場合は、発話位置は、例えば同乗者の着座位置であり、より具体的には同乗者の頭部の位置である。情報提示装置16は、運転者B1が同乗者と会話している場合は、出力部6の機能により、同乗者から運転者に向けて第1案内音声を出力する。これに対し、他者が通話者である場合は、発話位置は、第2音声を出力するスピーカーであり、例えば、通信装置13のスピーカー又は車両Vのスピーカー15である。情報提示装置16は、運転者B1が通話者と会話している場合は、出力部6の機能により、第2音声を出力するスピーカーから運転者に向けて第2案内音声を出力する。
The output unit 6 has a function of outputting the guidance voice generated by the function of the
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合に、乗員B2の音声に類似する案内音声を生成したときは、情報提示装置16は、助手席A2の左前側に設置されたスピーカー15bから運転者B1(又は運転席A1)に向けて案内音声を出力する。これにより、運転者B1は、乗員B2が案内音声を発話したように認識し、乗員B2と会話している場合であっても、案内音声を無意識に選択して聞き取ることができる。
For example, in the case where the driver B1 and the passenger B2 are having a conversation in the vehicle V shown in FIG. 2, when a guidance voice similar to the voice of the passenger B2 is generated, the information presentation device 16 outputs the guidance voice to the driver B1 (or the driver's seat A1) from the
情報提示装置16は、出力部6の機能により、運転者B1と会話している同乗者の着座位置周辺から案内音声を出力してもよい。例えば、複数あるスピーカー15から、同乗者の着座位置に最も近い位置のスピーカーから案内音声を出力する。また、情報提示装置16は、出力部6の機能により、運転者B1に、同乗者が発話したと認識させるように車内のスピーカー15を制御してもよい。具体的には、スピーカー15から出力される音声の大きさ、音声の波形の位相、出力のタイミングなどを制御する。また、運転者B1に、同乗者が発話したと認識させるよう、車室内でスピーカー15を設置する位置を設定してもよい。
The information presentation device 16 may use the function of the output unit 6 to output a guidance voice from the vicinity of the seating position of the passenger who is conversing with the driver B1. For example, out of the
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合は、乗員B2の音声に類似した案内音声を、スピーカー15b、15dから運転者B1に向けて出力する。この場合に、スピーカー15bから出力した案内音声と、スピーカー15dから出力した案内音声とが互いに打ち消し合わないよう、いずれか一方のスピーカーから出力する案内音声の波形の位相を制御する。
For example, in the vehicle V shown in FIG. 2, when the driver B1 and passenger B2 are having a conversation, a guidance voice similar to the voice of passenger B2 is output from
情報提示装置16は、出力部6の機能により、所定時間における運転者B1と、運転者B1と会話している他者の発言時間の占める割合が、所定値以下になったか否かを判定してもよい。所定時間は、運転者B1と他者との会話に案内音声を割り込ませるタイミングが把握できる範囲内で適宜の時間を設定でき、例えば15~60秒である。所定値は、運転者B1と他者との会話に案内音声を割り込ませた場合に、運転者B1が案内音声を聞き逃すことを抑制できる範囲内で適宜の値を設定でき、例えば0~20%である。情報提示装置16は、所定時間に占める、運転者B1と他者の発言時間の割合が所定値以下になったと判定した場合は、当該割合が所定値以下になったと判定したタイミングで案内音声を出力する。 The information presentation device 16 may use the function of the output unit 6 to determine whether the ratio of speech time between the driver B1 and another person who is conversing with the driver B1 in a predetermined time period is equal to or less than a predetermined value. The predetermined time period can be set appropriately within a range in which the timing for interrupting the conversation between the driver B1 and another person with a guidance voice can be grasped, for example, 15 to 60 seconds. The predetermined value can be set appropriately within a range in which the driver B1 is prevented from missing the guidance voice when the guidance voice is interrupted in the conversation between the driver B1 and another person, for example, 0 to 20%. When the information presentation device 16 determines that the ratio of speech time between the driver B1 and another person in a predetermined time period is equal to or less than a predetermined value, it outputs the guidance voice at the timing when it is determined that the ratio is equal to or less than the predetermined value.
これに対し、所定時間に占める、運転者B1と他者の発言時間の割合が所定値を超えると判定した場合は、案内音声を出力しない。これに代え、情報提示装置16は、所定時間に占める、運転者B1と他者の発言時間の割合が所定値を超えると判定した場合は、発話者が運転者B1であるか否かを判定し、発話者が運転者B1であると判定した場合は、案内音声を出力してもよい。これに対し、発話者が運転者B1でないと判定した場合は、案内音声を出力しない。またこれに代え、情報提示装置16は、案内音声を生成したタイミングで直ちに案内音声を出力してもよい。つまり、案内音声の生成完了と同時に案内音声を出力してもよい。 In contrast, if it is determined that the ratio of speech time of driver B1 and others to a predetermined time exceeds a predetermined value, the guidance voice is not output. Alternatively, if the information presentation device 16 determines that the ratio of speech time of driver B1 and others to a predetermined time exceeds a predetermined value, it may determine whether the speaker is driver B1 or not, and output the guidance voice if it is determined that the speaker is driver B1. In contrast, if it is determined that the speaker is not driver B1, the guidance voice is not output. Alternatively, the information presentation device 16 may output the guidance voice immediately at the timing when the guidance voice is generated. In other words, the guidance voice may be output at the same time as the generation of the guidance voice is completed.
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合に、車室内の音声を30秒間取得し、運転者B1と乗員B2の発言時間が3秒であると検出されたときは、所定時間における発言時間の割合が10%であるため、情報提示装置16は、この割合を算出したタイミングで案内音声を出力する。なお、所定時間における発言時間の割合が所定値以下である状態を、運転者B1と他者の会話が途切れた状態とも言うこととする。 For example, in the case where driver B1 and passenger B2 are having a conversation in vehicle V shown in FIG. 2, if the voice in the vehicle cabin is acquired for 30 seconds and it is detected that the speech time of driver B1 and passenger B2 is 3 seconds, the ratio of speech time to the specified time is 10%, so the information presentation device 16 outputs a guidance voice at a timing calculated based on this ratio. Note that a state in which the ratio of speech time to the specified time is equal to or less than a specified value is also referred to as a state in which the conversation between driver B1 and another person has been interrupted.
情報提示装置16は、出力部6の機能により、ナビゲーション装置14から案内情報を取得し、案内情報に基づく案内音声が、運転者B1に操作を要求する音声であるか否かを判定してもよい。操作を要求する音声とは、例えば、運転者B1に運転操作の実行を指示する音声であり、交差点における右左折を指示する案内音声、右左折専用車線への進入を指示する案内音声、接近する他車両の存在を報知する案内音声などが挙げられる。これに対し、操作を要求しない声とは、運転者B1に単に情報を提示するのみの音声であり、近隣に駐車場が存在することを知らせる音声、ニュースを伝達する音声などが挙げられる。案内音声が操作を要求する音声であると判定された場合は、情報提示装置16は、操作を要求する音声を、操作を要求しない他の音声に優先して出力する。これに対し、案内音声が操作を要求する音声でないと判定された場合は、情報提示装置16は、操作を要求する他の音声を優先して出力し、その後、操作を要求しない音声を出力する。
The information presentation device 16 may obtain guidance information from the
情報提示装置16は、案内音声を出力する場合に、取得部3の機能により、運転者B1と会話する他者が発話しているか否かを判定してもよい。情報提示装置16は、例えば、車内カメラ11から取得した画像を解析し、運転者B1と会話している乗員の口の動きを検出する。そして、当該乗員の口の動き(例えば口の開き方)から、当該乗員が発話しているか否かを判定する。また、情報提示装置16は、通信装置13から通話者の第2音声を取得し、当該通話者が発話しているか否かを判定する。
When outputting the guidance voice, the information presentation device 16 may use the function of the
運転者B1と会話している他者が発話していると判定した場合は、出力部6の機能により、当該他者の発話する音声の波形と逆位相の波形を有する異なる音声を出力する。これにより、当該他者の音声が打ち消され、運転者B1が案内音声を聞き逃すことを抑制できる。これに対し、運転者B1と会話している他者が発話していないと判定した場合は、当該他者の音声に類似する案内音声を出力する。なお、他者が同乗者である場合は、逆位相の波形を有する音声は、例えば、車両Vのスピーカー15から出力され、他者が通話者である場合は、逆位相の波形を有する音声は、第2音声を出力するスピーカーから出力される。
If it is determined that the other person who is conversing with the driver B1 is speaking, the output unit 6 functions to output a different voice having a waveform in the opposite phase to the waveform of the voice of the other person. This cancels out the voice of the other person, preventing the driver B1 from missing the guidance voice. In contrast, if it is determined that the other person who is conversing with the driver B1 is not speaking, a guidance voice similar to the voice of the other person is output. Note that if the other person is a passenger, the voice having the opposite phase waveform is output, for example, from the
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合は、情報提示装置16は、乗員B2の口の動きを検出し、乗員B2の口の動きから、乗員B2が発話しているか否かを判定する。この場合、乗員B2が発話していると判定されるため、情報提示装置16は、当該乗員の発話する音声の波形と逆位相の波形を有する異なる音声を、スピーカー15a又はスピーカー15bから出力する。
For example, in the case where driver B1 and occupant B2 are having a conversation in vehicle V shown in FIG. 2, information display device 16 detects the movement of occupant B2's mouth and determines whether occupant B2 is speaking from the movement of occupant B2's mouth. In this case, since it is determined that occupant B2 is speaking, information display device 16 outputs a different voice having a waveform in the opposite phase to the waveform of the voice spoken by the occupant from
情報提示装置16は、モデル生成部4の機能により、運転者B1と会話した他者の音声モデルを生成した場合は、生成した音声モデルを、当該他者と対応付けて登録してもよい。例えば、情報提示装置16のROMなどの記録媒体又は情報提示システム1の外部のサーバに、予め音声モデルを登録しておく。そして、取得部3の機能により、運転者B1と会話している他者の音声を取得した場合に、特定部2の機能により特定された当該他人が、運転者B1と過去に会話したことがあるか否かを判定する。例えば、他者の顔の画像が、音声モデルと対応付けて予め登録されている場合は、車内カメラ11から画像を取得し、取得した画像から他者の顔を認識する。そして、車両Vに乗車中の他者の顔と一致する顔の画像が、予め登録された画像の中あるか否かを判定する。
When the information presentation device 16 generates a voice model of another person who has conversed with the driver B1 using the function of the
車両Vに乗車中の他者の顔と一致する顔の画像が、予め登録された画像の中あると判定した場合は、情報提示装置16は、車両Vの乗車中の他者が、運転者B1と過去に会話したことがあると認識し、当該他者に対応する、予め登録された音声モデルを音声生成部5に出力する。そして、出力された音声モデルを用いて案内音声を生成する。これに対し、車両Vに乗車中の他者の顔と一致する顔の画像が、予め登録された画像の中にないと判定した場合は、車両Vの乗車中の他者が、運転者B1と過去に会話したことがないと認識し、新たに音声モデルを生成する。
If it is determined that there is a facial image in the pre-registered images that matches the face of the other person in the vehicle V, the information presentation device 16 recognizes that the other person in the vehicle V has previously spoken with the driver B1, and outputs a pre-registered voice model corresponding to that other person to the
例えば、図2に示す車両Vにおいて運転者B1と乗員B2が会話をしている場合は、情報提示装置16は、車内カメラ11の画像から乗員B2の顔を識別し、識別した乗員B2の顔と同じ顔の画像が、予め登録された画像の中に存在するか否かを判定する。識別した乗員B2の顔と同じ顔の画像が、予め登録された画像の中に存在すると判定した場合は、乗員B2に対応する、登録された音声モデルを用いて案内音声を生成する。これに対し、識別した乗員B2の顔と同じ顔の画像が、予め登録された画像の中に存在しないと判定した場合は、乗員B2の音声の特徴量を用いて、新たに音声モデルを生成する。
For example, when driver B1 and occupant B2 are having a conversation in vehicle V shown in FIG. 2, information presentation device 16 identifies the face of occupant B2 from the image from in-
また、運転者B1と会話している他者が複数存在する場合は、情報提示装置16は、モデル生成部4の機能により、発言時間が最も長い他者を選択し、音声生成部5の機能により、発言時間が最も長い他者の音声と類似する案内音声を生成してもよい。発言時間は、例えば、運転者B1が他者と会話をしていると判定してから、音声モデルの生成が完了するまでの発言時間とする。またこれに代え、運転者B1が他者と会話をしていると判定してから、上述の所定時間(例えば15~60秒)が経過するまでの発言時間としてもよい。情報提示装置16は、出力部6の機能により、発言時間が最も長い他者の発話位置から案内音声を出力する。
In addition, if there are multiple other people conversing with the driver B1, the information presentation device 16 may use the function of the
同様に、運転者B1と会話している他者が複数存在する場合は、情報提示装置16は、音声生成部5の機能により他者ごとに案内音声を生成し、出力部6の機能により、生成した案内音声の中から、他者の音声と最も類似する案内音声を選択し、選択した案内音声を出力してもよい。他者の音声と最も類似するとは、他者の音声に含まれる周波数成分とその振幅と、生成した案内音声に含まれる周波数成分とその振幅との相違が最も小さいことを言う。なお、周波数成分とその振幅を算出する周波数解析は、生成した案内音声の全体に対して行う。
Similarly, if there are multiple other people conversing with the driver B1, the information presentation device 16 may generate a guidance voice for each other person using the function of the
同様に、運転者B1と会話している他者が複数存在する場合は、情報提示装置16は、音声生成部5の機能により他者ごとに案内音声を生成し、取得部3の機能により、他者の中に発話していない他者が存在するか否かを判定する。情報提示装置16は、例えば、車内カメラ11から取得した画像を解析し、運転者B1と会話している乗員の口の動きを検出する。そして、当該乗員の口の動き(例えば口の開き方)から、当該乗員が発話しているか否かを判定する。情報提示装置16は、発話していない他者が存在すると判定した場合は、発話していない他者の案内音声を出力する。これに対し、発話していない他者が存在しないと判定した場合は、案内音声の出力を一度停止し、発話していない他者が存在すると判定されるまで、当該判定を繰り返す。
Similarly, if there are multiple other people conversing with the driver B1, the information presentation device 16 generates a guidance voice for each other person using the function of the
[情報提示システムにおける処理]
図3~6を参照して、情報提示装置16が情報を処理する際の手順を説明する。図3~6は、本実施形態の情報提示システム1において実行される、情報の処理を示すフローチャートの一例である。以下に説明する処理は、情報提示装置16のプロセッサ(CPU)により所定の時間間隔で実行される。
[Processing in Information Presentation System]
The procedure for processing information by the information presentation device 16 will be described with reference to Figures 3 to 6. Figures 3 to 6 are examples of flowcharts showing information processing executed in the information presentation system 1 of this embodiment. The processing described below is executed at predetermined time intervals by the processor (CPU) of the information presentation device 16.
なお、図3~6に示すフローチャートは、車両Vが運転者B1による手動運転で走行している走行シーンを前提とする。手動運転とは、車載機器ではなく、ドライバーの操作により車両の走行を制御することを言うものとする。 The flowcharts shown in Figures 3 to 6 are based on the premise that the vehicle V is being driven manually by the driver B1. Manual driving refers to controlling the vehicle's driving by the driver's operation, rather than by on-board equipment.
まず、図3のステップS1にて、特定部2の機能により、車内カメラ11が撮影した画像から、車両Vの乗員の人数と各乗員の着座位置とを特定する。続くステップS2にて、取得部3の機能により、マイクロフォン12から車室内の音声を取得し、ステップS3にて、車内カメラ11が撮影した画像から、乗員(特に運転者B1)の口の動きを検出する。ステップS4にて、取得部3の機能により、運転者B1が他者と会話しているか否かを判定する。運転者B1が他者と会話していないと判定した場合は、ステップS2に進む。これに対し、運転者B1が他者と会話していると判定した場合は、ステップS5に進む。
First, in step S1 of FIG. 3, the
ステップS5にて、運転者B1が会話している他者が、車両Vの同乗者であるか否かを判定する。当該他者が、車両Vの同乗者でないと判定した場合は、図4のステップS21に進む。これに対し、当該他者が、車両Vの同乗者であると判定した場合は、ステップS6に進む。図4については後述する。ステップS6にて、同乗者が複数人であるか否かを判定する。同乗者が複数人であると判定した場合は、図5のステップS41又は図6のステップS61に進む。これに対し、同乗者が複数人でないと判定した場合は、ステップS7に進む。 In step S5, it is determined whether the other person with whom the driver B1 is talking is a passenger in the vehicle V. If it is determined that the other person is not a passenger in the vehicle V, the process proceeds to step S21 in FIG. 4. On the other hand, if it is determined that the other person is a passenger in the vehicle V, the process proceeds to step S6. FIG. 4 will be described later. In step S6, it is determined whether there are multiple passengers. If it is determined that there are multiple passengers, the process proceeds to step S41 in FIG. 5 or step S61 in FIG. 6. On the other hand, if it is determined that there are not multiple passengers, the process proceeds to step S7.
ステップS7にて、取得部3の機能により、車両の機器から出力された音声を車室内の音声から除去し、続くステップS8にて、車室内の音声から第1音声を抽出する。ステップS9にて、第1音声に対して周波数解析を実行し、続くステップS10にて、第1音声の特徴量を取得する。ステップS11にて、モデル生成部4の機能により、特徴量を用いて音声モデルを生成し、続くステップS12にて、音声生成部5の機能により、生成した音声モデルを用いて第1案内音声を生成する。
In step S7, the function of the
ステップS13にて、出力部6の機能により、所定時間における運転者B1と他者の発言時間の占める割合が所定値以下であるか否かを判定する。当該割合が所定値以下であると判定した場合は、ステップS14に進み、同乗者から運転者に向けて第1案内音声を出力する。そして、本ルーチンの実行を終了する。これに対し、当該割合が所定値を超えると判定した場合は、ステップS13を繰り返す。 In step S13, the function of the output unit 6 is used to determine whether the ratio of speech time taken by the driver B1 and other persons in a given time period is equal to or less than a given value. If it is determined that the ratio is equal to or less than the given value, the process proceeds to step S14, where a first guidance voice is output from the passenger to the driver. Then, execution of this routine ends. On the other hand, if it is determined that the ratio exceeds the given value, step S13 is repeated.
次に、図3のステップS5にて、当該他者が、車両Vの同乗者でないと判定した場合について、図4を参照して説明する。 Next, a case where it is determined in step S5 of FIG. 3 that the other person is not a passenger in vehicle V will be described with reference to FIG. 4.
まず、図4のステップS21にて、取得部3の機能により、通信装置13ら第2音声を取得し、続くステップS22にて、第2音声に対して周波数解析を実行し、続くステップS23にて、第2音声の特徴量を取得する。ステップS24にて、モデル生成部4の機能により、通話者が運転者B1と過去に会話したか否かを判定する。通話者が運転者B1と過去に会話したことがあると判定した場合は、ステップS25に進み、予め登録された音声モデルを用いて第2案内音声を生成する。これに対し、通話者が運転者B1と過去に会話したことがないと判定した場合は、ステップS26に進み、特徴量を用いて音声モデルを生成し、続くステップS27にて、音声生成部5の機能により、生成した音声モデルを用いて第2案内音声を生成する。
First, in step S21 of FIG. 4, the function of the
ステップS28にて、出力部6の機能により、通話者が発話中であるか否かを判定する。通話者が発話中であると判定した場合は、ステップS29に進み、第2音声の波形と逆位相の波形を有する異なる音声を出力する。その後、ステップS30に進む。これに対し、通話者が発話中でないと判定した場合は、ステップS30に進み、第2音声を出力するスピーカーから運転者に向けて第2案内音声を出力する。そして、本ルーチンの実行を終了する。 In step S28, the function of the output unit 6 is used to determine whether the caller is speaking. If it is determined that the caller is speaking, the process proceeds to step S29, where a different voice having a waveform in the opposite phase to the waveform of the second voice is output. Then, the process proceeds to step S30. On the other hand, if it is determined that the caller is not speaking, the process proceeds to step S30, where a second guidance voice is output to the driver from the speaker that outputs the second voice. Then, execution of this routine ends.
次に、図3のステップS6にて、同乗者が複数人であると判定した場合について、図5を参照して説明する。 Next, the case where it is determined in step S6 of FIG. 3 that there are multiple passengers will be described with reference to FIG. 5.
まず、図5のステップS41にて、車室内の音声から各同乗者の第1音声を抽出する。ステップS42にて、各同乗者の第1音声に対して周波数解析を実行し、続くステップS43にて、各同乗者の第1音声の特徴量を取得する。ステップS44にて、モデル生成部4の機能により、各同乗者の第1音声の特徴量に最も類似した特徴量を有する、音声モデルを選択し、続くステップS45にて、音声生成部5の機能により、選択した音声モデルを用いて第1案内音声を生成する。続くステップS46にて、発話していない同乗者が存在するか否かを判定する。
First, in step S41 of FIG. 5, the first voice of each passenger is extracted from the voice in the vehicle cabin. In step S42, frequency analysis is performed on the first voice of each passenger, and in the subsequent step S43, the features of the first voice of each passenger are obtained. In step S44, the function of the
発話していない同乗者が存在すると判定した場合は、ステップS47に進み、出力部6の機能により、発話していない同乗者の第1案内音声を出力するとともに、ステップS48にて、同乗者が発話したと認識させるように車内のスピーカーを制御する。そして、本ルーチンの実行を終了する。これに対し、発話していない同乗者が存在しないと判定した場合は、ステップS49に進み、第1音声と最も類似する第1案内音声を選択し、続くステップS50にて、選択した第1案内音声を、同乗者の着座位置に最も近い位置のスピーカー15から運転者B1に向けて出力する。そして、本ルーチンの実行を終了する。
If it is determined that there is a passenger who is not speaking, the process proceeds to step S47, where the output unit 6 uses its function to output a first guidance voice for the passenger who is not speaking, and in step S48, the speaker in the vehicle is controlled so that it is recognized that the passenger has spoken. Then, execution of this routine is terminated. On the other hand, if it is determined that there is no passenger who is not speaking, the process proceeds to step S49, where the first guidance voice that is most similar to the first voice is selected, and in the following step S50, the selected first guidance voice is output to the driver B1 from the
次に、図3のステップS6にて、同乗者が複数人であると判定した場合について、図5に示す処理とは異なる処理について、図6を参照して説明する。 Next, in the case where it is determined in step S6 of FIG. 3 that there are multiple passengers, the process that differs from the process shown in FIG. 5 will be described with reference to FIG. 6.
まず、図6のステップS61にて、モデル生成部4の機能により、発言時間が最長の同乗者を選択し、続くステップS62にて、発言時間が最長の同乗者の第1音声を抽出し、続くステップS63にて、抽出した第1音声に対して周波数解析を実行し、続くステップS64にて、発言時間が最長の同乗者の第1音声の特徴量を取得する。ステップS65にて、取得した特徴量が最も類似する音声モデルを選択し、続くステップS66にて、音声生成部5の機能により、選択した音声モデルを用いて第1案内音声を生成する。
First, in step S61 of FIG. 6, the passenger with the longest speaking time is selected using the function of the
ステップS67にて、出力部6の機能により、案内音声は運転者に操作を要求する音声か否かを判定する。案内音声が運転者に操作を要求する音声であると判定した場合は、ステップS68に進み、発言時間が最も長い同乗者から運転者B1に向けて第1案内音声を優先的に出力する。これに対し、案内音声が運転者に操作を要求する音声でないと判定した場合は、ステップS69に進み、運転者に操作を要求する他の案内音声を優先的に出力する。 In step S67, the output unit 6 determines whether the guidance voice is a voice requesting an operation from the driver. If it is determined that the guidance voice is a voice requesting an operation from the driver, the process proceeds to step S68, where the first guidance voice is preferentially output from the passenger who has been speaking the longest to the driver B1. On the other hand, if it is determined that the guidance voice is not a voice requesting an operation from the driver, the process proceeds to step S69, where another guidance voice requesting an operation from the driver is preferentially output.
ステップS70にて、運転者B1に操作を要求する他の案内音声を出力したか否かを判定する。運転者B1に操作を要求する他の案内音声を出力したと判定した場合は、ステップS71に進み、発言時間が最も長い同乗者から運転者B1に向けて第1案内音声を出力する。そして、本ルーチンの実行を終了する。これに対し、運転者B1に操作を要求する他の案内音声を出力していないと判定した場合は、ステップS69に進む。なお、本実施形態に係る情報提示装置16は、運転者B1と他人とが会話をしている場合のみならず、他人同士が会話をしている場合にも適用できる。 In step S70, it is determined whether or not another voice guidance requesting an operation has been output to the driver B1. If it is determined that another voice guidance requesting an operation has been output to the driver B1, the process proceeds to step S71, in which a first voice guidance request is output to the driver B1 from the passenger who has spoken the longest. Then, execution of this routine ends. On the other hand, if it is determined that another voice guidance requesting an operation has not been output, the process proceeds to step S69. Note that the information presentation device 16 according to this embodiment can be applied not only to cases in which the driver B1 is having a conversation with another person, but also to cases in which other people are having a conversation with each other.
[本発明の実施態様]
以上のとおり、本実施形態によれば、プロセッサにより実行される、車両Vの情報提示方法において、前記プロセッサは、前記車両Vの運転者B1が他者と会話している場合は、前記他者の音声を取得し、前記音声と類似する、前記運転者B1に情報を提示する案内音声を生成し、前記他者の発話位置から前記案内音声を出力する、車両Vの情報提示方法が提供される。これにより、運転者B1の運転操作を阻害することなく、他者と会話中の運転者B1が案内音声を聞き逃すことを抑制できる。
[Embodiments of the invention]
As described above, according to the present embodiment, there is provided a method for presenting information to a vehicle V, which is executed by a processor, in which, when a driver B1 of the vehicle V is talking to another person, the processor acquires the voice of the other person, generates a guidance voice similar to the voice and presents information to the driver B1, and outputs the guidance voice from a position where the other person is speaking. This makes it possible to prevent the driver B1, who is talking to another person, from missing the guidance voice without impeding the driving operation of the driver B1.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記他者が、前記車両Vに乗車している同乗者である場合は、前記同乗者の第1音声を取得し、前記第1音声と類似する、前記車両Vが走行経路に沿って走行するための情報を前記運転者B1に提示する第1案内音声を生成し、前記同乗者から前記運転者B1に向けて前記第1案内音声を出力する。これにより、運転者B1の運転操作を阻害することなく、同乗者と会話中の運転者B1が案内音声を聞き逃すことを抑制できる。 According to the information presentation method of this embodiment, when the other person is a passenger in the vehicle V, the processor acquires a first voice of the passenger, generates a first guidance voice similar to the first voice and presents information for the vehicle V to travel along a travel route to the driver B1, and outputs the first guidance voice from the passenger to the driver B1. This makes it possible to prevent the driver B1 from missing the guidance voice while talking to the passenger, without interfering with the driving operation of the driver B1.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記他者が、通信装置13を介して前記運転者B1と会話する車外の通話者である場合は、前記通話者の第2音声を取得し、前記第2音声と類似する、前記車両Vが走行経路に沿って走行するための情報を前記運転者B1に提示する第2案内音声を生成し、前記第2音声を出力するスピーカーから前記運転者B1に向けて前記第2案内音声を出力する。これにより、運転者B1の運転操作を阻害することなく、通話者と会話中の運転者B1が案内音声を聞き逃すことを抑制できる。 Furthermore, according to the information presentation method of this embodiment, when the other person is a caller outside the vehicle who is talking to the driver B1 via the communication device 13, the processor acquires the second voice of the caller, generates a second guidance voice similar to the second voice and presents information for the vehicle V to travel along a travel route to the driver B1, and outputs the second guidance voice to the driver B1 from a speaker that outputs the second voice. This makes it possible to prevent the driver B1, who is talking to the caller, from missing the guidance voice without interfering with the driving operation of the driver B1.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記音声に対して周波数解析を行って前記音声の特徴量を算出し、前記特徴量に基づき、予め登録された複数の音声モデルから前記特徴量が最も類似する前記音声モデルを選択し、選択した前記音声モデルを用いて前記案内音声を生成する。これにより、音声モデルを生成する工程を省略できる。 In addition, according to the information presentation method of this embodiment, the processor performs frequency analysis on the voice to calculate the features of the voice, selects the voice model with the most similar features from a plurality of pre-registered voice models based on the features, and generates the guidance voice using the selected voice model. This makes it possible to omit the step of generating a voice model.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記他者が複数存在する場合は、発言時間が最も長い前記他者を選択し、前記発言時間が最も長い前記他者の前記音声と類似する前記案内音声を生成し、前記発言時間が最も長い前記他者の前記発話位置から前記案内音声を出力する。これにより、会話の中心となる人間の音声を用いることができ、運転者B1が最も意識しやすい案内音声を出力できる。 In addition, according to the information presentation method of this embodiment, when there are multiple other people, the processor selects the other person who has spoken the longest, generates the guidance voice similar to the voice of the other person who has spoken the longest, and outputs the guidance voice from the speaking position of the other person who has spoken the longest. This makes it possible to use the voice of the person who is at the center of the conversation, and to output a guidance voice that is most easily noticeable to the driver B1.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記他者が複数存在する場合は、前記他者ごとに前記案内音声を生成し、前記案内音声の中から、前記音声と最も類似する前記案内音声を選択し、前記音声と最も類似する前記案内音声を出力する。これにより、運転者B1が案内音声に覚える違和感を抑制できる。 In addition, according to the information presentation method of this embodiment, when there are multiple other people, the processor generates the guidance voice for each of the other people, selects the guidance voice that is most similar to the voice from the guidance voices, and outputs the guidance voice that is most similar to the voice. This makes it possible to suppress the discomfort that the driver B1 feels from the guidance voice.
また、本実施形態の情報提示方法によれば、前記プロセッサは、所定時間における前記運転者B1と前記他者の発言時間の占める割合が所定値以下になったか否かを判定し、前記割合が前記所定値以下になったと判定したタイミングで前記案内音声を出力する。これにより、会話中の運転者B1が案内音声を聞き逃すことをより抑制できる。 In addition, according to the information presentation method of this embodiment, the processor determines whether the ratio of speech time of the driver B1 and the other person in a given time period is equal to or less than a given value, and outputs the guidance voice at the timing when it is determined that the ratio is equal to or less than the given value. This makes it possible to further prevent the driver B1 who is currently talking from missing the guidance voice.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記案内音声が、前記運転者B1に操作を要求する音声であるか否かを判定し、前記案内音声が前記操作を要求する音声であると判定した場合は、前記操作を要求する音声を、前記操作を要求しない音声に優先して出力する。これにより、重要度の高い情報を優先して伝達でき、併せて会話が中断することを抑制できる。 In addition, according to the information presentation method of this embodiment, the processor determines whether the guidance voice is a voice requesting the driver B1 to perform an operation, and if it determines that the guidance voice is a voice requesting the operation, outputs the voice requesting the operation in priority to the voice that does not request the operation. This allows information of high importance to be transmitted with priority, and also prevents conversation from being interrupted.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記案内音声を出力する場合に、前記他者が発話しているか否かを判定し、前記他者が発話していると判定したときは、前記音声の波形と逆位相の波形を有する異なる音声を出力する。これにより、会話中の運転者B1が案内音声を聞き逃すことをより抑制できる。 In addition, according to the information presentation method of this embodiment, when the processor outputs the guidance voice, it determines whether the other person is speaking, and when it determines that the other person is speaking, it outputs a different voice having a waveform in the opposite phase to the waveform of the voice. This makes it possible to further prevent the driver B1 who is talking from missing the guidance voice.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記運転者B1と会話した前記他者の音声モデルを、前記他者と対応付けて予め登録し、前記他者が前記運転者B1と過去に会話したことがあるか否かを判定し、前記他者が前記運転者B1と過去に会話したことがあると判定した場合は、前記他者に対応する、予め登録された前記音声モデルを用いて前記案内音声を生成する。これにより、音声モデルを生成する工程を省略できる。 In addition, according to the information presentation method of this embodiment, the processor pre-registers a voice model of the other person who has conversed with the driver B1 in association with the other person, determines whether the other person has conversed with the driver B1 in the past, and if it determines that the other person has conversed with the driver B1 in the past, generates the guidance voice using the pre-registered voice model corresponding to the other person. This makes it possible to omit the process of generating a voice model.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記他者が複数存在する場合は、前記他者ごとに前記案内音声を生成し、前記他者の中に発話していない前記他者が存在するか否かを判定し、発話していない前記他者が存在すると判定したときは、発話していない前記他者の前記案内音声を出力する。これにより、会話中の運転者B1が案内音声を聞き逃すことをより抑制できる。 In addition, according to the information presentation method of this embodiment, when there are multiple other people, the processor generates the guidance voice for each of the other people, determines whether or not there is a other person who is not speaking among the other people, and when it determines that there is a other person who is not speaking, outputs the guidance voice for the other person who is not speaking. This makes it possible to further prevent the driver B1 who is talking from missing the guidance voice.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記同乗者の人数と、各同乗者の着座位置とを特定する。これにより、複数の人間が車両Vに乗車していることを確認できる。 Furthermore, according to the information presentation method of this embodiment, the processor identifies the number of passengers and the seating positions of each passenger. This makes it possible to confirm that multiple people are riding in the vehicle V.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記車両Vの車室内の音声を取得し、前記車室内の音声から前記第1音声を抽出する。これにより、音声モデルの生成に影響するノイズを削減でき、案内音声の類似度が向上する。 Furthermore, according to the information presentation method of this embodiment, the processor acquires the voice in the vehicle cabin of the vehicle V and extracts the first voice from the voice in the vehicle cabin. This reduces noise that affects the generation of the voice model, and improves the similarity of the guidance voice.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記車室内の音声から前記第1音声を抽出する場合に、前記車室内の音声から前記車両Vの機器から出力された音声を除去する処理を行う。これにより、音声モデルの生成に影響するノイズをより的確に削減できる。 In addition, according to the information presentation method of this embodiment, when extracting the first voice from the voice within the vehicle cabin, the processor performs a process of removing the voice output from the device of the vehicle V from the voice within the vehicle cabin. This makes it possible to more accurately reduce noise that affects the generation of the voice model.
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記運転者B1に、前記同乗者が発話したと認識させるように車内のスピーカー15を制御する。これにより、複数のスピーカー15を連動させ、会話中の運転者B1が案内音声を聞き逃すことをより抑制できる。
In addition, according to the information presentation method of this embodiment, the processor controls the
また、本実施形態の情報提示方法によれば、前記プロセッサは、前記同乗者の着座位置に最も近い位置のスピーカー15から前記案内音声を出力する。これにより、案内音声が出力する位置を同乗者に近づけることができ、会話中の運転者B1が案内音声を聞き逃すことをより抑制できる。
In addition, according to the information presentation method of this embodiment, the processor outputs the guidance voice from the
また、本実施形態によれば、車両Vの運転者B1が他者と会話している場合に、前記他者の音声を取得する取得部3と、前記音声と類似する、前記運転者B1に情報を提示する案内音声を生成する音声生成部5と、前記他者の発話位置から前記案内音声を出力する出力部6とを備える、車両Vの情報提示装置16が提供される。これにより、これにより、運転者B1の運転操作を阻害することなく、他者と会話中の運転者B1が案内音声を聞き逃すことを抑制できる。
In addition, according to this embodiment, an information presentation device 16 for a vehicle V is provided, which includes an
1…情報提示システム
11…車内カメラ
12、12a、12b、12c…マイクロフォン
13、13a…通信装置
14…ナビゲーション装置
15、15a、15b、15c、15d…スピーカー
16…情報提示装置
2…特定部
3…取得部
4…モデル生成部
5…音声生成部
6…出力部
A1…運転席
A2…助手席
A3、A4…後部座席
B1…運転者
B2、B3、B4…乗員
V…車両
Reference Signs List 1...
Claims (17)
前記プロセッサは、
前記車両の運転者が他者と会話している場合は、前記他者の音声を取得し、
前記音声と類似する、前記運転者に情報を提示する案内音声を生成し、
前記他者の発話位置から前記案内音声を出力する、車両の情報提示方法。 A method for displaying information about a vehicle, the method comprising:
The processor,
When the driver of the vehicle is talking to another person, the voice of the other person is acquired;
generating a guidance voice similar to the voice for presenting information to the driver;
The vehicle information presentation method includes outputting the guidance voice from the speaking position of the other person.
前記他者が、前記車両に乗車している同乗者である場合は、前記同乗者の第1音声を取得し、
前記第1音声と類似する、前記車両が走行経路に沿って走行するための情報を前記運転者に提示する第1案内音声を生成し、
前記同乗者から前記運転者に向けて前記第1案内音声を出力する、請求項1に記載の車両の情報提示方法。 The processor,
When the other person is a passenger in the vehicle, a first voice of the passenger is acquired;
generating a first guidance voice similar to the first voice and presenting information to the driver for the vehicle to travel along a travel route;
The vehicle information presentation method according to claim 1 , wherein the first guidance voice is output from the passenger to the driver.
前記他者が、通信装置を介して前記運転者と会話する車外の通話者である場合は、前記通話者の第2音声を取得し、
前記第2音声と類似する、前記車両が走行経路に沿って走行するための情報を前記運転者に提示する第2案内音声を生成し、
前記第2音声を出力するスピーカーから前記運転者に向けて前記第2案内音声を出力する、請求項1又は2に記載の車両の情報提示方法。 The processor,
When the other person is a caller outside the vehicle who is talking to the driver via a communication device, a second voice of the caller is acquired;
generating a second guidance voice similar to the second voice and presenting information to the driver for the vehicle to travel along a travel route;
The vehicle information presentation method according to claim 1 , further comprising: outputting the second guidance voice to the driver from a speaker that outputs the second voice.
前記音声に対して周波数解析を行って前記音声の特徴量を算出し、
前記特徴量に基づき、予め登録された複数の音声モデルから前記特徴量が最も類似する前記音声モデルを選択し、
選択した前記音声モデルを用いて前記案内音声を生成する、請求項1に記載の車両の情報提示方法。 The processor,
performing a frequency analysis on the voice to calculate a feature amount of the voice;
Selecting a voice model having the most similar feature from a plurality of pre-registered voice models based on the feature;
The method for presenting information to a vehicle according to claim 1 , further comprising generating the guidance voice using the selected voice model.
前記他者が複数存在する場合は、発言時間が最も長い前記他者を選択し、
前記発言時間が最も長い前記他者の前記音声と類似する前記案内音声を生成し、
前記発言時間が最も長い前記他者の前記発話位置から前記案内音声を出力する、請求項1又は4に記載の車両の情報提示方法。 The processor,
If there are multiple other people, select the other person who has spoken the longest,
generating the guidance voice similar to the voice of the other person having the longest speaking time;
The method for presenting information to a vehicle according to claim 1 , further comprising: outputting the guidance voice from the speaking position of the other person whose speech duration is the longest.
前記他者が複数存在する場合は、前記他者ごとに前記案内音声を生成し、
前記案内音声の中から、前記音声と最も類似する前記案内音声を選択し、
前記音声と最も類似する前記案内音声を出力する、請求項1又は4に記載の車両の情報提示方法。 The processor,
When there are a plurality of other people, the guidance voice is generated for each of the other people;
Selecting the guidance voice that is most similar to the voice from among the guidance voices;
The method for presenting information to a vehicle according to claim 1 or 4, further comprising: outputting the guidance voice that is most similar to the voice.
所定時間における前記運転者と前記他者の発言時間の占める割合が所定値以下になったか否かを判定し、
前記割合が前記所定値以下になったと判定したタイミングで前記案内音声を出力する、請求項1又は4に記載の車両の情報提示方法。 The processor,
determining whether a ratio of speech time of the driver and the other person in a predetermined time period is equal to or less than a predetermined value;
The information presentation method for a vehicle according to claim 1 , further comprising: outputting the guidance voice at a timing when it is determined that the ratio is equal to or smaller than the predetermined value.
前記案内音声が、前記運転者に操作を要求する音声であるか否かを判定し、
前記案内音声が前記操作を要求する音声であると判定した場合は、前記操作を要求する音声を、前記操作を要求しない音声に優先して出力する、請求項1又は4に記載の車両の情報提示方法。 The processor,
determining whether the guidance voice is a voice requesting an operation from the driver;
The vehicle information presentation method according to claim 1 or 4, wherein, when it is determined that the guidance voice is a voice requesting the operation, the voice requesting the operation is output in priority to a voice not requesting the operation.
前記案内音声を出力する場合に、前記他者が発話しているか否かを判定し、
前記他者が発話していると判定したときは、前記音声の波形と逆位相の波形を有する異なる音声を出力する、請求項1又は4に記載の車両の情報提示方法。 The processor,
When outputting the guidance voice, it is determined whether or not the other person is speaking;
5. The method for presenting information to a vehicle according to claim 1, further comprising the step of outputting a different voice having a waveform inversely phase to a waveform of the voice when it is determined that the other person is speaking.
前記運転者と会話した前記他者の音声モデルを、前記他者と対応付けて予め登録し、
前記他者が前記運転者と過去に会話したことがあるか否かを判定し、
前記他者が前記運転者と過去に会話したことがあると判定した場合は、前記他者に対応する、予め登録された前記音声モデルを用いて前記案内音声を生成する、請求項1又は4に記載の車両の情報提示方法。 The processor,
A voice model of the other person who has had a conversation with the driver is registered in advance in association with the other person;
determining whether the other person has had a previous conversation with the driver;
5. The vehicle information presentation method according to claim 1, wherein if it is determined that the other person has had a conversation with the driver in the past, the guidance voice is generated using a pre-registered voice model corresponding to the other person.
前記他者が複数存在する場合は、前記他者ごとに前記案内音声を生成し、
前記他者の中に発話していない前記他者が存在するか否かを判定し、
発話していない前記他者が存在すると判定したときは、発話していない前記他者の前記案内音声を出力する、請求項1又は4に記載の車両の情報提示方法。 The processor,
When there are a plurality of other people, the guidance voice is generated for each of the other people;
determining whether or not there is a non-speaking other person among the other people;
The method for presenting information to a vehicle according to claim 1 or 4, further comprising the step of outputting the guidance voice of the other person who is not speaking when it is determined that the other person who is not speaking is present.
前記同乗者の人数と、各同乗者の着座位置とを特定する、請求項2に記載の車両の情報提示方法。 The processor,
The vehicle information presentation method according to claim 2 , further comprising identifying the number of passengers and the seating positions of each passenger.
前記車両の車室内の音声を取得し、
前記車室内の音声から前記第1音声を抽出する、請求項2又は12に記載の車両の情報提示方法。 The processor,
Acquire voice in the cabin of the vehicle;
The method for presenting information to a vehicle according to claim 2 or 12, further comprising extracting the first voice from a voice within the vehicle cabin.
前記車室内の音声から前記第1音声を抽出する場合に、前記車室内の音声から前記車両の機器から出力された音声を除去する処理を行う、請求項13に記載の車両の情報提示方法。 The processor,
The vehicle information presentation method according to claim 13 , further comprising the step of: removing a sound output from a device of the vehicle from the sound within the vehicle cabin when the first sound is extracted from the sound within the vehicle cabin.
前記運転者に、前記同乗者が発話したと認識させるように車内のスピーカーを制御する、請求項2又は12に記載の車両の情報提示方法。 The processor,
The information presentation method for a vehicle according to claim 2 or 12, further comprising controlling a speaker in the vehicle so as to make the driver recognize that the passenger has spoken.
前記同乗者の着座位置に最も近い位置のスピーカーから前記案内音声を出力する、請求項2又は12に記載の車両の情報提示方法。 The processor,
The information presentation method for a vehicle according to claim 2 or 12, wherein the guidance voice is output from a speaker located closest to a seating position of the passenger.
前記音声と類似する、前記運転者に情報を提示する案内音声を生成する音声生成部と、
前記他者の発話位置から前記案内音声を出力する出力部とを備える、車両の情報提示装置。 an acquisition unit that acquires a voice of another person when the driver of the vehicle is talking to the other person;
a voice generating unit that generates a guidance voice similar to the voice and presents information to the driver;
and an output unit that outputs the guidance voice from the speaking position of the other person.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022177333A JP2024067341A (en) | 2022-11-04 | 2022-11-04 | Information presentation method and information presentation device for vehicle |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022177333A JP2024067341A (en) | 2022-11-04 | 2022-11-04 | Information presentation method and information presentation device for vehicle |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024067341A true JP2024067341A (en) | 2024-05-17 |
Family
ID=91068092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022177333A Pending JP2024067341A (en) | 2022-11-04 | 2022-11-04 | Information presentation method and information presentation device for vehicle |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024067341A (en) |
-
2022
- 2022-11-04 JP JP2022177333A patent/JP2024067341A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4380541B2 (en) | Vehicle agent device | |
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
JP6466385B2 (en) | Service providing apparatus, service providing method, and service providing program | |
US10994612B2 (en) | Agent system, agent control method, and storage medium | |
US11450316B2 (en) | Agent device, agent presenting method, and storage medium | |
JP4973722B2 (en) | Voice recognition apparatus, voice recognition method, and navigation apparatus | |
US10901503B2 (en) | Agent apparatus, agent control method, and storage medium | |
WO2019069731A1 (en) | Information processing device, information processing method, program, and moving body | |
JP2000181500A (en) | Speech recognition apparatus and agent apparatus | |
JP2007216920A (en) | Seat controller for automobile, seat control program and on-vehicle navigation device | |
JP7472936B2 (en) | Video control device | |
JP5687889B2 (en) | Vehicle interior monitoring device | |
JP2020060861A (en) | Agent system, agent method, and program | |
JP2020154996A (en) | Information processing system, agent system, information processing method, and program | |
JP6785889B2 (en) | Service provider | |
JP2024067341A (en) | Information presentation method and information presentation device for vehicle | |
JPH11352987A (en) | Voice recognition device | |
CN114194122B (en) | Safety prompt system and automobile | |
WO2022176038A1 (en) | Voice recognition device and voice recognition method | |
JP6332072B2 (en) | Dialogue device | |
JP2020060623A (en) | Agent system, agent method, and program | |
JP7192561B2 (en) | Audio output device and audio output method | |
JP2021163236A (en) | Information providing device | |
WO2023122283A1 (en) | Voice assistant optimization dependent on vehicle occupancy | |
JP2023156167A (en) | Driving support device |