JP2022095768A - インテリジェントキャビン用の対話方法、装置、機器および媒体 - Google Patents
インテリジェントキャビン用の対話方法、装置、機器および媒体 Download PDFInfo
- Publication number
- JP2022095768A JP2022095768A JP2022055539A JP2022055539A JP2022095768A JP 2022095768 A JP2022095768 A JP 2022095768A JP 2022055539 A JP2022055539 A JP 2022055539A JP 2022055539 A JP2022055539 A JP 2022055539A JP 2022095768 A JP2022095768 A JP 2022095768A
- Authority
- JP
- Japan
- Prior art keywords
- information
- command
- dialogue
- multimodal
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000004044 response Effects 0.000 claims abstract description 63
- 230000033001 locomotion Effects 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000008921 facial expression Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 13
- 230000000007 visual effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 239000000446 fuel Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000015541 sensory perception of touch Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
- B60W40/09—Driving style or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/08—Interaction between the driver and the control system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/54—Audio sensitive means, e.g. ultrasound
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/21—Voice
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/22—Psychological state; Stress level or workload
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/30—Driving style
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示の一態様によれば、インテリジェントキャビン用の対話方法であって、ユーザの対話指令に応じて、インテリジェントキャビンに関連するマルチモーダル情報を収集することと、マルチモーダル情報を前処理することと、予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が対話指令と整列されているかどうかを確定することと、確定された結果および前処理されたマルチモーダル情報に基づいて、対話指令に対する応答ポリシーを確定することとを含むインテリジェントキャビン用の対話方法を提供する。
本開示の他の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供する。コンピュータログラムはプロセッサによって実行されると、以上に記載の方法のステップを実行する。
理解すべきことは、この部分に説明される内容は、本開示の実施形態の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。
以下、添付の図面を参照して本開示の実施例について詳細に説明する。
図2は、関連技術におけるインテリジェントキャビン用の対話方法200の概略図である。図2に示すように、関連技術では、ユーザ210は、何らかの対話方法でインテリジェントキャビン220と対話する。対話の方法は、例えば、音声、視覚、タッチ装置などであってもよい。破線の矢印は、インテリジェントキャビンがユーザ210の対話方式に従って対応する情報収集を行うことを示す。例えば、ユーザが音声によって指令を出すと、指令は音声情報230を収集して処理する。次いで、対話ポリシー分析260を介して対話応答を生成する。同様に、ユーザが視覚またはタッチ方式で指令を出すと、指令は、映像情報240または触覚情報250を収集し処理し、対応する対話ポリシー分析270および280を介して対話応答を生成する。
ステップ310において、ユーザの対話指令に基づいて、インテリジェントキャビンに関連するマルチモーダル情報を収集する。一例では、ユーザは、音声、視覚、タッチ装置などの様々な方法で、インテリジェントキャビンに対話指令を出すことができる。しかしながら、インテリジェントキャビンは、ユーザと同じ方法による情報を収集するだけではなく、インテリジェントキャビンに関連するマルチモーダル情報も収集する。
以上のように、マルチモーダル情報に基づく対話方法300は、視覚、聴覚、触覚、知覚などの多方位の情報を収集することにより、ユーザの行動を総合的に理解し、フィードバックを与えることができる。カメラ、マイクロフォン、タッチ装置などの多経路で収集されたユーザ行動データによって、インテリジェントキャビンは総合的な決定を出して、より知能的な応答ポリシーを提供し、それによってユーザ体験を向上させることができる。
ステップ430において、映像セグメントからユーザの唇の動きを識別する。一例では、特徴抽出または他の画像処理の方法によってユーザの唇の動きを識別することができる。
ステップ510において、前処理されたマルチモーダル情報のうち対話指令と整列できない情報をフィルタリングする。一例では、異なる整列確定方式によって、マルチモーダル情報のうちのどの情報が対話指令と整列するか、どの情報が対話指令と整列していないかを確定することができる。そして整列できない、すなわちデータ伝達情報が一致しない情報をフィルタリングする。
いくつかの例示的な実施例では、対話ポリシーは話術によって前記ユーザに回答することを含み、話術回答のパラメータは、予めトレーニングされた応答ポリシー分析モデルによって取得され、話術音色パラメータ、話術性別パラメータ、話術年齢パラメータ、話術スタイルパラメータ、イメージパラメータ、表情パラメータおよび動作パラメータからなるグループから選択される少なくとも1つを含む。一例では、ユーザを含む映像情報から、応答ポリシー分析モデルは、異なるユーザに応じて異なる対話ポリシーを生成することができる。例えば、性別年齢が異なると、話術音色スタイルが異なる。また、例えば、仮想アシスタントを含むインテリジェントキャビンにおいて、異なるユーザに異なるイメージまたは表情などでフィードバックすることができる。したがって、本願の実施例は、マルチモーダル情報を考慮しているので、ユーザのニーズを総合的に理解して、ユーザのための個人化された対話体験を生成することができる。
第1確定ユニット730は、予めトレーニングされたマルチモーダル情報整列モデルを採用して、マルチモーダル情報が対話指令と整列されているかどうかを確定するように構成される。
いくつかの例示的な実施例では、インテリジェントキャビンは、マイクロフォンと、カメラと、タッチ装置とを含む車載情報システムを含み、前記インテリジェントキャビンに関連するマルチモーダル情報は、マイクロフォンが収集した音声情報、カメラが収集した映像情報、タッチ装置が感知したタッチ情報、インテリジェントキャビンを搭載する車両の車両状態情報からなるグループから選択される少なくとも1つを含む。
第1識別サブユニット732は、音声指令から指令語を識別するように構成される。
第2識別サブユニット733は、映像セグメントからユーザの唇の動きを識別するように構成される。
抽出サブユニットは、音声情報に対して意味解析と意味理解を行って、対応する指令意図を抽出するように構成される。
いくつかの例示的な実施例では、第1確定ユニット730は、フィルタリングサブユニット735および第3確定サブユニット736を含む。
第3確定サブユニットは、フィルタリングされたマルチモーダル情報に基づいて、前記応答ポリシーを確定するように構成される。
図8を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器800の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子のコンピューティングデバイス、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、インテリジェントフォン、ウェアラブルデバイスとその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび/又は請求した本開示の実現を制限しない。
Claims (20)
- インテリジェントキャビン用の対話方法であって、
ユーザの対話指令に応じて、前記インテリジェントキャビンに関連するマルチモーダル情報を収集することと、
前記マルチモーダル情報を前処理することと、
予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が前記対話指令と整列されているかどうかを確定することと、
前記確定された結果および前処理されたマルチモーダル情報に基づいて、前記対話指令に対する応答ポリシーを確定することとを含むインテリジェントキャビン用の対話方法。 - 前記インテリジェントキャビンは、マイクロフォンと、カメラと、タッチ装置とを含む車載情報システムを含み、前記の前記インテリジェントキャビンに関連するマルチモーダル情報は、
前記マイクロフォンが収集した音声情報、
前記カメラが収集した映像情報、
前記タッチ装置が感知したタッチ情報、および
前記インテリジェントキャビンを搭載車両の車両状態情報のうちの少なくとも1つを含む請求項1に記載の方法。 - 前記対話指令は、音声指令を含み、前記マルチモーダル情報は、前記映像情報を含み、前記の、前処理されたマルチモーダル情報が前記対話指令と整列されているかどうかを確定することは、
前記映像情報から前記音声指令と同じ開始時間と同じ終了時間を有する映像セグメントを識別することと、
前記音声指令から指令語を識別することと、
前記映像セグメントから前記ユーザの唇の動きを識別することと、
前記ユーザの唇の動きが前記指令語に対応する唇の動きと一致することを確定したことに応答して、前記音声指令が前記映像情報に整列されていることを確定することとを含む請求項2に記載の方法。 - 前記対話指令は音声指令を含み、前記マルチモーダル情報は前記車両状態情報を含み、前記前処理されたマルチモーダル情報が前記対話指令に整列されているかどうかを確定することは、
前記音声情報に対して意味解析と意味理解を行って、対応する指令意図を抽出することと、
前記指令意図が前記車両状態情報と一致することに応答して、前記音声指令が前記車両状態情報に整列されていることを確定することとを含む請求項2に記載の方法。 - 前記の、前記対話指令に対する応答ポリシーを確定することは、
前処理されたマルチモーダル情報のうち前記対話指令と整列できない情報をフィルタリングすることと、
フィルタリングされたマルチモーダル情報に基づいて、前記応答ポリシーを確定することとを含む請求項1~4のいずれか一項に記載の方法。 - 前記の、前記応答ポリシーを確定することは、
予めトレーニングされた応答ポリシー分析モデルを用いてフィルタリングされたマルチモーダル情報を処理することによって、前記応答ポリシーを確定することを含み、前記応答ポリシーは、対話ポリシーおよび実行ポリシーのうちの少なくとも1つを含む請求項5に記載の方法。 - 前記対話ポリシーは、話術によって前記ユーザに回答することを含み、前記話術回答のパラメータは、前記予めトレーニングされた応答ポリシー分析モデルによって取得され、話術音色パラメータ、話術性別パラメータ、話術年齢パラメータ、話術スタイルパラメータ、イメージパラメータ、表情パラメータおよび動作パラメータのうちの少なくとも1つを含む請求項6に記載の方法。
- 前記実行ポリシーは、前記対話指令に応答するように、前記インテリジェントキャビンを搭載する車両のハードウェアシステムまたはソフトウェアシステムを制御することを含む請求項6に記載の方法。
- 前記の、前記応答ポリシーを確定することは、
フィルタリングされたマルチモーダル情報が空集合であることに応答して、前記対話指令に応答しないことを含む請求項5に記載の方法。 - 前記の、前記マルチモーダル情報を前処理することは、予めトレーニングされた複数の対応するモジュール情報処理モデルを用いて前記マルチモーダル情報を前処理することを含む請求項1~4のいずれか一項に記載の方法。
- インテリジェントキャビン対話装置であって、
前記インテリジェントキャビン内のユーザからの対話指令に基づいて、前記インテリジェントキャビンに関連するマルチモーダル情報を収集するように構成される収集ユニットと、
前記マルチモーダル情報を前処理するように構成される前処理ユニットと、
予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が前記対話指令と整列されているかどうかを確定するように構成される第1確定ユニットと、
前記確定された結果および前処理されたマルチモーダル情報に基づいて、前記対話指令に対する応答ポリシーを確定するように構成される第2確定ユニットとを含むインテリジェントキャビン対話装置。 - 前記インテリジェントキャビンは、マイクロフォンと、カメラと、タッチ装置とを含む車載情報システムを含み、前記の前記インテリジェントキャビンに関連するマルチモーダル情報は、
前記マイクロフォンが収集した音声情報、
前記カメラが収集した映像情報、
前記タッチ装置が感知したタッチ情報、および
前記インテリジェントキャビンを搭載する車両の車両状態情報からなるグループから選択される少なくとも1つを含む請求項11に記載の装置。 - 前記対話指令は音声指令を含み、前記マルチモーダル情報は前記映像情報を含み、前記第1確定ユニットは、
前記映像情報から前記音声指令と同じ開始時間と同じ終了時間を有する映像セグメントを識別するように構成される識別サブユニットと、
前記音声指令から指令語を識別するように構成される第1識別サブユニットと、
前記映像セグメントから前記ユーザの唇の動きを識別するように構成される第2識別サブユニットと、
前記ユーザの唇の動きが前記指令語に対応する唇の動きと一致することを確定したことに応答して、前記音声指令が前記映像情報に整列されていることを確定するように構成される第1確定サブユニットとを含む請求項12に記載の装置。 - 前記対話指令は音声指令を含み、前記マルチモーダル情報は前記車両状態情報を含み、前記第1確定ユニットは、
前記音声情報に対して意味解析と意味理解を行って、対応する指令意図を抽出するように構成される抽出サブユニット、および
前記指令意図が前記車両状態情報と一致することに応答して、前記音声指令が前記車両状態情報に整列されていることを確定するように構成される第2確定サブユニットとを含む請求項12に記載の装置。 - 前記第2確定ユニットは、
前処理されたマルチモーダル情報のうち前記対話指令と整列できない情報をフィルタリングするように構成されるフィルタリングサブユニット、および
フィルタリングされたマルチモーダル情報に基づいて、前記応答ポリシーを確定するように構成される第3確定サブユニットを含む請求項11~14のいずれか一項に記載の装置。 - 前記対話ポリシーは、話術によって前記ユーザに回答することを含み、前記話術回答のパラメータは、前記予めトレーニングされた応答ポリシー分析モデルによって取得され、話術音色パラメータ、話術性別パラメータ、話術年齢パラメータ、話術スタイルパラメータ、イメージパラメータ、表情パラメータおよび動作パラメータからなるグループから選択される少なくとも1つを含む請求項15に記載の装置。
- 前記実行ポリシーは、前記対話指令に応答するように、前記インテリジェントキャビンを搭載する車両のハードウェアシステムまたはソフトウェアシステムを制御することを含む請求項15に記載の装置。
- 電子機器であって、
少なくとも1つのプロセッサ、および
前記少なくとも1つのプロセッサに通信接続されたメモリを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~10のいずれか一項に記載の方法を実行させる電子機器。 - コンピュータに請求項1~10のいずれか一項に記載の方法を実行させるためのコンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体。
- プロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110944706.3A CN113655938B (zh) | 2021-08-17 | 2021-08-17 | 一种用于智能座舱的交互方法、装置、设备和介质 |
CN202110944706.3 | 2021-08-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022095768A true JP2022095768A (ja) | 2022-06-28 |
Family
ID=78491810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022055539A Pending JP2022095768A (ja) | 2021-08-17 | 2022-03-30 | インテリジェントキャビン用の対話方法、装置、機器および媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220234593A1 (ja) |
JP (1) | JP2022095768A (ja) |
CN (1) | CN113655938B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118034492A (zh) * | 2023-12-29 | 2024-05-14 | 辉塔信息技术咨询(上海)有限公司 | 一种数字化多模态人机交互座舱模拟控制系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114327041B (zh) * | 2021-11-26 | 2022-09-27 | 北京百度网讯科技有限公司 | 智能座舱的多模态交互方法、系统及具有其的智能座舱 |
CN114201102B (zh) * | 2021-11-30 | 2024-06-25 | 斑马网络技术有限公司 | 信息处理方法、装置及存储介质 |
CN115610349B (zh) * | 2022-10-21 | 2024-05-17 | 阿维塔科技(重庆)有限公司 | 一种基于多模融合的智能交互方法及装置 |
CN116061959A (zh) * | 2023-04-03 | 2023-05-05 | 北京永泰万德信息工程技术有限公司 | 一种车辆的人机交互方法、车辆及存储介质 |
CN116991157B (zh) * | 2023-04-14 | 2024-09-10 | 北京百度网讯科技有限公司 | 具备人类专家驾驶能力的自动驾驶模型、训练方法和车辆 |
CN116383027B (zh) * | 2023-06-05 | 2023-08-25 | 阿里巴巴(中国)有限公司 | 人机交互的数据处理方法及服务器 |
CN116767255B (zh) * | 2023-07-03 | 2024-02-06 | 深圳市哲思特科技有限公司 | 一种用于新能源汽车的智能座舱联动方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004354930A (ja) * | 2003-05-30 | 2004-12-16 | Calsonic Kansei Corp | 音声認識システム |
US20140136013A1 (en) * | 2012-11-15 | 2014-05-15 | Sri International | Vehicle personal assistant |
JP2017090611A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
JP2017087950A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 車両用音声操作装置 |
JP2020518844A (ja) * | 2017-03-23 | 2020-06-25 | ジョイソン セイフティ システムズ アクイジション エルエルシー | 口の画像を入力コマンドと相互に関連付けるシステム及び方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080043144A1 (en) * | 2006-08-21 | 2008-02-21 | International Business Machines Corporation | Multimodal identification and tracking of speakers in video |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
US9286029B2 (en) * | 2013-06-06 | 2016-03-15 | Honda Motor Co., Ltd. | System and method for multimodal human-vehicle interaction and belief tracking |
US10769635B2 (en) * | 2016-08-05 | 2020-09-08 | Nok Nok Labs, Inc. | Authentication techniques including speech and/or lip movement analysis |
CN108182943B (zh) * | 2017-12-29 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 一种智能设备控制方法、装置及智能设备 |
CN109933272A (zh) * | 2019-01-31 | 2019-06-25 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态深度融合机载座舱人机交互方法 |
WO2021114224A1 (zh) * | 2019-12-13 | 2021-06-17 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN112148850A (zh) * | 2020-09-08 | 2020-12-29 | 北京百度网讯科技有限公司 | 动态交互方法、服务器、电子设备及存储介质 |
CN112937590B (zh) * | 2021-02-04 | 2022-10-04 | 厦门金龙联合汽车工业有限公司 | 一种智能车辆动态人机交互系统和方法 |
CN112767916B (zh) * | 2021-02-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN113255556A (zh) * | 2021-06-07 | 2021-08-13 | 斑马网络技术有限公司 | 多模态语音端点检测方法及装置、车载终端、存储介质 |
-
2021
- 2021-08-17 CN CN202110944706.3A patent/CN113655938B/zh active Active
-
2022
- 2022-03-30 JP JP2022055539A patent/JP2022095768A/ja active Pending
- 2022-04-11 US US17/717,834 patent/US20220234593A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004354930A (ja) * | 2003-05-30 | 2004-12-16 | Calsonic Kansei Corp | 音声認識システム |
US20140136013A1 (en) * | 2012-11-15 | 2014-05-15 | Sri International | Vehicle personal assistant |
JP2017090611A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
JP2017087950A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 車両用音声操作装置 |
JP2020518844A (ja) * | 2017-03-23 | 2020-06-25 | ジョイソン セイフティ システムズ アクイジション エルエルシー | 口の画像を入力コマンドと相互に関連付けるシステム及び方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118034492A (zh) * | 2023-12-29 | 2024-05-14 | 辉塔信息技术咨询(上海)有限公司 | 一种数字化多模态人机交互座舱模拟控制系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113655938B (zh) | 2022-09-02 |
CN113655938A (zh) | 2021-11-16 |
US20220234593A1 (en) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022095768A (ja) | インテリジェントキャビン用の対話方法、装置、機器および媒体 | |
US12118999B2 (en) | Reducing the need for manual start/end-pointing and trigger phrases | |
JP7386878B2 (ja) | アシスタントの応答を動的に適応させること | |
EP4028932B1 (en) | Reduced training intent recognition techniques | |
KR102492783B1 (ko) | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 | |
EP3642833B1 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
US10127911B2 (en) | Speaker identification and unsupervised speaker adaptation techniques | |
KR102599607B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
CN112868060B (zh) | 用户、自动化助理和其它计算服务之间的多模态交互 | |
CN112489641A (zh) | 用于高效对话处理的实时反馈 | |
KR20190006403A (ko) | 음성 처리 방법 및 이를 지원하는 시스템 | |
KR20190101630A (ko) | 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법 | |
EP3593346B1 (en) | Graphical data selection and presentation of digital content | |
US20210349433A1 (en) | System and method for modifying an initial policy of an input/output device | |
JP2022539674A (ja) | 特定話者スピーチモデルを使用した話者認識 | |
CN112840313A (zh) | 电子设备及其控制方法 | |
KR20190139489A (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
US12094454B2 (en) | Multimodal intent understanding for automated assistant | |
CN112951216B (zh) | 一种车载语音处理方法及车载信息娱乐系统 | |
KR102612835B1 (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
KR20200092763A (ko) | 사용자 음성을 처리하는 전자장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240822 |