JP2022095768A - インテリジェントキャビン用の対話方法、装置、機器および媒体 - Google Patents

インテリジェントキャビン用の対話方法、装置、機器および媒体 Download PDF

Info

Publication number
JP2022095768A
JP2022095768A JP2022055539A JP2022055539A JP2022095768A JP 2022095768 A JP2022095768 A JP 2022095768A JP 2022055539 A JP2022055539 A JP 2022055539A JP 2022055539 A JP2022055539 A JP 2022055539A JP 2022095768 A JP2022095768 A JP 2022095768A
Authority
JP
Japan
Prior art keywords
information
command
dialogue
multimodal
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022055539A
Other languages
English (en)
Inventor
シユアン・ウー
Siyuan Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022095768A publication Critical patent/JP2022095768A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W40/09Driving style or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/54Audio sensitive means, e.g. ultrasound
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/22Psychological state; Stress level or workload
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/30Driving style

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】様々な方面の情報に基づいてユーザに応答することでユーザ体験を向上させるインテリジェントキャビン用の対話方法、装置、電子機器及びプログラムを提供する。【解決手段】方法は、ユーザの対話指令に応じて、インテリジェントキャビンに関連するマルチモーダル情報を収集し、マルチモーダル情報を前処理し、予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が対話指令と整列されているかどうかを確定し、確定された結果および前処理されたマルチモーダル情報に基づいて、対話指令に対する応答ポリシーを確定する。【選択図】図3

Description

本開示は、人工知能技術の分野に関し、特に、インテリジェントインタラクションに関し、具体的には、インテリジェントキャビン用の対話方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラム製品に関する。
人工知能は、コンピュータに人間の何らかの思惟過程および知的行動(例えば、トレーニング、推理、思考、計画など)をシミュレートさせるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および機械トレーニング/深層トレーニング、ビッグデータ処理技術、知識画像技術などのいくつかの方向を含む。
ト唇の面では、インテリジェントな車載製品を配置することにより、ト唇ツールは、移動可能なインテリジェントなト唇空間に徐々に進化する。インテリジェントキャビンとユーザとの間の対話技術の開発は、ユーザに、より快適でよりインテリジェントな体験を与える。関連技術の中で、インテリジェントキャビン用の対話技術の研究には、大きな上昇空間がある。
この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に記載されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分に言及する問題は、いかなる従来技術において公認されるものとは考えられるべきではない。
本開示は、インテリジェントキャビン用の対話方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラム製品を提供する。
本開示の一態様によれば、インテリジェントキャビン用の対話方法であって、ユーザの対話指令に応じて、インテリジェントキャビンに関連するマルチモーダル情報を収集することと、マルチモーダル情報を前処理することと、予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が対話指令と整列されているかどうかを確定することと、確定された結果および前処理されたマルチモーダル情報に基づいて、対話指令に対する応答ポリシーを確定することとを含むインテリジェントキャビン用の対話方法を提供する。
本開示の別の態様によれば、インテリジェントキャビンの対話装置であって、インテリジェントキャビン内のユーザからの対話指令に基づいて、インテリジェントキャビンに関連するマルチモーダル情報を収集するように構成される収集ユニットと、マルチモーダル情報を前処理するように構成される前処理ユニットと、予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が対話指令と整列されているかどうかを確定するように構成される第1確定ユニットと、確定された結果および前処理されたマルチモーダル情報に基づいて、対話指令に対する応答ポリシーを確定するように構成される第2確定ユニットとを含むインテリジェントキャビンの対話装置を提供する。
本開示の別の態様によれば、電子機器であって、少なくとも1つのプロセッサおよびプロセッサに通信接続されたメモリを含み、メモリには、少なくとも1つのプロセッサによって実行可能な指令が記憶され、指令は少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサに以上に記載の方法を実行させる電子機器を提供する。
本開示の別の態様によれば、コンピュータに以上に記載の方法のステップを実行させるためのコンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
本開示の他の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供する。コンピュータログラムはプロセッサによって実行されると、以上に記載の方法のステップを実行する。
本開示の1つまたは複数の実施例によれば、様々な方面の情報に基づいてユーザに応答してユーザ体験を向上させることができる。
理解すべきことは、この部分に説明される内容は、本開示の実施形態の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムを示す概略図である。 関連技術におけるインテリジェントキャビン用の対話方法の概略図である。 本開示の実施例によるインテリジェントキャビン用の対話方法を示すフローチャートである。 本開示の実施例による、図1における、マルチモーダル情報が対話指令に整列されているかどうかを確定するフローチャートである。 本開示の実施例による、図1における応答ポリシーを確定するフローチャートである。 本開示の実施例による、インテリジェントキャビン用の対話方法を示す概略図である。 本開示の実施例によるインテリジェントキャビン用の対話装置の構成を示すブロック図である。 本開示の実施例を実現するために使用できる例示的な電子機器の構成を示すブロック図である。
以下、図面に合わせて本開示の例示的な実施形態を説明して、それに含まれる本開示の実施形態における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲および精神から逸脱することなく、本明細書で説明された実施形態に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第1要素と第2要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストが別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は一つであってもよいし、複数であってもよい。また、本開示で使用される用語「および/又は」は、リストされた項目のいずれかおよび可能な全ての組み合わせをカバーする。
インターネットとAI技術の発展は人類の生活方式を新たに定義し、人類の衣食生活の各方面に影響を与え、運行の方面において、知能化の車載製品を配備することによって、自動車は知能運転時代に入り、ト唇ツールから移動可能な知能ト唇空間になる。インテリジェント車載製品は人、道、車の情報収集と交換を通じて、車内のユーザに狭い車室内に、快適で便利な運転と外出体験を持たせることができる。
関連技術では、インテリジェントキャビンは様々な対話方法の対応ですでに進歩しており、人の顔認識、音声認識、区画ごとの音認識、ジェスチャ制御などの様々な対話機能を有し、ユーザは様々な方法でインテリジェントキャビンと対話することができる。しかし、各対話機能は、一般に、顔検出が視覚能力のみを使用し、音声認識がマイクロフォンによって収集された音声情報のみを使用するなど、単一の情報源のみに基づいている。
人間と人間との自然な対話は、2人が対面して対話や情報交換を行う場合、人間は自分の知覚能力を十分に発揮し、視覚、聴覚、嗅覚、味覚、触覚、知覚などを通して理解情報を収集し、各チャネルの情報を統合して最終的なフィードバックを与えるというものである.たとえば、ユーザが冗談を言っているときには、冗談を音声で話すだけでなく、自分の感情を表現するように振舞ってしまう。ユーザに満足度の高い体験を与える場合には、様々な情報源を統合してユーザ行動の分析と意思確定を行い、多様な情報源の意思確定結果に基づくフィードバックを与える必要がある.
以下、添付の図面を参照して本開示の実施例について詳細に説明する。
図1は、本開示の実施例による、本明細書に記載された様々な方法および装置を、その中で実施することができる例示的なシステム100の概略図である。図1を参照すると、このシステム100は、1つまたは複数のクライアントデバイス101、102、103、104、105および106、サーバ120、および1つまたは複数のクライアントデバイスをサーバ120に結合する1つまたは複数の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105、106は、1つまたは複数のアプリケーションを実行するように構成することができる。
本開示の実施例では、サーバ120は、インテリジェントキャビン用の対話方法を実行することを可能にする1つまたは複数のサービスまたはソフトウェアアプリケーションを実行することができる。
いくつかの実施例では、サーバ120は、非仮想環境および仮想環境を含むことができる他のサービスまたはソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービスまたはクラウドサービスとして提供することができ、例えば、ソフトウェアはすなわちサービスである(SaaS)モデル下でクライアントデバイス101、102、103、104、105、および/または106のユーザに提供される。
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する1つまたは複数のモジュールを含むことができる。これらのモジュールは、1つまたは複数のプロセッサで実行できるソフトウェアモジュール、ハードウェアモジュール、またはそれらの組み合わせを含むことができる。クライアントデバイス101、102、103、104、105および/または106を操作するユーザは、これらのモジュールが提供するサービスを利用するために、1つまたは複数のクライアントアプリケーションを用いてサーバ120とやり取りをすることができる。様々な異なるシステム構成が可能であり、システム100とは異なってもよいことを理解されたい。したがって、図1は、本明細書に記載された様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
ユーザは、インテリジェントキャビンと対話するためにクライアントデバイス101、102、103、104、105、および/または106を使用することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとやり取りするインタフェースを提供することができる。クライアントデバイスは、このインタフェースを介してユーザに情報を出力することもできる。図1では6つのクライアントデバイスしか図示していないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスをサポートできる。
クライアントデバイス101、102、103、104、105および/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えばパーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピューティングデバイスを含むことができる。これらのコンピューティングデバイスは、MICROSOFT Windows、APPLE iOS、類UNIX(登録商標)オペレーティングシステム、Linux(登録商標)または類Linuxオペレーティングシステム(例えばGOOGLE Chrome OS)などの様々なタイプおよびバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含むことができる。ウェアラブルデバイスは、ヘッドマウントディスプレイおよびほかのデバイスを含むことができる。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含むことができる。クライアントデバイスは、インターネットInternet関連アプリケーション、通信アプリケーション(電子メールアプリケーションなど)、ショートメッセージサービス(SMS)アプリケーションなど、さまざまなアプリケーションを実行でき、さまざまな通信プロトコルを使用できる。
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか1つ(TCP/IP、SNA、IPX等を含むがこれらに限定されない)を使用することができる。例として、1つまたは複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、Bluetooth、WIFI)、および/またはこれらとその他のネットワークの任意の組み合わせであってもよい。
サーバ120は、1つまたは複数の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIXサーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、またはその他の適切な配置および/または組み合わせを含むことができる。サーバ120は、仮想オペレーティングシステムを実行する1つまたは複数の仮想マシン、または仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの1つまたは複数のフレキシブルプール)を含むことができる。様々な実施例において、サーバ120は、以下に説明する機能を提供する1つまたは複数のサービスまたはソフトウェアアプリケーションを実行することができる。
サーバ120内の計算ユニットは、上述した任意のオペレーティングシステムおよび任意の商用サーバオペレーティングシステムを含む1つまたは複数のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVA(登録商標)サーバ、データベースサーバなど、様々な追加のサーバアプリケーションおよび/または中間層アプリケーションのいずれか1つを実行することもできる。
いくつかの実施例では、サーバ120は、クライアントデバイス101、102、103、104、105および106のユーザから受信したデータフィードおよび/またはイベントの更新の分析および統合をするために1つまたは複数のアプリケーションを含むことができる。サーバ120は、クライアントデバイス101、102、103、104、105および106の1つまたは複数のディスプレイデバイスを介してデータフィードおよび/またはリアルタイムイベントを表示する1つまたは複数のアプリケーションを含むこともできる。
いくつかの実施例では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバでもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストでもよい。クラウドサーバはクラウドコンピューティングサービスシステム中のホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービス中に存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
システム100は、1つまたは複数のデータストア130を含むこともできる。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データストア130内の1つまたは複数は、音声ファイルや映像ファイルなどの情報を記憶するために使用されることができる。データストア130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータストアは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワークまたは専用の接続を介してサーバ120と通信してもよい。データストア130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータストアは、リレーショナルデータベースなどのデータベースであってもよい。これらのデータベースのうちの1つまたは複数は、コマンドに応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
いくつかの実施例では、データストア130のうちの1つまたは複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
図1のシステム100は、本開示に基づいて説明した様々な方法および装置を応用することができるように、様々な方法で構成および操作することができる。
図2は、関連技術におけるインテリジェントキャビン用の対話方法200の概略図である。図2に示すように、関連技術では、ユーザ210は、何らかの対話方法でインテリジェントキャビン220と対話する。対話の方法は、例えば、音声、視覚、タッチ装置などであってもよい。破線の矢印は、インテリジェントキャビンがユーザ210の対話方式に従って対応する情報収集を行うことを示す。例えば、ユーザが音声によって指令を出すと、指令は音声情報230を収集して処理する。次いで、対話ポリシー分析260を介して対話応答を生成する。同様に、ユーザが視覚またはタッチ方式で指令を出すと、指令は、映像情報240または触覚情報250を収集し処理し、対応する対話ポリシー分析270および280を介して対話応答を生成する。
方法200のような関連技術では、実際のシーンには、単一の情報源が応答できない場合がある。例えば、ユーザがインテリジェントキャビンを含む車両と対話する場合、もしユーザがある音を出して、ウェイクアップ指令語と似ていて、ユーザが起動する意図がない場合、車両は誤ってウェイクアップすることがある。例えば、従来技術において、一部の車両が持続レスリング機能をサポートしており、ユーザが隣の人とチャットしているが、車両と対話していなくても、車両に認識されて、誤った応答を生じることがある。
方法200による単一情報源に基づく決定は、ユーザ要求にも応答することができるが、個人化された体験を提供することはできない。例えば、ユーザは、音声指令を使用して曲の放送を要求し、インテリジェントシステムは、車両の履歴習慣に基づいて、ユーザの曲の好みを推測し、関連する曲を推薦することができる。しかし、運転者が変更したり、ユーザの当時の情緒状態が変化したりすると、ユーザは、本人の当時の気分と当時の状態に基づいて推薦された曲を聞きたいと思って、単一の音声情報だけでは満足できない。さらに例えば、現在のインテリジェントキャビンは車内装飾、照明、座席などと協同して、多種の車内雰囲気モーダルを提供し、ユーザが音声指令を使用して車内雰囲気の交換を要求する時、インテリジェントシステムは音声指令を文字に変換し、意味理解を行い、ランダムまたはポリシー的に車内雰囲気の変更を制御し、ユーザの現在の運転環境と運転状態を考慮することができない。
以上のように、車両が応答する前に音声情報だけでなく、ユーザの唇が指令語の唇と類似しているか否か、またはユーザが発話時に顔が車両に向いているか他人に向いているか否かなどの視覚情報をもとにしてもよく、これによって、単一の情報のみに基づいて応答できないシーン体験を向上させ、異なるユーザに応じて、個人化体験を構成することができる。
図3は、本開示の実施例による、インテリジェントキャビン用の対話方法300のフローチャートを示す。図3に示すように、方法300は、ステップ310~340を含む。
ステップ310において、ユーザの対話指令に基づいて、インテリジェントキャビンに関連するマルチモーダル情報を収集する。一例では、ユーザは、音声、視覚、タッチ装置などの様々な方法で、インテリジェントキャビンに対話指令を出すことができる。しかしながら、インテリジェントキャビンは、ユーザと同じ方法による情報を収集するだけではなく、インテリジェントキャビンに関連するマルチモーダル情報も収集する。
いくつかの例示的な実施例では、インテリジェントキャビンは車載情報システムを含み、車載情報システムはマイクロフォン、カメラおよびタッチ装置を含み、且つインテリジェントキャビンに関連するマルチモーダル情報はマイクロフォンが収集した音声情報、カメラが収集した映像情報、タッチ装置が感知したタッチ情報、およびインテリジェントキャビンを搭載する車両の車両状態情報からなるグループから選択される少なくとも1つを含む。例えば、視覚的には、車内に多方位のカメラを配置してユーザの行動を映像収集し、聴覚的には、マイクロホンを介してユーザの音声情報を収集し、触覚的には、ステアリングホイール上のセンサでユーザの脈拍、温度などの情報を感知することができる。一例では、ユーザが音声を介してインテリジェントキャビンに対話指令を出すと、インテリジェントキャビンは、音声情報だけでなく、例えばカメラを介して視覚情報を取得したり、タッチ装置を介してタッチ情報および車両状態情報を感知したりするなど、他のモーダルの情報を同時に収集する。一例では、視覚情報は、ユーザのジェスチャ、表情などの情報を含むことができる。タッチ情報は、例えば、ユーザの温度、脈拍などの生理学的状態を特徴付ける情報を含むことができる。運転状態情報は、非ユーザに関連するデータ、例えば、現在の地理的位置、現在の車両状態(例えば、車内温度、燃料残量)、車内乗客の数などを含むことができる。
ステップ320において、マルチモーダル情報を前処理する。インテリジェントキャビンは、ステップ310において、マルチモーダルの情報を収集する。マルチモーダル情報における例えば元の音声データおよび映像データは、それぞれ個別なデータ形式を有するので、マルチモーダル情報を正規化又は統一するために、対応する前処理を行う必要がある。いくつかの例示的な実施例では、予めトレーニングされた複数の対応するモジュール情報処理モデルを使用することによってマルチモーダル情報を前処理することができる。例えば、予めトレーニングされた音声情報処理モデルによって音声情報を前処理し、予めトレーニングされた映像情報処理モデルによって映像情報を前処理するなどである。
ステップ330において、予めトレーニングされたマルチモーダル情報整列モデルを使用して、予め処理されたマルチモーダル情報が対話指令に整列されているかどうかを確定する。一例では、ユーザの対話指令と、収集され、前処理されたマルチモーダル情報とが整列されているかどうかを確定することによっていくつかの誤った応答を排除することができる。例えば、方法200では、ユーザが出した対話指令がウェイクアップと似ている場合、インテリジェントキャビンは、音声情報のみによってウェイクアップの誤応答を行っている。一例では、ステップ330によって、インテリジェントキャビンは、取得された視覚、車両状態などの情報をユーザの対話指令と整列させることができ、かつ、例えば、ユーザの口型がウェイクアップと一致しないこと、または車両がウェイクアップしたことを発見した場合に、視覚情報または車両状態情報が対話指令と整列されていないことを確定することができ、その後の応答ポリシーの確定に使用することができる。
ステップ340において、確定された結果および前処理されたマルチモーダル情報に基づいて対話指令に対する応答ポリシーを確定する。
以上のように、マルチモーダル情報に基づく対話方法300は、視覚、聴覚、触覚、知覚などの多方位の情報を収集することにより、ユーザの行動を総合的に理解し、フィードバックを与えることができる。カメラ、マイクロフォン、タッチ装置などの多経路で収集されたユーザ行動データによって、インテリジェントキャビンは総合的な決定を出して、より知能的な応答ポリシーを提供し、それによってユーザ体験を向上させることができる。
図4は、本開示の実施例による、図1におけるマルチモーダル情報が対話指令に整列されているかどうかを確定するフローチャートである。図4に示すように、前処理されたマルチモーダル情報が前記対話指令に整列されているかどうかを確定する(ステップ330)ことは、ステップ410~ステップ440を含む。
ステップ410において、映像情報から音声指令と同じ開始時間と同じ終了時間を有する映像セグメントを識別する。一例では、映像情報における、音声指令に関連する映像セグメントを識別するために、開始時刻および終了時刻によって、映像情報と音声指令を処理してもよい。たとえば、ユーザが一言で対話指令を出すことで、その発話と同じ開始時間と終了時間の映像セグメントを取得する。
ステップ420において、音声指令から指令語を識別する。一例では、指令語を識別するために音声指令を音声分析してもよい。
ステップ430において、映像セグメントからユーザの唇の動きを識別する。一例では、特徴抽出または他の画像処理の方法によってユーザの唇の動きを識別することができる。
ステップ440において、ユーザの唇の動きが指令語に対応する唇の動きと一致することを確定したことに応答して、前記音声指令が前記映像情報に整列されていることを確定することとを含む。一例では、予めトレーニングされたマッチングモデルを使用して、抽出された指令語とユーザの唇の動きとをマッチングすることができる。例えば、ユーザが「O」の指令語を発した場合、マッチングモデルは、その時点でのユーザの唇の動きが「O」の指令語を発した唇の動きと一致するかどうかを確定することができる。
要約すると、本開示の実施例は、ユーザの指令語とユーザの唇の動きとを一致させることによって、いくつかの誤判定を排除することができる。例えば、ユーザがウェイクアップと似たような音声を発したが、認識されたウェイクアップの指令語が映像内のユーザの唇の動きと一致しない場合、ウェイクアップの応答を排除することができる。したがって、本出願の実施例は、決定応答の誤判定を低減し、ユーザ体験を向上させることができる。
いくつかの例示的な実施例では、前処理されたマルチモーダル情報が対話指令と整列されているかどうかを確定する(ステップ330)ことは、対応する指令の意図を抽出するために、音声情報の意味解析および意味理解を行うことと、指令意図が車両状態情報と一致することに応答して、音声指令が車両状態情報に整列されていることを確定することとを含むことができる。ユーザの対話指令を音声指令とする例として、予めトレーニングされた意味解析モデルと意味理解モデルを用いて音声指令を処理し、対応する指令の意図を抽出することができる.例えば、ユーザが「給油したい」という対話指令を下した場合、抽出された指令意図は、ユーザが車両に燃料を給油したいという意図であってもよい。従来技術の方法200によれば、インテリジェントキャビンは、ユーザの近くのスタンド情報の対話ポリシーにフィードバックする。しかしながら、本出願の実施例によれば、車両状態情報は、指令の意図とマッチングする。例えば、車両状態情報における燃料補給に関するデータが車両燃料の残量が十分であることを示し、ユーザとの対話指令と整列できないと確定できる場合には、後に応答ポリシーを分析し、燃料補給情報のフィードバックを排除するために使用することができる。
要約すると、本開示の実施例は、ユーザの指令意図と車両の状態とを一致させることによって、いくつかの不合理的な応答ポリシーを効果的に排除することができる。例えば、燃料が十分である場合には、ユーザにスタンドの情報を依然としてフィードバックする。したがって、本出願の実施例は、決定応答の誤判定を低減し、ユーザ体験を向上させることができる。
図5は、本開示の実施例の、図1における応答ポリシーを確定するフローチャートである。図5に示すように、対話指令に対する応答ポリシーを確定する(ステップ340)ことは、ステップ510およびステップ520を含む
ステップ510において、前処理されたマルチモーダル情報のうち対話指令と整列できない情報をフィルタリングする。一例では、異なる整列確定方式によって、マルチモーダル情報のうちのどの情報が対話指令と整列するか、どの情報が対話指令と整列していないかを確定することができる。そして整列できない、すなわちデータ伝達情報が一致しない情報をフィルタリングする。
ステップ520において、フィルタリングされたマルチモーダル情報に基づいて、応答ポリシーを確定するいくつかの例示的な実施例では、予めトレーニングされた応答ポリシー分析モデル530を用いてフィルタリングされたマルチモーダル情報を処理することによって前記応答ポリシーを確定する。応答ポリシーは、対話ポリシーおよび実行ポリシーのうちの少なくとも1つを含むことができる。
したがって、本願の実施例は、整列不可な情報を事前にフィルタリングして、応答ポリシーがユーザの意図に応答する正解率を向上させることができる。
いくつかの例示的な実施例では、対話ポリシーは話術によって前記ユーザに回答することを含み、話術回答のパラメータは、予めトレーニングされた応答ポリシー分析モデルによって取得され、話術音色パラメータ、話術性別パラメータ、話術年齢パラメータ、話術スタイルパラメータ、イメージパラメータ、表情パラメータおよび動作パラメータからなるグループから選択される少なくとも1つを含む。一例では、ユーザを含む映像情報から、応答ポリシー分析モデルは、異なるユーザに応じて異なる対話ポリシーを生成することができる。例えば、性別年齢が異なると、話術音色スタイルが異なる。また、例えば、仮想アシスタントを含むインテリジェントキャビンにおいて、異なるユーザに異なるイメージまたは表情などでフィードバックすることができる。したがって、本願の実施例は、マルチモーダル情報を考慮しているので、ユーザのニーズを総合的に理解して、ユーザのための個人化された対話体験を生成することができる。
いくつかの例示的な実施例では、ユーザにフィードバックされる応答ポリシーは、実行ポリシーを含み、かつ実行ポリシーは、対話指令に応答するように、インテリジェントキャビンを搭載する車両のハードウェアシステムまたはソフトウェアシステムを制御することを含む。例えば、「窓を開ける」というユーザの指令に応答して、窓を開ける。また、例えば、「空調温度を下げる」というユーザの指令情報、および取得されたユーザの体表面温度情報、車両状態情報などの不一致/不整列の情報がないことに応答して、空調温度を下げるように車両空調システムを制御する。さらに、例えば、「音楽を聞く」というユーザの指令情報に応答して、映像情報で識別されたユーザの情報と車両状態情報における音楽再生履歴を介して、ユーザに再生された音楽を総合的に決定する。したがって、本出願の実施例は、ユーザの対話体験を向上させることができる。
いくつかの例示的な例では、フィルタリングされたマルチモーダル情報が空集合であることに応答して、前記対話指令に応答しない。例えば、ユーザの「給油」指令語が燃料残量情報と衝突すると、ユーザのこの指令には応答しない。別の例として、映像情報によって、ユーザがインテリジェントキャビンに特定の指令を出すのではなく、隣の人と話していることを確定した場合に、ユーザの指令に応答しない。要約すると、本開示の実施例は、顧客へのより効率的な応答ができるように、誤った応答を回避することができる。
図6は、本開示の実施例による、インテリジェントキャビン用の対話方法600を示す概略図である。図6は、本開示の実施例と図2の関連技術との相違点を示す。図6に示すように、ユーザ610は、様々な方法でインテリジェントキャビン620に対して音声指令を発する。インテリジェントキャビン620は、音声情報630、映像情報640、タッチ情報650、および車両状態情報660を含むマルチモーダル情報を収集し前処理する。マルチモーダル情報整列モデル670は、前処理されたマルチモーダル情報が対話指令を整列されるかどうかを確定する。整列できない情報をフィルタリングした後、対話ポリシー分析モデルは応答ポリシーを生成する。最後に、車両は、応答ポリシーに従ってユーザと対話する。
以上のように、本開示のマルチモーダル情報に基づくインテリジェントキャビンの対話方法は、視覚、触覚、聴覚などからのマルチモーダル情報を考慮することによって、ユーザのニーズを総合的に理解する。本開示の対話方法は、単一の情報源に基づいて誤って判断されたシーンに正確に応答することに役立ち、または異なる状態でユーザに個人化されるフィードバックおよび対話体験を与える。
図7は本開示の実施例によるインテリジェントキャビン用の対話装置700を示す構造ブロック図である。図7に示すように、対話装置700は、収集ユニット710と、前処理ユニット720と、第1確定ユニット730と、第2確定ユニット740とを含む。
収集ユニット710はインテリジェントキャビン内のユーザからの対話指令に基づいて、インテリジェントキャビンに関連するマルチモーダル情報を収集するように構成される。
前処理ユニット720はマルチモダル情報を前処理するように構成される。
第1確定ユニット730は、予めトレーニングされたマルチモーダル情報整列モデルを採用して、マルチモーダル情報が対話指令と整列されているかどうかを確定するように構成される。
第2確定ユニット740は、確定された結果およびマルチモーダル情報に基づいて前記対話指令に対する応答ポリシーを確定するように構成される。
いくつかの例示的な実施例では、インテリジェントキャビンは、マイクロフォンと、カメラと、タッチ装置とを含む車載情報システムを含み、前記インテリジェントキャビンに関連するマルチモーダル情報は、マイクロフォンが収集した音声情報、カメラが収集した映像情報、タッチ装置が感知したタッチ情報、インテリジェントキャビンを搭載する車両の車両状態情報からなるグループから選択される少なくとも1つを含む。
いくつかの例示的な実施例では、第1確定ユニット730は、識別サブユニット731、第1識別サブユニット732、第2識別サブユニット733、および第1確定サブユニット734を含む。
識別サブユニット731は、映像情報から音声指令と同じ開始時間と同じ終了時間を有する映像セグメントを識別するように構成される。
第1識別サブユニット732は、音声指令から指令語を識別するように構成される。
第2識別サブユニット733は、映像セグメントからユーザの唇の動きを識別するように構成される。
第1確定サブユニット734は、ユーザの唇の動きが前記指令語に対応する唇の動きと一致することを確定したことに応答して、音声指令が映像情報に整列されていることを確定するように構成される。
いくつかの例示的な実施例では、第1確定サブユニット730は、抽出サブユニット735および第2確定サブユニット736を含む。
抽出サブユニットは、音声情報に対して意味解析と意味理解を行って、対応する指令意図を抽出するように構成される。
第2確定サブユニットは、指令意図が前記車両状態情報と一致することに応答して、音声指令が前記車両状態情報に整列されていることを確定するように構成される。
いくつかの例示的な実施例では、第1確定ユニット730は、フィルタリングサブユニット735および第3確定サブユニット736を含む。
フィルタリングサブユニットは、前処理されたマルチモーダル情報のうち対話指令と整列できない情報をフィルタリングするように構成される。および
第3確定サブユニットは、フィルタリングされたマルチモーダル情報に基づいて、前記応答ポリシーを確定するように構成される。
いくつかの例示的な実施例では、対話ポリシーは話術回答によって前記ユーザに回答することを含み、話術回答のパラメータは、前記予めトレーニングされた応答ポリシー分析モデルによって取得され、話術音色パラメータ、話術性別パラメータ、話術年齢パラメータ、話術スタイルパラメータ、イメージパラメータ、表情パラメータおよび動作パラメータからなるグループから選択される少なくとも1つを含む。
いくつかの例示的な実施例では、実行ポリシーは、対話指令に応答するように、前記インテリジェントキャビンを搭載する車両のハードウェアシステムまたはソフトウェアシステムを制御することを含む。
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。
本開示の実施例によれば、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図8を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器800の構成ブロック図について説明する。電子機器は、様々な形態のデジタル電子のコンピューティングデバイス、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、インテリジェントフォン、ウェアラブルデバイスとその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび/又は請求した本開示の実現を制限しない。
図8に示すように、機器800は、計算ユニット801を含み、それはリードオンリーメモリ(ROM)802に記憶されるコンピュータプログラムまた記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 803において、更に機器800を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット801、ROM 802およびRAM 803はバス804によって互いに接続される。入力/出力(I/O)インターフェース805もバス804に接続される。
機器800における複数の部品はI/Oインターフェース805に接続され、入力ユニット806、出力ユニット807、記憶ユニット808および通信ユニット809を含む。入力ユニット806は、機器800に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット806は、入力された数字又は文字情報と、電子機器のユーザ設定および/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイクおよび/又はリモコンを含むことができるが、これらに限定されない。出力ユニット807は、情報を提示することが可能な任意のタイプの装置であってもよく、ディスプレイ、スピーカ、映像/音声出力端末、バイブレータ、および/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット808は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット809は、機器800が例えば、インターネットであるコンピュータネットワークおよび/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、および/又はチップセット、例えば、ブルートゥース(登録商標)TM装置、1302.11装置、WiFi装置、WiMax装置、セルラー通信装置および/又は類似物を含んでもよいが、これらに限定されない。
計算ユニット801は処理およびコンピューティング能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット801の例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械トレーニングモデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット801は上記内容で説明した各方法と処理、例えば方法300を実行する。例えば、一部の実施例において、方法300はコンピュータコンピュータプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット808に有形に含まれる。一部の実施例において、コンピュータプログラムの部分又は全てはROM 802および/又は通信ユニット809を経由して機器800にロードおよび/又はインストールされてよい。コンピュータプログラムがRAM 803にロードされて計算ユニット801によって実行される場合、以上で説明される方法300の1つまたは複数のステップを実行することできる。代替的に、別の実施例において、計算ユニット801は他のいかなる適切な方式で(例えば、ファームウェアにより)方法300を実行するように構成されてよい。
本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと指令を受信し、データと指令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
本開示の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、指令実行システム、装置又は機器に使用される又は指令実行システム、装置又は機器に結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又は機器、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(陰極線管、Cathode Ray Tube)又はLCD(液晶ディスプレイ、Liquid Crystal Display)監視モニタ)、およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとの対話を提供してよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインタフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインタフェースやこのウェブブラウザを通じて、それらのシステムや技術の実施形態との対話を実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、例えば、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットを含む。
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介して対話を行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。
理解すべきことは、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又削除してよいことである。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、および装置は単なる例示的な実施形態又は例であり、本開示の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲およびその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。また、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施形態又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。

Claims (20)

  1. インテリジェントキャビン用の対話方法であって、
    ユーザの対話指令に応じて、前記インテリジェントキャビンに関連するマルチモーダル情報を収集することと、
    前記マルチモーダル情報を前処理することと、
    予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が前記対話指令と整列されているかどうかを確定することと、
    前記確定された結果および前処理されたマルチモーダル情報に基づいて、前記対話指令に対する応答ポリシーを確定することとを含むインテリジェントキャビン用の対話方法。
  2. 前記インテリジェントキャビンは、マイクロフォンと、カメラと、タッチ装置とを含む車載情報システムを含み、前記の前記インテリジェントキャビンに関連するマルチモーダル情報は、
    前記マイクロフォンが収集した音声情報、
    前記カメラが収集した映像情報、
    前記タッチ装置が感知したタッチ情報、および
    前記インテリジェントキャビンを搭載車両の車両状態情報のうちの少なくとも1つを含む請求項1に記載の方法。
  3. 前記対話指令は、音声指令を含み、前記マルチモーダル情報は、前記映像情報を含み、前記の、前処理されたマルチモーダル情報が前記対話指令と整列されているかどうかを確定することは、
    前記映像情報から前記音声指令と同じ開始時間と同じ終了時間を有する映像セグメントを識別することと、
    前記音声指令から指令語を識別することと、
    前記映像セグメントから前記ユーザの唇の動きを識別することと、
    前記ユーザの唇の動きが前記指令語に対応する唇の動きと一致することを確定したことに応答して、前記音声指令が前記映像情報に整列されていることを確定することとを含む請求項2に記載の方法。
  4. 前記対話指令は音声指令を含み、前記マルチモーダル情報は前記車両状態情報を含み、前記前処理されたマルチモーダル情報が前記対話指令に整列されているかどうかを確定することは、
    前記音声情報に対して意味解析と意味理解を行って、対応する指令意図を抽出することと、
    前記指令意図が前記車両状態情報と一致することに応答して、前記音声指令が前記車両状態情報に整列されていることを確定することとを含む請求項2に記載の方法。
  5. 前記の、前記対話指令に対する応答ポリシーを確定することは、
    前処理されたマルチモーダル情報のうち前記対話指令と整列できない情報をフィルタリングすることと、
    フィルタリングされたマルチモーダル情報に基づいて、前記応答ポリシーを確定することとを含む請求項1~4のいずれか一項に記載の方法。
  6. 前記の、前記応答ポリシーを確定することは、
    予めトレーニングされた応答ポリシー分析モデルを用いてフィルタリングされたマルチモーダル情報を処理することによって、前記応答ポリシーを確定することを含み、前記応答ポリシーは、対話ポリシーおよび実行ポリシーのうちの少なくとも1つを含む請求項5に記載の方法。
  7. 前記対話ポリシーは、話術によって前記ユーザに回答することを含み、前記話術回答のパラメータは、前記予めトレーニングされた応答ポリシー分析モデルによって取得され、話術音色パラメータ、話術性別パラメータ、話術年齢パラメータ、話術スタイルパラメータ、イメージパラメータ、表情パラメータおよび動作パラメータのうちの少なくとも1つを含む請求項6に記載の方法。
  8. 前記実行ポリシーは、前記対話指令に応答するように、前記インテリジェントキャビンを搭載する車両のハードウェアシステムまたはソフトウェアシステムを制御することを含む請求項6に記載の方法。
  9. 前記の、前記応答ポリシーを確定することは、
    フィルタリングされたマルチモーダル情報が空集合であることに応答して、前記対話指令に応答しないことを含む請求項5に記載の方法。
  10. 前記の、前記マルチモーダル情報を前処理することは、予めトレーニングされた複数の対応するモジュール情報処理モデルを用いて前記マルチモーダル情報を前処理することを含む請求項1~4のいずれか一項に記載の方法。
  11. インテリジェントキャビン対話装置であって、
    前記インテリジェントキャビン内のユーザからの対話指令に基づいて、前記インテリジェントキャビンに関連するマルチモーダル情報を収集するように構成される収集ユニットと、
    前記マルチモーダル情報を前処理するように構成される前処理ユニットと、
    予めトレーニングされたマルチモーダル情報整列モデルを採用して、前処理されたマルチモーダル情報が前記対話指令と整列されているかどうかを確定するように構成される第1確定ユニットと、
    前記確定された結果および前処理されたマルチモーダル情報に基づいて、前記対話指令に対する応答ポリシーを確定するように構成される第2確定ユニットとを含むインテリジェントキャビン対話装置。
  12. 前記インテリジェントキャビンは、マイクロフォンと、カメラと、タッチ装置とを含む車載情報システムを含み、前記の前記インテリジェントキャビンに関連するマルチモーダル情報は、
    前記マイクロフォンが収集した音声情報、
    前記カメラが収集した映像情報、
    前記タッチ装置が感知したタッチ情報、および
    前記インテリジェントキャビンを搭載する車両の車両状態情報からなるグループから選択される少なくとも1つを含む請求項11に記載の装置。
  13. 前記対話指令は音声指令を含み、前記マルチモーダル情報は前記映像情報を含み、前記第1確定ユニットは、
    前記映像情報から前記音声指令と同じ開始時間と同じ終了時間を有する映像セグメントを識別するように構成される識別サブユニットと、
    前記音声指令から指令語を識別するように構成される第1識別サブユニットと、
    前記映像セグメントから前記ユーザの唇の動きを識別するように構成される第2識別サブユニットと、
    前記ユーザの唇の動きが前記指令語に対応する唇の動きと一致することを確定したことに応答して、前記音声指令が前記映像情報に整列されていることを確定するように構成される第1確定サブユニットとを含む請求項12に記載の装置。
  14. 前記対話指令は音声指令を含み、前記マルチモーダル情報は前記車両状態情報を含み、前記第1確定ユニットは、
    前記音声情報に対して意味解析と意味理解を行って、対応する指令意図を抽出するように構成される抽出サブユニット、および
    前記指令意図が前記車両状態情報と一致することに応答して、前記音声指令が前記車両状態情報に整列されていることを確定するように構成される第2確定サブユニットとを含む請求項12に記載の装置。
  15. 前記第2確定ユニットは、
    前処理されたマルチモーダル情報のうち前記対話指令と整列できない情報をフィルタリングするように構成されるフィルタリングサブユニット、および
    フィルタリングされたマルチモーダル情報に基づいて、前記応答ポリシーを確定するように構成される第3確定サブユニットを含む請求項11~14のいずれか一項に記載の装置。
  16. 前記対話ポリシーは、話術によって前記ユーザに回答することを含み、前記話術回答のパラメータは、前記予めトレーニングされた応答ポリシー分析モデルによって取得され、話術音色パラメータ、話術性別パラメータ、話術年齢パラメータ、話術スタイルパラメータ、イメージパラメータ、表情パラメータおよび動作パラメータからなるグループから選択される少なくとも1つを含む請求項15に記載の装置。
  17. 前記実行ポリシーは、前記対話指令に応答するように、前記インテリジェントキャビンを搭載する車両のハードウェアシステムまたはソフトウェアシステムを制御することを含む請求項15に記載の装置。
  18. 電子機器であって、
    少なくとも1つのプロセッサ、および
    前記少なくとも1つのプロセッサに通信接続されたメモリを含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~10のいずれか一項に記載の方法を実行させる電子機器。
  19. コンピュータに請求項1~10のいずれか一項に記載の方法を実行させるためのコンピュータ指令が記憶された非一時的コンピュータ可読記憶媒体。
  20. プロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
JP2022055539A 2021-08-17 2022-03-30 インテリジェントキャビン用の対話方法、装置、機器および媒体 Pending JP2022095768A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110944706.3A CN113655938B (zh) 2021-08-17 2021-08-17 一种用于智能座舱的交互方法、装置、设备和介质
CN202110944706.3 2021-08-17

Publications (1)

Publication Number Publication Date
JP2022095768A true JP2022095768A (ja) 2022-06-28

Family

ID=78491810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022055539A Pending JP2022095768A (ja) 2021-08-17 2022-03-30 インテリジェントキャビン用の対話方法、装置、機器および媒体

Country Status (3)

Country Link
US (1) US20220234593A1 (ja)
JP (1) JP2022095768A (ja)
CN (1) CN113655938B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118034492A (zh) * 2023-12-29 2024-05-14 辉塔信息技术咨询(上海)有限公司 一种数字化多模态人机交互座舱模拟控制系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114327041B (zh) * 2021-11-26 2022-09-27 北京百度网讯科技有限公司 智能座舱的多模态交互方法、系统及具有其的智能座舱
CN114201102B (zh) * 2021-11-30 2024-06-25 斑马网络技术有限公司 信息处理方法、装置及存储介质
CN115610349B (zh) * 2022-10-21 2024-05-17 阿维塔科技(重庆)有限公司 一种基于多模融合的智能交互方法及装置
CN116061959A (zh) * 2023-04-03 2023-05-05 北京永泰万德信息工程技术有限公司 一种车辆的人机交互方法、车辆及存储介质
CN116991157B (zh) * 2023-04-14 2024-09-10 北京百度网讯科技有限公司 具备人类专家驾驶能力的自动驾驶模型、训练方法和车辆
CN116383027B (zh) * 2023-06-05 2023-08-25 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器
CN116767255B (zh) * 2023-07-03 2024-02-06 深圳市哲思特科技有限公司 一种用于新能源汽车的智能座舱联动方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004354930A (ja) * 2003-05-30 2004-12-16 Calsonic Kansei Corp 音声認識システム
US20140136013A1 (en) * 2012-11-15 2014-05-15 Sri International Vehicle personal assistant
JP2017090611A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
JP2017087950A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 車両用音声操作装置
JP2020518844A (ja) * 2017-03-23 2020-06-25 ジョイソン セイフティ システムズ アクイジション エルエルシー 口の画像を入力コマンドと相互に関連付けるシステム及び方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080043144A1 (en) * 2006-08-21 2008-02-21 International Business Machines Corporation Multimodal identification and tracking of speakers in video
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US9286029B2 (en) * 2013-06-06 2016-03-15 Honda Motor Co., Ltd. System and method for multimodal human-vehicle interaction and belief tracking
US10769635B2 (en) * 2016-08-05 2020-09-08 Nok Nok Labs, Inc. Authentication techniques including speech and/or lip movement analysis
CN108182943B (zh) * 2017-12-29 2021-03-26 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
CN109933272A (zh) * 2019-01-31 2019-06-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态深度融合机载座舱人机交互方法
WO2021114224A1 (zh) * 2019-12-13 2021-06-17 华为技术有限公司 语音检测方法、预测模型的训练方法、装置、设备及介质
CN112148850A (zh) * 2020-09-08 2020-12-29 北京百度网讯科技有限公司 动态交互方法、服务器、电子设备及存储介质
CN112937590B (zh) * 2021-02-04 2022-10-04 厦门金龙联合汽车工业有限公司 一种智能车辆动态人机交互系统和方法
CN112767916B (zh) * 2021-02-05 2024-03-01 百度在线网络技术(北京)有限公司 智能语音设备的语音交互方法、装置、设备、介质及产品
CN113255556A (zh) * 2021-06-07 2021-08-13 斑马网络技术有限公司 多模态语音端点检测方法及装置、车载终端、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004354930A (ja) * 2003-05-30 2004-12-16 Calsonic Kansei Corp 音声認識システム
US20140136013A1 (en) * 2012-11-15 2014-05-15 Sri International Vehicle personal assistant
JP2017090611A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
JP2017087950A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 車両用音声操作装置
JP2020518844A (ja) * 2017-03-23 2020-06-25 ジョイソン セイフティ システムズ アクイジション エルエルシー 口の画像を入力コマンドと相互に関連付けるシステム及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118034492A (zh) * 2023-12-29 2024-05-14 辉塔信息技术咨询(上海)有限公司 一种数字化多模态人机交互座舱模拟控制系统

Also Published As

Publication number Publication date
CN113655938B (zh) 2022-09-02
CN113655938A (zh) 2021-11-16
US20220234593A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
JP2022095768A (ja) インテリジェントキャビン用の対話方法、装置、機器および媒体
US12118999B2 (en) Reducing the need for manual start/end-pointing and trigger phrases
JP7386878B2 (ja) アシスタントの応答を動的に適応させること
EP4028932B1 (en) Reduced training intent recognition techniques
KR102492783B1 (ko) 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
EP3642833B1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US10127911B2 (en) Speaker identification and unsupervised speaker adaptation techniques
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
CN112868060B (zh) 用户、自动化助理和其它计算服务之间的多模态交互
CN112489641A (zh) 用于高效对话处理的实时反馈
KR20190006403A (ko) 음성 처리 방법 및 이를 지원하는 시스템
KR20190101630A (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
EP3593346B1 (en) Graphical data selection and presentation of digital content
US20210349433A1 (en) System and method for modifying an initial policy of an input/output device
JP2022539674A (ja) 特定話者スピーチモデルを使用した話者認識
CN112840313A (zh) 电子设备及其控制方法
KR20190139489A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
US12094454B2 (en) Multimodal intent understanding for automated assistant
CN112951216B (zh) 一种车载语音处理方法及车载信息娱乐系统
KR102612835B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
KR20200092763A (ko) 사용자 음성을 처리하는 전자장치 및 그 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240822