JP2022088512A - 指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2022088512A
JP2022088512A JP2022051665A JP2022051665A JP2022088512A JP 2022088512 A JP2022088512 A JP 2022088512A JP 2022051665 A JP2022051665 A JP 2022051665A JP 2022051665 A JP2022051665 A JP 2022051665A JP 2022088512 A JP2022088512 A JP 2022088512A
Authority
JP
Japan
Prior art keywords
command
target
actual voice
voice command
valid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022051665A
Other languages
English (en)
Other versions
JP7352680B2 (ja
Inventor
ファングァン ズォン
Fanguang Zeng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022088512A publication Critical patent/JP2022088512A/ja
Application granted granted Critical
Publication of JP7352680B2 publication Critical patent/JP7352680B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】車載環境で音声を使用するための指令実行方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。【解決手段】指令実行方法は、入力された実の音声指令を受信するステップと、実の音声指令を発信した目標位置を確定するステップと、目標位置に対応する目標有効指令セットを取得するステップと、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行するステップと、を含む。【選択図】図2

Description

本出願は、コンピュータ技術分野に関し、具体的に音声認識、スマート音声などの人工知能技術分野に関し、特に指令実行方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムに関する。
車載環境で音声を使用するためには、通常、音声ウェイクワードまたはステアリングホイール上のボタンによって音声をトリガして、認識インタラクション状態に入るようにする必要がある。この場合、音声により車載機器に対して対応する指令を送信する。このプロセスは「音声ウェイク」という。ユーザが音声をより便利かつ迅速に使用できるようにするためには、一部の高頻度の語彙を「ウェイク・フリー・ワード」(free-of-wakeup words)として定義するのが一般的である。すなわち、ユーザは音声ウェイクを行わずに、ウェイク・フリー・ワード(例えば、「前の曲」、「次の曲」、「再生」、「一時停止」、「ナビゲーション開始」、「ナビゲーション終了」などの語彙)を直接発話するだけで、車載機器はそれに応じた動作を実行することができる。
本出願の実施形態は、指令実行方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提案する。
第1態様において、本出願の実施形態は、入力された実の音声指令を受信するステップと、実の音声指令を発信した目標位置を確定するステップと、目標位置に対応する目標有効指令セットを取得するステップと、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行するステップと、を含む指令実行方法を提供する。
第2態様において、本出願の実施形態は、入力された実の音声指令を受信するように構成される指令受信ユニットと、実の音声指令を発信した目標位置を確定するように構成される位置確定ユニットと、目標位置に対応する目標有効指令セットを取得するように構成される有効指令セット取得ユニットと、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行するように構成される指令実行ユニットと、を含む指令実行装置を提供する。
第3態様において、本出願の実施形態は、少なくとも1つのプロセッサと少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも1つのプロセッサによって実行可能な指令が記憶され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサが第1態様のいずれか一つの実施形態に記載の指令実行方法を実施する電子機器を提供する。
第4態様において、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第1態様のいずれか一つの実施形態に記載の指令実行方法を実施させるためのものである非一時的コンピュータ可読記憶媒体を提供する。
第5態様において、本出願の実施形態は、プロセッサによって実行されると、第1態様のいずれか一つの実施形態に記載の指令実行方法を実施するコンピュータプログラムを提供する。
本出願の実施形態に係る指令実行方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムは、入力された実の音声指令を受信した時、当該実の音声指令を発信した目標位置を確定し、当該目標位置に対応する目標有効指令セットを取得し、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令であることに応答して、当該実の音声指令に対応する動作を実行する。
本出願では、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判定する。これにより、実の音声指令の発送位置に基づいて実の音声指令の有効性を確定する目的が達成され、トリガ誤作動の発生頻度が低減される。
上記の説明は、本出願の実施形態の肝心または重要な特徴をマークすることが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解すべきである。本出願の他の特徴は、以下の説明によって理解しやすくなる。
以下の図面を参照して作成された非限定的な実施形態の詳細な説明を読むことによって、本出願の他の特徴、目的、および利点は、より明らかになる。
本出願が適用可能な例示的なシステムアーキテクチャである。 本出願の実施形態に係る指令実行方法のフローチャートである。 本出願の実施形態に係る別の指令実行方法のフローチャートである。 本出願の実施形態に係る適用シーンにおける指令実行方法の効果概略図である。 本出願の実施形態に係る適用シーンにおける指令実行方法の効果概略図である。 本出願の実施形態に係る指令実行装置の構成ブロック図である。 本出願の実施形態に係る指令実行方法を実施するのに適する電子機器の構成概略図である。
以下、図面に関連して、本出願の例示的な実施形態を説明する。理解を助けるために、本出願の実施形態の様々な詳細を含むが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態は、本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識するであろう。同様に、以下の説明では、明確化かつ簡略化のために、公知の機能および構造の説明を省略する。なお、矛盾が生じない限り、本出願における実施形態および実施形態における特徴は、互いに組み合わせられてもよい。
また、本出願に係る技術的解決手段では、係るユーザ個人情報の取得、記憶、応用などは、いずれも関連する法律法規の規定に合致し、公序良俗に反しない。
図1は、本出願の指令実行方法、装置、電子機器、およびコンピュータ可読記憶媒体の一実施形態を適用することができる例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。
ユーザは、メッセージなどを受信または送信するために、端末装置101、102、103を使用して、ネットワーク104を介してサーバ105とインタラクションすることができる。端末装置101、102、103、およびサーバ105には、ナビゲーションアプリケーション、機能統合アプリケーション、インスタントメッセージングアプリケーションなど、両者の間の情報通信を実現するための様々なアプリケーションが実装されていてもよい。
端末装置101、102、103、およびサーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、スマートフォン、タブレットコンピュータなどを含むが、これらに限定されない、音声指令に基づくマンマシンインタラクションを実施する様々な電子機器であってもよい。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされることが可能であり、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは、具体的に限定しない。サーバ105がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよく、単一のサーバとして実装されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは、具体的に限定しない。
端末装置101、102、103は内蔵された様々なアプリケーションによって様々なサービスを提供することができる。様々な機能を提供できる機能統合型アプリケーションを例にすると、当該端末装置101、102、103は当該機能統合型アプリケーションを実行する場合、次のようなことが可能となる。まず、端末装置101は入力された実の音声指令を受信し、そして、端末装置101、102、103は当該実の音声指令を発信した目標位置を確定し、さらに、端末装置101、102、103は当該目標位置に対応する有効指令セットを取得し、最後に、端末装置101、102、103は当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令であることに応答して、当該実の音声指令に対応する動作を実行する。
なお、音声指令に対応する動作は、サーバ105で実行される動作であってもよいし、端末装置101、102、103において実行される動作であってもよいので、実の音声指令に対応する動作が端末装置101、102、103に基づいて実現されることが可能な場合には、例示的なシステムアーキテクチャ100は、サーバ105およびネットワーク104を含まなくてもよい。
音声でマンマシンインタラクションを実現する際には、通常、高い応答速度が必要とされるので、以下に述べる各実施形態に係る指令実行方法は、一般に、ユーザにタイムリーな応答を提供するために、端末装置101、102、103(例えば、運転シーンでは車内の車載端末装置)によって実現される。なお、本出願のいくつかのオプション的な実現シーンでは、実の音声指令の内容が複雑であり、実の音声指令における内容を解析・取得することに、高い演算能力または多くの演算リソースが必要となる場合、または実の音声指令に対応する動作の実行に高い計算能力および多くの演算リソースが必要となる場合には、指令実行方法はサーバ105によって実行されてもよい。このとき、サーバ105と端末装置101、102、103との間でネットワークを介して通信することができるので、サーバ105は端末装置からユーザによって入力された実の音声指令を取得した後、指令実行方法における残りの処理プロセスを完了し、最終的にサーバ105で当該実の音声指令に対応する動作を実行することができる。これにより、高い演算能力と多くの演算リソースを有するサーバを利用してより多くの動作を実行することができる。
また、演算能力の異なる端末装置が複数種同時に存在するが、機能統合型アプリケーションが、搭載している端末装置とサーバとのインタラクション、応答速度が要求を満たすと判断した場合には、端末装置101、102、103とサーバ105を同時に利用して指令実行方法を同時に実現することができる。これにより、端末装置101、102、103の演算負荷を適宜軽減することができる。したがって、指令実行装置は端末装置101、102、103とサーバ105に同時に設けられていてもよい。
本出願の内容は、具体的な実装の必要に応じて異なる適用シーンで任意の数の端末装置、ネットワーク、およびサーバを選択することができることを理解すべきである。
図2を参照すると、図2は、本出願の実施形態に係る指令実行方法のフローチャートである。フロー200は、以下のステップを含む。
ステップ201では、入力された実の音声指令を受信する。
本実施形態では、指令実行方法の実行主体(例えば、図1に示す端末装置101、102、103)は、ユーザによって入力された、所望の動作を示す実の音声指令を受信する。
実際には、実の音声指令を受信する際に、実の音声指令が完全な音声情報に含まれている場合には、予め設定された音声指令データベースを用いて、取得した完全な音声情報を抽出および/または正規化処理し、その中に含まれた実の音声指令を取得することができる。
いくつかのオプション的な実施形態では、取得した実の音声指令に従って意味正規化処理を行うことにより、上記の実行主体によって完全に認識され、読み取られることが可能で、正確な実の音声指令を取得することができる。
なお、実の音声指令は、予め設定された対応関係に基づいて簡略化された簡略化音声指令であってもよい。上記の実行主体は、当該簡略化音声指令を受信した後、予め設定された対応関係に基づいて、対応する実の音声指令を取得する。この場合、簡略化音声指令と実の音声指令との対応関係が記録されたファイルは、上記の実行主体がローカルな記憶装置から直接取得してもよいし、非ローカルな記憶装置(例えば、図1に示す上記の実行主体ではない他の端末装置101、102、103)から取得してもよい。ローカルな記憶装置は、上記の実行主体内に設けられた、サーバハードディスクなどのデータ記憶モジュールであってもよい。この場合、簡略化音声指令と実の音声指令との対応関係が記録されたファイルをローカルに迅速に読み出すことができる。非ローカルな記憶装置は、データを記憶するために設定された他の任意の電子機器、例えば、いくつかのユーザ端末等であってもよい。この場合、上記の実行主体は、取得指令を当該電子機器に発送することにより、必要とされる簡略化音声指令と実の音声指令との対応関係が記録されたファイルを取得することができる。
ステップ202では、実の音声指令を発信した目標位置を確定する。
本実施形態では、上記の実行主体は、入力された実の音声指令を受信すると、当該実の音声指令を発信した目標位置を確定する。当該目標位置は、当該実の音声指令を発信した音源(例えば、ユーザ)が所在する目標位置である。
いくつかのオプション的な実施形態では、実の音声指令を発信した目標位置を確定する方法は、上記の実行主体に複数の角度を向いた音声採集装置が存在する場合には、各採集装置における強度に基づいて、音源の方向と、実の音声指令を発信したユーザから採集装置までの距離とを取得することであってもよい。
ステップ203では、目標位置に対応する目標有効指令セットを取得する。
本実施形態では、実の音声指令を発信した目標位置を確定した後、当該目標位置に対応する目標有効指令セットを取得する。当該目標有効指令セットには複数の有効指令が記録されている。実の音声指令が複数の有効指令における目標有効指令と一致する場合には、当該実の音声指令を有効な音声指令として確定する。
ここで、目標有効指令セットに記録されている有効指令情報は、上記の実行主体によって提供可能な、目標位置にいるユーザに呼び出されることが可能な機能に基づいて、設定されてもよい。
さらに、実の音声指令の目標位置を確定する際の、採集誤差による目標位置認識が不正確という問題を減らすために、上記の指令実行方法における実の音声指令が採集可能な領域を分割することにより、複数の異なる目標位置領域を取得する。目標位置領域単位で対応する目標有効指令セットを設定する。
実際には、実の指令を発信した目標位置が属する目標位置領域を確定した後、フィードバック情報を発信することにより、ユーザが目標位置領域に属するか否かを検証する。
ステップ204では、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行する。
本実施形態では、上記の実行主体は、当該実の音声指令が目標有効指令セットにおける任意の目標有効指令であると判定した場合、すなわち、目標有効指令セットには当該実の音声指令に対応する目標有効指令が存在する場合には、当該実の音声指令を有効指令として確定し、当該実の音声指令に対応する動作を実行する。
本出願の実施形態に係る指令実行方法は、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判断する。これにより、実の音声指令の発送位置に基づいて実の音声指令の有効性を確定する目的が達成され、トリガ誤作動の発生頻度が低減される。
本実施形態のいくつかのオプション的な実施形態では、上記のトリガ誤作動の発生頻度を低減する目的を実現するために、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令ではないことに応答して、当該実の音声の実行を遮蔽することにより、トリガの誤作動を回避する。
本実施形態のいくつかのオプション的な実施形態では、上記の指令実行方法は、さらに、予め設定された時間内に同じおよび/または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して当該目標位置の目標有効指令セットの提示情報を返送するステップを含む。
具体的には、上記の実行主体は、予め設定された時間内に同じおよび/または異なる実の音声指令を連続的に遮蔽した後、連続的に遮蔽した回数が予め設定された閾値を超えた場合、予め設定された経路を介して当該目標位置の目標有効指令セットの提示情報を返送することにより、ユーザは当該提示情報の内容に基づいて実行可能な有効指令を把握し、対応する指令の選択および調整を行うことができる。これにより、ユーザが有効指令を把握していないために、ユーザが実の音声指令を複数回発信したにもかかわらず、フィードバックが得られず、動作目的を実現できないという問題による「ユーザのインタラクション体験が悪い」という問題を回避し、ユーザ体験を向上させることができる。
上記の実施形態に基づいて図3を参照すると、図3は、本出願の実施形態に係る別の指令実行方法のフローチャートである。車内シーンに適用することができる。フロー300は、以下のステップを含む。
ステップ301では、入力された実の音声指令を受信する。
ステップ302では、実の音声指令を発信した目標位置を確定する。
上記のステップ301~302は、図2に示すステップ201~202と一致するので、同じ部分の内容は、前の実施形態の対応する部分を参照されたい。ここではこれ以上説明しない。
ステップ303では、目標位置に基づいて、実の音声指令を発信したユーザの車内IDを確定する。
本実施形態では、上記のステップ302に基づいて実の音声指令を発信した目標位置を確定した後、当該目標位置が車内にある位置に基づいて、ドライバー、コドライバー(CoDriver)、および後部座席乗客などのユーザの車内IDを確定することができる。
ステップ304では、車内IDに対応するターゲットウェイクフリーワードセット(target free-of-wakeup word set)を確定する。
本実施形態では、「ウェイク・フリー・ワード」とは、ユーザがわざわざウェイクワードを使用して車載機器をウェイクする必要がなく、車載機器によって直接受信して応答動作を実行可能なワードである。上記のステップ303に基づいてユーザの車内IDを確定した後、当該車内IDに対応するターゲットウェイクフリーワードセットを確定することができる。
ここで、車内IDに対応するターゲットウェイクフリーワードセットには、当該車内IDによる使用を認める有効な実の音声指令が記録されている。例えば、車内IDがドライバーである場合には、ターゲットウェイクフリーワードセットにおける有効な実の音声指令を「ナビゲーションを開始する」、「目的地Bへ出発する」に設定してもよい。車内IDがコドライバーである場合には、ターゲットウェイクフリーワードセットにおける有効な実の音声指令を「助手席のエアコンの温度を26度に調整する」などに設定してもよい。車内IDが後部座席乗客である場合には、ターゲットウェイクフリーワードセットにおける有効な実の音声指令を「後部座席のエアコンをオフにする」、「後部座席の日除けを開ける」などに設定してもよい。
ステップ305では、実の音声指令が当該ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、ターゲットウェイクフリーワードに対応する動作を実行する。
本実施形態では、実の音声指令がターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであると判断した後、当該ウェイク・フリー・ワードに対応する実の音声指令を有効指令として判定し、当該ターゲットウェイクフリーワードに対応する動作を実行する。
実際には、上記の実行主体が車内の車載機器として具現化された場合には、当該ターゲットウェイクフリーワードに対応する動作を実現するために、車載機器の受信装置がウェイク・フリー・ワードを受信して当該ターゲットウェイクフリーワードに対応する動作を実行することを確定した後、車載機器は車載音声アシスタントを積極的にウェイクし、当該ターゲットウェイクフリーワードに対応する動作を実行するように当該車載音声アシスタントを制御することができる。
本実施形態では、上記の図2に対応する実施形態に基づいて、実際の適用シーンに合わせて、ユーザのIDに応じて、対応する動作権限を確定してもよい。これにより、当該動作権限に基づいて対応するウェイク・フリー・ワードを設定し、トリガ誤作動の発生頻度を低減するとともに、具体的な適用シーンに近づけ、ユーザの使用体験を保証しながら目標有効指令セットにおける内容を簡略化し、記憶リソースを節約することができる。
本実施形態のいくつかのオプション的な実施形態では、当該指令実行方法は、さらに、目標空間内の各位置に入ったユーザのID情報を取得するステップと、当該ユーザのID情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、当該新しいユーザが所在する目標空間内の位置の目標提示方式を確定するステップと、当該新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、当該目標提示方式によって新しいユーザに提示するステップと、を含む。
具体的には、今回に目標空間(例えば、本実施形態に係る車内)に入ったユーザのID情報を取得し、当該ユーザのID情報に基づいて当該ユーザが今回に所在する位置に入ったことがあるか否かを判断し、当該ユーザが当該位置に入ったことがないことに応答して、当該位置に基づいて対応する目標提示方式を確定し、当該目標提示方式に基づいて当該位置に対応する有効指令セットを当該ユーザに提示することができる。これにより、新たに入ったユーザは音声制御を実現するために利用可能な実の音声指令を把握することができ、ユーザの使用に利便性を与えた。
ここで、目標提示方式は、通常、目標空間における異なる位置の提示能力に応じて確定してもよい。例えば、車内シーンの場合、当該位置が前部座席位置であれば、車内制御プラットフォームにおける車載機器画面を介して表示することができ、当該位置が後部座席位置であれば、車内の音声再生装置によって表示するように設定してもよい。
上記のいずれかの実施形態に基づいて、ユーザによって発信された音声情報に対する誤応答を低減するために、(例えば、ユーザが電話をかけるときに、ユーザが実の音声指令を発信する意思がないにもかかわらず、ユーザが発信した音声情報が実の音声指令に関連している場合)、当該指令実行方法は、入力された実の音声指令を受信した後、実の音声指令を発信した目標位置を確定する前に、さらに、当該実の音声指令採集時刻の前後における予め設定された時間にわたる音声情報を取得するステップと、当該音声情報と当該実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、当該実の音声指令を遮蔽するステップと、を含む。
具体的には、上記の実行主体は、入力された実の音声指令を受信した後、実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得し、当該音声情報における内容を検証することにより、当該音声情報における実の音声指令と当該音声情報における他の部分の内容との関連性を取得する。当該関連性が予め設定された関連性よりも大きい場合には、当該音声情報が上記の実行主体に対して発送されたものではないと判断した場合、すなわち、その中に含まれた実の音声指令がユーザの指令実行意思に基づいたものではないと判断した場合、誤認識を防止するために当該実の音声指令を遮蔽する。
さらに、いくつかのオプション的な実施形態では、同様に誤認識を防止するために、実の音声指令に含まれた情報の文字数と当該音声情報に含まれた文字数との比例関係に基づいて、当該実の音声指令が上記の実行主体に対して発信されたものであるか否かを判断するようにしてもよい。
上記のいずれかの実施形態に基づいて、目標有効指令セットに含まれる内容の有効性を向上させるために、およびユーザの実際の要求に応じて、目標有効指令セットにおける内容を構成できるようにするために、当該指令実行方法は、さらに、入力された指令更新要求を受信するステップと、当該指令更新要求の発送位置が更新権限を有することに応答して、当該指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するステップと、当該更新される実の音声指令の内容と更新される動作タイプとに基づいて、当該実の音声指令セットの指示情報が示す目標有効指令セットを更新するステップと、を含む。
具体的には、上記の実行主体は、入力された指令更新要求を受信すると、当該指令更新要求を発送した発送位置が更新権限を有するか否かを判断し、当該発送位置が更新権限を有することに応答して、当該指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得する。ここで、実の音声指令セットの指示情報は、ユーザが更新を所望する目標有効指令セットの選択情報であり、これにより、当該選択情報に基づいて対応する目標有効指令セットを確定することができ、更新される実の音声指令の内容は、ユーザが更新を所望する具体的な実の音声指令の内容であり、動作タイプの更新は、更新される実の音声指令の内容を目標有効指令セットに追加することまたは、目標有効指令セットにおける更新される実の音声指令の内容に対応する内容を削除することなどであり得る。
実際には、ユーザは、ID情報に基づいて更新コンフィグファイルを予め設定してもよい。これにより、目標有効指令セットを更新する際に、当該更新コンフィグファイルを直接呼び出して設定し、目標有効指令セットを更新する効率をさらに向上させることができる。
理解を深めるために、本出願はまた、1つの具体的な適用シーンを合わせて、1つの具体的な実施形態を提案する。当該適用シーンでは、ユーザAが先に、ユーザBが後に、前後して車載機器401に対して実の音声指令を発信する。具体的なプロセスは、以下のとおりである。
車載機器401は、(図4aに示すように)ユーザAによって入力された実の音声指令「東大街までナビゲートする」を受信すると、当該実の音声指令を発信した目標位置を確定し、当該目標位置に基づいて、当該ユーザAに対応する車内IDがコドライバーであると判定する。
当該コドライバーのIDに対応する目標有効指令セットを取得する。当該目標有効指令セットには「助手席のエアコンの温度を1度上昇させる」、「助手席の窓を50%まで開く」、「助手席の窓を閉じる」が含まれているが、「東大街までナビゲートする」という内容が含まれていないため、ユーザAからの「東大街までナビゲートする」を遮蔽する。
さらに、車載機器401は、(図4bに示すように)ユーザBによって入力された実の音声指令「東大街までナビゲートする」を受信すると、当該実の音声指令を発信した目標位置を判断し、当該目標位置に基づいて、当該ユーザBに対応する車内IDがドライバーであると判定する。
当該ドライバーのIDに対応する目標有効指令セットを取得する。当該目標有効指令セットには「…までナビゲートする」と「運転席の窓を50%まで開く」が含まれている。ここで、「…までナビゲートする」が「東大街までナビゲートする」という内容に対応するので、「東大街までナビゲートする」が当該ドライバーのIDに対応する目標有効指令セットにおける目標有効指令であると判定することができ、「東大街」へのナビゲーションルートの生成を実行する(図4bに示すように、車載機器には「ナビゲーションルート生成中」が表示されている)。
さらに図5を参照すると、本出願は、上記の各図に示す方法の実現として、様々な電子機器に具体的に適用可能な、図2に示す方法の実施形態に対応する指令実行装置の一実施形態を提供する。
図5に示すように、本実施形態の指令実行装置500は、入力された実の音声指令を受信するように構成される指令受信ユニット501と、当該実の音声指令を発信した目標位置を確定するように構成される位置確定ユニット502と、当該目標位置に対応する目標有効指令セットを取得するように構成される有効指令セット取得ユニット503と、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令であることに応答して、当該実の音声指令に対応する動作を実行するように構成される指令実行ユニット504と、を含んでもよい。
本実施形態では、指令実行装置500における指令受信ユニット501、位置確定ユニット502、有効指令セット取得ユニット503、および指令実行ユニット504の具体的な処理およびそれらに伴う技術的効果は、図2に対応する実施形態のステップ201~204の関連説明をそれぞれ参照することができる。ここではこれ以上説明しない。
本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置500は、さらに、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令ではないことに応答して、当該実の音声指令を遮蔽するように構成される第1の指令遮蔽ユニットを含む。
本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置500は、さらに、予め設定された時間内に同じおよび/または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して当該目標位置の目標有効指令セットの提示情報を返送するように構成される有効指令セット提示ユニットを含む。
本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置500は、さらに、目標空間における各位置に入ったユーザのID情報を取得するように構成されるID情報取得ユニットと、当該ユーザのID情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、当該新しいユーザが所在する目標空間内の位置の目標提示方式を確定するように構成される提示方式確定ユニットと、当該新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、当該目標提示方式によって新しいユーザに提示するように構成される有効指令セット提示ユニットと、を含む。
本実施形態の任意の実施形態では、当該指令実行装置500は、さらに、入力された指令更新要求を受信するように構成される更新要求受信ユニットと、当該指令更新要求の発送位置が更新権限を有することに応答して、当該指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するように構成される更新内容取得ユニットと、当該更新される実の音声指令の内容と更新される動作タイプとに基づいて、当該実の音声指令セットの指示情報が示す目標有効指令セットを更新するように構成される有効指令セット更新ユニットと、を含む。
本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置500は、さらに、当該実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得するように構成される音声情報抽出ユニットと、当該音声情報と当該実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、当該実の音声指令を遮蔽するように構成される第2の指令遮蔽ユニットと、を含む。
本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置500は、さらに、当該目標位置に基づいて、当該実の音声指令を発信したユーザの車内IDを確定するように構成される車内ID確定ユニットを含み、有効指令セット取得ユニットは、さらに、当該車内IDに対応するターゲットウェイクフリーワードセットを確定するように構成される。当該指令実行ユニットは、さらに、当該実の音声指令が当該ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、当該ターゲットウェイクフリーワードに対応する動作を実行するように構成される。
本実施形態は、上記の方法の実施形態に対応する装置の実施形態として存在する。本実施形態に係る指令実行装置は、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判断する。これにより、実の音声指令の発信位置に基づいて実の音声指令の有効性を判定することができ、トリガ誤作動の発生頻度が低減される。
本出願の実施形態によれば、本出願はさらに、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムを提供する。
図6は、本出願の実施形態を実施するために使用可能な例示的な電子機器600の概略ブロック図を示す。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本明細書に示すコンポーネント、それらの接続と関係、およびそれらの機能は、一例に過ぎず、本明細書に記載されたおよび/または要求される本明細書の実装を限定することは意図されていない。
図6に示すように、機器600は、読み出し専用メモリ(ROM)602に記憶されたコンピュータプログラムまたは、記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作および処理を実行することができる計算ユニット601を含む。RAM603には、機器600の動作に必要な各種プログラムおよびデータも記憶されることができる。計算ユニット601、ROM602およびRAM603は、バス604を介して互いに接続されている。入出力(I/O)インタフェース605もバス604に接続されている。
機器600における複数のコンポーネントは、I/Oインタフェース605に接続されている。それには、キーボード、マウスなどの入力ユニット606と、各種のディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、NIC、モデム、無線通信送受信機などの通信ユニット609と、が含まれる。通信ユニット609は、機器600が、インターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット601は、処理および計算能力を有する様々な汎用および/または専用の処理モジュールであってもよい。計算ユニット601のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上記の様々な方法および処理、例えば、指令実行方法を実行する。例えば、いくつかの実施形態では、指令実行方法は、記憶ユニット608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して機器600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされ、計算ユニット601によって実行される場合には、上記の指令実行方法の1つまたは複数のステップを実行することができる。あるいは、他の実施形態では、計算ユニット601は、他の任意の適切な方法を通じて(例えば、ファームウェアによって)、指令実行方法を実行するように構成されてもよい。
本明細書に述べた上記システムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、オンチップシステムのシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装することができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラム内に実装されることを含むことができる。当該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができる。当該プログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび指令を受信し、データおよび指令を当該記憶システム、当該少なくとも1つの入力デバイス、および当該少なくとも1つの出力デバイスに送信することができる専用または汎用プログラマブルプロセッサであり得る。
本明細書の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせを用いて書くことができる。これらのプログラムコードは、プロセッサまたはコントローラによって実行されるときに、フローチャートおよび/またはブロック図に規定された機能/動作を実施するように、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、独立したソフトウェアパッケージとして機械上で部分的に実行されかつ遠隔機械上で部分的に実行され、または完全に遠隔機械もしくはサーバ上で実行されることができる。
本明細書の文脈では、機械可読媒体は、指令実行システム、機器、もしくはデバイスが使用するため、または指令実行システム、機器、もしくはデバイスと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体とすることができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体とすることができる。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、機器もしくはデバイス、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1本または複数本の導線に基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯式コンパクトディスク読取り専用メモリ(CD?ROM)、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施されてもよく、ユーザはキーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはさらに、ユーザとのインタラクションを提供するために使用されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよい。ユーザからの入力は、任意の形態(音響入力、音声入力、または触覚入力を含む)で受信されてもよい。
本明細書に記載されたシステムおよび技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとして)、またはミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ。ユーザは当該グラフィカルユーザインターフェースまたは当該ウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態と相互作用することができる)、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含む計算システムにおいて実装されてもよい。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、互いに離れており、一般に通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で動作し、互いにクライアント・サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよい。クラウドサーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品である。これにより、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決することができる。サーバは、分散システムのサーバであってもよいし、ブロックチェーンを結合したサーバであってもよい。
本出願の実施形態に係る技術的解決手段によれば、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判断する。これにより、実の音声指令の発信位置に基づいて実の音声指令の有効性を確定する目的が達成され、トリガ誤作動の発生頻度が低減される。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. 入力された実の音声指令を受信するステップと、
    前記実の音声指令を発信した目標位置を確定するステップと、
    前記目標位置に対応する目標有効指令セットを取得するステップと、
    前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令であることに応答して、前記実の音声指令に対応する動作を実行するステップと、
    を含む指令実行方法。
  2. 前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令ではないことに応答して、前記実の音声指令を遮蔽するステップをさらに含む、
    請求項1に記載の指令実行方法。
  3. 予め設定された時間内に同じおよび/または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して前記目標位置の目標有効指令セットの提示情報を返送するステップをさらに含む、
    請求項2に記載の指令実行方法。
  4. 目標空間内の各位置に入ったユーザのID情報を取得するステップと、
    前記ユーザのID情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、前記新しいユーザが所在する目標空間内の位置の目標提示方式を確定するステップと、
    前記新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、前記目標提示方式によって前記新しいユーザに提示するステップと、をさらに含む、
    請求項1に記載の指令実行方法。
  5. 入力された指令更新要求を受信するステップと、
    前記指令更新要求の発送位置が更新権限を有することに応答して、前記指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するステップと、
    前記更新される実の音声指令の内容と更新される動作タイプとに基づいて、前記実の音声指令セットの指示情報が示す目標有効指令セットを更新するステップと、
    をさらに含む請求項1に記載の指令実行方法。
  6. 入力された実の音声指令を受信した後、前記実の音声指令を発信した目標位置を確定する前に、
    前記実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得するステップと、
    前記音声情報と前記実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、前記実の音声指令を遮蔽するステップと、
    をさらに含む請求項1に記載の指令実行方法。
  7. 前記指令実行方法は、前記目標位置に基づいて、前記実の音声指令を発信したユーザの車内IDを確定するステップをさらに含み、
    前記の、前記目標位置に対応する目標有効指令セットを確定するステップは、前記車内IDに対応するターゲットウェイクフリーワードセットを確定するステップを含み、
    前記の、前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令であることに応答して、前記実の音声指令に対応する動作を実行するステップは、前記実の音声指令が前記ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、前記ターゲットウェイクフリーワードに対応する動作を実行するステップを含む請求項1に記載の指令実行方法。
  8. 入力された実の音声指令を受信するように構成される指令受信ユニットと、
    前記実の音声指令を発信した目標位置を確定するように構成される位置確定ユニットと、
    前記目標位置に対応する目標有効指令セットを取得するように構成される有効指令セット取得ユニットと、
    前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令であることに応答して、前記実の音声指令に対応する動作を実行するように構成される指令実行ユニットと、
    を含む指令実行装置。
  9. 前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令ではないことに応答して、前記実の音声指令を遮蔽するように構成される第1の指令遮蔽ユニットをさらに含む請求項8に記載の指令実行装置。
  10. 予め設定された時間内に同じおよび/または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して前記目標位置の目標有効指令セットの提示情報を返送するように構成される有効指令セット提示ユニットをさらに含む請求項9に記載の指令実行装置。
  11. 目標空間内の各位置に入ったユーザのID情報を取得するように構成されるID情報取得ユニットと、
    前記ユーザのID情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、前記新しいユーザが所在する目標空間内の位置の目標提示方式を確定するように構成される提示方式確定ユニットと、
    前記新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、前記目標提示方式によって前記新しいユーザに提示するように構成される有効指令セット提示ユニットと、
    をさらに含む請求項8に記載の指令実行装置。
  12. 入力された指令更新要求を受信するように構成される更新要求受信ユニットと、
    前記指令更新要求の発送位置が更新権限を有することに応答して、前記指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するように構成される更新内容取得ユニットと、
    前記更新される実の音声指令の内容と更新される動作タイプとに基づいて、前記実の音声指令セットの指示情報が示す目標有効指令セットを更新するように構成される有効指令セット更新ユニットと、
    をさらに含む請求項8に記載の指令実行装置。
  13. 前記実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得するように構成される音声情報抽出ユニットと、
    前記音声情報と前記実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、前記実の音声指令を遮蔽するように構成される第2の指令遮蔽ユニットと、
    をさらに含む請求項8に記載の指令実行装置。
  14. 前記指令実行装置は、前記目標位置に基づいて、前記実の音声指令を発信したユーザの車内IDを確定するように構成される車内ID確定ユニットをさらに含み、
    有効指令セット取得ユニットは、さらに、前記車内IDに対応するターゲットウェイクフリーワードセットを確定するように構成され、
    前記指令実行ユニットは、さらに、前記実の音声指令が前記ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、前記ターゲットウェイクフリーワードに対応する動作を実行するように構成される、
    請求項8に記載の指令実行装置。
  15. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
    前記メモリに前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~7のいずれか一項に記載の指令実行方法を実行する電子機器。
  16. コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~7のいずれか一項に記載の指令実行方法を実行させるためのものである非一時的コンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1~7のいずれか一項に記載の指令実行方法を実現するコンピュータプログラム。
JP2022051665A 2021-06-08 2022-03-28 指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム Active JP7352680B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110636590.7 2021-06-08
CN202110636590.7A CN113380246A (zh) 2021-06-08 2021-06-08 指令执行方法、相关装置及计算机程序产品

Publications (2)

Publication Number Publication Date
JP2022088512A true JP2022088512A (ja) 2022-06-14
JP7352680B2 JP7352680B2 (ja) 2023-09-28

Family

ID=77576532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022051665A Active JP7352680B2 (ja) 2021-06-08 2022-03-28 指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220301564A1 (ja)
EP (1) EP4027336B1 (ja)
JP (1) JP7352680B2 (ja)
KR (1) KR20220056838A (ja)
CN (1) CN113380246A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059571A (ja) * 2006-08-01 2008-03-13 Matsushita Electric Ind Co Ltd 音声入力装置及び機器操作方法
JP2020144285A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965247B2 (en) * 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
KR20180085931A (ko) * 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN108320739B (zh) * 2017-12-22 2022-03-01 景晖 根据位置信息辅助语音指令识别方法和装置
CN108520743B (zh) * 2018-02-02 2021-01-22 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN109584871B (zh) * 2018-12-04 2021-09-03 北京蓦然认知科技有限公司 一种车辆中语音指令的用户身份识别方法、装置
CN110880321B (zh) * 2019-10-18 2024-05-10 平安科技(深圳)有限公司 基于语音的智能刹车方法、装置、设备及存储介质
CN111653277A (zh) * 2020-06-10 2020-09-11 北京百度网讯科技有限公司 车辆语音控制方法、装置、设备、车辆及存储介质
CN111768776A (zh) * 2020-06-28 2020-10-13 戴姆勒股份公司 车内语音控制方法
CN111880693A (zh) * 2020-07-03 2020-11-03 芜湖雄狮汽车科技有限公司 一种汽车显示屏应用程序列表位置编辑方法和系统
CN112017646A (zh) * 2020-08-21 2020-12-01 博泰车联网(南京)有限公司 一种语音处理方法、装置及计算机存储介质
CN112309373A (zh) * 2020-09-28 2021-02-02 惠州市德赛西威汽车电子股份有限公司 一种自定义车载语音技能的系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059571A (ja) * 2006-08-01 2008-03-13 Matsushita Electric Ind Co Ltd 音声入力装置及び機器操作方法
JP2020144285A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム

Also Published As

Publication number Publication date
EP4027336A3 (en) 2022-11-02
EP4027336B1 (en) 2023-11-15
CN113380246A (zh) 2021-09-10
KR20220056838A (ko) 2022-05-06
EP4027336A2 (en) 2022-07-13
US20220301564A1 (en) 2022-09-22
JP7352680B2 (ja) 2023-09-28

Similar Documents

Publication Publication Date Title
JP7213943B2 (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
KR20210068333A (ko) 응용 프로그램의 조작 안내 방법, 장치, 기기 및 판독 가능 저장 매체
KR102555801B1 (ko) 노이즈 제거 알고리즘 디버깅 방법, 장치 및 전자기기
CN116360735A (zh) 一种表单生成方法、装置、设备和介质
CN114360554A (zh) 一种车辆远程控制方法、装置、设备及存储介质
CN113835570A (zh) 车辆中显示屏的控制方法、装置、设备、存储介质及程序
JP2022088512A (ja) 指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111324202A (zh) 一种交互方法、装置、设备及存储介质
JP7383761B2 (ja) 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP7375089B2 (ja) 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
WO2022135259A1 (zh) 语音输入方法、装置及电子设备
WO2024108883A1 (zh) 一种基于设备状态和用户行为的智能语音引导方法
JP2019091444A (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体
US20220343400A1 (en) Method and apparatus for providing state information of taxi service order, and storage medium
CN114721895B (zh) 待测设计的验证方法、平台、设备和介质
CN114220422A (zh) 系统构建、信息录制、模型训练方法、装置、设备及介质
EP4056424A1 (en) Audio signal playback delay estimation for smart rearview mirror
CN116521113A (zh) 多屏控制方法、装置及车辆
JP2022088626A (ja) アプリケーション通信方法、アプリケーション通信装置、電子機器及び記憶媒体
CN112786055A (zh) 资源挂载方法、装置、设备、存储介质及计算机程序产品
CN114861675A (zh) 用于语义识别的方法及装置、控制指令的生成方法及装置
WO2024005774A1 (en) Embedded milestone status
CN115470233A (zh) 业务参数管理方法、装置、电子设备及存储介质
CN117877470A (zh) 语音关联方法、装置、设备及存储介质
CN116631396A (zh) 控件的显示方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230915

R150 Certificate of patent or registration of utility model

Ref document number: 7352680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150