JP2022088512A

JP2022088512A - 指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2022088512A
Application number: JP2022051665A
Authority: JP
Inventors: ファングァンズォン; Fanguang Zeng
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2021-06-08
Filing date: 2022-03-28
Publication date: 2022-06-14
Anticipated expiration: 2042-03-28
Also published as: EP4027336A3; EP4027336B1; CN113380246A; KR20220056838A; EP4027336A2; US20220301564A1; JP7352680B2

Abstract

【課題】車載環境で音声を使用するための指令実行方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。【解決手段】指令実行方法は、入力された実の音声指令を受信するステップと、実の音声指令を発信した目標位置を確定するステップと、目標位置に対応する目標有効指令セットを取得するステップと、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行するステップと、を含む。【選択図】図２

Description

本出願は、コンピュータ技術分野に関し、具体的に音声認識、スマート音声などの人工知能技術分野に関し、特に指令実行方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムに関する。

車載環境で音声を使用するためには、通常、音声ウェイクワードまたはステアリングホイール上のボタンによって音声をトリガして、認識インタラクション状態に入るようにする必要がある。この場合、音声により車載機器に対して対応する指令を送信する。このプロセスは「音声ウェイク」という。ユーザが音声をより便利かつ迅速に使用できるようにするためには、一部の高頻度の語彙を「ウェイク・フリー・ワード」（ｆｒｅｅ－ｏｆ－ｗａｋｅｕｐｗｏｒｄｓ）として定義するのが一般的である。すなわち、ユーザは音声ウェイクを行わずに、ウェイク・フリー・ワード（例えば、「前の曲」、「次の曲」、「再生」、「一時停止」、「ナビゲーション開始」、「ナビゲーション終了」などの語彙）を直接発話するだけで、車載機器はそれに応じた動作を実行することができる。

本出願の実施形態は、指令実行方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提案する。

第１態様において、本出願の実施形態は、入力された実の音声指令を受信するステップと、実の音声指令を発信した目標位置を確定するステップと、目標位置に対応する目標有効指令セットを取得するステップと、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行するステップと、を含む指令実行方法を提供する。

第２態様において、本出願の実施形態は、入力された実の音声指令を受信するように構成される指令受信ユニットと、実の音声指令を発信した目標位置を確定するように構成される位置確定ユニットと、目標位置に対応する目標有効指令セットを取得するように構成される有効指令セット取得ユニットと、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行するように構成される指令実行ユニットと、を含む指令実行装置を提供する。

第３態様において、本出願の実施形態は、少なくとも１つのプロセッサと少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも１つのプロセッサによって実行可能な指令が記憶され、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサが第１態様のいずれか一つの実施形態に記載の指令実行方法を実施する電子機器を提供する。

第４態様において、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第１態様のいずれか一つの実施形態に記載の指令実行方法を実施させるためのものである非一時的コンピュータ可読記憶媒体を提供する。

第５態様において、本出願の実施形態は、プロセッサによって実行されると、第１態様のいずれか一つの実施形態に記載の指令実行方法を実施するコンピュータプログラムを提供する。

本出願の実施形態に係る指令実行方法、装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムは、入力された実の音声指令を受信した時、当該実の音声指令を発信した目標位置を確定し、当該目標位置に対応する目標有効指令セットを取得し、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令であることに応答して、当該実の音声指令に対応する動作を実行する。

本出願では、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判定する。これにより、実の音声指令の発送位置に基づいて実の音声指令の有効性を確定する目的が達成され、トリガ誤作動の発生頻度が低減される。

上記の説明は、本出願の実施形態の肝心または重要な特徴をマークすることが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解すべきである。本出願の他の特徴は、以下の説明によって理解しやすくなる。

以下の図面を参照して作成された非限定的な実施形態の詳細な説明を読むことによって、本出願の他の特徴、目的、および利点は、より明らかになる。
本出願が適用可能な例示的なシステムアーキテクチャである。本出願の実施形態に係る指令実行方法のフローチャートである。本出願の実施形態に係る別の指令実行方法のフローチャートである。本出願の実施形態に係る適用シーンにおける指令実行方法の効果概略図である。本出願の実施形態に係る適用シーンにおける指令実行方法の効果概略図である。本出願の実施形態に係る指令実行装置の構成ブロック図である。本出願の実施形態に係る指令実行方法を実施するのに適する電子機器の構成概略図である。

以下、図面に関連して、本出願の例示的な実施形態を説明する。理解を助けるために、本出願の実施形態の様々な詳細を含むが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態は、本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識するであろう。同様に、以下の説明では、明確化かつ簡略化のために、公知の機能および構造の説明を省略する。なお、矛盾が生じない限り、本出願における実施形態および実施形態における特徴は、互いに組み合わせられてもよい。

また、本出願に係る技術的解決手段では、係るユーザ個人情報の取得、記憶、応用などは、いずれも関連する法律法規の規定に合致し、公序良俗に反しない。

図１は、本出願の指令実行方法、装置、電子機器、およびコンピュータ可読記憶媒体の一実施形態を適用することができる例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。

ユーザは、メッセージなどを受信または送信するために、端末装置１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５とインタラクションすることができる。端末装置１０１、１０２、１０３、およびサーバ１０５には、ナビゲーションアプリケーション、機能統合アプリケーション、インスタントメッセージングアプリケーションなど、両者の間の情報通信を実現するための様々なアプリケーションが実装されていてもよい。

端末装置１０１、１０２、１０３、およびサーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、スマートフォン、タブレットコンピュータなどを含むが、これらに限定されない、音声指令に基づくマンマシンインタラクションを実施する様々な電子機器であってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合、上記の電子機器にインストールされることが可能であり、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは、具体的に限定しない。サーバ１０５がハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実装されてもよく、単一のサーバとして実装されてもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは、具体的に限定しない。

端末装置１０１、１０２、１０３は内蔵された様々なアプリケーションによって様々なサービスを提供することができる。様々な機能を提供できる機能統合型アプリケーションを例にすると、当該端末装置１０１、１０２、１０３は当該機能統合型アプリケーションを実行する場合、次のようなことが可能となる。まず、端末装置１０１は入力された実の音声指令を受信し、そして、端末装置１０１、１０２、１０３は当該実の音声指令を発信した目標位置を確定し、さらに、端末装置１０１、１０２、１０３は当該目標位置に対応する有効指令セットを取得し、最後に、端末装置１０１、１０２、１０３は当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令であることに応答して、当該実の音声指令に対応する動作を実行する。

なお、音声指令に対応する動作は、サーバ１０５で実行される動作であってもよいし、端末装置１０１、１０２、１０３において実行される動作であってもよいので、実の音声指令に対応する動作が端末装置１０１、１０２、１０３に基づいて実現されることが可能な場合には、例示的なシステムアーキテクチャ１００は、サーバ１０５およびネットワーク１０４を含まなくてもよい。

音声でマンマシンインタラクションを実現する際には、通常、高い応答速度が必要とされるので、以下に述べる各実施形態に係る指令実行方法は、一般に、ユーザにタイムリーな応答を提供するために、端末装置１０１、１０２、１０３（例えば、運転シーンでは車内の車載端末装置）によって実現される。なお、本出願のいくつかのオプション的な実現シーンでは、実の音声指令の内容が複雑であり、実の音声指令における内容を解析・取得することに、高い演算能力または多くの演算リソースが必要となる場合、または実の音声指令に対応する動作の実行に高い計算能力および多くの演算リソースが必要となる場合には、指令実行方法はサーバ１０５によって実行されてもよい。このとき、サーバ１０５と端末装置１０１、１０２、１０３との間でネットワークを介して通信することができるので、サーバ１０５は端末装置からユーザによって入力された実の音声指令を取得した後、指令実行方法における残りの処理プロセスを完了し、最終的にサーバ１０５で当該実の音声指令に対応する動作を実行することができる。これにより、高い演算能力と多くの演算リソースを有するサーバを利用してより多くの動作を実行することができる。

また、演算能力の異なる端末装置が複数種同時に存在するが、機能統合型アプリケーションが、搭載している端末装置とサーバとのインタラクション、応答速度が要求を満たすと判断した場合には、端末装置１０１、１０２、１０３とサーバ１０５を同時に利用して指令実行方法を同時に実現することができる。これにより、端末装置１０１、１０２、１０３の演算負荷を適宜軽減することができる。したがって、指令実行装置は端末装置１０１、１０２、１０３とサーバ１０５に同時に設けられていてもよい。

本出願の内容は、具体的な実装の必要に応じて異なる適用シーンで任意の数の端末装置、ネットワーク、およびサーバを選択することができることを理解すべきである。

図２を参照すると、図２は、本出願の実施形態に係る指令実行方法のフローチャートである。フロー２００は、以下のステップを含む。

ステップ２０１では、入力された実の音声指令を受信する。

本実施形態では、指令実行方法の実行主体（例えば、図１に示す端末装置１０１、１０２、１０３）は、ユーザによって入力された、所望の動作を示す実の音声指令を受信する。

実際には、実の音声指令を受信する際に、実の音声指令が完全な音声情報に含まれている場合には、予め設定された音声指令データベースを用いて、取得した完全な音声情報を抽出および／または正規化処理し、その中に含まれた実の音声指令を取得することができる。

いくつかのオプション的な実施形態では、取得した実の音声指令に従って意味正規化処理を行うことにより、上記の実行主体によって完全に認識され、読み取られることが可能で、正確な実の音声指令を取得することができる。

なお、実の音声指令は、予め設定された対応関係に基づいて簡略化された簡略化音声指令であってもよい。上記の実行主体は、当該簡略化音声指令を受信した後、予め設定された対応関係に基づいて、対応する実の音声指令を取得する。この場合、簡略化音声指令と実の音声指令との対応関係が記録されたファイルは、上記の実行主体がローカルな記憶装置から直接取得してもよいし、非ローカルな記憶装置（例えば、図１に示す上記の実行主体ではない他の端末装置１０１、１０２、１０３）から取得してもよい。ローカルな記憶装置は、上記の実行主体内に設けられた、サーバハードディスクなどのデータ記憶モジュールであってもよい。この場合、簡略化音声指令と実の音声指令との対応関係が記録されたファイルをローカルに迅速に読み出すことができる。非ローカルな記憶装置は、データを記憶するために設定された他の任意の電子機器、例えば、いくつかのユーザ端末等であってもよい。この場合、上記の実行主体は、取得指令を当該電子機器に発送することにより、必要とされる簡略化音声指令と実の音声指令との対応関係が記録されたファイルを取得することができる。

ステップ２０２では、実の音声指令を発信した目標位置を確定する。

本実施形態では、上記の実行主体は、入力された実の音声指令を受信すると、当該実の音声指令を発信した目標位置を確定する。当該目標位置は、当該実の音声指令を発信した音源（例えば、ユーザ）が所在する目標位置である。

いくつかのオプション的な実施形態では、実の音声指令を発信した目標位置を確定する方法は、上記の実行主体に複数の角度を向いた音声採集装置が存在する場合には、各採集装置における強度に基づいて、音源の方向と、実の音声指令を発信したユーザから採集装置までの距離とを取得することであってもよい。

ステップ２０３では、目標位置に対応する目標有効指令セットを取得する。

本実施形態では、実の音声指令を発信した目標位置を確定した後、当該目標位置に対応する目標有効指令セットを取得する。当該目標有効指令セットには複数の有効指令が記録されている。実の音声指令が複数の有効指令における目標有効指令と一致する場合には、当該実の音声指令を有効な音声指令として確定する。

ここで、目標有効指令セットに記録されている有効指令情報は、上記の実行主体によって提供可能な、目標位置にいるユーザに呼び出されることが可能な機能に基づいて、設定されてもよい。

さらに、実の音声指令の目標位置を確定する際の、採集誤差による目標位置認識が不正確という問題を減らすために、上記の指令実行方法における実の音声指令が採集可能な領域を分割することにより、複数の異なる目標位置領域を取得する。目標位置領域単位で対応する目標有効指令セットを設定する。

実際には、実の指令を発信した目標位置が属する目標位置領域を確定した後、フィードバック情報を発信することにより、ユーザが目標位置領域に属するか否かを検証する。

ステップ２０４では、実の音声指令が目標有効指令セットにおける任意の目標有効指令であることに応答して、実の音声指令に対応する動作を実行する。

本実施形態では、上記の実行主体は、当該実の音声指令が目標有効指令セットにおける任意の目標有効指令であると判定した場合、すなわち、目標有効指令セットには当該実の音声指令に対応する目標有効指令が存在する場合には、当該実の音声指令を有効指令として確定し、当該実の音声指令に対応する動作を実行する。

本出願の実施形態に係る指令実行方法は、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判断する。これにより、実の音声指令の発送位置に基づいて実の音声指令の有効性を確定する目的が達成され、トリガ誤作動の発生頻度が低減される。

本実施形態のいくつかのオプション的な実施形態では、上記のトリガ誤作動の発生頻度を低減する目的を実現するために、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令ではないことに応答して、当該実の音声の実行を遮蔽することにより、トリガの誤作動を回避する。

本実施形態のいくつかのオプション的な実施形態では、上記の指令実行方法は、さらに、予め設定された時間内に同じおよび／または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して当該目標位置の目標有効指令セットの提示情報を返送するステップを含む。

具体的には、上記の実行主体は、予め設定された時間内に同じおよび／または異なる実の音声指令を連続的に遮蔽した後、連続的に遮蔽した回数が予め設定された閾値を超えた場合、予め設定された経路を介して当該目標位置の目標有効指令セットの提示情報を返送することにより、ユーザは当該提示情報の内容に基づいて実行可能な有効指令を把握し、対応する指令の選択および調整を行うことができる。これにより、ユーザが有効指令を把握していないために、ユーザが実の音声指令を複数回発信したにもかかわらず、フィードバックが得られず、動作目的を実現できないという問題による「ユーザのインタラクション体験が悪い」という問題を回避し、ユーザ体験を向上させることができる。

上記の実施形態に基づいて図３を参照すると、図３は、本出願の実施形態に係る別の指令実行方法のフローチャートである。車内シーンに適用することができる。フロー３００は、以下のステップを含む。

ステップ３０１では、入力された実の音声指令を受信する。

ステップ３０２では、実の音声指令を発信した目標位置を確定する。

上記のステップ３０１～３０２は、図２に示すステップ２０１～２０２と一致するので、同じ部分の内容は、前の実施形態の対応する部分を参照されたい。ここではこれ以上説明しない。

ステップ３０３では、目標位置に基づいて、実の音声指令を発信したユーザの車内ＩＤを確定する。

本実施形態では、上記のステップ３０２に基づいて実の音声指令を発信した目標位置を確定した後、当該目標位置が車内にある位置に基づいて、ドライバー、コドライバー（ＣｏＤｒｉｖｅｒ）、および後部座席乗客などのユーザの車内ＩＤを確定することができる。

ステップ３０４では、車内ＩＤに対応するターゲットウェイクフリーワードセット（ｔａｒｇｅｔｆｒｅｅ－ｏｆ－ｗａｋｅｕｐｗｏｒｄｓｅｔ）を確定する。

本実施形態では、「ウェイク・フリー・ワード」とは、ユーザがわざわざウェイクワードを使用して車載機器をウェイクする必要がなく、車載機器によって直接受信して応答動作を実行可能なワードである。上記のステップ３０３に基づいてユーザの車内ＩＤを確定した後、当該車内ＩＤに対応するターゲットウェイクフリーワードセットを確定することができる。

ここで、車内ＩＤに対応するターゲットウェイクフリーワードセットには、当該車内ＩＤによる使用を認める有効な実の音声指令が記録されている。例えば、車内ＩＤがドライバーである場合には、ターゲットウェイクフリーワードセットにおける有効な実の音声指令を「ナビゲーションを開始する」、「目的地Ｂへ出発する」に設定してもよい。車内ＩＤがコドライバーである場合には、ターゲットウェイクフリーワードセットにおける有効な実の音声指令を「助手席のエアコンの温度を２６度に調整する」などに設定してもよい。車内ＩＤが後部座席乗客である場合には、ターゲットウェイクフリーワードセットにおける有効な実の音声指令を「後部座席のエアコンをオフにする」、「後部座席の日除けを開ける」などに設定してもよい。

ステップ３０５では、実の音声指令が当該ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、ターゲットウェイクフリーワードに対応する動作を実行する。

本実施形態では、実の音声指令がターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであると判断した後、当該ウェイク・フリー・ワードに対応する実の音声指令を有効指令として判定し、当該ターゲットウェイクフリーワードに対応する動作を実行する。

実際には、上記の実行主体が車内の車載機器として具現化された場合には、当該ターゲットウェイクフリーワードに対応する動作を実現するために、車載機器の受信装置がウェイク・フリー・ワードを受信して当該ターゲットウェイクフリーワードに対応する動作を実行することを確定した後、車載機器は車載音声アシスタントを積極的にウェイクし、当該ターゲットウェイクフリーワードに対応する動作を実行するように当該車載音声アシスタントを制御することができる。

本実施形態では、上記の図２に対応する実施形態に基づいて、実際の適用シーンに合わせて、ユーザのＩＤに応じて、対応する動作権限を確定してもよい。これにより、当該動作権限に基づいて対応するウェイク・フリー・ワードを設定し、トリガ誤作動の発生頻度を低減するとともに、具体的な適用シーンに近づけ、ユーザの使用体験を保証しながら目標有効指令セットにおける内容を簡略化し、記憶リソースを節約することができる。

本実施形態のいくつかのオプション的な実施形態では、当該指令実行方法は、さらに、目標空間内の各位置に入ったユーザのＩＤ情報を取得するステップと、当該ユーザのＩＤ情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、当該新しいユーザが所在する目標空間内の位置の目標提示方式を確定するステップと、当該新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、当該目標提示方式によって新しいユーザに提示するステップと、を含む。

具体的には、今回に目標空間（例えば、本実施形態に係る車内）に入ったユーザのＩＤ情報を取得し、当該ユーザのＩＤ情報に基づいて当該ユーザが今回に所在する位置に入ったことがあるか否かを判断し、当該ユーザが当該位置に入ったことがないことに応答して、当該位置に基づいて対応する目標提示方式を確定し、当該目標提示方式に基づいて当該位置に対応する有効指令セットを当該ユーザに提示することができる。これにより、新たに入ったユーザは音声制御を実現するために利用可能な実の音声指令を把握することができ、ユーザの使用に利便性を与えた。

ここで、目標提示方式は、通常、目標空間における異なる位置の提示能力に応じて確定してもよい。例えば、車内シーンの場合、当該位置が前部座席位置であれば、車内制御プラットフォームにおける車載機器画面を介して表示することができ、当該位置が後部座席位置であれば、車内の音声再生装置によって表示するように設定してもよい。

上記のいずれかの実施形態に基づいて、ユーザによって発信された音声情報に対する誤応答を低減するために、（例えば、ユーザが電話をかけるときに、ユーザが実の音声指令を発信する意思がないにもかかわらず、ユーザが発信した音声情報が実の音声指令に関連している場合）、当該指令実行方法は、入力された実の音声指令を受信した後、実の音声指令を発信した目標位置を確定する前に、さらに、当該実の音声指令採集時刻の前後における予め設定された時間にわたる音声情報を取得するステップと、当該音声情報と当該実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、当該実の音声指令を遮蔽するステップと、を含む。

具体的には、上記の実行主体は、入力された実の音声指令を受信した後、実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得し、当該音声情報における内容を検証することにより、当該音声情報における実の音声指令と当該音声情報における他の部分の内容との関連性を取得する。当該関連性が予め設定された関連性よりも大きい場合には、当該音声情報が上記の実行主体に対して発送されたものではないと判断した場合、すなわち、その中に含まれた実の音声指令がユーザの指令実行意思に基づいたものではないと判断した場合、誤認識を防止するために当該実の音声指令を遮蔽する。

さらに、いくつかのオプション的な実施形態では、同様に誤認識を防止するために、実の音声指令に含まれた情報の文字数と当該音声情報に含まれた文字数との比例関係に基づいて、当該実の音声指令が上記の実行主体に対して発信されたものであるか否かを判断するようにしてもよい。

上記のいずれかの実施形態に基づいて、目標有効指令セットに含まれる内容の有効性を向上させるために、およびユーザの実際の要求に応じて、目標有効指令セットにおける内容を構成できるようにするために、当該指令実行方法は、さらに、入力された指令更新要求を受信するステップと、当該指令更新要求の発送位置が更新権限を有することに応答して、当該指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するステップと、当該更新される実の音声指令の内容と更新される動作タイプとに基づいて、当該実の音声指令セットの指示情報が示す目標有効指令セットを更新するステップと、を含む。

具体的には、上記の実行主体は、入力された指令更新要求を受信すると、当該指令更新要求を発送した発送位置が更新権限を有するか否かを判断し、当該発送位置が更新権限を有することに応答して、当該指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得する。ここで、実の音声指令セットの指示情報は、ユーザが更新を所望する目標有効指令セットの選択情報であり、これにより、当該選択情報に基づいて対応する目標有効指令セットを確定することができ、更新される実の音声指令の内容は、ユーザが更新を所望する具体的な実の音声指令の内容であり、動作タイプの更新は、更新される実の音声指令の内容を目標有効指令セットに追加することまたは、目標有効指令セットにおける更新される実の音声指令の内容に対応する内容を削除することなどであり得る。

実際には、ユーザは、ＩＤ情報に基づいて更新コンフィグファイルを予め設定してもよい。これにより、目標有効指令セットを更新する際に、当該更新コンフィグファイルを直接呼び出して設定し、目標有効指令セットを更新する効率をさらに向上させることができる。

理解を深めるために、本出願はまた、１つの具体的な適用シーンを合わせて、１つの具体的な実施形態を提案する。当該適用シーンでは、ユーザＡが先に、ユーザＢが後に、前後して車載機器４０１に対して実の音声指令を発信する。具体的なプロセスは、以下のとおりである。

車載機器４０１は、（図４ａに示すように）ユーザＡによって入力された実の音声指令「東大街までナビゲートする」を受信すると、当該実の音声指令を発信した目標位置を確定し、当該目標位置に基づいて、当該ユーザＡに対応する車内ＩＤがコドライバーであると判定する。

当該コドライバーのＩＤに対応する目標有効指令セットを取得する。当該目標有効指令セットには「助手席のエアコンの温度を１度上昇させる」、「助手席の窓を５０％まで開く」、「助手席の窓を閉じる」が含まれているが、「東大街までナビゲートする」という内容が含まれていないため、ユーザＡからの「東大街までナビゲートする」を遮蔽する。

さらに、車載機器４０１は、（図４ｂに示すように）ユーザＢによって入力された実の音声指令「東大街までナビゲートする」を受信すると、当該実の音声指令を発信した目標位置を判断し、当該目標位置に基づいて、当該ユーザＢに対応する車内ＩＤがドライバーであると判定する。

当該ドライバーのＩＤに対応する目標有効指令セットを取得する。当該目標有効指令セットには「…までナビゲートする」と「運転席の窓を５０％まで開く」が含まれている。ここで、「…までナビゲートする」が「東大街までナビゲートする」という内容に対応するので、「東大街までナビゲートする」が当該ドライバーのＩＤに対応する目標有効指令セットにおける目標有効指令であると判定することができ、「東大街」へのナビゲーションルートの生成を実行する（図４ｂに示すように、車載機器には「ナビゲーションルート生成中」が表示されている）。

さらに図５を参照すると、本出願は、上記の各図に示す方法の実現として、様々な電子機器に具体的に適用可能な、図２に示す方法の実施形態に対応する指令実行装置の一実施形態を提供する。

図５に示すように、本実施形態の指令実行装置５００は、入力された実の音声指令を受信するように構成される指令受信ユニット５０１と、当該実の音声指令を発信した目標位置を確定するように構成される位置確定ユニット５０２と、当該目標位置に対応する目標有効指令セットを取得するように構成される有効指令セット取得ユニット５０３と、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令であることに応答して、当該実の音声指令に対応する動作を実行するように構成される指令実行ユニット５０４と、を含んでもよい。

本実施形態では、指令実行装置５００における指令受信ユニット５０１、位置確定ユニット５０２、有効指令セット取得ユニット５０３、および指令実行ユニット５０４の具体的な処理およびそれらに伴う技術的効果は、図２に対応する実施形態のステップ２０１～２０４の関連説明をそれぞれ参照することができる。ここではこれ以上説明しない。

本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置５００は、さらに、当該実の音声指令が当該目標有効指令セットにおける任意の目標有効指令ではないことに応答して、当該実の音声指令を遮蔽するように構成される第１の指令遮蔽ユニットを含む。

本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置５００は、さらに、予め設定された時間内に同じおよび／または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して当該目標位置の目標有効指令セットの提示情報を返送するように構成される有効指令セット提示ユニットを含む。

本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置５００は、さらに、目標空間における各位置に入ったユーザのＩＤ情報を取得するように構成されるＩＤ情報取得ユニットと、当該ユーザのＩＤ情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、当該新しいユーザが所在する目標空間内の位置の目標提示方式を確定するように構成される提示方式確定ユニットと、当該新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、当該目標提示方式によって新しいユーザに提示するように構成される有効指令セット提示ユニットと、を含む。

本実施形態の任意の実施形態では、当該指令実行装置５００は、さらに、入力された指令更新要求を受信するように構成される更新要求受信ユニットと、当該指令更新要求の発送位置が更新権限を有することに応答して、当該指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するように構成される更新内容取得ユニットと、当該更新される実の音声指令の内容と更新される動作タイプとに基づいて、当該実の音声指令セットの指示情報が示す目標有効指令セットを更新するように構成される有効指令セット更新ユニットと、を含む。

本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置５００は、さらに、当該実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得するように構成される音声情報抽出ユニットと、当該音声情報と当該実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、当該実の音声指令を遮蔽するように構成される第２の指令遮蔽ユニットと、を含む。

本実施形態のいくつかのオプション的な実施形態では、当該指令実行装置５００は、さらに、当該目標位置に基づいて、当該実の音声指令を発信したユーザの車内ＩＤを確定するように構成される車内ＩＤ確定ユニットを含み、有効指令セット取得ユニットは、さらに、当該車内ＩＤに対応するターゲットウェイクフリーワードセットを確定するように構成される。当該指令実行ユニットは、さらに、当該実の音声指令が当該ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、当該ターゲットウェイクフリーワードに対応する動作を実行するように構成される。

本実施形態は、上記の方法の実施形態に対応する装置の実施形態として存在する。本実施形態に係る指令実行装置は、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判断する。これにより、実の音声指令の発信位置に基づいて実の音声指令の有効性を判定することができ、トリガ誤作動の発生頻度が低減される。

本出願の実施形態によれば、本出願はさらに、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムを提供する。

図６は、本出願の実施形態を実施するために使用可能な例示的な電子機器６００の概略ブロック図を示す。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本明細書に示すコンポーネント、それらの接続と関係、およびそれらの機能は、一例に過ぎず、本明細書に記載されたおよび／または要求される本明細書の実装を限定することは意図されていない。

図６に示すように、機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラムまたは、記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作および処理を実行することができる計算ユニット６０１を含む。ＲＡＭ６０３には、機器６００の動作に必要な各種プログラムおよびデータも記憶されることができる。計算ユニット６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続されている。

機器６００における複数のコンポーネントは、Ｉ／Ｏインタフェース６０５に接続されている。それには、キーボード、マウスなどの入力ユニット６０６と、各種のディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ＮＩＣ、モデム、無線通信送受信機などの通信ユニット６０９と、が含まれる。通信ユニット６０９は、機器６００が、インターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット６０１は、処理および計算能力を有する様々な汎用および／または専用の処理モジュールであってもよい。計算ユニット６０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は、上記の様々な方法および処理、例えば、指令実行方法を実行する。例えば、いくつかの実施形態では、指令実行方法は、記憶ユニット６０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ６０２および／または通信ユニット６０９を介して機器６００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、計算ユニット６０１によって実行される場合には、上記の指令実行方法の１つまたは複数のステップを実行することができる。あるいは、他の実施形態では、計算ユニット６０１は、他の任意の適切な方法を通じて（例えば、ファームウェアによって）、指令実行方法を実行するように構成されてもよい。

本明細書に述べた上記システムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、オンチップシステムのシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装することができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラム内に実装されることを含むことができる。当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈することができる。当該プログラマブルプロセッサは、記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび指令を受信し、データおよび指令を当該記憶システム、当該少なくとも１つの入力デバイス、および当該少なくとも１つの出力デバイスに送信することができる専用または汎用プログラマブルプロセッサであり得る。

本明細書の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせを用いて書くことができる。これらのプログラムコードは、プロセッサまたはコントローラによって実行されるときに、フローチャートおよび／またはブロック図に規定された機能／動作を実施するように、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、独立したソフトウェアパッケージとして機械上で部分的に実行されかつ遠隔機械上で部分的に実行され、または完全に遠隔機械もしくはサーバ上で実行されることができる。

本明細書の文脈では、機械可読媒体は、指令実行システム、機器、もしくはデバイスが使用するため、または指令実行システム、機器、もしくはデバイスと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体とすることができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体とすることができる。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、機器もしくはデバイス、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１本または複数本の導線に基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯式コンパクトディスク読取り専用メモリ（ＣＤ?ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを有するコンピュータ上で実施されてもよく、ユーザはキーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはさらに、ユーザとのインタラクションを提供するために使用されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよい。ユーザからの入力は、任意の形態（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本明細書に記載されたシステムおよび技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとして）、またはミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ。ユーザは当該グラフィカルユーザインターフェースまたは当該ウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態と相互作用することができる）、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含む計算システムにおいて実装されてもよい。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、互いに離れており、一般に通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で動作し、互いにクライアント・サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよい。クラウドサーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品である。これにより、従来の物理ホストと仮想専用サーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決することができる。サーバは、分散システムのサーバであってもよいし、ブロックチェーンを結合したサーバであってもよい。

本出願の実施形態に係る技術的解決手段によれば、入力された実の音声指令を受信した場合に、実の音声指令を発信した目標位置に対応する目標有効指令セットを取得し、実の音声指令と目標有効指令セットとの関係に基づいて、当該実の音声指令が有効な音声指令であるか否かを判断する。これにより、実の音声指令の発信位置に基づいて実の音声指令の有効性を確定する目的が達成され、トリガ誤作動の発生頻度が低減される。

なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

入力された実の音声指令を受信するステップと、
前記実の音声指令を発信した目標位置を確定するステップと、
前記目標位置に対応する目標有効指令セットを取得するステップと、
前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令であることに応答して、前記実の音声指令に対応する動作を実行するステップと、
を含む指令実行方法。
前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令ではないことに応答して、前記実の音声指令を遮蔽するステップをさらに含む、
請求項１に記載の指令実行方法。
予め設定された時間内に同じおよび／または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して前記目標位置の目標有効指令セットの提示情報を返送するステップをさらに含む、
請求項２に記載の指令実行方法。
目標空間内の各位置に入ったユーザのＩＤ情報を取得するステップと、
前記ユーザのＩＤ情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、前記新しいユーザが所在する目標空間内の位置の目標提示方式を確定するステップと、
前記新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、前記目標提示方式によって前記新しいユーザに提示するステップと、をさらに含む、
請求項１に記載の指令実行方法。
入力された指令更新要求を受信するステップと、
前記指令更新要求の発送位置が更新権限を有することに応答して、前記指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するステップと、
前記更新される実の音声指令の内容と更新される動作タイプとに基づいて、前記実の音声指令セットの指示情報が示す目標有効指令セットを更新するステップと、
をさらに含む請求項１に記載の指令実行方法。
入力された実の音声指令を受信した後、前記実の音声指令を発信した目標位置を確定する前に、
前記実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得するステップと、
前記音声情報と前記実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、前記実の音声指令を遮蔽するステップと、
をさらに含む請求項１に記載の指令実行方法。
前記指令実行方法は、前記目標位置に基づいて、前記実の音声指令を発信したユーザの車内ＩＤを確定するステップをさらに含み、
前記の、前記目標位置に対応する目標有効指令セットを確定するステップは、前記車内ＩＤに対応するターゲットウェイクフリーワードセットを確定するステップを含み、
前記の、前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令であることに応答して、前記実の音声指令に対応する動作を実行するステップは、前記実の音声指令が前記ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、前記ターゲットウェイクフリーワードに対応する動作を実行するステップを含む請求項１に記載の指令実行方法。
入力された実の音声指令を受信するように構成される指令受信ユニットと、
前記実の音声指令を発信した目標位置を確定するように構成される位置確定ユニットと、
前記目標位置に対応する目標有効指令セットを取得するように構成される有効指令セット取得ユニットと、
前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令であることに応答して、前記実の音声指令に対応する動作を実行するように構成される指令実行ユニットと、
を含む指令実行装置。
前記実の音声指令が前記目標有効指令セットにおける任意の目標有効指令ではないことに応答して、前記実の音声指令を遮蔽するように構成される第１の指令遮蔽ユニットをさらに含む請求項８に記載の指令実行装置。
予め設定された時間内に同じおよび／または異なる実の音声指令を連続的に遮蔽した回数が予め設定された閾値を超えたことに応答して、予め設定された経路を介して前記目標位置の目標有効指令セットの提示情報を返送するように構成される有効指令セット提示ユニットをさらに含む請求項９に記載の指令実行装置。
目標空間内の各位置に入ったユーザのＩＤ情報を取得するように構成されるＩＤ情報取得ユニットと、
前記ユーザのＩＤ情報に基づいて、対応するユーザが対応する位置にいる新しいユーザであると判断したことに応答して、前記新しいユーザが所在する目標空間内の位置の目標提示方式を確定するように構成される提示方式確定ユニットと、
前記新しいユーザが所在する目標空間内の位置に対応する目標有効指令セットを、前記目標提示方式によって前記新しいユーザに提示するように構成される有効指令セット提示ユニットと、
をさらに含む請求項８に記載の指令実行装置。
入力された指令更新要求を受信するように構成される更新要求受信ユニットと、
前記指令更新要求の発送位置が更新権限を有することに応答して、前記指令更新要求に対応する実の音声指令セットの指示情報、更新される実の音声指令の内容、および更新される動作タイプを取得するように構成される更新内容取得ユニットと、
前記更新される実の音声指令の内容と更新される動作タイプとに基づいて、前記実の音声指令セットの指示情報が示す目標有効指令セットを更新するように構成される有効指令セット更新ユニットと、
をさらに含む請求項８に記載の指令実行装置。
前記実の音声指令採集時刻の前後に予め設定された時間にわたる音声情報を取得するように構成される音声情報抽出ユニットと、
前記音声情報と前記実の音声指令との関連性が予め設定された関連性よりも大きいことに応答して、前記実の音声指令を遮蔽するように構成される第２の指令遮蔽ユニットと、
をさらに含む請求項８に記載の指令実行装置。
前記指令実行装置は、前記目標位置に基づいて、前記実の音声指令を発信したユーザの車内ＩＤを確定するように構成される車内ＩＤ確定ユニットをさらに含み、
有効指令セット取得ユニットは、さらに、前記車内ＩＤに対応するターゲットウェイクフリーワードセットを確定するように構成され、
前記指令実行ユニットは、さらに、前記実の音声指令が前記ターゲットウェイクフリーワードセットにおける任意のターゲットウェイクフリーワードであることに応答して、前記ターゲットウェイクフリーワードに対応する動作を実行するように構成される、
請求項８に記載の指令実行装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが請求項１～７のいずれか一項に記載の指令実行方法を実行する電子機器。
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～７のいずれか一項に記載の指令実行方法を実行させるためのものである非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～７のいずれか一項に記載の指令実行方法を実現するコンピュータプログラム。