JP7311707B2 - ヒューマンマシン対話処理方法 - Google Patents

ヒューマンマシン対話処理方法 Download PDF

Info

Publication number
JP7311707B2
JP7311707B2 JP2022522284A JP2022522284A JP7311707B2 JP 7311707 B2 JP7311707 B2 JP 7311707B2 JP 2022522284 A JP2022522284 A JP 2022522284A JP 2022522284 A JP2022522284 A JP 2022522284A JP 7311707 B2 JP7311707 B2 JP 7311707B2
Authority
JP
Japan
Prior art keywords
voice message
user terminal
interaction
mode
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022522284A
Other languages
English (en)
Other versions
JP2022545981A (ja
Inventor
ヤン、キンウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Publication of JP2022545981A publication Critical patent/JP2022545981A/ja
Application granted granted Critical
Publication of JP7311707B2 publication Critical patent/JP7311707B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、インターネット技術分野に関し、特に、ヒューマンマシン対話処理方法に関する。
インターネット技術の発展に伴い、ヒューマンマシン対話技術が急速に発展している。ヒューマンマシン対話技術の発展が進む中で、全二重ウェイクアップフリー方式のヒューマンマシン対話技術が出現している。すなわち、デバイスが一度ウェイクアップされた後に連続的な対話が可能であり、他人と対話すると同時に互いに干渉することなくヒューマンマシン対話を行う。全二重ウェイクアップフリー機能により、ユーザがウェイクアップを繰り返す必要がなく、より自然でスムーズな音声インタラクション体験を楽しむことができる。
現在、アプリケーションプログラムは一般的に、全二重ウェイクアップフリーモード又は半二重ウェイクアップフリーモードに固定的に設定されている。しかし、全二重ウェイクアップフリーモードでのアプリケーションプログラムの実際の操作中には、全二重シーンと半二重シーンに同時に関わる場合がある。例えば、一つの連絡先の名前が複数の電話番号に対応している場合、ユーザの所望に合致する操作を行うために、ユーザのインタラクション操作によって最終的なユーザの意図を確定する必要がある。
本発明の実施例は、上記の技術的課題の少なくとも1つを解決するためのヒューマンマシン対話方法および装置を提供する。
第1態様では、本発明の実施例は、サーバに用いられるヒューマンマシン対話処理方法であって、ユーザ端末からの第1のユーザ音声メッセージを取得するステップと、第1のユーザ音声メッセージに対応する対話意図を確定するステップと、意図ウェイクアップモードテーブルに基づいて、対話意図に対応する目標二重ウェイクアップモードを確定するステップと、ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するステップと、を含んでおり、意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれることを特徴とするヒューマンマシン対話処理方法を提供する。
第2態様では、本発明の実施例は、ユーザ端末に用いられるヒューマンマシン対話処理方法であって、第1のユーザ音声メッセージを取得するステップと、第1のユーザ音声メッセージをサーバに送信するステップと、第1のユーザ音声メッセージに応答して、サーバからウェイクアップモードの命令を受信するステップと、ウェイクアップモード命令より指示される目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するステップと、を含んでおり、二重ウェイクアップモードには、全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれることを特徴とするヒューマンマシン対話方法を提供する。
第3態様では、本発明の実施例は、ユーザ端末からの第1のユーザ音声メッセージを取得するように構成された音声メッセージ取得ユニットと、第1のユーザ音声メッセージに対応する対話意図を確定するように構成されたユーザ意図確定ユニットと、意図ウェイクアップモードテーブルに基づいて対話意図に対応する目標二重ウェイクアップモードを確定するように構成された目標ウェイクモード確定ユニットと、ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するように構成されたウェイクアップ命令送信ユニットと、を含んでおり、意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれることを特徴とするヒューマンマシン対話処理装置を提供する。
第4態様では、本発明の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、上記方法のステップが実行できるように、少なくとも1つのプロセッサによって命令を実行させることを特徴とする電子機器を提供する。
第5態様では、本発明の実施例は、コンピュータプログラムが記憶された記憶媒体であって、当該プログラムがプロセッサによって実行されると、上記方法のステップを実現する記憶媒体を提供する。
本発明の実施例の有益な効果は、サーバがユーザの音声を受信した後に対応する対話意図を確定し、意図ウェイクアップモードテーブルを照会することにより対応する目標二重ウェイクアップモードを確定し、それによりユーザ端末を対話意図に合致する二重ウェイクアップモードで動作させ、ユーザ端末の二重ウェイクアップモードの動的切り替えを実現できることである。
本発明の実施形態の技術方案をより明確に説明するために、以下は、実施形態の説明で使用される図面を簡単に説明する。説明された図面は本発明のいくつかの実施形態であり、当業者は、創造的な努力を払うことなく、他の図面を得ることができる。
本発明の一実施例に係るヒューマンマシン対話処理方法の一例の信号インタラクションフローチャートを示す図である。 本発明の一実施例に係る半二重ウェイクアップモードに対するヒューマンマシン対話処理方法の一例の信号インタラクションフローチャートを示す図である。 本発明の一実施例に係るヒューマンマシン対話処理方法の一例を示すフローチャート図である。 本発明の一実施例に係るヒューマンマシン対話処理装置の一例を示す構成ブロック図である。
本発明の実施例の目的、技術方案及び利点をより明確にするために、以下では、本発明の実施例の図面を参照しながら、本発明の実施例における技術方案を明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
本発明は、例えば、プログラムモジュールなどの、コンピューターによって実行されるコンピューター実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピューターストレージメディアに配置できる。
本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピューターに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピューターであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピューターにローカライズされ、及び/又は二台以上のコンピューターの間に分布され、さまざまなコンピューター可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
最後に、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
図1に示すように、本発明の一実施例に係るヒューマンマシン対話処理方法の信号インタラクションフローは、ユーザ端末100とサーバ200との間のデータインタラクションに関する。ここで、ユーザ端末100は、マイクを介してユーザの音声を収集し、ユーザとヒューマンマシン対話コミュニケーションを行うことができる各種の端末(例えば、携帯電話、スマートスピーカー、掃除ロボット等、本発明ではこれに限定されない)であってもよい。サーバ200は、例えば、サーバやプロセッサなど、音声サービスプラットフォームにおいて、ヒューマンマシン対話コミュニケーション業務を処理するための機能モジュールであってもよい。
図1に示すインタラクションフローでは、ステップ101において、ユーザ端末100はユーザの音声を受信し、ユーザの音声に基づいて第1のユーザ音声メッセージを生成する。
ステップ102において、ユーザ端末100は、第1のユーザ音声メッセージをサーバ200に送信する。
ステップ103において、サーバ200は、第1のユーザ音声メッセージに対応する対話意図を確定する。ここで、サーバ200は、第1のユーザ音声メッセージを受信した後、NLP処理により対応する音声セマンティクスを取得し、対応する対話意図を確定する。
なお、「対話意図」という用語は、電話をかける、音楽を再生する、テレビをつける、またはユーザの質問に答えるなど、ユーザが対話を通じてユーザ端末が完成する対応動作を操作することを望むことを指すことができる。ここで、ユーザ端末は何らかの対話意図のユーザ音声メッセージを処理する場合、全二重ウェイクアップモードがより適しており、例えば、ユーザの意図が音楽の再生を要求する場合、全二重ウェイクアップモードでのユーザ端末は、音楽サービスを提供すると同時にユーザ音声メッセージを受信して処理することができ、音声インタラクション体験を向上させることができる。しかし、ユーザ端末は何らかの対話意図のユーザ操作情報を処理する場合、半二重ウェイクアップモードを実行する必要があり、すなわち、ユーザ端末がサービスを提供し終わってからユーザ音声メッセージを受信して処理する必要があり、例えば、ユーザの意図がアドレス帳に存在する同じ名前の連絡先に電話をかけることである場合、電話を掛けるサービスを提供するためのユーザによるさらなる命令の入力を待つ必要がある。
ステップ104において、サーバ200は意図ウェイクアップモードテーブルに基づいて、対話意図に対応する目標二重ウェイクアップモードを確定する。ここで、意図ウェイクアップモードテーブルには、全二重ウェイクアップモード及び半二重ウェイクアップモードを含む、複数種類の候補対話意図にそれぞれ対応する二重ウェイクアップモードが含まれ、意図ウェイクアップモードテーブルは手動で設定されるものでもよい。
ステップ105において、サーバ200は、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末100に送信する。
ステップ106において、ユーザ端末100は、目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理することができる。これにより、ユーザ端末はユーザ音声メッセージの意図に対応する目標ウェイクアップモードに従ってユーザ音声メッセージを処理することができ、異なるユーザ音声メッセージに対してそれぞれ異なる二重ウェイクアップモードを採用し、多様な応用シーンに適用することができる。
図2は、本発明の一実施例に係る半二重ウェイクアップモードに対するヒューマンマシン対話処理方法の一例のフローである。
ステップ201において、サーバ200は、目標二重ウェイクアップモードが半二重ウェイクアップモードであると確定する。例えば、ユーザの意図に基づいて目標ウェイクアップモードが半二重ウェイクアップモードであると確定することができ、具体的な操作は図1の説明を参照することができ、ここでは説明を省略する。
ステップ202において、サーバ200は、対話意図に対する問い合わせ音声メッセージを確定する。例えば、対話意図「アドレス帳の同じ名前の連絡先に電話をかける」に対し、この時の対応する問い合わせ音声は「電話番号がXXの連絡先に電話をかけますか、それとも電話番号がYYの連絡先に電話をかけますか」であってもよい。
ステップ203において、サーバ200は問い合わせ音声メッセージをユーザ端末100に送信する。
ステップ204において、ユーザ端末100は、問い合わせ音声メッセージを利用して半二重ウェイクアップモードのヒューマンマシン対話操作を実行する。例えば、ユーザ端末100は、受信した問い合わせ音声メッセージをアナウンスし、アナウンス終了後にユーザ入力による応答を待つ。
ステップ205において、ユーザは、問い合わせ音声メッセージを受信した後に音声応答を行い、それによりユーザ端末100において第2のユーザ音声メッセージを生成する。
ステップ206において、ユーザ端末100は第2のユーザ音声メッセージをサーバ200に送信する。
ステップ207において、サーバ200は、第2のユーザ音声メッセージが設定された応答条件に合致するか否かを判断する。ここで、設定された応答条件は、第2のユーザ音声メッセージがセマンティックスロットフィリング要求を満たしているか否かを示すことができる。上記の例に続いて、第2のユーザ音声メッセージのセマンティクスに電話番号「XX」または「YY」が含まれていない場合、当該第2のユーザ音声メッセージはセマンティックスロットフィリング要求を満たしていないと確定される。さらに、第2のユーザ音声メッセージのセマンティクスに電話番号「XX」または「YY」が含まれている場合、ユーザ端末は、対応する動作を実行する(例えば、特定の対象に電話をかける)。
ステップ208において、第2のユーザ音声メッセージが設定された応答条件に合致する場合、サーバ200は、モード切り替え命令をユーザ端末100に送信する。一部の応用シーンでは、ユーザ端末はデフォルトで全二重ウェイクアップモードを有効にすることができるが、半二重ウェイクアップモードに対応する音声メッセージの処理が完了すると、全二重ウェイクアップモードに切り替える必要がある。
ステップ209において、ユーザ端末100は、全二重ウェイクアップモードに従ってヒューマンマシン対話操作を行う。
上述のように、ユーザ端末がデフォルトで全二重ウェイクアップモードを採用することを推奨することができ、すなわち、ユーザ端末100は、全二重ウェイクアップモードに従って第1のユーザ音声メッセージを取得することができる。その後、対話意図やユーザの入力状況に応じて、半二重ウェイクアップモードに切り替えるか否かを確定する。さらに、一部の応用シーンでは、ユーザ端末100は、サーバ200から全二重ウェイクアップオフ命令を受信して、全二重ウェイクアップモードをオフにして再びウェイクアップ待ち状態入ることもできる。
図3は、本発明の一実施例に係るヒューマンマシン対話処理方法のフローである。本実施例において、ユーザ端末が一度ウェイクアップされた後、全二重対話フローを起動する。ユーザ音声メッセージが所定の意図に合致する場合、クラウド(又はサーバ)は半二重をシミュレーションする命令をユーザ端末に送信する。その後、ユーザ端末はこの命令に基づいて半二重音声対話モードに切り替え、このモードで対話は、次に半二重をオフにする命令が発行されるまで、ユーザが命令を入力するのを待ち続ける。
具体的には、ユーザ端末がウェイクアップ待ち状態からユーザによってウェイクアップされた後に、全二重対話モードがオンされる。そして、ユーザ端末はユーザ音声メッセージを受信する。この時、入力は、通常のユーザの命令オーディオである可能性があるが、異常な非命令オーディオである可能性もあり、ユーザ音声メッセージをサーバにアップロードする必要があり、さらにサーバはユーザ音声メッセージに基づいて対話処理命令を返す。その後、ユーザ端末は、対話処理命令に従って全二重対話を終了するか、又は半二重に切り替えるかを判断する。ここで、ユーザ端末が半二重モードに切り替えた後、ユーザ端末はユーザが所望の命令を入力するのを待ち続け、そうでなければ、所望の命令を受信するまで傍受を繰り返すことになる。例えば、ユーザが「張三に電話をかける」と入力する。当地の張三に2つの番号があると仮定すると、サーバは「どちら?」と返信し、この時、所望のユーザからの返信はどちらかを選択することである。ユーザの入力が所望に合わない場合、この処理を繰り返す。
なお、一部のユーザシーンでは、クラウドが全二重を終了する命令を発行し、この時、ユーザ端末も再びウェイクアップ待ち状態に入る。
いくつかの実施形態において、例えば、第1のユーザシーンでは全二重対話モードを維持し、第2のユーザシーンでは半二重対話モードを維持するなど、異なる指定されたユーザシーンに対して異なる二重対話モードをカスタマイズすることができる。しかし、これでは、1回のユーザ会話において各モードを動的に切り替えることができず、新規追加シーンの処理も困難になる可能性がある。
本発明の実施例によれば、会話において対話モードを動的に調整することを実現し、多様なユーザシーンに適用し、デバイスの違いやネットワークの違いによる全二重体験問題を回避することができる。
図4に示すように、本発明の一実施例に係るヒューマンマシン対話処理装置400は、ユーザ端末からの第1のユーザ音声メッセージを取得するように構成された音声メッセージ取得ユニット410と、第1のユーザ音声メッセージに対応する対話意図を確定するように構成されたユーザ意図確定ユニット420と、意図ウェイクアップモードテーブルに基づいて対話意図に対応する目標二重ウェイクアップモードを確定するように構成された目標ウェイクモード確定ユニット430と、ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するように構成されたウェイクアップ命令送信ユニット440と、を含んでおり、意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれる。
上記本発明の実施例の装置は、本発明における対応する方法の実施例を実行するために使用することができ、それに応じて、上記本発明の方法の実施例によって達成される技術的効果を達成でき、ここでは説明を省略する。
本発明の実施例において、ハードウェアプロセッサ(hardware processor)によって関連する機能モジュールを実現することができる。
一方、本発明の実施例は、コンピュータプログラムが記憶された記憶媒体であって、当該プログラムはプロセッサによって上記のヒューマンマシン対話処理方法のステップが実行される、記憶媒体を提供する。
上記の製品は、本発明の実施例よって提供される方法を実行することができ、実行方法に対応する機能モジュールと有益な効果を有する。本実施例において詳細に説明されていない技術的な詳細は、本発明の実施例で提供される方法を参照することができる。
例えば、本発明はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むサーバであって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザ端末からの第1のユーザ音声メッセージを取得するステップと、
第1のユーザ音声メッセージに対応する対話意図を確定するステップと、
意図ウェイクアップモードテーブルに基づいて対話意図に対応する目標二重ウェイクアップモードを確定するステップと、
ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令が実行され、
意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれるサーバを提供する。
いくつかの実施例において、本発明のサーバの少なくとも一つのプロセッサは、さらに、
目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信した後、
目標二重ウェイクアップモードが半二重ウェイクアップモードである場合、対話意図に対する問い合わせ音声メッセージを確定し、
ユーザ端末が問い合わせ音声メッセージを利用して半二重ウェイクアップモードのヒューマンマシン対話操作を行うように、問い合わせ音声メッセージをユーザ端末に送信するように構成される。
いくつかの実施例において、本発明のサーバの少なくとも一つのプロセッサは、さらに、
目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信した後、
ユーザ端末から問い合わせ音声メッセージに対する第2のユーザ音声メッセージを取得し、
第2のユーザ音声メッセージが、設定された応答条件に合致するか否かを判断し、
第2のユーザ音声メッセージが設定された応答条件に合致する場合、ユーザ端末が全二重ウェイクアップモードのヒューマンマシン対話操作を行うように、モード切り替え命令を前記ユーザ端末に送信するように構成される。
例えば、本発明はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むユーザ端末であって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
第1のユーザ音声メッセージを取得するステップと、
第1のユーザ音声メッセージをサーバに送信するステップと、
第1のユーザ音声メッセージに応答して、サーバからウェイクアップモードの命令を受信するステップと、
ウェイクアップモード命令より指示される目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令が実行され、
二重ウェイクアップモードには、全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれるユーザ端末を提供する。
いくつかの実施例において、第1のユーザ音声メッセージを取得するステップにおいては、全二重ウェイクアップモードに従って第1のユーザ音声メッセージを取得するごとをさらに含む。
いくつかの実施例において、ウェイクアップモード命令により指示される目標二重ウェイクアップモードに従って前記ユーザ音声メッセージを処理するステップにおいては、
目標二重ウェイクアップモードが半二重ウェイクアップモードである場合、サーバから問い合わせ音声メッセージを取得し、
問い合わせ音声メッセージに基づいて、半二重ウェイクアップモードに従ってヒューマンマシン対話操作を行うごとをさらに含む。
いくつかの実施例において、少なくとも一つのプロセッサは、さらに、
問い合わせ音声メッセージに基づいて、前記半二重ウェイクアップモードに従ってヒューマンマシン対話操作を行った後、
問い合わせ音声メッセージに応答する第2のユーザ音声メッセージを取得し、
第2の音声メッセージをサーバに送信し、
サーバから前記第2の音声メッセージに応答するモード切り替え命令を受信すると、全二重ウェイクアップモードに従ってヒューマンマシン対話操作を行うように構成される。
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone)、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)データ交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピューター可読記憶媒体に格納でき、コンピューターデバイス(パーソナルコンピューター、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims (10)

  1. サーバに用いられるヒューマンマシン対話処理方法であって、
    ユーザ端末からの第1のユーザ音声メッセージを取得するステップと、
    前記第1のユーザ音声メッセージに対応する対話意図を確定するステップと、
    意図対話モードテーブルに基づいて、前記対話意図に対応する目標二重対話モードを確定するステップと、
    前記ユーザ端末が前記目標二重対話モード前記第1のユーザ音声メッセージを処理するように、前記目標二重対話モードに対応する対話モード命令を前記ユーザ端末に送信するステップと、を含んでおり、
    前記意図対話モードテーブルには複数種類の候補対話意図のそれぞれに対応する二重対話モードが含まれ、前記二重対話モードには、前記ユーザ端末からデータを出力中に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する全二重対話モードと、前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する半二重対話モードとが含まれることを特徴とするヒューマンマシン対話処理方法。
  2. 前記目標二重対話モードに対応する対話モード命令を前記ユーザ端末に送信した後、さらに、
    前記目標二重対話モードが半二重対話モードである場合、前記対話意図に対する問い合わせ音声メッセージを確定するステップと、
    前記ユーザ端末が半二重対話モードにおけるヒューマンマシン対話操作で使用する前記問い合わせ音声メッセージを前記ユーザ端末に送信するステップと、
    を含むことを特徴とする請求項1に記載のヒューマンマシン対話処理方法。
  3. 前記問い合わせ音声メッセージを前記ユーザ端末に送信した後、さらに、
    前記ユーザ端末から前記問い合わせ音声メッセージに対する第2のユーザ音声メッセージを取得するステップと、
    前記第2のユーザ音声メッセージが、設定された応答条件に合致するか否かを判断するステップと、
    前記第2のユーザ音声メッセージが前記設定された応答条件に合致する場合、前記ユーザ端末が全二重対話モードのヒューマンマシン対話操作を行うように、モード切り替え命令を前記ユーザ端末に送信するステップと、
    を含むことを特徴とする請求項2に記載のヒューマンマシン対話処理方法。
  4. ユーザ端末に用いられるヒューマンマシン対話処理方法であって、
    第1のユーザ音声メッセージを取得するステップと、
    前記第1のユーザ音声メッセージをサーバに送信するステップと、
    前記第1のユーザ音声メッセージに応答して、前記サーバから対話モード命令を受信するステップと、
    前記対話モード命令より指示される目標二重対話モード前記第1のユーザ音声メッセージを処理するステップと、を含んでおり、
    二重対話モードには、前記ユーザ端末からデータを出力中に前記第1のユーザ音声メッセージを取得する全二重対話モードと前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記第1のユーザ音声メッセージを取得する半二重対話モードとが含まれることを特徴とするヒューマンマシン対話処理方法。
  5. 第1のユーザ音声メッセージを取得するステップにおいては、
    全二重対話モード前記第1のユーザ音声メッセージを取得することを特徴とする請求項4に記載のヒューマンマシン対話処理方法。
  6. 前記対話モード命令により指示される目標二重対話モードに従って前記第1のユーザ音声メッセージを処理するステップにおいては、
    前記目標二重対話モードが半二重対話モードである場合、前記サーバから問い合わせ音声メッセージを取得し、
    前記問い合わせ音声メッセージに基づいて、前記半二重対話モードヒューマンマシン対話操作を行うことを特徴とする請求項5に記載のヒューマンマシン対話処理方法。
  7. 前記問い合わせ音声メッセージに基づいて、前記半二重対話モードに従ってヒューマンマシン対話操作を行うステップの後、さらに、
    前記問い合わせ音声メッセージに応答する第2のユーザ音声メッセージを取得するステップと、
    前記第2のユーザ音声メッセージをサーバに送信するステップと、
    サーバから前記第2のユーザ音声メッセージに応答するモード切り替え命令を受信すると、全二重対話モードヒューマンマシン対話操作を行うステップと、
    を含むことを特徴とする請求項6に記載のヒューマンマシン対話処理方法。
  8. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むサーバであって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    ユーザ端末から第1のユーザ音声メッセージを取得するステップと、
    前記第1のユーザ音声メッセージに対応する対話意図を確定するステップと、
    意図対話モードテーブルに基づいて前記対話意図に対応する目標二重対話モードを確定するステップと、
    前記ユーザ端末が前記目標二重対話モードに従って前記第1のユーザ音声メッセージを処理するように、前記目標二重対話モードに対応する対話モード命令を前記ユーザ端末に送信するステップと、
    が実行できるように、前記少なくとも1つのプロセッサによって前記命令が実行され、
    前記意図対話モードテーブルには複数種類の候補対話意図のそれぞれに対応する二重対話モードが含まれ、前記二重対話モードには、前記ユーザ端末からデータを出力中に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する全二重対話モードと、前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する半二重対話モードとが含まれることを特徴とするサーバ。
  9. 前記少なくとも一つのプロセッサは、さらに、
    前記目標二重対話モードに対応する対話モード命令を前記ユーザ端末に送信した後、
    前記目標二重対話モードが半二重対話モードである場合、前記対話意図に対する問い合わせ音声メッセージを確定し、
    前記ユーザ端末が前記問い合わせ音声メッセージを利用して半二重対話モードのヒューマンマシン対話操作を行うように、前記問い合わせ音声メッセージを前記ユーザ端末に送信する
    ように、構成されることを特徴とする請求項8に記載のサーバ。
  10. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むユーザ端末であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    第1のユーザ音声メッセージを取得するステップと、
    前記第1のユーザ音声メッセージをサーバに送信するステップと、
    前記第1のユーザ音声メッセージに応答して、前記サーバから対話モードの命令を受信するステップと、
    対話モード命令より指示される目標二重対話モードに従って前記第1のユーザ音声メッセージを処理するステップと、
    が実行できるように、前記少なくとも1つのプロセッサによって前記命令が実行され、
    二重対話モードには、前記ユーザ端末からデータを出力中に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する全二重対話モードと、前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する半二重対話モードとが含まれることを特徴とするユーザ端末。
JP2022522284A 2019-10-14 2019-11-25 ヒューマンマシン対話処理方法 Active JP7311707B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910975502.9 2019-10-14
CN201910975502.9A CN112732340B (zh) 2019-10-14 2019-10-14 人机对话处理方法及装置
PCT/CN2019/120612 WO2021072914A1 (zh) 2019-10-14 2019-11-25 人机对话处理方法

Publications (2)

Publication Number Publication Date
JP2022545981A JP2022545981A (ja) 2022-11-01
JP7311707B2 true JP7311707B2 (ja) 2023-07-19

Family

ID=75538276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022522284A Active JP7311707B2 (ja) 2019-10-14 2019-11-25 ヒューマンマシン対話処理方法

Country Status (5)

Country Link
US (1) US11830483B2 (ja)
EP (1) EP4047489A4 (ja)
JP (1) JP7311707B2 (ja)
CN (1) CN112732340B (ja)
WO (1) WO2021072914A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628622A (zh) * 2021-08-24 2021-11-09 北京达佳互联信息技术有限公司 语音交互方法、装置、电子设备及存储介质
CN113744743B (zh) * 2021-08-27 2022-11-08 海信冰箱有限公司 一种洗衣机的语音交互方法及装置
CN114417891B (zh) * 2022-01-22 2023-05-09 平安科技(深圳)有限公司 基于粗糙语义的回复语句确定方法、装置及电子设备
CN117153157B (zh) * 2023-09-19 2024-06-04 深圳市麦驰信息技术有限公司 一种语意识别的多模态全双工对话方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089065A1 (en) 2007-10-01 2009-04-02 Markus Buck Adjusting or setting vehicle elements through speech control
US20140309996A1 (en) 2013-04-10 2014-10-16 Via Technologies, Inc. Voice control method and mobile terminal apparatus
CN109657091A (zh) 2019-01-02 2019-04-19 百度在线网络技术(北京)有限公司 语音交互设备的状态呈现方法、装置、设备及存储介质
CN112002315A (zh) 2020-07-28 2020-11-27 珠海格力电器股份有限公司 一种语音控制方法、装置、电器设备、存储介质及处理器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101389059B (zh) * 2007-09-11 2012-08-08 华为技术有限公司 实现会话模式切换的方法及设备
US8681664B2 (en) * 2008-08-11 2014-03-25 Qualcomm Incorporated Setting up a full-duplex communication session and transitioning between half-duplex and full-duplex during a communication session within a wireless communications system
CN104247280A (zh) * 2013-02-27 2014-12-24 视听公司 话音控制的通信连接
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
US9713192B2 (en) * 2015-03-27 2017-07-18 Intel Corporation Device and method for processing audio data
CN106658369B (zh) * 2016-12-06 2020-02-07 歌尔科技有限公司 一种双向语音通信设备、通信系统及通信方法
CN109739971B (zh) 2019-01-03 2021-04-23 浙江百应科技有限公司 一种基于微信小程序实现全双工智能语音对话的方法
CN112017650B (zh) * 2019-05-31 2024-05-24 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
CN110660390B (zh) * 2019-09-17 2022-05-03 百度在线网络技术(北京)有限公司 智能设备唤醒方法、智能设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089065A1 (en) 2007-10-01 2009-04-02 Markus Buck Adjusting or setting vehicle elements through speech control
US20140309996A1 (en) 2013-04-10 2014-10-16 Via Technologies, Inc. Voice control method and mobile terminal apparatus
CN109657091A (zh) 2019-01-02 2019-04-19 百度在线网络技术(北京)有限公司 语音交互设备的状态呈现方法、装置、设备及存储介质
CN112002315A (zh) 2020-07-28 2020-11-27 珠海格力电器股份有限公司 一种语音控制方法、装置、电器设备、存储介质及处理器

Also Published As

Publication number Publication date
WO2021072914A1 (zh) 2021-04-22
CN112732340A (zh) 2021-04-30
US20230162730A1 (en) 2023-05-25
US11830483B2 (en) 2023-11-28
EP4047489A4 (en) 2022-11-23
JP2022545981A (ja) 2022-11-01
EP4047489A1 (en) 2022-08-24
CN112732340B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
JP7311707B2 (ja) ヒューマンマシン対話処理方法
JP7353497B2 (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
CN111147357B (zh) 数字助手在通信中的使用
US10055190B2 (en) Attribute-based audio channel arbitration
CN108877804B (zh) 语音服务方法、系统、电子设备及存储介质
JP6934076B2 (ja) スマートサービス方法、装置及び機器
CN111049996A (zh) 多场景语音识别方法及装置、和应用其的智能客服系统
CN110246499B (zh) 家居设备的语音控制方法及装置
WO2012055315A1 (zh) 一种提供和管理互动服务的系统和方法
CN112542183B (zh) 音频数据处理的方法、装置、设备及存储介质
CN108632140A (zh) 一种基于小程序的声音处理系统、方法及服务器
CN110890094A (zh) 物联网设备语音控制方法及语音服务端
CN112689012A (zh) 跨网络的代理通讯方法及装置
CN112185362A (zh) 针对用户个性化服务的语音处理方法及装置
WO2020135773A1 (zh) 数据处理方法、装置及计算机可读存储介质
CN109600677A (zh) 数据传输方法及装置、存储介质、电子设备
CN110442698B (zh) 对话内容生成方法及系统
CN111161734A (zh) 基于指定场景的语音交互方法及装置
CN107395493B (zh) 一种基于意图Intent分享消息的方法及装置
CN110035308A (zh) 数据处理方法、设备和存储介质
CN112786031B (zh) 人机对话方法及系统
CN104954538B (zh) 一种信息处理方法及电子设备
CN113271385A (zh) 一种呼叫转移方法
CN111833883A (zh) 一种语音控制方法、装置、电子设备及存储介质
CN111091303A (zh) 技能定制方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220801

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230706

R150 Certificate of patent or registration of utility model

Ref document number: 7311707

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150