JP7348288B2 - 音声対話の方法、装置、及びシステム - Google Patents

音声対話の方法、装置、及びシステム Download PDF

Info

Publication number
JP7348288B2
JP7348288B2 JP2021537969A JP2021537969A JP7348288B2 JP 7348288 B2 JP7348288 B2 JP 7348288B2 JP 2021537969 A JP2021537969 A JP 2021537969A JP 2021537969 A JP2021537969 A JP 2021537969A JP 7348288 B2 JP7348288 B2 JP 7348288B2
Authority
JP
Japan
Prior art keywords
user
information
audio information
terminal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021537969A
Other languages
English (en)
Other versions
JP2022516491A (ja
Inventor
ジォン、ミンホォイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022516491A publication Critical patent/JP2022516491A/ja
Application granted granted Critical
Publication of JP7348288B2 publication Critical patent/JP7348288B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Description

本出願は、人間-機械対話技術の分野に関し、特に、人間-機械音声対話方法、装置、及びシステムに関する。
人工知能の出現に伴い、音声対話は、新しい対話技術として、家庭用スマートスピーカ、音声制御車載端末、パーソナル音声アシスタント、会議システム音声制御など、様々な産業で広く使用されている。マウスとキーボードの対話やタッチ対話に比べて、音声対話には、非接触であること、手と目を自由にセットすること、自然であること(学習する必要がないこと)など、多くの利点がある。人工知能の現在の技術レベルによって制限されるが、音声対話システムは、人同士の自然な会話のようにスムーズかつ知的に会話を完全にシミュレートすることはできない。例えば、現在の音声対話システムは、まだ、近くの話者がシステムに話しているかどうかを能動的に判定することができず、特定のイベントがトリガされたときにのみ音声命令を受信することができる。ここでの特定のイベントとは、ユーザが特定されたプリセット・ウェイクアップ・キーワードを言う、特定のサウンドを鳴らす、特定のジェスチャ・アクションを行う、物理的なボタンを押す、画面上のアイコンをタップする、などであり得る。音声対話の利点は、ウェイクアップ・キーワードがトリガされるときに最もよく利用され、ウェイクアップ・キーワードがトリガされることもまた、現在の音声対話システムに適用される最も一般的なウェイクアップモードである。しかしながら、音声システムが初めて起動された後、ユーザの音声命令が実行されたとき、又はセッションが終了したときに、ユーザが直ちに次の音声命令を送信したい、又は次のセッションを入力したい場合、ユーザは再度ウェイクアップ・キーワードを話す必要がある。この対話プロセスは、人間同士の言語会話の習慣とは非常に異なる(人が話すとき、話が終わらないことがはっきりしている場合、話題が変わったとしても、人は話を維持するために互いの名前を繰り返し呼ぶ必要はない)。したがって、ユーザがシステムとの会話の中でウェイクアップ・キーワードを言うのを忘れてしまうことが多く、会話の連続性に影響を与えるといった、連続性に逆らうことが発生する。これは、現在のすべての音声対話システムに存在する共通の問題でもある。
中国特許出願第108182943号は、インテリジェントデバイス制御方法及び装置、ならびにインテリジェントデバイスを開示している。インテリジェントデバイス制御方法は、ユーザの第1の音声情報に対応する対話命令に応答した後、動作状態を維持することと、ユーザの第2の音声情報を受信した後、ユーザの第2の音声情報に対応する音声認識結果を取得することと、音声認識結果に基づいて、ユーザの第2の音声情報とユーザの第1の音声情報との間の相関の程度がプリセットの相関の程度以上であるかどうかを判定することとと、相関の程度がプリセットの相関の程度以上である場合、ターゲット対話命令に応答することであって、ターゲット対話命令は、ユーザの第2の音声情報に対応する対話命令である、応答することと、を含む。本特許の解決策によれば、インテリジェントデバイスがユーザによってウェイクアップされた後、同じトピックのコンテンツについてインテリジェントデバイスと複数回にわたって対話するときに、ユーザは、インテリジェントデバイスを再度ウェイクアップさせる必要がない。しかしながら、この特許の解決策では、ユーザの第2の音声情報は、コンテンツ(同じトピック)について、ユーザの第1の音声情報と強く相関する必要があり、それによって、インテリジェントデバイスは、再度ウェイクアップされる必要がない。実際の用途では、トピックが頻繁に変更されることがある。例えば、音声システムがデスクランプを点灯できるようにした後、ユーザは音楽を聞きたい。このシナリオでは、ユーザは、システムを再度ウェイクアップする必要がある。中国特許出願第1059120092号は、機械が非ウェイクアップ・キーワードの音信号を検出するときに、システムは、人体/顔検出を可能にするか、又は音源位置決め方法を使用して、音に基づいて、カメラの撮影角度を調整して、画像検出を継続し、システムは、人体/顔を検出する場合、機械をウェイクアップし、音声認識を開始する。しかし、この解決策の欠点は、その解決策が1つのセッションのウェイクアップのみを伴い、連続セッションの要件を無視していることである。追加的に、ユーザが長時間にわたって機械と話さないときに、厳格なウェイクアップ機構が必要である。この場合、単純な音量と画像検出のみが判定のための特徴として使用されるため、ウェイクアップ閾値が小さくなり、精度が不十分となる。
本出願は、会話を継続するユーザの意図を判定することによって音声対話プロセスにおける冗長なウェイクアップを低減し、それによってユーザの体験を改善するための音声対話方法、端末デバイス、及びシステムを提供する。
第1の態様によれば、音声対話方法が提供される。この方法は、端末が、音声対話開始指示を検出することと、端末が、音声対話開始指示に応答して、音声対話動作状態に移行することと、端末が、第1の音声情報を受信し、第1の音声情報に対する処理結果を出力することと、端末が、第2の音声情報を受信し、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することと、送信者が同じユーザであると判定した場合、端末が、第2の音声情報に応答して、処理結果を出力することと、送信者が異なるユーザであると判定した場合、端末が、音声対話動作状態を終了することと、を含む。
可能な設計では、端末が、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することは、端末が、第1の音声情報と第2の音声情報を受信するときに、第1の音声情報の特徴と第2の音声情報の特徴を別々に取得することと、端末が、第1の音声情報の特徴と第2の音声情報の特徴との比較結果に基づいて、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することと、を含む。
可能な設計では、音声特徴情報は、声紋モデル情報である。
可能な設計では、端末が、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することは、端末が、第1の音声情報及び第2の音声情報を受信するときに、ユーザの方向情報又は距離情報を別々に取得することと、端末が、ユーザの方向情報又は距離情報に基づいて、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することと、を含む。
可能な設計では、端末が、ユーザの距離情報を検出するために赤外線センシングを使用するか、又はユーザの方向情報を検出するためにマイクロホンアレイを使用する。
可能な設計では、端末が、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することは、端末が、第1の音声情報と第2の音声情報を受信するときに、ユーザの顔特徴情報を別々に取得することと、端末が、ユーザの顔特徴情報を比較することによって、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することと、を含む。
可能な設計では、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであると判定した後に、端末が、ユーザの顔の向きがプリセット閾値を満たすかどうかをさらに判定する。ユーザの顔の向きがプリセット閾値を満たすときに、端末が、第2の音声情報の処理結果を出力し、そうでなければ、端末が、音声対話動作状態を終了する。
可能な設計では、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することは、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットを判定し、オフセットに基づいて、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することを含む。
可能な設計では、端末が、音声対話動作状態に移行することは、端末が、第1の音声対話インターフェースを表示することと、端末が、端末が第1の音声情報の処理結果を出力した後、第2の音声対話インターフェースを表示することであって、第1の音声対話インターフェースは、第2の音声インターフェースとは異なる、表示することと、を含み、端末が、音声対話動作状態を終了させることは、端末が、第2の音声対話インターフェースをキャンセルすることを含む。
第2の態様によれば、音声対話モジュール及び継続会話意図判定モジュールを含む、インテリジェント音声対話を実施するための端末が提供される。音声対話モジュールは、インテリジェント音声対話を実施し、受信した音声情報に基づいてターゲット処理結果を出力するように構成されている。継続会話意図判定モジュールは、受信した第1の音声情報と受信した第2の音声情報が同じユーザからのものであるかどうかを判定するように構成されている。第1の音声情報は、音声対話モジュールが音声対話開始指示に応答した後に受信した音声情報であり、第2の音声情報は、音声対話モジュールが第1の音声情報の処理結果を出力した後に受信した音声情報である
可能な設計では、継続会話意図判定モジュールが、受信した第1の音声情報と受信した第2の音声情報が同じユーザからのものであるかどうかを判定することは、継続会話意図判定モジュールが、第1の音声情報の特徴と第2の音声情報の特徴との比較結果に基づいて、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することを含む。
可能な設計では、音声特徴情報は、声紋モデル情報である。
可能な設計では、継続会話意図判定ユニットが、受信した第1の音声情報と受信した第2の音声情報が同じユーザからのものであるかどうかを判定することは、継続会話意図判定モジュールにが、第1の音声情報と第2の音声情報を受信するときに、ユーザの方向情報又は距離情報に基づいて、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することを含む。
可能な設計では、継続会話意図判定モジュールは、ユーザの距離情報を検出するために赤外線センシングを使用するか、又はユーザの方向情報を検出するためにマイクロホンアレイを使用する。
可能な設計では、継続会話意図判定モジュールが、受信した第1の音声情報と受信した第2の音声情報が同じユーザからのものであるかどうかを判定することは、継続会話意図判定モジュールが、第1の音声情報及び第2の音声情報を受信するときに、ユーザの顔特徴情報に基づいて、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定することを含む。
可能な設計では、継続会話意図判定モジュールは、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであることを判定した後、ユーザの顔の向きがプリセット閾値を満たすかどうかをさらに判定する。
可能な設計では、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することは、音声インターフェースの視覚中心点とカメラ位置との間のオフセットを判定することと、オフセットに基づいて、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定することとを含む。
可能な設計では、端末は、音声対話インターフェース表示モジュールをさらに含み、音声対話インターフェース表示モジュールは、端末が音声対話作業状態に移行した後、第1の音声対話インターフェースを表示し、端末が第1の音声情報の処理結果を出力した後、第2の音声対話インターフェースを表示するように構成されている。第1の音声対話インターフェースは、第2の音声対話インターフェースとは異なる。
第3の態様によれば、本出願の一実施形態は、インテリジェント音声対話を実施するための会議システムを提供する。会議システムは、上記の態様における任意の端末及び少なくとも1つのサーバを含む。端末は、インテリジェント音声対話を実施するために、ネットワークを介して少なくとも1つのサーバに接続される。サーバは、声紋認識サーバ、顔認識サーバ、音声認識及び意味理解サーバ、音声合成サーバ、及びセッション意図認識サーバを含む。
第4の態様によれば、本出願の実施形態は、プロセッサ及びメモリを含むチップを提供する。メモリは、コンピュータ実行可能命令を記憶するように構成されており、プロセッサは、メモリに接続される。チップが動作するときに、プロセッサは、メモリに記憶されたコンピュータ実行可能命令を実行し、チップが前述のインテリジェント音声対話方法のいずれかを実行することを可能にする。
第5の態様によれば、本出願の実施形態は、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、命令を記憶し、命令がコンピュータ上で動作するときに、コンピュータは、前述のインテリジェント音声対話方法のいずれかを行うことが可能となる。
第6の態様によれば、本出願の一実施形態は、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、命令を含み、命令がコンピュータ上で実行するときに、コンピュータは、前述のインテリジェント音声対話方法のいずれかを行うことが可能になる。
追加的に、第2の態様から第6の態様までの設計によってもたらされる技術的効果については、第1の態様における異なる設計方法によってもたらされる技術的効果を参照のこと。詳細は、ここでは再度説明しない。
上記で提供されたインテリジェント音声対話のためのデバイス、コンピュータ記憶媒体、コンピュータプログラム製品、チップ、又はシステムのうちのいずれか1つが、上記で提供された対応する方法を実施するように構成されていることが理解されよう。したがって、デバイス、コンピュータ記憶媒体、コンピュータプログラム製品、チップ、又はインテリジェント音声対話のためのシステムによって達成することができる有益な効果については、対応する方法の有益な効果を参照し、詳細は、ここでは再度説明しない。
本発明の一実施形態による音声対話を実施するためのシステムの概略図である。 本発明の一実施形態による音声対話方法の概略フローチャートである。 本発明の一実施形態による音声情報の送信者が同じであるかどうかを判定する一実施形態の概略図である。 本発明の一実施形態によるユーザの顔の向きを計算するときに、方向ずれを考慮するためのアルゴリズムの概略図である。 本発明の一実施形態による音声対話プロセスにおける対話インターフェース変更の一実施形態の概略図である。 本発明の一実施形態に係るインテリジェント端末デバイスの概略図である。 本発明の一実施形態による別のインテリジェント端末デバイスの概略図である。
以下、当業者の理解を容易にするために、本出願の実施態様におけるいくつかの用語を説明する。
図1は、本発明の一実施形態による音声対話を実施するためのシステム100の概略図である。システムは、音声端末101、声紋認識サーバ102、顔認識サーバ103、音声認識及び意味理解サーバ104、音声合成サーバ105、並びにセッション意図認識サーバ106を含む。インテリジェント音声端末101は、サーバ102~106にネットワークを介して接続されており、ネットワーク要素の機能を以下に説明する。
端末101は、音声収集、画像収集、ウェイクアップ検出、会話管理、制御管理、状態指示、音再生、及びコンテンツ表示などの機能を担当する。
具体的には、端末101は、インテリジェント音声端末であってもよいし、ユーザによって開始された音声対話指示、例えば、ユーザが言ったウェイクアップ・キーワード、音声対話を開始するためのボタン、又はユーザによって事前に定義されたいくつかの音もしくは動作を検出してもよい。端末は、ユーザによって開始された音声対話指示に応答し、音声対話動作状態に移行する。音声対話を開始するためのウェイクアップ・キーワードの純粋な検出などの指示とは異なり、音声対話動作状態、又は音声対話会話状態と呼ばれるものは、端末101が受信した音声情報を処理し、対応する処理結果又は動作を出力するために様々な処理リソースを呼び出すことができる状態である。端末デバイス101は、ユーザによって送信された第1の音声情報を受信した後、例えば、ユーザの質問に答える、会議に参加したり、マイクの電源を入れたりするなどの動作をトリガするなど、第1の音声情報の処理結果を出力する。端末101は、第1の音声情報に対応する命令を実行した後、ユーザが会話を継続する意図があるかどうかをさらに判定することができる。具体的には、端末101は、第2の音声情報を受信したときに、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであると判定し、第2の音声情報の処理結果を出力することができる。端末101は、送信者が異なるユーザであると判定した場合、音声対話動作状態を終了する。送信者が同じユーザであるかどうかを判定する方法は、顔認識、話者の方向及び/又は距離、及びユーザの音声特徴などの情報に基づいて完了させることができる。端末101は、ユーザが現在のセッションに焦点を合わせており、会話を継続する意図があるかどうかをさらに判定することができる。例えば、端末101は、ユーザの顔の向きがプリセット閾値を満たすかどうかを判定し、顔の向きがプリセット閾値を満たした後にのみ、第2の音声情報の処理結果を出力する。さもなければ、端末101は、音声対話動作状態を終了する。さらに、端末101は、音声対話インターフェースの投影及びスクリーンカメラの投影が法線方向に重ならないときに、ユーザの顔の向きを判定する際のずれを考慮する。具体的には、ユーザの顔の向きが判定されるときに、端末のディスプレイスクリーンが比較的広い場合、音声アシスタントインターフェースの視覚中心位置の投影とカメラ位置の投影は、法線方向に重ならないことがある。この場合、ユーザが音声アシスタントインターフェースを見たときに、カメラに対して顔の向きがずれることがある。換言すれば、カメラは、ユーザがスクリーンにまっすぐに向かないが、ユーザが実際に音声アシスタントインターフェースに顔を向け、会話に従事していると考えることができる。したがって、カメラがユーザの顔の向きを判定するための中心位置として使用されるときに、ずれを考慮する必要がある。
端末101は、さらに、異なるUIインターフェースを介して現在の動作状態をユーザにプロンプトする、例えば、音声対話動作状態に移行したときに、第1の音声対話インターフェースを提示することができる。端末101は、第1の音声情報の処理結果を出力した後、例えば、第1の音声インターフェースとは異なる、より簡単な第2の音声インターフェースである音声インターフェースを提示する。端末101は、ユーザが会話を継続する意図がないと判定した後、すべての音声対話インターフェースをキャンセルする。
端末101は、スマートフォン、スマートホーム製品(例えば、スマートスピーカ)、スマート車載デバイス、スマートウェアラブルデバイス、スマートロボット、会議端末などであってもよく、これは妥当である。音声対話プロセスで端末101によって必要とされる機能は、端末101をネットワークを介して関連サーバに接続することによって実施することができる、すなわち、端末101はサーバ102~106と通信接続して動作することができると理解されよう。代替的に、端末101自体は、本発明のこの実施形態において、全てのインテリジェントな音声対話を実施するために必要とされる全ての機能又はいくつかの機能を統合してもよい。追加的に、サーバ102~106は、機能の観点から見た単なる例示の分割に過ぎない。実施態様において、サーバ102~106は、異なる機能の組み合わせを有するか、又は端末に対して別のサービスを提供してもよい。
声紋認識サーバ102は、端末101によって収集された音声データに基づいて話者の声紋モデルを生成し、話者の声紋比較を行い、話者の同一性を確認する。声紋認識サーバ102は、結果を意図認識サーバ106に返す。
顔認識サーバ103は、音声端末によって収集された画像内の顔を検出し、さらに顔の向きを計算し、ユーザ同一性認識を行うことができる。顔認識サーバ103は、結果を意図認識サーバ106に返す。
音声認識及び意味理解サーバ104は、端末によって収集されアップロードされた音声信号をテキスト及び意味に変換し、テキスト及び意味を処理のために端末101又は他のサーバに送信する。
音声合成サーバ105は、端末101がブロードキャストするために拡声器に要求するテキストを音声に合成し、端末101に音声を送信し返す。
セッション意図認識サーバ106は、声紋認識サーバ、顔認識サーバ、赤外線センシングデバイス及び端末上のマイクロホンアレイから返された情報(声紋、顔、音源方向及び/又は話者の距離)を受信する。セッション意図認識サーバ106は、話者が通話を継続する意図があるかどうかを総合的に判定し、端末101に結果を送信する。
本発明の本実施形態において音声対話を実施するためのシステムは、音声対話プロセスにおいて話者の会話意図認識を強化することにより、セッション後にユーザが再度ウェイクアップ・キーワード(又は別のウェイクアップ方式)を言うことなく、音声コマンドをシステムに連続的に送信することができることをサポートする。例えば、システムは、話し続ける人が同じ話者であるかどうかを判定することによって、受信した音声情報に応答し続けるかどうかを判定する。これは、音声対話プロセスにおける冗長なウェイクアップを効果的に低減する。同時に、別の人が話者を中断するとき、又は話者が別の人と通信するときに発生する音声信号は、インテリジェントにフィルタアウトされる。これは、システムの誤った応答を効果的に低減し、音声対話の滑らかさ及び正確さを改善し、ユーザ体験を改善する。この実施形態のシステムは、さらに、カメラを使用して顔の向きを収集して、ユーザの意図であって、会話を継続する意図を判定し、話者の意図であって、会話を継続する意図の認識精度が改善されるようにする。この実施形態のシステムは、第1のセッション(第1のセッションの後の適切な遅延を含んでもよい)が終了した後に、既存のインタラクティブインターフェースに、UIインターフェース、例えば、半ウェイクアップ(ウェイクアップ遅延)状態UIを追加することをサポートする。これは、インターフェースの単純さを保証し、干渉を低減し、また、システムの現在の動作状態をユーザに効果的に通知することができる。本発明のこの実施形態では、音声-テキスト変換又は意味分析は、ユーザの意図であって、会話を継続する意図(話者認識及び顔の向き認識)を認識した上で行われる必要はないことに留意されたい。したがって、展開及び実施は比較的容易である。
本発明の一実施形態は、さらに、図1のシステムに基づく音声対話方法を提供する。図2に示すように、本方法は、以下のステップを含む。
S201:音声対話開始指示を検出する。
音声対話開始指示はまた、音声対話状態に移行するために端末をウェイクアップする指示と呼ばれてもよい。上述のように、音声対話開始指示は、複数の形式、例えば、ユーザが言ったウェイクアップ・キーワード「ミーティング」、音声対話を開始するためにユーザがクリックしたボタン、又は別のユーザが予め定義した音声を有してもよい。
S202:端末は、音声対話開始指示に応答して、音声対話動作状態に移行する。
ユーザは、ウェイクアップ・キーワード「ミーティング」又は「ハイ、スコッティ」を言う。システムは、ウェイクアップ・キーワードを検出した後、応答プロンプトトーンを再生し、音声命令リスニング状態(音声対話動作状態の一種でもある)に移行する。端末はさらに、スクリーン上に音声アシスタントユーザインターフェースを表示することができる。インターフェースは、コマンドプロンプト情報及び音声システムステータス指示などのコンテンツを含む。端末は、ASRサービス、NLPサービス、及び会話管理機能を介してユーザと対話することができる。ASRは自動音声認識であり、NLPは自然言語処理である。
S203:端末は、第1の音声情報を受信し、第1の音声情報に対する処理結果を出力する。
次に、ユーザは「会議に参加する」などの音声命令を言う。音声信号が認識(ローカルに認識又は音声認識サーバに送信)され、認識結果が返される。会議端末は、返された結果に基づいて、会議に参加するタスクを行う。
会議端末が返された結果に基づいて会議に参加するタスクを行った後、現在のセッションがすぐに終了しないことがある、つまり、所与の遅延があり得る。ユーザは直ちに新しい命令を再度送信することができ、遅延は通常比較的短く、例えば5秒であるため、セッション意図判定状態(例えば、半ウェイクアップ状態)に直ちに移行する必要はない。このセッションは遅延終了後に終了すると考えられ得る。
S204:端末は、第2の音声情報を受信し、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定し、送信者が同じユーザであると判定した場合、端末は、第2の音声情報に応答して、処理結果を出力するか、又は送信者が異なるユーザであると判定した場合、端末は、音声対話動作状態を終了する。
端末が第1の音声情報の処理結果を出力した後(又は、特定の遅延後)、端末は、セッション意図判定状態(例えば、半ウェイクアップ状態)に移行する。この場合、端末によって送信される第2の音声情報が受信される。会議に参加する別の人を招待する必要がある場合、ユーザは、再度ウェイクアップ・キーワードを示さずに「Zhang Sanを呼ぶ」と直接言うことができる。端末会話意図認識サーバは、話者の同一性に基づいて、又はさらに顔の向きに基づいて、音声命令が音声アシスタントに送信されると判定する。この場合、端末は認識のために音声認識サーバに音声セグメントを送信し、通常の会話フローを開始する。
図3は、本発明の一実施形態による第2の音声情報の送信者と第1の音声情報の送信者が同じであるかどうかを判定する実施形態の概略図である。
S2041:端末が、第2の音声信号を検出する。
任意選択で、ウェイクアップ・キーワードを検出する場合、端末は、確実に音声対話動作状態に再度移行することができる。
送信者が同じ人であるかどうかを判定するための方法は、音声特徴情報を比較すること、例えば、声紋を比較することであり得る。具体的には、第1の音声信号を受信するときに、ユーザは、第1の音声信号の音声特徴情報、例えば、声紋情報を取得する。第2の音声情報を受信した後、第2の音声情報の音声機能も比較のために抽出される。所与の閾値が満たされた場合、送信者が同じユーザであると判定される。送信者が異なるユーザである場合、音声対話動作状態は終了される。この場合、話者が会議に参加した後、話者の周囲で別の人が話をし(ウェイクアップ・キーワードを除く)、話者継続会話意図認識サーバは、話者が前回のセッションの話者と同じ人ではないことに基づいて、話者が会話を継続する意図がないと判定し、話者継続会話意図認識サーバは話者に応答しない。
任意選択で、第2の音声信号を検出するときに、端末は、話者と端末との間の距離、及び話者の方向であって、端末に対する方向を検出するために赤外線センシングを使用することによって、送信者が同じ人であるかどうかを判さらに判定してもよい。代替的には、端末は、顔認識を通して、送信者が同じユーザであるかどうかを判定する。第1の音声信号を受信するときに、ユーザはまた、第1の音声信号の送信者の距離情報又は顔情報を取得することも理解されよう。したがって、第1の音声信号の送信者の距離情報又は顔情報を、第2の音声信号の送信者の距離情報又は顔情報と比較して、送信者が同じユーザであるかどうかを判定する。
S2042:顔の向きを検出する。会議に参加した後、ユーザが別の音声指示を送信する必要がなくてもよく、近くの同僚と話すことを望む場合、ユーザは同僚に顔を向け、通常は同僚と話すことができる。この場合、ユーザがスクリーンにまっすぐに顔を向けるかどうかは、顔の向きを通してさらに判定されて、ユーザのセッション意図を判定することができる。例えば、判定は、ユーザの顔の向きのずれの角度を計算することによって、又は頭姿勢推定(Head Pose Estimate、HPE)技術を通して行われる。具体的には、人の頭の向きの問題は、コンピュータビジョンとパターン認識の方法を通してデジタル画像において判定され、頭の姿勢方向パラメータ、すなわち頭の位置パラメータ(x,y,z)と方向角パラメータ(Yaw,Pitch,Roll)は、空間座標系に基づいて認識される。異なる推定結果に基づいて、推定は離散粗頭姿勢推定(単一画像)と連続微細頭姿勢推定(ビデオ)に分類される。本発明のこの実施形態では、詳細は、ここでは説明しない。顔の向きの検出結果が指定された閾値要件を満たさない場合、会話意図認識サーバは、ユーザが会話を継続する意図がないと判定してもよく、システムは、話者に応答しない、すなわち、システムは、音声対話動作状態を終了する。
本発明の本実施形態における音声対話を実施するための方法は、音声対話プロセスにおいて話者の会話意図認識を強化することにより、セッション後にユーザがウェイクアップ・キーワード(又は別のウェイクアップ方式)を再度言うことなく、音声コマンドをシステムに連続的に送信することができることをサポートする。例えば、受信した音声情報が応答され続けるかどうかは、話し続ける人が同じ話者であるかどうかを判定することによって決定される。これは、音声対話プロセスにおける冗長ウェイクアップを効果的に低減する。別の人が話者を中断したとき、又は話者が他の人と会話したときに生成される音声信号は、インテリジェントにフィルタアウトされる。これは、システムの誤った応答を効果的に低減し、音声対話の滑らかさ及び正確さを改善し、ユーザ体験を改善する。
この実施形態のシステムは、さらに、カメラを使用して顔の向きを収集し、ユーザの意図であって、会話を継続する意図を判定し、話者の意図であって、会話を継続する意図の認識の精度が改善されるようにする。本発明のこの実施形態では、音声-テキスト変換又は意味分析は、ユーザの意図であって、会話を継続する意図の認識(話者認識及び顔の向き認識)の上で行われる必要はないことに留意されたい。したがって、展開及び実施は比較的容易である。
さらに、本発明のこの実施形態では、音声対話インターフェースの投影及びスクリーンカメラの投影のときに、ユーザの顔の向きを判定する際のずれが法線方向で重ならない。具体的には、一般的なアルゴリズムでは、ユーザの顔の向きを判定するために基準としてカメラを使用するため、端末の表示スクリーンが比較的広い場合、音声アシスタントインターフェースの視覚中心位置の投影とカメラ位置の投影は、法線方向に重ならない。この場合、ユーザが音声アシスタントインターフェースを視認する(会話意思を有する)場合、カメラに対する顔の向きがずれることがあり得る。すなわち、カメラは、ユーザがスクリーンにまっすぐ顔を向けていないと考えてもよい。したがって、カメラがユーザの顔の向きを判定するための中心位置として使用されるときに、ずれを考慮する必要がある。
この実施形態は、ユーザの顔の向きを検出し、ユーザの顔の向きが要件を満たすかどうかを判定するために使用される顔の向き補正アルゴリズムを提供する。カメラには、固定カメラと、パン-チルト-ズーム・パトロール・ターゲット・トラッキング・カメラを備えたカメラの2つのケースがあります。投影が位置合わせされているときに、ユーザが視覚的な対話インターフェースにまっすぐ顔を向けている(すなわちカメラにまっすぐ顔を向けている)場合、パン-チルト-ズームカメラは角度ずれを発生させない。ユーザがカメラ(対話インターフェース)にまっすぐ顔を向けていない場合、カメラは、顔の向きアルゴリズムに基づいて、ユーザがスクリーンにまっすぐ顔を向けているかどうかを判定することができる。例えば、ユーザの顔の向きずれの角度(△=a)を確認のために計算する。固定カメラの場合、ユーザ位置(音源)は、マイクロホンアレイによって位置付けられて、ユーザとマイクロホン音声受信点との間の接続線を形成することができる。その接続線と、ユーザ位置とカメラ位置との間の接続線は、包含角度を形成し、包含角度値は、ユーザの顔の向きが要件を満たすかどうかを判定するために使用される。
同様に、パン-チルト-ズームカメラの場合、音声アシスタントインターフェースの視覚中心位置(システムによって取得されてもよいし、音声アシスタントによって報告されてもよい)の投影とカメラ位置(固定的に構成されてもよい)の投影が、法線方向に位置合わせされていない場合、ユーザ位置と視覚中心位置との間の接続線、及びユーザ位置とカメラ位置との間の接続線が、包含角度を形成する。したがって、ずれ角度△を計算するときに、包含角度を考慮する必要がある。図4に示すように、以下が想定される。
aは、顔画像の横方向(左右)のずれ角度に等しく(図中、顔が右向きの場合、aの値は負の数であり、顔が左向きの場合、aの値は正の数である)、
bは、スクリーンの法線方向と、話者の音源と音声アシスタントの視覚的焦点との間の接続線であって、水平面上にある投影面との間の包含角度に等しく(図において、顔が、音声アシスタントの視覚的焦点の法線の垂直面の右側にある場合、bの値は負の数である)、
cは、スクリーンの法線方向と、カメラと話者の顔との間の接続線の投影との間の包含角度に等しい(図において、顔が、カメラの中心の法線の垂直面の右側にある場合、cの値は負の数である)。
次に、顔の向きと、音声アシスタントの視覚的焦点方向との間のずれ角度で、ユーザがまっすぐに見える角度は、△2=a+(b-c)である。
ここで、ずれ角度△2は、音声インターフェースの視覚中心がカメラと位置合わせされていない場合を考慮して計算した顔の向きの補正値である。
本発明のこの実施形態の方法によれば、よりインテリジェントで効率的な音声対話を実施するために、会話中のユーザの顔の向きをより正確に検出することができる。特に、大画面の位置及び画面上の音声インターフェースの位置が柔軟に変化するシナリオにおいて、誤判定を低減するために、ユーザの意図であって、会話を継続する意図のより正確な認識を実施することができる。
図5に示すように、本発明は、音声対話インターフェースにおける変更の実施形態をさらに提供する。本発明のこの実施形態では、半ウェイクアップ状態指示インターフェースが、ユーザ対話インターフェースに追加される。ウェイクアップ・リスニング状態では、システムがウェイクアップ・キーワードを検出するときに、音声アシスタントユーザインターフェース(UI)(第1の音声インターフェース)がポップされる。画面に表示される情報は、コマンドプロンプトメッセージ、アナウンス、音声認識のテキスト結果、アシスタント動作状態のアニメーションアイコンを含む。現在のセッションが終了した後、システムは、半ウェイクアップ状態に移行し、インターフェースは完全には終了しないが、ユーザにシステムが半ウェイクアップ状態(ウェイクアップ遅延)であることを知らせるために、小さなアイコン(第2の音声インターフェース)に変更する。この場合、システムは、ユーザが会話を継続する意思を有するかどうかを判定する。半ウェイクアップ状態が終了した後、システムは、音声対話状態を完全に終了し、ウェイクアップ・リスニング状態に移行する。
この実施形態では、第1のセッション(第1のセッションの後の適切な遅延を含むことができる)が終了した後に表示されるUIインターフェース、例えば、半ウェイクアップ(ウェイクアップ遅延)状態UIが、既存の対話インターフェースに追加される。これは、インターフェースの単純さを保証し、干渉を低減し、システムの現在の動作状態をユーザに効果的に通知することができる。
本発明の一実施形態は、端末デバイス600をさらに提供する。図6に示すように、端末デバイスは、インテリジェントな音声対話を実施するための端末であり、音声対話モジュール601及び継続会話意図判定モジュール602を含む。以下、端末デバイス600のモジュールの機能について具体的に説明する。
音声対話モジュール601は、インテリジェント音声対話を実施し、受信した音声情報に基づいてターゲット処理結果を出力するように構成されている。
継続会話意図判定モジュール602は、受信した第1の音声情報及び受信した第2の音声情報が同じユーザからのものであるかどうかを判定するように構成されている。第1の音声情報は、音声対話ユニットが音声対話開始指示に応答した後に受信した音声情報であり、第2の音声情報は、音声対話モジュール601が第1の音声情報に対する処理結果を出力した後に受信した音声情報である。
任意選択で、継続会話意図判定モジュール602は、第1の音声情報の特徴と第2の音声情報の特徴との比較結果に基づいて、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであるかどうかを判定する。
任意選択で、音声特徴情報は声紋モデル情報である。図6に示すように、この場合、継続会話意図判定モジュール602は、第1の音声情報の声紋と第2の音声情報の声紋とを取得し、比較を行い、それに応じて会話を継続するユーザの意思の判定結果として比較結果を使用するように別個に構成されている話者声紋生成ユニットと話者声紋比較ユニットとを含む。
任意選択で、継続会話意図判定モジュールは、第1の音声情報及び第2の音声情報を受信するときのユーザの方向情報又は距離情報に基づいて、第2の音声情報の送信者及び第1の音声情報の送信者が同じユーザであるかどうかを判定する。
任意選択で、継続会話意図判定ユニットは、ユーザの距離情報を検出するために赤外線センシングを使用するか、又はユーザの方向情報を検出するためにマイクロホンアレイを使用する。図6に示すように、この場合、継続会話意図判定モジュールは、端末が第1の音声情報と第2の音声情報を受信するときに、ユーザの方向情報及び距離情報を取得し、比較を行い、それに応じて会話を継続するユーザの意図の判定結果として、比較結果を使用するように別々に構成されている方向及び距離取得ユニットと方向及び距離比較ユニットを含む。
任意選択で、継続会話意図判定モジュールは、第1の音声情報及び第2の音声情報を受信するときにユーザの顔特徴情報に基づいて、第2の音声情報の送信者及び第1の音声情報の送信者が同じユーザであるかどうかを判定する。図6に示すように、この場合、継続会話意図判定モジュールは、端末が第1の音声情報と第2の音声情報を受信するときに、ユーザの顔情報を取得し、比較を行い、それに応じて、会話を継続するユーザの意図の判定結果として、比較結果を使用するように別々に構成されている顔特徴生成ユニットと顔フィーチャ比較ユニットを含む。
任意選択で、第2の音声情報の送信者と第1の音声情報の送信者が同じユーザであると判定した後、継続会話意図判定モジュールは、ユーザの顔の向きがプリセット閾値を満たすかどうかをさらに判定する。図6に示すように、この場合、継続会話意図判定モジュールは、音源位置決めユニットと顔検出ユニットを含む。音源位置決めユニットは、マイクロホンアレイを使用して、ユーザの位置(音源)又は音声方向を位置決めするように構成されている。顔検出ユニットは、ユーザの顔位置を検出するように構成されている。したがって、ユーザの顔の向きが計算される。具体的なアルゴリズムについては、前述の方法の実施形態のS2042の説明を参照のこと。詳細は、ここでは再度説明しない。ユーザの顔の向きが取得され、特定の閾値と比較され、比較結果が、それに応じて会話を継続するユーザの意図の判定結果として使用される。
任意選択で、ユーザの顔の向きがプリセット閾値を満たすかどうかが判定されるときに、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットがさらに考慮されてもよい。ユーザの顔の向きがプリセット閾値を満たすかどうかは、オフセットに基づいて判定され、判定結果は、それに応じて、会話を継続するユーザの意図の判定結果として使用される。
任意選択で、顔の向きが判定されるときに、ユーザが話をしているかどうかは、さらに、リップ動作検出ユニットによって検出されて、ユーザの意図であって、会話を継続する意図をさらに確認することができる。例えば、時には、ユーザの声が比較的低く、端末によって検出されないが、ユーザが有するリップモーションが検出される。同じユーザ及び顔の向き認識の前述の判定に加えて、端末は、ユーザが実際にさらなる会話を行っていることを判定し、音声対話状態を維持し、早期の終了を回避することができる。
任意選択で、端末は、端末が音声対話動作状態に移行した後、第1の音声対話インターフェースを表示し、端末が第1の音声情報の処理結果を出力した後、第2の音声対話インターフェースを表示するように構成されている音声対話インターフェース表示モジュール603をさらに含む。第1の音声対話インターフェースは、第2の音声対話インターフェースとは異なる。例えば、第2の音声インターフェースは、より単純であり、ユーザに干渉を生じさせない。
継続会話意図判定モジュールによって必要とされる様々な情報は、端末自体によって収集及び取得されてもよいし、ネットワーク又はケーブルを介して接続された関連デバイス又はサーバによって取得されてもよいと理解され得る。また、継続会話意図判定モジュール自体が、ネットワーク又はケーブルを介して接続されたデバイス又はサーバによって実施されてもよい。換言すれば、端末は、ユーザとの音声対話を行うためのインターフェースとしてのみ機能し、音声及び画像などのユーザ情報を収集することを担当し、処理された音声及び処理された画像情報を出力することを担当して、他の全ての機能をクラウド化する。
本出願のこの実施形態で提供される端末デバイスは、全ての前述の実施形態において方法を行うように構成されている。したがって、端末デバイスによって取得される技術的効果については、前述の方法の実施形態を参照し、詳細は、ここでは再度説明しない。
図6の「モジュール」又は「ユニット」は、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、電子回路、1つ以上のソフトウェア若しくはファームウェアプログラムを実行するプロセッサ又はメモリ、組み合わせ論理回路、又は前述の機能を提供する別の構成要素であり得る。統合ユニット又はモジュールがソフトウェア機能ユニットの形態で実施され、独立した製品として販売又は使用される場合、統合ユニット又はモジュールは、コンピュータ可読記憶媒体に記憶され得る。
図7は、本出願の一実施形態による端末デバイス700の概略構造図である。この構造は、プロセッサ701、メモリ702、トランシーバ703、ディスプレイ704、及び検出器705(マイクロホン、又はカメラ、赤外線検出デバイスなどをさらに含む)を含む。プロセッサ701は、メモリ702及びトランシーバ703に接続される。例えば、プロセッサ701は、バスを介してメモリ702及びトランシーバ703に接続されてもよい。
プロセッサ701は、前述の実施形態における対応する機能を実行するために、端末デバイス700として構成され得る。プロセッサ701は、中央処理装置(英語: central processing unit、CPU)、ネットワークプロセッサ(英語: network processor、NP)、ハードウェアチップ、又はそれらの任意の組み合わせであってもよい。ハードウェアチップは、特定用途向け集積回路(英語: application-specific integrated circuit、ASIC)、プログラマブル論理デバイス(英語: programmable logic device、PLD)、又はそれらの組み合わせであってもよい。PLDは、複雑なプログラマブル論理デバイス(英語: complex programmable logic device、CPLD)、フィールドプログラマブルゲートアレイ(英語: field-programmable gate array、FPGA)、汎用アレイ論理(英語: generic array logic、GAL)、又はそれらの任意の組み合わせであってもよい。
メモリ702は、プログラムコードなどを記憶するように構成されている。メモリ702は、揮発性メモリ(英語: volatile memory)、例えばランダム・アクセス・メモリ(英語: random access memory、略してRAM)を含むことができる。メモリ702はまた、不揮発性メモリ(英語: non-volatile memory)、例えば、読み出し専用メモリ(英語: read-only memory、略してROM)、フラッシュメモリ(英語:フflash memory)、ハードディスク(英語: hard disk drive、略してHDD)、又はソリッドステートドライブ(英語: solid-state drive、略してSSD)を含んでもよい。メモリ702は、前述のタイプのメモリの組み合わせをさらに含んでもよい。
検出器705は、マイクロホンなどの音声ピックアップデバイスを含み、ユーザによって送信された音声情報(例えば、第1の音声情報又は第2の音声情報)を処理のためにか、又は音場位置決めを実行するためにプロセッサに送信するように構成されている。検出器705は、カメラ及び赤外線センシングなどの測距デバイスをさらに含むことができる。検出器705は、ユーザ関連情報(顔、距離、方向など)を収集し、ユーザ関連情報を処理のためにプロセッサ701に送信する。
トランシーバ703(任意選択)は、通信モジュール又はトランシーバ回路であってもよく、前述の実施形態では、端末デバイスと各サーバなどの別のネットワークユニットとの間で、可能性のあるデータ又はシグナリングなどの情報の伝送を実施するように構成されている。
プロセッサ701は、図2~図5に示す方法の実施形態における動作を実行するために、プログラムコードを呼び出すことができる。
前述の実施形態の全て又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって実施され得る。本実施形態を実施するためにソフトウェアが使用されるときに、実施形態の全て又は一部は、コンピュータプログラム製品の形態で実施され得る。コンピュータプログラム製品は、1つ以上のコンピュータ命令を含む。コンピュータプログラム命令がロードされ、コンピュータ上で実行されるときに、本発明の実施形態による手順又は機能は、全て又は部分的に生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は別のプログラマブルデバイスであり得る。コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又はコンピュータ可読記憶媒体を使用して送信されてもよい。コンピュータ命令は、ウェブサイト、コンピュータ、サーバ、又はデータセンタから別のウェブサイト、コンピュータ、サーバ、又はデータセンタに、有線(例えば、同軸ケーブル、光ファイバ、又はデジタル加入者線(DSL))又は無線(例えば、赤外線、無線、又はマイクロ波)方式で送信され得る。コンピュータ可読記憶媒体は、コンピュータにアクセス可能な任意の利用可能な媒体であり得る。例えば、コンピュータ命令は、磁気媒体(例えば、フロッピーディスク、ハードディスク、又は磁気テープ)、光媒体(例えば、DVD)、又は半導体媒体(例えば、ソリッドステートドライブSolid State Disk(SSD))を介して記憶又は送信されてもよい。
前述の説明は、本発明の特定の実施形態に過ぎないが、本発明の保護範囲を制限することを意図するものではない。当業者が、本発明に開示された技術的範囲内で容易に理解することができる修正又は代替は、本発明の保護範囲に含まれるものとする。したがって、本発明の保護範囲は、請求項の保護範囲に従うものとする。

Claims (17)

  1. 音声対話方法であって
    端末によって、ユーザから、同じユーザからの第1の音声情報に対する第1の処理結果を出力した後に、第2の音声情報を受信することと、
    前記端末によって、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットを判定することと、
    前記端末によって、前記オフセットに基づいて、前記ユーザの顔の向きが前記ユーザの音源と前記視覚中心点の接続線を考慮したプリセット閾値を満たすかどうかを判定することと、
    前記端末によって、前記ユーザの顔の向きが前記プリセット閾値を満たすときに、前記第2の音声情報に対する第2の処理結果を出力することと、を含む、方法。
  2. 前記端末によって、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することをさらに含む、請求項1に記載の方法。
  3. 前記端末によって、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することは、
    前記端末によって、前記第1の音声情報と前記第2の音声情報を受信するときに、前記第1の音声情報の特徴と前記第2の音声情報の特徴を別々に取得することと、
    前記端末によって、前記第1の音声情報の前記特徴と前記第2の音声情報の前記特徴との比較結果に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することと、を含む、請求項2に記載の方法。
  4. 前記第1の音声情報の特徴と前記第2の音声情報の特徴は、声紋モデル情報である、請求項2に記載の方法。
  5. 前記端末によって、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することは、
    前記端末によって、前記第1の音声情報及び前記第2の音声情報を受信するときに、前記ユーザの方向情報又は距離情報を別々に取得することと、
    前記端末によって、前記ユーザの前記方向情報又は前記距離情報に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することと、を含む、請求項に記載の方法。
  6. 前記端末は、前記ユーザの前記距離情報を検出するために赤外線センシングを使用し、前記第1の音声情報及び前記第2の音声情報を受信するときに、前記ユーザの前記距離情報に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定するか、又は
    前記端末は、前記ユーザの前記方向情報を検出するためにマイクロホンアレイを使用し、前記第1の音声情報及び前記第2の音声情報を受信するときに、前記ユーザの前記方向情報に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定する、請求項に記載の方法。
  7. 前記端末によって、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することは、
    前記端末によって、前記第1の音声情報と前記第2の音声情報を受信するときに、前記ユーザの顔特徴情報を別々に取得することと、
    前記端末によって、前記ユーザの前記顔特徴情報を比較することによって、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することと、を含む、請求項に記載の方法。
  8. インテリジェント音声対話を実施するための端末であって、前記端末は、音声対話モジュールと、継続会話意図判定モジュールと、を含み、
    前記音声対話モジュールは、ユーザから、同じユーザからの第1の音声情報に対する第1の処理結果を出力した後に、第2の音声情報を受信することを行うように構成されており、
    前記継続会話意図判定モジュールは、音声対話インターフェースの視覚中心点とカメラ位置との間のオフセットを判定することと、前記オフセットに基づいて、前記ユーザの顔の向きが前記ユーザの音源と前記視覚中心点の接続線を考慮したプリセット閾値を満たすかどうかを判定することとを行うように構成されており、
    前記音声対話モジュールは、前記ユーザの顔の向きが前記プリセット閾値を満たすときに、前記第2の音声情報に対する第2の処理結果を出力するように構成されている、端末。
  9. 前記継続会話意図判定モジュールが、
    前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定するようにさらに構成されている、請求項8に記載の端末。
  10. 前記継続会話意図判定モジュールが、
    前記第1の音声情報の特徴と前記第2の音声情報の特徴との比較結果に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定するようにさらに構成されている、請求項9に記載の端末。
  11. 前記第1の音声情報の特徴と前記第2の音声情報の特徴は、声紋モデル情報である、請求項9に記載の端末。
  12. 前記継続会話意図判定モジュールが、前記第1の音声情報のユーザと前記第2の音声情報のユーザが同じユーザであるかどうかを判定するように構成されていることは、
    前記継続会話意図判定モジュールによって、前記第1の音声情報と前記第2の音声情報を受信するときに、前記ユーザの方向情報又は距離情報に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定することを含む、請求項9に記載の端末。
  13. 前記継続会話意図判定モジュールは、前記ユーザの前記距離情報を検出するために赤外線センシングを使用し、前記第1の音声情報及び前記第2の音声情報を受信するときに、前記ユーザの前記距離情報に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定するように構成されているか、または
    前記継続会話意図判定モジュールは、前記ユーザの前記方向情報を検出するためにマイクロホンアレイを使用し、前記第1の音声情報及び前記第2の音声情報を受信するときに、前記ユーザの前記方向情報に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定するように構成されている、請求項12に記載の端末。
  14. 前記継続会話意図判定モジュールが、前記第1の音声情報及び前記第2の音声情報を受信するときに、前記ユーザの顔特徴情報に基づいて、前記第2の音声情報のユーザと前記第1の音声情報のユーザが同じユーザであるかどうかを判定するようにさらに構成されている、請求項9に記載の端末。
  15. インテリジェント音声対話を実施するための会議システムであって、前記会議システムは、請求項8~14に記載のいずれかの端末と、少なくとも1つのサーバと、を含み、前記端末は、インテリジェント音声対話を実施するために、ネットワークを介して前記少なくとも1つのサーバに接続され、前記サーバは、声紋認識サーバ、顔認識サーバ、音声認識及び意味理解サーバ、音声合成サーバ、及びセッション意図認識サーバを含む、会議システム。
  16. コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、プロセッサが前記プログラムを実行して、請求項1~7のいずれか一項に記載の方法を実施する、コンピュータ可読記憶媒体。
  17. メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータプログラムと、を含み、前記プロセッサは、前記コンピュータプログラムを実行して、請求項1~7のいずれか一項に記載の方法を実施する、インテリジェント音声対話を実施するための端末。
JP2021537969A 2018-12-29 2019-12-28 音声対話の方法、装置、及びシステム Active JP7348288B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811644940.9 2018-12-29
CN201811644940.9A CN111402900B (zh) 2018-12-29 2018-12-29 一种语音交互方法,设备和系统
PCT/CN2019/129631 WO2020135811A1 (zh) 2018-12-29 2019-12-28 一种语音交互方法,设备和系统

Publications (2)

Publication Number Publication Date
JP2022516491A JP2022516491A (ja) 2022-02-28
JP7348288B2 true JP7348288B2 (ja) 2023-09-20

Family

ID=71128858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021537969A Active JP7348288B2 (ja) 2018-12-29 2019-12-28 音声対話の方法、装置、及びシステム

Country Status (5)

Country Link
US (1) US20210327436A1 (ja)
EP (1) EP3896691A4 (ja)
JP (1) JP7348288B2 (ja)
CN (1) CN111402900B (ja)
WO (1) WO2020135811A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111833876A (zh) * 2020-07-14 2020-10-27 科大讯飞股份有限公司 会议发言控制方法、系统、电子设备及存储介质
CN112017629B (zh) * 2020-07-15 2021-12-21 马上消费金融股份有限公司 语音机器人的会话控制方法及设备、存储介质
CN111951795B (zh) * 2020-08-10 2024-04-09 中移(杭州)信息技术有限公司 语音交互方法、服务器、电子设备和存储介质
CN112133296B (zh) * 2020-08-27 2024-05-21 北京小米移动软件有限公司 全双工语音控制方法、装置、存储介质及语音设备
US11557278B2 (en) 2020-12-10 2023-01-17 Google Llc Speaker dependent follow up actions and warm words
CN112908322A (zh) * 2020-12-31 2021-06-04 思必驰科技股份有限公司 用于玩具车的语音控制方法和装置
CN113138737B (zh) 2021-04-16 2023-11-03 阿波罗智联(北京)科技有限公司 投屏场景的显示控制方法、装置、设备、介质及程序产品
CN113314120B (zh) * 2021-07-30 2021-12-28 深圳传音控股股份有限公司 处理方法、处理设备及存储介质
CN113643728B (zh) * 2021-08-12 2023-08-22 荣耀终端有限公司 一种音频录制方法、电子设备、介质及程序产品
US20230113883A1 (en) * 2021-10-13 2023-04-13 Google Llc Digital Signal Processor-Based Continued Conversation
CN117746849A (zh) * 2022-09-14 2024-03-22 荣耀终端有限公司 一种语音交互方法、装置及终端
CN115567336B (zh) * 2022-09-28 2024-04-16 四川启睿克科技有限公司 一种基于智慧家居的无唤醒语音控制系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140249817A1 (en) 2013-03-04 2014-09-04 Rawles Llc Identification using Audio Signatures and Additional Characteristics
US20140249811A1 (en) 2013-03-01 2014-09-04 Google Inc. Detecting the end of a user question
JP2018017936A (ja) 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
JP2018180523A (ja) 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100754384B1 (ko) * 2003-10-13 2007-08-31 삼성전자주식회사 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템
US10042993B2 (en) * 2010-11-02 2018-08-07 Homayoon Beigi Access control through multifactor authentication with multimodal biometrics
US9129604B2 (en) * 2010-11-16 2015-09-08 Hewlett-Packard Development Company, L.P. System and method for using information from intuitive multimodal interactions for media tagging
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
DE102014109121B4 (de) * 2013-07-10 2023-05-04 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
KR102060661B1 (ko) * 2013-07-19 2020-02-11 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
US20160344567A1 (en) * 2015-05-22 2016-11-24 Avaya Inc. Multi-channel conferencing
US9653075B1 (en) * 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
CN105912092B (zh) 2016-04-06 2019-08-13 北京地平线机器人技术研发有限公司 人机交互中的语音唤醒方法及语音识别装置
US9898082B1 (en) * 2016-11-01 2018-02-20 Massachusetts Institute Of Technology Methods and apparatus for eye tracking
US20180293221A1 (en) * 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
US10950228B1 (en) * 2017-06-28 2021-03-16 Amazon Technologies, Inc. Interactive voice controlled entertainment
CN108182943B (zh) 2017-12-29 2021-03-26 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
TWI704490B (zh) * 2018-06-04 2020-09-11 和碩聯合科技股份有限公司 語音控制裝置及方法
EP3631793B1 (en) * 2018-08-21 2022-03-30 Google LLC Dynamic and/or context-specific hot words to invoke automated assistant

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140249811A1 (en) 2013-03-01 2014-09-04 Google Inc. Detecting the end of a user question
US20140249817A1 (en) 2013-03-04 2014-09-04 Rawles Llc Identification using Audio Signatures and Additional Characteristics
JP2018017936A (ja) 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
JP2018180523A (ja) 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理

Also Published As

Publication number Publication date
US20210327436A1 (en) 2021-10-21
CN111402900A (zh) 2020-07-10
EP3896691A4 (en) 2022-07-06
WO2020135811A1 (zh) 2020-07-02
EP3896691A1 (en) 2021-10-20
CN111402900B (zh) 2024-04-23
JP2022516491A (ja) 2022-02-28

Similar Documents

Publication Publication Date Title
JP7348288B2 (ja) 音声対話の方法、装置、及びシステム
US10930303B2 (en) System and method for enhancing speech activity detection using facial feature detection
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
CN105122353A (zh) 用于虚拟个人助理系统的自然人-计算机交互
US20210056966A1 (en) System and method for dialog session management
EP3779968A1 (en) Audio processing
CN111968680B (zh) 一种语音处理方法、装置及存储介质
WO2024103926A1 (zh) 语音控制方法、装置、存储介质以及电子设备
WO2022093623A1 (en) Methods and systems for automatic queuing in conference calls
JPWO2019093123A1 (ja) 情報処理装置および電子機器
US20190385633A1 (en) Signal processing apparatus and method, and program
JP2004234631A (ja) ユーザと対話型実体エージェントとの間の対話を管理するシステムおよび対話型実体エージェントによるユーザとの対話を管理する方法
US11726646B2 (en) Preserving engagement state based on contextual signals
KR102134860B1 (ko) 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법
US12020704B2 (en) Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant
US20240201938A1 (en) Pairing audio data channels based on initiating, using a first client device, playback of media on a second client device
WO2024123364A1 (en) Annotating automatic speech recognition transcription
WO2024123365A1 (en) Separation of conversational clusters in automatic speech recognition transcriptions
KR20240011841A (ko) 과거 인터렉션에 기초하여 세컨더리 자동화된 어시스턴트에 관련 쿼리 제공
CN118369641A (zh) 基于调用属性在多个自动化助理之间选择
Zhang et al. Fusing array microphone and stereo vision for improved computer interfaces

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210816

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230907

R150 Certificate of patent or registration of utility model

Ref document number: 7348288

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150