JP2023504809A - 音声対話プラットフォームの機能ディスパッチ方法および装置 - Google Patents

音声対話プラットフォームの機能ディスパッチ方法および装置 Download PDF

Info

Publication number
JP2023504809A
JP2023504809A JP2022532075A JP2022532075A JP2023504809A JP 2023504809 A JP2023504809 A JP 2023504809A JP 2022532075 A JP2022532075 A JP 2022532075A JP 2022532075 A JP2022532075 A JP 2022532075A JP 2023504809 A JP2023504809 A JP 2023504809A
Authority
JP
Japan
Prior art keywords
function
service
functional
voice interaction
dispatch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022532075A
Other languages
English (en)
Other versions
JP7293512B2 (ja
Inventor
成亜 朱
帥 樊
▲ウェイ▼斯 石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Publication of JP2023504809A publication Critical patent/JP2023504809A/ja
Application granted granted Critical
Publication of JP7293512B2 publication Critical patent/JP7293512B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2023504809000001
【課題】機能ディスパッチの効率を向上させる。
【解決手段】中央制御ディスパッチサービスによってユーザ音声のセマンティック結果を受信するステップと、中央制御ディスパッチサービスによってセマンティック結果に関連する複数の機能サービスを並行してディスパッチし、複数の機能サービスからフィードバックされた解析結果を取得するステップと、機能サービスの優先度に基づいて複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出するステップと、ユーザにフィードバックするステップと、を含む音声対話プラットフォームの機能ディスパッチ方法を提供する。さらに、音声対話プラットフォームに用いられる機能ディスパッチ装置を提供する。
【選択図】図1

Description

本発明は、インテリジェント音声分野に関し、特に、音声対話プラットフォームの機能ディスパッチ方法および装置に関する。
音声製品には、複数の異なる機能(ナビゲーション、音楽、ラジオ等)が含まれ、ユーザが入力した音声に対するセマンティック分類と解析結果に基づいて、対応する機能が選択される。
セマンティック分類のディスパッチポリシーに基づいて、ある音声製品にはQQ(登録商標)音楽と網易(登録商標)雲音楽が含まれており、QQ(登録商標)音楽機能にセマンティック分類された後、コンテンツが検索できない場合や著作権がない場合には、引き続き網易(登録商標)雲音楽機能においてディスパッチして、検索を完了させることができる。
本発明を実現する過程において、発明者は、関連技術において少なくとも以下の問題が存在することを発見した。
機能ディスパッチは、音声対話プラットフォームの中央制御ディスパッチサービスによって処理される。ユーザが検索したコンテンツが人気のないコンテンツであれば、一般的に使用される機能には対応するコンテンツがない。この時、中央制御ディスパッチサービスは、ユーザの今回の検索に対して複数回の機能を繰り返しディスパッチして、対応するコンテンツを照会する必要がある。中央制御ディスパッチサービスが大量のユーザ要求を受信した場合、大量のディスパッチ処理を行う必要がある。この場合、大きな遅延が発生し、ユーザへのフィードバックの効率が低下する。
本発明は、少なくとも従来技術において、中央制御ディスパッチサービスが大量のユーザ要求を受信した場合、ユーザが要求したリソースが人気のないリソースであるという原因により、中央制御ディスパッチサービスが極めて多い回数のディスパッチを必要とし、ネットワーク遅延が発生し、フィードバック効率が低くなるという問題を解決する。
第1態様では、本発明の実施例は、
中央制御ディスパッチサービスによって、データ配信サービスから送信される、ユーザ音声を認識したセマンティック結果を受信するステップと、
中央制御ディスパッチサービスによって、セマンティック結果に関連する複数の機能サービスを並行してディスパッチし、複数の機能サービスからフィードバックされた機能解析結果を取得するステップと、
機能サービスの優先度に基づいて複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の機能解析結果によってセマンティック結果の機能を実現できるか否かを判断するステップと、
機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出し、
機能実現判別サービスから実現の成功というフィードバックがあった場合、最高優先度の機能解析結果をデータ配信サービスに送信して、ユーザにフィードバックするステップと、
を含むことを特徴とする音声対話プラットフォームの機能ディスパッチ方法を提供する。
第2態様では、本発明の実施例は、
中央制御ディスパッチサービスによって、データ配信サービスから送信されるユーザ音声を認識したセマンティック結果を受信するために用いられるセマンティック受信プログラムモジュールと、
中央制御ディスパッチサービスによってセマンティック結果に関連する複数の機能サービスを並行してディスパッチし、複数の機能サービスからフィードバックされた解析結果を取得するために用いられる機能解析プログラムモジュールと、
機能サービスの優先度に基づいて複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の機能解析結果によってセマンティック結果の機能を実現できるか否かを判断するために用いられる機能実現判別プログラムモジュールと、
機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出するが、機能実現判別サービスから実現の成功というフィードバックがあった場合、最高優先度の機能解析結果をデータ配信サービスに送信してユーザにフィードバックするために用いられるディスパッチプログラムモジュールと、
を含むことを特徴とする音声対話プラットフォームの機能ディスパッチ装置を提供する。
第3態様では、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、本発明のいずれかの実施例の音声対話プラットフォームの機能ディスパッチ方法のステップが実行できるように、少なくとも1つのプロセッサによって命令を実行させることを特徴とする電子機器を提供する。
第4態様では、コンピュータプログラムが記憶されている記憶媒体であって、当該プログラムがプロセッサによって実行されると、本発明のいずれかの実施例の音声対話プラットフォームの機能ディスパッチ方法のステップが実現できる、ことを特徴とする記憶媒体を提供する。
本発明の実施例は、以下の有益な効果を有する。セマンティック認識結果を複数の機能サービスに同時に送信し、各機能サービスの解析結果を機能実現判別サービスに送信して順次判別する。中央制御ディスパッチサービスと機能サービスとの間で一度ディスパッチするだけで、ユーザのニーズを実現できる音声機能の解析結果を確定でき、中央制御ディスパッチサービスのディスパッチ回数を減少させることができる。多数のユーザが要求を送信する場合、機能ディスパッチの効率を確保し、遅延を低減し、ユーザの体験を改善させることもできる。
本願の実施例の技術方案をより明確に説明するために、以下、実施例の説明において使用される図面について簡単に紹介する。明らかに、以下の説明における図面は、本願のいくつかの実施例である。当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。
本発明の一実施例によって提供される音声対話プラットフォームの機能ディスパッチ方法のフローチャートである。 本発明の一実施例によって提供される音声対話プラットフォームの機能ディスパッチ装置の構造概略図である。 本発明の電子機器の一実施例の概略構成図である。
本発明の実施例の目的、技術方案および利点をより明確にするために、以下では、本発明の実施例における図面と併せて、本発明の実施例における技術方案を明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
図1は、本発明の一実施例によって提供される音声対話プラットフォームの機能ディスパッチ方法のフローチャートである。この方法はサーバに用いられ、以下のステップを含む。
ステップS11において、中央制御ディスパッチサービスによって、データ配信サービスから送信される、ユーザ音声を認識したセマンティック結果を受信する。
ステップS12において、中央制御ディスパッチサービスによって、セマンティック結果に関連する複数の機能サービスを並行してディスパッチし、複数の機能サービスからフィードバックされた解析結果を取得する。
ステップS13において、機能サービスの優先度に基づいて複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の機能解析結果によってセマンティック結果の機能を実現できるか否かを判断する。
ステップS14において、機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出し、
機能実現判別サービスから実現の成功というフィードバックがあった場合、最高優先度の機能解析結果をデータ配信サービスに送信して、ユーザにフィードバックする。
本実施形態において、ユーザは、インテリジェントデバイスを使用する際に、例えば「**曲を再生します」または「**問題を照会します」などのようにインテリジェントデバイスと対話をする。インテリジェントデバイスは、収集された音声をデータ配信サービスに送信する。音声は、データ配信サービスを介して認識サービスに送信され、セマンティック認識される。データ配信サービスは、ユーザ音声のセマンティック結果を取得した後、セマンティック結果を中央制御ディスパッチサービスに送信する。
ステップS11において、中央制御ディスパッチサービスによって、データ配信サービスから送信されるユーザ音声のセマンティック認識結果、例えば、「ある曲を再生します」を受信する。
ステップS12において、中央制御ディスパッチサービスによってセマンティック認識結果を受信した後、1つの機能サービスに直接送信するのではなく、当該セマンティック結果をセマンティック結果に関連する複数の機能サービスに同時に並行して送信する。この時、中央制御ディスパッチサービスによって、複数の機能サービスからフィードバックされた解析結果を受信する。「ある曲を再生します」が、例えばQQ(登録商標)音楽、網易(登録商標)雲音楽、酷狗音楽、酷我音楽、蝦米音楽などの複数の関連する機能サービスに並行して送信される。中央制御ディスパッチサービスによって、各音声機能によりフィードバックされた解析結果を受信する。
従来の方法では、セマンティック認識結果を確定した後、最高優先度の機能サービスに直接送信する。当該機能サービスによってセマンティック結果の機能を実現できない場合、中央制御ディスパッチサービスによってセマンティック認識結果を他の機能サービスに再送信する必要があり、このようなディスパッチ方法は、中央制御ディスパッチサービスによって継続的に試行する必要があり、効率が低い。
ステップS13において、音声製品設計段階において、異なる機能に対して異なる優先度があるため、まず、最高優先度の機能解析結果を機能実現判別サービスに導出して、最高優先度の機能によってセマンティック結果の機能を実現できるか否かを判断する。例えば、セマンティック結果が「『これが愛です』を再生する」であり、各機能はいずれも対応する解析結果をフィードバックしている。この場合、第1優先度の機能はQQ(登録商標)音楽である。QQ(登録商標)音楽機能の解析結果を機能実現判別サービスに導出する。
ステップS14において、機能実現判別サービスから実現の失敗というフィードバックがあった場合、例えば、QQ(登録商標)音楽に「これが愛です」のオリジナル曲がなく、ユーザのニーズを実現できない場合には、残りの複数の機能解析の中から最高優先度の機能解析結果を再度選択して機能実現判別サービスに導出する。例えば、この時の最高優先度の機能が網易(登録商標)雲音楽である場合、網易(登録商標)雲音楽機能の解析結果を機能実現判別サービスに導出する。
機能実現判別サービスから実現の成功というフィードバックがあった場合、「これが愛です」という曲が網易(登録商標)雲音楽にあることを表明する。網易(登録商標)雲音楽機能の解析結果をデータ配信サービスに送信して、ユーザにフィードバックする。
この実施形態によれば、セマンティック認識結果を複数の機能サービスに同時に送信し、各機能サービスの解析結果を機能実現判別サービスに送信して順次判別し、中央制御ディスパッチサービスと機能サービスとの間で一度ディスパッチするだけで、ユーザのニーズを実現できる音声機能の解析結果を確定でき、中央制御ディスパッチサービスと機能サービスのディスパッチ回数を減少させることができる。多数のユーザが要求を送信する場合、機能ディスパッチの効率を確保し、遅延を低減し、ユーザの体験を改善させることもできる。
一実施形態として、本実施例において、機能実現判別サービスは、
中央制御ディスパッチサービスから送信される最高優先度の機能解析結果を受信するステップと、
機能解析結果に対して対話状態追跡を行い、確定された対話状態に基づいて機能解析結果によってセマンティック結果の機能を実現できるか否かを判断するステップと、
を含む。
本実施形態において、機能実現判別サービスは、機能解析結果に対して対話状態追跡を行い、対応する対話状態を確定することにより、機能解析結果によってセマンティック結果の機能を実現できるか否かを判断する。例えば、音楽機能の他に、いくつかの検索機能に用いることができる。検索エンジンが異なるため、同じキーワードを入力すると異なる検索結果を得る可能性がある。ある検索機能はゴシップ類の情報を検索することが得意で、ある検索機能は学術類の情報を検索することが得意である。対話状態追跡によって取得される対話状態も異なり、さらに異なる機能の解析結果によってセマンティック結果の機能を実現できるか否かを判断する。
この実施形態からわかるように、機能実現判別の実現方法が提供されており、フィードバックされたコンテンツがいずれもユーザ所望のコンテンツであることを確保し、ユーザの体験をさらに改善することができる。
一実施形態として、本実施例において、優先度には、少なくとも機能優先度とコンテキスト優先度とが含まれる。
コンテキスト優先度は、このように理解することができる。例えば、Aエンジン検索機能はゴシップ情報を検索することが得意で、Bエンジン検索機能は学術情報を検索することが得意である。ユーザが学術的な質問を頻繁にしない可能性があることを考慮して、Aエンジン検索機能の優先度はBエンジン検索機能より高い。ユーザが第1ラウンドの対話において学術類の質問要求を入力した場合、上記の方法により、学術類の質問要求をAエンジン検索機能とBエンジン検索機能に同時に並行して送信することができる。Aエンジン検索機能の解析結果によってユーザのニーズを実現できるかどうかを優先的に判断する。Aエンジン検索機能によってユーザのニーズを実現できず、Bエンジン検索機能によって実現できると判断された場合には、Bエンジン検索機能の解析結果をユーザにフィードバックする。ユーザの第2ラウンドの対話ではまた学術類の質問がされている。この時、コンテキスト判断により、第1ラウンドの対話ではBエンジン検索機能によってユーザのニーズを実現できるため、第2ラウンドの対話ではBエンジン検索機能が優先的に考慮される。
この実施形態から分かるように、複数の優先度の判別方法が提供されており、ディスパッチロジックをさらに最適化し、機能ディスパッチ効率を向上させることができる。
図2は、本発明の一実施例によって提供される音声対話プラットフォームの機能ディスパッチ装置10の構造概略図である。この装置は、上記いずれかの実施例の音声対話プラットフォームの機能ディスパッチ方法を実行することができ、且つ端末に配置される。
本実施例によって提供される音声対話プラットフォームの機能ディスパッチ装置10は、セマンティック受信プログラムモジュール11と、機能解析プログラムモジュール12と、機能実現判別プログラムモジュール13と、ディスパッチプログラムモジュール14と、を含む。
ここで、セマンティック受信プログラムモジュール11は、中央制御ディスパッチサービスによって、データ配信サービスから送信されるユーザ音声を認識したセマンティック結果を受信するために用いられる。機能解析プログラムモジュール12は、中央制御ディスパッチサービスによってセマンティック結果に関連する複数の機能サービスを並行してディスパッチし、複数の機能サービスからフィードバックされた解析結果を取得するために用いられる。機能実現判別プログラムモジュール13は、機能サービスの優先度に基づいて複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の機能解析結果によってセマンティック結果の機能を実現できるか否かを判断するために用いられる。ディスパッチプログラムモジュール14は、機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出するが、機能実現判別サービスから実現の成功というフィードバックがあった場合、最高優先度の機能解析結果をデータ配信サービスに送信してユーザにフィードバックするために用いられる。
機能実現判別プログラムモジュールは、
中央制御ディスパッチサービスから送信される最高優先度の機能解析結果を受信し、
機能解析結果に対して対話状態追跡を行い、確定された対話状態に基づいて機能解析結果によってセマンティック結果の機能を実現できるか否かを判断するために用いられる。
さらに、優先度には、少なくとも機能優先度とコンテキスト優先度とが含まれる。
さらに、機能サービスには、質問応答型機能サービスとタスク型機能サービスとが含まれる。
本発明の実施例は、不揮発性コンピュータ記録媒体をさらに提供し、上記のいずれかの方法実施例における音声対話プラットフォームの機能ディスパッチ方法を実行可能なコンピュータにより実行可能な命令が記憶されている。
一実施形態として、本発明の不揮発性コンピュータ記録媒体に記憶されているコンピュータにより実行可能な命令は、以下のように構成される。
中央制御ディスパッチサービスによって、データ配信サービスから送信される、ユーザ音声を認識したセマンティック結果を受信する。
中央制御ディスパッチサービスによって、セマンティック結果に関連する複数の機能サービスを並行してディスパッチし、複数の機能サービスからフィードバックされた解析結果を取得する。
機能サービスの優先度に基づいて複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の機能解析結果によってセマンティック結果の機能を実現できるか否かを判断する。
機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出し、
機能実現判別サービスから実現の成功というフィードバックがあった場合、最高優先度の機能解析結果をデータ配信サービスに送信して、ユーザにフィードバックする。
不揮発性コンピュータ可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能なプログラムおよびモジュール、例えば本発明の実施例における方法に対応するプログラム命令/モジュールを記憶するために用いることができる。1つまたは複数のプログラム命令は、不揮発性コンピュータ可読記憶媒体に記憶され、プロセッサによって実行されると、上述したいずれかの方法実施例における音声対話プラットフォームの機能ディスパッチ方法が実行できる。
不揮発性コンピュータ可読記憶媒体は、プログラム記憶領域とデータ記憶領域を含むことができる。ここで、プログラム記憶領域は、オペレーティングシステムと少なくとも1つの機能に必要なアプリケーションプログラムとを記憶することができる。データ記憶領域は、装置の使用に応じて作成されたデータなどを記憶することができる。さらに、不揮発性コンピュータ可読記憶媒体は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置を含むことができる。いくつかの実施例において、不揮発性コンピュータ可読記憶媒体は、プロセッサから離れて設置されたメモリを選択的に含むことができ、これらのリモートメモリは、ネットワークを介して装置に接続することができる。上記ネットワークの例には、インタネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。
本発明の実施例はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
中央制御ディスパッチサービスによって、データ配信サービスから送信される、ユーザ音声を認識したセマンティック結果を受信するステップと、
中央制御ディスパッチサービスによって、セマンティック結果に関連する複数の機能サービスを並行してディスパッチし、複数の機能サービスからフィードバックされた解析結果を取得するステップと、
機能サービスの優先度に基づいて複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の機能解析結果によってセマンティック結果の機能を実現できるか否かを判断するステップと、
機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出し、
機能実現判別サービスから実現の成功というフィードバックがあった場合、最高優先度の機能解析結果をデータ配信サービスに送信して、ユーザにフィードバックするステップと、
が実行できるように、少なくとも1つのプロセッサによって命令を実行させる電子機器を提供する。
一実施形態として、前記機能実現判別サービスは、中央制御ディスパッチサービスから送信される最高優先度の機能解析結果を受信するステップと、前記機能解析結果に対して対話状態追跡を行い、確定された対話状態に基づいて前記機能解析結果によって前記セマンティック結果の機能を実現できるか否かを判断するステップと、を含む。
一実施形態として、前記優先度には、少なくとも機能優先度とコンテキスト優先度とが含まれる。
一実施形態として、前記機能サービスには、質問応答型機能サービスとタスク型機能サービスとが含まれる。
図3は、本発明の他の実施例によって提供される音声対話プラットフォームの機能ディスパッチ方法を実行する電子機器のハードウェア構造概略図ある。図3に示すように、この機器は、1つまたは複数のプロセッサ310とメモリ320とを含み、図3では、1つのプロセッサ310を例としている。
音声対話プラットフォームの機能ディスパッチ方法を実行する機器は、入力装置330と出力装置340とをさらに含むことができる。
プロセッサ310、メモリ320、入力装置330及び出力装置340は、バスを介して接続されてもよいし、他の方法で接続されてもよく、図3では、バスを介した接続を例とする。
メモリ320は、不揮発性コンピュータ可読記憶媒体であり、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能なプログラムおよびモジュール、例えば本発明の実施例における音声対話プラットフォームの機能ディスパッチ方法に対応するプログラム命令/モジュールを記憶するために用いることができる。プロセッサ310は、メモリ320に記憶されている不揮発性ソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの各種機能応用およびデータ処理を実行し、上記方法実施例の音声対話プラットフォームの機能ディスパッチ方法を実現する。
メモリ320は、プログラム記憶領域とデータ記憶領域を含むことができる。プログラム記憶領域は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができる。データ記憶領域は、音声対話プラットフォームの機能ディスパッチ装置の使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ320は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置を含むことができる。いくつかの実施例において、メモリ320は、プロセッサ310から離れて設置されたメモリを選択的に含むことができ、これらのリモートメモリは、ネットワークを介して音声対話プラットフォームの機能ディスパッチ装置に接続することができる。上記ネットワークの例には、インタネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。
入力装置330は、入力された数値や文字情報を受信し、音声対話プラットフォームの機能ディスパッチ装置のユーザ設置および機能制御に関連する信号を生成することができる。出力装置340は、ディスプレイなどの表示装置を含むことができる。
1つまたは複数のモジュールはメモリ320に記憶され、1つまたは複数のプロセッサ 310によって実行されると、上記任意の方法実施例における音声対話プラットフォームの機能ディスパッチ方法を実行する。
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone(登録商標))、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)データ交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピューターデバイス(パーソナルコンピューター、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。

Claims (10)

  1. サーバに用いられる音声対話プラットフォームの機能ディスパッチ方法であって、
    中央制御ディスパッチサービスによって、データ配信サービスから送信される、ユーザ音声を認識したセマンティック結果を受信するステップと、
    中央制御ディスパッチサービスによって、前記セマンティック結果に関連する複数の機能サービスを並行してディスパッチし、前記複数の機能サービスからフィードバックされた機能解析結果を取得するステップと、
    前記機能サービスの優先度に基づいて前記機能解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の前記機能解析結果によって前記セマンティック結果の機能を実現できるか否かを判断するステップと、
    前記機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出し、
    前記機能実現判別サービスから実現の成功というフィードバックがあった場合、前記最高優先度の機能解析結果をデータ配信サービスに送信して、ユーザにフィードバックするステップと、
    を含むことを特徴とする音声対話プラットフォームの機能ディスパッチ方法。
  2. 前記機能実現判別サービスは、
    中央制御ディスパッチサービスから送信される最高優先度の機能解析結果を受信するステップと、
    前記機能解析結果に対して対話状態追跡を行い、確定された対話状態に基づいて前記機能解析結果によって前記セマンティック結果の機能を実現できるか否かを判断するステップと、
    を含むことを特徴とする請求項1に記載の音声対話プラットフォームの機能ディスパッチ方法。
  3. 前記優先度には、少なくとも機能優先度とコンテキスト優先度とが含まれることを特徴とする請求項1に記載の音声対話プラットフォームの機能ディスパッチ方法。
  4. 前記機能サービスには、質問応答型機能サービスとタスク型機能サービスとが含まれることを特徴とする請求項1に記載の音声対話プラットフォームの機能ディスパッチ方法。
  5. 中央制御ディスパッチサービスによって、データ配信サービスから送信されるユーザ音声を認識したセマンティック結果を受信するために用いられるセマンティック受信プログラムモジュールと、
    中央制御ディスパッチサービスによって前記セマンティック結果に関連する複数の機能サービスを並行してディスパッチし、前記複数の機能サービスからフィードバックされた機能解析結果を取得するために用いられる機能解析プログラムモジュールと、
    前記機能サービスの優先度に基づいて前記複数の解析結果をソートし、最高優先度の機能解析結果を機能実現判別サービスに導出し、最高優先度の前記機能解析結果によって前記セマンティック結果の機能を実現できるか否かを判断するために用いられる機能実現判別プログラムモジュールと、
    前記機能実現判別サービスから実現の失敗というフィードバックがあった場合、残りの複数の機能解析結果の中から最高優先度の機能解析結果を選択して機能実現判別サービスに導出するが、前記機能実現判別サービスから実現の成功というフィードバックがあった場合、前記最高優先度の機能解析結果をデータ配信サービスに送信してユーザにフィードバックするために用いられるディスパッチプログラムモジュールと、
    を含むことを特徴とする音声対話プラットフォームの機能ディスパッチ装置。
  6. 前記機能実現判別プログラムモジュールは、
    中央制御ディスパッチサービスから送信される最高優先度の機能解析結果を受信し、
    前記機能解析結果に対して対話状態追跡を行い、確定された対話状態に基づいて前記機能解析結果によって前記セマンティック結果の機能を実現できるか否かを判断するために用いられる、
    ことを特徴とする請求項5に記載の音声対話プラットフォームの機能ディスパッチ装置。
  7. 前記優先度には、少なくとも機能優先度とコンテキスト優先度とが含まれることを特徴とする請求項5に記載の音声対話プラットフォームの機能ディスパッチ装置。
  8. 前記機能サービスには、質問応答型機能サービスとタスク型機能サービスとが含まれることを特徴とする請求項5に記載の音声対話プラットフォームの機能ディスパッチ装置。
  9. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
    請求項1~4のいずれか1項に記載の音声対話プラットフォームの機能ディスパッチ方法のステップが実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させることを特徴とする電子機器。
  10. コンピュータプログラムが記憶されている記憶媒体であって、
    前記プログラムがプロセッサによって実行されると、請求項1~4のいずれか1項に記載の音声対話プラットフォームの機能ディスパッチ方法のステップが実現できる、ことを特徴とする記憶媒体。
JP2022532075A 2019-12-26 2020-11-18 音声対話プラットフォームの機能ディスパッチ方法および装置 Active JP7293512B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911364193.8A CN111161717B (zh) 2019-12-26 2019-12-26 用于语音对话平台的技能调度方法及系统
CN201911364193.8 2019-12-26
PCT/CN2020/129703 WO2021129240A1 (zh) 2019-12-26 2020-11-18 用于语音对话平台的技能调度方法及装置

Publications (2)

Publication Number Publication Date
JP2023504809A true JP2023504809A (ja) 2023-02-07
JP7293512B2 JP7293512B2 (ja) 2023-06-19

Family

ID=70556670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022532075A Active JP7293512B2 (ja) 2019-12-26 2020-11-18 音声対話プラットフォームの機能ディスパッチ方法および装置

Country Status (5)

Country Link
US (1) US11862150B2 (ja)
EP (1) EP4083997A4 (ja)
JP (1) JP7293512B2 (ja)
CN (1) CN111161717B (ja)
WO (1) WO2021129240A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161717B (zh) * 2019-12-26 2022-03-22 思必驰科技股份有限公司 用于语音对话平台的技能调度方法及系统
CN112035632A (zh) * 2020-08-21 2020-12-04 惠州市德赛西威汽车电子股份有限公司 一种适用于多对话机器人协作任务的择优分发方法和系统
CN112802478B (zh) * 2020-12-31 2022-07-08 思必驰科技股份有限公司 混合云融合调度方法和装置
CN113935309A (zh) * 2021-09-13 2022-01-14 惠州市德赛西威汽车电子股份有限公司 一种基于语义平台的技能优化处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004288018A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 対話制御システム及び方法
JP2015528140A (ja) * 2012-05-15 2015-09-24 アップル インコーポレイテッド サードパーティサービスをデジタルアシスタントと統合するシステム及び方法
JP2017107078A (ja) * 2015-12-10 2017-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、音声対話装置及び音声対話プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521766B1 (en) * 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
KR101068120B1 (ko) * 2008-12-12 2011-09-28 한국전자통신연구원 다중 탐색 기반의 음성 인식 장치 및 그 방법
US8214344B2 (en) * 2010-03-16 2012-07-03 Empire Technology Development Llc Search engine inference based virtual assistance
US20160378747A1 (en) * 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
DK201770383A1 (en) * 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10403278B2 (en) * 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20190243669A1 (en) * 2018-02-05 2019-08-08 Microsoft Technology Licensing, Llc Skill discovery and brokering framework
US11016968B1 (en) * 2018-09-18 2021-05-25 Amazon Technologies, Inc. Mutation architecture for contextual data aggregator
US11069351B1 (en) * 2018-12-11 2021-07-20 Amazon Technologies, Inc. Vehicle voice user interface
CN109710137B (zh) * 2018-12-25 2020-09-01 苏州思必驰信息科技有限公司 用于语音对话平台的技能优先级配置方法及系统
CN109858975A (zh) * 2019-02-20 2019-06-07 携程旅游信息技术(上海)有限公司 多会话类型智能分配方法、系统、设备及存储介质
US11455987B1 (en) * 2019-03-06 2022-09-27 Amazon Technologies, Inc. Multiple skills processing
CN110209392A (zh) 2019-06-12 2019-09-06 苏州思必驰信息科技有限公司 技能共享开发方法及装置
CN110196732B (zh) 2019-06-26 2022-07-08 思必驰科技股份有限公司 技能本地管理方法及装置
US11289075B1 (en) * 2019-12-13 2022-03-29 Amazon Technologies, Inc. Routing of natural language inputs to speech processing applications
CN111161717B (zh) 2019-12-26 2022-03-22 思必驰科技股份有限公司 用于语音对话平台的技能调度方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004288018A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 対話制御システム及び方法
JP2015528140A (ja) * 2012-05-15 2015-09-24 アップル インコーポレイテッド サードパーティサービスをデジタルアシスタントと統合するシステム及び方法
JP2017107078A (ja) * 2015-12-10 2017-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、音声対話装置及び音声対話プログラム

Also Published As

Publication number Publication date
WO2021129240A1 (zh) 2021-07-01
CN111161717B (zh) 2022-03-22
EP4083997A1 (en) 2022-11-02
CN111161717A (zh) 2020-05-15
EP4083997A4 (en) 2023-06-14
US11862150B2 (en) 2024-01-02
US20230044968A1 (en) 2023-02-09
JP7293512B2 (ja) 2023-06-19

Similar Documents

Publication Publication Date Title
JP7293512B2 (ja) 音声対話プラットフォームの機能ディスパッチ方法および装置
US10891177B2 (en) Message management method and device, and storage medium
US20180189408A1 (en) System and method for use of a media content bot in a social messaging environment
JP6730994B2 (ja) 問答情報の処理方法、装置、記憶媒体及び装置
CN112868004B (zh) 资源推荐方法、装置、电子设备及存储介质
CN109558444B (zh) 数据检索方法及装置
CN107105336B (zh) 数据处理方法及数据处理装置
CN112188295B (zh) 一种视频推荐方法及装置
CN112740323B (zh) 一种语音理解方法及装置
WO2014146441A1 (en) Method, server and system for processing task data
CN109063200A (zh) 资源搜索方法及其装置、电子设备、计算机可读介质
CN109325180A (zh) 文章摘要推送方法、装置、终端设备、服务器及存储介质
US20230162730A1 (en) Method for Processing Man-Machine Dialogues
US20170155739A1 (en) Advertisement data processing method and router
CN105099727B (zh) 添加群组成员的方法及装置
CN105991403A (zh) 一种基于即时通讯的多媒体分享方法及装置
US20170161322A1 (en) Method and electronic device for searching resource
US11855945B2 (en) Method, computer device, and non-transitory computer-readable recording medium to pick and display message in messaging-based social network service
CN116155852A (zh) Feed流实现方法、装置、终端及存储介质
US20170289229A1 (en) Method and terminal device for providing multimedia content
CN106776947A (zh) 资源获取方法、装置及终端
JP6864125B2 (ja) 通知発送方法およびシステム
US20170310766A1 (en) Service state determining method for service processing device and scheduling device
CN110730323B (zh) 会议交互信息处理方法、装置、计算机装置及存储介质
CN114840653B (zh) 对话处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220822

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230607

R150 Certificate of patent or registration of utility model

Ref document number: 7293512

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150