JP6754011B2 - 音声サービスを提供するための方法、装置およびサーバ - Google Patents

音声サービスを提供するための方法、装置およびサーバ Download PDF

Info

Publication number
JP6754011B2
JP6754011B2 JP2019537348A JP2019537348A JP6754011B2 JP 6754011 B2 JP6754011 B2 JP 6754011B2 JP 2019537348 A JP2019537348 A JP 2019537348A JP 2019537348 A JP2019537348 A JP 2019537348A JP 6754011 B2 JP6754011 B2 JP 6754011B2
Authority
JP
Japan
Prior art keywords
voice service
device side
target voice
request
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019537348A
Other languages
English (en)
Other versions
JP2020511804A (ja
Inventor
▲興▼ ▲羅▼
▲興▼ ▲羅▼
光昊 沈
光昊 沈
▲ポン▼ 王
▲ポン▼ 王
▲軍▼涛 薛
▲軍▼涛 薛
継冬 王
継冬 王
思杰 ▲楊▼
思杰 ▲楊▼
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020511804A publication Critical patent/JP2020511804A/ja
Application granted granted Critical
Publication of JP6754011B2 publication Critical patent/JP6754011B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/08Protocols for interworking; Protocol conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/102Entity profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/53Network services using third party service providers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/08Protocols for interworking; Protocol conversion
    • H04L69/085Protocols for interworking; Protocol conversion specially adapted for interworking of IP-based networks with other networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/326Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the transport layer [OSI layer 4]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Power Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Description

(関連出願の相互参照)
本出願は、2017年6月30日に出願された中国特許出願番号「201710525724.1」の優先権を主張するものであり、その内容をすべて本願に援用する。
本発明はコンピュータ技術分野に関し、具体的には人工知能分野に関し、特に音声サービスを提供するための方法、装置及びサーバに関する。
コンピュータ技術の発展とネットワークデータの継続的な蓄積に伴い、人工知能技術が急速に発展している。人工知能分野において、音声識別、自然言語処理及び機械学習技術が集約されたインテリジェント音声サービスはますます広く応用されている。
現在、異なるインテリジェント音声サービスプロバイダはそれぞれ音声サービスのアクセスプロトコルを独立に開発し、且つ開発者に音声サービスをアクセスするインターフェースを提供する。開発者は異なるアクセスプロトコルに基づいて異なるインテリジェント音声サービスにアクセスすることができる。しかしながら、各インテリジェント音声サービスのアクセスプロトコル間で互換性がないため、開発者が異なるインテリジェント音声サービスにアクセスする際に、大量の繰り返し開発作業を行う必要があり、開発期間が長く、コストが高くなり、後の製品のメンテナンスもそれぞれに行われる必要があり、メンテナンスコストが高くなってしまう。
背景技術で言及した一つ以上の技術問題を解決するために、本出願の実施例は音声サービスを提供するための方法、装置及びサーバを提供する。
第1の態様では、本願の実施例は、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツとデバイス側の状態情報を含む要求メッセージを受信するステップと、デバイス側の状態情報に基づいて要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得するステップと、デバイス側に応答メッセージを送信することを含み、要求メッセージ及び応答メッセージは、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送され、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットは、第三者音声サービスのメッセージフォーマットと一致し、構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルは、第三者音声サービスの伝送プロトコルと一致する、音声サービスを提供するための方法を提供する。
いくつかの実施例において、上記方法は、ユーザが送信した、デバイス側に対する対象音声サービス登録の要求を取得したことに応答して、ユーザに対象音声サービスの置換すべき構成情報を提供することにより、ユーザがデバイス側のプロファイルにおける対応する構成項目を置換するステップをさらに含み、前記置換すべき構成情報は、ユーザ識別子、ユーザパスワード及びアクセストークンを取得するためのパスアドレスを含む。
いくつかの実施例において、上記方法は、デバイス側を対象音声サービスにアクセスさせるための、ユーザ識別子、ユーザパスワード及びデバイス側の識別子を含むアクセス要求を受信するステップと、アクセス要求に基づいてデバイス側に対象音声サービスのアクセストークンを発行することにより、デバイス側がアクセストークンを取得するためのパスアドレスを介して発行されたアクセストークンを取得するステップとをさらに含む。
いくつかの実施例において、アクセス要求に基づいてデバイス側に対象音声サービスのアクセストークンを発行するステップは、ユーザ識別子及びユーザパスワードに基づいて、ユーザ認証を取得したデバイス識別子を検索するステップと、対象音声サービスアクセス要求におけるデバイス側の識別子が、ユーザ認証を取得したデバイス識別子と一致するかどうかを判断するステップと、一致すると判断すれば、デバイス側に対象音声サービスのアクセストークンを発行するステップとを含む。
いくつかの実施形態において、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための要求メッセージを受信するステップは、対象音声サービスのアクセストークンを取得したとともに、第三者音声サービスにアクセスしたデバイス側から送信された要求メッセージを受信するステップを含む。
いくつかの実施例において、応答メッセージは、要求メッセージを解析し、要求コンテンツ及びデバイス側の状態情報を取得して、デバイス側の状態情報及び要求コンテンツに基づいて対応する操作命令を生成して、対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマット及び伝送プロトコルに従って操作命令をパッケージングすることにより、生成される。
いくつかの実施例において、デバイス側の状態情報は、デバイス側の能力宣言と、デバイス側のコンテキスト環境情報と、デバイス側のイベント情報とを含む。
いくつかの実施例において、デバイス側の状態情報及び要求コンテンツに基づいて対応する操作命令を生成するステップは、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報に基づいてデバイス側の呼び出し可能な操作インターフェースを決定するステップと、呼び出し可能な操作インターフェースから要求コンテンツに対応する対象操作インターフェースを決定するステップと、要求コンテンツに基づいて音声サービスコンテンツを決定し、且つ対象操作インターフェースを呼び出して音声サービスコンテンツを出力するための操作指令を生成するステップとを含む。
いくつかの実施例において、デバイス側の状態情報に基づいて要求コンテンツを処理して生成された応答メッセージを取得するステップは、要求コンテンツに音声対話ニーズが含まれるかどうかを検出するステップと、要求コンテンツに音声対話ニーズが含まれることを検出したことに応答して、予め設定された時間長又は予め設定されたメッセージ長で音声サービスデータを分割して、複数の分割応答メッセージを生成するステップと、分割応答メッセージの生成タイミングに応じて分割応答メッセージをデバイス側に順次送信することを含む、デバイス側に応答メッセージを送信するステップとを含む。
いくつかの実施例において、上記方法は、対象音声サービスのデータサービスフレームワークモデルを構築することをさらに含み、前記データサービスフレームワークモデルは、さらに、伝送プロトコル層、メッセージフォーマット層及びデバイス側能力層を含み、対象音声サービスのデータサービスフレームワークモデルを構築するステップは、伝送プロトコル層を構築するステップであって、対象音声サービスに用いられる伝送プロトコルを配置することを含む、ステップと、メッセージフォーマット層を構築するステップであって、対象音声サービスの要求メッセージ及び応答メッセージのメッセージフォーマットを配置することを含むステップと、デバイス側能力層を構築するステップであって、要求メッセージ及び応答メッセージからデバイス側の能力を解析するロジックを配置することを含むステップとを含む。
第2の態様では、本願の実施例は、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツとデバイス側の状態情報を含む要求メッセージを受信するように構成される第1受信手段と、デバイス側の状態情報に基づいて要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得するように構成される取得手段と、デバイス側に応答メッセージを送信するように構成される送信手段と、を備え、要求メッセージ及び応答メッセージは、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送され、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットは、第三者音声サービスのメッセージフォーマットと一致し、構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルは、第三者音声サービスの伝送プロトコルと一致する、音声サービスを提供するための装置を提供する。
いくつかの実施例において、上記装置は、ユーザが送信した、デバイス側に対する対象音声サービス登録の要求を取得したことに応答して、ユーザに対象音声サービスの置換すべき構成情報を提供することにより、ユーザがデバイス側のプロファイルにおける対応する構成項目を置換するように構成される提供手段をさらに備え、前記置換すべき構成情報は、ユーザ識別子、ユーザパスワード及びアクセストークンを取得するためのパスアドレスを含む。
いくつかの実施例において、上記装置は、デバイス側を対象音声サービスにアクセスさせるための、ユーザ識別子、ユーザパスワード及びデバイス側の識別子を含むアクセス要求を受信するように構成される第2受信手段と、アクセス要求に基づいてデバイス側に対象音声サービスのアクセストークンを発行することにより、デバイス側がアクセストークンを取得するためのパスアドレスを介して発行されたアクセストークンを取得するように構成される認証手段とをさらに備える。
いくつかの実施例において、認証手段は、ユーザ識別子及びユーザパスワードに基づいて、ユーザ認証を取得したデバイス識別子を検索し、対象音声サービスアクセス要求におけるデバイス側の識別子が、ユーザ認証を取得したデバイス識別子と一致するかどうかを判断し、一致すると判断すれば、デバイス側に対象音声サービスのアクセストークンを発行することにより、デバイス側に対象音声サービスのアクセストークンを発行するように、さらに構成される。
いくつかの実施例において、第1受信手段は、対象音声サービスのアクセストークンを取得したとともに、第三者音声サービスにアクセスしたデバイス側から送信された要求メッセージを受信するように、さらに構成される。
いくつかの実施例において、取得手段が取得した応答メッセージは、要求メッセージを解析し、要求コンテンツ及びデバイス側の状態情報を取得し、デバイス側の状態情報及び要求コンテンツに基づいて対応する操作命令を生成し、対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマット及び伝送プロトコルに従って操作命令をパッケージングすることにより、生成される。
いくつかの実施例において、デバイス側の状態情報は、デバイス側の能力宣言と、デバイス側のコンテキスト環境情報と、デバイス側のイベント情報とを含む。
いくつかの実施例において、取得手段が取得した応答メッセージにおける操作命令は、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報に基づいてデバイス側の呼び出し可能な操作インターフェースを決定すし、呼び出し可能な操作インターフェースから要求コンテンツに対応する対象操作インターフェースを決定し、要求コンテンツに基づいて音声サービスコンテンツを決定し、且つ対象操作インターフェースを呼び出して音声サービスコンテンツを出力することにより、生成される。
いくつかの実施例において、取得手段は、要求コンテンツに音声対話ニーズが含まれるかどうかを検出し、要求コンテンツに音声対話ニーズが含まれることを検出したことに応答して、予め設定された時間長又は予め設定されたメッセージ長で音声サービスデータを分割して、複数の分割応答メッセージを生成し、送信手段により分割応答メッセージの生成タイミングに応じて分割応答メッセージを順次デバイス側に送信するように、さらに構成される。
いくつかの実施例において、上記装置は、対象音声サービスの、伝送プロトコル層、メッセージフォーマット層及びデバイス側能力層を含むデータサービスフレームワークモデルを構築するように構成される構築手段を備え、構築手段は、対象音声サービスに用いられる伝送プロトコルを配置することを含むように伝送プロトコル層を構築し、対象音声サービスの要求メッセージ及び応答メッセージのメッセージフォーマットを配置することを含むようにメッセージフォーマット層を構築し、要求メッセージ及び応答メッセージからデバイス側の能力を解析するロジックを配置することを含むようにデバイス側能力層を構築するように、構成される。
第3の態様では、本願の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を備えるサーバであって、記憶装置に記憶されている1つまたは複数のプログラムを1つまたは複数のプロセッサに実行させることにより、音声サービスを提供するための方法を1つまたは複数のプロセッサに実現させるサーバを提供する。
本願が提供する音声サービスを提供するための方法、装置及びサーバは、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツとデバイス側の状態情報を含む要求メッセージを受信して、その後、前記デバイス側の状態情報に基づいて要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得して、最後に、デバイス側に応答メッセージを送信する。そして、要求メッセージ及び応答メッセージは、構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスのメッセージフォーマットと一致するメッセージフォーマットに基づいて生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスの伝送プロトコルと一致する伝送プロトコルに従って伝送されるものである。これにより、開発された第三者音声サービスのサービスインタラクション等のロジックを利用して対象音声サービスに速やかにアクセスすることができ、対象音声サービスに対してサービスインタラクション等のロジックの開発を個別に行う必要がなく、異なる音声サービスにアクセスする製品の開発及びメンテナンスコストの低減に有利である。
本願の他の特徴、目的および利点は、以下の図面を参照して説明される非限定的な実施例を読むことによって、より明らかになる。
本発明を適用可能なシステム構成の一例を示す図である。 本願の音声サービスを提供するための方法による1つの実施例を示すフローチャートである。 本願の音声サービスを提供するための方法による1つの適用シーンを示す概略図である。 本願の音声サービスを提供するための方法による別の適用シーンを示す概略図である。 本願の音声サービスを提供するための方法において音声サービスにアクセスする方法の適用シーンを示す概略図である。 対象音声サービスのデータサービスフレームワークモデルの概略図である。 本願の音声サービスを提供するための装置の一実施例の構成概略図である。 本願の実施例のサーバを実現するのに適したコンピュータシステムの構成概略図である。
以下、図面及び実施例を参照しながら本願をさらに詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するものではないことが理解されるべきである。なお、説明の便宜上、図面には、かかる発明に関連する部分のみが示されている。
なお、矛盾しない場合に、本願における実施例及び実施例における特徴は互いに組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。。
図1は、本願の音声サービスを提供するための方法または音声サービスを提供するための装置を適用可能な実施例のシステム構成100の一例を示す。
図1に示されるように、システム構成100は、端末101、デバイス102、103、ネットワーク104およびサーバ105を含むことができる。ネットワーク104は、端末101とサーバ105との間に通信リンクを提供するための媒体であり、且つ、デバイス102、103とサーバ105との間に通信リンクを提供するための媒体である。ネットワーク104は、例えば、有線や無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
ユーザ110は、端末101を使用して、ネットワーク104を介してサーバ105と対話して、メッセージなどを送受信することができる。端末101には、サーバ105と対話するためのアプリケーションがインストールされていることができ、例えばウェブブラウザアプリケーションや音声サービスクライアントアプリケーションなどであってもよい。端末101は、表示パネルを有する様々な電子デバイスを利用することができ、スマートフォン、タブレット型コンピュータ、デスクトップコンピュータなどを含むが、これに限定されない。
デバイス102、103は、ネットワーク104を介してサーバ105と対話して、メッセージなどを送受信することができる。デバイス102、103は、音声入力インターフェースおよび音声出力インターフェースを有する電子デバイスであってもよく、例えばマイクロホンを有するスピーカボックスであってもよい。
サーバ105は、例えば端末101に表示されるウェブページコンテンツをサポートするとともに、デバイス102、103が実行する音声出力操作を制御する音声サーバなどの様々なサービスを提供するサーバとすることができる。音声サーバは、ユーザ110が端末101を介して送信した、デバイス102、103に対する音声サービス操作の要求を処理して、処理結果(例えば音声データと音声出力インタフェースの制御命令)を装置102、103に送信する。装置102、103は、ネットワーク104を介してサーバ105から送信された音声データと制御命令とを受信し、対応する操作を実行することにより、デバイス102、103が音声サーバ105にアクセスする音声サービスを実現することができる。
なお、本願の実施例にかかる音声サービスを提供するための方法は、一般的にサーバ105によって実行され、それに応じて、音声サービスを提供するための装置は、一般的にサーバ105に設置される。
図1の端末、デバイス、ネットワークおよびサーバの数は、単に例示的なものであることが理解されるべきである。必要に応じて、任意の数の端末デバイス、ネットワークおよびサーバを有することができる。例えば、サーバはクラスタ型のサーバであってもよく、異なるプロセスを配置した複数台のサーバを含む。
次に、図2を参照すると、本願の音声サービスを提供する方法による1つの実施例のフロー200が示されている。この音声サービスを提供するための方法は、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供する要求メッセージを受信するステップ201を含む。
本実施例において、音声サービスを提供するための方法が実行される電子デバイス(すなわち対象音声サービスのサーバ、例えば図1に示すサーバ)は、有線接続方式又は無線接続方式により、ユーザが音声サービス要求を行うための電子デバイス(例えば、図1に示される端末101)から上記要求メッセージを受信するか、又はユーザが音声対話をするためのデバイス側(例えば図1に示されるデバイス102、103)から上記要求メッセージを受信する。ここで、要求メッセージは、要求コンテンツと、第三者音声サービスにアクセスしたデバイス側の状態情報とを含む。要求コンテンツは、ユーザが要求した音声サービスのコンテンツを含むことができ、例えば、てユーザが音声入力インタフェースを介し入力した音声データを含むことができる。デバイス側の状態情報は、デバイス側の現在の動作状態を示す情報であってもよく、デバイス側が現在実行している操作の情報、デバイス側の現在のインターフェースの状態情報などを含むことができる。
上記要求メッセージは、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための要求メッセージとすることができる。ここでの目的音声サービスと第三者音声サービスは、異なるサーバまたはサーバクラスタにより提供される音声サービスとすることができる、異なる特性を有する音声サービスを提供することができる。例えば、第三者音声サービス及び対象音声サービスは、異なる言語タイプをサポートする音声サービスとすることができる。デバイスは、第三者音声サービスにアクセスした後、第三社音声サービスがサポートする言語タイプ(例えば英語)の音声サービスを応用することができ、デバイスが他の言語タイプ(例えば中国語)のサービスを応用する必要がある場合、他の言語タイプをサポートする対象音声サービスにアクセスすることができる。
本実施例において、上記要求メッセージは、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに基づいて生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送されるとともに、上記構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットは、第三者音声サービスのメッセージフォーマットと一致し、上記構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルは、第三者音声サービスの伝送プロトコルと一致する。つまり、対象音声サービスは、データサービスフレームワークモデルを予め構築する。他の電子デバイスは、このデータサービスフレームワークモデルに従って対象音声サービスのサーバと対話することができる。上記データサービスフレームワークモデルには、メッセージフォーマット及び伝送プロトコルが配置されている。対象音声サービスのサーバと対話する電子デバイスは、配置されたメッセージフォーマットに従ってメッセージを送受信することができ、且つデータを伝送する際に、配置された伝送プロトコルに従ってメッセージをパッケージングする。上記データサービスフレームワークモデルに配置されたメッセージフォーマット及び伝送プロトコルに従って生成され伝送されるメッセージが、対象音声サービスのサーバによって受信されて解析されたことにより、対象音声サービスのサーバは、解析されたコンテンツに応じて応答することができる。
上記伝送プロトコルは、対象音声サーバと他の電子デバイスとの間の接続方式を定義することができ、汎用の伝送プロトコルであってもよい。上記メッセージフォーマットは、メッセージにおける複数のフィールドが示すコンテンツを定義することができる。
例えば、第三者音声サービスがHttp2.0に基づく転送プロトコルを採用して、メッセージフォーマットにおける第1フィールドが音声データを示し、第2フィールドがデバイス状態を示すようにすると、対象音声サービスのデータサービスフレームワークを構築する際に、その伝送プロトコルがHttp2.0であり、メッセージフォーマットに音声データを示す第1フィールド及びデバイス状態を示す第2フィールドが含まれるように配置することができる。
いくつかの選択可能な実施形態において、上記要求メッセージは、ユーザが上記デバイスとの間で通信接続を確立した電子装置を介して送信するものとすることができ、この電子デバイスは、デバイス側にデバイス側の状態情報を取得するように予め要求することができ、デバイス側は、状態情報をこの電子デバイスに送信することができ、これにより、音声サービスの提供を要求する場合に、この電子デバイスは、要求コンテンツとともにデバイス側の状態情報を対象音声サービスのサーバに送信することができる。
実際のシーンにおいて、ユーザは、電子デバイス(例えば携帯電話)のブラウザアプリケーションで対象音声サービスのサービスネットワークアドレスを入力して、ユーザアカウントにログインした後に、所望の音声サービス、例えば音声コミュニケーション、アラーム設定、音楽再生などを選択することができるか、又は対象音声サービスのクライアントアプリケーション(例えば携帯電話にインストールされた音声サービスクライアント)で要求された音声サービスを選択することができる。ユーザが選択した音声サービスに基づいて要求コンテンツを生成して、予め取得されたデバイス側の状態情報と組み合わることにより、上記要求メッセージを生成して上記音声サービスを提供するための方法が実行される電子デバイスに送信することができる。
他の選択可能な実施形態おいて、上記要求メッセージは、第三者音声サービスにアクセスしたデバイス側から送信されるものとすることができる。ユーザがデバイス側でログイン又は音声サービスに入る操作を行った後に、上記デバイス側は、状態情報及び要求コンテンツを利用して、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って要求メッセージを生成して、構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに従ってこの要求メッセージを伝送することができる。
そして、上記音声サービスを提供するための方法は、デバイス側の状態情報に基づいて要求コンテンツを処理して生成された応答メッセージを取得するステップ202を含む。
要求コンテンツとデバイス側の状態情報を含む要求メッセージを受信した後に、要求コンテンツの意図を分析して、音声サービス要求の意図を決定した後、デバイス側が実行するための操作命令を決定することができる。ここでの操作命令は、上記音声サービス要求の意図に合わせる音声サービスデータ、及び特定のインタフェースを呼び出して音声サービスデータを出力するようにデバイス側を制御するための命令を含むことができる。その後、上記操作命令を含む応答メッセージを生成することができる。
音声サービスを提供するための方法が実行される電子デバイス(例えば、対象音声サービスのサーバ)は、生成された応答メッセージを取得することができる。具体的には、対象音声サービスが互いに通信接続を維持する複数台のサーバを含むサーバクラスタに配置される場合、上記応答メッセージを生成するサービスとデバイス側に応答メッセージを送信するためのサービスがサーバクラスタにおける異なるサーバに配置されると、デバイス側に応答メッセージを送信するためのサービスが配置されるサーバは、上記応答メッセージを生成するサーバからこの応答メッセージを受信することができる。前記応答メッセージを生成するサービスとデバイス側に応答メッセージを送信するためのサービスがサーバクラスタにおける同一のサーバに配置されると、このサーバは生成された応答メッセージを捕捉してキャッシュすることができる。
本実施例において、対象音声サービスのサーバが第三者音声サービスにアクセスしたデバイス側との音声サービスの対話を成功させることを保証するために、上記応答メッセージも、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに従って伝送される。同様に、ここで、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットは、第三者音声サービスのメッセージフォーマットと一致し、構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルは、第三者音声サービスの伝送プロトコルと一致する。このように、第三者音声サービスにアクセスしたデバイス側は、対象音声サービスのデータサービスフレームワークに基づいて音声サービスの会話ロジックを再開発する必要がなく、開発された第三者音声サービスの会話ロジックを利用して対象音声サービスのサーバと対話することができ、これにより、開発コストを大幅に低減させる。
実施例のいくつかの選択可能な実施態様において、上記応答メッセージは、要求メッセージを解析し、要求コンテンツ及びデバイス側の状態情報を取得して、その後、デバイス側の状態情報及び要求コンテンツに基づいて対応する操作命令を生成して、最後に、対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマット及び伝送プロトコルに従って操作命令をパッケージングすることにより、生成されることができる。ここで、上記音声サービスを提供するための方法が実行される電子デバイス(すなわち対象音声サービスのサーバ)は、配置された伝送プロトコルに従って、受信した要求メッセージにおける要求ヘッダと本文を解析することができる。要求ヘッダにはユーザが提供するデバイス側の識別子が含まれ、本文には要求コンテンツ及びデバイス側の他の状態情報が含まれることができる。そして、配置されたメッセージフォーマットに従って、対応する要求コンテンツ及びデバイス側の状態情報を抽出することができる。その後、デバイス側の状態情報に基づいてデバイス側が実行可能な操作を決定して、要求コンテンツに対応する音声サービスデータを検索して音声サービスデータが実行する操作を含む操作命令を生成して、最後に、配置された伝送プロトコルにおける要求ヘッダ、要求方法及びURI(Uniform Resource Identifier)などを利用して操作命令をパッケージングして上記応答メッセージを生成することができる。
さらに、上記要求メッセージにおけるデバイス側の状態情報は、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報を含むことができる。デバイス側の能力宣言は、デバイス側が報知したその能力の宣言、即ちデバイス側の呼び出し可能なインターフェースの宣言とすることができ、音声入力、音声出力、スピーカ制御、オーディオプレーヤ、アラームクロック、設定などを含む。デバイス側のコンテキスト環境情報は、デバイス側が報知したデバイス側の現在の状態又はデバイス側が現在実行している操作情報とすることができ、例えば、デバイス側が現在音楽を再生しているか、音声入力を受信しているか、デバイス側にアラームが設定されているか。デバイス側のイベント情報は、デバイス側で発生したイベントの情報とすることができ、例えばデバイス側のアラームがオンしたか、デバイス側が音楽を再生し始めること、デバイス側が音楽再生を終了することなどがある。デバイス側のそれらの状態情報は、デバイス側が報知され、要求メッセージの本文に添付されることができる。
さらに、応答メッセージの生成中、デバイス側の状態情報及び要求コンテンツに基づいて対応する操作命令を生成するステップは、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報に基づいてデバイス側の呼び出し可能な操作インターフェースを決定することと、呼び出し可能な操作インターフェースから要求コンテンツに対応する対象操作インターフェースを決定することと、要求コンテンツに基づいて音声サービスコンテンツを決定し、且つ対象操作インターフェースを呼び出して音声サービスコンテンツを出力するための操作指令を生成することとを含むことができる。
具体的には、デバイス側が宣言した能力(即ちデバイス側が備える操作インターフェース)、デバイス側が現在実行している操作、デバイス側で発生したイベント情報に基づいて、要求メッセージに応答するための呼び出し可能な操作インターフェースを決定することができる。要求コンテンツに基づいて対象操作インターフェースを決定することができ、例えば要求コンテンツが天気状況の問い合わせである場合、対象操作インターフェースが音声出力インターフェースを含むと決定する。その後、要求コンテンツに基づいて音声サービスのコンテンツを決定し、すなわち音声サービスデータを検索して生成することができ、例えば要求コンテンツが気象状況の問い合わせである場合、ネットワークを介して現在の気象状況のテキストを検索して、音声データに変換して、音声サービスデータとすることができる。最後に、音声サービスコンテンツ及び目的操作インターフェースを組み合わせて操作命令を生成することができ、例えば、上記音声データ及び呼び出された音声出力インターフェースを組み合わせて操作命令を生成する。このように、デバイス側の状態情報に基づき、デバイス側が現在呼び出し可能なインタフェースを正確に決定して、音声サービスのサービス結果とデバイス側が現在実行している操作との衝突による音声サービス応答の遅延を回避することができる。
そして、上記音声サービスを提供するための方法は、デバイス側に応答メッセージを送信するステップ203を含む。
要求コンテンツとデバイス側の状態情報に基づいて生成された応答メッセージを取得した後、上記音声サービスを提供するための方法が実行される電子デバイスは、ネットワークを介して操作命令が含まれる応答メッセージをデバイス側に送信することができる。
デバイス側は、応答メッセージを受信して解析することにより、上記操作命令を取得することができる。その後、デバイス側は、操作コマンドに基づいて対応するインターフェースを呼び出して音声サービスデータを出力することができる。
ここで、デバイス側が第三者音声サービスにアクセスする時点、第三者音声サービスと対話するロジックが既に開発されたため、デバイス側は、この開発されたロジックを利用して、第三者音声サービスの伝送プロトコルに基づいて伝送された応答メッセージを受信することができる。そして、応答メッセージのメッセージフォーマットは、第三者音声サービスのメッセージフォーマットと一致するため、デバイス側は、上記開発されたロジックを利用して応答メッセージにおける各フィールドに示されるコンテンツを解析することができ、例えば呼び出されたインタフェース及びこのインタフェースを介して出力されたデータを抽出した後、対応する操作を実行することができる。
次に、図3Aおよび3Bを参照すると、本願の音声サービスを提供する方法による2つのシシーンの概略図が示されている。
図3Aに示すように、一方のシーンにおいて、ユーザDは第三者音声サービスにアクセスしたデバイス側Aで操作を行うことにより、音声サービスをオンにする。デバイス側Aは、ユーザの操作を検出したことに応答して、ステップ1において対象音声サービスのサーバBに要求メッセージを送信して、デバイス側Aに対象音声サービスを提供するように要求することができ、サーバBはステップ2において要求を処理して、音声サービス結果を取得してから、ステップ3においてデバイス側Aに音声サービス結果を応答メッセージとして送信する。この過程において、ステップ1においてデバイス側AがサーバBに送信した要求メッセージ及びステップ3においてサーバBがデバイス側に送信した応答メッセージは、いずれも構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスと一致するメッセージフォーマットに従って生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスと一致する伝送プロトコルに従って伝送される。
図3Bに示すように、他方のシーンにおいて、ユーザDは、デバイス側Aに接続された電子デバイスCでデバイス側Aの操作アプリケーション(APP)を起動することができ、且つ、ユーザDは、デバイス側Aの操作アプリケーションでデバイス側Aに対象音声サービスをプッシュように要求することができる。電子デバイスCは、ユーザが入力した要求に応答して、デバイスAに音声サービスを提供するように要求する要求メッセージを生成して、ステップ1において要求メッセージを対象音声サービスのサーバBに送信することができ、サーバBは、ステップ2において要求メッセージを処理して音声サービス結果を取得してから、ステップ3においてデバイス側Aに音声サービス結果を応答メッセージとして送信する。この過程において、ステップ1においてデバイス側CがサーバBに送信した要求メッセージ及びステップ3においてサーバBがデバイス側に送信した応答メッセージは、いずれも構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスと一致するメッセージフォーマットに従って生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスと一致する伝送プロトコルに従って伝送される。
本願の上記実施例が提供する音声サービスを提供するための方法は、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツとデバイス側の状態情報を含む要求メッセージを受信して、その後、前記デバイス側の状態情報に基づいて要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得して、最後に、デバイス側に応答メッセージを送信する。そして、要求メッセージ及び応答メッセージは、構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスのメッセージフォーマットと一致するメッセージフォーマットに基づいて生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された、第三者音声サービスの伝送プロトコルと一致する伝送プロトコルに従って伝送されるものである。これにより、開発された第三者音声サービスのサービスインタラクション等のロジックを利用して対象音声サービスに速やかにアクセスすることができ、対象音声サービスに対してサービスインタラクション等のロジックの開発を個別に行う必要がなく、異なる音声サービスにアクセスする製品の開発及びメンテナンスコストの低減に有利である。
具体的な適用シーンにおいて、対象音声サービスのサーバが音声サービスを提供する前に、対象音声サービスとの接続を確立するように、ユーザに対してデバイス側と第三者音声サービスとの対話過程に関連する構成情報の変更を提示する必要がある。
具体的には、いくつかの実施例において、上記音声サービスを提供するための方法は、ユーザが送信した、デバイス側に対する対象音声サービス登録の要求を取得したことに応答して、ユーザに対象音声サービスの置換すべき構成情報を提供することにより、ユーザがデバイス側のプロファイルにおける対応する構成項目を置換することをさらに含む。ここで、置換すべき構成情報は、ユーザ識別子、ユーザパスワード及びアクセストークンを取得するためのパスアドレスを含む。ユーザは、対象音声サービスのサービスプラットフォームにログインして登録することができ、対象音声サービスのサーバは、ユーザが登録した後にユーザにユーザ識別子、ユーザパスワード及びアクセストークンを取得するためのパスアドレスを提供することができる。ユーザは、このユーザ名及びパスワードを利用してデバイス側のプロファイル(例えばjavaClientキットのプロファイルconfig.json)におけるユーザ名及びパスワードを置換して、デバイス側のログイン方式を定義するためのプロファイルを置換することができる。同時に、ユーザは、デバイスのアクセストークンの取得方式を定義するためのプロファイルにおけるアクセストークンを取得するパスアドレスを変更することができる。
さらに、対象音声サービスを要求する前に、デバイス側は、対象音声サービスのアクセストークンを取得する必要があり、トークンにアクセスすることにより対象音声サービスのインターフェースに接続する。具体的には、いくつかの実施例において、上記音声サービスを提供するための方法は、デバイス側を対象音声サービスにアクセスさせるための、ユーザ識別子、ユーザパスワード及びデバイス側の識別子を含むアクセス要求を受信して、アクセス要求に基づいてデバイス側に対象音声サービスのアクセストークンを発行することにより、デバイス側がアクセストークンを取得するためのパスアドレスを介して発行されたアクセストークンを取得することとをさらに含む。つまり、ユーザは、対象音声サービスのプラットフォームにおいてデバイス側を対象音声サービスにアクセスさせるための、ユーザ登録時に対象音声サービスのサーバが提供するユーザ識別子及びユーザパスワードが含まれる要求を発行することができる。ユーザは、さらに、デバイス側の識別子をアクセス要求に追加することにより、デバイス側がユーザを代理して対象音声サービスを要求することを許可することができる。対象音声サービスのサーバはユーザ識別子及びユーザパスワードに基づいて認証を行って、トークンをデバイス側に発行することができる。
さらに、上記アクセス要求に基づいてデバイス側に対象音声サービスのアクセストークンを発行するステップは、ユーザ識別子及びユーザパスワードに基づいて、ユーザ認証を取得したデバイス識別子を検索することと、対象音声サービスアクセス要求におけるデバイス側の識別子が、ユーザ認証を取得したデバイス識別子と一致するかどうかを判断することと、一致すると判断すれば、デバイス側に対象音声サービスのアクセストークンを発行することとをさらに含む。ここで、ユーザは、登録又はログインした後に対象音声サービスのサーバに認証されたデバイス識別子を提供することができ、ユーザが送信したアクセス要求を受信した後、アクセス要求におけるデバイス側の識別子を認証された装置識別子と比較することができ、一致すれば、デバイス側にアクセストークンを発行することができる。デバイス側は、補正されたプロファイルにおけるアクセストークンを取得するためのパスを介して発行されたアクセストークンを取得して、このアクセストークンを利用して対象音声サービスのインターフェースと接続することができる。
この前提で、さらに、前記第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための要求メッセージを受信するステップ(すなわちステップ201)は、対象音声サービスのアクセストークンを取得したとともに、第三者音声サービスにアクセスしたデバイス側から送信された上記要求メッセージを受信することを含むことができる。つまり、対象音声サービスのサーバは、アクセストークンを取得したデバイス側に音声サービスを提供するための要求メッセージのみを受信する。このようにして、対象音声サービスのサーバへの要求の頻度が高すぎることによりサービスが利用不能になることを回避することができ、対象音声サービスのセキュリティを向上させることができる。
図4を参照すると、本願の音声サービスを提供するための方法において音声サービスにアクセスする方法の適用シーンの概略図が示される。
図4に示すように、ステップ1において、ユーザDは、端末デバイスEを利用して対象音声サービスのサービスページに入り、具体的には、対象音声サービスプラットフォームのネットワークアドレスを開くことができる。ステップ2において、端末デバイスEは、ユーザの登録操作に応じて対象音声サービスのサーバBに登録を要求して、登録した後、ステップ3において、サーバBは、端末デバイスEにユーザ名(client_id)、パスワード(client_secrect)及びトークン取得パスを返信し、端末デバイスEは、ユーザ名、パスワード及びトークン取得パスをユーザDに提示して、ステップ4において、ユーザは、サーバBが提供したユーザ名、パスワード及びトークン取得パスを利用して対応する配置を変更する必要がある。
その後、デバイス側AをサーバBが提供する対象音声サービスにアクセスさせる必要があり、ユーザがステップ5において端末デバイスEを利用してログイン操作を行い、ユーザ識別子、ユーザパスワード及びデバイス側Aの識別子を入力して、端末デバイスEがステップ6においてログイン情報(ユーザ識別子、ユーザパスワード、デバイス側Aの識別子)をサーバBに送信して、サーバBがステップ7においてユーザ識別子、ユーザパスワードに基づいてデバイス側Aの識別子がユーザ3に認証されたデバイス識別子と一致するかどうかを検証して、検証通過後にステップ8においてデバイス側Aにトークンを発行することにより、デバイス側AがサーバBから提供された音声サービスにアクセスした。
上記実施例において、ユーザの登録時に置換すべき構成情報を提供することにより、ユーザにデバイス側の対応する構成項目を置換するように提示するため、ユーザが簡単な構成項目の置換操作とログイン認証操作を行うだけで、デバイス側にアクセストークンを取得させることが可能であり、信頼性の高い音声サービスを提供すると同時に対象音声サービスにアクセスするための技術的な障害を低減して、対象音声サービスにアクセスするための開発作業量を効果的に減少させ、効率よく、低コストで多様化の音声サービスを提供することができる。
上記実施例のいくつかの実際的な適用シーンにおいて、上記要求コンテンツは、ユーザが入力した音声ストリームデータを含むことができる。この場合、上記音声サービスを提供するための方法が実行される電子デバイスは、音声活動検出(Voice Activity Detection、VAD)を実行することにより、ユーザが入力した音声ストリームデータにおける隙間、即ちユーザの発声のポーズを検出して、検出されたポーズに基づいてユーザが入力した音声ストリームデータを複数のセグメントに分割することができる。デバイス側と音声サービスのサーバとの対話中において、ユーザが複数の分割音声ストリームデータを入力すると、音声サービスのサーバは、これに応じて複数の分割応答メッセージを返信することができ、各分割応答メッセージはそれぞれ1つの分割音声ストリームデータに対応することができる。
本実施例のいくつかの選択可能な実施形態において、上記デバイス側の状態情報に基づいて前記要求コンテンツを処理して生成された応答メッセージを取得するステップにおいて、まず要求コンテンツに音声対話ニーズが含まれているか否かを検出することができ、例えば要求コンテンツがアラーム設定である場合、要求コンテンツに音声対話ニーズが含まれていないことに対して、要求コンテンツが質問的なトークである場合、要求コンテンツに音声対話ニーズが含まれている。要求コンテンツに音声対話ニーズが含まれていることが検出されると、予め設定された時間長又は予め設定されたメッセージ長で音声サービスデータを分割することにより、複数の分割応答メッセージを生成することができる。この予め設定された時間長及び予め設定されたメッセージ長は予め設定されることができる。
例えば、デバイス側と音声サービスのサーバとの対話中において、音声サービスのサーバは、音声サービスの結果を分割して返信することができる。この期間、音声サービスのサーバは、データストリームの方式でデバイス側に分割応答メッセージを送信し、すなわち分割応答メッセージの生成タイミングに応じて分割応答メッセージをデバイス側に順次送信することができる。このように、要求メッセージの処理時間が長すぎることにより音声サービスのリアルタイム性が悪くなってしまうという問題を回避することができる。
いくつかの実施例おいて、上記音声サービスを提供するための方法は、対象音声サービスのデータサービスフレームワークモデルを構築するステップをさらに含むことができる。図5を参照すると、本実施例の対象音声サービスのデータサービスフレームワークモデルの概略的な構成が示されている。
図5に示すように、対象音声サービスのデータサービスフレームワークモデルは、伝送層501と、メッセージフォーマット層502と、デバイス側能力層503とを含む。ここで、伝送層501は、最下層に位置し、デバイス側とサーバ側との間の伝送プロトコルを定義するために使用され、第三者音声サービスと一致する伝送プロトコルとして定義することができる。メッセージフォーマット層502は、要求メッセージと応答メッセージのフォーマットを定義するために使用され、例えば、要求メッセージの本文における各フィールドに示コンテンツを定義することができる。デバイス側能力層503は、最上層に位置し、呼び出し可能なデバイス側の操作インターフェースを定義するために使用され、すなわち、音声出力能力、音量制御能力などのようなデバイス側の様々な能力を定義することができる。
本実施例において、対象音声サービスのデータサービスフレームワークモデルを構築するステップは、対象音声サービスに用いられる伝送プロトコルを配置することを含む、伝送プロトコル層を構築することと、対象音声サービスの要求メッセージ及び応答メッセージのメッセージフォーマットを配置することを含む、メッセージフォーマット層を構築することと、要求メッセージ及び応答メッセージからデバイス側の能力を解析するロジックを配置することを含む、デバイス側能力層を構築することとを含むことができる。このデータサービスフレームワークの構築が完成した後、対象音声サービスは、このフレームワークに配置された伝送プロトコル、メッセージフォーマットに基づいてメッセージ伝送を行うことができ、且つ、配置された要求メッセージ及び応答メッセージからデバイス側の能力を解析するロジックに基づいて要求メッセージ及び応答メッセージを解析することができる。このデータサービスフレームワークにより、対象音声サービスのサーバは、デバイス側の要求コンテンツ、デバイス側の呼び出し可能なインターフェース情報を取得することができ、ひいて要求コンテンツとデバイス側の呼び出し可能なインターフェース情報に基づいて応答して、応答した操作命令を生成することができる。
上記対象音声サービスのデータサービスフレームワークモデルは、第三者音声サービスと互換性があるとすることにより、デバイス側が大量の繰り返し開発作業を行って異なる音声サービスにアクセスする必要はない。
さらに図6を参照すると、上記図2に示す方法の実現例として、本願は音声サービスを提供するための装置の一実施例を提供する。この装置の実施例は図2に示す方法の実施例に対応して、具体的に対象音声サービスのサーバに適用することができる。
図6に示すように、本実施例の音声サービスを提供するための装置600は、第1受信手段601と、取得手段602と、送信手段603とを含む。ここで、第1受信手段601は、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツとデバイス側の状態情報を含む要求メッセージを受信するように構成され、取得手段602は、デバイス側の状態情報に基づいて要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得するように構成され、送信手段603は、デバイス側に応答メッセージを送信するように構成される。
本実施例において、要求メッセージ及び応答メッセージは、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送される。そして、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットは、第三者音声サービスのメッセージフォーマットと一致し、構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルは、第三者音声サービスの伝送プロトコルと一致する。
本実施例において、第1受信手段601は、ネットワークを介してユーザが音声サービス要求を行うための電子デバイス(例えば図1に示す端末101)、又はユーザが音声対話を行うためのデバイス側(例えば図1に示すデバイス102、103)から上記要求メッセージを受信することができる。要求メッセージは、第三者音声サービスの伝送プロトコルに従って送信され、且つ第三者音声サービスにより定義されるメッセージフォーマットに従って編成されたものである。このように、デバイス側が要求メッセージを送信する際に第三者音声サービスと対話するためのロジックを変更することなく、対象音声サービスはその要求メッセージを受信して解析することができる。
取得手段602は、要求メッセージに応答して生成された応答メッセージを取得することができる。この応答メッセージは、デバイス側の操作命令を含み、操作命令には出力された音声サービスデータ及び呼び出されたデバイス側の操作インターフェースが含まれることができる。ここでの要求メッセージは、第三者音声サービスの伝送プロトコルに従って送信され、且つ第三者音声サービスにより定義されるメッセージフォーマットに従って編成されたものでもある。このように、デバイス側に応答メッセージを送信する際に第三者音声サービスと対話するためのロジックを変更することなく、デバイス側はその応答メッセージを受信して解析することができる。
送信手段603は応答メッセージをデバイス側に送信することにより、デバイス側が応答メッセージに基づいて対応する操作を実行することができる。
いくつかの実施例において、装置600は、ユーザが送信した、デバイス側に対する対象音声サービス登録の要求を取得したことに応答して、ユーザに対象音声サービスの、ユーザ識別子、ユーザパスワード及びアクセストークンを取得するためのパスアドレスを含む置換すべき構成情報を提供することにより、ユーザがデバイス側のプロファイルにおける対応する構成項目を置換するように構成される提供手段をさらに備える。
さらなる実施例において、上記装置は、デバイス側を対象音声サービスにアクセスさせるための、ユーザ識別子、ユーザパスワード及びデバイス側の識別子を含むアクセス要求を受信するように構成される第2受信手段と、アクセス要求に基づいてデバイス側に対象音声サービスのアクセストークンを発行することにより、デバイス側がアクセストークンを取得するためのパスアドレスを介して発行されたアクセストークンを取得するように構成される認証手段とをさらに備えることができる。
さらなる実施例において、上記認証手段は、ユーザ識別子及びユーザパスワードに基づいて、ユーザ認証を取得したデバイス識別子を検索して、対象音声サービスアクセス要求におけるデバイス側の識別子が、ユーザ認証を取得したデバイス識別子と一致するかどうかを判断して、一致すると判断すれば、デバイス側に対象音声サービスのアクセストークンを発行することにより、デバイス側に対象音声サービスのアクセストークンを発行するように、さらに構成されることができる。
さらなる実施例において、第1受信手段は、対象音声サービスのアクセストークンを取得したとともに、第三者音声サービスにアクセスしたデバイス側から送信された要求メッセージを受信するように、さらに構成されることができる。
いくつかの実施例において、取得手段が取得した応答メッセージは、要求メッセージを解析し、要求コンテンツ及びデバイス側の状態情報を取得して、デバイス側の状態情報及び要求コンテンツに基づいて対応する操作命令を生成して、対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマット及び伝送プロトコルに従って操作命令をパッケージングすることにより、生成されることができる。選択的に、取得手段は、上記のように応答メッセージを生成するための生成モジュールを含むことができる。
さらに、上記デバイス側の状態情報は、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報を含むことができる。
さらに、取得手段が取得した応答メッセージにおける操作命令は、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報に基づいてデバイス側の呼び出し可能な操作インターフェースを決定して、呼び出し可能な操作インターフェースから要求コンテンツに対応する対象操作インターフェースを決定して、要求コンテンツに基づいて音声サービスコンテンツを決定し、且つ対象操作インターフェースを呼び出して音声サービスコンテンツを出力することにより、生成されることができる。つまり、生成モジュールは、上記のように応答メッセージを生成することができる。
いくつかの実施例において、取得手段は、要求コンテンツに音声対話ニーズが含まれるかどうかを検出して、要求コンテンツに音声対話ニーズが含まれることを検出したことに応答して、予め設定された時間長又は予め設定されたメッセージ長で音声サービスデータを分割して、複数の分割応答メッセージを生成して、送信手段により分割応答メッセージの生成タイミングに応じて分割応答メッセージを順次デバイス側に送信するように、さらに構成されることができる。
いくつかの実施例において、上記装置600は、対象音声サービスの、伝送プロトコル層、メッセージフォーマット層及びデバイス側能力層を含むデータサービスフレームワークモデルを構築するように構成される構築手段を備えることができ、構築手段は、対象音声サービスに用いられる伝送プロトコルを配置することを含むように伝送プロトコル層を構築して、対象音声サービスの要求メッセージ及び応答メッセージのメッセージフォーマットを配置することを含むようにメッセージフォーマット層を構築して、要求メッセージ及び応答メッセージからデバイス側の能力を解析するロジックを配置することを含むようにデバイス側能力層を構築するように、構成される。
装置600に記載された各手段は、図2を参照して説明された方法の各ステップに対応することが理解されるべきである。したがって、方法について説明された操作および特徴は、同様にサーバ600およびそれに含まれる手段に適用可能であるので、ここでは説明を省略する。
本願の実施例が提供する音声サービスを提供するための装置600によれば、第1受信手段が第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための要求メッセージを受信して、取得手段がデバイス側の状態情報に基づいて要求コンテンツを処理して生成された応答メッセージを取得して、送信手段が応答メッセージをクライアントに送信して、要求メッセージ及び応答メッセージは、構築された対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送される。デバイス側は開発された第三者音声サービスと対話するロジックを再利用して対象音声サービスに速やかにアクセスすることができ、デバイスの目標音声サービスへのアクセス時の開発作業量を大幅に減少させ、異なる音声サービスにアクセスする製品の開発及びメンテナンスコストを低減することに有利である。
以下、図7を参照すると、本願の実施例のサーバを実現するのに適したコンピュータシステム700の構成概略図が示されている。図7に示すサーバは一例であり、本願の実施例の機能及び使用範囲を限定するものではない。
図7に示すように、コンピュータシステム700は、ROM(Read Only Memory)702に格納されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の適切な動作および処理を実行するCPU(Central Processing Unit)701を備える。RAM703には、システム700が操作するために必要な各種プログラムやデータも格納されている。CPU701、ROM702及びRAM703は、バス704を介して相互に接続されている。また、バス704には、入出力(I/O)インタフェース705も接続されている。
I/Oインタフェース705には、キーボードやマウスなどを含む入力部706と、CRT(Cathode Ray Tube)や液晶ディスプレイ(LCD)など及びスピーカなどを含む出力部707と、ハードディスクなどを含む記憶部708と、LANカードやモデムなどのネットワークインタフェースカードを含む通信部709が接続されている。通信部709は、インターネットのようなネットワークを介して通信処理を行う。ドライブ710も、必要に応じてI/Oインタフェース705に接続される。磁気ディスクや光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア711は、必要に応じてドライブ710にインストールされることにより、リムーバブルメディア711から読み出されたコンピュータプログラムが必要に応じて記憶部708にインストールされる。
特に、本開示の実施形態によれば、上記したフローチャートを参照して説明された手順がコンピュータソフトウェアプログラムとして実施されることができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含むコンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含む。そのような実施例では、コンピュータプログラムは、通信部709を介してネットワークからダウンロードしてインストールされ、および/またはリムーバブルメディア711からインストールされることができる。このコンピュータプログラムが中央処理ユニット(CPU)701によって実行されると、本願の方法で限定された上記機能が実行される。なお、本願に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体、又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、特に限定されないが、例えば、電気や磁気、光、電磁気、赤外線または半導体のシステム、装置またはデバイスであってもく、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例には、1つまたは複数のリードを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光記憶デバイス、磁気記憶デバイス、または上述の任意の適切な組合せが含まれるが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含みかまたは格納する任意の有形媒体であってもよく、そのプログラムは、命令を実行するシステム、装置またはデバイスによって使用されてもよく、またはそれらとともに使用されてもよい。本願において、コンピュータ可読信号媒体は、ベースバンドでまたはキャリアの一部として伝搬される、コンピュータ読み取り可能なプログラムコードを担持するデータ信号を含むことができる。このように伝搬されるデータ信号は、電磁信号、光信号、または上述の任意の適切な組み合わせを含む様々な形態とことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらに、命令を実行するシステム、装置またはデバイスによって使用され、またはそれらとともに使用されるプログラムを送信、伝播または伝搬することが可能なコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体とすることができる。コンピュータ可読媒体に含まれるプログラムコードは、無線や電線、光ケーブル、RFなど、またはそれらの任意の適切な組合せを含む任意の適切な媒体を介して伝送されてることができるが、これらに限定されない。
図面におけるフローチャートおよびブロック図は、本願の様々な実施例によるシステム、方法およびコンピュータプログラム製品の実施可能な構成、機能および操作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実施するための1つまたは複数の実行可能な命令を含むモジュール、ブロックまたはコードの一部を示すことができる。なお、いくつかの置換例としての実施例では、ブロックに示す機能は、図面に示す順序とは異なる順序で実行されてもよい。例えば、接続して示される2つのブロックは、実際に、実質的に並行して実行されてもよく、かかる機能によっては、相互に逆の順序で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組合せは、所定の機能または操作を実行する専用のハードウェアによるシステムによって実施されてもよく、または専用ハードウェアとコンピュータ命令との組合せによって実施されてもよい。
本願の実施例にかかる手段は、ソフトウェアによって実現されてもよく、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに配置されてもよく、例えば、プロセッサは第1受信手段と、取得手段と、送信手段とを含むようにとして記載されてもよい。ここで、これら手段の名称は、この手段自体を限定するように構成されない場合があり、例えば、第1受信手段は、「第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための要求メッセージを受信する手段」として説明されることができる。
別の態様として、本願は、上述の実施例で説明された装置に含まれてよく、または、この装置に組み込まれなく、別個に存在してもよいコンピュータ可読媒体をさらに提供する。上記コンピュータ可読媒体には、1つまたは複数のプログラムが担持され、上記1つまたは複数のプログラムが装置により実行される場合、第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツとデバイス側の状態情報を含む要求メッセージを受信して、前記デバイス側の状態情報に基づいて前記要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得して、前記デバイス側に前記応答メッセージを送信することを前記装置に実行させ、前記要求メッセージ及び前記応答メッセージは、構築された前記対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送され、構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された前記メッセージフォーマットは、前記第三者音声サービスのメッセージフォーマットと一致し、構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された前記伝送プロトコルは、前記第三者音声サービスの伝送プロトコルと一致する。
以上の説明は、本出願の好適な実施例及び適用される技術原理の説明に過ぎない。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的手段に限定されるものではなく、同時に上記発明の主旨から逸脱しない範囲で上記技術的特徴又はその等価な特徴によって任意に組み合わせて形成される他の技術的手段を含むことが理解されるべきである。例えば、上記特徴が本願に開示された(これに限定されない)同様な機能を有する技術的特徴と相互に置換されて形成される技術的手段である。

Claims (23)

  1. 第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツと前記デバイス側の状態情報を含む要求メッセージを受信するステップと、
    前記デバイス側の状態情報に基づいて前記要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得するステップと、
    前記デバイス側に前記応答メッセージを送信するステップと、を含み、
    前記要求メッセージ及び前記応答メッセージは、構築された前記対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送され、
    構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された前記メッセージフォーマットは、前記第三者音声サービスのメッセージフォーマットと一致し、構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された前記伝送プロトコルは、前記第三者音声サービスの伝送プロトコルと一致する、
    ことを特徴とする音声サービスを提供するための方法。
  2. ユーザが送信した、前記デバイス側に対する対象音声サービス登録の要求を取得したことに応答して、前記ユーザに前記対象音声サービスの置換すべき構成情報を提供することにより、ユーザが前記デバイス側のプロファイルにおける対応する構成項目を置換するステップをさらに含み、
    前記置換すべき構成情報は、ユーザ識別子、ユーザパスワード及びアクセストークンを取得するためのパスアドレスを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記デバイス側を前記対象音声サービスにアクセスさせるための、前記ユーザ識別子、前記ユーザパスワード及び前記デバイス側の識別子を含むアクセス要求を受信するステップと、
    前記アクセス要求に基づいて前記デバイス側に前記対象音声サービスのアクセストークンを発行することにより、前記デバイス側が前記アクセストークンを取得するためのパスアドレスを介して発行されたアクセストークンを取得するステップとを、さらに含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記アクセス要求に基づいて前記デバイス側に前記対象音声サービスのアクセストークンを発行するステップは、
    前記ユーザ識別子と前記ユーザパスワードに基づいてユーザ認証を取得したデバイス識別子を検索するステップと、
    前記対象音声サービスアクセス要求におけるデバイス側の識別子が、前記ユーザ認証を取得したデバイス識別子と一致するかどうかを判断するステップと、
    一致すると判断すれば、前記デバイス側に前記対象音声サービスのアクセストークンを発行するステップとを含む、ことを特徴とする請求項3に記載の方法。
  5. 前記第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための要求メッセージを受信するステップは、
    前記対象音声サービスのアクセストークンを取得したとともに前記第三者音声サービスにアクセスしたデバイス側から送信された前記要求メッセージを受信するステップを含む、ことを特徴とする請求項4に記載の方法。
  6. 前記応答メッセージは、
    前記要求メッセージを解析し、前記要求コンテンツ及び前記デバイス側の状態情報を取得して、前記デバイス側の状態情報及び前記要求コンテンツに基づいて対応する操作命令を生成して、前記対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマット及び伝送プロトコルに従って前記操作命令をパッケージングすることにより、生成される、
    ことを特徴とする請求項1に記載の方法。
  7. 前記デバイス側の状態情報は、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報を含む、ことを特徴とする請求項6に記載の方法。
  8. 前記デバイス側の状態情報及び前記要求コンテンツに基づいて対応する操作命令を生成するステップは、
    前記デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報に基づいて前記デバイス側の呼び出し可能な操作インターフェースを決定するステップと、
    前記呼び出し可能な操作インターフェースから前記要求コンテンツに対応する対象操作インターフェースを決定することと、
    前記要求コンテンツに基づいて音声サービスコンテンツを決定し、且つ前記対象操作インターフェースを呼び出して前記音声サービスコンテンツを出力するための操作指令を生成するステップと、
    を含む、ことを特徴とする請求項7に記載の方法。
  9. 前記デバイス側の状態情報に基づいて前記要求コンテンツを処理して生成された応答メッセージを取得するステップは、
    前記要求コンテンツに音声対話ニーズが含まれるかどうかを検出するステップと、
    前記要求コンテンツに音声対話ニーズが含まれることを検出したことに応答して、予め設定された時間長又は予め設定されたメッセージ長で音声サービスデータを分割して、複数の分割応答メッセージを生成するステップと、を含み、
    前記デバイス側に前記応答メッセージを送信するステップは、前記分割応答メッセージの生成タイミングに応じて前記分割応答メッセージを前記デバイス側に順次送信するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  10. 前記対象音声サービスのデータサービスフレームワークモデルを構築することをさらに含み、
    前記データサービスフレームワークモデルは、伝送プロトコル層、メッセージフォーマット層及びデバイス側能力層を含み、
    前記対象音声サービスのデータサービスフレームワークモデルを構築することは、
    前記伝送プロトコル層を構築するステップであって、ここで、前記対象音声サービスに用いられる伝送プロトコルを配置することを含むステップと、
    前記メッセージフォーマット層を構築するステップであって、ここで、前記対象音声サービスの要求メッセージ及び応答メッセージのメッセージフォーマットを配置することを含むステップと、
    前記デバイス側能力層を構築するステップであって、ここで、要求メッセージ及び応答メッセージからデバイス側の能力を解析するロジックを配置することを含むステップと、
    を含む、ことを特徴とする請求項1に記載の方法。
  11. 第三者音声サービスにアクセスしたデバイス側に対象音声サービスを提供するための、要求コンテンツと前記デバイス側の状態情報を含む要求メッセージを受信するように構成される第1受信手段と、
    前記デバイス側の状態情報に基づいて前記要求コンテンツを処理して生成された、操作命令を含む応答メッセージを取得するように構成される取得手段と、
    前記デバイス側に前記応答メッセージを送信するように構成される送信手段と、を備え、
    前記要求メッセージ及び前記応答メッセージは、構築された前記対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマットに従って生成され、且つ構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された伝送プロトコルに基づいて伝送され、
    構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された前記メッセージフォーマットは、前記第三者音声サービスのメッセージフォーマットと一致し、構築された前記対象音声サービスのデータサービスフレームワークモデルに配置された前記伝送プロトコルは、前記第三者音声サービスの伝送プロトコルと一致する、
    ことを特徴とする音声サービスを提供するための装置。
  12. ユーザが送信した、前記デバイス側に対する対象音声サービス登録の要求を取得したことに応答して、前記ユーザに前記対象音声サービスの置換すべき構成情報を提供することにより、ユーザが前記デバイス側のプロファイルにおける対応する構成項目を置換するように構成される提供手段をさらに備え、
    前記置換すべき構成情報は、ユーザ識別子、ユーザパスワード及びアクセストークンを取得するためのパスアドレスを含む、
    ことを特徴とする請求項11に記載の装置。
  13. 前記デバイス側を前記対象音声サービスにアクセスさせるための、前記ユーザ識別子、前記ユーザパスワード及び前記デバイス側の識別子を含むアクセス要求を受信するように構成される第2受信手段と、
    前記アクセス要求に基づいて前記デバイス側に前記対象音声サービスのアクセストークンを発行することにより、前記デバイス側が前記アクセストークンを取得するためのパスアドレスを介して発行されたアクセストークンを取得するように構成される認証手段と、
    をさらに備える、ことを特徴とする請求項12に記載の装置。
  14. 前記認証手段は、
    前記ユーザ識別子と前記ユーザパスワードに基づいてユーザ認証を取得したデバイス識別子を検索し、前記対象音声サービスアクセス要求におけるデバイス側の識別子が、前記ユーザ認証を取得したデバイス識別子と一致するかどうかを判断し、一致すると判断すれば、前記デバイス側に前記対象音声サービスのアクセストークンを発行することにより、前記デバイス側に前記対象音声サービスのアクセストークンを発行するように、さらに構成される、
    ことを特徴とする請求項13に記載の装置。
  15. 前記第1受信手段は、
    前記対象音声サービスのアクセストークンを取得したとともに、前記第三者音声サービスにアクセスしたデバイス側から送信された前記要求メッセージを受信するように、さらに構成される、ことを特徴とする請求項14に記載の装置。
  16. 前記取得手段が取得した前記応答メッセージは、
    前記要求メッセージを解析し、前記要求コンテンツ及び前記デバイス側の状態情報を取得して、前記デバイス側の状態情報及び前記要求コンテンツに基づいて対応する操作命令を生成して、前記対象音声サービスのデータサービスフレームワークモデルに配置されたメッセージフォーマット及び伝送プロトコルに従って前記操作命令をパッケージングすることにより、生成される、
    ことを特徴とする請求項11に記載の装置。
  17. 前記デバイス側の状態情報は、デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報を含む、ことを特徴とする請求項16に記載の装置。
  18. 前記取得手段が取得した応答メッセージにおける操作命令は、
    前記デバイス側の能力宣言、デバイス側のコンテキスト環境情報及びデバイス側のイベント情報に基づいて前記デバイス側の呼び出し可能な操作インターフェースを決定し、前記呼び出し可能な操作インターフェースから前記要求コンテンツに対応する対象操作インターフェースを決定し、前記要求コンテンツに基づいて音声サービスコンテンツを決定し、且つ前記対象操作インターフェースを呼び出して前記音声サービスコンテンツを出力するための操作指令を生成することにより、生成される、
    ことを特徴とする請求項17に記載の装置。
  19. 前記取得手段は、前記要求コンテンツに音声対話ニーズが含まれるかどうかを検出し、前記要求コンテンツに音声対話ニーズが含まれることを検出したことに応答して、予め設定された時間長又は予め設定されたメッセージ長で音声サービスデータを分割し、複数の分割応答メッセージを生成するように、さらに構成され、
    前記送信手段は、前記分割応答メッセージの生成タイミングに応じて前記分割応答メッセージを前記デバイス側に順次送信するするように、さらに構成される、
    ことを特徴とする請求項11に記載の装置。
  20. 前記対象音声サービスの、データサービスフレームワークモデルを構築するように構成される構築手段をさらに備え、
    前記データサービスフレームワークモデルは、伝送プロトコル層、メッセージフォーマット層及びデバイス側能力層を含み、
    前記構築手段は、
    前記対象音声サービスに用いられる伝送プロトコルを配置することを含むように前記伝送プロトコル層を構築し、前記対象音声サービスの要求メッセージ及び応答メッセージのメッセージフォーマットを配置することを含むように前記メッセージフォーマット層を構築し、要求メッセージ及び応答メッセージからデバイス側の能力を解析するロジックを配置することを含むように前記デバイス側能力層を構築するように、構成される、
    ことを特徴とする請求項11に記載の装置。
  21. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶する記憶装置と、を備えるサーバであって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサに実行されると、請求項1〜10のいずれか1項に記載の方法を1つまたは複数のプロセッサに実現させる、
    ことを特徴とするサーバ。
  22. コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
    前記コンピュータプログラムが実行される場合、請求項1〜10のいずれか1項に記載の方法を実現させる、ことを特徴とするコンピュータ可読媒体。
  23. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜10のいずれか一項に記載の方法を実現させるコンピュータプログラム。

JP2019537348A 2017-06-30 2017-12-22 音声サービスを提供するための方法、装置およびサーバ Active JP6754011B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710525724.1A CN107277153B (zh) 2017-06-30 2017-06-30 用于提供语音服务的方法、装置和服务器
CN201710525724.1 2017-06-30
PCT/CN2017/118008 WO2019000871A1 (zh) 2017-06-30 2017-12-22 用于提供语音服务的方法、装置和服务器

Publications (2)

Publication Number Publication Date
JP2020511804A JP2020511804A (ja) 2020-04-16
JP6754011B2 true JP6754011B2 (ja) 2020-09-09

Family

ID=60070767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019537348A Active JP6754011B2 (ja) 2017-06-30 2017-12-22 音声サービスを提供するための方法、装置およびサーバ

Country Status (6)

Country Link
US (1) US10791200B2 (ja)
EP (1) EP3550801B1 (ja)
JP (1) JP6754011B2 (ja)
KR (1) KR102144286B1 (ja)
CN (1) CN107277153B (ja)
WO (1) WO2019000871A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107277153B (zh) * 2017-06-30 2020-05-26 百度在线网络技术(北京)有限公司 用于提供语音服务的方法、装置和服务器
CN107342083B (zh) * 2017-07-05 2021-07-20 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN107733722B (zh) * 2017-11-16 2021-07-20 百度在线网络技术(北京)有限公司 用于配置语音服务的方法和装置
CN107911386B (zh) * 2017-12-06 2020-12-04 北京小米移动软件有限公司 获取服务授权信息的方法及装置
CN112470216A (zh) * 2018-06-05 2021-03-09 声音有限责任公司 语音应用平台
CN109036427B (zh) * 2018-09-25 2021-01-26 苏宁智能终端有限公司 一种动态配置语音识别服务的方法及系统
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11100926B2 (en) * 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
CN112579749B (zh) * 2018-11-14 2024-04-19 深圳市云歌人工智能技术有限公司 提供以及获取服务的方法、系统及存储介质
CN111324468B (zh) * 2018-12-13 2023-08-01 熙牛医疗科技(浙江)有限公司 消息传递方法、装置、系统及计算设备
CN109815025B (zh) * 2018-12-17 2024-03-15 顺丰科技有限公司 一种业务模型调用方法、装置及存储介质
CN109918040B (zh) * 2019-03-15 2022-08-16 阿波罗智联(北京)科技有限公司 语音指令分发方法和装置、电子设备及计算机可读介质
US11516221B2 (en) * 2019-05-31 2022-11-29 Apple Inc. Multi-user devices in a connected home environment
CN111147586B (zh) * 2019-12-27 2022-03-04 腾讯科技(深圳)有限公司 设备端控制方法、装置和会议系统
CN111371792A (zh) * 2020-03-06 2020-07-03 杭州涂鸦信息技术有限公司 一种基于智能音频设备上报拾音数据的方法及系统
US20210383811A1 (en) * 2020-06-09 2021-12-09 Native Voice, Inc. Methods and systems for audio voice service in an embedded device
CN114726830A (zh) * 2020-12-18 2022-07-08 阿里巴巴集团控股有限公司 语音服务访问方法、系统和车辆
KR20230023212A (ko) * 2021-08-10 2023-02-17 삼성전자주식회사 상태 변경에 따라 음성 명령 처리 결과를 출력하는 전자 장치 및 그의 동작 방법
CN114244821B (zh) * 2021-12-16 2023-03-14 北京百度网讯科技有限公司 数据处理方法、装置、设备、电子设备和存储介质
CN114048303B (zh) * 2022-01-11 2022-05-17 北京安博通科技股份有限公司 一种人机协同作战处置响应的系统及方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8448059B1 (en) * 1999-09-03 2013-05-21 Cisco Technology, Inc. Apparatus and method for providing browser audio control for voice enabled web applications
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
JP2003337866A (ja) * 2002-05-20 2003-11-28 Shimizu Corp 室内環境・情報管理統合化システム
KR100477513B1 (ko) * 2002-11-25 2005-03-17 전자부품연구원 이기종 프로토콜간 상호 데이터 전송을 위한 공통프로토콜 계층 구조 및 방법과 공통 프로토콜 패킷
US7180984B1 (en) * 2002-11-26 2007-02-20 At&T Corp. Mixed protocol multi-media provider system incorporating a session initiation protocol (SIP) based media server adapted to operate using SIP messages which encapsulate GR-1129 advanced intelligence network based information
KR100965437B1 (ko) * 2003-06-05 2010-06-24 인터트러스트 테크놀로지즈 코포레이션 P2p 서비스 편성을 위한 상호운용 시스템 및 방법
US20070140255A1 (en) * 2005-12-21 2007-06-21 Motorola, Inc. Method and system for communication across different wireless technologies using a multimode mobile device
US9288276B2 (en) * 2006-11-03 2016-03-15 At&T Intellectual Property I, L.P. Application services infrastructure for next generation networks including a notification capability and related methods and computer program products
WO2008082441A1 (en) * 2006-12-29 2008-07-10 Prodea Systems, Inc. Display inserts, overlays, and graphical user interfaces for multimedia systems
US20160277261A9 (en) * 2006-12-29 2016-09-22 Prodea Systems, Inc. Multi-services application gateway and system employing the same
JP2009110300A (ja) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 情報家電ネットワーク制御装置、情報家電ネットワーク制御システム、情報家電ネットワーク制御方法、およびプログラム
US8307402B2 (en) * 2008-01-22 2012-11-06 At&T Intellectual Property I, L.P. Method and apparatus for merging voice and data features with internet protocol television
CN101567941B (zh) 2008-04-25 2011-10-19 佛山市顺德区顺达电脑厂有限公司 实时语音预约系统及方法
CN101699840B (zh) * 2009-11-09 2013-03-06 希华通信(苏州)有限公司 融合通信中智能语音交互系统及其实现方法
US9159322B2 (en) * 2011-10-18 2015-10-13 GM Global Technology Operations LLC Services identification and initiation for a speech-based interface to a mobile device
US9326088B2 (en) * 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
CN102571967B (zh) * 2012-01-17 2015-04-01 深圳市乐唯科技开发有限公司 一种实现多对象数据交互应答和呼叫功能的系统及方法
CN102638452B (zh) * 2012-03-14 2015-05-20 杭州华三通信技术有限公司 一种基于VoIP网络的呼叫方法和设备
US9536527B1 (en) * 2015-06-30 2017-01-03 Amazon Technologies, Inc. Reporting operational metrics in speech-based systems
CN105871972A (zh) * 2015-11-13 2016-08-17 乐视云计算有限公司 一种视频资源的分布式缓存方法、装置及系统
CN105679319B (zh) * 2015-12-29 2019-09-03 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN107277153B (zh) * 2017-06-30 2020-05-26 百度在线网络技术(北京)有限公司 用于提供语音服务的方法、装置和服务器

Also Published As

Publication number Publication date
EP3550801A4 (en) 2019-11-20
CN107277153A (zh) 2017-10-20
EP3550801A1 (en) 2019-10-09
JP2020511804A (ja) 2020-04-16
WO2019000871A1 (zh) 2019-01-03
EP3550801B1 (en) 2020-08-12
CN107277153B (zh) 2020-05-26
KR102144286B1 (ko) 2020-08-14
US10791200B2 (en) 2020-09-29
KR20190091545A (ko) 2019-08-06
US20190335020A1 (en) 2019-10-31

Similar Documents

Publication Publication Date Title
JP6754011B2 (ja) 音声サービスを提供するための方法、装置およびサーバ
US11360737B2 (en) Method and apparatus for providing speech service
WO2021073202A1 (zh) 智能合约处理方法、计算机设备及存储介质
US20240012641A1 (en) Model construction method and apparatus, and medium and electronic device
WO2019024658A1 (zh) 界面呈现方法和装置
WO2021203919A1 (zh) 用于评估联合训练模型的方法和装置
WO2022057677A1 (zh) 振动控制方法、装置、电子设备和计算机可读存储介质
CN111930709B (zh) 数据存储方法、装置、电子设备和计算机可读介质
WO2019015272A1 (zh) 信息处理方法和装置
WO2020134654A1 (zh) 一种电子支付方法、装置、系统和存储介质
CN110399578A (zh) 页面访问方法及装置
US20230100571A1 (en) Real-time media streams
CN113806037A (zh) 服务的调用方法、装置、存储介质及电子设备
CN106465113A (zh) 特定场所的Wi‑Fi连接通知
CN110211564A (zh) 语音合成方法及装置、电子设备和计算机可读介质
CN111191200B (zh) 一种三方联动鉴权页面展示方法、装置和电子设备
CN114513552A (zh) 数据处理方法、装置、设备及存储介质
US11741266B2 (en) Cryptographically secure dynamic third party resources
CN110177096A (zh) 客户端认证方法、装置、介质和计算设备
CN113434384B (zh) 一种压力测试方法和装置
CN109005084B (zh) 验证网络连接的方法、电子设备和计算机可读介质
JP7483929B2 (ja) 共同トレーニングモデルを評価するための方法及び装置
KR102166211B1 (ko) 메신저 서비스 시스템, 그의 메신저 사용자 인증을 위한 방법 및 장치
CN109660573A (zh) 数据传输方法和装置
CN114363307B (zh) 信息处理方法以及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200820

R150 Certificate of patent or registration of utility model

Ref document number: 6754011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250