JP2020004376A

JP2020004376A - 第三者アプリケーションのインタラクション方法、及びシステム

Info

Publication number: JP2020004376A
Application number: JP2019044357A
Authority: JP
Inventors: ドゥ，ビンユェン; Binyuan Du; イェンヂャン，; Yan Zhang; ポンユェン，; Peng Yuan; リャンユーチャン，; Liangyu Chang; ロンロンティエン，; Longlong Tian
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-06-29
Filing date: 2019-03-12
Publication date: 2020-01-09
Anticipated expiration: 2039-03-12
Also published as: JP6956126B2; CN109036396A; US11151987B2; US20200005771A1

Abstract

【課題】音声を利用して第三者アプリケーションへの制御を実現することができる、第三者アプリケーションのインタラクション方法、及びシステムを提供する。【解決手段】第三者アプリケーションのインタラクション方法において、インタラクションシステムは、ユーザが発した音声データを受信し、クラウドサーバに送信するステップＳ１３と、クラウドサーバから返された命令を受信し、命令を第三者アプリケーションに転送して実行させるか、または、命令を直接実行するステップＳ１４とを備える。クラウドサーバは、インタラクションシステムから音声データを受信するステップと、音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップと、命令をインタラクションシステムに返すステップとを備える。【選択図】図１

Description

本発明は、コンピュータアプリケーション技術に関し、特に、第三者アプリケーションのインタラクション方法、及びシステムに関する。

時代の発展と共に、テレビ画面の鮮明度は大幅に向上し、優れた解像度はテレビにビデオ画面を再生する時に、かなりの優勢をもたらしている。テレビは、もはや単純にテレビ番組を見るだけでなく、ビデオ、エンターテインメント、ゲーム、テレビ番組のためのプラットフォームへと進化した。現在のスマートテレビは、インテリジェントインタラクション型のインタラクションシステムを統合しており、ユーザは自然に人間の言語でスマートテレビとインタラクションすることができる。音声インタラクション方法の変化はまた、テレビアプリケーションに無限の想像力を与え、テレビに極めて大きい想像空間をもたらした。テレビは、大画面が優勢であることを利用して、順調に、音声ゲームプラットフォーム、音声エンターテインメントプラットフォームなどになり、そして、テレビアプリケーションにインテリジェント音声インタラクション能力を与えた。

しかし、テレビエンドアプリケーションは、音声インタラクション能力が乏しい。音声で第三者アプリケーションを起動する際に、次のインタラクションは、リモコンコントローラで実行するしかなく、音声を利用して第三者アプリケーションとインタラクションできないため、スマートテレビのユーザ体験が制限される。

本願の複数の態様は、音声を利用して第三者アプリケーションへの制御を実現することができる、第三者アプリケーションのインタラクション方法、及びシステムを提供する。

本願の一つの態様において、第三者アプリケーションのインタラクション方法を提供する。当該方法は、インタラクションシステムは、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信するステップと、前記インタラクションシステムが、クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するステップと、を含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、音声データをクラウドサーバに送信するステップは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、前記音声データを前記第三者アプリケーションの識別子にバインドして、クラウドサーバに送信し、バインドされていない場合、前記音声データをクラウドサーバに送信するステップを含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップは、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバは、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバは、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索するステップを含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、クラウドサーバから返された命令を受信するステップは、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信するステップを含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションが前記命令を実行するように、前記インタラクションシステムが、前記命令を第三者アプリケーションに転送するか、または、前記インタラクションシステムが直接前記命令を実行するステップは、前記インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションにより前記命令を実行するか、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するステップを含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に、前記インタラクションシステムに登録されたものである。

上記の態様およびいずれか一つの実現可能な形態においてと、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものである。

本願のもう一つの態様において、第三者アプリケーションのインタラクション方法を提供する。前記方法は、クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信するステップと、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップと、インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるように、前記命令を前記インタラクションシステムに返すこと、または、前記インタラクションシステムが直接前記命令を実行するステップと、を含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記インタラクションシステムに第三者アプリケーションがバインドされている場合、前記音声データに前記第三者アプリケーションの識別子がバインドされており、前記インタラクションシステムに第三者アプリケーションがバインドされていない場合、前記音声データに前記第三者アプリケーションの識別子がバインドされていない。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるように、前記命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが直接前記命令を実行するステップは、前記インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返すステップを含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってアップロードされたものである。

本発明のもう一つの態様において、第三者アプリケーションのインタラクションシステムを提供する。前記システムは、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、受信ユーザが発した音声データ、前記音声データをクラウドサーバに送信するための音声データ送信モジュールと、前記第三者アプリケーションが前記命令を実行するように、前記インタラクションシステムが、クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送するか、または、前記インタラクションシステムが直接前記命令を実行するための命令受信モジュールと、を備える。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記音声データ送信モジュールは、具体的には、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、前記音声データに前記第三者アプリケーションの識別子をバインドして、前記音声データをクラウドサーバに送信し、バインドされていない場合、前記音声データをクラウドサーバに送信する。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得することは、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバにより、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバにより、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記命令受信モジュールは、具体的には、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信する。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記命令受信モジュールは、具体的には、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションにより前記命令を実行するか、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行する。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に前記インタラクションシステムに登録されたものである。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものである。

本願のもう一つの態様において、第三者アプリケーションのインタラクションシステムを提供する。前記システムは、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するための音声データ受信及び処理モジュールと、インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるように、前記命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが直接前記命令を実行するための命令送信モジュールと、を含む。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記音声データ受信及び処理モジュールは、具体的には、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。

上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記命令送信モジュールは、具体的には、前記インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返す。

本発明のもう一つの態様において、コンピュータ機器を提供する。当該コンピュータ機器は、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサで実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行する場合、上記の方法を実現する。

本発明のもう一つの態様において、コンピュータ読み取り可能な記憶媒体を提供する。当該コンピュータ読み取り可能な記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行される場合、上記の方法が実現される。

上記の説明から分かるように、本発明の前記構成を採用することにより、ユーザの両手が解放され、手動操作なしで音声を利用して第三者アプリケーションに対する制御を実現することができる。これにより、ユーザの操作の利便性を向上させ、ユーザ体験を向上させることができる。

本発明に係る第三者アプリケーションのインタラクション方法のフローチャートである。本発明に係る第三者アプリケーションのインタラクション方法のフローチャートである。本発明に係る第三者アプリケーションのインタラクションシステムの構成図である。本発明に係る第三者アプリケーションのインタラクションシステムの構成図である。本発明の実施形態を実現するための例示的なコンピュータシステム／サーバ０１２を示すブロック図である。

以下、本願の実施例の目的、技術案、および、利点をより明確にするため、本願の実施例の図面に関連して、本願の実施例の技術案を、明確かつ完全に説明する。当然ながら、説明する実施例は、本願の一部の実施例に過ぎず、全部の実施例ではない。当業者によって本願の実施例に基づいて創造的な労働なしに得られるすべての他の実施例は、いずれも本願の保護範囲に属する。

図１は、本発明に係る第三者アプリケーションのインタラクション方法の実施例のフローチャートであり、スマートテレビにインストールされたインタラクションシステムに応用される。図１に示すように、以下のステップＳ１１〜Ｓ１４を含んでもよい。

ステップＳ１１において、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、インタラクションシステムが、ユーザが発した第三者アプリケーションを起動するための音声データを受信して前記音声データをクラウドサーバに送信し、対応の第三者アプリケーションを起動するための命令を取得する。

ステップＳ１２において、インタラクションシステムが、クラウドサーバから返された第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。

ステップＳ１３において、インタラクションシステムが第三者アプリケーションを起動した後に、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、ユーザが発した音声データを受信して前記音声データをクラウドサーバに送信し、第三者アプリケーションに対して操作を行うための命令を取得する。

ステップＳ１４において、前記第三者アプリケーションが前記命令を実行するように、インタラクションシステムが、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信し、前記第三者アプリケーションに転送する。

本実施例の実行主体は、スマートテレビにインストールされたＤｕｅｒＯＳ音声インテリジェントインタラクションシステムであり、前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続手段によってクラウドサーバと接続される。

ＤｕｅｒＯＳスキルオープンプラットフォームは、英語のフルネームはＤｕｅｒＯＳＢｏｔｓＰｌａｔｆｏｒｍであり、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムにより第三者である開発者に一連のスキル開発、テスト、展開ツールを提供するためのオープンプラットフォームである。第三者である開発者は、プラットフォーム上で、ビジュアルインターフェースを介して、さまざまな個人化されたスキルを、簡単かつ効率的に開発することができる。好ましくは、第三者である開発者は、事前に、ＤｕｅｒＯＳスキルオープンプラットフォーム、すなわちクラウドサーバに、カスタムされたＢｏｔを開発し、それをオンラインで展開して、第三者アプリケーションに対する音声制御を実現する必要がある。

網易(登録商標)クラウドミュージック（ＮｅｔＥａｓｅＣｌｏｕｄＭｕｓｉｃ）を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをＤｕｅｒＯＳスキルオープンプラットフォームに展開できる。ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、ＤｕｅｒＯＳスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行い、前記音声命令をＤｕｅｒＯＳスキルオープンプラットフォームに送信してユーザの意図を取得する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、ユーザの意図を実現するように、ＤｕｅｒＯＳ音声スマートインタラクションシステムに前記スキルに対応する命令を発する。

好ましくは、ユーザは、音声を利用してスマートテレビのＤｕｅｒＯＳにインストールされた第三者アプリケーションとインタラクションする場合、まず、スマートテレビのＤｕｅｒＯＳをウェイクアップして、第三者アプリケーションを開く必要がある。

ユーザは、「度ちゃん度ちゃん、網易クラウドミュージックを開いて」とのような音声命令をスマートテレビに発することによって、スマートテレビのＤｕｅｒＯＳをウェイクアップし、ＤｕｅｒＯＳが自身に予めインストールされた第三者アプリケーションを開くように指示する。

ステップＳ１１の好ましい実現形態において、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、前記音声データをクラウドサーバに送信して対応の第三者アプリケーションを起動するための命令を取得する。好ましくは、ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。

好ましくは、スマートテレビのＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開けていないことである。ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信して当該クラウドが音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の５Ｓ内のオーディオデータを取得して音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。

クラウドサーバは、アコースティックエコー除去（ＡＥＣ：ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ）アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制（ＮＳ：ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理、すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。

好ましくは、クラウドサーバは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対する制御命令語句を記憶するためのものである。

例えば、クラウドサーバは、ユーザが入力した音声命令が「度ちゃん度ちゃん、網易クラウドミュージックを開いて」である場合には、「網易クラウドミュージックを開く」との命令情報を認識して、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに返す。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対して操作するか、または、第三者アプリケーションのカスタムされたスキルを呼び出すために、ユーザによってウェイクアップされる必要がある。

スマートテレビは、オーディオデータを受信し、信号処理モジュールを利用してウェイクアップ検出を行い、ユーザが発したウェイクアップ命令を受信して、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムをウェイクアップする。当該処理は、以下のサブステップＡ〜Ｃを含む。

サブステップＡにおいて、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集することによって、ウェイクアップ検出を行う。

好ましくは、前記マイクロフォン常にピックアップ状態（オーディオデータに対してサンプリングおよび定量化を行い続ける）にあり、スマートテレビが位置する環境内のオーディオデータを収集することによって、ウェイクアップ検出を行う。

好ましくは、音声収集ユニットは、必要によって、例えばスマートテレビの電力消費を低減するために、１０ｍｓなどの所定の周期に従って、スマートテレビが位置する環境内のオーディオデータを収集して、検出を行ってもよい。前記定期的な音量検出の周期は、スマートテレビが工場から出荷されるときに予め設定されてもよく、または、ユーザにより自身の必要によって設定されてもよい。

本実施例において、前記オーディオデータを、スマートテレビが位置する環境で、マイクロフォンが収集できる任意の音声に対応する情報であると理解してもよく、例えば、ユーザを含む人が発した音声、環境ノイズなどの、前記マイクロフォンが収集できるものであればよい。

オーディオデータの収集過程において、機器の性能の違い、音源から音声収集ユニットまでの距離の遠さ、および、音声収集ユニットが単一のマイクロフォンをサポートするかマイクロフォンアレイをサポートするかによって、音声の効果が変わる。総体的に見ると、音声収集ユニットの性能が高いほど、また、音源から音声収集ユニットまでの距離が短いほど、また、単一のマイクロフォンの代わりに効果的なマイクロフォンアレイを採用する方が、より完全な特徴を取得することができ、認識されるオーディオデータにはより有利である。例えば、遠距離（＞５ｍ）ウェイクアップまたは認識をサポートするには、マイクロフォンアレイを使用する時の性能が、単一のマイクロフォンを使用する時の性能よりも、はるかに優れる。スマートテレビとユーザとの間の距離が一般的により遠く、遠距離環境であるため、本実施例において、マイクロフォンアレイを採用してオーディオデータを収集する。

サブステップＢにおいて、収集されたオーディオデータに対して、音声検出を行う。

信号処理ユニットの音声検出モジュールを使用して、マイクロフォンによって収集されたオーディオデータに対して、音声検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行って、オーディオ信号の音声セグメントの開始位置を正確に検出することができるため、音声セグメントと非音声セグメント（ミュートまたはノイズ）信号とを分離することができる。

ＶＡＤはスマートテレビローカルでリアルタイムに行われる必要があり、それに、運算リソースが非常に限られているため、閾値に基づくＶＡＤが一般的に採用され、工学的に最適化された分類法もまた使用され得る。

収集されたオーディオデータに対して音声検出を行うことによって、その中の音声セグメントを検出し、音声セグメントのみに対してウェイクアップ検出を行うことによって、電力消費を低下することができる。

サブステップＣにおいて、検出された音声セグメント情報に対して、ウェイクアップ検出を行う。

まず、検出された音声セグメント情報に対して、特徴抽出を行う。検出された音声セグメント情報にはいくつかの問題がある可能があり、直接認識に使用することはできない。例えば、マイクロフォンによって収集されたオーディオデータには音響エコーが存在し、アコースティックエコー除去（ＡＥＣ：ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ）アルゴリズムを使用してアコースティックエコー除去を行う必要がある。特定環境で収集されたオーディオデータには特定のノイズが含まれるが、この場合、オーディオデータに対してノイズ抑制（ＮＳ：ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムによって環境ノイズを除去する必要がある。

そして、特定のデコーダを使用して、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果を取得する。デコーダデコーディング過程で、音響モデル、言語モデル、および、発音辞書が使用される。音響モデルの主な機能はオーディオ特徴を音節に変換することであり、言語モデルの主な機能は音節をテキストに変換することであり、発音辞書は音節からテキストへのマッピングテーブルを提供する。

目標が単一なので（指定されたウェイクアップ単語のみを検出する必要がある）、ウェイクアップ検出には、より小さな音響モデル、言語モデル、および、発音辞書が必要となる（ウェイクアップ単語の出現の有無のみを区別する必要がある）。

収集されたオーディオデータがウェイクアップ単語を含むと決定された場合、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムをウェイクアップして、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが次の動作を実行する。

ステップＳ１２の好ましい実現形態において、インタラクションシステムが、クラウドサーバから返された、第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。

ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、受信された命令情報に従って、対応の第三者アプリケーションを開く。

ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、受信された命令情報に従って対応の第三者アプリケーションを開いた後に、第三者アプリケーションのバインド、認証、および、登録ｎａｍｅｓｐａｃｅ（名前空間登録）が許可されることが好ましい。

第三者アプリケーションをＤｕｅｒＯＳ音声インテリジェントインタラクションシステムにバインドした後に、前記第三者アプリケーションはフォアグラウンドで実行される。前記第三者アプリケーションを終了するときは、前記第三者アプリケーションとＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとをアンバインドする必要がある。

第三者アプリケーションは、前記第三者アプリケーションの識別子として、ｎａｍｅｓｐａｃｅ登録を行う。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後に受信された音声データは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムを操作するためにユーザが発した音声データであってもよく、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って対応する命令を得、前記音声データをクラウドサーバに送信して、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが前記命令を実行する。

ステップＳ１３の好ましい実現形態において、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、第三者アプリケーションが起動された後に、クラウドサーバが、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信して前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得する。

ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングすることが好ましい。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、キャッシングされたウェイクアップ時点後のオーディオデータを、前記第三者アプリケーションの識別子とバインドして、クラウドに送信して音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の５Ｓ内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。

好ましくは、前記第三者アプリケーションの識別子は、前記第三者アプリケーションがＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに登録したｎａｍｅｓｐａｃｅである。

クラウドサーバは、アコースティックエコー除去（ＡＥＣ：ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ）アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制（ＮＳ：ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。

前記音声データに前記第三者アプリケーションの識別子がバインドされているため、クラウドサーバは、前記第三者アプリケーションの識別子に基づいて前記第三者アプリケーションに対応する命令ライブラリを検索し、対応する命令ライブラリ内で前記音声データに対応する命令を検索することが好ましい。前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであり、ユーザが前記第三者アプリケーションに対して発話可能の制御命令語句を記憶するためのものである。

例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、次の曲へ」であると、クラウドサーバは、「次の曲へ」との命令情報を認識してＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに返す。

前記音声データに前記第三者アプリケーションの識別子がバインドされているため、クラウドサーバは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが前記第三者アプリケーションの識別子に基づいて前記命令を前記第三者アプリケーションに転送するように、検索された命令を前記第三者アプリケーションの識別子とバインドしてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに返す。

ステップＳ１４の好ましい実現形態において、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送することで前記第三者アプリケーションが前記命令を実行する。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送することで、前記第三者アプリケーションが前記命令を実行する。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記命令を所前記第三者アプリケーションに転送する前に、まず、前記第三者アプリケーションが依然としてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされているか否かを判断する。例えば、網易クラウドミュージック（ＮｅｔＥａｓｅＣｌｏｕｄＭｕｓｉｃ）がすでに終了されたか否かを判断する。前記第三者アプリケーションが依然としてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされている場合、前記命令を直接前記第三者アプリケーションに送信し、前記第三者アプリケーションによって前記命令を実行された後、前記第三者アプリケーションの前記命令の実行結果を受信する。前記第三者アプリケーションがＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされていない場合、ユーザに、「前記第三者アプリケーションが既に終了しましたので、前記第三者アプリケーションを再度起動してください」と、プロンプトする。

上記の説明から分かるように、上記実施例の前記方法を採用すると、ユーザの両手が解放され、リモコンコントローラを使用して第三者アプリケーションとインタラクションする必要がなくなり、操作過程全体のスマート音声インタラクションを実現し、ユーザの操作の利便性を向上させ、ユーザ体験を向上させる。

図２は、本発明に係る第三者アプリケーションのインタラクション方法の実施例のフローチャートであり、クラウドサーバに応用される。図２に示すように、以下のステップＳ２１〜Ｓ２４を含む。

ステップＳ２１において、クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、対応の第三者アプリケーションを起動するための命令を取得する。

ステップＳ２２において、クラウドサーバが、インタラクションシステムが前記命令を実行して第三者アプリケーションを起動するように、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返す。

ステップＳ２３において、クラウドサーバが、インタラクションシステムによって送信された、第三者アプリケーションが起動された後に、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得する。

ステップＳ２４において、クラウドサーバが、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返し、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させる。

本実施例の実行主体は、クラウドサーバである。前記インタラクションシステムは、スマートテレビにインストールされたＤｕｅｒＯＳ音声インテリジェントインタラクションシステムである。前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続手段によってクラウドサーバと接続される。

ＤｕｅｒＯＳスキルオープンプラットフォームは、英語のフルネームはＤｕｅｒＯＳＢｏｔｓＰｌａｔｆｏｒｍであり、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムにより第三者開発者に一連のスキル開発、テスト、展開ツールを提供するためのオープンプラットフォームである。第三者開発者は、プラットフォーム上で、ビジュアルインターフェースを介して、さまざまな個人化されたスキルを、簡単かつ効率的に開発することができる。好ましくは、第三者開発者は、事前に、ＤｕｅｒＯＳスキルオープンプラットフォームすなわちクラウドサーバ上で、カスタムされたＢｏｔを開発し、それをオンラインで展開して、第三者アプリケーションに対する音声制御を実現する必要がある。

網易クラウドミュージック（ＮｅｔＥａｓｅＣｌｏｕｄＭｕｓｉｃ）を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをＤｕｅｒＯＳスキルオープンプラットフォームに展開できる。ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、ＤｕｅｒＯＳスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行い、前記音声命令をＤｕｅｒＯＳスキルオープンプラットフォームに送信することでユーザの意図を取得する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、ユーザの意図を実現するように、ＤｕｅｒＯＳ音声スマートインタラクションシステムに前記スキルに対応する命令を発する。

ユーザは、「度ちゃん度ちゃん、網易クラウドミュージックを開いて」とのような音声命令をスマートテレビに発することによって、スマートテレビのＤｕｅｒＯＳをウェイクアップし、ＤｕｅｒＯＳ自体に予めインストールされた第三者アプリケーションを開くように指示する。

ステップＳ２１の好ましい実現形態において、スマートテレビは、収集されたオーディオデータがウェイクアップ単語を含むと決定すると、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムをウェイクアップして、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが次の動作を実行する。

ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後、ユーザが発した、第三者アプリケーションをウェイクアップするための音声データを受信し、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、前記音声データをクラウドサーバに送信することで対応の第三者アプリケーションを起動するための命令を取得する。好ましくは、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングすることで、クラウドサーバが音声認識を行う。

好ましくは、スマートテレビのＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開いていないことである。ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信して当該クラウドが音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の５Ｓ内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。

クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、対応の第三者アプリケーションを起動するための命令を取得する。

クラウドサーバは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することが好ましい。前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対する制御命令語句を、記憶するためのものである。

例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、網易クラウドミュージックを開いて」であると、クラウドサーバは「網易クラウドミュージックを開く」との命令を認識する。

ステップＳ２２の好ましい実現形態において、インタラクションシステムが、前記命令を実行し、第三者アプリケーションを起動するように、クラウドサーバが、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返し、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、受信された命令情報に従って、対応の第三者アプリケーションを開く。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、受信された命令情報に従って対応の第三者アプリケーションを開いた後に、第三者アプリケーションのバインド、認証、および、登録ｎａｍｅｓｐａｃｅが許可される。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後に受信された音声データは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムを操作するためにユーザが発した音声データであってもよく、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、対応する命令を取得するようにして、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが前記命令を実行するように、前記音声データをクラウドサーバに送信する。

ステップＳ２３の好ましい実現形態において、クラウドサーバが、インタラクションシステムによって送信された、第三者アプリケーションが起動された後に第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得する。

ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、第三者アプリケーションが起動された後に、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得するように、前記音声データをクラウドサーバに送信する。

好ましくは、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングして、クラウドサーバが音声認識を行う。

好ましくは、前記音声データに前記第三者アプリケーションの識別子がバインドされているため、クラウドサーバは、前記第三者アプリケーションの識別子に基づいて前記第三者アプリケーションに対応する命令ライブラリを検索し、対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであり、ユーザが前記第三者アプリケーションに対して発話可能の制御命令語句を記憶するためのものである。

前記音声データに前記第三者アプリケーションの識別子がバインドされているため、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが前記第三者アプリケーションの識別子に基づいて前記命令を前記第三者アプリケーションに転送するように、クラウドサーバは、検索された命令を前記第三者アプリケーションの識別子とバインドしてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに返す。

ステップＳ２４の好ましい実現形態において、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させるように、クラウドサーバが、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返す。

前記第三者アプリケーションが前記命令を実行するように、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。

好ましくは、前記第三者アプリケーションが前記命令を実行するように、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送する。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記命令を前記第三者アプリケーションに転送する前に、まず、前記第三者アプリケーションが依然としてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされているか否かを判断する。例えば、網易クラウドミュージック（ＮｅｔＥａｓｅＣｌｏｕｄＭｕｓｉｃ）がすでに終了されたか否かを判断する。前記第三者アプリケーションが依然としてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされている場合、前記命令を直接前記第三者アプリケーションに送信し、前記第三者アプリケーションによって前記命令を実行された後、前記第三者アプリケーションの前記命令の実行結果を受信する。前記第三者アプリケーションがＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされていない場合、ユーザに、「前記第三者アプリケーションが既に終了しましたので、前記第三者アプリケーションを再度起動してください」と、プロンプトする。

上記の説明から分かるように、上記実施例の前記方法を採用すると、クラウドサーバは、音声データに第三者アプリケーションの識別子がバインドされているか否かに基づいて、音声認識および意味解析を行って得られた命令がインタラクションシステムに対応するかそれとも第三者アプリケーションに対応するか判断する。これにより、ユーザの両手が解放され、リモコンコントローラを使用して第三者アプリケーションとインタラクションする必要がなくなり、操作過程全体のスマート音声インタラクションを実現し、ユーザの操作の利便性を向上させ、ユーザ体験を向上させる。

図３は、本発明に係る第三者アプリケーションのインタラクションシステムの実施例の構成図である。図３に示すように、第１の音声データ送信モジュール３１と、第１の命令受信モジュール３２と、第２の音声データ送信モジュール３３と、第２の命令受信モジュール３４とを備える。

第１の音声データ送信モジュール３１は、ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、前記音声データをクラウドサーバに送信することで対応の第三者アプリケーションを起動するための命令を取得する。

第１の命令受信モジュール３２は、クラウドサーバから返された、第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。

第２の音声データ送信モジュール３３は、第三者アプリケーションを操作するための、ユーザが発した音声データを受信して、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、前記音声データをクラウドサーバに送信することで、第三者アプリケーションに対して操作を行うための命令を取得する。

第２の命令受信モジュール３４は、前記第三者アプリケーションが前記命令を実行するように、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。

本実施例の実行主体は、スマートテレビにインストールされたＤｕｅｒＯＳ音声インテリジェントインタラクションシステムであり、前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続方法によってクラウドサーバと接続される。

網易クラウドミュージック（ＮｅｔＥａｓｅＣｌｏｕｄＭｕｓｉｃ）を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをＤｕｅｒＯＳスキルオープンプラットフォームに展開できる。ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、ＤｕｅｒＯＳスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行い、前記音声命令をＤｕｅｒＯＳスキルオープンプラットフォームに送信することでユーザの意図を取得する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、ＤｕｅｒＯＳ音声スマートインタラクションシステムに前記スキルに対応する命令を発することで、ユーザの意図を実現する。

第１の音声データ送信モジュール３１の好ましい実現形態において、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後、クラウドサーバが、音声データに対して音声認識および意味解析を行い、対応の第三者アプリケーションを起動するための命令を取得するように、第１の音声データ送信モジュール３１ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、前記音声データをクラウドサーバに送信し、好ましくは、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。

好ましくは、スマートテレビのＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開けていないことである。第１の音声データ送信モジュール３１は、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、当該クラウドが音声認識および意味解析を行うように、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信する。具体的には、通常、ウェイクアップ時点後の５Ｓ内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。

好ましくは、クラウドサーバは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対する制御命令語句を、記憶するためのものである。

例えば、クラウドサーバは、ユーザが入力した音声命令が「度ちゃん度ちゃん、網易クラウドミュージックを開いて」であると、「網易クラウドミュージックを開く」との命令情報を認識して、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに返す。

サブステップＡにおいて、ウェイクアップ検出を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集する。

好ましくは、ウェイクアップ検出を行うように、前記マイクロフォン常にピックアップ状態（オーディオデータに対してサンプリングおよび定量化を行い続ける）にあり、スマートテレビが位置する環境内のオーディオデータを収集する。

好ましくは、音声収集ユニットは、必要によって、例えばスマートテレビの電力消費を低減するために、１０ｍｓのような所定の周期に従って、スマートテレビが位置する環境内のオーディオデータを収集して、検出を行ってもよい。前記定期的な音量検出の周期は、スマートテレビが工場から出荷されるときに予め設定されてもよく、または、ユーザにより自身の必要によって設定されてもよい。

オーディオデータの収集過程において、機器の性能の違い、音源から音声収集ユニットまでの距離の遠さ、および、音声収集ユニットが単一のマイクロフォンをサポートするかマイクロフォンアレイをサポートするかによって、音声の効果が変わる。総体的に見ると、音声収集ユニットの性能が高いほど、また、音源から音声収集ユニットまでの距離が短いほど、また、単一のマイクロフォンの代わりに効果的なマイクロフォンアレイを採用する方が、もっと完全な特徴を取得することができ、認識されるオーディオデータにはさらに有利である。例えば、遠距離（＞５ｍ）ウェイクアップまたは認識をサポートするには、マイクロフォンアレイを使用する時の性能が、単一のマイクロフォンを使用する時の性能よりも、はるかに優れる。スマートテレビとユーザとの間の距離が一般的により遠く、遠距離環境であるため、本実施例において、マイクロフォンアレイを採用してオーディオデータを収集する。

信号処理ユニットの音声検出モジュールを使用して、マイクロフォンによって収集されたオーディオデータに対して、音声検出（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行い、オーディオ信号の音声セグメントの開始位置を正確に検出することができるため、音声セグメントと非音声セグメント（ミュートまたはノイズ）信号とを分離する。

収集されたオーディオデータがウェイクアップ単語を含むと決定された場合、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが次の動作を実行するように、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムをウェイクアップする。

第１の命令受信モジュール３２の好ましい実現形態において、第１の命令受信モジュール３２は、クラウドサーバから返された、第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後に受信された音声データは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムを操作するためにユーザが発した音声データであってもよく、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って対応する命令を得、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが前記命令を実行するように、前記音声データをクラウドサーバに送信する。

第２の音声データ送信モジュール３３の好ましい実現形態において、第２の音声データ送信モジュール３３は、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステム第三者アプリケーションが起動された後に、クラウドサーバが前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得するように、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信する。

好ましくは、ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、クラウドサーバが音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。

好ましくは、第２の音声データ送信モジュール３３は、第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、キャッシングされたウェイクアップ時点後のオーディオデータを、前記第三者アプリケーションの識別子とバインドして、クラウドに送信して音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の５Ｓ内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。

第２の命令受信モジュール３４の好ましい実現形態において、第２の命令受信モジュール３４は、前記第三者アプリケーションが前記命令を実行するように、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。

好ましくは、第２の命令受信モジュール３４は、前記第三者アプリケーションが前記命令を実行するように、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送する。

好ましくは、第２の命令受信モジュール３４は、前記命令を所前記第三者アプリケーションに転送する前に、まず、前記第三者アプリケーションが依然としてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされているか否かを判断する。例えば、網易クラウドミュージック（ＮｅｔＥａｓｅＣｌｏｕｄＭｕｓｉｃ）がすでに終了されたか否かを判断する。前記第三者アプリケーションが依然としてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされている場合、前記命令を直接前記第三者アプリケーションに送信し、前記第三者アプリケーションによって前記命令を実行された後、前記第三者アプリケーションの前記命令の実行結果を受信する。前記第三者アプリケーションがＤｕｅｒＯＳ音声インテリジェントインタラクションシステムとバインドされていない場合、ユーザに、「前記第三者アプリケーションが既に終了しましたので、前記第三者アプリケーションを再度起動してください」と、プロンプトする。

図４は、本発明に係る第三者アプリケーションのインタラクションシステムの実施例の構成図であり、クラウドサーバに応用される。図４に示すように、第１の音声データ受信及び処理モジュール４１と、第１の命令送信モジュール４２と、第２の音声データ受信及び処理モジュール４３と、第２の命令送信モジュール４４とを備える。

第１の音声データ受信及び処理モジュール４１は、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って対応の第三者アプリケーションを起動するための命令を取得する。

第１の命令送信モジュール０４２は、インタラクションシステムが、前記命令を実行して、第三者アプリケーションを起動するように、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返す。

第２の音声データ受信及び処理モジュール４３は、インタラクションシステムによって送信された、第三者アプリケーションがウェイクアップされた後に第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得する。

第２の命令送信モジュール４４は、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させるように、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返す。

本実施例の実行主体は、クラウドサーバである。前記インタラクションシステムは、スマートテレビにインストールされたＤｕｅｒＯＳ音声インテリジェントインタラクションシステムであり、前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続手段によってクラウドサーバと接続される。

網易クラウドミュージック（ＮｅｔＥａｓｅＣｌｏｕｄＭｕｓｉｃ）を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをＤｕｅｒＯＳスキルオープンプラットフォームに展開できる。ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、ＤｕｅｒＯＳスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行って、ユーザの意図を取得するように、前記音声命令をＤｕｅｒＯＳスキルオープンプラットフォームに送信する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、ユーザの意図を実現するように、ＤｕｅｒＯＳ音声スマートインタラクションシステムに前記スキルに対応する命令を発する。

第１の音声データ受信及び処理モジュール４１の好ましい実現形態において、
スマートテレビは、収集されたオーディオデータがウェイクアップ単語を含むと決定すると、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが次の動作を実行するように、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムをウェイクアップする。

ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応の第三者アプリケーションを起動するための命令を取得するように、ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、前記音声データをクラウドサーバに送信し、
好ましくは、ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、クラウドサーバが音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。

好ましくは、スマートテレビのＤｕｅｒＯＳ音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開けていないことである。ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、当該クラウドが音声認識および意味解析を行うように、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信する。具体的には、通常、ウェイクアップ時点後の５Ｓ内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。

第１の音声データ受信及び処理モジュール４１は、アコースティックエコー除去（ＡＥＣ：ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ）アルゴリズムを使用してユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制（ＮＳ：ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解析された内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。

好ましくは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、第１の音声データ受信及び処理モジュール４１は、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに対する制御命令語句を、記憶するためのものである。

第１の命令送信モジュール４２の好ましい実現形態において、
第１の命令送信モジュール４２は、インタラクションシステムが、前記命令を実行して、第三者アプリケーションを起動するように、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返し、
ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、受信された命令情報に従って、対応の第三者アプリケーションを開く。

第２の音声データ受信及び処理モジュール４３の好ましい実現形態において、
第２の音声データ受信及び処理モジュール４３は、インタラクションシステムによって送信された、第三者アプリケーションが起動された後に、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得する。

ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、第三者アプリケーションが起動された後に、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得するように、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信する。

好ましくは、ウェイクアップされた後に、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。

第２の音声データ受信及び処理モジュール４３は、アコースティックエコー除去（ＡＥＣ：ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ）アルゴリズムを使用してユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制（ＮＳ：ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。

好ましくは、前記音声データに前記第三者アプリケーションの識別子がバインドされているため、第２の音声データ受信及び処理モジュール４３前記第三者アプリケーションの識別子に基づいて前記第三者アプリケーションに対応する命令ライブラリを検索し、対応の対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであり、ユーザが前記第三者アプリケーションに対して発話可能の制御命令語句を記憶するためのものである。

例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、次の曲へ」であると、第２の音声データ受信及び処理モジュール４３認識得到「次の曲へ」との命令情報に返すＤｕｅｒＯＳ音声インテリジェントインタラクションシステム。

前記音声データに前記第三者アプリケーションの識別子がバインドされているため、第２の音声データ受信及び処理モジュール４３は、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムが前記第三者アプリケーションの識別子に基づいて前記命令を前記第三者アプリケーションに転送するように、検索された命令を前記第三者アプリケーションの識別子とバインドしてＤｕｅｒＯＳ音声インテリジェントインタラクションシステムに返す。

第２の命令送信モジュール４３の好ましい実現形態において、第２の命令送信モジュール４３は、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返すことで、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させる。

ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記第三者アプリケーションが前記命令を実行するように、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。

好ましくは、ＤｕｅｒＯＳ音声インテリジェントインタラクションシステムは、前記第三者アプリケーションが前記命令を実行するように、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送する。

説明の便宜および簡潔さのために、前記に説明された端末およびサーバの具体的な作業過程は、前記の方法の実施例中の対応する過程を参考すればよく、ここでは繰り返して説明しないことを当業者は明確に理解できる。

本願によって提供されるいくつかの実施例において、開示された方法および装置は他の方法で実現されてもよいことが理解されるべきである。例えば、上述した装置実施例は単なる例示であり、例えば、前記ユニットの分割は論理的な機能分割のみであり、実際の実施においては他の分割方法、例えば複数のユニットまたは構成要素がもう一つのシステムに組み合わされるかまたは統合されてもよく、或いは、いくつかの特徴を無視するかまたは実行しなくてもかまわない。また、図示または検討した相互結合、直接結合、または、通信接続は、いくつかのインターフェース、装置、ユニットを介する間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。

前記の分離された部品として説明されたユニットは、物理的に分離されてもされなくてもよく、ユニットとして示した部品は、物理ユニットでもそうでなくてもよい。すなわち、一箇所に位置されても複数のネットワークユニットに分配されてもよい。実際の必要に応じて、その中の一部または全部のユニットを選択して本実施例の構成の目的を実現してもよい。

また、本願の各実施例中の各機能ユニットは、一つの処理ユニット中に統合されても、物理的に別々に存在していても、二つ以上のユニットが一つのユニット中に統合されてもよい。統合された前記ユニットは、ハードウェアの形で、またはハードウェアとソフトウェアの機能ユニットの形で実現されてもよい。

図５は、本発明の実施形態を実現するための例示的なコンピュータシステム／サーバ０１２のブロック図である。図５に示すコンピュータシステム／サーバ０１２は、単なる例示であり、本発明の実施例の機能および使用範囲に制限を加えるものではない。

図５に示すように、コンピュータシステム／サーバ０１２は、汎用計算装置の形態で具体化されている。コンピュータシステム／サーバ０１２の構成要素は、一つまたは複数のプロセッサまたは処理ユニット０１６と、システムメモリ０２８と、互いに異なるシステム構成要素（システムメモリ０２８と処理ユニット０１６とを含む）を接続するバス０１８とを備えるが、これらに限定されない。

バス０１８は、メモリバスまたはメモリコントローラ、周辺バス、グラフィックスアクセラレーションポート、プロセッサ、またはさまざまなバス構造のいずれかを使用するローカルバスを含む、いくつかのタイプのバス構造のうちの１つまたは複数を表す。例えば、これらのアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＡＣ）バス、拡張ＩＳＡバス、ビデオエレクトロニクス標準協会（ＶＥＳＡ）ローカルバス、および周辺構成要素相互接続（ＰＣＩ）バスが含まれるが、これらに限定されない。

コンピュータシステム／サーバ０１２は、通常、様々なコンピュータシステム可読媒体を含む。これらの媒体は、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体を含む、コンピュータシステム／サーバ０１２によってアクセスされ得る任意の利用可能な媒体であってもよい。

メモリ０２８は、ランダムアクセスメモリ（ＲＡＭ）０３０及び／又はキャッシュメモリ０３２などの揮発性メモリの形態のコンピュータシステム可読媒体を含んでもよい。コンピュータシステム／サーバ０１２は、他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータシステム記憶媒体をさらに含んでもよい。ほんの一例として、記憶システム０３４は、取り外し不能の不揮発性磁気媒体（図５には示されず、一般に「ハードディスクドライブ」と呼ばれる）を読み書きするために使用されてもよい。図５には示されていないが、取り外し可能の不揮発性磁気ディスク（例えば、「フロッピーディスク」）に読み書きするための磁気ディスクドライブ、および取り外し可能の不揮発性光ディスク（例えば、ＣＤ−ＲＯＭ,ＤＶＤ−ＲＯＭまたは他の光学式媒体）に読み書きするための光ディスクドライブを提供してもよい。これらの場合、各ドライブは、一つまたは複数のデータ媒体インターフェースを介してバス０１８に接続されてもよい。メモリ０２８は、本発明の各実施例の機能を実行するように構成されたプログラムモジュールのセット（例えば、少なくとも一つの）を有する少なくとも一つのプログラム製品を含んでもよい。

１セット（少なくとも一つ）のプログラムモジュール０４２を有するプログラム／ユーティリティ０４０は、例えば、メモリ０２８に記憶されてもよい。このようなプログラムモジュール０４２は、オペレーティングシステム、一つまたは複数のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータを含むが、これらに限定されない。これらの例のそれぞれまたはいくつかの組み合わせには、ネットワーク環境の実装が含まれてもよい。プログラムモジュール０４２は、通常、本発明に記載された実施例の機能及び／又は方法を実行する。

コンピュータシステム／サーバ０１２は、また、一つまたは複数の外部装置１４（例えば、キーボード、ポインティングデバイス、ディスプレイ０２４など）と通信してもよく、ユーザが当該外部装置とインタラクションするようにする一つまたは複数の装置と通信してもよく、及び／又は、当該コンピュータシステム／サーバ０１２が一つまたは複数の他の計算装置と通信するようにする任意の装置（例えば、ネットワークカード、モデムなど）と通信してもよい。このような通信は、入出力（Ｉ／Ｏ）インターフェース０２２を介して行われてもよい。また、コンピュータシステム／サーバ０１２は、ネットワークアダプタ０２０を介して、一つまたは複数のネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及び／又は、インターネットなどの公衆ネットワーク）と通信してもよい。図示のように、ネットワークアダプタ０２０は、バス０１８を介してコンピュータシステム／サーバ０１２の他のモジュールと通信する。図面には示されていないが、コンピュータシステム／サーバ０１２に結び付けて、他のハードウェア及び／又はソフトウェアモジュールを使用してもよく、これらのハードウェア及び／又はソフトウェアモジュールは、マイクロコード、デバイスドライブ、冗長処理ユニット、外部磁気ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、およびデータバックアップストレージシステムなどを含むが、これらに限定されないことを理解されたい。

処理ユニット０１６は、システムメモリ０２８に記憶されたプログラムを実行することによって、様々な機能アプリケーションおよびデータ処理を実行し、例えば、本発明の実施例によって提供されるテキストリハーサル方法を実現する。

上記のコンピュータプログラムは、コンピュータ記憶媒体に設置されてもよく、すなわち、当該コンピュータ記憶媒体にコンピュータプログラムが符号化されてもよい。当該プログラムが一つまたは複数のコンピュータによって実行されると、一つまたは複数のコンピュータが本発明の上記実施例に示された方法の流れ及び／又は装置の動作が実行される。

時間と技術の発展に伴い、媒体の意味はますます広がり、コンピュータプログラムの伝送経路は有形のメディアに制限されず、ネットワークから直接ダウンロードしてもよい。また、一つまたは複数のコンピュータ読み取り可能な媒体の任意の組み合わせを使用してもよい。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子、磁気、光、電磁気、赤外線、または半導体のシステム、装置、またはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例（非網羅的リスト）には、一つまたは複数のワイヤを有する電気接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ(ＲＯＭ)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスク読み出し専用メモリ(ＣＤ−ＲＯＭ)、光記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせが含まれる。本明細書では、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶することができる任意の有形の媒体であってもよい。当該プログラムは、命令実行システム、装置、またはデバイスによって使用されること、または、これらと結びつけて使用されてもよい。

コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードを搬送するための、ベースバンド内で伝搬されるかまたは搬送波の一部として伝搬されるデータ信号を含んでもよい。このように伝搬されるデータ信号は、電磁気信号、光信号、または上記の任意の適切な組み合わせなどの様々な形態を含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体は、また、命令実行システム、装置、またはデバイスによって使用されるかまたはこれらと結びつけて使用されるためのプログラムを送信、伝搬、または伝送することができる、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよい。

コンピュータ読み取り可能な媒体に含まれたプログラムコードは、無線、ワイヤ、光ファイバケーブル、ＲＦなど、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送してもよい。

本発明の動作を実行するためのコンピュータプログラムコードは、一つまたは複数のプログラミング言語またはそれらの組み合わせでコーディングしてもよい。前記プログラミング言語は、Ｊａｖａ（登録商標）、ＳｍａｌｌｔａｌＫ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、また、「Ｃ」言語または類似のプログラミング言語などの従来の手続き型プログラミング言語も含む。プログラムコードは、完全にユーザコンピュータ上で実行されるか、一部がユーザコンピュータ上で実行されるか、一つの単独のソフトウェアパッケージとして実行されるか、一部がユーザコンピュータ上で実行され、もう一部分がリモートコンピュータ上で実行されるか、または、完全にリモートコンピュータまたはサーバ上で実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(ＬＡＮ)またはワイドエリアネットワーク(ＷＡＮ)を含む任意の種類のネットワークを介してユーザコンピュータに接続してもよいし、または、（例えば、インターネットを介して接続するインターネットサービスプロバイダを使用して）外部コンピュータに接続してもよい。

本願によって提供されるいくつかの実施例において、開示された方法および装置は他の方法で実現されてもよいことが理解されるべきである。例えば、上述した装置実施例は単なる例示であり、例えば、前記ユニットの分割は論理的な機能分割のみであり、実際の実施においては他の分割方法、例えば複数のユニットまたは構成要素がもう一つのシステムに組み合わされるかまたは統合されてもよく、或いは、いくつかの特徴を無視するかまたは実行しなくてもよい。また、図示または検討した相互結合、直接結合、または、通信接続は、いくつかのインターフェース、装置、ユニットを介する間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。

前記の分離された部品として説明されたユニットは、物理的に分離されてもされなくてもよく、ユニットとして示した部品は、物理ユニットでもそうでなくてもよい。すなわち、一箇所に位置されても複数のネットワークユニットに分配されてもよい。実際の必要によって、その中の一部または全部のユニットを選択して本実施例の構成の目的を実現してもよい。

最後に、上記の実施例は、本発明の技術案を説明するために使用されるだけであり、本発明の技術案を限制しないことを、説明すべきである。本発明を前記の実施例を参照して詳細に説明したが、当業者であれば、前記の各実施例に記載された技術案を、変更したり、その中の一部の技術特徴を同等に置き換えたりすることができるが、これら変更または置き換えは、対応する技術案の本質が、本発明の各実施例の技術案の精神および範囲から逸脱するようにしないことを理解すべきである。

Claims

第三者アプリケーションのインタラクション方法であって、
クラウドサーバが、音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、インタラクションシステムが、ユーザが発した前記音声データを受信し、前記音声データをクラウドサーバに送信するステップと、
前記インタラクションシステムが、クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するステップと、を含むことを特徴とする第三者アプリケーションのインタラクション方法。
前記音声データをクラウドサーバに送信するステップは、
前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、
バインドされている場合、前記音声データを前記第三者アプリケーションの識別子にバインドして、クラウドサーバに送信し、
バインドされていない場合、前記音声データをクラウドサーバに送信するステップを含むことを特徴とする請求項１に記載の方法。
前記クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップは、
前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバは第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバはインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索するステップを含むことを特徴とする請求項２に記載の方法。
クラウドサーバから返された命令を受信するステップは、
クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、
クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信するステップを含むことを特徴とする請求項３に記載の方法。
前記インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するステップは、
インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するか、または、インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するステップを含むことを特徴とする請求項４に記載の方法。
前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に前記インタラクションシステムに登録されたものであることを特徴とする請求項２に記載の方法。
前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであることを特徴とする請求項３に記載の方法。
第三者アプリケーションのインタラクション方法であって、
クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信するステップと、
前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップと、
インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するように、前記命令をインタラクションシステムに返すステップと、を含むことを特徴とする第三者アプリケーションのインタラクション方法。
前記インタラクションシステムに第三者アプリケーションがバインドされている場合、前記音声データは前記第三者アプリケーションの識別子にバインドされ、
前記インタラクションシステムに第三者アプリケーションがバインドされていない場合、前記音声データは前記第三者アプリケーションの識別子にバインドされないことを特徴とする請求項８に記載の方法。
前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを特徴とする請求項９に記載の方法。
インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するように、前記命令をインタラクションシステムに返すステップは、
インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すか、または、
インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返すステップを含むことを特徴とする請求項１０に記載の方法。
第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってアップロードされたものであることを特徴とする請求項８に記載の方法。
第三者アプリケーションのインタラクションシステムであって、
クラウドサーバが、音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、ユーザが発した前記音声データを受信し、前記音声データをクラウドサーバに送信するための音声データ送信モジュールと、
クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するための命令受信モジュールと、を備えることを特徴とする第三者アプリケーションのインタラクションシステム。
前記音声データ送信モジュールは、具体的には、
前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、
バインドされている場合、前記音声データを前記第三者アプリケーションの識別子にバインドして、クラウドサーバに送信し、
バインドされていない場合、前記音声データをクラウドサーバに送信することを特徴とする請求項１３に記載のシステム。
前記クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得することは、
前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバは、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバはインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを含むことを特徴とする請求項１４に記載のシステム。
前記命令受信モジュールは、具体的には、
クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、
クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信することを特徴とする請求項１５に記載のシステム。
前記命令受信モジュールは、具体的には、
前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するか、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行することを特徴とする請求項１６に記載のシステム。
前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に前記インタラクションシステムに登録されたものであることを特徴とする請求項１４に記載のシステム。
前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであることを特徴とする請求項１５に記載のシステム。
第三者アプリケーションのインタラクションシステムであって、
インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するための音声データ受信及び処理モジュールと、
インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するように、前記命令をインタラクションシステムに返すための命令送信モジュールと、を備えることを特徴とする第三者アプリケーションのインタラクションシステム。
前記インタラクションシステムに第三者アプリケーションがバインドされている場合、前記音声データは前記第三者アプリケーションの識別子にバインドされ、
前記インタラクションシステムに第三者アプリケーションがバインドされていない場合、前記音声データは前記第三者アプリケーションの識別子にバインドされないことを特徴とする請求項２０に記載のシステム。
前記音声データ受信及び処理モジュールは、具体的には、
前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを特徴とする請求項２１に記載のシステム。
前記命令送信モジュールは、具体的には、
インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すか、または、
インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返すことを特徴とする請求項２２に記載のシステム。
第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってアップロードされたものであることを特徴とする請求項２０に記載のシステム。
メモリと、
プロセッサと、
前記メモリに記憶され、前記プロセッサで実行可能なコンピュータプログラムと、を備えるコンピュータ機器であって、
前記プロセッサが前記プログラムを実行する場合、請求項１から１２のいずれかに記載の方法が実現されることを特徴とするコンピュータ機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項１から１２のいずれかに記載の方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。