JP2020004376A - 第三者アプリケーションのインタラクション方法、及びシステム - Google Patents

第三者アプリケーションのインタラクション方法、及びシステム Download PDF

Info

Publication number
JP2020004376A
JP2020004376A JP2019044357A JP2019044357A JP2020004376A JP 2020004376 A JP2020004376 A JP 2020004376A JP 2019044357 A JP2019044357 A JP 2019044357A JP 2019044357 A JP2019044357 A JP 2019044357A JP 2020004376 A JP2020004376 A JP 2020004376A
Authority
JP
Japan
Prior art keywords
party application
command
interaction system
identifier
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019044357A
Other languages
English (en)
Other versions
JP6956126B2 (ja
Inventor
ドゥ,ビンユェン
Binyuan Du
イェン ヂャン,
Yan Zhang
イェン ヂャン,
ポン ユェン,
Peng Yuan
ポン ユェン,
リャンユー チャン,
Liangyu Chang
リャンユー チャン,
ロンロン ティエン,
Longlong Tian
ロンロン ティエン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2020004376A publication Critical patent/JP2020004376A/ja
Application granted granted Critical
Publication of JP6956126B2 publication Critical patent/JP6956126B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/53Network services using third party service providers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声を利用して第三者アプリケーションへの制御を実現することができる、第三者アプリケーションのインタラクション方法、及びシステムを提供する。【解決手段】第三者アプリケーションのインタラクション方法において、インタラクションシステムは、ユーザが発した音声データを受信し、クラウドサーバに送信するステップS13と、クラウドサーバから返された命令を受信し、命令を第三者アプリケーションに転送して実行させるか、または、命令を直接実行するステップS14とを備える。クラウドサーバは、インタラクションシステムから音声データを受信するステップと、音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップと、命令をインタラクションシステムに返すステップとを備える。【選択図】図1

Description

本発明は、コンピュータアプリケーション技術に関し、特に、第三者アプリケーションのインタラクション方法、及びシステムに関する。
時代の発展と共に、テレビ画面の鮮明度は大幅に向上し、優れた解像度はテレビにビデオ画面を再生する時に、かなりの優勢をもたらしている。テレビは、もはや単純にテレビ番組を見るだけでなく、ビデオ、エンターテインメント、ゲーム、テレビ番組のためのプラットフォームへと進化した。現在のスマートテレビは、インテリジェントインタラクション型のインタラクションシステムを統合しており、ユーザは自然に人間の言語でスマートテレビとインタラクションすることができる。音声インタラクション方法の変化はまた、テレビアプリケーションに無限の想像力を与え、テレビに極めて大きい想像空間をもたらした。テレビは、大画面が優勢であることを利用して、順調に、音声ゲームプラットフォーム、音声エンターテインメントプラットフォームなどになり、そして、テレビアプリケーションにインテリジェント音声インタラクション能力を与えた。
しかし、テレビエンドアプリケーションは、音声インタラクション能力が乏しい。音声で第三者アプリケーションを起動する際に、次のインタラクションは、リモコンコントローラで実行するしかなく、音声を利用して第三者アプリケーションとインタラクションできないため、スマートテレビのユーザ体験が制限される。
本願の複数の態様は、音声を利用して第三者アプリケーションへの制御を実現することができる、第三者アプリケーションのインタラクション方法、及びシステムを提供する。
本願の一つの態様において、第三者アプリケーションのインタラクション方法を提供する。当該方法は、インタラクションシステムは、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信するステップと、前記インタラクションシステムが、クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するステップと、を含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、音声データをクラウドサーバに送信するステップは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、前記音声データを前記第三者アプリケーションの識別子にバインドして、クラウドサーバに送信し、バインドされていない場合、前記音声データをクラウドサーバに送信するステップを含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップは、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバは、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバは、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索するステップを含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、クラウドサーバから返された命令を受信するステップは、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信するステップを含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションが前記命令を実行するように、前記インタラクションシステムが、前記命令を第三者アプリケーションに転送するか、または、前記インタラクションシステムが直接前記命令を実行するステップは、前記インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションにより前記命令を実行するか、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するステップを含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に、前記インタラクションシステムに登録されたものである。
上記の態様およびいずれか一つの実現可能な形態においてと、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものである。
本願のもう一つの態様において、第三者アプリケーションのインタラクション方法を提供する。前記方法は、クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信するステップと、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップと、インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるように、前記命令を前記インタラクションシステムに返すこと、または、前記インタラクションシステムが直接前記命令を実行するステップと、を含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記インタラクションシステムに第三者アプリケーションがバインドされている場合、前記音声データに前記第三者アプリケーションの識別子がバインドされており、前記インタラクションシステムに第三者アプリケーションがバインドされていない場合、前記音声データに前記第三者アプリケーションの識別子がバインドされていない。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるように、前記命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが直接前記命令を実行するステップは、前記インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返すステップを含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってアップロードされたものである。
本発明のもう一つの態様において、第三者アプリケーションのインタラクションシステムを提供する。前記システムは、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、受信ユーザが発した音声データ、前記音声データをクラウドサーバに送信するための音声データ送信モジュールと、前記第三者アプリケーションが前記命令を実行するように、前記インタラクションシステムが、クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送するか、または、前記インタラクションシステムが直接前記命令を実行するための命令受信モジュールと、を備える。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記音声データ送信モジュールは、具体的には、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、前記音声データに前記第三者アプリケーションの識別子をバインドして、前記音声データをクラウドサーバに送信し、バインドされていない場合、前記音声データをクラウドサーバに送信する。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得することは、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバにより、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバにより、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記命令受信モジュールは、具体的には、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信する。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記命令受信モジュールは、具体的には、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションにより前記命令を実行するか、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行する。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に前記インタラクションシステムに登録されたものである。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものである。
本願のもう一つの態様において、第三者アプリケーションのインタラクションシステムを提供する。前記システムは、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するための音声データ受信及び処理モジュールと、インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるように、前記命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが直接前記命令を実行するための命令送信モジュールと、を含む。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記インタラクションシステムに第三者アプリケーションがバインドされている場合、前記音声データに前記第三者アプリケーションの識別子がバインドされており、前記インタラクションシステムに第三者アプリケーションがバインドされていない場合、前記音声データに前記第三者アプリケーションの識別子がバインドされていない。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記音声データ受信及び処理モジュールは、具体的には、前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。
上記の態様およびいずれか一つの実現可能な形態において、一つの実現形態をさらに提供する。当該実現形態において、前記命令送信モジュールは、具体的には、前記インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すこと、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返す。
本発明のもう一つの態様において、コンピュータ機器を提供する。当該コンピュータ機器は、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサで実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行する場合、上記の方法を実現する。
本発明のもう一つの態様において、コンピュータ読み取り可能な記憶媒体を提供する。当該コンピュータ読み取り可能な記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行される場合、上記の方法が実現される。
上記の説明から分かるように、本発明の前記構成を採用することにより、ユーザの両手が解放され、手動操作なしで音声を利用して第三者アプリケーションに対する制御を実現することができる。これにより、ユーザの操作の利便性を向上させ、ユーザ体験を向上させることができる。
本発明に係る第三者アプリケーションのインタラクション方法のフローチャートである。 本発明に係る第三者アプリケーションのインタラクション方法のフローチャートである。 本発明に係る第三者アプリケーションのインタラクションシステムの構成図である。 本発明に係る第三者アプリケーションのインタラクションシステムの構成図である。 本発明の実施形態を実現するための例示的なコンピュータシステム/サーバ012を示すブロック図である。
以下、本願の実施例の目的、技術案、および、利点をより明確にするため、本願の実施例の図面に関連して、本願の実施例の技術案を、明確かつ完全に説明する。当然ながら、説明する実施例は、本願の一部の実施例に過ぎず、全部の実施例ではない。当業者によって本願の実施例に基づいて創造的な労働なしに得られるすべての他の実施例は、いずれも本願の保護範囲に属する。
図1は、本発明に係る第三者アプリケーションのインタラクション方法の実施例のフローチャートであり、スマートテレビにインストールされたインタラクションシステムに応用される。図1に示すように、以下のステップS11〜S14を含んでもよい。
ステップS11において、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、インタラクションシステムが、ユーザが発した第三者アプリケーションを起動するための音声データを受信して前記音声データをクラウドサーバに送信し、対応の第三者アプリケーションを起動するための命令を取得する。
ステップS12において、インタラクションシステムが、クラウドサーバから返された第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。
ステップS13において、インタラクションシステムが第三者アプリケーションを起動した後に、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、ユーザが発した音声データを受信して前記音声データをクラウドサーバに送信し、第三者アプリケーションに対して操作を行うための命令を取得する。
ステップS14において、前記第三者アプリケーションが前記命令を実行するように、インタラクションシステムが、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信し、前記第三者アプリケーションに転送する。
本実施例の実行主体は、スマートテレビにインストールされたDuerOS音声インテリジェントインタラクションシステムであり、前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続手段によってクラウドサーバと接続される。
DuerOSスキルオープンプラットフォームは、英語のフルネームはDuerOS Bots Platformであり、DuerOS音声インテリジェントインタラクションシステムにより第三者である開発者に一連のスキル開発、テスト、展開ツールを提供するためのオープンプラットフォームである。第三者である開発者は、プラットフォーム上で、ビジュアルインターフェースを介して、さまざまな個人化されたスキルを、簡単かつ効率的に開発することができる。好ましくは、第三者である開発者は、事前に、DuerOSスキルオープンプラットフォーム、すなわちクラウドサーバに、カスタムされたBotを開発し、それをオンラインで展開して、第三者アプリケーションに対する音声制御を実現する必要がある。
網易(登録商標)クラウドミュージック(NetEase Cloud Music)を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをDuerOSスキルオープンプラットフォームに展開できる。DuerOS音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、DuerOSスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行い、前記音声命令をDuerOSスキルオープンプラットフォームに送信してユーザの意図を取得する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、DuerOS音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、ユーザの意図を実現するように、DuerOS音声スマートインタラクションシステムに前記スキルに対応する命令を発する。
好ましくは、ユーザは、音声を利用してスマートテレビのDuerOSにインストールされた第三者アプリケーションとインタラクションする場合、まず、スマートテレビのDuerOSをウェイクアップして、第三者アプリケーションを開く必要がある。
ユーザは、「度ちゃん度ちゃん、網易クラウドミュージックを開いて」とのような音声命令をスマートテレビに発することによって、スマートテレビのDuerOSをウェイクアップし、DuerOSが自身に予めインストールされた第三者アプリケーションを開くように指示する。
ステップS11の好ましい実現形態において、DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、前記音声データをクラウドサーバに送信して対応の第三者アプリケーションを起動するための命令を取得する。好ましくは、ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。
好ましくは、スマートテレビのDuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開けていないことである。DuerOS音声インテリジェントインタラクションシステムは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信して当該クラウドが音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
クラウドサーバは、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理、すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
好ましくは、クラウドサーバは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記DuerOS音声インテリジェントインタラクションシステムに対する制御命令語句を記憶するためのものである。
例えば、クラウドサーバは、ユーザが入力した音声命令が「度ちゃん度ちゃん、網易クラウドミュージックを開いて」である場合には、「網易クラウドミュージックを開く」との命令情報を認識して、DuerOS音声インテリジェントインタラクションシステムに返す。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに対して操作するか、または、第三者アプリケーションのカスタムされたスキルを呼び出すために、ユーザによってウェイクアップされる必要がある。
スマートテレビは、オーディオデータを受信し、信号処理モジュールを利用してウェイクアップ検出を行い、ユーザが発したウェイクアップ命令を受信して、DuerOS音声インテリジェントインタラクションシステムをウェイクアップする。当該処理は、以下のサブステップA〜Cを含む。
サブステップAにおいて、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集することによって、ウェイクアップ検出を行う。
好ましくは、前記マイクロフォン常にピックアップ状態(オーディオデータに対してサンプリングおよび定量化を行い続ける)にあり、スマートテレビが位置する環境内のオーディオデータを収集することによって、ウェイクアップ検出を行う。
好ましくは、音声収集ユニットは、必要によって、例えばスマートテレビの電力消費を低減するために、10msなどの所定の周期に従って、スマートテレビが位置する環境内のオーディオデータを収集して、検出を行ってもよい。前記定期的な音量検出の周期は、スマートテレビが工場から出荷されるときに予め設定されてもよく、または、ユーザにより自身の必要によって設定されてもよい。
本実施例において、前記オーディオデータを、スマートテレビが位置する環境で、マイクロフォンが収集できる任意の音声に対応する情報であると理解してもよく、例えば、ユーザを含む人が発した音声、環境ノイズなどの、前記マイクロフォンが収集できるものであればよい。
オーディオデータの収集過程において、機器の性能の違い、音源から音声収集ユニットまでの距離の遠さ、および、音声収集ユニットが単一のマイクロフォンをサポートするかマイクロフォンアレイをサポートするかによって、音声の効果が変わる。総体的に見ると、音声収集ユニットの性能が高いほど、また、音源から音声収集ユニットまでの距離が短いほど、また、単一のマイクロフォンの代わりに効果的なマイクロフォンアレイを採用する方が、より完全な特徴を取得することができ、認識されるオーディオデータにはより有利である。例えば、遠距離(>5m)ウェイクアップまたは認識をサポートするには、マイクロフォンアレイを使用する時の性能が、単一のマイクロフォンを使用する時の性能よりも、はるかに優れる。スマートテレビとユーザとの間の距離が一般的により遠く、遠距離環境であるため、本実施例において、マイクロフォンアレイを採用してオーディオデータを収集する。
サブステップBにおいて、収集されたオーディオデータに対して、音声検出を行う。
信号処理ユニットの音声検出モジュールを使用して、マイクロフォンによって収集されたオーディオデータに対して、音声検出(VAD:Voice Activity Detection)を行って、オーディオ信号の音声セグメントの開始位置を正確に検出することができるため、音声セグメントと非音声セグメント(ミュートまたはノイズ)信号とを分離することができる。
VADはスマートテレビローカルでリアルタイムに行われる必要があり、それに、運算リソースが非常に限られているため、閾値に基づくVADが一般的に採用され、工学的に最適化された分類法もまた使用され得る。
収集されたオーディオデータに対して音声検出を行うことによって、その中の音声セグメントを検出し、音声セグメントのみに対してウェイクアップ検出を行うことによって、電力消費を低下することができる。
サブステップCにおいて、検出された音声セグメント情報に対して、ウェイクアップ検出を行う。
まず、検出された音声セグメント情報に対して、特徴抽出を行う。検出された音声セグメント情報にはいくつかの問題がある可能があり、直接認識に使用することはできない。例えば、マイクロフォンによって収集されたオーディオデータには音響エコーが存在し、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用してアコースティックエコー除去を行う必要がある。特定環境で収集されたオーディオデータには特定のノイズが含まれるが、この場合、オーディオデータに対してノイズ抑制(NS:Noise Suppression)アルゴリズムによって環境ノイズを除去する必要がある。
そして、特定のデコーダを使用して、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果を取得する。デコーダデコーディング過程で、音響モデル、言語モデル、および、発音辞書が使用される。音響モデルの主な機能はオーディオ特徴を音節に変換することであり、言語モデルの主な機能は音節をテキストに変換することであり、発音辞書は音節からテキストへのマッピングテーブルを提供する。
目標が単一なので(指定されたウェイクアップ単語のみを検出する必要がある)、ウェイクアップ検出には、より小さな音響モデル、言語モデル、および、発音辞書が必要となる(ウェイクアップ単語の出現の有無のみを区別する必要がある)。
収集されたオーディオデータがウェイクアップ単語を含むと決定された場合、DuerOS音声インテリジェントインタラクションシステムをウェイクアップして、DuerOS音声インテリジェントインタラクションシステムが次の動作を実行する。
ステップS12の好ましい実現形態において、インタラクションシステムが、クラウドサーバから返された、第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。
DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って、対応の第三者アプリケーションを開く。
DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って対応の第三者アプリケーションを開いた後に、第三者アプリケーションのバインド、認証、および、登録namespace(名前空間登録)が許可されることが好ましい。
第三者アプリケーションをDuerOS音声インテリジェントインタラクションシステムにバインドした後に、前記第三者アプリケーションはフォアグラウンドで実行される。前記第三者アプリケーションを終了するときは、前記第三者アプリケーションとDuerOS音声インテリジェントインタラクションシステムとをアンバインドする必要がある。
第三者アプリケーションは、前記第三者アプリケーションの識別子として、namespace登録を行う。
好ましくは、DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後に受信された音声データは、DuerOS音声インテリジェントインタラクションシステムを操作するためにユーザが発した音声データであってもよく、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って対応する命令を得、前記音声データをクラウドサーバに送信して、DuerOS音声インテリジェントインタラクションシステムが前記命令を実行する。
ステップS13の好ましい実現形態において、DuerOS音声インテリジェントインタラクションシステムが、第三者アプリケーションが起動された後に、クラウドサーバが、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信して前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得する。
ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングすることが好ましい。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、キャッシングされたウェイクアップ時点後のオーディオデータを、前記第三者アプリケーションの識別子とバインドして、クラウドに送信して音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
好ましくは、前記第三者アプリケーションの識別子は、前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムに登録したnamespaceである。
クラウドサーバは、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
前記音声データに前記第三者アプリケーションの識別子がバインドされているため、クラウドサーバは、前記第三者アプリケーションの識別子に基づいて前記第三者アプリケーションに対応する命令ライブラリを検索し、対応する命令ライブラリ内で前記音声データに対応する命令を検索することが好ましい。前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであり、ユーザが前記第三者アプリケーションに対して発話可能の制御命令語句を記憶するためのものである。
例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、次の曲へ」であると、クラウドサーバは、「次の曲へ」との命令情報を認識してDuerOS音声インテリジェントインタラクションシステムに返す。
前記音声データに前記第三者アプリケーションの識別子がバインドされているため、クラウドサーバは、DuerOS音声インテリジェントインタラクションシステムが前記第三者アプリケーションの識別子に基づいて前記命令を前記第三者アプリケーションに転送するように、検索された命令を前記第三者アプリケーションの識別子とバインドしてDuerOS音声インテリジェントインタラクションシステムに返す。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに対して操作するか、または、第三者アプリケーションのカスタムされたスキルを呼び出すために、ユーザによってウェイクアップされる必要がある。
ステップS14の好ましい実現形態において、DuerOS音声インテリジェントインタラクションシステムは、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送することで前記第三者アプリケーションが前記命令を実行する。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送することで、前記第三者アプリケーションが前記命令を実行する。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、前記命令を所前記第三者アプリケーションに転送する前に、まず、前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされているか否かを判断する。例えば、網易クラウドミュージック(NetEase Cloud Music)がすでに終了されたか否かを判断する。前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされている場合、前記命令を直接前記第三者アプリケーションに送信し、前記第三者アプリケーションによって前記命令を実行された後、前記第三者アプリケーションの前記命令の実行結果を受信する。前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムとバインドされていない場合、ユーザに、「前記第三者アプリケーションが既に終了しましたので、前記第三者アプリケーションを再度起動してください」と、プロンプトする。
上記の説明から分かるように、上記実施例の前記方法を採用すると、ユーザの両手が解放され、リモコンコントローラを使用して第三者アプリケーションとインタラクションする必要がなくなり、操作過程全体のスマート音声インタラクションを実現し、ユーザの操作の利便性を向上させ、ユーザ体験を向上させる。
図2は、本発明に係る第三者アプリケーションのインタラクション方法の実施例のフローチャートであり、クラウドサーバに応用される。図2に示すように、以下のステップS21〜S24を含む。
ステップS21において、クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、対応の第三者アプリケーションを起動するための命令を取得する。
ステップS22において、クラウドサーバが、インタラクションシステムが前記命令を実行して第三者アプリケーションを起動するように、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返す。
ステップS23において、クラウドサーバが、インタラクションシステムによって送信された、第三者アプリケーションが起動された後に、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得する。
ステップS24において、クラウドサーバが、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返し、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させる。
本実施例の実行主体は、クラウドサーバである。前記インタラクションシステムは、スマートテレビにインストールされたDuerOS音声インテリジェントインタラクションシステムである。前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続手段によってクラウドサーバと接続される。
DuerOSスキルオープンプラットフォームは、英語のフルネームはDuerOS Bots Platformであり、DuerOS音声インテリジェントインタラクションシステムにより第三者開発者に一連のスキル開発、テスト、展開ツールを提供するためのオープンプラットフォームである。第三者開発者は、プラットフォーム上で、ビジュアルインターフェースを介して、さまざまな個人化されたスキルを、簡単かつ効率的に開発することができる。好ましくは、第三者開発者は、事前に、DuerOSスキルオープンプラットフォームすなわちクラウドサーバ上で、カスタムされたBotを開発し、それをオンラインで展開して、第三者アプリケーションに対する音声制御を実現する必要がある。
網易クラウドミュージック(NetEase Cloud Music)を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをDuerOSスキルオープンプラットフォームに展開できる。DuerOS音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、DuerOSスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行い、前記音声命令をDuerOSスキルオープンプラットフォームに送信することでユーザの意図を取得する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、DuerOS音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、ユーザの意図を実現するように、DuerOS音声スマートインタラクションシステムに前記スキルに対応する命令を発する。
好ましくは、ユーザは、音声を利用してスマートテレビのDuerOSにインストールされた第三者アプリケーションとインタラクションする場合、まず、スマートテレビのDuerOSをウェイクアップして、第三者アプリケーションを開く必要がある。
ユーザは、「度ちゃん度ちゃん、網易クラウドミュージックを開いて」とのような音声命令をスマートテレビに発することによって、スマートテレビのDuerOSをウェイクアップし、DuerOS自体に予めインストールされた第三者アプリケーションを開くように指示する。
ステップS21の好ましい実現形態において、スマートテレビは、収集されたオーディオデータがウェイクアップ単語を含むと決定すると、DuerOS音声インテリジェントインタラクションシステムをウェイクアップして、DuerOS音声インテリジェントインタラクションシステムが次の動作を実行する。
DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後、ユーザが発した、第三者アプリケーションをウェイクアップするための音声データを受信し、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、前記音声データをクラウドサーバに送信することで対応の第三者アプリケーションを起動するための命令を取得する。好ましくは、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングすることで、クラウドサーバが音声認識を行う。
好ましくは、スマートテレビのDuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開いていないことである。DuerOS音声インテリジェントインタラクションシステムは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信して当該クラウドが音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、対応の第三者アプリケーションを起動するための命令を取得する。
クラウドサーバは、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
クラウドサーバは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することが好ましい。前記DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記DuerOS音声インテリジェントインタラクションシステムに対する制御命令語句を、記憶するためのものである。
例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、網易クラウドミュージックを開いて」であると、クラウドサーバは「網易クラウドミュージックを開く」との命令を認識する。
ステップS22の好ましい実現形態において、インタラクションシステムが、前記命令を実行し、第三者アプリケーションを起動するように、クラウドサーバが、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返し、DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って、対応の第三者アプリケーションを開く。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って対応の第三者アプリケーションを開いた後に、第三者アプリケーションのバインド、認証、および、登録namespaceが許可される。
第三者アプリケーションをDuerOS音声インテリジェントインタラクションシステムにバインドした後に、前記第三者アプリケーションはフォアグラウンドで実行される。前記第三者アプリケーションを終了するときは、前記第三者アプリケーションとDuerOS音声インテリジェントインタラクションシステムとをアンバインドする必要がある。
第三者アプリケーションは、前記第三者アプリケーションの識別子として、namespace登録を行う。
好ましくは、DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後に受信された音声データは、DuerOS音声インテリジェントインタラクションシステムを操作するためにユーザが発した音声データであってもよく、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、対応する命令を取得するようにして、DuerOS音声インテリジェントインタラクションシステムが前記命令を実行するように、前記音声データをクラウドサーバに送信する。
ステップS23の好ましい実現形態において、クラウドサーバが、インタラクションシステムによって送信された、第三者アプリケーションが起動された後に第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得する。
DuerOS音声インテリジェントインタラクションシステムが、第三者アプリケーションが起動された後に、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、第三者アプリケーションに対して操作を行うための命令を取得するように、前記音声データをクラウドサーバに送信する。
好ましくは、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングして、クラウドサーバが音声認識を行う。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、キャッシングされたウェイクアップ時点後のオーディオデータを、前記第三者アプリケーションの識別子とバインドして、クラウドに送信して音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
好ましくは、前記第三者アプリケーションの識別子は、前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムに登録したnamespaceである。
クラウドサーバは、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
好ましくは、前記音声データに前記第三者アプリケーションの識別子がバインドされているため、クラウドサーバは、前記第三者アプリケーションの識別子に基づいて前記第三者アプリケーションに対応する命令ライブラリを検索し、対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであり、ユーザが前記第三者アプリケーションに対して発話可能の制御命令語句を記憶するためのものである。
例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、次の曲へ」であると、クラウドサーバは、「次の曲へ」との命令情報を認識してDuerOS音声インテリジェントインタラクションシステムに返す。
前記音声データに前記第三者アプリケーションの識別子がバインドされているため、DuerOS音声インテリジェントインタラクションシステムが前記第三者アプリケーションの識別子に基づいて前記命令を前記第三者アプリケーションに転送するように、クラウドサーバは、検索された命令を前記第三者アプリケーションの識別子とバインドしてDuerOS音声インテリジェントインタラクションシステムに返す。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに対して操作するか、または、第三者アプリケーションのカスタムされたスキルを呼び出すために、ユーザによってウェイクアップされる必要がある。
ステップS24の好ましい実現形態において、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させるように、クラウドサーバが、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返す。
前記第三者アプリケーションが前記命令を実行するように、DuerOS音声インテリジェントインタラクションシステムは、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。
好ましくは、前記第三者アプリケーションが前記命令を実行するように、DuerOS音声インテリジェントインタラクションシステムは、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送する。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、前記命令を前記第三者アプリケーションに転送する前に、まず、前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされているか否かを判断する。例えば、網易クラウドミュージック(NetEase Cloud Music)がすでに終了されたか否かを判断する。前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされている場合、前記命令を直接前記第三者アプリケーションに送信し、前記第三者アプリケーションによって前記命令を実行された後、前記第三者アプリケーションの前記命令の実行結果を受信する。前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムとバインドされていない場合、ユーザに、「前記第三者アプリケーションが既に終了しましたので、前記第三者アプリケーションを再度起動してください」と、プロンプトする。
上記の説明から分かるように、上記実施例の前記方法を採用すると、クラウドサーバは、音声データに第三者アプリケーションの識別子がバインドされているか否かに基づいて、音声認識および意味解析を行って得られた命令がインタラクションシステムに対応するかそれとも第三者アプリケーションに対応するか判断する。これにより、ユーザの両手が解放され、リモコンコントローラを使用して第三者アプリケーションとインタラクションする必要がなくなり、操作過程全体のスマート音声インタラクションを実現し、ユーザの操作の利便性を向上させ、ユーザ体験を向上させる。
図3は、本発明に係る第三者アプリケーションのインタラクションシステムの実施例の構成図である。図3に示すように、第1の音声データ送信モジュール31と、第1の命令受信モジュール32と、第2の音声データ送信モジュール33と、第2の命令受信モジュール34とを備える。
第1の音声データ送信モジュール31は、ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、前記音声データをクラウドサーバに送信することで対応の第三者アプリケーションを起動するための命令を取得する。
第1の命令受信モジュール32は、クラウドサーバから返された、第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。
第2の音声データ送信モジュール33は、第三者アプリケーションを操作するための、ユーザが発した音声データを受信して、クラウドサーバが、前記音声データに対して音声認識および意味解析を行い、前記音声データをクラウドサーバに送信することで、第三者アプリケーションに対して操作を行うための命令を取得する。
第2の命令受信モジュール34は、前記第三者アプリケーションが前記命令を実行するように、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。
本実施例の実行主体は、スマートテレビにインストールされたDuerOS音声インテリジェントインタラクションシステムであり、前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続方法によってクラウドサーバと接続される。
DuerOSスキルオープンプラットフォームは、英語のフルネームはDuerOS Bots Platformであり、DuerOS音声インテリジェントインタラクションシステムにより第三者開発者に一連のスキル開発、テスト、展開ツールを提供するためのオープンプラットフォームである。第三者開発者は、プラットフォーム上で、ビジュアルインターフェースを介して、さまざまな個人化されたスキルを、簡単かつ効率的に開発することができる。好ましくは、第三者開発者は、事前に、DuerOSスキルオープンプラットフォームすなわちクラウドサーバ上で、カスタムされたBotを開発し、それをオンラインで展開して、第三者アプリケーションに対する音声制御を実現する必要がある。
網易クラウドミュージック(NetEase Cloud Music)を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをDuerOSスキルオープンプラットフォームに展開できる。DuerOS音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、DuerOSスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行い、前記音声命令をDuerOSスキルオープンプラットフォームに送信することでユーザの意図を取得する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、DuerOS音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、DuerOS音声スマートインタラクションシステムに前記スキルに対応する命令を発することで、ユーザの意図を実現する。
好ましくは、ユーザは、音声を利用してスマートテレビのDuerOSにインストールされた第三者アプリケーションとインタラクションする場合、まず、スマートテレビのDuerOSをウェイクアップして、第三者アプリケーションを開く必要がある。
ユーザは、「度ちゃん度ちゃん、網易クラウドミュージックを開いて」とのような音声命令をスマートテレビに発することによって、スマートテレビのDuerOSをウェイクアップし、DuerOSが自身に予めインストールされた第三者アプリケーションを開くように指示する。
第1の音声データ送信モジュール31の好ましい実現形態において、DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後、クラウドサーバが、音声データに対して音声認識および意味解析を行い、対応の第三者アプリケーションを起動するための命令を取得するように、第1の音声データ送信モジュール31ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、前記音声データをクラウドサーバに送信し、好ましくは、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。
好ましくは、スマートテレビのDuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開けていないことである。第1の音声データ送信モジュール31は、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、当該クラウドが音声認識および意味解析を行うように、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信する。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
クラウドサーバは、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
好ましくは、クラウドサーバは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記DuerOS音声インテリジェントインタラクションシステムに対する制御命令語句を、記憶するためのものである。
例えば、クラウドサーバは、ユーザが入力した音声命令が「度ちゃん度ちゃん、網易クラウドミュージックを開いて」であると、「網易クラウドミュージックを開く」との命令情報を認識して、DuerOS音声インテリジェントインタラクションシステムに返す。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに対して操作するか、または、第三者アプリケーションのカスタムされたスキルを呼び出すために、ユーザによってウェイクアップされる必要がある。
スマートテレビは、オーディオデータを受信し、信号処理モジュールを利用してウェイクアップ検出を行い、ユーザが発したウェイクアップ命令を受信して、DuerOS音声インテリジェントインタラクションシステムをウェイクアップする。当該処理は、以下のサブステップA〜Cを含む。
サブステップAにおいて、ウェイクアップ検出を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集する。
好ましくは、ウェイクアップ検出を行うように、前記マイクロフォン常にピックアップ状態(オーディオデータに対してサンプリングおよび定量化を行い続ける)にあり、スマートテレビが位置する環境内のオーディオデータを収集する。
好ましくは、音声収集ユニットは、必要によって、例えばスマートテレビの電力消費を低減するために、10msのような所定の周期に従って、スマートテレビが位置する環境内のオーディオデータを収集して、検出を行ってもよい。前記定期的な音量検出の周期は、スマートテレビが工場から出荷されるときに予め設定されてもよく、または、ユーザにより自身の必要によって設定されてもよい。
本実施例において、前記オーディオデータを、スマートテレビが位置する環境で、マイクロフォンが収集できる任意の音声に対応する情報であると理解してもよく、例えば、ユーザを含む人が発した音声、環境ノイズなどの、前記マイクロフォンが収集できるものであればよい。
オーディオデータの収集過程において、機器の性能の違い、音源から音声収集ユニットまでの距離の遠さ、および、音声収集ユニットが単一のマイクロフォンをサポートするかマイクロフォンアレイをサポートするかによって、音声の効果が変わる。総体的に見ると、音声収集ユニットの性能が高いほど、また、音源から音声収集ユニットまでの距離が短いほど、また、単一のマイクロフォンの代わりに効果的なマイクロフォンアレイを採用する方が、もっと完全な特徴を取得することができ、認識されるオーディオデータにはさらに有利である。例えば、遠距離(>5m)ウェイクアップまたは認識をサポートするには、マイクロフォンアレイを使用する時の性能が、単一のマイクロフォンを使用する時の性能よりも、はるかに優れる。スマートテレビとユーザとの間の距離が一般的により遠く、遠距離環境であるため、本実施例において、マイクロフォンアレイを採用してオーディオデータを収集する。
サブステップBにおいて、収集されたオーディオデータに対して、音声検出を行う。
信号処理ユニットの音声検出モジュールを使用して、マイクロフォンによって収集されたオーディオデータに対して、音声検出(VAD:Voice Activity Detection)を行い、オーディオ信号の音声セグメントの開始位置を正確に検出することができるため、音声セグメントと非音声セグメント(ミュートまたはノイズ)信号とを分離する。
VADはスマートテレビローカルでリアルタイムに行われる必要があり、それに、運算リソースが非常に限られているため、閾値に基づくVADが一般的に採用され、工学的に最適化された分類法もまた使用され得る。
収集されたオーディオデータに対して音声検出を行うことによって、その中の音声セグメントを検出し、音声セグメントのみに対してウェイクアップ検出を行うことによって、電力消費を低下することができる。
サブステップCにおいて、検出された音声セグメント情報に対して、ウェイクアップ検出を行う。
まず、検出された音声セグメント情報に対して、特徴抽出を行う。検出された音声セグメント情報にはいくつかの問題がある可能があり、直接認識に使用することはできない。例えば、マイクロフォンによって収集されたオーディオデータには音響エコーが存在し、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用してアコースティックエコー除去を行う必要がある。特定環境で収集されたオーディオデータには特定のノイズが含まれるが、この場合、オーディオデータに対してノイズ抑制(NS:Noise Suppression)アルゴリズムによって環境ノイズを除去する必要がある。
そして、特定のデコーダを使用して、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果を取得する。デコーダデコーディング過程で、音響モデル、言語モデル、および、発音辞書が使用される。音響モデルの主な機能はオーディオ特徴を音節に変換することであり、言語モデルの主な機能は音節をテキストに変換することであり、発音辞書は音節からテキストへのマッピングテーブルを提供する。
目標が単一なので(指定されたウェイクアップ単語のみを検出する必要がある)、ウェイクアップ検出には、より小さな音響モデル、言語モデル、および、発音辞書が必要となる(ウェイクアップ単語の出現の有無のみを区別する必要がある)。
収集されたオーディオデータがウェイクアップ単語を含むと決定された場合、DuerOS音声インテリジェントインタラクションシステムが次の動作を実行するように、DuerOS音声インテリジェントインタラクションシステムをウェイクアップする。
第1の命令受信モジュール32の好ましい実現形態において、第1の命令受信モジュール32は、クラウドサーバから返された、第三者アプリケーションを起動するための命令を受信し、前記命令を実行して、第三者アプリケーションを起動する。
DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って、対応の第三者アプリケーションを開く。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って対応の第三者アプリケーションを開いた後に、第三者アプリケーションのバインド、認証、および、登録namespaceが許可される。
第三者アプリケーションをDuerOS音声インテリジェントインタラクションシステムにバインドした後に、前記第三者アプリケーションはフォアグラウンドで実行される。前記第三者アプリケーションを終了するときは、前記第三者アプリケーションとDuerOS音声インテリジェントインタラクションシステムとをアンバインドする必要がある。
第三者アプリケーションは、前記第三者アプリケーションの識別子として、namespace登録を行う。
好ましくは、DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後に受信された音声データは、DuerOS音声インテリジェントインタラクションシステムを操作するためにユーザが発した音声データであってもよく、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って対応する命令を得、DuerOS音声インテリジェントインタラクションシステムが前記命令を実行するように、前記音声データをクラウドサーバに送信する。
第2の音声データ送信モジュール33の好ましい実現形態において、第2の音声データ送信モジュール33は、DuerOS音声インテリジェントインタラクションシステム第三者アプリケーションが起動された後に、クラウドサーバが前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得するように、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信する。
好ましくは、ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、クラウドサーバが音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。
好ましくは、第2の音声データ送信モジュール33は、第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、キャッシングされたウェイクアップ時点後のオーディオデータを、前記第三者アプリケーションの識別子とバインドして、クラウドに送信して音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
好ましくは、前記第三者アプリケーションの識別子は、前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムに登録したnamespaceである。
クラウドサーバは、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用して、ユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
好ましくは、前記音声データに前記第三者アプリケーションの識別子がバインドされているため、クラウドサーバは、前記第三者アプリケーションの識別子に基づいて前記第三者アプリケーションに対応する命令ライブラリを検索し、対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであり、ユーザが前記第三者アプリケーションに対して発話可能の制御命令語句を記憶するためのものである。
例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、次の曲へ」であると、クラウドサーバは、「次の曲へ」との命令情報を認識してDuerOS音声インテリジェントインタラクションシステムに返す。
前記音声データに前記第三者アプリケーションの識別子がバインドされているため、DuerOS音声インテリジェントインタラクションシステムが前記第三者アプリケーションの識別子に基づいて前記命令を前記第三者アプリケーションに転送するように、クラウドサーバは、検索された命令を前記第三者アプリケーションの識別子とバインドしてDuerOS音声インテリジェントインタラクションシステムに返す。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに対して操作するか、または、第三者アプリケーションのカスタムされたスキルを呼び出すために、ユーザによってウェイクアップされる必要がある。
第2の命令受信モジュール34の好ましい実現形態において、第2の命令受信モジュール34は、前記第三者アプリケーションが前記命令を実行するように、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。
好ましくは、第2の命令受信モジュール34は、前記第三者アプリケーションが前記命令を実行するように、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送する。
好ましくは、第2の命令受信モジュール34は、前記命令を所前記第三者アプリケーションに転送する前に、まず、前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされているか否かを判断する。例えば、網易クラウドミュージック(NetEase Cloud Music)がすでに終了されたか否かを判断する。前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされている場合、前記命令を直接前記第三者アプリケーションに送信し、前記第三者アプリケーションによって前記命令を実行された後、前記第三者アプリケーションの前記命令の実行結果を受信する。前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムとバインドされていない場合、ユーザに、「前記第三者アプリケーションが既に終了しましたので、前記第三者アプリケーションを再度起動してください」と、プロンプトする。
上記の説明から分かるように、上記実施例の前記方法を採用すると、ユーザの両手が解放され、リモコンコントローラを使用して第三者アプリケーションとインタラクションする必要がなくなり、操作過程全体のスマート音声インタラクションを実現し、ユーザの操作の利便性を向上させ、ユーザ体験を向上させる。
図4は、本発明に係る第三者アプリケーションのインタラクションシステムの実施例の構成図であり、クラウドサーバに応用される。図4に示すように、第1の音声データ受信及び処理モジュール41と、第1の命令送信モジュール42と、第2の音声データ受信及び処理モジュール43と、第2の命令送信モジュール44とを備える。
第1の音声データ受信及び処理モジュール41は、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って対応の第三者アプリケーションを起動するための命令を取得する。
第1の命令送信モジュール042は、インタラクションシステムが、前記命令を実行して、第三者アプリケーションを起動するように、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返す。
第2の音声データ受信及び処理モジュール43は、インタラクションシステムによって送信された、第三者アプリケーションがウェイクアップされた後に第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得する。
第2の命令送信モジュール44は、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させるように、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返す。
本実施例の実行主体は、クラウドサーバである。前記インタラクションシステムは、スマートテレビにインストールされたDuerOS音声インテリジェントインタラクションシステムであり、前記スマートテレビは、音声収集ユニット、信号処理ユニット、通信ユニット、音声出力ユニットなどを備え、前記スマートテレビの通信ユニットは、有線または無線の接続手段によってクラウドサーバと接続される。
DuerOSスキルオープンプラットフォームは、英語のフルネームはDuerOS Bots Platformであり、DuerOS音声インテリジェントインタラクションシステムにより第三者開発者に一連のスキル開発、テスト、展開ツールを提供するためのオープンプラットフォームである。第三者開発者は、プラットフォーム上で、ビジュアルインターフェースを介して、さまざまな個人化されたスキルを、簡単かつ効率的に開発することができる。好ましくは、第三者開発者は、事前に、DuerOSスキルオープンプラットフォームすなわちクラウドサーバ上で、カスタムされたBotを開発し、それをオンラインで展開して、第三者アプリケーションに対する音声制御を実現する必要がある。
網易クラウドミュージック(NetEase Cloud Music)を例とし、開発者は、「再生」、「次の曲へ」、「一時停止」などのスキルを開発し、それらをDuerOSスキルオープンプラットフォームに展開できる。DuerOS音声インテリジェントインタラクションシステムは、ユーザがスマートテレビに音声命令を発すると、DuerOSスキルオープンプラットフォームが、ユーザが発した音声データを受信した後、音声認識および意味解析を行って、ユーザの意図を取得するように、前記音声命令をDuerOSスキルオープンプラットフォームに送信する。前記ユーザの意図が、開発者がカスタムイズしたスキルの表現とマッチングされると、DuerOS音声インテリジェントインタラクションシステムにインストールされた網易クラウドミュージックが、前記命令を実行して、ユーザの意図を実現するように、DuerOS音声スマートインタラクションシステムに前記スキルに対応する命令を発する。
好ましくは、ユーザは、音声を利用してスマートテレビのDuerOSにインストールされた第三者アプリケーションとインタラクションする場合、まず、スマートテレビのDuerOSをウェイクアップして、第三者アプリケーションを開く必要がある。
ユーザは、「度ちゃん度ちゃん、網易クラウドミュージックを開いて」とのような音声命令をスマートテレビに発することによって、スマートテレビのDuerOSをウェイクアップし、DuerOSが自身に予めインストールされた第三者アプリケーションを開くように指示する。
第1の音声データ受信及び処理モジュール41の好ましい実現形態において、
スマートテレビは、収集されたオーディオデータがウェイクアップ単語を含むと決定すると、DuerOS音声インテリジェントインタラクションシステムが次の動作を実行するように、DuerOS音声インテリジェントインタラクションシステムをウェイクアップする。
DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応の第三者アプリケーションを起動するための命令を取得するように、ユーザが発した、第三者アプリケーションを起動するための音声データを受信し、前記音声データをクラウドサーバに送信し、
好ましくは、ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、さらに、クラウドサーバが音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。
好ましくは、スマートテレビのDuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後の初期状態は、第三者アプリケーションが開けていないことである。DuerOS音声インテリジェントインタラクションシステムは、前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、現在第三者アプリケーションがバインドされていない場合、当該クラウドが音声認識および意味解析を行うように、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドに送信する。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
第1の音声データ受信及び処理モジュール41は、インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って対応の第三者アプリケーションを起動するための命令を取得する。
第1の音声データ受信及び処理モジュール41は、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用してユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解析された内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
好ましくは、前記音声データに前記第三者アプリケーションの識別子がバインドされていないので、第1の音声データ受信及び処理モジュール41は、DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記DuerOS音声インテリジェントインタラクションシステムに対応する命令ライブラリは、ユーザが発話可能の、前記DuerOS音声インテリジェントインタラクションシステムに対する制御命令語句を、記憶するためのものである。
例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、網易クラウドミュージックを開いて」であると、クラウドサーバは「網易クラウドミュージックを開く」との命令を認識する。
第1の命令送信モジュール42の好ましい実現形態において、
第1の命令送信モジュール42は、インタラクションシステムが、前記命令を実行して、第三者アプリケーションを起動するように、前記第三者アプリケーションを起動するための命令をインタラクションシステムに返し、
DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って、対応の第三者アプリケーションを開く。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、受信された命令情報に従って対応の第三者アプリケーションを開いた後に、第三者アプリケーションのバインド、認証、および、登録namespaceが許可される。
第三者アプリケーションをDuerOS音声インテリジェントインタラクションシステムにバインドした後に、前記第三者アプリケーションはフォアグラウンドで実行される。前記第三者アプリケーションを終了するときは、前記第三者アプリケーションとDuerOS音声インテリジェントインタラクションシステムとをアンバインドする必要がある。
第三者アプリケーションは、前記第三者アプリケーションの識別子として、namespace登録を行う。
好ましくは、DuerOS音声インテリジェントインタラクションシステムがウェイクアップされた後に受信された音声データは、DuerOS音声インテリジェントインタラクションシステムを操作するためにユーザが発した音声データであってもよく、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って対応する命令を得、DuerOS音声インテリジェントインタラクションシステムが前記命令を実行するように、前記音声データをクラウドサーバに送信する。
第2の音声データ受信及び処理モジュール43の好ましい実現形態において、
第2の音声データ受信及び処理モジュール43は、インタラクションシステムによって送信された、第三者アプリケーションが起動された後に、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得する。
DuerOS音声インテリジェントインタラクションシステムが、第三者アプリケーションが起動された後に、クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、第三者アプリケーションに対して操作を行うための命令を取得するように、第三者アプリケーションを操作するための、ユーザが発した音声データを受信し、前記音声データをクラウドサーバに送信する。
好ましくは、ウェイクアップされた後に、DuerOS音声インテリジェントインタラクションシステムが、キャッシングされたウェイクアップ時点後のオーディオデータをクラウドサーバに送信し、音声認識を行うように、マイクロフォンのような、スマートテレビの音声収集ユニットを使用して、スマートテレビが位置する環境内のオーディオデータを収集してキャッシングする。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、バインドされている場合、キャッシングされたウェイクアップ時点後のオーディオデータを、前記第三者アプリケーションの識別子とバインドして、クラウドに送信して音声認識および意味解析を行う。具体的には、通常、ウェイクアップ時点後の5S内のオーディオデータを取得して、音声検出を行い、検出された音声セグメントをユーザ音声データとしてクラウドサーバに送信する。
好ましくは、前記第三者アプリケーションの識別子は、前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムに登録したnamespaceである。
第2の音声データ受信及び処理モジュール43は、アコースティックエコー除去(AEC:Acoustic Echo Cancellation)アルゴリズムを使用してユーザ音声データに対してアコースティックエコー除去を行い、ノイズ抑制(NS:Noise Suppression)アルゴリズムを採用して、環境ノイズを除去する。そして、処理後のユーザ音声データのオーディオ特徴を抽出し、収集されたオーディオ特徴に対してデコーディングを行って、音声認識結果および音声認識テキストを取得する。音声認識テキストに対して、自然言語処理すなわち意味解析を行い、解釈内容を分類して、意図マッチングを行い、対応の機械命令情報を得て構造化データとしてスマートテレビに返す。
好ましくは、前記音声データに前記第三者アプリケーションの識別子がバインドされているため、第2の音声データ受信及び処理モジュール43前記第三者アプリケーションの識別子に基づいて前記第三者アプリケーションに対応する命令ライブラリを検索し、対応の対応する命令ライブラリ内で前記音声データに対応する命令を検索する。前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであり、ユーザが前記第三者アプリケーションに対して発話可能の制御命令語句を記憶するためのものである。
例えば、ユーザが入力した音声命令が「度ちゃん度ちゃん、次の曲へ」であると、第2の音声データ受信及び処理モジュール43認識得到「次の曲へ」との命令情報に返すDuerOS音声インテリジェントインタラクションシステム。
前記音声データに前記第三者アプリケーションの識別子がバインドされているため、第2の音声データ受信及び処理モジュール43は、DuerOS音声インテリジェントインタラクションシステムが前記第三者アプリケーションの識別子に基づいて前記命令を前記第三者アプリケーションに転送するように、検索された命令を前記第三者アプリケーションの識別子とバインドしてDuerOS音声インテリジェントインタラクションシステムに返す。
好ましくは、DuerOS音声インテリジェントインタラクションシステムに対して操作するか、または、第三者アプリケーションのカスタムされたスキルを呼び出すために、ユーザによってウェイクアップされる必要がある。
第2の命令送信モジュール43の好ましい実現形態において、第2の命令送信モジュール43は、前記第三者アプリケーションに対して操作を行うための命令をインタラクションシステムに返すことで、インタラクションシステムが前記命令を前記第三者アプリケーションに転送して実行させる。
DuerOS音声インテリジェントインタラクションシステムは、前記第三者アプリケーションが前記命令を実行するように、クラウドサーバから返された、第三者アプリケーションに対して操作を行うための命令を受信して、前記第三者アプリケーションに転送する。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、前記第三者アプリケーションが前記命令を実行するように、前記命令にバインドされた前記第三者アプリケーションの識別子に基づいて、前記命令を前記第三者アプリケーションに転送する。
好ましくは、DuerOS音声インテリジェントインタラクションシステムは、前記命令を所前記第三者アプリケーションに転送する前に、まず、前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされているか否かを判断する。例えば、網易クラウドミュージック(NetEase Cloud Music)がすでに終了されたか否かを判断する。前記第三者アプリケーションが依然としてDuerOS音声インテリジェントインタラクションシステムとバインドされている場合、前記命令を直接前記第三者アプリケーションに送信し、前記第三者アプリケーションによって前記命令を実行された後、前記第三者アプリケーションの前記命令の実行結果を受信する。前記第三者アプリケーションがDuerOS音声インテリジェントインタラクションシステムとバインドされていない場合、ユーザに、「前記第三者アプリケーションが既に終了しましたので、前記第三者アプリケーションを再度起動してください」と、プロンプトする。
上記の説明から分かるように、上記実施例の前記方法を採用すると、クラウドサーバは、音声データに第三者アプリケーションの識別子がバインドされているか否かに基づいて、音声認識および意味解析を行って得られた命令がインタラクションシステムに対応するかそれとも第三者アプリケーションに対応するか判断する。これにより、ユーザの両手が解放され、リモコンコントローラを使用して第三者アプリケーションとインタラクションする必要がなくなり、操作過程全体のスマート音声インタラクションを実現し、ユーザの操作の利便性を向上させ、ユーザ体験を向上させる。
説明の便宜および簡潔さのために、前記に説明された端末およびサーバの具体的な作業過程は、前記の方法の実施例中の対応する過程を参考すればよく、ここでは繰り返して説明しないことを当業者は明確に理解できる。
本願によって提供されるいくつかの実施例において、開示された方法および装置は他の方法で実現されてもよいことが理解されるべきである。例えば、上述した装置実施例は単なる例示であり、例えば、前記ユニットの分割は論理的な機能分割のみであり、実際の実施においては他の分割方法、例えば複数のユニットまたは構成要素がもう一つのシステムに組み合わされるかまたは統合されてもよく、或いは、いくつかの特徴を無視するかまたは実行しなくてもかまわない。また、図示または検討した相互結合、直接結合、または、通信接続は、いくつかのインターフェース、装置、ユニットを介する間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。
前記の分離された部品として説明されたユニットは、物理的に分離されてもされなくてもよく、ユニットとして示した部品は、物理ユニットでもそうでなくてもよい。すなわち、一箇所に位置されても複数のネットワークユニットに分配されてもよい。実際の必要に応じて、その中の一部または全部のユニットを選択して本実施例の構成の目的を実現してもよい。
また、本願の各実施例中の各機能ユニットは、一つの処理ユニット中に統合されても、物理的に別々に存在していても、二つ以上のユニットが一つのユニット中に統合されてもよい。統合された前記ユニットは、ハードウェアの形で、またはハードウェアとソフトウェアの機能ユニットの形で実現されてもよい。
図5は、本発明の実施形態を実現するための例示的なコンピュータシステム/サーバ012のブロック図である。図5に示すコンピュータシステム/サーバ012は、単なる例示であり、本発明の実施例の機能および使用範囲に制限を加えるものではない。
図5に示すように、コンピュータシステム/サーバ012は、汎用計算装置の形態で具体化されている。コンピュータシステム/サーバ012の構成要素は、一つまたは複数のプロセッサまたは処理ユニット016と、システムメモリ028と、互いに異なるシステム構成要素(システムメモリ028と処理ユニット016とを含む)を接続するバス018とを備えるが、これらに限定されない。
バス018は、メモリバスまたはメモリコントローラ、周辺バス、グラフィックスアクセラレーションポート、プロセッサ、またはさまざまなバス構造のいずれかを使用するローカルバスを含む、いくつかのタイプのバス構造のうちの1つまたは複数を表す。例えば、これらのアーキテクチャには、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張ISAバス、ビデオエレクトロニクス標準協会(VESA)ローカルバス、および周辺構成要素相互接続(PCI)バスが含まれるが、これらに限定されない。
コンピュータシステム/サーバ012は、通常、様々なコンピュータシステム可読媒体を含む。これらの媒体は、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体を含む、コンピュータシステム/サーバ012によってアクセスされ得る任意の利用可能な媒体であってもよい。
メモリ028は、ランダムアクセスメモリ(RAM)030及び/又はキャッシュメモリ032などの揮発性メモリの形態のコンピュータシステム可読媒体を含んでもよい。コンピュータシステム/サーバ012は、他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータシステム記憶媒体をさらに含んでもよい。ほんの一例として、記憶システム034は、取り外し不能の不揮発性磁気媒体(図5には示されず、一般に「ハードディスクドライブ」と呼ばれる)を読み書きするために使用されてもよい。図5には示されていないが、取り外し可能の不揮発性磁気ディスク(例えば、「フロッピーディスク」)に読み書きするための磁気ディスクドライブ、および取り外し可能の不揮発性光ディスク(例えば、CD−ROM,DVD−ROMまたは他の光学式媒体)に読み書きするための光ディスクドライブを提供してもよい。これらの場合、各ドライブは、一つまたは複数のデータ媒体インターフェースを介してバス018に接続されてもよい。メモリ028は、本発明の各実施例の機能を実行するように構成されたプログラムモジュールのセット(例えば、少なくとも一つの)を有する少なくとも一つのプログラム製品を含んでもよい。
1セット(少なくとも一つ)のプログラムモジュール042を有するプログラム/ユーティリティ040は、例えば、メモリ028に記憶されてもよい。このようなプログラムモジュール042は、オペレーティングシステム、一つまたは複数のアプリケーションプログラム、他のプログラムモジュール、およびプログラムデータを含むが、これらに限定されない。これらの例のそれぞれまたはいくつかの組み合わせには、ネットワーク環境の実装が含まれてもよい。プログラムモジュール042は、通常、本発明に記載された実施例の機能及び/又は方法を実行する。
コンピュータシステム/サーバ012は、また、一つまたは複数の外部装置14(例えば、キーボード、ポインティングデバイス、ディスプレイ024など)と通信してもよく、ユーザが当該外部装置とインタラクションするようにする一つまたは複数の装置と通信してもよく、及び/又は、当該コンピュータシステム/サーバ012が一つまたは複数の他の計算装置と通信するようにする任意の装置(例えば、ネットワークカード、モデムなど)と通信してもよい。このような通信は、入出力(I/O)インターフェース022を介して行われてもよい。また、コンピュータシステム/サーバ012は、ネットワークアダプタ020を介して、一つまたは複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及び/又は、インターネットなどの公衆ネットワーク)と通信してもよい。図示のように、ネットワークアダプタ020は、バス018を介してコンピュータシステム/サーバ012の他のモジュールと通信する。図面には示されていないが、コンピュータシステム/サーバ012に結び付けて、他のハードウェア及び/又はソフトウェアモジュールを使用してもよく、これらのハードウェア及び/又はソフトウェアモジュールは、マイクロコード、デバイスドライブ、冗長処理ユニット、外部磁気ディスクドライブアレイ、RAIDシステム、テープドライブ、およびデータバックアップストレージシステムなどを含むが、これらに限定されないことを理解されたい。
処理ユニット016は、システムメモリ028に記憶されたプログラムを実行することによって、様々な機能アプリケーションおよびデータ処理を実行し、例えば、本発明の実施例によって提供されるテキストリハーサル方法を実現する。
上記のコンピュータプログラムは、コンピュータ記憶媒体に設置されてもよく、すなわち、当該コンピュータ記憶媒体にコンピュータプログラムが符号化されてもよい。当該プログラムが一つまたは複数のコンピュータによって実行されると、一つまたは複数のコンピュータが本発明の上記実施例に示された方法の流れ及び/又は装置の動作が実行される。
時間と技術の発展に伴い、媒体の意味はますます広がり、コンピュータプログラムの伝送経路は有形のメディアに制限されず、ネットワークから直接ダウンロードしてもよい。また、一つまたは複数のコンピュータ読み取り可能な媒体の任意の組み合わせを使用してもよい。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子、磁気、光、電磁気、赤外線、または半導体のシステム、装置、またはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(非網羅的リスト)には、一つまたは複数のワイヤを有する電気接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスク読み出し専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせが含まれる。本明細書では、コンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶することができる任意の有形の媒体であってもよい。当該プログラムは、命令実行システム、装置、またはデバイスによって使用されること、または、これらと結びつけて使用されてもよい。
コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードを搬送するための、ベースバンド内で伝搬されるかまたは搬送波の一部として伝搬されるデータ信号を含んでもよい。このように伝搬されるデータ信号は、電磁気信号、光信号、または上記の任意の適切な組み合わせなどの様々な形態を含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体は、また、命令実行システム、装置、またはデバイスによって使用されるかまたはこれらと結びつけて使用されるためのプログラムを送信、伝搬、または伝送することができる、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよい。
コンピュータ読み取り可能な媒体に含まれたプログラムコードは、無線、ワイヤ、光ファイバケーブル、RFなど、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送してもよい。
本発明の動作を実行するためのコンピュータプログラムコードは、一つまたは複数のプログラミング言語またはそれらの組み合わせでコーディングしてもよい。前記プログラミング言語は、Java(登録商標)、SmalltalK、C++などのオブジェクト指向プログラミング言語を含み、また、「C」言語または類似のプログラミング言語などの従来の手続き型プログラミング言語も含む。プログラムコードは、完全にユーザコンピュータ上で実行されるか、一部がユーザコンピュータ上で実行されるか、一つの単独のソフトウェアパッケージとして実行されるか、一部がユーザコンピュータ上で実行され、もう一部分がリモートコンピュータ上で実行されるか、または、完全にリモートコンピュータまたはサーバ上で実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続してもよいし、または、(例えば、インターネットを介して接続するインターネットサービスプロバイダを使用して)外部コンピュータに接続してもよい。
説明の便宜および簡潔さのために、前記に説明された端末およびサーバの具体的な作業過程は、前記の方法の実施例中の対応する過程を参考すればよく、ここでは繰り返して説明しないことを当業者は明確に理解できる。
本願によって提供されるいくつかの実施例において、開示された方法および装置は他の方法で実現されてもよいことが理解されるべきである。例えば、上述した装置実施例は単なる例示であり、例えば、前記ユニットの分割は論理的な機能分割のみであり、実際の実施においては他の分割方法、例えば複数のユニットまたは構成要素がもう一つのシステムに組み合わされるかまたは統合されてもよく、或いは、いくつかの特徴を無視するかまたは実行しなくてもよい。また、図示または検討した相互結合、直接結合、または、通信接続は、いくつかのインターフェース、装置、ユニットを介する間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。
前記の分離された部品として説明されたユニットは、物理的に分離されてもされなくてもよく、ユニットとして示した部品は、物理ユニットでもそうでなくてもよい。すなわち、一箇所に位置されても複数のネットワークユニットに分配されてもよい。実際の必要によって、その中の一部または全部のユニットを選択して本実施例の構成の目的を実現してもよい。
また、本願の各実施例中の各機能ユニットは、一つの処理ユニット中に統合されても、物理的に別々に存在していても、二つ以上のユニットが一つのユニット中に統合されてもよい。統合された前記ユニットは、ハードウェアの形で、またはハードウェアとソフトウェアの機能ユニットの形で実現されてもよい。
最後に、上記の実施例は、本発明の技術案を説明するために使用されるだけであり、本発明の技術案を限制しないことを、説明すべきである。本発明を前記の実施例を参照して詳細に説明したが、当業者であれば、前記の各実施例に記載された技術案を、変更したり、その中の一部の技術特徴を同等に置き換えたりすることができるが、これら変更または置き換えは、対応する技術案の本質が、本発明の各実施例の技術案の精神および範囲から逸脱するようにしないことを理解すべきである。

Claims (26)

  1. 第三者アプリケーションのインタラクション方法であって、
    クラウドサーバが、音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、インタラクションシステムが、ユーザが発した前記音声データを受信し、前記音声データをクラウドサーバに送信するステップと、
    前記インタラクションシステムが、クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するステップと、を含むことを特徴とする第三者アプリケーションのインタラクション方法。
  2. 前記音声データをクラウドサーバに送信するステップは、
    前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、
    バインドされている場合、前記音声データを前記第三者アプリケーションの識別子にバインドして、クラウドサーバに送信し、
    バインドされていない場合、前記音声データをクラウドサーバに送信するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップは、
    前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバは第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
    前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバはインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索するステップを含むことを特徴とする請求項2に記載の方法。
  4. クラウドサーバから返された命令を受信するステップは、
    クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、
    クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信するステップを含むことを特徴とする請求項3に記載の方法。
  5. 前記インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するステップは、
    インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するか、または、インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するステップを含むことを特徴とする請求項4に記載の方法。
  6. 前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に前記インタラクションシステムに登録されたものであることを特徴とする請求項2に記載の方法。
  7. 前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであることを特徴とする請求項3に記載の方法。
  8. 第三者アプリケーションのインタラクション方法であって、
    クラウドサーバが、インタラクションシステムによって送信された、ユーザが発した音声データを受信するステップと、
    前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するステップと、
    インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するように、前記命令をインタラクションシステムに返すステップと、を含むことを特徴とする第三者アプリケーションのインタラクション方法。
  9. 前記インタラクションシステムに第三者アプリケーションがバインドされている場合、前記音声データは前記第三者アプリケーションの識別子にバインドされ、
    前記インタラクションシステムに第三者アプリケーションがバインドされていない場合、前記音声データは前記第三者アプリケーションの識別子にバインドされないことを特徴とする請求項8に記載の方法。
  10. 前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
    前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを特徴とする請求項9に記載の方法。
  11. インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するように、前記命令をインタラクションシステムに返すステップは、
    インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すか、または、
    インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返すステップを含むことを特徴とする請求項10に記載の方法。
  12. 第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってアップロードされたものであることを特徴とする請求項8に記載の方法。
  13. 第三者アプリケーションのインタラクションシステムであって、
    クラウドサーバが、音声データに対して音声認識および意味解析を行って、対応する命令を取得するように、ユーザが発した前記音声データを受信し、前記音声データをクラウドサーバに送信するための音声データ送信モジュールと、
    クラウドサーバから返された命令を受信し、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するための命令受信モジュールと、を備えることを特徴とする第三者アプリケーションのインタラクションシステム。
  14. 前記音声データ送信モジュールは、具体的には、
    前記インタラクションシステムに第三者アプリケーションがバインドされているか否かを判断し、
    バインドされている場合、前記音声データを前記第三者アプリケーションの識別子にバインドして、クラウドサーバに送信し、
    バインドされていない場合、前記音声データをクラウドサーバに送信することを特徴とする請求項13に記載のシステム。
  15. 前記クラウドサーバが、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得することは、
    前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、クラウドサーバは、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
    前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、クラウドサーバはインタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを含むことを特徴とする請求項14に記載のシステム。
  16. 前記命令受信モジュールは、具体的には、
    クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされている命令を受信するか、または、
    クラウドサーバから返された、前記第三者アプリケーションの識別子がバインドされていない命令を受信することを特徴とする請求項15に記載のシステム。
  17. 前記命令受信モジュールは、具体的には、
    前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するか、または、前記インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行することを特徴とする請求項16に記載のシステム。
  18. 前記第三者アプリケーションの識別子は、インタラクションシステムにインストールされた第三者アプリケーションが起動された後に前記インタラクションシステムに登録されたものであることを特徴とする請求項14に記載のシステム。
  19. 前記第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってクラウドサーバにアップロードされたものであることを特徴とする請求項15に記載のシステム。
  20. 第三者アプリケーションのインタラクションシステムであって、
    インタラクションシステムによって送信された、ユーザが発した音声データを受信し、前記音声データに対して音声認識および意味解析を行って、対応する命令を取得するための音声データ受信及び処理モジュールと、
    インタラクションシステムが、前記命令を第三者アプリケーションに転送して実行させるか、または、直接前記命令を実行するように、前記命令をインタラクションシステムに返すための命令送信モジュールと、を備えることを特徴とする第三者アプリケーションのインタラクションシステム。
  21. 前記インタラクションシステムに第三者アプリケーションがバインドされている場合、前記音声データは前記第三者アプリケーションの識別子にバインドされ、
    前記インタラクションシステムに第三者アプリケーションがバインドされていない場合、前記音声データは前記第三者アプリケーションの識別子にバインドされないことを特徴とする請求項20に記載のシステム。
  22. 前記音声データ受信及び処理モジュールは、具体的には、
    前記音声データに前記第三者アプリケーションの識別子がバインドされている場合、第三者アプリケーションに対応する命令ライブラリ内で前記音声データに対応する命令を検索し、検索された命令を前記第三者アプリケーションの識別子にバインドするか、または、
    前記音声データに前記第三者アプリケーションの識別子がバインドされていない場合、インタラクションシステムに対応する命令ライブラリ内で前記音声データに対応する命令を検索することを特徴とする請求項21に記載のシステム。
  23. 前記命令送信モジュールは、具体的には、
    インタラクションシステムが、前記第三者アプリケーションの識別子に基づいて、前記第三者アプリケーションの識別子がバインドされている命令を前記第三者アプリケーションに送信し、前記第三者アプリケーションが前記命令を実行するように、前記第三者アプリケーションの識別子がバインドされている命令をインタラクションシステムに返すか、または、
    インタラクションシステムが、前記第三者アプリケーションの識別子がバインドされていない命令を実行するように、前記第三者アプリケーションの識別子がバインドされていない命令をインタラクションシステムに返すことを特徴とする請求項22に記載のシステム。
  24. 第三者アプリケーションに対応する命令ライブラリは、第三者アプリケーションの開発者によってアップロードされたものであることを特徴とする請求項20に記載のシステム。
  25. メモリと、
    プロセッサと、
    前記メモリに記憶され、前記プロセッサで実行可能なコンピュータプログラムと、を備えるコンピュータ機器であって、
    前記プロセッサが前記プログラムを実行する場合、請求項1から12のいずれかに記載の方法が実現されることを特徴とするコンピュータ機器。
  26. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムがプロセッサによって実行される場合、請求項1から12のいずれかに記載の方法が実現されることを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2019044357A 2018-06-29 2019-03-12 第三者アプリケーションのインタラクション方法、及びシステム Active JP6956126B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810696091.5 2018-06-29
CN201810696091.5A CN109036396A (zh) 2018-06-29 2018-06-29 一种第三方应用的交互方法及系统

Publications (2)

Publication Number Publication Date
JP2020004376A true JP2020004376A (ja) 2020-01-09
JP6956126B2 JP6956126B2 (ja) 2021-10-27

Family

ID=65520967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019044357A Active JP6956126B2 (ja) 2018-06-29 2019-03-12 第三者アプリケーションのインタラクション方法、及びシステム

Country Status (3)

Country Link
US (1) US11151987B2 (ja)
JP (1) JP6956126B2 (ja)
CN (1) CN109036396A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022550609A (ja) * 2020-06-29 2022-12-02 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ミニプログラムの音声制御方法、機器及び記憶媒体

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10514935B2 (en) * 2017-10-31 2019-12-24 Salesforce.Com, Inc. System and method for third party application enablement
CN111724773A (zh) * 2019-03-22 2020-09-29 北京京东尚科信息技术有限公司 应用开启方法、装置和计算机系统及介质
CN112073776B (zh) * 2019-06-10 2022-06-24 海信视像科技股份有限公司 语音控制方法及显示设备
CN112073777B (zh) * 2019-06-10 2022-06-28 海信视像科技股份有限公司 一种语音交互方法及显示设备
CN110534096A (zh) * 2019-08-22 2019-12-03 北京技德系统技术有限公司 一种基于微控制器的人工智能语音识别方法及系统
CN110659361B (zh) * 2019-10-11 2023-01-17 卢卡(北京)智能科技有限公司 一种对话方法、装置、设备及介质
CN110706708A (zh) * 2019-11-29 2020-01-17 上海庆科信息技术有限公司 语音识别方法、装置及系统
CN111724785B (zh) * 2020-06-29 2023-07-04 百度在线网络技术(北京)有限公司 小程序的语音控制方法、设备及存储介质
CN112102823B (zh) * 2020-07-21 2024-06-21 深圳市创维软件有限公司 一种智能终端的语音交互方法、智能终端及存储介质
CN112037790B (zh) * 2020-08-10 2024-02-23 上汽大众汽车有限公司 基于车载语音识别系统控制第三方应用的方法、系统和车辆
CN112489658A (zh) * 2020-11-12 2021-03-12 当趣网络科技(杭州)有限公司 语音交互方法、系统、电子设备及介质
CN112863512B (zh) * 2021-01-18 2024-04-30 深圳创维-Rgb电子有限公司 一种语音交互调用处理方法、装置、终端设备及存储介质
US11978449B2 (en) * 2021-03-02 2024-05-07 Samsung Electronics Co., Ltd. Electronic device for processing user utterance and operation method therefor
CN112863514B (zh) * 2021-03-15 2024-03-15 亿咖通(湖北)技术有限公司 一种语音应用的控制方法和电子设备
CN113271485A (zh) * 2021-04-02 2021-08-17 福州智象信息技术有限公司 第三方app播放的语音控制方法、装置、系统、设备和介质
CN113938515B (zh) * 2021-09-23 2024-08-09 浪潮云信息技术股份公司 基于第三方平台接入方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527844A (ja) * 2014-08-11 2017-09-21 アマゾン テクノロジーズ インコーポレイテッド 音声アプリケーション・アーキテクチャ
CN107608799A (zh) * 2017-08-15 2018-01-19 北京小蓦机器人技术有限公司 一种用于执行交互指令的方法、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428166B (zh) * 2012-05-16 2016-03-02 腾讯科技(深圳)有限公司 第三方应用的多sns平台统一接入方法及系统
CN104050966B (zh) * 2013-03-12 2019-01-01 百度国际科技(深圳)有限公司 终端设备的语音交互方法和使用该方法的终端设备
CN104965712B (zh) * 2015-07-17 2018-04-20 北京奇虎科技有限公司 应用程序加固保护方法、装置及移动终端
US10224034B2 (en) * 2016-02-03 2019-03-05 Hua Xu Voice recognition system and construction method thereof
US10127908B1 (en) * 2016-11-11 2018-11-13 Amazon Technologies, Inc. Connected accessory for a voice-controlled device
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
CN107680591A (zh) * 2017-09-21 2018-02-09 百度在线网络技术(北京)有限公司 基于车载终端的语音交互方法、装置及其设备
CN108064007A (zh) * 2017-11-07 2018-05-22 苏宁云商集团股份有限公司 用于智能音箱的增强人声识别的方法及微控制器和智能音箱

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017527844A (ja) * 2014-08-11 2017-09-21 アマゾン テクノロジーズ インコーポレイテッド 音声アプリケーション・アーキテクチャ
CN107608799A (zh) * 2017-08-15 2018-01-19 北京小蓦机器人技术有限公司 一种用于执行交互指令的方法、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022550609A (ja) * 2020-06-29 2022-12-02 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ミニプログラムの音声制御方法、機器及び記憶媒体
JP7373063B2 (ja) 2020-06-29 2023-11-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ミニプログラムの音声制御方法、機器及び記憶媒体
US11984120B2 (en) 2020-06-29 2024-05-14 Beijing Baidu Netcom Science Technology Co., Ltd. Voice control method for applet and device, and storage medium

Also Published As

Publication number Publication date
JP6956126B2 (ja) 2021-10-27
CN109036396A (zh) 2018-12-18
US11151987B2 (en) 2021-10-19
US20200005771A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
JP6956126B2 (ja) 第三者アプリケーションのインタラクション方法、及びシステム
US11887604B1 (en) Speech interface device with caching component
JP6952184B2 (ja) ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
KR102429436B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
JP7354110B2 (ja) オーディオ処理システム及び方法
US11373645B1 (en) Updating personalized data on a speech interface device
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
US20200349940A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
CN108133707B (zh) 一种内容分享方法及系统
TWI511125B (zh) 語音操控方法、行動終端裝置及語音操控系統
JP2019185062A (ja) 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
JP2021009701A (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
JP7328265B2 (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
JP2020016875A (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
JP7365985B2 (ja) 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
KR20220002750A (ko) 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
US20210011887A1 (en) Activity query response system
Mun et al. Accelerating smart speaker service with content prefetching and local control
CN109240107A (zh) 一种电器设备的控制方法、装置、电器设备和介质
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
JP2020038709A (ja) 人工知能機器における連続会話機能
WO2023109129A1 (zh) 语音数据的处理方法及装置
JP2019185737A (ja) 検索方法及びそれを用いた電子機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200917

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210202

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210601

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210601

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210806

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210825

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211004

R150 Certificate of patent or registration of utility model

Ref document number: 6956126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150