JP2020184298A - 音声スキル作成方法及びシステム - Google Patents

音声スキル作成方法及びシステム Download PDF

Info

Publication number
JP2020184298A
JP2020184298A JP2019223396A JP2019223396A JP2020184298A JP 2020184298 A JP2020184298 A JP 2020184298A JP 2019223396 A JP2019223396 A JP 2019223396A JP 2019223396 A JP2019223396 A JP 2019223396A JP 2020184298 A JP2020184298 A JP 2020184298A
Authority
JP
Japan
Prior art keywords
skill
voice
voice skill
content
creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019223396A
Other languages
English (en)
Other versions
JP6969051B2 (ja
Inventor
キ、ヤオウェン
Yaowen Qi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2020184298A publication Critical patent/JP2020184298A/ja
Application granted granted Critical
Publication of JP6969051B2 publication Critical patent/JP6969051B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】プログラミングの必要がなく音声スキル作成を完成でき、音声スキルの開発効率を向上する音声スキル作成方法、システム、デバイス及び記憶媒体を提供する。【解決手段】音声スキル作成方法は、開発者の音声スキル作成指令に応答して音声スキル作成インターフェースを提供し、音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得し、開発者のオンライン配布指令に応答して、音声スキルのコンテンツに対して対応する音声インタラクション能力を付加し、音声スキルを作成し配布することを含む。【選択図】図1

Description

本発明は、コンピュータ応用技術に関し、特に音声スキル作成方法及びシステムに関する。
人工知能の急速な発展に伴い、各会社は人工知能音声に向け、詳細な研究を行い、次第に各自の音声インタラクションプラットフォームを提供した。開発者は、音声インタラクションプラットフォームにおいて、自身のニーズとアイデアに応じて、音声インタラクションプラットフォームへスキルを配布し呼び出すことができる。
スキルは、一種のアプリに類似するものであって、音声インタラクションにより一つ又は複数の特定の機能を完成させる。スキルは、一つ又は複数の意図により直接に構成され、複数回の対話に意図を明確するコンテキスト意図で言い方を区分することにより、対応する意図に入る。例えば、オーディオ音声スキルは、音声によりオーディオの制御を実現可能である。イメージ音声スキルは、音声によるイメージの制御を実現可能である、話術音声スキルは、話術に対する制御を実現可能である。
従来技術において、開発者は、音声インタラクションプラットフォームにスキルを配布する際にコードレベルで関連操作を行う必要があるため、開発者がスキルの作成を完成するために適当なプログラミング能力を把握することが要求され、スキルを配布するレベルが高くなる。
本願の複数の局面は、プログラミングの必要がなく音声スキル作成を完成でき、音声スキルの開発効率を向上した音声スキル作成方法、システム、デバイス及び記憶媒体を提供する。
本願の一局面は、開発者の音声スキル作成指令に応答して音声スキル作成インターフェースを提供するステップと、音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得するステップと、開発者のオンライン配布指令に応答して、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加し、音声スキルを作成し配布するステップと、を含む音声スキル作成方法を提供した。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキル作成インターフェースは、音声スキルの基礎情報を取得する基礎情報ページと、音声スキルのコンテンツ配置を取得するコンテンツ管理ページと、配布者のオンライン配布指令を取得するオンライン配布ページと、を備える。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。開発者の音声スキル作成指令に応答して音声スキル作成インターフェースを提供するステップは、開発者の音声スキル作成指令に応答して音声スキルタイプ選択インターフェースを提供し、開発者が音声スキルタイプを選択したことに応答して、音声スキルタイプの音声スキル作成インターフェースを提供する、ことを含む。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。スキルタイプは、話術音声スキル、イメージ音声スキル、オーディオ音声スキルのうちの何れか一つを含む。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキルの基礎情報は、スキル名称、呼び出し名称、スキル料金情報を含む。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキルのコンテンツ配置は、話術音声スキルの話術コンテンツと再生モード、又はイメージ音声スキルのイメージコンテンツと再生モード、又はオーディオ音声スキルのオーディオコンテンツと再生モード、を含む。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、取得された音声スキルの基礎情報及びコンテンツ配置に基づいて、話術音声スキルに対して基礎意図、モニタリングのオーピンとクローズ、スキル退出、オンライン表示能力を付加し、或いは、イメージ音声スキルに対して基礎意図、検索意図、自動再生、スキル退出能力、オンライン表示能力を付加し、或いは、オーディオ音声スキルに対して基礎意図、検索意図、自動再生、スキル退出、オンライン表示能力を付加する、ことを含む。
本願の他の局面は、開発者の音声スキル作成指令に応答して音声スキル作成インターフェースを提供する音声スキル作成インターフェース提供モジュールと、音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得する音声スキル配置モジュールと、開発者のオンライン配布指令に応答して、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加し、音声スキルを作成し配布するスキル作成/配布モジュールと、を備える音声スキル作成システムを提供した。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキル作成インターフェースは、音声スキルの基礎情報を取得する基礎情報ページと、音声スキルのコンテンツ配置を取得するコンテンツ管理ページと、配布者のオンライン配布指令を取得するオンライン配布ページと、を備える。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキル作成インターフェース提供モジュールは、具体的に、開発者の音声スキル作成指令に応答して音声スキルタイプ選択インターフェースを提供し、開発者が音声スキルタイプを選択したことに応答して、音声スキルタイプの音声スキル作成インターフェースを提供する。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。スキルタイプは、話術音声スキル、イメージ音声スキル、オーディオ音声スキルのうちの何れか一つを含む。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキルの基礎情報は、スキル名称、呼び出し名称、スキル料金情報を含む。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。音声スキルのコンテンツ配置は、話術音声スキルの話術コンテンツと再生モード、又は、イメージ音声スキルのイメージコンテンツと再生モード、又は、オーディオ音声スキルのオーディオコンテンツと再生モード、を含む。
上記の局面と何れか一つの可能な実現方式によれば、更に一つの実現方式を提供した。スキル作成/配布モジュールは、具体的に、取得された音声スキルの基礎情報及びコンテンツ配置に基づいて、話術音声スキルに対して基礎意図、モニタリングのオープンとクローズ、スキル退出、オンライン表示能力を付加し、或いは、イメージ音声スキルに対して基礎意図、検索意図、自動再生、スキル退出能力、オンライン表示能力を付加し、或いは、オーディオ音声スキルに対して基礎意図、検索意図、自動再生、スキル退出、オンライン表示能力を付加する。
本発明の他の局面は、メモリと、プロセッサと、メモリに記憶されプロセッサに運行可能なコンピュータプログラムと、を備え、プロセッサによりプログラムを実行すると、上記の方法を実現するコンピュータデバイスを提供した。
本発明の他の局面は、コンピュータプログラムが記憶されており、プログラムがプロセッサにより実行されると、上記の方法を実現するコンピュータに読取可能な記憶媒体を提供した。
上記の説明からわかるように、本発明の技術案によれば、プログラミングの必要がなく音声スキル作成を完成でき、音声スキルの開発効率を向上した
本発明の音声スキル作成方法のフローチャートである。 本発明の音声スキル作成システムの構成図である。 本発明の実施方式を実現可能な例示的なコンピュータシステム/サーバのブロック図である。 本発明の話術音声スキルの基礎情報ページの模式図である。 本発明のイメージ音声スキルの基礎情報ページの模式図である。 本発明のオーディオ音声スキルの基礎情報ページの模式図である。 本発明の話術音声スキルのコンテンツ管理ページの模式図である。 本発明のイメージ音声スキルのコンテンツ管理ページの模式図である。 本発明のオーディオ音声スキルのコンテンツ管理ページの模式図である。 本発明の話術音声スキルのオンライン配布ページの模式図である。 本発明のイメージ音声スキルのオンライン配布ページの模式図である。 本発明のオーディオ音声スキルのオンライン配布ページの模式図である。
本願実施例の目的、技術案及び利点をより明確にするために、以下に本願実施例における図面と合わせて本願実施例における技術案を明確で完全的に説明する。明らかに、説明された実施例は、全ての実施例ではなく、本願の一部の実施例である。当業者は、本願における実施例に基づいて、創造的な労働がなされていない前提で得られた全ての他の実施例は、本願の保護範囲に入る。
図1は本発明の音声スキル作成方法の実施例のフローチャートである。図1に示されたように、以下のステップを含む。
ステップS11において、開発者の音声スキル作成指令に応答して、音声スキル作成インターフェースを提供する。
ステップS12において、音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得する。
ステップS13において、開発者のオンライン配布指令に応答して、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加し、音声スキルを作成し配布する。
方法の実行主体は音声スキル開発プラットフォームである。
ステップS11の好適な実現方式において、音声スキル開発プラットフォームは、開発者の音声スキル作成指令に応答して、例えば開発者が音声スキル開発プラットフォームに登録した後に、表示されたメイン画面にスキルに対してボタンの操作を作成し、開発者に音声スキル作成インターフェースを提供する。
好ましくは、本実施例において、音声スキルは、例として話術音声スキル、イメージ音声スキル及びオーディオ音声スキルを含むが、それらに限定されない。話術音声スキル、イメージ音声スキル及びオーディオ音声スキルのそれぞれの違いにより、音声スキルに提供した音声スキルテンプレートも異なるため、異なるスキルに対して異なる音声スキル作成インターフェースを提供する必要がある。
好ましくは、開発者の音声スキル作成指令に応答して、例えば開発者が音声スキル開発プラットフォームに登録した後に、表示されたメイン画面にスキルに対してボタンの操作を作成し、開発者に音声スキルタイプ選択インターフェースを提供することにより、異なる音声スキルテンプレートを取得する。開発者が音声スキルタイプを選択したことに応答して、音声スキルタイプの音声スキル作成インターフェースを提供する。
ステップS12の好適な実現方式において、音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得する。
好ましくは、音声スキル作成インターフェースは、音声スキルの基礎情報を取得する基礎情報ページと、音声スキルのコンテンツ配置を取得するコンテンツ管理ページと、配布者のオンライン配布指令を取得するオンライン配布ページと、を備える。
好ましくは、音声スキル作成インターフェースは、他の関連ページ、例えばテスト検証ページ、リソース管理ページ、SSMLトランスコードページ、サポートページ、テキストセンタページ、一般質問ページ、フィードバック提出ページ、技術クラスページなどを含んでも良く、必要に応じて柔軟に設置可能である。
好ましくは、基礎情報ページは、図4、図5、図6に示されたように、音声スキルの基礎情報(basic information)を取得する。音声スキルの基礎情報は、少なくともスキル名称(Skill name)、呼び出し名称(Call name)、スキル料金情報(Skill payment)を含む。
なお、スキル名称情報は、開発者が基礎情報ページのスキル名称入力ボックスに入力したスキル名称である。呼び出し名称情報は、開発者が基礎情報ページの呼び出し名称入力ボックスに入力した呼び出し名称である。スキル料金情報は、開発者が基礎情報ページのスキル料金ラジオボタンに選択した料金又は無料の選択肢である。
好ましくは、話術音声スキル及びオーディオ音声スキルについて、音声スキルの基礎情報に更に応用シナリオ(application scenario)が含まれる。例えば話術音声スキルは、スクリーン付きシナリオ(with a screen)とスクリーンなしシナリオ(without a screen)のどちらに用いられる。イメージ音声スキルについて、デフォルトとしてスクリーン付きであるため、基礎情報ページに応用シナリオの選択肢を提供する必要がない。
好ましくは、音声スキルの基礎情報は、直接再生コンテンツ(directly playing content)選択肢、歓迎語(welcome sentence)、退出語(exit sentence)、退出確認(exit confirmation)情報などを含んでも良い。
基礎情報ページは、音声スキルのスキルタイプ(skill type)、スキルID(skill ID)を表示しても良い。スキルタイプは、開発者が音声スキルタイプ選択インターフェースに選択したスキルタイプである。スキルIDは、スキル開発プラットフォームにおいて音声スキルに対して生成されたIDである。
好ましくは、コンテンツ管理ページは、音声スキルのコンテンツ配置を取得する。
好ましくは、話術音声スキルについて、話術音声スキルのコンテンツ配置は、図7に示されたように、話術音声スキルの話術コンテンツ(conversation content)、再生モード(play mode)を含む。
話術コンテンツは、表示タイトル(presentation title)、表示コンテンツ(presentation content)、ウェブページリンク(webpage link)、背景イメージ(background image)、背景音楽(background music)、プレビュー(preview)などの選択肢を含む。話術コンテンツはスキル内に表示される。
開発者は、コンテンツ管理ページにおいて話術コンテンツの付加を行うことができる。話術コンテンツをバッチで付加し、話術に背景イメージ、ウェブページリンク及び背景音楽を付加し、表示されるプレビューを生成しても良い。
再生モードは、順番再生(sequential play)、ランダム再生(shuffle play)、再生後クローズ(close after playing one)などの選択肢を含む。システムは開発者に選択された再生モードに従って再生を行う。更に、再生後にモニタリングをオープンするか否かの選択肢が含まれる。更に、開発者が話術を切り替える表現を付加するように、前への意図、次への意図などの話術を切り替える表現が含まれる。
開発者は、話術の再生モードを制御し、話術に対して順番再生、ランダム再生の設置を行い、再生後クローズを設置し、話術コンテンツを再生した後にスキルが退出することを設置することができる。開発者は、一つの話術を再生した後に、マイクをオープンするか否かを制御することができる。開発者は、話術のコンテンツを切り替えるように配置可能である。開発者がこれらのコンテンツを表現する場合に、話術コンテンツが切り換えられる。
好ましくは、イメージ音声スキルについて、イメージ音声スキルのコンテンツ配置は、図8に示されたように、話術音声スキルのイメージコンテンツ(image content)、再生モードを含む。
イメージコンテンツは、イメージコンテンツをローカルから付加するボタンとリソース管理からイメージコンテンツを付加するボタンを含む。アップロードされたイメージは、リソース管理に自動的に保存され、開発者に選択された再生モードに従って再生される。
再生モードは、順番再生、ランダム再生の選択肢を含む。システムは、開発者に選択された再生モードに従って再生する。更に、開発者が話術を切り替える表現を付加するように、前への意図、次への意図などの話術を切り替える表現が含まれる。
開発者は、コンテンツ管理ページにイメージコンテンツの付加を行うことができる。付加されたコンテンツは、ローカル付加と、リソース管理からの付加との二つに分けられる。付加された後に再生モードを選択することができる。再生モードは順番再生又はランダム再生である。
好ましくは、オーディオ音声スキルについて、オーディオ音声スキルのコンテンツ配置は、図9に示されたように、オーディオ音声スキルのオーディオコンテンツ(audio content)、再生モードを含む。
オーディオコンテンツは、オーディオコンテンツをローカルに付加するボタンとリソース管理からオーディオコンテンツを付加するボタンを含む。アップロードされたオーディオは、リソース管理に自動的に保存され、開発者に選択された再生モードに従って再生される。
再生モードは、順番再生、ランダム再生、再生後クローズなどの選択肢を含む。システムは、開発者に選択された再生モードに従って再生を実行させる。更に、開発者が話術を切り替える表現を付加するように、前への意図、次への意図などの話術を切り替える表現を含む。
開発者は、コンテンツ管理ページにオーディオコンテンツの付加を行うことができる。付加されたオーディオコンテンツは、ローカル付加と、リソース管理からの付加との二つに分けられる。付加された後に再生モードを選択することができる。再生モードは、順番再生又はランダム再生である。開発者は更に、オーディオの名称を編集することができる。上記編集は、オーディオの画面における表示に影響する。
好ましくは、オンライン配布(online publication)ページは、配布者のオンライン配布指令を取得する。
好ましくは、開発者は、基礎情報ページに音声スキルの基礎情報を完成、コンテンツ管理ページに音声スキルのコンテンツ配置を完成した後に、オンライン配布ページへ遷移すれば良い。
オンライン配布ページは、図10、図11、図12に示されたように、開発者に入力され又は選択された、スキルバージョン(skill version)、スキル名称、呼び出し名称、応用シナリオ、スキル料金、スキルアイコン(skill icon)、表示ビデオ(presentation video)、表示イメージ、スキル分類(skill classification)、開発者情報(developer information)、スキル要約(skill profile)、表現例示(expression example)、バージョン情報(version information)、審査テスト説明(verification test description)などの情報を取得する。
ステップS13の好適な実現方式において、開発者のオンライン配布指令に応答して、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加し、音声スキルを作成し配布する。
好ましくは、開発者は、オンライン配布ページに音声スキルの関連情報を完成した後に、オンライン配布指令を発すれば良い。例えば、オンライン配布ページにおける申し込み運用ボタンをクリックすることにより、音声スキル開発プラットフォームへ運用指令を発することができる。
好ましくは、話術音声スキルを例として、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、取得された話術音声スキルのコンテンツ配置に基づいて、話術音声スキルのコンテンツに対して基礎意図、モニタリングのオープンとクローズ、スキル退出、オンライン表示能力を付加することを含む。
なお、基礎意図は切り換えの意図である。ユーザから対応する表現が言い出された後に、話術が切り換えられる。
モニタリングのオープンとクローズは、ユーザがモニタリングのオープンを配置した後に、一つのコンテンツが再生された後にマイクを自動的にオープンしてユーザの音声を採集する。
スキルの退出は、ユーザから「退出」が表現された場合にスキルを退出させる。
運用後の表示は、話術スキルに背景イメージを付加して表示する。
好ましくは、イメージ音声スキルを例として、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、取得されたイメージ音声スキルのコンテンツ配置に基づいて、イメージ音声スキルのコンテンツに対して基礎意図、検索意図、自動再生、スキル退出能力、オンライン表示能力を付加することを含む。
なお、基礎意図は、前へ、次へを含む。ユーザが前へ、次へを言い出した場合にイメージを自動的に切り替えることができる。
検索意図は画像検索意図と名称検索意図を含む。
画像検索意図は、ユーザからアップロードされたイメージを識別し、且つイメージのラベルを識別することができる。ユーザから関連のキーワードを言い出した場合に、マシンから対応するイメージが返信される。
名称検索意図は、ユーザに指定されたイメージを識別することができる。ユーザから言い出した名称がイメージ名称に近い場合に、マシンから対応するイメージが返信されてユーザのニーズに応じる。
susohuイメージの自動再生は、一定の時間内にイメージを切り替える。順番再生は、全てのイメージをトラバーサルした後に新たなトラバーサルを行う。ランダム再生は、常にイメージを再生する。
スキルの退出は、ユーザから「退出」を表現した場合に、スキルを退出させる。
オンライン表示は、イメージの自動的なぼかし背景、イメージの比例によりスクリーンの全体における貼り付けが上手くできない場合に、イメージの自己適応を行い、裏側にガウスぼかしをかけて表示の体験を向上する。
好ましくは、オーディオ音声スキルを例として、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、取得されたオーディオ音声スキルのコンテンツ配置に基づいて、オーディオ音声スキルのコンテンツに対して基礎意図、検索意図、自動再生、スキル退出、オンライン表示能力を付加することを含む。
なお、基礎意図は、前へ、次へ、一時停止、続くを含む。ユーザから前へ、次へを言い出した場合に、オーディオコンテンツを自動的に切り替えることができ、一時停止及び続くを言い出した場合にオーディオの再生を制御することができる。
検索意図はオーディオ名称検索意図であり、ユーザに指定されたオーディオを識別することができる。ユーザから言い出した名称がビデオ名称に近い場合に、マシンから対応するオーディオを返信してユーザのニーズに応じる。
自動再生意図は、一つのビデオを再生した後に、マシンが次のビデオの再生を行い、順番で或いはランダムで再生を行う。
スキルの退出は、ユーザから「退出」を表現した場合にスキルを退出させる。
運用後の表示は、話術スキルに背景イメージを付加して表示する。
本発明の技術案によれば、なにもプログラミングの必要がなく音声スキルの作成を完成することができる。ユーザにより音声スキル作成インターフェースにおける基礎情報ページ、コンテンツ管理ページ、オンライン配布ページに順次に関連情報を編集することさえすれば、音声スキル開発プラットフォームはユーザに編集されたコンテンツに対して処理を行い、関連の能力を補充し、音声スキルを自動的に生成して運用することができる。なにも開発者によるプログラミングの必要がなく音声スキルの生成を完成することができ、音声スキルの開発効率を向上した。
説明すべきなのは、各方法実施例について、説明を簡単にするために、一連の動作の組合せとして記述された。しかし、当業者であればわかるように、本願により幾つかのステップが他の順番を採用し、或いは同時に実行可能であるため、本願は説明された動作の順番に限定されない。次に、当業者であればわかるように、明細書に説明された実施例は何れも好適な実施例であり、関わる動作とモジュールが必ずしも本願に必要なものではない。
いままで方法実施例を紹介した。以下に装置実施例により、本発明の技術案を更に説明する。
図2は、本発明のスマートデバイスのボリューム制御システムの実施例の構成図を示した。図2に示されたように、開発者の音声スキル作成指令に応答して、音声スキル作成インターフェースを提供する音声スキル作成インターフェース提供モジュール21と、音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得する音声スキル配置モジュール22と、開発者のオンライン配布指令に応答して、音声スキルのコンテンツに対応する音声インタラクション能力を付加し、音声スキルを作成し配布するスキル作成/配布モジュール23と、を備える。
方法の実行主体は音声スキル開発プラットフォームである。
音声スキル作成インターフェース提供モジュール21の好適な実現方式において、音声スキル開発プラットフォームは、開発者の音声スキル作成指令に応答して、例えば開発者が音声スキル開発プラットフォームに登録した後に、表示された主画面においてスキルに対してボタンの操作を作成し、開発者に音声スキル作成インターフェースを提供する。
好ましくは、本実施例において、音声スキルは、例として話術音声スキル、イメージ音声スキル及びオーディオ音声スキルを含むが、それらに限定されない。話術音声スキル、イメージ音声スキル及びオーディオ音声スキルのそれぞれの違いにより、音声スキルに提供した音声スキルテンプレートも異なるため、異なるスキルに対して異なる音声スキル作成インターフェースを提供する必要がある。
好ましくは、開発者の音声スキル作成指令に応答して、例えば開発者が音声スキル開発プラットフォームに登録した後に、表示されたメイン画面にスキルに対してボタンの操作を作成し、開発者に音声スキルタイプ選択インターフェースを提供することにより、異なる音声スキルテンプレートを取得する。開発者が音声スキルタイプを選択したことに応答して、音声スキルタイプの音声スキル作成インターフェースを提供する。
音声スキル配置モジュール22の好適な実現方式において、音声スキル配置モジュール22は、音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得する。
好ましくは、音声スキル作成インターフェースは、音声スキルの基礎情報を取得する基礎情報ページと、音声スキルのコンテンツ配置を取得するコンテンツ管理ページと、配布者のオンライン配布指令を取得するオンライン配布ページと、を備える。
好ましくは、音声スキル作成インターフェースは、他の関連ページ、例えばテスト検証ページ、リソース管理ページ、SSMLトランスコードページ、サポートページ、テキストセンタページ、一般質問ページ、フィードバック提出ページ、技術クラスページなどを含んでも良く、必要に応じて柔軟に設置可能である。
好ましくは、基礎情報ページは、図4、図5、図6に示されたように、音声スキルの基礎情報を取得する。音声スキルの基礎情報は、少なくともスキル名称、呼び出し名称、スキル料金情報を含む。
なお、スキル名称情報は、開発者が基礎情報ページのスキル名称入力ボックスに入力したスキル名称である。呼び出し名称情報は、開発者が基礎情報ページの呼び出し名称入力ボックスに入力した呼び出し名称である。スキル料金情報は、開発者が基礎情報ページのスキル料金ラジオボタンに選択した料金又は無料の選択肢である。
好ましくは、話術音声スキル及びオーディオ音声スキルについて、音声スキルの基礎情報に更に応用シナリオが含まれる。例えば話術音声スキルは、スクリーン付きシナリオとスクリーンなしシナリオのどちらに用いられる。イメージ音声スキルについて、デフォルトとしてスクリーン付きであるため、基礎情報ページに応用シナリオの選択肢を提供する必要がない。
好ましくは、音声スキルの基礎情報は、直接再生コンテンツ選択肢、歓迎語、退出語、退出確認情報などを含んでも良い。
基礎情報ページは、音声スキルのスキルタイプ、スキルIDを表示しても良い。スキルタイプは、開発者が音声スキルタイプ選択インターフェースに選択したスキルタイプである。スキルIDは、スキル開発プラットフォームにおいて音声スキルに対して生成されたIDである。
好ましくは、コンテンツ管理ページは、音声スキルのコンテンツ配置を取得する。
好ましくは、話術音声スキルについて、話術音声スキルのコンテンツ配置は、図7に示されたように、話術音声スキルの話術コンテンツ、再生モードを含む。
話術コンテンツは、表示タイトル、表示コンテンツ、ウェブページリンク、背景イメージ、背景音楽、プレビューなどの選択肢を含む。話術コンテンツはスキル内に表示される。
開発者は、コンテンツ管理ページにおいて話術コンテンツの付加を行うことができる。話術コンテンツをバッチで付加し、話術に背景イメージ、ウェブページリンク及び背景音楽を付加し、表示されるプレビューを生成しても良い。
再生モードは、順番再生、ランダム再生、再生後クローズなどの選択肢を含む。システムは開発者に選択された再生モードに従って再生を行う。更に、再生後にモニタリングをオープンするか否かの選択肢が含まれる。更に、開発者が話術を切り替える表現を付加するように、前への意図、次への意図などの話術を切り替える表現が含まれる。
開発者は、話術の再生モードを制御し、話術に対して順番再生、ランダム再生の設置を行い、再生後クローズを設置し、話術コンテンツを再生した後にスキルが退出することを設置することができる。開発者は、一つの話術を再生した後に、マイクをオープンするか否かを制御することができる。開発者は、話術のコンテンツを切り替えるように配置可能である。開発者がこれらのコンテンツを表現する場合に、話術コンテンツが切り換えられる。
好ましくは、イメージ音声スキルについて、イメージ音声スキルのコンテンツ配置は、図8に示されたように、話術音声スキルのイメージコンテンツ、再生モードを含む。
イメージコンテンツは、イメージコンテンツをローカルに付加するボタンとリソース管理からイメージコンテンツを付加するボタンを含む。アップロードされたイメージは、リソース管理に自動的に保存され、開発者に選択された再生モードに従って再生される。
再生モードは、順番再生、ランダム再生の選択肢を含む。システムは、開発者に選択された再生モードに従って再生する。更に、開発者が話術を切り替える表現を付加するように、前への意図、次への意図などの話術を切り替える表現が含まれる。
開発者は、コンテンツ管理ページにイメージコンテンツの付加を行うことができる。付加されたコンテンツは、ローカル付加と、リソース管理からの付加との二つに分けられる。付加された後に再生モードを選択することができる。再生モードは順番再生又はランダム再生である。
好ましくは、オーディオ音声スキルについて、オーディオ音声スキルのコンテンツ配置は、図9に示されたように、オーディオ音声スキルのオーディオコンテンツ、再生モードを含む。
オーディオコンテンツは、オーディオコンテンツをローカルに付加するボタンとリソース管理からオーディオコンテンツを付加するボタンを含む。アップロードされたオーディオは、リソース管理に自動的に保存され、開発者に選択された再生モードに従って再生される。
再生モードは、順番再生、ランダム再生、再生後クローズなどの選択肢を含む。システムは、開発者に選択された再生モードに従って再生を実行させる。更に、開発者が話術を切り替える表現を付加するように、前への意図、次への意図などの話術を切り替える表現を含む。
開発者は、コンテンツ管理ページにオーディオコンテンツの付加を行うことができる。付加されたオーディオコンテンツは、ローカル付加と、リソース管理からの付加との二つに分けられる。付加された後に再生モードを選択することができる。再生モードは、順番再生又はランダム再生である。開発者は更に、オーディオの名称を編集することができる。上記編集は、オーディオの画面における表示に影響する。
好ましくは、オンライン配布ページは、配布者のオンライン配布指令を取得する。
好ましくは、開発者は、基礎情報ページに音声スキルの基礎情報を完成、コンテンツ管理ページに音声スキルのコンテンツ配置を完成した後に、オンライン配布ページへ遷移すれば良い。
オンライン配布ページは、図10、図11、図12に示されたように、開発者に入力され又は選択された、スキルバージョン、スキル名称、呼び出し名称、応用シナリオ、スキル料金、スキルアイコン、表示ビデオ、表示イメージ、スキル分類、開発者情報、スキル要約、表現例示、バージョン情報、審査テスト説明などの情報を取得する。
スキル作成/配布モジュール23の好適な実現方式において、スキル作成/配布モジュール23は、開発者のオンライン配布指令に応答して、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加し、音声スキルを作成し配布する。
好ましくは、開発者は、オンライン配布ページに音声スキルの関連情報を完成した後に、オンライン配布指令を発すれば良い。例えば、オンライン配布ページにおける申し込み運用ボタンをクリックすることにより、音声スキル開発プラットフォームへ運用指令を発することができる。
好ましくは、話術音声スキルを例として、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、取得された話術音声スキルのコンテンツ配置に基づいて、話術音声スキルのコンテンツに対して基礎意図、モニタリングのオープンとクローズ、スキル退出、オンライン表示能力を付加することを含む。
なお、基礎意図は切り換えの意図である。ユーザから対応する表現が言い出された後に、話術が切り換えられる。
モニタリングのオープンとクローズは、ユーザがモニタリングのオープンを配置した後に、一つのコンテンツが再生された後にマイクを自動的にオープンしてユーザの音声を採集する。
スキルの退出は、ユーザから「退出」が表現された場合にスキルを退出させる。
運用後の表示は、話術スキルに背景イメージを付加して表示する。
好ましくは、イメージ音声スキルを例として、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、取得されたイメージ音声スキルのコンテンツ配置に基づいて、イメージ音声スキルのコンテンツに対して基礎意図、検索意図、自動再生、スキル退出能力、オンライン表示能力を付加することを含む。
なお、基礎意図は、前へ、次へを含む。ユーザが前へ、次へを言い出した場合にイメージを自動的に切り替えることができる。
検索意図は、画像検索意図と名称検索意図とを含む。
画像検索意図は、ユーザからアップロードされたイメージを識別し、且つイメージのラベルを識別することができる。ユーザから関連のキーワードを言い出した場合に、マシンから対応するイメージが返信される。
名称検索意図は、ユーザに指定されたイメージを識別することができる。ユーザから言い出した名称がイメージ名称に近い場合に、マシンから対応するイメージが返信されてユーザのニーズに応じる。
susohuイメージの自動再生は、一定の時間内にイメージを切り替える。順番再生は、全てのイメージをトラバーサルした後に新たなトラバーサルを行う。ランダム再生は、常にイメージを再生する。
スキルの退出は、ユーザから「退出」を表現した場合に、スキルを退出させる。
オンライン表示は、イメージの自動的なぼかし背景、イメージの比例によりスクリーンの全体における貼り付けが上手くできない場合に、イメージの自己適応を行い、裏側にガウスぼかしをかけて表示の体験を向上する。
好ましくは、オーディオ音声スキルを例として、音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、取得されたオーディオ音声スキルのコンテンツ配置に基づいて、オーディオ音声スキルのコンテンツに対して基礎意図、検索意図、自動再生、スキル退出、オンライン表示能力を付加することを含む。
なお、基礎意図は、前へ、次へ、一時停止、続くを含む。ユーザから前へ、次へを言い出した場合に、オーディオコンテンツを自動的に切り替えることができ、一時停止及び続くを言い出した場合にオーディオの再生を制御することができる。
検索意図はオーディオ名称検索意図であり、ユーザに指定されたオーディオを識別することができる。ユーザから言い出した名称がビデオ名称に近い場合に、マシンから対応するオーディオを返信してユーザのニーズに応じる。
自動再生意図は、一つのビデオを再生した後に、マシンが次のビデオの再生を行い、順番で或いはランダムで再生を行う。
スキルの退出は、ユーザから「退出」を表現した場合にスキルを退出させる。
運用後の表示は、話術スキルに背景イメージを付加して表示する。
本発明の技術案によれば、なにもプログラミングの必要がなく音声スキルの作成を完成することができる。ユーザにより音声スキル作成インターフェースにおける基礎情報ページ、コンテンツ管理ページ、オンライン配布ページに順次に関連情報を編集することさえすれば、音声スキル開発プラットフォームはユーザに編集されたコンテンツに対して処理を行い、関連の能力を補充し、音声スキルを自動的に生成して運用することができる。なにも開発者によるプログラミングの必要がなく音声スキルの生成を完成することができ、音声スキルの開発効率を向上した。
当業者であればわかるように、説明の便利と簡潔のために、前述された端末とサーバの具体的な作動過程は、方法実施例における対応の過程を参照することができ、ここでは詳しく説明しない。
理解すべきなのは、本願により提供された幾つかの実施例に開示された方法及び装置は、他の方式で実現可能である。例えば、前述された装置実施例は例示的なものに過ぎない。例えば、ユニットの分割は、ロジック機能の分割に過ぎず、実際の実現において他の分割手段もある。例えば、複数のユニット又はコンポーネントは、組み合わせても良く、他のシステムに集積されても良い。或いは、幾つかの特徴が省略されても良く、実行されなくても良い。また、表示され又は討論された部品間の結合又は直接結合又は通信接続は、幾つかのインターフェース、装置又はユニットによる間接結合又は通信接続であっても良く、電気的、機械的又は他の手段であっても良い。
分離部品として説明されたユニットは、物理的な分離であってもなくても良い。ユニットとして表示された部品は、物理ユニットであってもなくても良い。つまり、一箇所に位置されても良く、複数のネットワークユニットに分散されても良い。実際の必要に応じて一部又は全てのユニットを選択して本実施例の技術案の目的を実現可能である。
また、本発明の各実施例における各機能ユニットは、一つのプロセッサに集積されても良く、各ユニットが独自で物理的に存在しても良く、二つ又はそれ以上のユニットが一つのユニットに集積されても良い。集積されたユニットは、ハードウェアで実現されても良く、ハードウェアと共にソフトウェア機能ユニットで実現されても良い。
図3は、本発明の実施形態を実現可能な例示的なコンピュータシステム/サーバ012のブロック図を示した。図3に示されたコンピュータシステム/サーバ012は、例示に過ぎず、本発明の実施例の機能及び使用範囲に制限しない。
図3に示されたように、コンピュータシステム/サーバ012は、汎用コンピューティングデバイスの形で表現される。コンピュータシステム/サーバ012のコンポーネントは、一つ又は複数のプロセッサ又はプロセッサ016と、システムメモリ028と、異なるシステムコンポーネント(システムメモリ028とプロセッサ016を含む)を接続するバス018を含むが、それらに限定されない。
バス018は、幾つかの種類のバス構造のうち一つ又は複数を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィックスアクセラレーションポート、プロセッサ或いは複数のバス構造のうち何れか一つのバス構造を使用するローカルエリアバスを含む。例えば、これらのアーキテクチャは、工業標準アーキテクチャ(ISA)バス、マイクロチャンネルアーキテクチャ(MAC)バス、強化型ISAバス、ビデオ電子標準協会(VESA)ローカルエリアバス及びペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、それらに限定されない。
コンピュータシステム/サーバ012は、一般的に複数種のコンピュータシステム読取可能な媒体を含む。これらの媒体は、コンピュータシステム/サーバ012からアクセス可能な任意の使用可能な媒体であっても良く、揮発性及び不揮発性媒体、リムーバブル媒体及び固定媒体を含む。
システムメモリ028には、揮発性メモリの形のコンピュータシステム読取可能な媒体、例えばランダムアクセスメモリ(RAM)030及び/又は高速キャッシュメモリ032が含まれても良い。コンピュータシステム/サーバ012は更に、他のリムーバブル/固定的、揮発的/不揮発的なコンピュータシステム記憶媒体を含んでも良い。例として、記憶システム034は、固定な不揮発性磁気媒体(図3に示されていないが、一般的に「ハードディスクドライバ」と呼ばれる)を読み書きすることができる。図3に示されていないが、リムーバブルな不揮発性磁気ディスク(例えば「フロッピーディスク」)を読み書きする磁気ディスクドライバ、及びリムーバブルな不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光メディア)を読み書きする光ディスクドライバを提供可能である。この場合に、各ドライバは、一つ又は複数のデータメディアインターフェースを介してバス018と接続可能である。メモリ028は、本発明の各実施例の機能を実行するように配置される1セット(例えば少なくとも一つ)のプログラムモジュールを具備する少なくとも一つのプログラム製品を含んでも良い。
1セット(少なくとも一つ)のプログラムモジュール042を具備するプログラム/実用ツール040は、例えばメモリ028に記憶されてもよい。このようなプログラムモジュール042は、オペレーティングシステム、一つ又は複数のアプリプログラム、他のプログラムモジュール及びプログラムデータを含むが、それらに限定されない。これらの例示のうちの何れか一つ、或いはある組合わせは、ネットワーク環境の実現を含むことが可能である。プログラムモジュール042は、一般的に本発明に説明されている実施例における機能及び/又は方法を実行する。
コンピュータシステム/サーバ012は、一つ又は複数の外部デバイス014(例えばキーボード、ポインティングデバイス、ディスプレー024など)と通信しても良い。本発明において、コンピュータシステム/サーバ012は、外部のレーダデバイスと通信しても良く、ユーザと上記コンピュータシステム/サーバ012とのインタラクションを可能にする一つ又は複数のデバイスと通信しても良く、及び/又は上記コンピュータシステム/サーバ012と一つ又は複数の他のコンピューティングデバイスとを通信可能にする任意のデバイス(例えばネットワークカード、モデムなど)と通信しても良い。このような通信は、入力/出力(I/O)インターフェース022により実行可能である。更に、コンピュータシステム/サーバ012は、ネットワークアダプタ020を介して一つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及び/又は公衆ネットワーク、例えばインターネット)と通信しても良い。図3に示されたように、ネットワークアダプタ020は、バス018によりコンピュータシステム/サーバ012における他のモジュールと通信する。理解すべきなのは、図3に未図示であるが、コンピュータシステム/サーバ012と合わせて他のハードウェア及び/又はソフトウェアモジュールを使用しても良い。他のハードウェア及び/又はソフトウェアモジュールは、マイクロコード、デバイスドライバ、冗長プロセッサ、外部磁気ディスク駆動アレー、RAIDシステム、磁気テープドライバ及びデータバックアップ記憶システムなどを含むが、それらに限定されない。
プロセッサ016は、システムメモリ028に記憶されているプログラムを運行することにより、本発明に説明された実施例における機能及び/又は方法を実行する。
コンピュータプログラムは、コンピュータ記憶媒体に設置されても良い。つまり、上記コンピュータ記憶媒体には、コンピュータプログラムがプログラミングされており、上記プログラムが一つ又は複数のコンピュータにより実行されると、一つ又は複数のコンピュータに本発明の実施例に示された方法フロー及び/又は装置操作を実行させる。
時間及び技術の発展に従って、媒体の意味が益々広くなる。コンピュータプログラムの伝送手段は、形状的な媒体に限らず、ネットワークから直接にダウンロードされても良い。一つ又は複数のコンピュータに読取可能な媒体の任意の組合せを採用することができる。コンピュータに読取可能な媒体は、コンピュータに読取可能な信号媒体又はコンピュータに読取可能な記憶媒体であっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、装置又は素子、或いは任意の組み合わせであっても良く、それらに限定されない。コンピュータ読取可能な記憶媒体の更なる具体的な例(網羅的ではない列挙)は、一つ又は複数の導線を備える電気的な接続、リムーバブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは任意の組合わせを含む。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。上記プログラムは、コマンド実行システム、装置又は素子に使用され、或いはそれらと組合わせて使用されても良い。
コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。上記コンピュータ読取可能な媒体は、コマンド実行システム、装置又は素子に使用され又はそれらと組合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。
コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは任意の適当の組み合わせを含むが、それらに限定されない。
一つ又は複数種のプログラミング言語又はそれらの組み合わせで本出願の操作を実行するためのコンピュータプログラムコードをプログラミングすることができる。プログラミング言語には、Java(登録商標)、Smalltalk(登録商標)、C++のようなオブジェクト指向プログラミング言語が含まれ、更にC言語又は類似のプログラミング言語のような通常の手続き型プログラミング言語が含まれる。プログラムコードは、全体がユーザコンピュータに実行されても良く、一部がユーザコンピュータに実行されても良く、一つの独立なパッケージとして実行されても良く、一部がユーザコンピュータに実行され且つ一部がリモートコンピュータに実行されても良く、或いは全体がリモートコンピュータ又はサーバに実行されても良い。リモートコンピュータに関する場合に、リモートコンピュータはローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークによりユーザコンピュータに接続されても良く、或いは外部のコンピュータ(例えばインターネットサービスプロバイダを利用してインターネットにより接続する)に接続されても良い。
当業者であればわかるように、説明の便利及び簡潔のために、前述のシステム、装置及びユニットの具体的な動作過程は、方法実施例における対応の過程を参照することができ、ここでは詳しく説明しない。
理解すべきなのは、本願により提供された幾つかの実施例に開示された方法及び装置は、他の方式で実現可能である。例えば、前述された装置実施例は例示的なものに過ぎない。例えば、ユニットの分割は、ロジック機能の分割に過ぎず、実際の実現において他の分割手段もある。例えば、複数のユニット又はコンポーネントは、組み合わせても良く、他のシステムに集積されても良い。或いは、幾つかの特徴が省略されても良く、実行されなくても良い。また、表示され又は討論された部品間の結合又は直接結合又は通信接続は、幾つかのインターフェース、装置又はユニットによる間接結合又は通信接続であっても良く、電気的、機械的又は他の手段であっても良い。
分離部品として説明されたユニットは、物理的な分離であってもなくても良い。ユニットとして表示された部品は、物理ユニットであってもなくても良い。つまり、一箇所に位置されても良く、複数のネットワークユニットに分散されても良い。実際の必要に応じて一部又は全てのユニットを選択して本実施例の技術案の目的を実現可能である。
また、本発明の各実施例における各機能ユニットは、一つのプロセッサに集積されても良く、各ユニットが独自で物理的に存在しても良く、二つ又はそれ以上のユニットが一つのユニットに集積されても良い。集積されたユニットは、ハードウェアで実現されても良く、ハードウェアと共にソフトウェア機能ユニットで実現されても良い。
最後に説明すべきなのは、実施例は、制限的なものではなく、本願の技術案を説明するために過ぎない。実施例を参照して本願を詳しく説明したが、当業者であればわかるように、依然としての各実施例に記載の技術案を補正し、或いはそのうち一部の技術特徴に等価的な置換を行うことができる。これらの補正又は置換により、対応する技術案の主旨が本願の各実施例の技術案の精神及び範囲から逸脱することがない。

Claims (16)

  1. 開発者の音声スキル作成指令に応答して音声スキル作成インターフェースを提供するステップと、
    前記音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得するステップと、
    開発者のオンライン配布指令に応答して、前記音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加し、前記音声スキルを作成し配布するステップと、
    を含む、音声スキル作成方法。
  2. 前記音声スキル作成インターフェースは、
    前記音声スキルの基礎情報を取得するための基礎情報ページと、
    前記音声スキルのコンテンツ配置を取得するためのコンテンツ管理ページと、
    配布者のオンライン配布指令を取得するためのオンライン配布ページと、
    を備える、請求項1に記載の音声スキル作成方法。
  3. 開発者の音声スキル作成指令に応答して音声スキル作成インターフェースを提供するステップは、
    前記開発者の音声スキル作成指令に応答して音声スキルタイプ選択インターフェースを提供し、
    前記開発者が音声スキルタイプを選択したことに応答して、前記音声スキルタイプの音声スキル作成インターフェースを提供する、
    ことを含む、請求項2に記載の音声スキル作成方法。
  4. 前記音声スキルタイプは、話術音声スキル、イメージ音声スキル、オーディオ音声スキルのうちの何れか一つを含む、請求項3に記載の音声スキル作成方法。
  5. 前記音声スキルの基礎情報は、スキル名称、呼び出し名称、スキル料金情報を含む、請求項4に記載の音声スキル作成方法。
  6. 前記音声スキルのコンテンツ配置は、
    前記話術音声スキルの話術コンテンツと再生モード、又は
    前記イメージ音声スキルのイメージコンテンツと再生モード、又は
    前記オーディオ音声スキルのオーディオコンテンツと再生モード、
    を含むこと、請求項4または5に記載の音声スキル作成方法。
  7. 前記音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加することは、
    取得された前記音声スキルの基礎情報及びコンテンツ配置に基づいて、
    前記話術音声スキルに対して基礎意図、モニタリングのオーピンとクローズ、スキル退出、オンライン表示能力を付加し、或いは、
    前記イメージ音声スキルに対して基礎意図、検索意図、自動再生、スキル退出能力、オンライン表示能力を付加し、或いは、
    前記オーディオ音声スキルに対して基礎意図、検索意図、自動再生、スキル退出、オンライン表示能力を付加する、
    ことを含む、請求項4から6のいずれか一項に記載の音声スキル作成方法。
  8. 開発者の音声スキル作成指令に応答して音声スキル作成インターフェースを提供するための音声スキル作成インターフェース提供モジュールと、
    音声スキル作成インターフェースにより音声スキルの基礎情報及びコンテンツ配置を取得するための音声スキル配置モジュールと、
    開発者のオンライン配布指令に応答して、前記音声スキルの基礎情報及びコンテンツ配置に対して対応する音声インタラクション能力を付加し、前記音声スキルを作成し配布するためのスキル作成/配布モジュールと、
    を備える、音声スキル作成システム。
  9. 前記音声スキル作成インターフェースは、
    前記音声スキルの基礎情報を取得するための基礎情報ページと、
    前記音声スキルのコンテンツ配置を取得するためのコンテンツ管理ページと、
    配布者のオンライン配布指令を取得するためのオンライン配布ページと、
    を備える、請求項8に記載の音声スキル作成システム。
  10. 前記音声スキル作成インターフェース提供モジュールは、
    前記開発者の音声スキル作成指令に応答して音声スキルタイプ選択インターフェースを提供し、
    前記開発者が音声スキルタイプを選択したことに応答して、前記音声スキルタイプの音声スキル作成インターフェースを提供する、
    請求項8または9に記載の音声スキル作成システム。
  11. 前記音声スキルタイプは、話術音声スキル、イメージ音声スキル、オーディオ音声スキルのうちの何れか一つを含む、請求項10に記載の音声スキル作成システム。
  12. 前記音声スキルの基礎情報は、スキル名称、呼び出し名称、スキル料金情報を含む、請求項11に記載の音声スキル作成システム。
  13. 前記音声スキルのコンテンツ配置は、
    前記話術音声スキルの話術コンテンツと再生モード、又は、
    前記イメージ音声スキルのイメージコンテンツと再生モード、又は、
    前記オーディオ音声スキルのオーディオコンテンツと再生モード、
    を含む、請求項11または12に記載の音声スキル作成システム。
  14. 前記スキル作成/配布モジュールは、
    取得された前記音声スキルの基礎情報及びコンテンツ配置に基づいて、
    前記話術音声スキルに対して基礎意図と、モニタリングのオープンとクローズと、スキル退出と、オンライン表示能力と、を付加し、或いは、
    前記イメージ音声スキルに対して基礎意図と、検索意図と、自動再生と、スキル退出能力と、オンライン表示能力と、を付加し、或いは、
    前記オーディオ音声スキルに対して基礎意図と、検索意図と、自動再生と、スキル退出と、オンライン表示能力と、を付加する、
    請求項11から13のうち何れか一項に記載の音声スキル作成システム。
  15. メモリと、プロセッサと、前記メモリに記憶され前記プロセッサに運行可能なコンピュータプログラムと、を備え、前記プロセッサにより前記コンピュータプログラムを実行すると、請求項1〜7の何れか一項に記載の音声スキル作成方法を実現する、コンピュータデバイス。
  16. コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7の何れか一項に記載の音声スキル作成方法を実現する、コンピュータに読取可能な記憶媒体。
JP2019223396A 2019-05-07 2019-12-11 音声スキル作成方法及びシステム Active JP6969051B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019103760555 2019-05-07
CN201910376055.5A CN110234032B (zh) 2019-05-07 2019-05-07 一种语音技能创建方法及系统

Publications (2)

Publication Number Publication Date
JP2020184298A true JP2020184298A (ja) 2020-11-12
JP6969051B2 JP6969051B2 (ja) 2021-11-24

Family

ID=67860604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019223396A Active JP6969051B2 (ja) 2019-05-07 2019-12-11 音声スキル作成方法及びシステム

Country Status (3)

Country Link
US (1) US11450318B2 (ja)
JP (1) JP6969051B2 (ja)
CN (1) CN110234032B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322873B (zh) * 2019-07-02 2022-03-01 百度在线网络技术(北京)有限公司 语音技能的退出方法、装置、设备及存储介质
CN110570866A (zh) * 2019-09-11 2019-12-13 百度在线网络技术(北京)有限公司 语音技能创建方法、装置、电子设备和介质
CN110674338B (zh) * 2019-09-27 2022-11-01 百度在线网络技术(北京)有限公司 语音技能推荐方法、装置、设备及存储介质
CN110706701B (zh) * 2019-10-08 2023-04-18 百度在线网络技术(北京)有限公司 语音技能推荐方法、装置、设备及存储介质
CN110784384B (zh) * 2019-10-16 2021-11-02 杭州九阳小家电有限公司 一种家电语音技能的生成方法及智能家电
CN111031141B (zh) * 2019-12-24 2022-08-23 思必驰科技股份有限公司 用于实现语音技能的定制化配置的方法及服务器
CN111142833B (zh) * 2019-12-26 2022-07-08 思必驰科技股份有限公司 基于情景模式开发语音交互产品的方法及系统
CN112907703A (zh) * 2021-01-18 2021-06-04 深圳全民吃瓜科技有限公司 一种表情包生成方法及系统

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010016364A (ko) * 2000-12-06 2001-03-05 김순협 음성인식 기술을 이용한 씨디롬 타이틀 제어
JP2002312318A (ja) * 2001-04-13 2002-10-25 Nec Corp 電子装置、本人認証方法およびプログラム
US20060136870A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Visual user interface for creating multimodal applications
US8195749B2 (en) * 2006-11-13 2012-06-05 Bindu Rama Rao Questionnaire server capable of providing questionnaires based on device capabilities
CN103874019B (zh) * 2014-03-11 2015-09-16 腾讯科技(深圳)有限公司 语音交互方法和装置
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US10137902B2 (en) * 2015-02-12 2018-11-27 Harman International Industries, Incorporated Adaptive interactive voice system
US10146923B2 (en) * 2015-03-20 2018-12-04 Aplcomp Oy Audiovisual associative authentication method, related system and device
US10275671B1 (en) * 2015-07-14 2019-04-30 Wells Fargo Bank, N.A. Validating identity and/or location from video and/or audio
EP3748558A1 (en) * 2016-06-13 2020-12-09 Google LLC Automated telephone call initiating system and method
US10409551B1 (en) * 2016-06-21 2019-09-10 Amazon Technologies, Inc. Voice-driven monitoring of resources in a service provider network
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
CN106649825B (zh) * 2016-12-29 2020-03-24 上海智臻智能网络科技股份有限公司 语音交互系统及其创建方法和装置
CN106961385B (zh) * 2017-03-15 2019-12-31 腾讯科技(深圳)有限公司 虚拟场景交互中实时语音的实现方法和装置
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
EP3396667A1 (en) * 2017-04-24 2018-10-31 Koninklijke Philips N.V. Personal voice assistant authentication
US11221823B2 (en) * 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices
WO2019027514A1 (en) * 2017-07-30 2019-02-07 Google Llc ASSISTANCE DURING AUDIO VIDEO CALLS
US10490195B1 (en) * 2017-09-26 2019-11-26 Amazon Technologies, Inc. Using system command utterances to generate a speaker profile
US10621984B2 (en) * 2017-10-04 2020-04-14 Google Llc User-configured and customized interactive dialog application
US11295735B1 (en) * 2017-12-13 2022-04-05 Amazon Technologies, Inc. Customizing voice-control for developer devices
US10958457B1 (en) * 2018-01-16 2021-03-23 Amazon Technologies, Inc. Device control based on parsed meeting information
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
CN108564946B (zh) * 2018-03-16 2019-09-20 苏州思必驰信息科技有限公司 在语音对话平台创建技能、语音对话产品的方法及系统
CN108491188B (zh) * 2018-03-19 2019-09-03 苏州思必驰信息科技有限公司 语音对话产品的开发资源的管理方法及装置
US10623246B1 (en) * 2018-03-27 2020-04-14 Amazon Technologies, Inc. Device configuration by natural language processing system
US10720157B1 (en) * 2018-06-13 2020-07-21 Amazon Technologies, Inc. Voice to voice natural language understanding processing
CN108984157B (zh) * 2018-07-27 2022-01-11 思必驰科技股份有限公司 用于语音对话平台的技能配置和调用方法及系统
US10950231B1 (en) * 2018-09-04 2021-03-16 Amazon Technologies, Inc. Skill enablement
CN109358856B (zh) * 2018-10-12 2020-12-15 四川长虹电器股份有限公司 一种语音技能发布方法

Also Published As

Publication number Publication date
CN110234032B (zh) 2022-02-25
CN110234032A (zh) 2019-09-13
US11450318B2 (en) 2022-09-20
US20200357397A1 (en) 2020-11-12
JP6969051B2 (ja) 2021-11-24

Similar Documents

Publication Publication Date Title
JP6969051B2 (ja) 音声スキル作成方法及びシステム
CN107925705B (zh) 联络中心的流设计装置
US20190180749A1 (en) Coordinating the execution of a voice command across multiple connected devices
CN111506291B (zh) 音频数据采集方法、装置、计算机设备及存储介质
US9635129B2 (en) Automatic application discovery, download, integration and launch
CN108090177A (zh) 多轮问答系统的生成方法、设备、介质及多轮问答系统
CN109542410B (zh) 规则引擎系统、方法、设备及存储介质
CN110162345A (zh) 一种应用程序访问方法、装置和存储介质
CN108257590A (zh) 语音交互方法、装置、电子设备、存储介质
CN103853535B (zh) 修改中间件的方法和装置
CN107590216A (zh) 答案获得方法、装置和计算机设备
CN106776067A (zh) 多容器系统中系统资源的管理方法及管理装置
CN111210816B (zh) 一种智能语音配置管理方法、装置及电子设备
JP2021099874A (ja) 複数ターン会話におけるパブリックシナリオ会話のバックトラッキング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN110297616A (zh) 话术的生成方法、装置、设备以及存储介质
CN109284108A (zh) 数据存储方法、装置、电子设备及存储介质
EP3761625B1 (en) Flow designer for contact centers
CN114048415A (zh) 表单生成方法及装置、电子设备和计算机可读存储介质
CN114338820A (zh) 网络访问方法、装置、电子设备及存储介质
US20200380975A1 (en) Voice control method and apparatus of electronic device, and storage medium
CN111459506A (zh) 深度学习平台集群的部署方法、装置、介质及电子设备
CN101558382B (zh) 关于程序代码转换的管理进程文件系统的方法及设备
CN110058695A (zh) 绘本互动内容生成方法、编辑器、电子设备及存储介质
CN110705637A (zh) 一种基于应用安装列表信息的用户分类的方法、装置和电子设备
CN114301789B (zh) 数据传输方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210409

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210930

R150 Certificate of patent or registration of utility model

Ref document number: 6969051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02