JP2021043435A

JP2021043435A - 音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体

Info

Publication number: JP2021043435A
Application number: JP2020069176A
Authority: JP
Inventors: チィー，ヤオウェン; Yaowen Qi
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-09-11
Filing date: 2020-04-07
Publication date: 2021-03-18
Anticipated expiration: 2040-04-07
Also published as: CN110570866A; US20210074265A1; JP6986590B2

Abstract

【課題】プロの開発能力を有していないユーザーがスマートデバイスのために音声スキルを作成し、音声スキルの作成とメンテナンスの効率を向上させる音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体を提供する。【解決手段】音声スキル作成方法は、音声スキルの作成要求に応答して、少なくともプロット構成サブインターフェースを含む編集インターフェースを表示し、ユーザーがプロット構成サブインターフェースを介して構成されたプロットインタラクティブテキストを取得し、プロットインタラクティブテキストで音声インタラクティブ話術を生成し、音声インタラクティブ話術に基づいて音声スキルを作成する。【選択図】図１ａ

Description

本願実施例はインターネット技術分野に関し、特に音声スキル技術分野、具体的に、音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体に関する。

人工知能技術の発展に伴い、例えばスマートスピーカーなどのスマートデバイスがますます広範囲になり、そして人々の日常生活にあふれている。音声スキルはスマートデバイスの基礎機能として、ユーザーに会話型インタラクティブサービスを提供し、ユーザーの実際の生活でのインタラクティブ場面をシミュレーションすることができる。ここで、スキルは極めて重要な分枝であり、ユーザー音声インタラクション可能なインタラクティブ場面を実現させることができ、ユーザーは音声のみを通じてとのインタラクションを完成させることができ、人とインタラクションするように自然である。

現在、音声スキルはプロの開発者のみがコードを編纂することによって作成させされ、プロの開発能力を有していないユーザーにとっては、自発的に音声スキルを作成及びメンテナンスすることができない。したがって、音声スキルの作成とメンテナンスについては、効率が低い。

本願実施例は、プロの開発能力を有していないユーザーがスマートデバイスのために音声スキルを作成し、音声スキルの作成とメンテナンスの効率を上昇させる音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体を提供している。

第１態様において、本願の実施例では音声スキル作成方法を提供し、上記音声スキル作成方法は、音声スキルの作成要求に応答して、編集インターフェースを表示するステップであって、前記編集インターフェースには少なくともプロット構成サブインターフェースを含むステップと、ユーザーが前記プロット構成サブインターフェースを介して構成されたプロットインタラクティブテキストを取得するステップと、前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、前記音声インタラクティブ話術に基づいて音声スキルを作成するステップと、を含む。

上記出願での一つの実施例は具体的には、ユーザーがプロットを構成するために一つの編集インターフェースを提供し、またユーザーが構成したプロットを音声インタラクティブ話術を生成して、さらに音声インタラクティブ話術に基づいて音声スキルを作成し、これによりプロの開発能力を有していないユーザーがスマートデバイスが作成した音声スキルのために、音声スキルの作成とメンテナンスの効率を上昇させることができるとの利点または有益な効果を有している。

選択可能に、前記プロット構成サブインターフェースは、前記プロットにおけるステップと、各ステップに関する質問と、各質問に関する異なる選択コンテンツと、異なる選択コンテンツのジャンプステップ番号と、を構成する。

上記出願での一つの実施例は、プロット構成サブインターフェースを提供することにより、ユーザーがプロットを構成する効率を上昇させるとの利点または有益な効果を有している。

選択可能に、前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、また前記音声インタラクティブ話術に基づいて音声スキルを作成するステップは、前記プロットにおける各ステップに関する質問と、各質問に関する異なる選択コンテンツに基づいて、音声インタラクティブ話術を生成するステップと、前記音声インタラクティブ話術と、前記プロットにおけるステップと異なる選択コンテンツのジャンプステップ番号とに基づいて、音声スキルを生成するステップと、を含む。

上記出願での一つの実施例は、プロットステップに関する質問及び選択に基づいてインタラクション話術を生成して、異なるステップの間のジャンプステップ番号を合わせて、音声スキルを作成し、これにより音声スキルを作成する効率を上昇させることができるとの利点または有益な効果を有している。

選択可能に、前記編集インターフェースは、音声スキルに入る場合に放送される歓迎メッセージを構成する歓迎メッセージ構成サブインターフェースをさらに含む。

選択可能に、前記編集インターフェースは、音声スキルを終了する場合に放送される終了メッセージを構成する終了メッセージ構成サブインターフェースをさらに含む。

選択可能に、前記編集インターフェースは、案内メッセージを構成する意図理解不能な構成サブインターフェースをさらに含み、ユーザーの音声認識結果が音声スキル内のプロットの音声インタラクティブ場面設定に中ってない場合に、前記案内メッセージを放送して、ユーザーがプロット内の設定命令でインタラクトすることを提示しかつ案内する。

選択可能に、前記編集インターフェースは、カスタム返信コンテンツを構成するカスタム返信構成サブインターフェースをさらに含む。前記カスタム返信コンテンツは、少なくとも、意図と、表現と、返信コンテンツとを含み、ユーザーによって現在表現されている音声認識結果が前記意図に中った後、前記返信コンテンツを放送することに用いられる。

上記出願での一つの実施例は、編集インターフェースは歓迎メッセージ構成サブインターフェース、終了メッセージ構成サブインターフェース、意図理解不能な構成サブインターフェース、カスタム返信構成サブインターフェースを提供し、相応な構成によってユーザーが音声インタラクトすることを案内または助けることで、インタラクションコンテンツを豊富にし、インタラクションの効率を上昇させることができるとの利点または有益な効果を有している。

選択可能に、前記編集インターフェースは、前記プロット内の任意の位置で放送される音響効果を構成する音響効果挿入サブインターフェースをさらに含む。

上記出願での一つの実施例は、音響効果を挿入することにより、作成した音声スキルの豊富性を高めるとの利点または有益な効果を有している。

前記方法は、前記編集インターフェースのコードエクスポートコントロールのトリガ操作に応答して、現在作成された音声スキルをコード形式でエクスポートし、音声スキルのコードファイルを取得するステップをさらに含む。

上記出願での一つの実施例は、現在作成した音声スキルをコードの形式でエクスポートすることにより、ユーザーがコードに対して再編集を行うことができ、スキルがさらに豊富になるとの利点または有益な効果を有している。

第二態様において、本願実施例は音声スキル作成装置を提供し、前記音声スキル作成装置は、音声スキルの作成要求に応答して、編集インターフェースを表示する編集インターフェース表示モジュールであって、前記編集インターフェースに少なくともプロット構成サブインターフェースを含む編集インターフェース表示モジュールと、ユーザーが前記プロット構成サブインターフェースによって構成したプロットインタラクティブテキストを取得するプロット取得モジュールと、前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、前記音声インタラクティブ話術に基づいて音声スキルを作成するスキル作成モジュールと、を含む。

第三態様において、本願実施例は電子機器を提供し、前記電子機器は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続するメモリと、を含み、
前記メモリには前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも一つのプロセッサが本願任意の実施例が述べる音声スキル作成方法を実行できるように、前記少なくとも一つのプロセッサに実行される。

第４態様において、本願の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに本願の任意の実施例に係る音声スキル作成方法を実行させる。

上記出願の一つの実施例は、以下の利点または有益な効果を有する。ユーザーがプロットを構成するために編集インターフェースを提供し、またユーザーが構成したプロットを音声インタラクティブ話術を生成して、さらに音声インタラクティブ話術に基づいて音声スキルを作成し、これによりプロの開発能力を有していないユーザーがスマートデバイスが作成した音声スキルのために、音声スキルの作成とメンテナンスの効率を上昇させることができる。また編集インターフェースは歓迎メッセージ構成サブインターフェースと、終了メッセージ構成サブインターフェースと、意図理解不能な構成サブインターフェースと、カスタム返信構成サブインターフェースとをさらに提供し、相応な構成によってユーザーが音声インタラクトすることを案内または助けることで、インタラクションコンテンツを豊富にし、インタラクションの効率を上昇させることができる。同時に、ユーザーがコードに対して再編集できるように、現在作成した音声スキルをコードの形式でエクスポートし、スキルをさらに豊富にする。

上記の選択可能な態様が有する他の効果については、具体的な実施例と併せて以下に説明する。

図面は、本願の構成をより良く理解するためのものであり、本願を限定するものではない。
本発明の実施例による音声スキル作成方法の概略フロチャートである。本発明の実施例によるプロットを構成済みのプロット構成サブインターフェースの効果概略図である。本発明の実施例による編集インターフェースの効果概略図である。本発明の実施例によるもう一つの音声スキル作成方法の概略フロチャートである。本発明の実施例による音声スキル作成装置の概略構成図である。本発明の実施例の音声スキル作成方法を実現させるための電子機器のブロック図である。

本願の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本願の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本願の範囲および精神から逸脱する必要がなく、本明細書に記載の実施例に様々な変更および修正を加えることができることを認識すべきである。また、明確さおよび簡潔さのために、周知の機能および構成の説明は、以下の説明では省略される。

図１ａは本発明の実施例による音声スキル作成方法の概略フロチャートである。本実施例は音声認識能力を有するスマートデバイスのために音声スキルを開発する状況に適用してよく、例えばスマートデバイスのためにストーリ系音声スキルを開発することができる。当該方法は音声スキル作成装置によって実行されることができる。当該装置はソフトウェア及び／またはハードウェアを採用する方式で実現し、電子機器の中に構成することが好ましい。例えば、スマートスピーカーなどのスマートデバイス、またはスマートデバイスのために音声スキルを作成するサーバーに用いられる。如図１ａに示すように、当該方法は、具体的に、以下のＳ１０１〜Ｓ１０３を含むことができる。

Ｓ１０１、音声スキルの作成要求に応答して、編集インターフェースを表示する。

前記編集インターフェースには少なくともプロット構成サブインターフェースを含み、前記プロット構成サブインターフェースは、プロットにおけるステップと、各ステップに関する質問と、各質問に関する異なる選択コンテンツと、異なる選択コンテンツのジャンプステップ番号と、を構成する。

プロット構成サブインターフェースは、「新しいステップを増やす」コントロールを提供し、ユーザーは当該コントロールをクリックすることにより、一つの新しいステップを増やすことができ、同時にプロットで当該ステップに関する質問、各質問に関する異なる選択コンテンツ及び異なる選択コンテンツのジャンプステップ番号を編纂する。なお、ユーザーは直接文字入力の方式で編纂を行うことができ、コードを編纂することによって実現させることなく、素人でも簡単で迅速にプロット構成サブインターフェースを利用してプロットの編纂を完成させることができると保証する。例示的に、図１ｂを参照して、それはプロットを構成済みのプロット構成サブインターフェースの効果概略図である。

Ｓ１０２、ユーザーが前記プロット構成サブインターフェースによって構成したプロットインタラクティブテキストを取得する。

なお、図１ｂに示すように、ストーリ系音声スキルを作成することを例として、プロット構成サブインターフェースにストーリプロットを加え、ユーザーがプロットを編集した後、システムは裏でプロットの全てのステップ、及び各ステップに関する質問、各質問に関する異なる選択コンテンツ及び異なる選択コンテンツのジャンプステップ番号を取得することができ、そして取得したデータコンテンツをプロットインタラクティブテキストとすることができる。

Ｓ１０３、前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、前記音声インタラクティブ話術に基づいて音声スキルを作成する。

選択可能に、以下のようなステップで音声スキルを作成することができる。

Ｓ１、プロットで各ステップに関する質問と、各質問に関する異なる選択コンテンツとで、音声インタラクティブ話術を生成する。

例示的に、図１ｂにおけるステップ１に対応するコンテンツについて、生成した音声インタラクティブ話術は「現在あなたは不思議な世界に来ています。あなたはどこに行きますか？一番目：博物館、二番目：銀行、三番目：美容室。あなたは私に一番目、二番目、または三番目と言ってもよいです」。

Ｓ２、前記音声インタラクティブ話術と、前記プロットにおけるステップと異なる選択コンテンツのジャンプステップ番号とに基づいて、音声スキルを作成する。

プロットにおけるステップと異なる選択コンテンツのジャンプステップ番号に基づいて、複数の異なるステップの音声インタラクティブ話術を組み合わせて、音声スキルを生成する。例えば、図１ｂにおけるプロットに基づいて、ストーリ系音声スキルを生成することができる。後でスマートデバイスは音声スキルに基づいてユーザーとの音声インタラクションを完成させることができる。具体的に、本願のスマートデバイスには、ユーザーの音声を認識し、プロットで認識結果に基づいて音声インタラクションを完成させるように各ステップのジャンプを行うことに用いられる音声認識モジュールをさらに含む。例示的に、音声インタラクションのプロセスは以下のようである。

スマートデバイス：「現在あなたは不思議な世界に来ています。あなたはどこに行きますか？一番目：博物館、二番目：銀行、三番目：美容室。あなたは私に一番目、二番目、または三番目と言ってもよいです」。
ユーザー：「一番目」。
スマートデバイス：「あなたは博物館に来ています。チケットを購入しますか？一番目：はい、二番目：いいえ」。

本願実施例の技術案は、ユーザーがプロットを構成するために編集インターフェースを提供し、またユーザーが構成したプロットで、音声インタラクティブ話術を生成して、さらに音声インタラクティブ話術に基づいて音声スキルを作成し、これによりプロの開発能力を有していないユーザーがスマートデバイスが作成した音声スキルのために、音声スキルの作成とメンテナンスの効率を上昇させることができる。

図１ｃを参照すると、編集インターフェースの効果概略図を示している。編集インターフェースは上記プロット構成サブインターフェースのほかに、歓迎メッセージ構成サブインターフェースと、終了メッセージ構成サブインターフェースと、意図理解不能な構成サブインターフェースと、カスタム返信構成サブインターフェースと音響効果挿入サブインターフェースとをさらに含む。

歓迎メッセージ構成サブインターフェースは、完全なスキルの案内とするように、音声スキルに入る場合に放送される歓迎メッセージを構成する。歓迎メッセージは複数追加することができ、放送される場合にはランダムで一つを抽出して放送することができる。

終了メッセージ構成サブインターフェースは、音声スキルにログアウトする場合に放送される終了メッセージを構成する。同様に、終了メッセージも複数追加することができ、放送される場合にはランダムで一つを抽出して放送することができる。

意図理解不能な構成サブインターフェースは、案内メッセージを構成し、ユーザーの音声認識結果が音声スキル内のプロットの音声インタラクティブ場面設定に中ってない場合に、前記案内メッセージを放送して、ユーザーがプロット内の設定命令でインタラクトするように提示し案内する。案内メッセージも複数追加することができ、放送される場合にはランダムで一つを抽出して放送することができる。

カスタム返信構成サブインターフェースは、カスタム返信コンテンツを構成する。前記カスタム返信コンテンツは、少なくとも、意図と、表現と、返信コンテンツとを含み、ユーザーによって現在表現されている音声認識結果が前記意図に中った後、ユーザーのためにインタラクトするように、前記返信コンテンツを放送する。

音響効果挿入サブインターフェースは、プロットの中の任意の位置の放送すべき音響効果を構成する。音響効果は、ユーザーが加えた標準フォーマット仕様の擬似コードオーディオとリンクであってもよい。擬似コードオーディオは直接文字に挿入してよく、スマートデバイスはユーザーの挿入に従ってオーディオを放送する。

本願実施例の技術案において、編集インターフェースはエディタのインターフェースであってよく、エディタの可視化、便利な操作によって音声スキルを作成することができる。編集インターフェースは歓迎メッセージ構成サブインターフェースと、終了メッセージ構成サブインターフェースと、意図理解不能な構成サブインターフェースと、カスタム返信構成サブインターフェースとをさらに提供し、相応な構成によってユーザーが音声インタラクトするように案内しまたは助けることができ、さらに音声インタラクション体験を上昇させることができる。音響効果構成サブインターフェースによって、擬似コードオーディオ挿入を支持し、音声スキルの豊富性を上昇させる。

図２は本発明の実施例によるもう一つの音声スキル作成方法の概略フロチャートである。本実施例は上記実施例に基づいてさらに最適化を行い、コードをエクスポートするステップを増やした。図２に示すように、当該方法は具体的に以下のようなＳ２０１〜Ｓ２０４を含む。

Ｓ２０１、音声スキルの作成要求に応答して、編集インターフェースを表示する。

前記編集インターフェースは、少なくとも、プロット構成サブインターフェースと、歓迎メッセージ構成サブインターフェースと、終了メッセージ構成サブインターフェースと、意図理解不能な構成サブインターフェースと、カスタム返信構成サブインターフェースと、音響効果挿入サブインターフェースと、コードエクスポートコントロールとを含む。

Ｓ２０２、ユーザーが前記プロット構成サブインターフェースによって構成したプロットインタラクティブテキストを取得する。

Ｓ２０３、前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、前記音声インタラクティブ話術に基づいて音声スキルを作成する。

Ｓ２０４、前記編集インターフェースのコードエクスポートコントロールのトリガ操作に応答して、現在作成された音声スキルをコード形式でエクスポートして、音声スキルのコードファイルを取得する。

トリガ操作はシングルアクションまたはダブルアクションであってもよい。

本願実施例の技術案は、ユーザーのトリガ操作に応答することにより、現在作成した音声スキルをコードの形式でエクスポートすることができ、ユーザーがコードに対して再編集することができ、音声スキルがさらに豊富になる。

図３は本発明の実施例による音声スキル作成装置の概略構成図である。音声インタラクションの機能を有するデバイスでデバイスのために音声スキルを開発する状況に適用する。当該装置は本願の任意の実施例が述べる音声スキル作成方法を実現させることができる。図３に示すように、当該装置３００は、具体的に、音声スキルの作成要求に応答に用いられ、編集インターフェースを表示する編集インターフェース表示モジュール３０１であって、前記編集インターフェースには少なくともプロット構成サブインターフェースを含む編集インターフェース表示モジュール３０１と、ユーザーが前記プロット構成サブインターフェースによって構成したプロットインタラクティブテキストを取得するプロット取得モジュール３０２と、前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、そして前記音声インタラクティブ話術に基づいて音声スキルを作成するスキル作成モジュール３０３と、を含む。

選択可能に、前記プロット構成サブインターフェースは、プロットにおけるステップと、各ステップに関する質問と、各質問に関する異なる選択コンテンツと、異なる選択コンテンツのジャンプステップ番号と、を構成する。

選択可能に、前記スキル作成モジュールは、前記プロットにおける各ステップに関する質問と、各質問に関する異なる選択コンテンツとで、音声インタラクティブ話術を生成する音声インタラクティブ話術生成ユニットと、前記音声インタラクティブ話術と、前記プロットにおけるステップと異なる選択コンテンツのジャンプステップ番号とに基づいて、音声スキルを生成することに用いられるスキル作成ユニットと、を含む。

選択可能に、前記編集インターフェースは、音声スキルに入る場合に放送される終了メッセージを構成する終了メッセージ構成サブインターフェースをさらに含む。

選択可能に、前記編集インターフェースは、案内メッセージを構成する意図理解不能な構成サブインターフェースをさらに含む。ユーザーの音声認識結果が音声スキル内のプロットの音声インタラクティブ場面設定に中ってない場合に、前記案内メッセージを放送して、ユーザーがプロット内の設定命令でインタラクトするように提示し案内する。

選択可能に、前記編集インターフェースは、カスタム返信コンテンツを構成するカスタム返信構成サブインターフェースをさらに含み、前記カスタム返信コンテンツは、少なくとも、意図と、表現と、返信コンテンツとを含み、ユーザーによって現在表現されている音声認識結果が前記意図に中った後、ユーザーのためにインタラクトするように、前記返信コンテンツを放送することに用いられる。

選択可能に、前記編集インターフェースは、プロットでの任意の位置の放送すべき音響効果を構成する音響効果挿入サブインターフェースをさらに含む。

選択可能に、前記装置は、前記編集インターフェースのコードエクスポートコントロールのトリガ操作に応答して、現在作成された音声スキルをコード形式でエクスポートして、音声スキルのコードファイルを取得するコードファイル生成モジュールをさらに含む。

本願実施例が提供している音声スキル作成装置は本願の任意の実施例が提供している音声スキル作成方法を実行することができ、実行方法相応の機能モジュールと有益な効果を備えている。本実施例で詳しく説明していない内容は本願の任意の方法の実施例での説明を参照してもよい。

本願の実施例により、本願は電子機器及び読み取り可能な記憶媒体をさらに提供している。

図４に示すように、本願の実施例による音声スキル作成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および/または必要とされる本願の実現を限定することを意図するものではない。

図４に示すように、当該電子機器は、一つまたは複数のプロセッサ４０１、メモリ４０２、および高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、必要に応じて取り付けられてもよい。プロセッサは、外部入力/出力デバイス（例えば、インターフェースに結合されたディスプレイデバイス）にＧＵＩのグラフィカル情報を表示するためにメモリに記憶されている命令を含む、電子機器内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続し、それぞれの電子機器が必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、マルチプロセッサシステム）の一部を提供できます。図７では、一つのプロセッサ７０１を例に挙げている。

メモリ４０２は、本願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも一つのプロセッサによって実行可能な命令を記憶し、その結果、前記少なくとも一つのプロセッサは、本願に係る音声制御方法を実行する。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願によって提供される音声スキル作成方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ４０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本願の実施例の音声制御方法に対応するプログラム命令/モジュール（例えば、図３に示される編集インターフェース表示３０１、プロット取得モジュール３０２、スキル作成モジュール３０３）を記憶することができる。プロセッサ４０１は、メモリ４０２に記憶されている非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。

メモリ４０２は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも一つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、音声スキル作成方法を実現する電子機器の使用に基づいて作成されたデータを記憶することができる。また、メモリ４０２は、高速ランダムアクセスメモリを含むことができるし、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置などの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ４０２は、プロセッサ４０１に対して遠隔に構成されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して音声スキル作成方法を実現する電子機器に接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。

音声スキル作成方法を実現する電子機器は、入力装置４０３と出力装置４０４とをさらに含むことができる。プロセッサ４０１と、メモリ４０２と、入力装置４０３と、出力装置４０４とは、バスまたは他の方式を介して接続することができ、図４では、バスを介した接続を例に挙げている。

入力装置４０３は、入力された数字または文字情報を受信し、音声スキル作成方法を実現する電子機器のユーザー設定および機能制御に関するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、一つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置４０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。

本明細書で説明されるシステムおよび技術の様々な実施例は、デジタル電子回路、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な一つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも一つの入力装置、および少なくとも一つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも一つの入力装置、および当該少なくとも一つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサの機械命令を含み、されに高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらのンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ）を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む、「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための信号を指す。

ユーザーとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザーに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）と、キーボードおよびポインティング装置（例えば、マウスまたはトラックボール）とを有するコンピュータで実施されてもよく、ユーザーは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザーとのインタラクションを提供することもできる。例えば、ユーザーに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（例えば、音響入力、音声入力、または触覚入力）を用いてユーザーからの入力を受信することができるあってもよい。

本明細書に記載のシステムおよび技術の各実施例は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、またはミドルコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザーインターフェースまたはWebブラウザを備えたユーザーコンピュータ。ユーザーは、当該グラフィカルユーザーインターフェースまたは当該Ｗｅｂブラウザを介して、ここで説明されるシステムおよび技術の実施例とインタラクションできる）、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体（例えば、通信ネットワーク）によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。

本願実施例の技術案によって、ユーザーがプロットを構成するために編集インターフェースを提供し、またユーザーが構成したプロットを音声インタラクティブ話術を生成して、さらに音声インタラクティブ話術に基づいて音声スキルを作成し、これによりプロの開発能力を有していないユーザーがスマートデバイスが作成した音声スキルのために、音声スキルの作成とメンテナンスの効率を上昇させることができる。また編集インターフェースは歓迎メッセージ構成サブインターフェースと、終了メッセージ構成サブインターフェースと、意図理解不能な構成サブインターフェースと、カスタム返信構成サブインターフェースとさらにを提供し、相応な構成によってユーザーが音声インタラクトすることを案内または助けることで、インタラクションコンテンツを豊富にし、インタラクションの効率を上昇させることができる。同時に、ユーザーがコードに対して再編集できるように、現在作成した音声スキルをコードの形式でエクスポートし、スキルをさらに豊富にする。

なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。例えば、本願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。

前述した具体的な実施例は、本願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解するべきである。本願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本願の保護範囲に含まれるものとする。

Claims

音声スキルの作成要求に応答して、編集インターフェースを表示するステップであって、前記編集インターフェースは少なくともプロット構成サブインターフェースを含むステップと、
ユーザーが前記プロット構成サブインターフェースを介して構成されたプロットインタラクティブテキストを取得するステップと、
前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、前記音声インタラクティブ話術に基づいて音声スキルを作成するステップと、を含む、
ことを特徴とする音声スキル作成方法。
前記プロット構成サブインターフェースは、前記プロットにおけるステップと、各ステップに関する質問と、各質問に関する異なる選択コンテンツと、異なる選択コンテンツのジャンプステップ番号と、を構成する、
ことを特徴とする請求項１に記載の音声スキル作成方法。
前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、前記音声インタラクティブ話術に基づいて音声スキルを作成するステップは、
前記プロットにおける各ステップに関する質問と、各質問に関する異なる選択コンテンツとで、音声インタラクティブ話術を生成するステップと、
前記音声インタラクティブ話術と、前記プロットにおけるステップと、異なる選択コンテンツのジャンプステップ番号とに基づいて、音声スキルを生成するステップと、を含む、
ことを特徴とする請求項２に記載の音声スキル作成方法。
前記編集インターフェースは、音声スキルに入る場合に放送される歓迎メッセージを構成する歓迎メッセージ構成サブインターフェースをさらに含む、
ことを特徴とする請求項１に記載の音声スキル作成方法。
前記編集インターフェースは、音声スキルを終了する場合に放送される終了メッセージを構成する終了メッセージ構成サブインターフェースをさらに含む、
ことを特徴とする請求項１に記載の音声スキル作成方法。
前記編集インターフェースは、案内メッセージを構成する意図理解不能な構成サブインターフェースをさらに含み、ユーザーの音声認識結果が音声スキル内のプロットの音声インタラクティブ場面設定に中っていない場合に、前記案内メッセージを放送して、ユーザーがプロット内の設定命令でインタラクトするように提示し案内する、
ことを特徴とする請求項１に記載の音声スキル作成方法。
前記編集インターフェースは、カスタム返信コンテンツを構成するカスタム返信構成サブインターフェースをさらに含み、前記カスタム返信コンテンツは、少なくとも、意図と、表現と、返信コンテンツとを含み、ユーザーによって現在表現されている音声認識結果が前記意図に中った後、前記返信コンテンツを放送する、
ことを特徴とする請求項１に記載の音声スキル作成方法。
前記編集インターフェースは、前記プロット内の任意の位置で放送される音響効果を構成する音響効果挿入サブインターフェースをさらに含む、
ことを特徴とする請求項１に記載の音声スキル作成方法。
前記音声スキル作成方法は、
前記編集インターフェースのコードエクスポートコントロールのトリガ操作に応答して、現在作成された音声スキルをコード形式でエクスポートし、音声スキルのコードファイルを取得するステップをさらに含む、
ことを特徴とする請求項１に記載の音声スキル作成方法。
音声スキル作成装置であって、
音声スキルの作成要求に応答して、編集インターフェースを表示する編集インターフェース表示モジュールであって、前記編集インターフェースは少なくともプロット構成サブインターフェースを含む編集インターフェース表示モジュールと、
ユーザーが前記プロット構成サブインターフェースによって構成したプロットインタラクティブテキストを取得するプロット取得モジュールと、
前記プロットインタラクティブテキストで音声インタラクティブ話術を生成し、前記音声インタラクティブ話術に基づいて音声スキルを作成するスキル作成モジュールと、を含む、
ことを特徴とする音声スキル作成装置。
前記プロット構成サブインターフェースは、前記プロットにおけるステップと、各ステップに関する質問と、各質問に関する異なる選択コンテンツと、異なる選択コンテンツのジャンプステップ番号と、を構成する、
ことを特徴とする請求項１０に記載の音声スキル作成装置。
前記スキル作成モジュールは、
前記プロットにおける各ステップに関する質問と、各質問に関する異なる選択コンテンツとで、音声インタラクティブ話術を生成する話術生成ユニットと、
前記音声インタラクティブ話術と、前記プロットにおけるステップと、異なる選択コンテンツのジャンプステップ番号とに基づいて、音声スキルを生成するスキル作成ユニットと、を含む、
ことを特徴とする請求項１１に記載の音声スキル作成装置。
前記音声スキル作成装置は、前記編集インターフェースのコードエクスポートコントロールのトリガ操作に応答して、現在作成された音声スキルをコード形式でエクスポートして、音声スキルのコードファイルを取得するコードファイル生成モジュールをさらに含む、
ことを特徴とする請求項１０に記載の音声スキル作成装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが請求項１〜９のいずれかに記載の音声スキル作成方法を実行する、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１〜９のいずれかに記載の音声スキル作成方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。