JP2019185062A

JP2019185062A - 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2019185062A
Application number: JP2019133295A
Authority: JP
Inventors: 浜源杜; Bang Yuan Du; 岩張; Iwao Cho; 鵬袁; Peng Yuan; 龍龍田; long long Tian; 良玉常; Liang Yu Chang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-09-10
Filing date: 2019-07-19
Publication date: 2019-10-24
Anticipated expiration: 2039-07-19
Also published as: US20190341047A1; CN109147784A; US11176938B2; CN109147784B; JP7433000B2

Abstract

【課題】ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。【解決手段】本発明の音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体は、取得したユーザのオーディオデータをサーバに送信して語義理解を行い、構造化データを取得し、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御することを含む。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。【選択図】図２

Description

本発明の実施例は、音声インタラクション技術の分野に関し、特に音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体に関する。

時代の流れとして、テレビ画面の解像度が大幅に向上し、優れた解像度によりテレビがビデオ画面を再生する時には非常に大きな利点を有する。テレビは、テレビ番組を見る単なるツールとしての役割だけでなく、ビデオ、娯楽、ゲーム、テレビ番組のプラットフォームとしても発達している。

従来の技術において、デュアルオペレーティングシステム（ＤｕｅｒＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＤｕｅｒＯＳ）を搭載するテレビには、スマートインタラクション対話システムが集積されており、ユーザは人間の言語でスマートテレビと自然にインタラクションすることができる。同時に、テレビ（Ｔｅｌｅｖｉｓｉｏｎ、ＴＶ）側は画面が大きいという特徴を有し、ゲームをするのにも非常に適している。

しかしながら、現在、テレビ利用シーンでは、リモートコントローラキーを使ってゲームをプレイすることへの反応性がよくない。対話型インタラクションにより適するいくつかのゲームは、従来の技術においては不十分なゲーム体験になってしまい、娯楽性及び利便性の面でユーザのニーズをうまく満たすことができていない。

本発明の実施例は、上記のような対話効果が低く、ユーザ体験及び利便性が低いという問題を解決する、音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。

第１の態様では、本発明の実施例は、取得したユーザのオーディオデータをサーバに送信するステップと、前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するステップと、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップと、を含むことを特徴とする音声インタラクション方法を提供する。

１つの具体的な実施形態において、前記方法は、前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するステップをさらに含む。

さらに、取得したユーザのオーディオデータをサーバに送信するステップは、前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うことを含む。

１つの具体的な実施形態において、前記方法は、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するステップをさらに含む。

さらに、取得したユーザのオーディオデータをサーバに送信するステップの前に、前記オーディオデータに対してエコー除去及び／又はノイズ低減処理を行い、処理後のオーディオデータを取得するステップを含む。

さらに、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップは、前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定することと、前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御することと、を含む。

第２の態様では、本発明の実施例は、端末機器から送信されたオーディオデータを受信するステップと、前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップと、前記構造化データを前記端末機器に返信するステップと、を含むことを特徴とする音声インタラクション方法を提供する。

さらに、前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップは、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得することと、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得することと、モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得することと、を含む。

第３の態様では、本発明の実施例は、取得したユーザのオーディオデータをサーバに送信するための送信モジュールと、前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するための受信モジュールと、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するための処理モジュールと、を含むことを特徴とする端末機器を提供する。

１つの具体的な実施形態において、前記処理モジュールはさらに、前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するために用いられる。

１つの具体的な実施形態において、前記送信モジュールは、前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うために用いられる。

１つの具体的な実施形態において、前記受信モジュールはさらに、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するために用いられる。

１つの具体的な実施形態において、前記処理モジュールは具体的には、前記オーディオデータに対してエコー除去及び／又はノイズ低減処理を行い、処理後のオーディオデータを取得し、前記処理後のオーディオデータに対して特徴抽出を行ってオーディオ特徴を取得し、且つ前記オーディオ特徴を復号し、前記文字情報を取得するために用いられる。

１つの具体的な実施形態において、前記処理モジュールは具体的には、前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定し、前記操作コマンドに基づいて前記ゲームを対応する操作を実行するように制御するために用いられる。

第４の態様では、本発明の実施例は、端末機器から送信されたオーディオデータを受信するための受信モジュールと、前記オーディオデータに対して音声理解処理を行い、前記オーディオデータに対応する構造化データを取得するための処理モジュールと、前記構造化データを前記端末機器に返信するための送信モジュールと、を含むことを特徴とするサーバを提供する。

１つの具体的な実施形態において、前記処理モジュールは具体的には、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得し、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得するために用いられる。

第５の態様では、本発明の実施例は、受信器、送信器、少なくとも１つのプロセッサ、メモリ及びコンピュータプログラムを含む端末機器を提供し、前記メモリはコンピュータ実行コマンドを記憶し、前記少なくとも１つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも１つのプロセッサは第１の態様に記載の音声インタラクション方法を実行する。

第６の態様では、本発明の実施例は、受信器、送信器、メモリ、プロセッサ及びコンピュータプログラムを含むサーバを提供し、前記メモリはコンピュータ実行コマンドを記憶し、前記プロセッサが前記メモリに記憶されたコンピュータ実行コマンドを実行することにより、前記少なくとも１つのプロセッサは第２の態様に記載の音声インタラクション方法を実行する。

第７の態様では、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、第１の態様に記載の音声インタラクション方法を実現する。

第８の態様では、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、第２の態様に記載の音声インタラクション方法を実現する。

本実施例は、音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。当該方法は、取得したユーザのオーディオデータをサーバに送信して語義理解を行い、構造化データを取得し、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御することを含む。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。

本発明の実施例又は従来技術の技術的解決手段をより明確に説明するため、以下に実施例又は従来技術の記述において必要な図面を用いて簡単に説明を行う。当然ながら、以下に記載する図面は本発明のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を想到しうる。
本発明の実施例に係る音声インタラクション方法の応用シーンの概略図である。本発明の実施例に係る音声インタラクション方法の実施例１のインタラクションフローチャートである。本発明の実施例に係る音声インタラクション方法の実施例２のインタラクションフローチャートである。本発明の実施例に係る音声インタラクション方法の実施例３のインタラクションフローチャートである。本発明の実施例に係る音声インタラクション方法の実施例４のインタラクションフローチャートである。本発明の実施例に係る音声識別のフローチャートである。本発明の実施例に係る語義理解のフローチャートである。本発明の実施例に係る音声インタラクション方法の実施例５の概略図１である。本発明の実施例に係る音声インタラクション方法の実施例５の概略図２である。本発明の実施例に係る端末機器の構造概略図である。本発明の実施例に係るサーバの構造概略図である。本発明の実施例に係る端末機器のハードウェア構造概略図である。本発明の実施例に係るサーバのハードウェア構造概略図である。

本発明の実施例の目的、技術的解決手段及び利点をより明瞭にするために、以下、本発明の実施例に係る図面を参照しながら、その技術的解決手段について説明する。当然のことながら、記載される実施例は本発明の実施例の一部にすぎず、その全ての実施例ではない。当業者は、本発明における実施例に基づいて創造的な労働をすることなく、取得されたその他の全ての実施例は、いずれも本発明の保護範囲に属する。

従来の技術において、例えばデュアルオペレーティングシステム（ＤｕｅｒＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＤｕｅｒＯＳ）を搭載するテレビは、スマートインタラクション対話システムが搭載され、ユーザは人間の言語でスマートテレビと自然にインタラクションすることができる。同時に、テレビ（Ｔｅｌｅｖｉｓｉｏｎ、ＴＶ）側は画面が大きいという特徴を有し、ゲームにも非常に好適である。しかしながら、現在のテレビ利用シーンでは、リモートコントローラキーを使ってゲームをプレイする体験がよくない。対話型インタラクションにより適するいくつかのゲーム、例えばマージャン、ポーカーは、従来の技術におけるゲーム体験が悪く、娯楽性及び利便性がユーザのニーズをうまく満たすことができない。

上記存在する問題に対して、本発明は、音声インタラクション方法、機器及び記憶媒体を提供する。ゲームとスマートテレビのスマートインタラクションシステムを組み合わせて、異なる手段で表現された同一のゲームの用語を識別することができ、ゲームの体験を大幅に向上させることにより、スマートテレビを音声インタラクションゲームのプラットフォームとして発展することができる。以下、いくつかの具体的な実施例により解決手段を詳細に説明する。

図１は本発明の実施例に係る音声インタラクション方法の応用シーンの概略図であり、図１に示すように、本実施例に係るシステムは端末機器０１及びサーバ０２を含む。そのうち、端末機器０１は、スマートテレビ、コンピュータ、携帯電話、タブレットコンピュータなどであってよい。本実施例は、端末機器０１の実施形態を特に限定せず、端末機器０１は有線又は無線の手段でネットワークに接続され、データインタラクションを行うことができればよい。サーバ０２は、語義理解処理を実現するために用いられ、語義を理解するクラウドプラットフォームである。

１つの具体的な実施形態において、ユーザは音声リモートコントローラ、端末機器０１に設置された音声収集装置、又は他のスマート機器により端末機器０１にオーディオデータ（即ち音声）を入力し、端末機器０１はオーディオデータに基づいてサーバ０２に送信することができ、サーバ０２によりオーディオデータに対して音声理解処理を行い、対応する構造化データを取得し、さらに構造化データを端末機器０１に送信し、端末機器０１は構造化データに基づいて実行しているアプリケーションを制御するか又はゲームを対応する操作を実行するように制御する。

１つの具体的な実施形態において、上記実施例における音声識別過程は、端末機器０１で完了されてもよく、具体的なステップは、端末機器０１が、オーディオデータを取得し、オーディオデータに対して音声識別を行い、且つそれを文字情報に変換し、さらに文字情報に対して音声理解処理を行い、対応する構造化データを取得し、且つ構造化データに基づいて端末機器０１で実行しているアプリケーションを制御するか又はゲームを対応する操作を実行するように制御することである。

１つの具体的な実施形態において、端末機器０１に音声スマートインタラクションシステムが設置され、例えば、音声スマートインタラクションシステムは、デュアルオペレーティングシステム（ＤｕｅｒＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＤｕｅｒＯＳ）であってよい。

図２は本発明の実施例に係る音声インタラクション方法の実施例１のインタラクションフローチャートであり、図２に示すように、解決手段は上記図１に示すシーンに用いられ、音声インタラクション方法の具体的な実施ステップは以下のとおりである。

Ｓ１０１で、取得したユーザのオーディオデータをサーバに送信する。

本ステップにおいて、ユーザは音声収集装置により端末機器にオーディオデータを入力することができ、音声収集装置はユーザの音声をオーディオデータとして入力し、端末機器は取得したオーディオデータをサーバに送信して語義解析理解を行う。サーバにとっては、端末機器から送信されたオーディオデータを受信し、後続にオーディオデータに対して語義理解を行って、ユーザが表現しようとする制御コマンドを理解することができる。

解決手段の１つの具体的な実施形態において、音声収集装置は、端末機器に設置された音声収集装置、例えばマイクロフォンなどであってもよく、その他のスマート機器であってもよい。端末機器がスマートテレビである時、音声収集装置は、音声リモートコントローラであってもよい。

選択的に、本ステップではユーザが入力したオーディオデータに対して識別処理を行い、文字情報を取得し、且つ文字情報に対して語義理解を行う過程は端末機器により実行されてもよく、例えば、端末機器は、オフライン状態にあっても、ユーザの意図を正確に識別することができる。

Ｓ１０２で、オーディオデータに対して語義理解処理を行い、オーディオデータに対応する構造化データを取得する。

本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを受信した後、オーディオデータに対して語義理解を行い、ユーザの操作意図を決定する必要がある。同じタイプの意図について様々なユーザ表現形態が存在するため、ユーザが入力したオーディオデータと操作意図との間は多対１の関係であり、操作意図の識別結果はサーバにおいて構造化データとして具現化される。

サーバは、ユーザの操作意図に対応する構造化データを取得するために、オーディオデータを解析処理する必要があり、サーバは、オーディオデータにおける音声の周波数、振幅、音色などの特徴及び音声中の文字情報を組み合わせることによりユーザの操作意図を識別することができ、且つ、操作意図を構造化データに変換する。サーバは、さらに、オーディオデータ中の音声を文字情報に直接変換して、文字情報に対してキーワードなどに基づいて語義理解を行ってユーザの操作意図を取得し、操作意図を構造化データに変換してもよく、本解決手段はこれについて限定しない。

Ｓ１０３で、構造化データを端末機器に返信する。

本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを解析処理することにより、ユーザが表現するコンテンツを理解し、つまりオーディオデータに対応する構造化データを取得し、構造化データを端末機器に返信する必要があり、それにより端末機器が音声スマートインタラクションシステム及びゲームアプリケーションを対応する操作を実行するように制御し、したがって、サーバが構造化データを端末機器に返信する必要があり、端末機器が構造化データを受信する。

Ｓ１０４で、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。

本ステップにおいて、端末機器は、サーバから返信された構造化データを受信した後、構造化コマンドに基づいて現在実行しているゲームを制御する必要があり、したがって、端末機器は具体的に制御しようとするゲームを決定し、且つゲームに基づいて構造化データを操作コマンドに生成し、現在実行しているゲームを、操作コマンドに基づいて対応する操作を実行するように制御する。

解決手段の実施形態において、ユーザ表現と構造化データとの間に多対１のマッピング関係が存在し、ユーザが表現するコンテンツに対して上記のような識別、解析、分類を行った後、対応する構造化データを取得し、構造化データを操作コマンドに生成し、ゲームにおいて操作コマンドを実行すれば、ユーザが音声インタラクションの手段でゲームをすることを実現することができる。

本実施例に係る音声インタラクション方法は、ユーザが入力したオーディオデータをサーバに送信して語義理解を行い、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。

図３は本発明の実施例に係る音声インタラクション方法の実施例２のインタラクションフローチャートであり、図３に示すように、上記実施例に基づいて、音声インタラクション方法の別の具体的な実施形態は、Ｓ２０１〜Ｓ２０５を含む。

Ｓ２０１で、ゲームの起動が検出されると、ゲームと音声スマートインタラクションシステムとの間の接続を確立し、ゲームと音声スマートインタラクションシステムとの間のバインディングを完了する。

本ステップにおいて、音声スマートインタラクションシステムは、ゲームの起動を検出した直後、ゲームのアプリケーションプログラムと接続を確立し、バインディングを行うことにより、ゲームのアプリケーションプログラムに対してコマンドを伝達し、且つゲームのアプリケーションプログラムは、実行された結果を音声スマートインタラクションシステムに返信することができる。

Ｓ２０２で、音声スマートインタラクションシステムにより、オーディオデータをサーバに送信して語義理解を行う。

本ステップにおいて、音声スマートインタラクションシステムは応用シーンに応じて、受信したオーディオデータに対してエコー除去及びノイズ低減を行うか、又はそのうち１つの処理を行い、処理後のオーディオデータをサーバに送信して、サーバが完了した語義理解をより正確にする。

選択的に、上記エコー除去は、エコー除去（ＡｃｏｕｓｔｉｃＥｃｈｏＣａｎｃｅｌｌａｔｉｏｎ、ＡＥＣ）アルゴリズムを用いて実現することができ、オーディオデータのノイズ低減処理についてノイズ低減処理（ＮｏｉｓｅＳｕｐｐｒｅｓｓｉｏｎ、ＮＳ）アルゴリズムを用いて環境ノイズを除去することができる。

Ｓ２０３で、オーディオデータに対して語義理解処理を行い、オーディオデータに対応する構造化データを取得する。

Ｓ２０４で、構造化データを端末機器に返信する。

Ｓ２０５で、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。

図４は本発明の実施例に係る音声インタラクション方法の実施例３のインタラクションフローチャートであり、図４に示すように、上記いずれかの実施例に基づいて、音声インタラクション方法の実施過程において、サーバは、オーディオデータに対して理解処理を行い、対応する構造化データを取得する必要があり、その過程は具体的にはＳ３０１〜Ｓ３０３で実施されることができる。

Ｓ３０１で、オーディオデータに対して識別処理を行い、オーディオデータに対応する文字情報を取得する。

本ステップにおいて、まず、オーディオデータに対して音声識別を行う前に、異なる応用シーンに応じて、受信したオーディオデータに対してエコー除去及びノイズ低減、又はそのうち１つの処理を行い、さらに処理後のオーディオデータに対して音声識別を行い、音声識別の過程は主に、オーディオデータにおけるオーディオ特徴を抽出し、そして、抽出したオーディオ特徴を復号処理し、最終的に対応する文字情報を取得することを含む。

Ｓ３０２で、文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得する。

本ステップにおいて、オーディオデータから変換された文字情報に基づいて、情報フィルタリング、自動要約、情報抽出、テキストマイニングなどの技術手段により、モデルで自然言語処理の過程を完了し、さらにそれに対して語義解釈を行い、文字情報に含まれるユーザの操作意図を理解し、ユーザ操作意図を有する解析コンテンツを取得する。

Ｓ３０３で、モデル処理により解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための構造化データを取得する。

本ステップにおいて、モデルで解析コンテンツと機械コマンド情報との間の対応関係を確立し、この対応関係は、一般的にユーザ操作意図を有する複数の解析コンテンツと１つの機械コマンド情報との間の対応関係であり、したがって、モデルに基づいて解析コンテンツを分類し、構造化データを取得することができ、構造化データは、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表し、さらに機械コマンド情報を端末機器に返信し、それに、対応するコマンド操作を完了させることができ、これは構造化データ返信とも呼ばれる。

図５は本発明の実施例に係る音声インタラクション方法の実施例４のインタラクションフローチャートであり、図５に示すように、上記いずれかの実施例に基づいて、音声インタラクション方法の実施過程において、端末機器はサーバから返信された構造化データを受信し、構造化データに基づいてゲームを実行するように制御する過程は、具体的にはＳ４０１〜Ｓ４０２で実施されてよい。

Ｓ４０１で、音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び構造化データに基づいて、構造化データに対応する操作コマンドを決定する。

本ステップにおいて、構造化データを返信した後、音声スマートインタラクションシステムは、構造化データにおける機械コマンド情報に基づいて、現在実行しているゲームに対応する操作コマンドを決定し、現在実行しているゲームは、ゲームを起動する時に、音声スマートインタラクションシステムとバインディングするゲームであってもよく、音声スマートインタラクションシステムが構造化データ返信を受信した後に検出した実行しているゲームであってもよい。

Ｓ４０２で、操作コマンドに基づいてゲームを対応する操作を実行するように制御する。

本ステップにおいて、操作コマンドの指示に基づいて、ゲームを対応する操作を実行するように制御すれば、ユーザの操作意図を実現することができる。

上記いくつかの実施例に基づいて、以下、端末機器がテレビであり、サーバがテレビにデータ解析処理を提供するクラウドサーバ（クラウド、クラウドプラットフォームとも呼ばれる）であることを例として、音声インタラクション方法を詳細に説明する。

図６は本発明の実施例に係る音声識別のフローチャートであり、図６に示すように、音声識別過程は、オーディオデータを収集し、収集したオーディオデータに対して特徴抽出を行い、収集したオーディオ特徴を一定のデコーダに置いて復号して音声識別結果を取得することを含む。

１．オーディオデータの収集過程において、録音機器の性能が高いほど、音源から機器までの距離が短くなり、単一のマイクロフォンではなく、効果的なマイクロフォンアレイを使用すると、取得したオーディオデータの特徴がより完全になり、識別に対してより有利になり、例えば、遠距離場（＞５メートル）ウェイクアップ又は識別をサポートしようとする場合、マイクロフォンアレイを使用する性能は、単一のマイクロフォンの性能より遥かに優れる。

２．収集したオーディオデータに対する特徴抽出について、まず、収集したオーディオデータを直接識別することができず、具体的な応用シーンに応じてオーディオデータに対してエコー除去及びノイズ低減、又はそのうち１つの処理を行う必要があり、例えば、ハンズフリー又は会議応用のシーンで、スピーカの音声は、複数回マイクロフォンにフィードバックされ、この時にマイクロフォンが収集したオーディオデータに音響エコーが存在し、ＡＥＣアルゴリズムを用いてエコー除去を行う必要がある。例えば、走行する車両において収集したオーディオデータは一定のノイズを有し、この時にオーディオデータに対してノイズ低減アルゴリズムを行って環境ノイズを除去する必要がある。

３．デコーダの復号過程において、音響モデル、言語モデル及び発音辞書を使用し、音響モデルの主な役割は、オーディオ特徴を音節に変換することであり、言語モデルの主な役割は音節をテキストに変換することであり、発音辞書は、音節からテキストまでのマッピングテーブルを提供する。

図７は本発明の実施例に係る語義理解のフローチャートであり、図７に示すように、語義理解は、自然言語処理、語義解析、解析コンテンツ分類及び構造化データ返信を含む。

ユーザの話を音声識別により文字に変換した後、ユーザが表現するコンテンツを処理する必要があり、このような処理は自然言語処理と呼ばれ、自然言語処理を行った後、語義解析によりユーザの話を解析し、解析したコンテンツを取得し、そして、モデル処理により、クラウドは、解析したコンテンツを分類処理し、分類処理した後ユーザの操作意図を機械コマンド情報に対応付け、さらに機械コマンド情報を構造化データとしてテレビに返信し、テレビは、構造化データを処理し、且つ対応する操作を実行する。

図８は本発明の実施例に係る音声インタラクション方法の実施例５の概略図１であり、図８に示すように、ここでマージャンゲームを例として説明する。

マージャンゲームを例として説明すると、マージャンゲームにログインする場合、まず、ゲームアプリケーションプログラムは、スマートテレビ側の音声スマートインタラクションシステムとバインディングを行う。スマートテレビ側は、クラウドからのコマンドを受信すると、コマンドがマージャンゲームのコマンドであるか否かを判断し、そうであれば、ゲームコマンドをマージャンゲームに伝達する。マージャンゲームは、異なるコマンドに基づいて対応する操作を実行し、且つ実行した結果を音声スマートインタラクションシステムに返信する。マージャンゲームを終了する場合、マージャンゲームアプリケーションプログラムとスマートインタラクションシステムの接続を切断することができ、即ちスマートインタラクションシステムとアンバインディングするか、又はゲームを終了する前にアンバインディング操作を実行し、スマートインタラクションシステムとのアンバインディングを完了した後、マージャンゲームの終了を完了する。

１つの具体的な実施形態において、上記解決手段に記載の実施例は図９に示す解決手段により実現されてもよく、図９は本発明の実施例に係る音声インタラクション方法の実施例５の概略図２である。

図９と図８に示す解決手段の違いは、クラウドがオーディオデータに対して音声識別処理を行うことに用いられてもよく、この時に音声スマートインタラクションシステムが取得したオーディオデータストリームをクラウドに伝送すればよく、クラウドによりオーディオデータに対して音声識別処理及び語義理解処理を行うことである。

図１０は本発明の実施例に係る端末機器の構造概略図である。図７に示すように、端末機器１０は、取得したユーザのオーディオデータをサーバに送信するための送信モジュール１２と、サーバから返信された、サーバがオーディオデータを識別した後に取得される構造化データを受信するための受信モジュール１３と、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御するための処理モジュール１１と、を含む。

１つの具体的な実施形態において、処理モジュール１１はさらに、ゲームの起動が検出されると、ゲームと音声スマートインタラクションシステムとの間の接続を確立し、ゲームと音声スマートインタラクションシステムとの間のバインディングを完了するために用いられる。

１つの具体的な実施形態において、送信モジュール１２は具体的には、音声スマートインタラクションシステムにより、オーディオデータをサーバに送信して語義理解を行うために用いられる。

１つの具体的な実施形態において、受信モジュール１３はさらに、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力したオーディオデータを受信するために用いられる。

１つの具体的な実施形態において、処理モジュール１１は具体的には、オーディオデータに対してエコー除去及び／又はノイズ低減処理を行い、処理後のオーディオデータを取得し、処理後のオーディオデータに対して特徴抽出を行ってオーディオ特徴を取得し、且つオーディオ特徴を復号し、文字情報を取得するために用いられる。

１つの具体的な実施形態において、処理モジュール１１は具体的には、音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び構造化データに基づいて、構造化データに対応する操作コマンドを決定し、操作コマンドに基づいてゲームを対応する操作を実行するように制御するために用いられる。

本実施例に係る機器は、上記方法を端末機器側に応用する実施例の技術的解決手段を実行するために用いられることができ、その実現原理及び技術的効果は類似し、本実施例では説明を省略する。

図１１は本発明の実施例に係るサーバの構造概略図である。図１１に示すように、サーバ２０は、端末機器から送信されたオーディオデータを受信するための受信モジュール２１と、オーディオデータに対して音声理解処理を行い、オーディオデータに対応する構造化データを取得するための処理モジュール２２と、構造化データを端末機器に返信するための送信モジュール２３と、を含む。

１つの具体的な実施形態において、処理モジュール２２は具体的には、オーディオデータに対して識別処理を行い、オーディオデータに対応する文字情報を取得し、文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、モデル処理により解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための構造化データを取得するために用いられる。

本実施例に係る機器は、上記方法をサーバ側に応用する実施例の技術的解決手段を実行するために用いられることができ、その実現原理及び技術的効果は類似し、本実施例では説明を省略する。

図１２は本発明の実施例に係る端末機器のハードウェア構造概略図である。図９に示すように、本実施例の端末機器６０は、プロセッサ６０１及びメモリ６０２を含む。

そのうちメモリ６０２は、コンピュータ実行コマンドを記憶するために用いられる。

プロセッサ６０１は、メモリに記憶されたコンピュータ実行コマンドを実行することにより、上記実施例における端末機器が実行する各ステップを実現するために用いられる。具体的には、方法の実施例の関連する説明を参照することができる。

選択的に、メモリ６０２は独立してもよく、プロセッサ６０１と集積されてもよい。

メモリ６０２が独立して設置される場合、端末機器は、さらにバス６０３を含み、メモリ６０２及びプロセッサ６０１を接続するために用いられる。

図１３は本発明の実施例に係るサーバのハードウェア構造概略図である。図１０に示すように、本実施例のサーバ７０は、プロセッサ７０１及びメモリ７０２を含む。

そのうち、メモリ７０２は、コンピュータ実行コマンドを記憶するために用いられる。

プロセッサ７０１は、メモリに記憶されたコンピュータ実行コマンドを実行することにより、上記実施例におけるサーバが実行する各ステップを実現するために用いられる。具体的には、方法の実施例の関連する説明を参照することができる。

選択的に、メモリ７０２は独立していてもよく、プロセッサ７０１と集積されてもよい。

メモリ７０２が独立して設置される場合、サーバは、さらにバス７０３を含み、メモリ７０２及びプロセッサ７０１を接続するために用いられる。

本発明の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサがコンピュータ実行コマンドを実行する時、上記のような端末機器側の音声インタラクション方法を実現する。

本発明の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサがコンピュータ実行コマンドを実行する時、上記のようなサーバ側の音声インタラクション方法を実現する。

本発明に係るいくつかの実施例において、開示された機器及び方法は、他の方式で実現することができると理解すべきである。例えば、以上に説明された機器の実施例は例示的なものにすぎない。例えば、モジュールの分割は、論理機能上の分割にすぎず、実際に実施する際に別の形態で分割してもよく、例えば、複数のモジュールを別のシステムに組み合わせもしくは集積させたり、又は一部の特徴を反映させず、実行しなかったりしてもよい。また、説明又は検討した互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、装置又はモジュールを用いる間接的接続又は通信接続としてもよく、電気的形態、機械的形態又はその他の形態としてもよい。

分離される部品として説明されるモジュールは、物理的に分離されるものでもよければ、分離されないものであってもよい。モジュールとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。即ち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。必要に応じて、一部のモジュールだけを用いるか、又は全てのモジュールを使用して本実施例の目的を達成することができる。

また、本発明の各実施例において、各機能モジュールが１つの処理ユニットに集積されてもよいが、各モジュールが単独で物理的な部品として存在するか、又は２つ以上のモジュールが１つのユニットに集積されてもよい。上記モジュールからなるユニットはハードウェアの形で実現されてもよく、ハードウェアとソフトウェア機能ユニットの形で実現されてもよい。

上記のソフトウェア機能モジュールの形で実現された集積されたモジュールは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記ソフトウェア機能モジュールは記憶媒体に記憶され、コンピュータ設備（例えばパソコン、サーバ、又はネットワーク設備など）又はプロセッサ（英語：ｐｒｏｃｅｓｓｏｒ）に本願の各実施例の方法の一部のステップを実行させるのに用いる若干のコマンドを含む。

上記プロセッサは中央処理ユニット（英語：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、略称：ＣＰＵ）であってもよく、他の汎用プロセッサ、デジタル信号プロセッサ（英語：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、略称：ＤＳＰ）、特定用途向け集積回路（英語：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、略称：ＡＳＩＣ）などであってもよいと理解されるべきである。汎用プロセッサはマイクロプロセッサであってもよく、又はプロセッサは任意の従来のプロセッサなどであってもよい。本発明に開示された方法を組み合わせるステップは、ハードウェアプロセッサによる実行完了、又はプロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによる実行完了と直接具体化されることができる。

メモリは高速ＲＡＭメモリを含んでよく、さらに不揮発性記憶ＮＶＭ、例えば少なくとも１つの磁気ディスクメモリを含んでよく、さらにＵＳＢフラッシュドライブ、モバイルハードディスクドライブ、リードオンリーメモリ、磁気ディスク又はコンパクトディスクなどであってもよい。

バスは、業界標準アーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＩＳＡ）バス、ペリフェラルコンポーネント（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔ、ＰＣＩ）バス又は拡張された業界標準アーキテクチャ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＥＩＳＡ）バスなどであってよい。バスはアドレスバス、データバス、コントロールバスなどに分けることができる。理解を容易にするために、本願の図面におけるバスは１本のバス又は１種のバスのみに限定されない。

上記記憶媒体は任意のタイプの揮発性又は不揮発性記憶機器又はそれらの組み合わせで実現されてよく、例えばスタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又はコンパクトディスクであってよい。記憶媒体は汎用又は専用のコンピュータがアクセス可能な任意の利用可能な媒体であってもよい。

例示的な記憶媒体は、プロセッサに結合されており、それによりプロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができる。当然のことながら、記憶媒体はプロセッサの構成部分であってもよい。プロセッサ及び記憶媒体は特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、略称：ＡＳＩＣ）に配置されてもよい。当然のことながら、プロセッサ及び記憶媒体は分離された構成要素として電子機器又は主制御機器に存在してもよい。

当業者であれば、上記各方法の実施例を実現する全て又は一部のステップはプログラムコマンドに関連するハードウェアにより完了することができると理解すべきである。前述のプログラムはコンピュータ読み取り可能な記憶媒体に記憶することができる。プログラムを実行する場合、上記各方法の実施例を含むステップを実行し、前述の記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク又はコンパクトディスクなどのプログラムコードが記憶できる様々な媒体を含む。

最後に説明すべきものとして、以上の各実施例は、本発明の技術的解決手段を説明するためのものであって、これを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明するが、当業者であれば、依然として前述の各実施例に記載の技術的解決手段を修正するか、又はそのうちの一部又は全ての技術的特徴に対して同等置換を行うことができ、これらの修正又は置換は、対応する技術的解決手段の本質を本発明の各実施例の技術的解決手段の範囲から逸脱しないと理解すべきである。

Claims

取得したユーザのオーディオデータをサーバに送信するステップと、
前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するステップと、
実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップと、を含むことを特徴とする音声インタラクション方法。
前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するステップをさらに含むことを特徴とする請求項１に記載の音声インタラクション方法。
取得したユーザのオーディオデータをサーバに送信するステップは、
前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うことを含むことを特徴とする請求項２に記載の音声インタラクション方法。
スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するステップをさらに含むことを特徴とする請求項１に記載の音声インタラクション方法。
取得したユーザのオーディオデータをサーバに送信するステップの前に、前記オーディオデータに対してエコー除去及び／又はノイズ低減処理を行い、処理後のオーディオデータを取得するステップをさらに含むことを特徴とする請求項１〜４のいずれか１項に記載の音声インタラクション方法。
実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップは、
前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定することと、
前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御することと、を含むことを特徴とする請求項２に記載の音声インタラクション方法。
端末機器から送信されたオーディオデータを受信するステップと、
前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップと、
前記構造化データを前記端末機器に返信するステップと、を含むことを特徴とする音声インタラクション方法。
前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップは、
前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得することと、
前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得することと、
モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得することと、を含むことを特徴とする請求項７に記載の音声インタラクション方法。
取得したユーザのオーディオデータをサーバに送信するための送信モジュールと、
前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するための受信モジュールと、
実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するための処理モジュールと、を含むことを特徴とする端末機器。
前記処理モジュールはさらに、
前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するために用いられることを特徴とする請求項９に記載の端末機器。
前記送信モジュールは、
前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うために用いられることを特徴とする請求項９に記載の端末機器。
前記受信モジュールはさらに、
スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するために用いられることを特徴とする請求項９に記載の端末機器。
前記処理モジュールは、
前記オーディオデータに対してエコー除去及び／又はノイズ低減処理を行い、処理後のオーディオデータを取得するために用いられることを特徴とする請求項９に記載の端末機器。
前記処理モジュールは、
前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定し、
前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御するために用いられることを特徴とする請求項９に記載の端末機器。
端末機器から送信されたオーディオデータを受信するための受信モジュールと、
前記オーディオデータに対して音声理解処理を行い、前記オーディオデータに対応する構造化データを取得するための処理モジュールと、
前記構造化データを前記端末機器に返信するための送信モジュールと、を含むことを特徴とするサーバ。
前記処理モジュールは、
前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得し、
前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、
モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得するために用いられることを特徴とする請求項１５に記載のサーバ。
受信器、送信器、少なくとも１つのプロセッサ、メモリ及びコンピュータプログラムを含む端末機器であって、
前記メモリはコンピュータ実行コマンドを記憶し、
前記少なくとも１つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも１つのプロセッサは請求項１〜６のいずれか１項に記載の音声インタラクション方法を実行することを特徴とする端末機器。
受信器、送信器、メモリ、少なくとも１つのプロセッサ及びコンピュータプログラムを含むサーバであって、
前記メモリはコンピュータ実行コマンドを記憶し、
前記少なくとも１つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも１つのプロセッサは請求項７又は８に記載の音声インタラクション方法を実行することを特徴とするサーバ。
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、請求項１〜６のいずれか１項に記載の音声インタラクション方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、請求項７又は８に記載の音声インタラクション方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。