JP2019185062A - 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents

音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2019185062A
JP2019185062A JP2019133295A JP2019133295A JP2019185062A JP 2019185062 A JP2019185062 A JP 2019185062A JP 2019133295 A JP2019133295 A JP 2019133295A JP 2019133295 A JP2019133295 A JP 2019133295A JP 2019185062 A JP2019185062 A JP 2019185062A
Authority
JP
Japan
Prior art keywords
audio data
game
terminal device
voice
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019133295A
Other languages
English (en)
Other versions
JP7433000B2 (ja
Inventor
浜源 杜
Bang Yuan Du
浜源 杜
岩 張
Iwao Cho
岩 張
鵬 袁
Peng Yuan
鵬 袁
龍龍 田
long long Tian
龍龍 田
良玉 常
Liang Yu Chang
良玉 常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019185062A publication Critical patent/JP2019185062A/ja
Application granted granted Critical
Publication of JP7433000B2 publication Critical patent/JP7433000B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/35Details of game servers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/53Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of basic data processing
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6072Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

【課題】ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。【解決手段】本発明の音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体は、取得したユーザのオーディオデータをサーバに送信して語義理解を行い、構造化データを取得し、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御することを含む。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。【選択図】図2

Description

本発明の実施例は、音声インタラクション技術の分野に関し、特に音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体に関する。
時代の流れとして、テレビ画面の解像度が大幅に向上し、優れた解像度によりテレビがビデオ画面を再生する時には非常に大きな利点を有する。テレビは、テレビ番組を見る単なるツールとしての役割だけでなく、ビデオ、娯楽、ゲーム、テレビ番組のプラットフォームとしても発達している。
従来の技術において、デュアルオペレーティングシステム(Duer Operating System、DuerOS)を搭載するテレビには、スマートインタラクション対話システムが集積されており、ユーザは人間の言語でスマートテレビと自然にインタラクションすることができる。同時に、テレビ(Television、TV)側は画面が大きいという特徴を有し、ゲームをするのにも非常に適している。
しかしながら、現在、テレビ利用シーンでは、リモートコントローラキーを使ってゲームをプレイすることへの反応性がよくない。対話型インタラクションにより適するいくつかのゲームは、従来の技術においては不十分なゲーム体験になってしまい、娯楽性及び利便性の面でユーザのニーズをうまく満たすことができていない。
本発明の実施例は、上記のような対話効果が低く、ユーザ体験及び利便性が低いという問題を解決する、音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。
第1の態様では、本発明の実施例は、取得したユーザのオーディオデータをサーバに送信するステップと、前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するステップと、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップと、を含むことを特徴とする音声インタラクション方法を提供する。
1つの具体的な実施形態において、前記方法は、前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するステップをさらに含む。
さらに、取得したユーザのオーディオデータをサーバに送信するステップは、前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うことを含む。
1つの具体的な実施形態において、前記方法は、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するステップをさらに含む。
さらに、取得したユーザのオーディオデータをサーバに送信するステップの前に、前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得するステップを含む。
さらに、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップは、前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定することと、前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御することと、を含む。
第2の態様では、本発明の実施例は、端末機器から送信されたオーディオデータを受信するステップと、前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップと、前記構造化データを前記端末機器に返信するステップと、を含むことを特徴とする音声インタラクション方法を提供する。
さらに、前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップは、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得することと、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得することと、モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得することと、を含む。
第3の態様では、本発明の実施例は、取得したユーザのオーディオデータをサーバに送信するための送信モジュールと、前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するための受信モジュールと、実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するための処理モジュールと、を含むことを特徴とする端末機器を提供する。
1つの具体的な実施形態において、前記処理モジュールはさらに、前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するために用いられる。
1つの具体的な実施形態において、前記送信モジュールは、前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うために用いられる。
1つの具体的な実施形態において、前記受信モジュールはさらに、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するために用いられる。
1つの具体的な実施形態において、前記処理モジュールは具体的には、前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得し、前記処理後のオーディオデータに対して特徴抽出を行ってオーディオ特徴を取得し、且つ前記オーディオ特徴を復号し、前記文字情報を取得するために用いられる。
1つの具体的な実施形態において、前記処理モジュールは具体的には、前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定し、前記操作コマンドに基づいて前記ゲームを対応する操作を実行するように制御するために用いられる。
第4の態様では、本発明の実施例は、端末機器から送信されたオーディオデータを受信するための受信モジュールと、前記オーディオデータに対して音声理解処理を行い、前記オーディオデータに対応する構造化データを取得するための処理モジュールと、前記構造化データを前記端末機器に返信するための送信モジュールと、を含むことを特徴とするサーバを提供する。
1つの具体的な実施形態において、前記処理モジュールは具体的には、前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得し、前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得するために用いられる。
第5の態様では、本発明の実施例は、受信器、送信器、少なくとも1つのプロセッサ、メモリ及びコンピュータプログラムを含む端末機器を提供し、前記メモリはコンピュータ実行コマンドを記憶し、前記少なくとも1つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは第1の態様に記載の音声インタラクション方法を実行する。
第6の態様では、本発明の実施例は、受信器、送信器、メモリ、プロセッサ及びコンピュータプログラムを含むサーバを提供し、前記メモリはコンピュータ実行コマンドを記憶し、前記プロセッサが前記メモリに記憶されたコンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは第2の態様に記載の音声インタラクション方法を実行する。
第7の態様では、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、第1の態様に記載の音声インタラクション方法を実現する。
第8の態様では、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、第2の態様に記載の音声インタラクション方法を実現する。
本実施例は、音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体を提供する。当該方法は、取得したユーザのオーディオデータをサーバに送信して語義理解を行い、構造化データを取得し、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御することを含む。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。
本発明の実施例又は従来技術の技術的解決手段をより明確に説明するため、以下に実施例又は従来技術の記述において必要な図面を用いて簡単に説明を行う。当然ながら、以下に記載する図面は本発明のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を想到しうる。
本発明の実施例に係る音声インタラクション方法の応用シーンの概略図である。 本発明の実施例に係る音声インタラクション方法の実施例1のインタラクションフローチャートである。 本発明の実施例に係る音声インタラクション方法の実施例2のインタラクションフローチャートである。 本発明の実施例に係る音声インタラクション方法の実施例3のインタラクションフローチャートである。 本発明の実施例に係る音声インタラクション方法の実施例4のインタラクションフローチャートである。 本発明の実施例に係る音声識別のフローチャートである。 本発明の実施例に係る語義理解のフローチャートである。 本発明の実施例に係る音声インタラクション方法の実施例5の概略図1である。 本発明の実施例に係る音声インタラクション方法の実施例5の概略図2である。 本発明の実施例に係る端末機器の構造概略図である。 本発明の実施例に係るサーバの構造概略図である。 本発明の実施例に係る端末機器のハードウェア構造概略図である。 本発明の実施例に係るサーバのハードウェア構造概略図である。
本発明の実施例の目的、技術的解決手段及び利点をより明瞭にするために、以下、本発明の実施例に係る図面を参照しながら、その技術的解決手段について説明する。当然のことながら、記載される実施例は本発明の実施例の一部にすぎず、その全ての実施例ではない。当業者は、本発明における実施例に基づいて創造的な労働をすることなく、取得されたその他の全ての実施例は、いずれも本発明の保護範囲に属する。
従来の技術において、例えばデュアルオペレーティングシステム(Duer Operating System、DuerOS)を搭載するテレビは、スマートインタラクション対話システムが搭載され、ユーザは人間の言語でスマートテレビと自然にインタラクションすることができる。同時に、テレビ(Television、TV)側は画面が大きいという特徴を有し、ゲームにも非常に好適である。しかしながら、現在のテレビ利用シーンでは、リモートコントローラキーを使ってゲームをプレイする体験がよくない。対話型インタラクションにより適するいくつかのゲーム、例えばマージャン、ポーカーは、従来の技術におけるゲーム体験が悪く、娯楽性及び利便性がユーザのニーズをうまく満たすことができない。
上記存在する問題に対して、本発明は、音声インタラクション方法、機器及び記憶媒体を提供する。ゲームとスマートテレビのスマートインタラクションシステムを組み合わせて、異なる手段で表現された同一のゲームの用語を識別することができ、ゲームの体験を大幅に向上させることにより、スマートテレビを音声インタラクションゲームのプラットフォームとして発展することができる。以下、いくつかの具体的な実施例により解決手段を詳細に説明する。
図1は本発明の実施例に係る音声インタラクション方法の応用シーンの概略図であり、図1に示すように、本実施例に係るシステムは端末機器01及びサーバ02を含む。そのうち、端末機器01は、スマートテレビ、コンピュータ、携帯電話、タブレットコンピュータなどであってよい。本実施例は、端末機器01の実施形態を特に限定せず、端末機器01は有線又は無線の手段でネットワークに接続され、データインタラクションを行うことができればよい。サーバ02は、語義理解処理を実現するために用いられ、語義を理解するクラウドプラットフォームである。
1つの具体的な実施形態において、ユーザは音声リモートコントローラ、端末機器01に設置された音声収集装置、又は他のスマート機器により端末機器01にオーディオデータ(即ち音声)を入力し、端末機器01はオーディオデータに基づいてサーバ02に送信することができ、サーバ02によりオーディオデータに対して音声理解処理を行い、対応する構造化データを取得し、さらに構造化データを端末機器01に送信し、端末機器01は構造化データに基づいて実行しているアプリケーションを制御するか又はゲームを対応する操作を実行するように制御する。
1つの具体的な実施形態において、上記実施例における音声識別過程は、端末機器01で完了されてもよく、具体的なステップは、端末機器01が、オーディオデータを取得し、オーディオデータに対して音声識別を行い、且つそれを文字情報に変換し、さらに文字情報に対して音声理解処理を行い、対応する構造化データを取得し、且つ構造化データに基づいて端末機器01で実行しているアプリケーションを制御するか又はゲームを対応する操作を実行するように制御することである。
1つの具体的な実施形態において、端末機器01に音声スマートインタラクションシステムが設置され、例えば、音声スマートインタラクションシステムは、デュアルオペレーティングシステム(Duer Operating System、DuerOS)であってよい。
図2は本発明の実施例に係る音声インタラクション方法の実施例1のインタラクションフローチャートであり、図2に示すように、解決手段は上記図1に示すシーンに用いられ、音声インタラクション方法の具体的な実施ステップは以下のとおりである。
S101で、取得したユーザのオーディオデータをサーバに送信する。
本ステップにおいて、ユーザは音声収集装置により端末機器にオーディオデータを入力することができ、音声収集装置はユーザの音声をオーディオデータとして入力し、端末機器は取得したオーディオデータをサーバに送信して語義解析理解を行う。サーバにとっては、端末機器から送信されたオーディオデータを受信し、後続にオーディオデータに対して語義理解を行って、ユーザが表現しようとする制御コマンドを理解することができる。
解決手段の1つの具体的な実施形態において、音声収集装置は、端末機器に設置された音声収集装置、例えばマイクロフォンなどであってもよく、その他のスマート機器であってもよい。端末機器がスマートテレビである時、音声収集装置は、音声リモートコントローラであってもよい。
選択的に、本ステップではユーザが入力したオーディオデータに対して識別処理を行い、文字情報を取得し、且つ文字情報に対して語義理解を行う過程は端末機器により実行されてもよく、例えば、端末機器は、オフライン状態にあっても、ユーザの意図を正確に識別することができる。
S102で、オーディオデータに対して語義理解処理を行い、オーディオデータに対応する構造化データを取得する。
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを受信した後、オーディオデータに対して語義理解を行い、ユーザの操作意図を決定する必要がある。同じタイプの意図について様々なユーザ表現形態が存在するため、ユーザが入力したオーディオデータと操作意図との間は多対1の関係であり、操作意図の識別結果はサーバにおいて構造化データとして具現化される。
サーバは、ユーザの操作意図に対応する構造化データを取得するために、オーディオデータを解析処理する必要があり、サーバは、オーディオデータにおける音声の周波数、振幅、音色などの特徴及び音声中の文字情報を組み合わせることによりユーザの操作意図を識別することができ、且つ、操作意図を構造化データに変換する。サーバは、さらに、オーディオデータ中の音声を文字情報に直接変換して、文字情報に対してキーワードなどに基づいて語義理解を行ってユーザの操作意図を取得し、操作意図を構造化データに変換してもよく、本解決手段はこれについて限定しない。
S103で、構造化データを端末機器に返信する。
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを解析処理することにより、ユーザが表現するコンテンツを理解し、つまりオーディオデータに対応する構造化データを取得し、構造化データを端末機器に返信する必要があり、それにより端末機器が音声スマートインタラクションシステム及びゲームアプリケーションを対応する操作を実行するように制御し、したがって、サーバが構造化データを端末機器に返信する必要があり、端末機器が構造化データを受信する。
S104で、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。
本ステップにおいて、端末機器は、サーバから返信された構造化データを受信した後、構造化コマンドに基づいて現在実行しているゲームを制御する必要があり、したがって、端末機器は具体的に制御しようとするゲームを決定し、且つゲームに基づいて構造化データを操作コマンドに生成し、現在実行しているゲームを、操作コマンドに基づいて対応する操作を実行するように制御する。
解決手段の実施形態において、ユーザ表現と構造化データとの間に多対1のマッピング関係が存在し、ユーザが表現するコンテンツに対して上記のような識別、解析、分類を行った後、対応する構造化データを取得し、構造化データを操作コマンドに生成し、ゲームにおいて操作コマンドを実行すれば、ユーザが音声インタラクションの手段でゲームをすることを実現することができる。
本実施例に係る音声インタラクション方法は、ユーザが入力したオーディオデータをサーバに送信して語義理解を行い、且つサーバから返信された構造化データを受信し、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。本実施例は、音声識別及び語義理解技術を使用し、端末機器とサーバとの通信によりユーザが対話型インタラクションでゲームを完了する操作を実現し、ユーザのゲーム体験を強化し、娯楽性及び利便性を向上させる。
図3は本発明の実施例に係る音声インタラクション方法の実施例2のインタラクションフローチャートであり、図3に示すように、上記実施例に基づいて、音声インタラクション方法の別の具体的な実施形態は、S201〜S205を含む。
S201で、ゲームの起動が検出されると、ゲームと音声スマートインタラクションシステムとの間の接続を確立し、ゲームと音声スマートインタラクションシステムとの間のバインディングを完了する。
本ステップにおいて、音声スマートインタラクションシステムは、ゲームの起動を検出した直後、ゲームのアプリケーションプログラムと接続を確立し、バインディングを行うことにより、ゲームのアプリケーションプログラムに対してコマンドを伝達し、且つゲームのアプリケーションプログラムは、実行された結果を音声スマートインタラクションシステムに返信することができる。
S202で、音声スマートインタラクションシステムにより、オーディオデータをサーバに送信して語義理解を行う。
本ステップにおいて、音声スマートインタラクションシステムは応用シーンに応じて、受信したオーディオデータに対してエコー除去及びノイズ低減を行うか、又はそのうち1つの処理を行い、処理後のオーディオデータをサーバに送信して、サーバが完了した語義理解をより正確にする。
選択的に、上記エコー除去は、エコー除去(Acoustic Echo Cancellation、AEC)アルゴリズムを用いて実現することができ、オーディオデータのノイズ低減処理についてノイズ低減処理(Noise Suppression、NS)アルゴリズムを用いて環境ノイズを除去することができる。
S203で、オーディオデータに対して語義理解処理を行い、オーディオデータに対応する構造化データを取得する。
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを受信した後、オーディオデータに対して語義理解を行い、ユーザの操作意図を決定する必要がある。同じタイプの意図について様々なユーザ表現形態が存在するため、ユーザが入力したオーディオデータと操作意図との間は多対1の関係であり、操作意図の識別結果はサーバにおいて構造化データとして具現化される。
サーバは、ユーザの操作意図に対応する構造化データを取得するために、オーディオデータを解析処理する必要があり、サーバは、オーディオデータにおける音声の周波数、振幅、音色などの特徴及び音声中の文字情報を組み合わせることによりユーザの操作意図を識別することができ、且つ、操作意図を構造化データに変換する。サーバは、さらに、オーディオデータ中の音声を文字情報に直接変換して、文字情報に対してキーワードなどに基づいて語義理解を行ってユーザの操作意図を取得し、操作意図を構造化データに変換してもよく、本解決手段はこれについて限定しない。
S204で、構造化データを端末機器に返信する。
本ステップにおいて、サーバは、端末機器から送信されたオーディオデータを解析処理することにより、ユーザが表現するコンテンツを理解し、つまりオーディオデータに対応する構造化データを取得し、構造化データを端末機器に返信する必要があり、それにより端末機器が音声スマートインタラクションシステム及びゲームアプリケーションを対応する操作を実行するように制御し、したがって、サーバが構造化データを端末機器に返信する必要があり、端末機器が構造化データを受信する。
S205で、実行しているゲーム及び構造化データに基づいてゲームを対応する操作を実行するように制御する。
本ステップにおいて、端末機器は、サーバから返信された構造化データを受信した後、構造化コマンドに基づいて現在実行しているゲームを制御する必要があり、したがって、端末機器は具体的に制御しようとするゲームを決定し、且つゲームに基づいて構造化データを操作コマンドに生成し、現在実行しているゲームを、操作コマンドに基づいて対応する操作を実行するように制御する。
解決手段の実施形態において、ユーザ表現と構造化データとの間に多対1のマッピング関係が存在し、ユーザが表現するコンテンツに対して上記のような識別、解析、分類を行った後、対応する構造化データを取得し、構造化データを操作コマンドに生成し、ゲームにおいて操作コマンドを実行すれば、ユーザが音声インタラクションの手段でゲームをすることを実現することができる。
図4は本発明の実施例に係る音声インタラクション方法の実施例3のインタラクションフローチャートであり、図4に示すように、上記いずれかの実施例に基づいて、音声インタラクション方法の実施過程において、サーバは、オーディオデータに対して理解処理を行い、対応する構造化データを取得する必要があり、その過程は具体的にはS301〜S303で実施されることができる。
S301で、オーディオデータに対して識別処理を行い、オーディオデータに対応する文字情報を取得する。
本ステップにおいて、まず、オーディオデータに対して音声識別を行う前に、異なる応用シーンに応じて、受信したオーディオデータに対してエコー除去及びノイズ低減、又はそのうち1つの処理を行い、さらに処理後のオーディオデータに対して音声識別を行い、音声識別の過程は主に、オーディオデータにおけるオーディオ特徴を抽出し、そして、抽出したオーディオ特徴を復号処理し、最終的に対応する文字情報を取得することを含む。
S302で、文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得する。
本ステップにおいて、オーディオデータから変換された文字情報に基づいて、情報フィルタリング、自動要約、情報抽出、テキストマイニングなどの技術手段により、モデルで自然言語処理の過程を完了し、さらにそれに対して語義解釈を行い、文字情報に含まれるユーザの操作意図を理解し、ユーザ操作意図を有する解析コンテンツを取得する。
S303で、モデル処理により解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための構造化データを取得する。
本ステップにおいて、モデルで解析コンテンツと機械コマンド情報との間の対応関係を確立し、この対応関係は、一般的にユーザ操作意図を有する複数の解析コンテンツと1つの機械コマンド情報との間の対応関係であり、したがって、モデルに基づいて解析コンテンツを分類し、構造化データを取得することができ、構造化データは、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表し、さらに機械コマンド情報を端末機器に返信し、それに、対応するコマンド操作を完了させることができ、これは構造化データ返信とも呼ばれる。
図5は本発明の実施例に係る音声インタラクション方法の実施例4のインタラクションフローチャートであり、図5に示すように、上記いずれかの実施例に基づいて、音声インタラクション方法の実施過程において、端末機器はサーバから返信された構造化データを受信し、構造化データに基づいてゲームを実行するように制御する過程は、具体的にはS401〜S402で実施されてよい。
S401で、音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び構造化データに基づいて、構造化データに対応する操作コマンドを決定する。
本ステップにおいて、構造化データを返信した後、音声スマートインタラクションシステムは、構造化データにおける機械コマンド情報に基づいて、現在実行しているゲームに対応する操作コマンドを決定し、現在実行しているゲームは、ゲームを起動する時に、音声スマートインタラクションシステムとバインディングするゲームであってもよく、音声スマートインタラクションシステムが構造化データ返信を受信した後に検出した実行しているゲームであってもよい。
S402で、操作コマンドに基づいてゲームを対応する操作を実行するように制御する。
本ステップにおいて、操作コマンドの指示に基づいて、ゲームを対応する操作を実行するように制御すれば、ユーザの操作意図を実現することができる。
上記いくつかの実施例に基づいて、以下、端末機器がテレビであり、サーバがテレビにデータ解析処理を提供するクラウドサーバ(クラウド、クラウドプラットフォームとも呼ばれる)であることを例として、音声インタラクション方法を詳細に説明する。
図6は本発明の実施例に係る音声識別のフローチャートであり、図6に示すように、音声識別過程は、オーディオデータを収集し、収集したオーディオデータに対して特徴抽出を行い、収集したオーディオ特徴を一定のデコーダに置いて復号して音声識別結果を取得することを含む。
1.オーディオデータの収集過程において、録音機器の性能が高いほど、音源から機器までの距離が短くなり、単一のマイクロフォンではなく、効果的なマイクロフォンアレイを使用すると、取得したオーディオデータの特徴がより完全になり、識別に対してより有利になり、例えば、遠距離場(>5メートル)ウェイクアップ又は識別をサポートしようとする場合、マイクロフォンアレイを使用する性能は、単一のマイクロフォンの性能より遥かに優れる。
2.収集したオーディオデータに対する特徴抽出について、まず、収集したオーディオデータを直接識別することができず、具体的な応用シーンに応じてオーディオデータに対してエコー除去及びノイズ低減、又はそのうち1つの処理を行う必要があり、例えば、ハンズフリー又は会議応用のシーンで、スピーカの音声は、複数回マイクロフォンにフィードバックされ、この時にマイクロフォンが収集したオーディオデータに音響エコーが存在し、AECアルゴリズムを用いてエコー除去を行う必要がある。例えば、走行する車両において収集したオーディオデータは一定のノイズを有し、この時にオーディオデータに対してノイズ低減アルゴリズムを行って環境ノイズを除去する必要がある。
3.デコーダの復号過程において、音響モデル、言語モデル及び発音辞書を使用し、音響モデルの主な役割は、オーディオ特徴を音節に変換することであり、言語モデルの主な役割は音節をテキストに変換することであり、発音辞書は、音節からテキストまでのマッピングテーブルを提供する。
図7は本発明の実施例に係る語義理解のフローチャートであり、図7に示すように、語義理解は、自然言語処理、語義解析、解析コンテンツ分類及び構造化データ返信を含む。
ユーザの話を音声識別により文字に変換した後、ユーザが表現するコンテンツを処理する必要があり、このような処理は自然言語処理と呼ばれ、自然言語処理を行った後、語義解析によりユーザの話を解析し、解析したコンテンツを取得し、そして、モデル処理により、クラウドは、解析したコンテンツを分類処理し、分類処理した後ユーザの操作意図を機械コマンド情報に対応付け、さらに機械コマンド情報を構造化データとしてテレビに返信し、テレビは、構造化データを処理し、且つ対応する操作を実行する。
図8は本発明の実施例に係る音声インタラクション方法の実施例5の概略図1であり、図8に示すように、ここでマージャンゲームを例として説明する。
マージャンゲームを例として説明すると、マージャンゲームにログインする場合、まず、ゲームアプリケーションプログラムは、スマートテレビ側の音声スマートインタラクションシステムとバインディングを行う。スマートテレビ側は、クラウドからのコマンドを受信すると、コマンドがマージャンゲームのコマンドであるか否かを判断し、そうであれば、ゲームコマンドをマージャンゲームに伝達する。マージャンゲームは、異なるコマンドに基づいて対応する操作を実行し、且つ実行した結果を音声スマートインタラクションシステムに返信する。マージャンゲームを終了する場合、マージャンゲームアプリケーションプログラムとスマートインタラクションシステムの接続を切断することができ、即ちスマートインタラクションシステムとアンバインディングするか、又はゲームを終了する前にアンバインディング操作を実行し、スマートインタラクションシステムとのアンバインディングを完了した後、マージャンゲームの終了を完了する。
1つの具体的な実施形態において、上記解決手段に記載の実施例は図9に示す解決手段により実現されてもよく、図9は本発明の実施例に係る音声インタラクション方法の実施例5の概略図2である。
図9と図8に示す解決手段の違いは、クラウドがオーディオデータに対して音声識別処理を行うことに用いられてもよく、この時に音声スマートインタラクションシステムが取得したオーディオデータストリームをクラウドに伝送すればよく、クラウドによりオーディオデータに対して音声識別処理及び語義理解処理を行うことである。
図10は本発明の実施例に係る端末機器の構造概略図である。図7に示すように、端末機器10は、取得したユーザのオーディオデータをサーバに送信するための送信モジュール12と、サーバから返信された、サーバがオーディオデータを識別した後に取得される構造化データを受信するための受信モジュール13と、実行しているゲーム及び構造化データに基づいてゲームが対応する操作を実行するように制御するための処理モジュール11と、を含む。
1つの具体的な実施形態において、処理モジュール11はさらに、ゲームの起動が検出されると、ゲームと音声スマートインタラクションシステムとの間の接続を確立し、ゲームと音声スマートインタラクションシステムとの間のバインディングを完了するために用いられる。
1つの具体的な実施形態において、送信モジュール12は具体的には、音声スマートインタラクションシステムにより、オーディオデータをサーバに送信して語義理解を行うために用いられる。
1つの具体的な実施形態において、受信モジュール13はさらに、スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力したオーディオデータを受信するために用いられる。
1つの具体的な実施形態において、処理モジュール11は具体的には、オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得し、処理後のオーディオデータに対して特徴抽出を行ってオーディオ特徴を取得し、且つオーディオ特徴を復号し、文字情報を取得するために用いられる。
1つの具体的な実施形態において、処理モジュール11は具体的には、音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び構造化データに基づいて、構造化データに対応する操作コマンドを決定し、操作コマンドに基づいてゲームを対応する操作を実行するように制御するために用いられる。
本実施例に係る機器は、上記方法を端末機器側に応用する実施例の技術的解決手段を実行するために用いられることができ、その実現原理及び技術的効果は類似し、本実施例では説明を省略する。
図11は本発明の実施例に係るサーバの構造概略図である。図11に示すように、サーバ20は、端末機器から送信されたオーディオデータを受信するための受信モジュール21と、オーディオデータに対して音声理解処理を行い、オーディオデータに対応する構造化データを取得するための処理モジュール22と、構造化データを端末機器に返信するための送信モジュール23と、を含む。
1つの具体的な実施形態において、処理モジュール22は具体的には、オーディオデータに対して識別処理を行い、オーディオデータに対応する文字情報を取得し、文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、モデル処理により解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための構造化データを取得するために用いられる。
本実施例に係る機器は、上記方法をサーバ側に応用する実施例の技術的解決手段を実行するために用いられることができ、その実現原理及び技術的効果は類似し、本実施例では説明を省略する。
図12は本発明の実施例に係る端末機器のハードウェア構造概略図である。図9に示すように、本実施例の端末機器60は、プロセッサ601及びメモリ602を含む。
そのうちメモリ602は、コンピュータ実行コマンドを記憶するために用いられる。
プロセッサ601は、メモリに記憶されたコンピュータ実行コマンドを実行することにより、上記実施例における端末機器が実行する各ステップを実現するために用いられる。具体的には、方法の実施例の関連する説明を参照することができる。
選択的に、メモリ602は独立してもよく、プロセッサ601と集積されてもよい。
メモリ602が独立して設置される場合、端末機器は、さらにバス603を含み、メモリ602及びプロセッサ601を接続するために用いられる。
図13は本発明の実施例に係るサーバのハードウェア構造概略図である。図10に示すように、本実施例のサーバ70は、プロセッサ701及びメモリ702を含む。
そのうち、メモリ702は、コンピュータ実行コマンドを記憶するために用いられる。
プロセッサ701は、メモリに記憶されたコンピュータ実行コマンドを実行することにより、上記実施例におけるサーバが実行する各ステップを実現するために用いられる。具体的には、方法の実施例の関連する説明を参照することができる。
選択的に、メモリ702は独立していてもよく、プロセッサ701と集積されてもよい。
メモリ702が独立して設置される場合、サーバは、さらにバス703を含み、メモリ702及びプロセッサ701を接続するために用いられる。
本発明の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサがコンピュータ実行コマンドを実行する時、上記のような端末機器側の音声インタラクション方法を実現する。
本発明の実施例は、さらに、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサがコンピュータ実行コマンドを実行する時、上記のようなサーバ側の音声インタラクション方法を実現する。
本発明に係るいくつかの実施例において、開示された機器及び方法は、他の方式で実現することができると理解すべきである。例えば、以上に説明された機器の実施例は例示的なものにすぎない。例えば、モジュールの分割は、論理機能上の分割にすぎず、実際に実施する際に別の形態で分割してもよく、例えば、複数のモジュールを別のシステムに組み合わせもしくは集積させたり、又は一部の特徴を反映させず、実行しなかったりしてもよい。また、説明又は検討した互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、装置又はモジュールを用いる間接的接続又は通信接続としてもよく、電気的形態、機械的形態又はその他の形態としてもよい。
分離される部品として説明されるモジュールは、物理的に分離されるものでもよければ、分離されないものであってもよい。モジュールとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。即ち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。必要に応じて、一部のモジュールだけを用いるか、又は全てのモジュールを使用して本実施例の目的を達成することができる。
また、本発明の各実施例において、各機能モジュールが1つの処理ユニットに集積されてもよいが、各モジュールが単独で物理的な部品として存在するか、又は2つ以上のモジュールが1つのユニットに集積されてもよい。上記モジュールからなるユニットはハードウェアの形で実現されてもよく、ハードウェアとソフトウェア機能ユニットの形で実現されてもよい。
上記のソフトウェア機能モジュールの形で実現された集積されたモジュールは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上記ソフトウェア機能モジュールは記憶媒体に記憶され、コンピュータ設備(例えばパソコン、サーバ、又はネットワーク設備など)又はプロセッサ(英語:processor)に本願の各実施例の方法の一部のステップを実行させるのに用いる若干のコマンドを含む。
上記プロセッサは中央処理ユニット(英語:Central Processing Unit、略称:CPU)であってもよく、他の汎用プロセッサ、デジタル信号プロセッサ(英語:Digital Signal Processor、略称:DSP)、特定用途向け集積回路(英語:Application Specific Integrated Circuit、略称:ASIC)などであってもよいと理解されるべきである。汎用プロセッサはマイクロプロセッサであってもよく、又はプロセッサは任意の従来のプロセッサなどであってもよい。本発明に開示された方法を組み合わせるステップは、ハードウェアプロセッサによる実行完了、又はプロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによる実行完了と直接具体化されることができる。
メモリは高速RAMメモリを含んでよく、さらに不揮発性記憶NVM、例えば少なくとも1つの磁気ディスクメモリを含んでよく、さらにUSBフラッシュドライブ、モバイルハードディスクドライブ、リードオンリーメモリ、磁気ディスク又はコンパクトディスクなどであってもよい。
バスは、業界標準アーキテクチャ(Industry Standard Architecture、ISA)バス、ペリフェラルコンポーネント(Peripheral Component、PCI)バス又は拡張された業界標準アーキテクチャ(Extended Industry Standard Architecture、EISA)バスなどであってよい。バスはアドレスバス、データバス、コントロールバスなどに分けることができる。理解を容易にするために、本願の図面におけるバスは1本のバス又は1種のバスのみに限定されない。
上記記憶媒体は任意のタイプの揮発性又は不揮発性記憶機器又はそれらの組み合わせで実現されてよく、例えばスタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブルROM(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又はコンパクトディスクであってよい。記憶媒体は汎用又は専用のコンピュータがアクセス可能な任意の利用可能な媒体であってもよい。
例示的な記憶媒体は、プロセッサに結合されており、それによりプロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができる。当然のことながら、記憶媒体はプロセッサの構成部分であってもよい。プロセッサ及び記憶媒体は特定用途向け集積回路(Application Specific Integrated Circuits、略称:ASIC)に配置されてもよい。当然のことながら、プロセッサ及び記憶媒体は分離された構成要素として電子機器又は主制御機器に存在してもよい。
当業者であれば、上記各方法の実施例を実現する全て又は一部のステップはプログラムコマンドに関連するハードウェアにより完了することができると理解すべきである。前述のプログラムはコンピュータ読み取り可能な記憶媒体に記憶することができる。プログラムを実行する場合、上記各方法の実施例を含むステップを実行し、前述の記憶媒体は、ROM、RAM、磁気ディスク又はコンパクトディスクなどのプログラムコードが記憶できる様々な媒体を含む。
最後に説明すべきものとして、以上の各実施例は、本発明の技術的解決手段を説明するためのものであって、これを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明するが、当業者であれば、依然として前述の各実施例に記載の技術的解決手段を修正するか、又はそのうちの一部又は全ての技術的特徴に対して同等置換を行うことができ、これらの修正又は置換は、対応する技術的解決手段の本質を本発明の各実施例の技術的解決手段の範囲から逸脱しないと理解すべきである。

Claims (20)

  1. 取得したユーザのオーディオデータをサーバに送信するステップと、
    前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するステップと、
    実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップと、を含むことを特徴とする音声インタラクション方法。
  2. 前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するステップをさらに含むことを特徴とする請求項1に記載の音声インタラクション方法。
  3. 取得したユーザのオーディオデータをサーバに送信するステップは、
    前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うことを含むことを特徴とする請求項2に記載の音声インタラクション方法。
  4. スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するステップをさらに含むことを特徴とする請求項1に記載の音声インタラクション方法。
  5. 取得したユーザのオーディオデータをサーバに送信するステップの前に、前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得するステップをさらに含むことを特徴とする請求項1〜4のいずれか1項に記載の音声インタラクション方法。
  6. 実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するステップは、
    前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定することと、
    前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御することと、を含むことを特徴とする請求項2に記載の音声インタラクション方法。
  7. 端末機器から送信されたオーディオデータを受信するステップと、
    前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップと、
    前記構造化データを前記端末機器に返信するステップと、を含むことを特徴とする音声インタラクション方法。
  8. 前記オーディオデータに対して語義理解処理を行い、前記オーディオデータに対応する構造化データを取得するステップは、
    前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得することと、
    前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得することと、
    モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得することと、を含むことを特徴とする請求項7に記載の音声インタラクション方法。
  9. 取得したユーザのオーディオデータをサーバに送信するための送信モジュールと、
    前記サーバから返信された、前記サーバが前記オーディオデータを識別した後に取得される構造化データを受信するための受信モジュールと、
    実行しているゲーム及び前記構造化データに基づいて前記ゲームが対応する操作を実行するように制御するための処理モジュールと、を含むことを特徴とする端末機器。
  10. 前記処理モジュールはさらに、
    前記ゲームの起動が検出されると、前記ゲームと音声スマートインタラクションシステムとの間の接続を確立し、前記ゲームと前記音声スマートインタラクションシステムとの間のバインディングを完了するために用いられることを特徴とする請求項9に記載の端末機器。
  11. 前記送信モジュールは、
    前記音声スマートインタラクションシステムにより、前記オーディオデータを前記サーバに送信して語義理解を行うために用いられることを特徴とする請求項9に記載の端末機器。
  12. 前記受信モジュールはさらに、
    スマートリモートコントローラ又はスマート端末機器から送信されたユーザが入力した前記オーディオデータを受信するために用いられることを特徴とする請求項9に記載の端末機器。
  13. 前記処理モジュールは、
    前記オーディオデータに対してエコー除去及び/又はノイズ低減処理を行い、処理後のオーディオデータを取得するために用いられることを特徴とする請求項9に記載の端末機器。
  14. 前記処理モジュールは、
    前記音声スマートインタラクションシステムにおいて、現在実行しているゲーム及び前記構造化データに基づいて、前記構造化データに対応する操作コマンドを決定し、
    前記操作コマンドに基づいて前記ゲームが対応する操作を実行するように制御するために用いられることを特徴とする請求項9に記載の端末機器。
  15. 端末機器から送信されたオーディオデータを受信するための受信モジュールと、
    前記オーディオデータに対して音声理解処理を行い、前記オーディオデータに対応する構造化データを取得するための処理モジュールと、
    前記構造化データを前記端末機器に返信するための送信モジュールと、を含むことを特徴とするサーバ。
  16. 前記処理モジュールは、
    前記オーディオデータに対して識別処理を行い、前記オーディオデータに対応する文字情報を取得し、
    前記文字情報に対して自然言語処理及び語義解釈を行い、解析コンテンツを取得し、
    モデル処理により前記解析コンテンツを分類し、ユーザが表現しようとするコンテンツに対応する機械コマンド情報を表すための前記構造化データを取得するために用いられることを特徴とする請求項15に記載のサーバ。
  17. 受信器、送信器、少なくとも1つのプロセッサ、メモリ及びコンピュータプログラムを含む端末機器であって、
    前記メモリはコンピュータ実行コマンドを記憶し、
    前記少なくとも1つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは請求項1〜6のいずれか1項に記載の音声インタラクション方法を実行することを特徴とする端末機器。
  18. 受信器、送信器、メモリ、少なくとも1つのプロセッサ及びコンピュータプログラムを含むサーバであって、
    前記メモリはコンピュータ実行コマンドを記憶し、
    前記少なくとも1つのプロセッサが前記メモリに記憶された前記コンピュータ実行コマンドを実行することにより、前記少なくとも1つのプロセッサは請求項7又は8に記載の音声インタラクション方法を実行することを特徴とするサーバ。
  19. コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、請求項1〜6のいずれか1項に記載の音声インタラクション方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
  20. コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にコンピュータ実行コマンドが記憶されており、プロセッサが前記コンピュータ実行コマンドを実行する時、請求項7又は8に記載の音声インタラクション方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2019133295A 2018-09-10 2019-07-19 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 Active JP7433000B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811053135.9A CN109147784B (zh) 2018-09-10 2018-09-10 语音交互方法、设备以及存储介质
CN201811053135.9 2018-09-10

Publications (2)

Publication Number Publication Date
JP2019185062A true JP2019185062A (ja) 2019-10-24
JP7433000B2 JP7433000B2 (ja) 2024-02-19

Family

ID=64824371

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019133295A Active JP7433000B2 (ja) 2018-09-10 2019-07-19 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体

Country Status (3)

Country Link
US (1) US11176938B2 (ja)
JP (1) JP7433000B2 (ja)
CN (1) CN109147784B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833875A (zh) * 2020-07-10 2020-10-27 安徽芯智科技有限公司 一种嵌入式语音交互系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110327622A (zh) * 2019-05-09 2019-10-15 百度在线网络技术(北京)有限公司 一种游戏控制方法、装置和终端
CN110297616B (zh) * 2019-05-31 2023-06-02 百度在线网络技术(北京)有限公司 话术的生成方法、装置、设备以及存储介质
CN111001156A (zh) * 2019-11-27 2020-04-14 南京创维信息技术研究院有限公司 应用于猜成语游戏的语音处理方法及装置
CN113810647A (zh) * 2020-06-16 2021-12-17 云米互联科技(广东)有限公司 语音对话方法、客户前置设备及存储介质
CN111729292B (zh) * 2020-06-28 2021-04-20 网易(杭州)网络有限公司 文字游戏中数据处理方法及装置
CN112017663B (zh) * 2020-08-14 2024-04-30 博泰车联网(南京)有限公司 一种语音泛化方法、装置及计算机存储介质
CN114822570B (zh) * 2021-01-22 2023-02-14 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN113207058B (zh) * 2021-05-06 2023-04-28 恩平市奥达电子科技有限公司 一种音频信号的传输处理方法
CN113707144B (zh) * 2021-08-24 2023-12-19 深圳市衡泰信科技有限公司 一种高尔夫模拟器的控制方法及系统
CN113849604A (zh) * 2021-09-27 2021-12-28 广东纬德信息科技股份有限公司 一种基于nlp的电网调控方法、系统、设备及可存储介质
CN114140954A (zh) * 2021-12-21 2022-03-04 思必驰科技股份有限公司 语音交互方法、电子设备和存储介质
CN114553623A (zh) * 2022-02-08 2022-05-27 珠海格力电器股份有限公司 电器设备的语音交互控制方法及语音交互系统
CN114598922A (zh) * 2022-03-07 2022-06-07 深圳创维-Rgb电子有限公司 语音消息交互方法、装置、设备及存储介质
CN114945103B (zh) * 2022-05-13 2023-07-18 深圳创维-Rgb电子有限公司 语音交互系统及语音交互方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
JP2007241104A (ja) * 2006-03-10 2007-09-20 Saitama Univ 適応線形予測器、音声強調装置、及び音声強調システム
JP2013068809A (ja) * 2011-09-22 2013-04-18 Fujitsu Ltd 残響抑制装置および残響抑制方法並びに残響抑制プログラム
WO2015098079A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080171588A1 (en) * 2006-11-10 2008-07-17 Bally Gaming, Inc. Download and configuration server-based system and method with structured data
JP2011509442A (ja) * 2007-11-26 2011-03-24 ウォーレン・ダニエル・チャイルド 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法
CA2708778A1 (en) * 2007-12-10 2009-06-18 Deluxe Digital Studios, Inc. Method and system for use in coordinating multimedia devices
CN101599270A (zh) * 2008-06-02 2009-12-09 海尔集团公司 语音服务器及语音控制的方法
CN101477532B (zh) * 2008-12-23 2011-09-28 北京畅游天下网络技术有限公司 实现数据存储、读取的方法、装置及系统
US8346562B2 (en) * 2010-01-06 2013-01-01 Csr Technology Inc. Method and apparatus for voice controlled operation of a media player
US20120030712A1 (en) * 2010-08-02 2012-02-02 At&T Intellectual Property I, L.P. Network-integrated remote control with voice activation
CN104050966B (zh) * 2013-03-12 2019-01-01 百度国际科技(深圳)有限公司 终端设备的语音交互方法和使用该方法的终端设备
US9395904B2 (en) * 2013-08-26 2016-07-19 Venuenext, Inc. Providing game and facility information to in-stadium spectators
US10630773B2 (en) * 2015-11-12 2020-04-21 Nvidia Corporation System and method for network coupled cloud gaming
WO2017130486A1 (ja) * 2016-01-28 2017-08-03 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN105895090A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 语音信号处理方法及装置
CN106057200A (zh) * 2016-06-23 2016-10-26 广州亿程交通信息有限公司 基于语义的交互系统及交互方法
US10853747B2 (en) * 2016-10-03 2020-12-01 Google Llc Selection of computational agent for task performance
US10127908B1 (en) * 2016-11-11 2018-11-13 Amazon Technologies, Inc. Connected accessory for a voice-controlled device
CN106941000A (zh) * 2017-03-21 2017-07-11 百度在线网络技术(北京)有限公司 基于人工智能的语音交互方法和装置
CN107115668A (zh) * 2017-04-25 2017-09-01 合肥泽诺信息科技有限公司 基于语音识别的网络游戏在线交互系统
CN108495160A (zh) * 2018-02-08 2018-09-04 百度在线网络技术(北京)有限公司 智能控制方法、系统、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
JP2007241104A (ja) * 2006-03-10 2007-09-20 Saitama Univ 適応線形予測器、音声強調装置、及び音声強調システム
JP2013068809A (ja) * 2011-09-22 2013-04-18 Fujitsu Ltd 残響抑制装置および残響抑制方法並びに残響抑制プログラム
WO2015098079A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833875A (zh) * 2020-07-10 2020-10-27 安徽芯智科技有限公司 一种嵌入式语音交互系统
CN111833875B (zh) * 2020-07-10 2023-06-06 安徽芯智科技有限公司 一种嵌入式语音交互系统

Also Published As

Publication number Publication date
US20190341047A1 (en) 2019-11-07
CN109147784A (zh) 2019-01-04
US11176938B2 (en) 2021-11-16
CN109147784B (zh) 2021-06-08
JP7433000B2 (ja) 2024-02-19

Similar Documents

Publication Publication Date Title
JP7433000B2 (ja) 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
JP6952184B2 (ja) ビューに基づく音声インタラクション方法、装置、サーバ、端末及び媒体
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
WO2019237806A1 (zh) 语音识别及翻译方法以及翻译装置
CN110914828B (zh) 语音翻译方法及翻译装置
US11164571B2 (en) Content recognizing method and apparatus, device, and computer storage medium
JP2020004376A (ja) 第三者アプリケーションのインタラクション方法、及びシステム
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
CN107146605B (zh) 一种语音识别方法、装置及电子设备
US8868419B2 (en) Generalizing text content summary from speech content
CN111540357B (zh) 语音处理方法、装置、终端、服务器及存储介质
CN107193810B (zh) 一种用于自然语言内容标题消歧的方法、设备和系统
CN111045641A (zh) 一种电子终端及语音识别方法
KR102086784B1 (ko) 음성 명령 인식을 위한 장치 및 방법
CN115762510A (zh) 语音仲裁方法、装置、电子设备及存储介质
CN113936649A (zh) 语音处理方法、装置及计算机设备
CN116798430A (zh) 一种设备控制方法、多功能识别设备和存储介质
CN110781344A (zh) 一种语音消息合成的方法、设备和计算机存储介质
CN110021294A (zh) 机器人的控制方法、装置以及存储装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210524

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210524

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210819

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210825

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210831

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20211008

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20211012

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220118

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220815

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240206

R150 Certificate of patent or registration of utility model

Ref document number: 7433000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150