JP6683234B2 - 音声データ処理方法、装置、設備及びプログラム - Google Patents

音声データ処理方法、装置、設備及びプログラム Download PDF

Info

Publication number
JP6683234B2
JP6683234B2 JP2018199704A JP2018199704A JP6683234B2 JP 6683234 B2 JP6683234 B2 JP 6683234B2 JP 2018199704 A JP2018199704 A JP 2018199704A JP 2018199704 A JP2018199704 A JP 2018199704A JP 6683234 B2 JP6683234 B2 JP 6683234B2
Authority
JP
Japan
Prior art keywords
identification
alarm
voice
data
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018199704A
Other languages
English (en)
Other versions
JP2019079052A (ja
Inventor
チャン、シャンタン
リ、ウェイガオ
チアン、シェン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019079052A publication Critical patent/JP2019079052A/ja
Application granted granted Critical
Publication of JP6683234B2 publication Critical patent/JP6683234B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • G06F5/06Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor
    • G06F5/08Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor having a sequence of storage locations, the intermediate ones not being accessible for either enqueue or dequeue operations, e.g. using a shift register
    • G06F5/085Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor having a sequence of storage locations, the intermediate ones not being accessible for either enqueue or dequeue operations, e.g. using a shift register in which the data is recirculated
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Telephonic Communication Services (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピュータ応用技術に関するものであり、特に音声データ処理方法、装置、設備及記憶媒体に関するものである。
従来、ヒューマン・コンピュータ音声インタフェースを支持するスマート設備は、常にまず目覚まし操作を行う必要があり、即ちユーザが目覚まし単語を話してスマート設備を目覚まさせた後に、本当の識別内容を話すことで、音声識別操作を行う。
具体的に、音声目覚ましエンジンを利用して目覚まし識別を行うことができ、音声目覚ましエンジンライブラリには1つのスコアライブラリが集積られており、スコアライブラリは、ユーザが入力した目覚まし単語に対する識別の結果スコアがより高い、例えば90点より高ければ、確認目覚ましであると認められ、それに応じて、スマート設備を目覚まさせる。目覚まされた後に、音声識別エンジンを利用して識別内容を音声識別することができる。
しかし、ユーザは目覚まし単語と識別内容とを連続的に話した状況があり、即ちoneshot状況がある。
従来の形態において、音声目覚ましエンジンへのデータと音声識別エンジンへのデータとが完全に隔離られ、即ち、音声目覚ましエンジンに送信られた音声データは、さらに音声識別エンジンに送信られない。
こうして、識別内容が部分的に遮断られる恐れがある。例えば、目覚まし単語が「バイドゥバイドゥ」であり、識別内容が「明日天気はどうですか」である場合に、oneshot状況であれば、音声識別エンジンによって識別られた結果が「天気はどうですか」となる可能性があるので、ユーザの本当に表現したいものと一致しない。
oneshot状況が発生すると、識別内容における部分内容が音声識別エンジンに送信られなく、音声目覚ましエンジンに送信られて目覚まし識別が行われるためである。
実際の応用において、ユーザが発した音声データは、常にブロック(パッケージ)という形式で送信られ、例えば、音声データが「バイドゥバイドゥ、明日天気はどうですか」であり、「バイドゥ」、「バイドゥ」、「明日」、「天気」等がそれぞれに1つのデータブロックに対応し、音声目覚ましエンジンが「バイドゥ」、「バイドゥ」に対して目覚まし識別を行う時に、目覚まし識別のために一定の時間がかかるので、この時間内に「明日」も送信られて来る可能性が有り、こうして、目覚まし識別が完成し、目覚まし識別の結果が確認目覚ましであると確定された時に、後続の「天気」等のデータブロックを音声識別エンジンに送信するので、元々識別内容に属する「明日」が間違って音声目覚ましエンジンに送信られ、音声識別エンジンによる音声識別の結果にエラーが発生し、即ち音声識別の結果の正確性を低下する。
上記実情に鑑みて、本発明は、音声識別の結果の正確性等を向上することができる音声データ処理方法、装置、設備及びプログラムを提供する。
具体的な技術案は、以下とおりである。
音声データ処理方法であって、クライアントが、音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶すること、前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得すること、前記クライアントが、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信すること、を含む。
本発明の1つの好ましい実施例によると、該方法は、前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語の、音声データにおける終了位置及び目覚まし単語の長さ情報を、取得すること、を更に含み、前記切出先頭位置を確定することは、前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすること、を含む。
本発明の1つの好ましい実施例によると、該方法は、前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語を取得すること、前記クライアントが、前記キャッシュデータを前記音声識別エンジンに送信する以外に、前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信すること、を更に含む。
本発明の1つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む。
本発明の1つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む。
音声データ処理方法であって、音声識別エンジンがクライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記oneshot状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶すること、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を含む。
本発明の1つの好ましい実施例によると、前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む。
本発明の1つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む。
本発明の1つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む。
音声データ処理装置は、第1の処理手段と第2の処理手段とを含み、前記第1の処理手段は、音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することに用いられ、前記第2の処理手段は、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得し、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信することに用いられる。
本発明の1つの好ましい実施例によると、前記第2の処理手段は、さらに、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語の、音声データにおける終了位置及び目覚まし単語の長さ情報を、取得すること、前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすることにも用いられる。
本発明の1つの好ましい実施例によると、前記第2の処理手段は、さらに、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語を取得すること、前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信することにも用いられる。
本発明の1つの好ましい実施例によると、前記第2の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる。
本発明の1つの好ましい実施例によると、記第2の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる。
音声データ処理装置は、第3の処理手段と第4の処理手段とを含み、前記第3の処理手段は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された前記循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記oneshot状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶することに用いられ、前記第4の処理手段は、前記キャッシュデータにおける識別内容に対して音声識別を行うことに用いられる。
本発明の1つの好ましい実施例によると、前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む。
本発明の1つの好ましい実施例によると、前記第3の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、前記第4の処理手段は、さらに、前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる。
本発明の1つの好ましい実施例によると、前記第3の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、前記第4の処理手段は、さらに、前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる。
メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、前記プロセッサが前記プログラムを実行する時、以上のような方法を実現する。
コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行される時、以上のような方法を実現する。
上記説明から分かるように、本発明の上記技術案によれば、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューされに記憶した後に、クライアントは、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあると確定すれば、更に切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信する。従来技術に比べて、本発明に係る技術案において、識別内容が部分的に遮断られる状況を避けることで、音声識別の結果の正確性等を向上した。
は本発明に係る音声データ処理方法の第1の実施例のフローチャートである。 は本発明に係るキャッシュデータの模式図である。 は本発明に係る音声データ処理方法の第2の実施例のフローチャートである。 は本発明に係る音声データ処理装置の第1の実施例の構成模式図である。 は本発明に係る音声データ処理装置の第2の実施例の構成模式図である。 は本発明の実施形態を実現することに適する、例示的なコンピュータシステム/サーバ12を示すブロック図である。
本発明の技術案をより明確で簡潔させるために、以下、図面を参照して実施例を挙げて、本発明に係る技術案を更に説明する。
明らかに、記載られた実施例は、本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者が創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。
図1は、本発明に係る音声データ処理方法の第1の実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。
101において、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶する。
102において、クライアントが、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までの少なくとも識別内容を含むキャッシュデータを取得する。
103において、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、クライアントはキャッシュデータを音声識別エンジンに送信する。
クライアントは、ユーザからの音声データを取得し、従来の処理方式に従って、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行うが、従来の技術と異なる点は、音声データを循環キャッシュキューに記憶する必要があることにある。
循環キャッシュキューは、予定期間の音声データをキャッシュすることができ、前記予定期間の具体的な値が、実際の必要に応じて設定することができ、例えば6s或いは8s等と設定することができる。
1つのデータブロックのサイズも、実際の必要に応じて設定することができ、例えば320バイト(byte)と設定することができ、且つ、データブロック毎に1つの番号(index)をそれぞれに設置することができ、0から順番に1を加算する。
音声目覚ましエンジンは、目覚まし識別を完成した後に、確認目覚まし等を含む目覚まし識別の結果を返信する。
上記のように、音声目覚ましエンジンを利用して目覚まし識別を行うことができ、音声目覚ましエンジンライブラリには1つのスコアライブラリが集積られており、スコアライブラリからの、ユーザがによって入力られた目覚まし単語に対する識別の結果スコアがより高い、例えば90点より高ければ、確認目覚ましであると認められる。
本実施例において、目覚ましエラーが発生する確率を低下するために、即ち音声目覚ましの精度を向上するために、判定閾値を向上し、例えば、スコアが95より高い場合だけに確認目覚ましであると認めされ、95点以下である場合、確認目覚ましでないと認めることができる。
音声目覚ましエンジンは、目覚まし識別の結果を返信する他に、目覚まし単語の音声データにおける終了位置(pos)及び目覚まし単語の長さ(length)情報を返信してもよく、こうして、クライアントは、pos及びlength情報に基づいて、目覚まし単語の音声データにおける先頭位置(start)を確定し、更にstartを切出先頭位置とすることができる。
posは、目覚まし単語(例えば「バイドゥバイドゥ」)が位置する最後の1つのデータブロックの番号であり、lengthは、目覚まし単語のバイトstreamの長さであり、pos及びlengthはいずれもintタイプである。
クライアントは、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信することができる。そのうち、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。
図2は、本発明に係るキャッシュデータの模式図である。図2に示すように、pos及びlengthに基づいてstartを確定することができ、更にstartからキュー末尾までの音声データを必要なキャッシュデータとすることができ、データサイズが図2に示すbuffer lengthに等しい。
音声識別エンジンは、目覚まし識別を完成した後に、目覚まし識別の結果、pos及びlength情報を返信する他に、目覚まし単語を返信することもできる。こうして、クライアントは、キャッシュデータを音声識別エンジンに送信する他に、目覚まし単語を音声識別エンジンに送信して、音声識別エンジンは目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングし、識別内容に対して音声識別を行う。
上記実施例において、目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあることを例として説明したが、実際の応用において、目覚まし識別の結果は、確認目覚まし以外、疑似目覚まし等を含んでもよく、例えば、スコアが95点より大きいと確認目覚ましであると認められ、スコアが60点より大きく95点以下であると疑似目覚ましと認められる。従来の処理方式に従って、疑似目覚ましの場合については、本当の音声目覚ましでないと認められるので、スマート設備を目覚まさないが、実際に、疑似目覚ましも本当の音声目覚ましである可能性があるので、音声目覚ましの成功率を低下してしまう。
そのために、本発明において、疑似目覚ましの場合については、クライアントは音声データを音声識別エンジンに送信し、2度目の目覚まし識別を行い、音声識別エンジンは2度目の目覚まし識別を行った後に、目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると認められ、それに応じてスマート設備を目覚まし、目覚まし識別の結果が確認目覚ましでないと、スマート設備を目覚まさない。
こうして、音声目覚ましエンジンによる目覚まし識別の結果が確認目覚ましであるかそれとも疑似目覚ましであるか、及び当前oneshot状況にあるかそれとも非oneshot状況にあるかに対して、組合せして以下の4つのシーンが得られる。即ち、目覚まし識別の結果が確認目覚ましであり現在がoneshot状況にある、目覚まし識別の結果が確認目覚ましであり現在が非oneshot状況にある、目覚まし識別の結果が疑似目覚ましであり現在がoneshot状況にある、目覚まし識別の結果が疑似目覚ましであり現在が非oneshot状況にある、との4つのシーンが得られる。
目覚まし識別の結果が確認目覚ましであり現在がoneshot状況にあるとのシーンについては、図1に示すような実施例において既に相応の処理方式を説明したが、以下、他の3つのシーンの処理方式をそれぞれに説明する。
1)目覚まし識別の結果が確認目覚ましであり現在が非oneshot状況にある
該シーンの処理方式は従来技術と同じであり、ユーザが目覚まし単語を話し、音声目覚ましエンジンが確認目覚ましという識別の結果を返信した後に、スマート設備を目覚まし、ユーザが後続識別内容を話すことを待ち、識別内容に対して音声識別を行う。
二)目覚まし識別の結果が疑似目覚ましであり現在が非oneshot状況にある
該シーンにおいて、クライアントは、音声目覚ましエンジンが返信した疑似目覚ましという識別の結果を取得し、現在が非oneshot状況にあると確定した後に、キャッシュデータを音声識別エンジンに送信し、音声識別エンジンはキャッシュデータに基づいて2度目の目覚まし識別を行い、2度目の目覚まし識別の結果を返信し、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。
上記のように、循環キャッシュキューにおけるstartからキュー末尾までの音声データを必要なキャッシュデータとし、非oneshot状況にあると、キャッシュデータには識別内容を含まわず、音声識別エンジンはキャッシュデータを取得した後に、2度目の目覚まし識別を行い、2度目の目覚まし識別の結果を返信し、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。
三)目覚まし識別の結果が疑似目覚ましであり現在がoneshot状況にある
該シーンにおいて、クライアントは、音声目覚ましエンジンが返信した疑似目覚ましという識別の結果を取得し、現在がoneshot状況にあると確定した後に、キャッシュデータを音声識別エンジンに送信し、音声識別エンジンはキャッシュデータに基づいて2度目の目覚まし識別を行い、2度目の目覚まし識別の結果を返信することができ、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、音声識別エンジンによってキャッシュデータにおける識別内容に対して音声識別を行う。
二)のシーンと比べて、該シーンにおいて、最終の目覚まし識別の結果が確認目覚ましであると確定した後に、音声識別エンジンは、キャッシュデータにおける識別内容に対して音声識別を行う必要もある。
二)及び三)のシーンにおいて、クライアントは、キャッシュデータを音声識別エンジンに送信する他に、音声目覚ましエンジンによって返信された目覚まし単語も音声識別エンジンに送信してもよく、音声識別エンジンは、取得された目覚まし単語を結合して更に最終の目覚まし識別の結果を確定することができ、例えば、識別られた目覚まし単語と取得された目覚まし単語とを比較して一致するかを判定すること等ができる。
以上、主にクライアントの側から本発明に係る技術案を説明したが、以下、音声識別エンジンの側から本発明に係る技術案を更に説明する。
図3は、本発明に係る音声データ処理方法の第2の実施例のフローチャートである。図3に示すように、以下の具体的な実現方式を含む。
301において、音声識別エンジンはクライアントからの少なくとも識別内容を含むキャッシュデータを取得する。キャッシュデータとは、循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記循環キャッシュキューは、クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、目覚まし識別の結果が確認目覚ましであり現在がoneshot状況にあると確定した時に取得されたものである。そのうち、oneshot状況とは目覚まし単語と識別内容とが連続的に話される状況であり、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶する。
クライアントは、ユーザからの音声データを取得し、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行い、また、音声データを循環キャッシュキューに記憶する必要がある。
音声目覚ましエンジンは、目覚まし識別を完成した後に、目覚まし識別の結果を返信し、例えば確認目覚まし或いは疑似目覚ましを返信する。
音声目覚ましエンジンは、目覚まし識別の結果を返信する同時に、目覚まし単語の音声データにおける終了位置(pos)、目覚まし単語の長さ(length)情報及び目覚まし単語等も返信してもよい。
クライアントは、pos及びlength情報に基づいて目覚まし単語の音声データにおける先頭位置(start)を確定し、startを切出先頭位置とすることができる。その後に、クライアントは、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、キャッシュデータを音声識別エンジンに送信することができる。
そのうち、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。また、クライアントは、目覚まし単語を音声識別エンジンに送信してもよい。
302において、音声識別エンジンは、キャッシュデータにおける識別内容に対して音声識別を行う。
音声識別エンジンは、キャッシュデータ及び目覚まし単語を取得した後に、目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングし、識別内容に対して音声識別を行うことができ、後続の、音声識別の結果に対する処理方式は従来の技術と同じである。
上記実施例において、目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあることを例として説明したが、他のシーン、例えば目覚まし識別の結果が確認目覚ましであり現在が非oneshot状況にある、目覚まし識別の結果が疑似目覚ましであり現在がoneshot状況にある、及び目覚まし識別の結果が疑似目覚ましであり現在が非oneshot状況にある等については、具体的な処理方式が以下とおりである。
目覚まし識別の結果が確認目覚ましであり現在が非oneshot状況にあるというシーンにおいて、音声データには識別内容を含まわず、2度目の目覚まし識別を行う必要もないので、音声識別エンジンは、取得された音声データに対して処理を行う必要がなく、後続の識別内容を取得することを待った後に、再びに識別内容に対して音声識別を行ってよい。
目覚まし識別の結果が疑似目覚ましであり現在が非oneshot状況にあるというシーンにおいて、音声識別エンジンは、キャッシュデータに基づいて2度目の目覚まし識別を行い、クライアントに2度目の目覚まし識別の結果を返信し、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することができる。
循環キャッシュキューにおけるstartからキュー末尾までの音声データを必要なキャッシュデータとし、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信し、非oneshot状況であれば、キャッシュデータには識別内容を含まわず、音声識別エンジンがキャッシュデータを取得した後に、2度目の目覚まし識別を行い、2度目の目覚まし識別の結果を返信し、2度目の目覚まし識別の結果が確認目覚ましであれば、最終の目覚まし識別の結果が確認目覚ましであると確定することができる。そのうち、音声識別エンジンは、音声目覚ましエンジンと類似な方式に従って目覚まし識別を行うことができる。
目覚まし識別の結果が疑似目覚ましであり現在がoneshot状況にあるというシーンにおいて、音声識別エンジンは、キャッシュデータに基づいて2度目の目覚まし識別を行い、クライアントに2度目の目覚まし識別の結果を返信し、2度目の目覚まし識別の結果が確認目覚ましであれば、最終の目覚まし識別の結果が確認目覚ましであると確定することができる。また、音声識別エンジンは更にはキャッシュデータにおける識別内容に対して音声識別を行うことができる。
目覚まし識別の結果が疑似目覚ましであり現在が非oneshot状況にあるというシーンと比べて、目覚まし識別の結果が疑似目覚ましであり現在がoneshot状況にあるというシーンにおいて、最終の目覚まし識別の結果が確認目覚ましであると確定した後に、音声識別エンジンは、キャッシュデータにおける識別内容に対して音声識別を行う必要もある。
注意すべきことは、前述各方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例であり、係る操作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。
上記実施例において、各実施例に関する説明にはいずれも自分の重点があり、ある実施例において詳述していない部分が、他の実施例にかかる説明を参照できる。
要するに、上記各方法の実施例における技術案を採用して、循環キャッシュキューを設置することで、全体的な識別内容を含むキャッシュデータを音声識別エンジンに送信し、従来技術における識別内容が部分的に遮断られる状況を避け、音声識別の結果の正確性を向上することができる。
更に、上記各方法の実施例における技術案を採用して、疑似目覚ましの場合について、2度目の目覚まし識別操作を行うことで、できるかぎり本当の音声目覚ましの漏れを避けることで、音声目覚ましの成功率と精度を向上することができる。
以上は方法の実施例に関する説明であり、以下、装置の実施例によって、本発明に係る技術案を更に説明する。
図4は、本発明に係る音声データ処理装置の第1の実施例の構成模式図である。図4に示すように、第1の処理手段401及び第2の処理手段402を含む。
第1の処理手段401は、音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶するために用いられる。
第2の処理手段402は、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、目覚まし識別の結果が確認目覚ましであり現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までの少なくとも識別内容を含むキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信するために用いられる。
第1の処理手段401は、ユーザからの音声データを取得し、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行い、また、音声データを循環キャッシュキューに記憶する必要がある。
音声目覚ましエンジンは、目覚まし識別を完成した後に、確認目覚まし等を含む目覚まし識別の結果を返信し、また、目覚まし単語の音声データにおける終了位置(pos)、目覚まし単語の長さ(length)情報、及び目覚まし単語等も返信してもよい。
第2の処理手段402は、pos及びlength情報を取得した後に、pos及びlengthに基づいて目覚まし単語の音声データにおける先頭位置(start)を確定し、更にstartを切出先頭位置とすることができる。その後に、第2の処理手段402は、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信する。そのうち、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。
また、第2の処理手段402は、音声識別エンジンが目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングするように、音声目覚ましエンジンが目覚まし識別を完成した後に返信した目覚まし単語を音声識別エンジンに送信し、識別内容に対して音声識別を行ってもよい。
目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、第2の処理手段402は、音声識別エンジンがキャッシュデータに基づいて2度目の目覚まし識別を行い2度目の目覚まし識別の結果を返信するように、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを音声識別エンジンに送信し、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。
目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定したら、第2の処理手段402は、音声識別エンジンがキャッシュデータに基づいて2度目の目覚まし識別を行い2度目の目覚まし識別の結果を返信するように、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを音声識別エンジンに送信し、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、音声識別エンジンによってキャッシュデータにおける識別内容に対して音声識別を行う。
図5は、本発明に係る音声データ処理装置の第2の実施例の構成模式図である。図5に示すように、第3の処理手段501及び第4の処理手段502を含む。
第3の処理手段501は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、キャッシュデータが、クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、目覚まし識別の結果が確認目覚ましであり、現在がoneshot状況にあると確定した時に、取得された循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、そのうち、oneshot状況とは目覚まし単語と識別内容とが連続的に話される状況であり、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶するために用いられる。
第4の処理手段502は、キャッシュデータにおける識別内容に対して音声識別を行うために用いられる。
クライアントは、ユーザからの音声データを取得し、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行い、音声データを循環キャッシュキューに記憶する必要がある。
音声目覚ましエンジンは、目覚まし識別を完成した後に、目覚まし識別の結果を返信し、例えば確認目覚まし或いは疑似目覚ましを返信する。
音声目覚ましエンジンは、目覚まし識別の結果を返信する同時に、目覚まし単語の音声データにおける終了位置(pos)、目覚まし単語の長さ(length)情報及び目覚まし単語等も返信してもよい。
クライアントは、pos及びlength情報に基づいて目覚まし単語の音声データにおける先頭位置(start)を確定し、startを切出先頭位置とすることができる。その後に、クライアントは、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、キャッシュデータを音声識別エンジンに送信することができる。
そのうちに、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。また、クライアントは、目覚まし単語を音声識別エンジンに送信してもよい。
第4の処理手段502は、キャッシュデータ及び目覚まし単語を取得した後に、目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングし、識別内容に対して音声識別を行うことができる。
また、第3の処理手段501は、目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にある時に、クライアントからの循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータを取得し、それに応じて、第4の処理手段502は、キャッシュデータに基づいて2度目の目覚まし識別を行いクライアントへ2度目の目覚まし識別の結果を返信し、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。
第3の処理手段501は、目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にある時に、クライアントからの循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータを取得し、それに応じて、第4の処理手段502は、キャッシュデータに基づいて2度目の目覚まし識別を行いクライアントへ2度目の目覚まし識別の結果を返信し、2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、キャッシュデータにおける識別内容に対して音声識別を行う。
図4及び図5に示す装置の実施例における具体的な動作フローは、前述各方法の実施例における対応する説明を参照し、その説明を省略する。
要するに、上記各方法の実施例における技術案を採用して、循環キャッシュキューを設置して、全体的な識別内容を含むキャッシュデータを音声識別エンジンに送信することで、従来技術における識別内容が部分的に遮断られる状況を避け、音声識別の結果の正確性を向上することができる。
更に、上記各方法の実施例における技術案を採用して、疑似目覚ましの場合に対して、2度目の目覚まし識別操作を行って、できるかぎり本当の音声目覚ましの漏れを避けることで、音声目覚ましの成功率及び精度を向上することができる。
図6は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム/サーバ12のブロック図を示す。図6に示したコンピュータシステム/サーバ12が1つの例だけであり、本発明の実施例の機能及び使用範囲を限制するためのものではない。
図6に示すように、コンピュータシステム/サーバ12は、汎用演算設備の形態で表現られる。コンピュータシステム/サーバ12の構成要素には、1つ又は複数のプロセッサ(処理手段)16と、メモリ28と、異なるシステム構成要素(メモリ28とプロセッサ16とを含む)を接続するためのバス18を含んでいるが、これに限定られない。
バス18は、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバス、ビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定られない。
コンピュータシステム/サーバ12には、典型的には複数の種類のコンピュータシステムが読取り可能な媒体を含む。それらの媒体は、コンピュータシステム/サーバ12によってアクセスられ使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。
メモリ28には、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30及び/又はキャッシュメモリ32を含むことができる。コンピュータシステム/サーバ12には、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、記憶システム34は、移動不可能な不揮発性磁媒体を読み書くために用いられる(図6に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図6に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、ぞれぞれ1つ又は複数のデータ媒体インターフェースによってバス18に接続られる。メモリ28には少なくとも1つのプログラム製品を含み、該プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置られる。
1組の(少なくとも1つの)プログラムモジュール42を含むプログラム/実用ツール40は、例えばメモリ28に記憶され、このようなプログラムモジュール42には、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42は、常に本発明に記載られている実施例における機能及び/又は方法を実行する。
コンピュータシステム/サーバ12は、1つ又は複数の周辺設備14(例えば、キーボード、ポインティングデバイス、ディスプレイ24等)と通信を行ってもよく、ユーザと該コンピュータシステム/サーバ12とのインタフェースを実現できる1つ又は複数の設備と通信を行ってもよく、及び/又は該コンピュータシステム/サーバ12と1つ又は複数の他の演算設備との通信を実現できる任意の設備(例えばネットワークカード、モデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22によって行うことができる。そして、コンピュータシステム/サーバ12は、ネットワークアダプタ20によって1つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図6に示すように、ネットワークアダプタ20は、バス18によってコンピュータシステム/サーバ12の他のモジュールと通信を行う。図に示していないが、コンピュータシステム/サーバ12と連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定られない。
プロセッサ16は、メモリ28に記憶されているプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図1又は3に示す実施例における方法を実現し、即ちクライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶し、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果をクライアントが取得し、目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、クライアントが、切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までの少なくとも識別内容を含むキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別等を行うように、キャッシュデータを音声識別エンジンに送信する。
具体的な実現過程は、前述各実施例における該当の説明を参照でき、その説明を省略する。
本発明には、コンピュータプログラムが記憶されているコンピュータ読み取りな可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図1又は3に示すような実施例における方法を実現する。
1つ又は複数のコンピュータ読み取りな可能な媒体の任意な組合を採用しても良い。コンピュータ読み取りな可能な媒体は、コンピュータ読み取りな可能な信号媒体又はコンピュータ読み取りな可能な記憶媒体である。コンピュータ読み取りな可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意な組合であるが、これに限定られない。コンピュータ読み取りな可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記の任意で適当な組合を含む。本願において、コンピュータ読み取りな可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用られる又はそれらと連携して使用られるができる。
コンピュータ読み取りな可能な信号媒体には、ベースバンドにおいて伝搬られるデータ信号或いはキャリアの一部として伝搬られるデータ信号を含み、それにコンピュータ読み取りな可能なプログラムコードが載っている。このような伝搬られるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定られない。コンピュータ読み取りな可能な信号媒体は、コンピュータ読み取りな可能な記憶媒体以外の任意なコンピュータ読み取りな可能な媒体であってもよく、該コンピュータ読み取りな可能な媒体は、命令実行システム、装置又はデバイスによって使用られる又はそれと連携して使用られるプログラムを送信、伝搬又は転送できる。
コンピュータ読み取りな可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送られてもよく、無線、電線、光ケーブル、RF等、又は上記の任意で適当な組合が含られているが、これに限定られない。
1つ又は複数の種類のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。
本発明に開示られたいくつの実施例で開示られた装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述の装置に関する実施形態は例示だけであり、例えば、前記手段の区分がロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよい。
前記の分離部品として説明られた手段が、物理的に分離られてもよく、物理的に分離られなくてもよく、手段として表られる部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセルに分布られても良い。実際の必要に基づいて、その中の部分又は全部を選択して、本実施例の態様の目的を実現できる。
また、本発明の各実施例における各機能手段が、1つの処理手段に集積られてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積られても良い。上記集積られた手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。
上記ソフトウェア機能手段の形式で実現する集積られた手段は、1つのコンピュータ読み取りな可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載られた方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体には、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。
以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で実行したいずれの修正、等価置換、改良なども、全部本発明の保護する範囲に属すべきである。

Claims (28)

  1. 音声データ処理方法であって、
    クライアントが、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
    前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得すること、
    前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得すること、
    前記クライアントが、音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信すること、
    前記クライアントが、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信すること、
    を含む、音声データ処理方法。
  2. 前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語の、前記音声データにおける終了位置及び前記目覚まし単語の長さ情報を、取得すること、を更に含み、
    前記切出先頭位置を確定することは、
    前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすること、を含む、請求項1に記載の音声データ処理方法。
  3. 前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む、請求項1または2に記載の音声データ処理方法。
  4. 音声データ処理方法であって、
    クライアントが、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
    前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得すること、
    前記クライアントが、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信すること、を含み、
    前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む、音声データ処理方法。
  5. 前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む、請求項1から4の何れか1つに記載の音声データ処理方法。
  6. 音声データ処理方法であって、
    クライアントが、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
    前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得すること、
    前記クライアントが、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信すること、を含み、
    前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む、音声データ処理方法。
  7. 音声データ処理方法であって、
    クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
    音声識別エンジンが前記クライアントからの少なくとも識別内容を含むキャッシュデータを取得すること
    ここで、前記キャッシュデータとは、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであるとともに、現在がoneshot状況にあると確定した場合、前記循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、
    ここで、前記oneshot状況とは、目覚まし単語と識別内容とが連続的に話される状況であり、
    前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得すること、
    前記クライアントが、前記キャッシュデータを前記音声識別エンジンに送信する以外に、前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信すること、
    前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を含む、音声データ処理方法。
  8. 前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む、請求項に記載の音声データ処理方法。
  9. 前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む、請求項7または8に記載の音声データ処理方法。
  10. 音声データ処理方法であって、
    クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
    音声識別エンジンが前記クライアントからの少なくとも識別内容を含むキャッシュデータを取得すること、
    ここで、前記キャッシュデータとは、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであるとともに、現在がoneshot状況にあると確定した場合、前記循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、
    ここで、前記oneshot状況とは、目覚まし単語と識別内容とが連続的に話される状況であり、
    前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、
    前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を含む、音声データ処理方法。
  11. 前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む、請求項7から10の何れか1つに記載の音声データ処理方法。
  12. 音声データ処理方法であって、
    クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
    音声識別エンジンが前記クライアントからの少なくとも識別内容を含むキャッシュデータを取得すること、
    ここで、前記キャッシュデータとは、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであるとともに、現在がoneshot状況にあると確定した場合、前記循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、
    ここで、前記oneshot状況とは、目覚まし単語と識別内容とが連続的に話される状況であり、
    前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、
    前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を含む、音声データ処理方法。
  13. 音声データ処理装置であって、第1の処理手段と第2の処理手段とを含み、
    前記第1の処理手段は、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶することに用いられ、
    前記第2の処理手段は、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得し、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得し、音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信し、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信することに用いられる、音声データ処理装置。
  14. 前記第2の処理手段は、さらに、
    前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語の、前記音声データにおける終了位置及び前記目覚まし単語の長さ情報を、取得すること、
    前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすることにも用いられる、請求項13に記載の音声データ処理装置。
  15. 前記第2の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、請求項13または14に記載の音声データ処理装置。
  16. 音声データ処理装置であって、第1の処理手段と第2の処理手段とを含み、
    前記第1の処理手段は、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶することに用いられ、
    前記第2の処理手段は、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得し、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信することに用いられ、
    前記第2の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、音声データ処理装置。
  17. 前記第2の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、請求項13から16の何れか1つに記載の音声データ処理装置。
  18. 音声データ処理装置であって、第1の処理手段と第2の処理手段とを含み、
    前記第1の処理手段は、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶することに用いられ、
    前記第2の処理手段は、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるoneshot状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得し、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信することに用いられ、
    前記第2の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて2度目の目覚まし識別を行い前記2度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、音声データ処理装置。
  19. 音声データ処理装置であって、第3の処理手段と第4の処理手段とを含み、
    前記第3の処理手段は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、
    ここで、前記キャッシュデータとは、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであるとともに、現在がoneshot状況にあると確定した場合、循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、
    ここで、前記oneshot状況とは目覚まし単語と識別内容とが連続的に話される状況であり、
    前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された音声データを前記循環キャッシュキューに記憶し、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得し、音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信し、
    前記第4の処理手段は、前記キャッシュデータにおける識別内容に対して音声識別を行うことに用いられる、音声データ処理装置。
  20. 前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む、請求項19に記載の音声データ処理装置。
  21. 前記第3の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
    前記第4の処理手段は、さらに、
    前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、請求項19または20に記載の音声データ処理装置。
  22. 音声データ処理装置であって、第3の処理手段と第4の処理手段とを含み、
    前記第3の処理手段は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、
    ここで、前記キャッシュデータとは、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであるとともに、現在がoneshot状況にあると確定した場合、循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、
    ここで、前記oneshot状況とは目覚まし単語と識別内容とが連続的に話される状況であり、
    前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された音声データを前記循環キャッシュキューに記憶し、
    前記第4の処理手段は、前記キャッシュデータにおける識別内容に対して音声識別を行うことに用いられ、
    前記第3の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在が非oneshot状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
    前記第4の処理手段は、さらに、
    前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、音声データ処理装置。
  23. 前記第3の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
    前記第4の処理手段は、さらに、
    前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、請求項19から22の何れか1つに記載の音声データ処理装置。
  24. 音声データ処理装置であって、第3の処理手段と第4の処理手段とを含み、
    前記第3の処理手段は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、
    ここで、前記キャッシュデータとは、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであるとともに、現在がoneshot状況にあると確定した場合、循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、
    ここで、前記oneshot状況とは目覚まし単語と識別内容とが連続的に話される状況であり、
    前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された音声データを前記循環キャッシュキューに記憶し、
    前記第4の処理手段は、前記キャッシュデータにおける識別内容に対して音声識別を行うことに用いられ、
    前記第3の処理手段は、さらに、
    前記目覚まし識別の結果が疑似目覚ましであり、現在がoneshot状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
    前記第4の処理手段は、さらに、
    前記キャッシュデータに基づいて2度目の目覚まし識別を行い、前記クライアントに前記2度目の目覚まし識別の結果を返信し、前記2度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、音声データ処理装置。
  25. メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
    前記プロセッサが前記コンピュータプログラムを実行する時、請求項1〜のいずれか1項に記載された音声データ処理方法を実現する、コンピュータ設備。
  26. 記憶されプロセッサ実行されが、請求項1〜のいずれか1項に記載された音声データ処理方法を実現するための、コンピュータプログラム。
  27. メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
    前記プロセッサが前記コンピュータプログラムを実行する時、請求項12のいずれか1項に記載された音声データ処理方法を実現する、コンピュータ設備。
  28. 記憶されプロセッサ実行されが、請求項12のいずれか1項に記載された音声データ処理方法を実現するための、コンピュータプログラム。
JP2018199704A 2017-10-25 2018-10-24 音声データ処理方法、装置、設備及びプログラム Active JP6683234B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711010711.7 2017-10-25
CN201711010711.7A CN107808670B (zh) 2017-10-25 2017-10-25 语音数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2019079052A JP2019079052A (ja) 2019-05-23
JP6683234B2 true JP6683234B2 (ja) 2020-04-15

Family

ID=61592423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018199704A Active JP6683234B2 (ja) 2017-10-25 2018-10-24 音声データ処理方法、装置、設備及びプログラム

Country Status (3)

Country Link
US (1) US10923119B2 (ja)
JP (1) JP6683234B2 (ja)
CN (1) CN107808670B (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11295747B2 (en) * 2018-03-07 2022-04-05 Dsp Group Ltd. System and a method for transmission of audio signals
CN110299137B (zh) * 2018-03-22 2023-12-12 腾讯科技(深圳)有限公司 语音交互方法和装置
JP7186375B2 (ja) * 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
CN108563468B (zh) 2018-03-30 2021-09-21 深圳市冠旭电子股份有限公司 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱
CN108766422B (zh) * 2018-04-02 2020-09-15 青岛海尔科技有限公司 语音设备的响应方法、装置、存储介质及计算机设备
US11238856B2 (en) * 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN109065037B (zh) * 2018-07-10 2023-04-25 瑞芯微电子股份有限公司 一种基于语音交互的音频流控制方法
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN108962262B (zh) * 2018-08-14 2021-10-08 思必驰科技股份有限公司 语音数据处理方法和装置
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109819319A (zh) * 2019-03-07 2019-05-28 重庆蓝岸通讯技术有限公司 一种录像记录关键帧的方法
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110047471A (zh) * 2019-05-13 2019-07-23 深圳市智宇盟科技有限公司 语音唤醒方法
CN110223687B (zh) * 2019-06-03 2021-09-28 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN111081241B (zh) * 2019-11-20 2023-04-07 Oppo广东移动通信有限公司 设备误唤醒的数据检测方法、装置、移动终端和存储介质
CN110971685B (zh) * 2019-11-29 2021-01-01 腾讯科技(深圳)有限公司 内容处理方法、装置、计算机设备及存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111091849B (zh) * 2020-03-03 2020-12-22 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN111816190A (zh) * 2020-07-08 2020-10-23 苏州思必驰信息科技有限公司 用于上位机与下位机的语音交互方法和装置
CN112071323B (zh) * 2020-09-18 2023-03-21 阿波罗智联(北京)科技有限公司 误唤醒样本数据的获取方法、装置和电子设备
CN112233681A (zh) * 2020-10-10 2021-01-15 北京百度网讯科技有限公司 一种误唤醒语料确定方法、装置、电子设备和存储介质
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112698872A (zh) * 2020-12-21 2021-04-23 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备及存储介质
CN114155857A (zh) * 2021-12-21 2022-03-08 思必驰科技股份有限公司 语音唤醒方法、电子设备和存储介质
CN115497457A (zh) * 2022-09-29 2022-12-20 贵州小爱机器人科技有限公司 语音识别方法、装置、电子设备及存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100631786B1 (ko) * 2005-02-18 2006-10-12 삼성전자주식회사 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
US7831427B2 (en) * 2007-06-20 2010-11-09 Microsoft Corporation Concept monitoring in spoken-word audio
EP2192794B1 (en) * 2008-11-26 2017-10-04 Oticon A/S Improvements in hearing aid algorithms
CN102118886A (zh) * 2010-01-04 2011-07-06 中国移动通信集团公司 一种语音信息的识别方法和设备
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN104321622B (zh) * 2012-06-05 2017-09-08 苹果公司 情景感知语音引导
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
EP2982181A1 (en) 2013-04-03 2016-02-10 Google Technology Holdings LLC Methods for cell discovery
JP2015011170A (ja) 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US9633669B2 (en) * 2013-09-03 2017-04-25 Amazon Technologies, Inc. Smart circular audio buffer
KR102197143B1 (ko) * 2013-11-26 2020-12-31 현대모비스 주식회사 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9335966B2 (en) * 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
EP3282445A4 (en) * 2015-04-10 2018-05-02 Huawei Technologies Co. Ltd. Voice recognition method, voice wake-up device, voice recognition device and terminal
CN104850827B (zh) * 2015-04-23 2018-12-18 小米科技有限责任公司 指纹识别方法及装置
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
CN106228985A (zh) * 2016-07-18 2016-12-14 广东志高空调有限公司 一种语音控制系统、控制器和家用电器设备
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
CN106910496A (zh) * 2017-02-28 2017-06-30 广东美的制冷设备有限公司 智能家电控制方法和装置
US10311870B2 (en) * 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection

Also Published As

Publication number Publication date
CN107808670B (zh) 2021-05-14
JP2019079052A (ja) 2019-05-23
US10923119B2 (en) 2021-02-16
CN107808670A (zh) 2018-03-16
US20190122662A1 (en) 2019-04-25

Similar Documents

Publication Publication Date Title
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
JP7029613B2 (ja) インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム
JP6862632B2 (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
US20190066671A1 (en) Far-field speech awaking method, device and terminal device
JP6751433B2 (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
CN108133707B (zh) 一种内容分享方法及系统
JP2019015952A (ja) ウェイクアップ方法、デバイス及びシステム、クラウドサーバーと可読媒体
US20150325240A1 (en) Method and system for speech input
CN108564944B (zh) 智能控制方法、系统、设备及存储介质
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
JP6756079B2 (ja) 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム
KR20170080672A (ko) 키 문구 사용자 인식의 증강
JP2020079921A (ja) 音声インタラクション実現方法、装置、コンピュータデバイス及びプログラム
CN110310657B (zh) 一种音频数据处理方法及装置
CN109215646B (zh) 语音交互处理方法、装置、计算机设备及存储介质
US10665225B2 (en) Speaker adaption method and apparatus, and storage medium
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN113053368A (zh) 语音增强方法、电子设备和存储介质
CN113674742A (zh) 人机交互方法、装置、设备以及存储介质
JP2023162265A (ja) テキストエコー消去
CN111400463B (zh) 对话响应方法、装置、设备和介质
CN112863496B (zh) 一种语音端点检测方法以及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200309

R150 Certificate of patent or registration of utility model

Ref document number: 6683234

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250