JP2019079052A

JP2019079052A - 音声データ処理方法、装置、設備及びプログラム

Info

Publication number: JP2019079052A
Application number: JP2018199704A
Authority: JP
Inventors: チャン、シャンタン; Shang Tang Zhang; リ、ウェイガオ; Wei Gao Li; チアン、シェン; Jiang Sheng
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-10-25
Filing date: 2018-10-24
Publication date: 2019-05-23
Anticipated expiration: 2038-10-24
Also published as: JP6683234B2; US10923119B2; CN107808670B; CN107808670A; US20190122662A1

Abstract

【課題】音声識別の結果の正確性等を向上することができる音声データ処理方法、装置、設備及びプログラムを提供する。【解決手段】音声データ処理方法は、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶すること、クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定したら、切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までの少なくとも識別内容を含むキャッシュデータを取得すること、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、クライアントがキャッシュデータを音声識別エンジンに送信すること、を含む。【選択図】図１

Description

本発明は、コンピュータ応用技術に関するものであり、特に音声データ処理方法、装置、設備及記憶媒体に関するものである。

従来、ヒューマン・コンピュータ音声インタフェースを支持するスマート設備は、常にまず目覚まし操作を行う必要があり、即ちユーザが目覚まし単語を話してスマート設備を目覚まさせた後に、本当の識別内容を話すことで、音声識別操作を行う。

具体的に、音声目覚ましエンジンを利用して目覚まし識別を行うことができ、音声目覚ましエンジンライブラリには１つのスコアライブラリが集積られており、スコアライブラリは、ユーザが入力した目覚まし単語に対する識別の結果スコアがより高い、例えば９０点より高ければ、確認目覚ましであると認められ、それに応じて、スマート設備を目覚まさせる。目覚まされた後に、音声識別エンジンを利用して識別内容を音声識別することができる。

しかし、ユーザは目覚まし単語と識別内容とを連続的に話した状況があり、即ちｏｎｅｓｈｏｔ状況がある。

従来の形態において、音声目覚ましエンジンへのデータと音声識別エンジンへのデータとが完全に隔離られ、即ち、音声目覚ましエンジンに送信られた音声データは、さらに音声識別エンジンに送信られない。

こうして、識別内容が部分的に遮断られる恐れがある。例えば、目覚まし単語が「バイドゥバイドゥ」であり、識別内容が「明日天気はどうですか」である場合に、ｏｎｅｓｈｏｔ状況であれば、音声識別エンジンによって識別られた結果が「天気はどうですか」となる可能性があるので、ユーザの本当に表現したいものと一致しない。

ｏｎｅｓｈｏｔ状況が発生すると、識別内容における部分内容が音声識別エンジンに送信られなく、音声目覚ましエンジンに送信られて目覚まし識別が行われるためである。

実際の応用において、ユーザが発した音声データは、常にブロック（パッケージ）という形式で送信られ、例えば、音声データが「バイドゥバイドゥ、明日天気はどうですか」であり、「バイドゥ」、「バイドゥ」、「明日」、「天気」等がそれぞれに１つのデータブロックに対応し、音声目覚ましエンジンが「バイドゥ」、「バイドゥ」に対して目覚まし識別を行う時に、目覚まし識別のために一定の時間がかかるので、この時間内に「明日」も送信られて来る可能性が有り、こうして、目覚まし識別が完成し、目覚まし識別の結果が確認目覚ましであると確定された時に、後続の「天気」等のデータブロックを音声識別エンジンに送信するので、元々識別内容に属する「明日」が間違って音声目覚ましエンジンに送信られ、音声識別エンジンによる音声識別の結果にエラーが発生し、即ち音声識別の結果の正確性を低下する。

上記実情に鑑みて、本発明は、音声識別の結果の正確性等を向上することができる音声データ処理方法、装置、設備及びプログラムを提供する。

具体的な技術案は、以下とおりである。

音声データ処理方法であって、クライアントが、音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶すること、前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるｏｎｅｓｈｏｔ状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得すること、前記クライアントが、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信すること、を含む。

本発明の１つの好ましい実施例によると、該方法は、前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語の、音声データにおける終了位置及び目覚まし単語の長さ情報を、取得すること、を更に含み、前記切出先頭位置を確定することは、前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすること、を含む。

本発明の１つの好ましい実施例によると、該方法は、前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語を取得すること、前記クライアントが、前記キャッシュデータを前記音声識別エンジンに送信する以外に、前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信すること、を更に含む。

本発明の１つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い２度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む。

本発明の１つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い２度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む。

音声データ処理方法であって、音声識別エンジンがクライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記ｏｎｅｓｈｏｔ状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶すること、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を含む。

本発明の１つの好ましい実施例によると、前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む。

本発明の１つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、２度目の目覚まし識別を行い、前記クライアントに２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む。

本発明の１つの好ましい実施例によると、該方法は、前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、２度目の目覚まし識別を行い、前記クライアントに２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む。

音声データ処理装置は、第１の処理手段と第２の処理手段とを含み、前記第１の処理手段は、音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することに用いられ、前記第２の処理手段は、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるｏｎｅｓｈｏｔ状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得し、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信することに用いられる。

本発明の１つの好ましい実施例によると、前記第２の処理手段は、さらに、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語の、音声データにおける終了位置及び目覚まし単語の長さ情報を、取得すること、前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすることにも用いられる。

本発明の１つの好ましい実施例によると、前記第２の処理手段は、さらに、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語を取得すること、前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信することにも用いられる。

本発明の１つの好ましい実施例によると、前記第２の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い２度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる。

本発明の１つの好ましい実施例によると、記第２の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い２度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる。

音声データ処理装置は、第３の処理手段と第４の処理手段とを含み、前記第３の処理手段は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された前記循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記ｏｎｅｓｈｏｔ状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶することに用いられ、前記第４の処理手段は、前記キャッシュデータにおける識別内容に対して音声識別を行うことに用いられる。

本発明の１つの好ましい実施例によると、前記第３の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、前記第４の処理手段は、さらに、前記キャッシュデータに基づいて２度目の目覚まし識別を行い、前記クライアントに２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる。

本発明の１つの好ましい実施例によると、前記第３の処理手段は、さらに、前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、前記第４の処理手段は、さらに、前記キャッシュデータに基づいて２度目の目覚まし識別を行い、前記クライアントに２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる。

メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、前記プロセッサが前記プログラムを実行する時、以上のような方法を実現する。

コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行される時、以上のような方法を実現する。

上記説明から分かるように、本発明の上記技術案によれば、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューされに記憶した後に、クライアントは、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定すれば、更に切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信する。従来技術に比べて、本発明に係る技術案において、識別内容が部分的に遮断られる状況を避けることで、音声識別の結果の正確性等を向上した。

は本発明に係る音声データ処理方法の第１の実施例のフローチャートである。は本発明に係るキャッシュデータの模式図である。は本発明に係る音声データ処理方法の第２の実施例のフローチャートである。は本発明に係る音声データ処理装置の第１の実施例の構成模式図である。は本発明に係る音声データ処理装置の第２の実施例の構成模式図である。は本発明の実施形態を実現することに適する、例示的なコンピュータシステム／サーバ１２を示すブロック図である。

本発明の技術案をより明確で簡潔させるために、以下、図面を参照して実施例を挙げて、本発明に係る技術案を更に説明する。

明らかに、記載られた実施例は、本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者が創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。

図１は、本発明に係る音声データ処理方法の第１の実施例のフローチャートである。図１に示すように、以下の具体的な実現方式を含む。

１０１において、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶する。

１０２において、クライアントが、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるｏｎｅｓｈｏｔ状況にあると確定すれば、切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までの少なくとも識別内容を含むキャッシュデータを取得する。

１０３において、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、クライアントはキャッシュデータを音声識別エンジンに送信する。

クライアントは、ユーザからの音声データを取得し、従来の処理方式に従って、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行うが、従来の技術と異なる点は、音声データを循環キャッシュキューに記憶する必要があることにある。

循環キャッシュキューは、予定期間の音声データをキャッシュすることができ、前記予定期間の具体的な値が、実際の必要に応じて設定することができ、例えば６ｓ或いは８ｓ等と設定することができる。

１つのデータブロックのサイズも、実際の必要に応じて設定することができ、例えば３２０バイト（ｂｙｔｅ）と設定することができ、且つ、データブロック毎に１つの番号（ｉｎｄｅｘ）をそれぞれに設置することができ、０から順番に１を加算する。

音声目覚ましエンジンは、目覚まし識別を完成した後に、確認目覚まし等を含む目覚まし識別の結果を返信する。

上記のように、音声目覚ましエンジンを利用して目覚まし識別を行うことができ、音声目覚ましエンジンライブラリには１つのスコアライブラリが集積られており、スコアライブラリからの、ユーザがによって入力られた目覚まし単語に対する識別の結果スコアがより高い、例えば９０点より高ければ、確認目覚ましであると認められる。

本実施例において、目覚ましエラーが発生する確率を低下するために、即ち音声目覚ましの精度を向上するために、判定閾値を向上し、例えば、スコアが９５より高い場合だけに確認目覚ましであると認めされ、９５点以下である場合、確認目覚ましでないと認めることができる。

音声目覚ましエンジンは、目覚まし識別の結果を返信する他に、目覚まし単語の音声データにおける終了位置（ｐｏｓ）及び目覚まし単語の長さ（ｌｅｎｇｔｈ）情報を返信してもよく、こうして、クライアントは、ｐｏｓ及びｌｅｎｇｔｈ情報に基づいて、目覚まし単語の音声データにおける先頭位置（ｓｔａｒｔ）を確定し、更にｓｔａｒｔを切出先頭位置とすることができる。

ｐｏｓは、目覚まし単語（例えば「バイドゥバイドゥ」）が位置する最後の１つのデータブロックの番号であり、ｌｅｎｇｔｈは、目覚まし単語のバイトｓｔｒｅａｍの長さであり、ｐｏｓ及びｌｅｎｇｔｈはいずれもｉｎｔタイプである。

クライアントは、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信することができる。そのうち、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。

図２は、本発明に係るキャッシュデータの模式図である。図２に示すように、ｐｏｓ及びｌｅｎｇｔｈに基づいてｓｔａｒｔを確定することができ、更にｓｔａｒｔからキュー末尾までの音声データを必要なキャッシュデータとすることができ、データサイズが図２に示すｂｕｆｆｅｒｌｅｎｇｔｈに等しい。

音声識別エンジンは、目覚まし識別を完成した後に、目覚まし識別の結果、ｐｏｓ及びｌｅｎｇｔｈ情報を返信する他に、目覚まし単語を返信することもできる。こうして、クライアントは、キャッシュデータを音声識別エンジンに送信する他に、目覚まし単語を音声識別エンジンに送信して、音声識別エンジンは目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングし、識別内容に対して音声識別を行う。

上記実施例において、目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあることを例として説明したが、実際の応用において、目覚まし識別の結果は、確認目覚まし以外、疑似目覚まし等を含んでもよく、例えば、スコアが９５点より大きいと確認目覚ましであると認められ、スコアが６０点より大きく９５点以下であると疑似目覚ましと認められる。従来の処理方式に従って、疑似目覚ましの場合については、本当の音声目覚ましでないと認められるので、スマート設備を目覚まさないが、実際に、疑似目覚ましも本当の音声目覚ましである可能性があるので、音声目覚ましの成功率を低下してしまう。

そのために、本発明において、疑似目覚ましの場合については、クライアントは音声データを音声識別エンジンに送信し、２度目の目覚まし識別を行い、音声識別エンジンは２度目の目覚まし識別を行った後に、目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると認められ、それに応じてスマート設備を目覚まし、目覚まし識別の結果が確認目覚ましでないと、スマート設備を目覚まさない。

こうして、音声目覚ましエンジンによる目覚まし識別の結果が確認目覚ましであるかそれとも疑似目覚ましであるか、及び当前ｏｎｅｓｈｏｔ状況にあるかそれとも非ｏｎｅｓｈｏｔ状況にあるかに対して、組合せして以下の４つのシーンが得られる。即ち、目覚まし識別の結果が確認目覚ましであり現在がｏｎｅｓｈｏｔ状況にある、目覚まし識別の結果が確認目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にある、目覚まし識別の結果が疑似目覚ましであり現在がｏｎｅｓｈｏｔ状況にある、目覚まし識別の結果が疑似目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にある、との４つのシーンが得られる。

目覚まし識別の結果が確認目覚ましであり現在がｏｎｅｓｈｏｔ状況にあるとのシーンについては、図１に示すような実施例において既に相応の処理方式を説明したが、以下、他の３つのシーンの処理方式をそれぞれに説明する。

１）目覚まし識別の結果が確認目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にある

該シーンの処理方式は従来技術と同じであり、ユーザが目覚まし単語を話し、音声目覚ましエンジンが確認目覚ましという識別の結果を返信した後に、スマート設備を目覚まし、ユーザが後続識別内容を話すことを待ち、識別内容に対して音声識別を行う。

二）目覚まし識別の結果が疑似目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にある

該シーンにおいて、クライアントは、音声目覚ましエンジンが返信した疑似目覚ましという識別の結果を取得し、現在が非ｏｎｅｓｈｏｔ状況にあると確定した後に、キャッシュデータを音声識別エンジンに送信し、音声識別エンジンはキャッシュデータに基づいて２度目の目覚まし識別を行い、２度目の目覚まし識別の結果を返信し、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。

上記のように、循環キャッシュキューにおけるｓｔａｒｔからキュー末尾までの音声データを必要なキャッシュデータとし、非ｏｎｅｓｈｏｔ状況にあると、キャッシュデータには識別内容を含まわず、音声識別エンジンはキャッシュデータを取得した後に、２度目の目覚まし識別を行い、２度目の目覚まし識別の結果を返信し、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。

三）目覚まし識別の結果が疑似目覚ましであり現在がｏｎｅｓｈｏｔ状況にある
該シーンにおいて、クライアントは、音声目覚ましエンジンが返信した疑似目覚ましという識別の結果を取得し、現在がｏｎｅｓｈｏｔ状況にあると確定した後に、キャッシュデータを音声識別エンジンに送信し、音声識別エンジンはキャッシュデータに基づいて２度目の目覚まし識別を行い、２度目の目覚まし識別の結果を返信することができ、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、音声識別エンジンによってキャッシュデータにおける識別内容に対して音声識別を行う。

二）のシーンと比べて、該シーンにおいて、最終の目覚まし識別の結果が確認目覚ましであると確定した後に、音声識別エンジンは、キャッシュデータにおける識別内容に対して音声識別を行う必要もある。

二）及び三）のシーンにおいて、クライアントは、キャッシュデータを音声識別エンジンに送信する他に、音声目覚ましエンジンによって返信された目覚まし単語も音声識別エンジンに送信してもよく、音声識別エンジンは、取得された目覚まし単語を結合して更に最終の目覚まし識別の結果を確定することができ、例えば、識別られた目覚まし単語と取得された目覚まし単語とを比較して一致するかを判定すること等ができる。

以上、主にクライアントの側から本発明に係る技術案を説明したが、以下、音声識別エンジンの側から本発明に係る技術案を更に説明する。

図３は、本発明に係る音声データ処理方法の第２の実施例のフローチャートである。図３に示すように、以下の具体的な実現方式を含む。

３０１において、音声識別エンジンはクライアントからの少なくとも識別内容を含むキャッシュデータを取得する。キャッシュデータとは、循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記循環キャッシュキューは、クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、目覚まし識別の結果が確認目覚ましであり現在がｏｎｅｓｈｏｔ状況にあると確定した時に取得されたものである。そのうち、ｏｎｅｓｈｏｔ状況とは目覚まし単語と識別内容とが連続的に話される状況であり、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶する。

クライアントは、ユーザからの音声データを取得し、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行い、また、音声データを循環キャッシュキューに記憶する必要がある。

音声目覚ましエンジンは、目覚まし識別を完成した後に、目覚まし識別の結果を返信し、例えば確認目覚まし或いは疑似目覚ましを返信する。

音声目覚ましエンジンは、目覚まし識別の結果を返信する同時に、目覚まし単語の音声データにおける終了位置（ｐｏｓ）、目覚まし単語の長さ（ｌｅｎｇｔｈ）情報及び目覚まし単語等も返信してもよい。

クライアントは、ｐｏｓ及びｌｅｎｇｔｈ情報に基づいて目覚まし単語の音声データにおける先頭位置（ｓｔａｒｔ）を確定し、ｓｔａｒｔを切出先頭位置とすることができる。その後に、クライアントは、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、キャッシュデータを音声識別エンジンに送信することができる。

そのうち、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。また、クライアントは、目覚まし単語を音声識別エンジンに送信してもよい。

３０２において、音声識別エンジンは、キャッシュデータにおける識別内容に対して音声識別を行う。

音声識別エンジンは、キャッシュデータ及び目覚まし単語を取得した後に、目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングし、識別内容に対して音声識別を行うことができ、後続の、音声識別の結果に対する処理方式は従来の技術と同じである。

上記実施例において、目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあることを例として説明したが、他のシーン、例えば目覚まし識別の結果が確認目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にある、目覚まし識別の結果が疑似目覚ましであり現在がｏｎｅｓｈｏｔ状況にある、及び目覚まし識別の結果が疑似目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にある等については、具体的な処理方式が以下とおりである。

目覚まし識別の結果が確認目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にあるというシーンにおいて、音声データには識別内容を含まわず、２度目の目覚まし識別を行う必要もないので、音声識別エンジンは、取得された音声データに対して処理を行う必要がなく、後続の識別内容を取得することを待った後に、再びに識別内容に対して音声識別を行ってよい。

目覚まし識別の結果が疑似目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にあるというシーンにおいて、音声識別エンジンは、キャッシュデータに基づいて２度目の目覚まし識別を行い、クライアントに２度目の目覚まし識別の結果を返信し、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することができる。

循環キャッシュキューにおけるｓｔａｒｔからキュー末尾までの音声データを必要なキャッシュデータとし、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信し、非ｏｎｅｓｈｏｔ状況であれば、キャッシュデータには識別内容を含まわず、音声識別エンジンがキャッシュデータを取得した後に、２度目の目覚まし識別を行い、２度目の目覚まし識別の結果を返信し、２度目の目覚まし識別の結果が確認目覚ましであれば、最終の目覚まし識別の結果が確認目覚ましであると確定することができる。そのうち、音声識別エンジンは、音声目覚ましエンジンと類似な方式に従って目覚まし識別を行うことができる。

目覚まし識別の結果が疑似目覚ましであり現在がｏｎｅｓｈｏｔ状況にあるというシーンにおいて、音声識別エンジンは、キャッシュデータに基づいて２度目の目覚まし識別を行い、クライアントに２度目の目覚まし識別の結果を返信し、２度目の目覚まし識別の結果が確認目覚ましであれば、最終の目覚まし識別の結果が確認目覚ましであると確定することができる。また、音声識別エンジンは更にはキャッシュデータにおける識別内容に対して音声識別を行うことができる。

目覚まし識別の結果が疑似目覚ましであり現在が非ｏｎｅｓｈｏｔ状況にあるというシーンと比べて、目覚まし識別の結果が疑似目覚ましであり現在がｏｎｅｓｈｏｔ状況にあるというシーンにおいて、最終の目覚まし識別の結果が確認目覚ましであると確定した後に、音声識別エンジンは、キャッシュデータにおける識別内容に対して音声識別を行う必要もある。

注意すべきことは、前述各方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例であり、係る操作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。

上記実施例において、各実施例に関する説明にはいずれも自分の重点があり、ある実施例において詳述していない部分が、他の実施例にかかる説明を参照できる。

要するに、上記各方法の実施例における技術案を採用して、循環キャッシュキューを設置することで、全体的な識別内容を含むキャッシュデータを音声識別エンジンに送信し、従来技術における識別内容が部分的に遮断られる状況を避け、音声識別の結果の正確性を向上することができる。

更に、上記各方法の実施例における技術案を採用して、疑似目覚ましの場合について、２度目の目覚まし識別操作を行うことで、できるかぎり本当の音声目覚ましの漏れを避けることで、音声目覚ましの成功率と精度を向上することができる。

以上は方法の実施例に関する説明であり、以下、装置の実施例によって、本発明に係る技術案を更に説明する。

図４は、本発明に係る音声データ処理装置の第１の実施例の構成模式図である。図４に示すように、第１の処理手段４０１及び第２の処理手段４０２を含む。

第１の処理手段４０１は、音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶するために用いられる。

第２の処理手段４０２は、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得し、目覚まし識別の結果が確認目覚ましであり現在が目覚まし単語と識別内容とが連続的に話される状況であるｏｎｅｓｈｏｔ状況にあると確定すれば、切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までの少なくとも識別内容を含むキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信するために用いられる。

第１の処理手段４０１は、ユーザからの音声データを取得し、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行い、また、音声データを循環キャッシュキューに記憶する必要がある。

音声目覚ましエンジンは、目覚まし識別を完成した後に、確認目覚まし等を含む目覚まし識別の結果を返信し、また、目覚まし単語の音声データにおける終了位置（ｐｏｓ）、目覚まし単語の長さ（ｌｅｎｇｔｈ）情報、及び目覚まし単語等も返信してもよい。

第２の処理手段４０２は、ｐｏｓ及びｌｅｎｇｔｈ情報を取得した後に、ｐｏｓ及びｌｅｎｇｔｈに基づいて目覚まし単語の音声データにおける先頭位置（ｓｔａｒｔ）を確定し、更にｓｔａｒｔを切出先頭位置とすることができる。その後に、第２の処理手段４０２は、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別を行うように、キャッシュデータを音声識別エンジンに送信する。そのうち、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。

また、第２の処理手段４０２は、音声識別エンジンが目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングするように、音声目覚ましエンジンが目覚まし識別を完成した後に返信した目覚まし単語を音声識別エンジンに送信し、識別内容に対して音声識別を行ってもよい。

目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあると確定すれば、第２の処理手段４０２は、音声識別エンジンがキャッシュデータに基づいて２度目の目覚まし識別を行い２度目の目覚まし識別の結果を返信するように、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを音声識別エンジンに送信し、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。

目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定したら、第２の処理手段４０２は、音声識別エンジンがキャッシュデータに基づいて２度目の目覚まし識別を行い２度目の目覚まし識別の結果を返信するように、循環キャッシュキューにおける切出先頭位置からキュー末尾までのキャッシュデータを音声識別エンジンに送信し、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、音声識別エンジンによってキャッシュデータにおける識別内容に対して音声識別を行う。

図５は、本発明に係る音声データ処理装置の第２の実施例の構成模式図である。図５に示すように、第３の処理手段５０１及び第４の処理手段５０２を含む。

第３の処理手段５０１は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、キャッシュデータが、クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果を取得した後に、目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定した時に、取得された循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、そのうち、ｏｎｅｓｈｏｔ状況とは目覚まし単語と識別内容とが連続的に話される状況であり、クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶するために用いられる。

第４の処理手段５０２は、キャッシュデータにおける識別内容に対して音声識別を行うために用いられる。

クライアントは、ユーザからの音声データを取得し、音声データをデータブロックの形式で音声目覚ましエンジンに送信して目覚まし識別を行い、音声データを循環キャッシュキューに記憶する必要がある。

そのうちに、クライアントは、キャッシュデータをデータブロックの形態で音声識別エンジンに送信することができる。また、クライアントは、目覚まし単語を音声識別エンジンに送信してもよい。

第４の処理手段５０２は、キャッシュデータ及び目覚まし単語を取得した後に、目覚まし単語に基づいてキャッシュデータから識別内容をフィルタリングし、識別内容に対して音声識別を行うことができる。

また、第３の処理手段５０１は、目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にある時に、クライアントからの循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータを取得し、それに応じて、第４の処理手段５０２は、キャッシュデータに基づいて２度目の目覚まし識別を行いクライアントへ２度目の目覚まし識別の結果を返信し、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定する。

第３の処理手段５０１は、目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にある時に、クライアントからの循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータを取得し、それに応じて、第４の処理手段５０２は、キャッシュデータに基づいて２度目の目覚まし識別を行いクライアントへ２度目の目覚まし識別の結果を返信し、２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、キャッシュデータにおける識別内容に対して音声識別を行う。

図４及び図５に示す装置の実施例における具体的な動作フローは、前述各方法の実施例における対応する説明を参照し、その説明を省略する。

要するに、上記各方法の実施例における技術案を採用して、循環キャッシュキューを設置して、全体的な識別内容を含むキャッシュデータを音声識別エンジンに送信することで、従来技術における識別内容が部分的に遮断られる状況を避け、音声識別の結果の正確性を向上することができる。

更に、上記各方法の実施例における技術案を採用して、疑似目覚ましの場合に対して、２度目の目覚まし識別操作を行って、できるかぎり本当の音声目覚ましの漏れを避けることで、音声目覚ましの成功率及び精度を向上することができる。

図６は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム／サーバ１２のブロック図を示す。図６に示したコンピュータシステム／サーバ１２が１つの例だけであり、本発明の実施例の機能及び使用範囲を限制するためのものではない。

図６に示すように、コンピュータシステム／サーバ１２は、汎用演算設備の形態で表現られる。コンピュータシステム／サーバ１２の構成要素には、１つ又は複数のプロセッサ（処理手段）１６と、メモリ２８と、異なるシステム構成要素（メモリ２８とプロセッサ１６とを含む）を接続するためのバス１８を含んでいるが、これに限定られない。

バス１８は、複数種類のバス構成の中の１つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構（ＩＳＡ）バス、マイクロチャンネル架構（ＭＡＣ）バス、増強型ＩＳＡバス、ビデオ電子規格協会（ＶＥＳＡ）ローカルバス及び周辺コンポーネント接続（ＰＣＩ）バスを含んでいるが、これに限定られない。

コンピュータシステム／サーバ１２には、典型的には複数の種類のコンピュータシステムが読取り可能な媒体を含む。それらの媒体は、コンピュータシステム／サーバ１２によってアクセスられ使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

メモリ２８には、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（ＲＡＭ）３０及び／又はキャッシュメモリ３２を含むことができる。コンピュータシステム／サーバ１２には、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、記憶システム３４は、移動不可能な不揮発性磁媒体を読み書くために用いられる（図６に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図６に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、ぞれぞれ１つ又は複数のデータ媒体インターフェースによってバス１８に接続られる。メモリ２８には少なくとも１つのプログラム製品を含み、該プログラム製品には１組の（例えば少なくとも１つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置られる。

１組の（少なくとも１つの）プログラムモジュール４２を含むプログラム／実用ツール４０は、例えばメモリ２８に記憶され、このようなプログラムモジュール４２には、オペレーティングシステム、１つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での１つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール４２は、常に本発明に記載られている実施例における機能及び／又は方法を実行する。

コンピュータシステム／サーバ１２は、１つ又は複数の周辺設備１４（例えば、キーボード、ポインティングデバイス、ディスプレイ２４等）と通信を行ってもよく、ユーザと該コンピュータシステム／サーバ１２とのインタフェースを実現できる１つ又は複数の設備と通信を行ってもよく、及び／又は該コンピュータシステム／サーバ１２と１つ又は複数の他の演算設備との通信を実現できる任意の設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（Ｉ／Ｏ）インターフェース２２によって行うことができる。そして、コンピュータシステム／サーバ１２は、ネットワークアダプタ２０によって１つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図６に示すように、ネットワークアダプタ２０は、バス１８によってコンピュータシステム／サーバ１２の他のモジュールと通信を行う。図に示していないが、コンピュータシステム／サーバ１２と連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、ＲＡＩＤシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定られない。

プロセッサ１６は、メモリ２８に記憶されているプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図１又は３に示す実施例における方法を実現し、即ちクライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶し、音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし識別の結果をクライアントが取得し、目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるｏｎｅｓｈｏｔ状況にあると確定すれば、クライアントが、切出先頭位置を確定し、循環キャッシュキューにおける切出先頭位置からキュー末尾までの少なくとも識別内容を含むキャッシュデータを取得し、音声識別エンジンがキャッシュデータにおける識別内容に対して音声識別等を行うように、キャッシュデータを音声識別エンジンに送信する。

具体的な実現過程は、前述各実施例における該当の説明を参照でき、その説明を省略する。

本発明には、コンピュータプログラムが記憶されているコンピュータ読み取りな可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図１又は３に示すような実施例における方法を実現する。

１つ又は複数のコンピュータ読み取りな可能な媒体の任意な組合を採用しても良い。コンピュータ読み取りな可能な媒体は、コンピュータ読み取りな可能な信号媒体又はコンピュータ読み取りな可能な記憶媒体である。コンピュータ読み取りな可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意な組合であるが、これに限定られない。コンピュータ読み取りな可能な記憶媒体の更なる具体的な例（網羅していないリスト）には、１つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光メモリ部材、磁気メモリ部材、又は上記の任意で適当な組合を含む。本願において、コンピュータ読み取りな可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用られる又はそれらと連携して使用られるができる。

コンピュータ読み取りな可能な信号媒体には、ベースバンドにおいて伝搬られるデータ信号或いはキャリアの一部として伝搬られるデータ信号を含み、それにコンピュータ読み取りな可能なプログラムコードが載っている。このような伝搬られるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定られない。コンピュータ読み取りな可能な信号媒体は、コンピュータ読み取りな可能な記憶媒体以外の任意なコンピュータ読み取りな可能な媒体であってもよく、該コンピュータ読み取りな可能な媒体は、命令実行システム、装置又はデバイスによって使用られる又はそれと連携して使用られるプログラムを送信、伝搬又は転送できる。

コンピュータ読み取りな可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送られてもよく、無線、電線、光ケーブル、ＲＦ等、又は上記の任意で適当な組合が含られているが、これに限定られない。

１つ又は複数の種類のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けプログラミング言語、例えば「Ｃ」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

本発明に開示られたいくつの実施例で開示られた装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述の装置に関する実施形態は例示だけであり、例えば、前記手段の区分がロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよい。

前記の分離部品として説明られた手段が、物理的に分離られてもよく、物理的に分離られなくてもよく、手段として表られる部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布られても良い。実際の必要に基づいて、その中の部分又は全部を選択して、本実施例の態様の目的を実現できる。

また、本発明の各実施例における各機能手段が、１つの処理手段に集積られてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積られても良い。上記集積られた手段は、ハードウェアの形式で実現してもよく、ハードウェア＋ソフトウェア機能手段の形式で実現しても良い。

上記ソフトウェア機能手段の形式で実現する集積られた手段は、１つのコンピュータ読み取りな可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は１つの記憶媒体に記憶されており、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク設備等）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施例に記載られた方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体には、ＵＳＢメモリ、リムーバブルハードディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。

以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で実行したいずれの修正、等価置換、改良なども、全部本発明の保護する範囲に属すべきである。

Claims

音声データ処理方法であって、
クライアントが、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶すること、
前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるｏｎｅｓｈｏｔ状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得すること、
前記クライアントが、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信すること、を含む、音声データ処理方法。
前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された目覚まし単語の、前記音声データにおける終了位置及び前記目覚まし単語の長さ情報を、取得すること、を更に含み、
前記切出先頭位置を確定することは、
前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすること、を含む、請求項１に記載の音声データ処理方法。
前記クライアントが、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得すること、
前記クライアントが、前記キャッシュデータを前記音声識別エンジンに送信する以外に、前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信すること、を更に含む、請求項２に記載の音声データ処理方法。
前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い前記２度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む、請求項２に記載の音声データ処理方法。
前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い前記２度目の目覚まし識別の結果を返信するように、前記クライアントが前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む、請求項２に記載の音声データ処理方法。
音声データ処理方法であって、
音声識別エンジンがクライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記ｏｎｅｓｈｏｔ状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶すること、
前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を含む、音声データ処理方法。
前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む
、請求項６に記載の音声データ処理方法。
前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、２度目の目覚まし識別を行い、前記クライアントに前記２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定すること、を更に含む、請求項７に記載の音声データ処理方法。
前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあれば、前記音声識別エンジンが、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータに基づいて、２度目の目覚まし識別を行い、前記クライアントに前記２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うこと、を更に含む、請求項７に記載の音声データ処理方法。
音声データ処理装置であって、第１の処理手段と第２の処理手段とを含み、
前記第１の処理手段は、音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された前記音声データを循環キャッシュキューに記憶することに用いられ、
前記第２の処理手段は、前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得し、前記目覚まし識別の結果が確認目覚ましであり、現在が目覚まし単語と識別内容とが連続的に話される状況であるｏｎｅｓｈｏｔ状況にあると確定すれば、切出先頭位置を確定し、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までの少なくとも前記識別内容を含むキャッシュデータを取得し、音声識別エンジンが前記キャッシュデータにおける識別内容に対して音声識別を行うように、前記キャッシュデータを前記音声識別エンジンに送信することに用いられ、音声データ処理装置。
前記第２の処理手段は、さらに、
前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語の、前記音声データにおける終了位置及び前記目覚まし単語の長さ情報を、取得すること、
前記目覚まし単語の音声データにおける終了位置及び前記目覚まし単語の長さに基づいて、前記目覚まし単語の音声データにおける先頭位置を確定し、前記目覚まし単語の音声データにおける先頭位置を前記切出先頭位置とすることにも用いられる、請求項１０に記載の音声データ処理装置。
前記第２の処理手段は、さらに、
前記音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし単語を取得すること、
前記音声識別エンジンが前記目覚まし単語に基づいて前記キャッシュデータから前記識別内容をフィルタリングするように、前記目覚まし単語を前記音声識別エンジンに送信することにも用いられる、請求項１１に記載の音声データ処理装置。
前記第２の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い前記２度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、請求項１１に記載の音声データ処理装置。
前記第２の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定すれば、前記音声識別エンジンが前記キャッシュデータに基づいて２度目の目覚まし識別を行い前記２度目の目覚まし識別の結果を返信するように、前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを前記音声識別エンジンに送信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、前記音声識別エンジンによって前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、請求項１１に記載の音声データ処理装置。
音声データ処理装置であって、第３の処理手段と第４の処理手段とを含み、
前記第３の処理手段は、クライアントからの少なくとも識別内容を含むキャッシュデータを取得し、前記キャッシュデータが、前記クライアントが音声目覚ましエンジンによって目覚まし識別を完成した後に返信された前記目覚まし識別の結果を取得した後に、前記目覚まし識別の結果が確認目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定した時に、前記クライアントが音声データを取得し、音声目覚ましエンジンを利用して取得された前記音声データに対して目覚まし識別を行い、取得された音声データを循環キャッシュキューに記憶することであって、前記キャッシュデータは取得された前記循環キャッシュキューにおける確定された切出先頭位置からキュー末尾までのキャッシュデータであり、前記ｏｎｅｓｈｏｔ状況は目覚まし単語と識別内容とが連続的に話される状況である、記憶することに用いられ、
前記第４の処理手段は、前記キャッシュデータにおける識別内容に対して音声識別を行うことに用いられる、音声データ処理装置。
前記切出先頭位置は、前記目覚まし単語の音声データにおける先頭位置を含む、請求項１５に記載の音声データ処理装置。
前記第３の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在が非ｏｎｅｓｈｏｔ状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
前記第４の処理手段は、さらに、
前記キャッシュデータに基づいて２度目の目覚まし識別を行い、前記クライアントに前記２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定することにも用いられる、請求項１６に記載の音声データ処理装置。
前記第３の処理手段は、さらに、
前記目覚まし識別の結果が疑似目覚ましであり、現在がｏｎｅｓｈｏｔ状況にあると確定すれば、前記クライアントからの前記循環キャッシュキューにおける前記切出先頭位置からキュー末尾までのキャッシュデータを取得することにも用いられ、
前記第４の処理手段は、さらに、
前記キャッシュデータに基づいて２度目の目覚まし識別を行い、前記クライアントに前記２度目の目覚まし識別の結果を返信し、前記２度目の目覚まし識別の結果が確認目覚ましであると、最終の目覚まし識別の結果が確認目覚ましであると確定し、且つ、前記キャッシュデータにおける識別内容に対して音声識別を行うことにも用いられる、請求項１６に記載の音声データ処理装置。
メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
前記プロセッサが前記コンピュータプログラムを実行する時、請求項１〜５のいずれか1項に記載された音声データ処理方法を実現する、コンピュータ設備。
記憶されプロセッサ実行されが、請求項１〜５のいずれか1項に記載された音声データ処理方法を実現するための、コンピュータプログラム。
メモリ、プロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、
前記プロセッサが前記コンピュータプログラムを実行する時、請求項６〜９のいずれか1項に記載された音声データ処理方法を実現する、コンピュータ設備。
記憶されプロセッサ実行されが、請求項６〜９のいずれか1項に記載された音声データ処理方法を実現するための、コンピュータプログラム。