JP2021140134A

JP2021140134A - 音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP2021140134A
Application number: JP2020157479A
Authority: JP
Inventors: ヂァン，イーメェィ; Yumei Zhang; フゥー，グゥイ; Gui He; フゥー，ヂィン; Jin Hu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-04
Filing date: 2020-09-18
Publication date: 2021-09-16
Anticipated expiration: 2040-09-18
Also published as: CN113362828A; CN113362828B; EP3876231A1; US11416687B2; JP7365985B2; US20210279418A1

Abstract

【課題】音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びプログラムを提供する。【解決手段】音声認識方法は、音声フレームが検出されたことに応答してリアルタイムで音声フレームを現在のテキストに変換するステップと、以前に保存されていた履歴テキストが存在しない場合には現在のテキストを意味解析モデルに入力して解析結果を取得するステップと、解析結果が有効な意図のスロットを含む場合には音声エンドポイントを終了して認識を完了するステップと、有効な意図のスロットに対応する命令を出力するステップとを含む。音声を認識すると同時に意図を解析し、有効な意図に対しては認識・解析フローを予定より早くに完了することで音声の認識・解析の速度を大きく向上し、無効な意図に対しては音声エンドポイントの時間を自動的に延長して有効な意図を認識するまで認識を継続することで認識の精度を向上する。【選択図】図２

Description

本開示の実施形態は、コンピュータの技術分野に関し、特に、音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

１つの音声認識の適用シーンでは、すべての意図が一貫してポーズのない文で表現されるわけではない。したがって、１つの汎用的なフルシーン音声区間検出アルゴリズムでは、ユーザの実際のニーズを満たすことができない。なぜなら、同一ユーザにとって、異なる意図に対応する発話速度とポーズの時間が異なるからである。

音声認識エンジンは、フリーズ、ネットワーク状態悪化などのシーンでは、認識の失敗や不完全な認識となり、認識結果に大きな差が生じてしまい、音声認識のユーザ体験に影響を与える。

従来技術は、通常、ユーザがしばらく発話を継続していないかどうかを音声ストリームレイヤーから検出し、エンドポイントとして終了する。このような認識時間を固定する方法は、柔軟性に欠ける。

本開示の実施形態は、音声を認識するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提案する。

第１態様において、本開示の実施例は音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するステップと、以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するステップと、前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するステップと、前記有効な意図のスロットに対応する命令を出力するステップとを含む、音声を認識するための方法を提供する。

いくつかの実施例において、該方法は、解析結果に有効な意図のスロットが含まれない場合、現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップをさらに含む。

いくつかの実施例において、該方法は、以前に保存されていた履歴テキストが存在する場合、現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、新しい解析結果に有効な意図のスロットが含まれない場合、現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップと、新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するステップと、をさらに含む。

いくつかの実施例において、現在のテキストと履歴テキストとを意味解析モデルに入力するステップは、現在のテキストと履歴テキストとをスプライシング又は接合するステップと、スプライシングに成功した場合、スプライシング後の現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップとを含む。

いくつかの実施例において、現在のテキストと履歴テキストとを意味解析モデルに入力するステップは、スプライシングに失敗した場合、履歴テキストを現在のテキストにリセットし、現在のテキストのみを意味解析モデルに入力するステップとを含む。

いくつかの実施例において、該方法は、解析結果が有効な意図のスロットを含むとともに一定の結果である場合、解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶するステップと、解析すべきテキストが取得されたことに応答して、解析すべきテキストと対応関係テーブルとをマッチングするステップと、マッチングに成功した場合、意味解析モデルを介さずに、解析すべきテキストに対応するキャッシュ命令を直接返すステップとをさらに含む。

第２態様において、本開示の実施例は、音声フレームが検出されたことに応答して、リアルタイムで音声フレームを現在のテキストに変換するように構成された変換ユニットと、以前に保存されていた履歴テキストが存在しない場合、現在のテキストを意味解析モデルに入力し、解析結果を取得するように構成された解析ユニットと、解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するように構成された判断ユニットと、有効な意図のスロットに対応する命令を出力するように構成された出力ユニットとを含む、音声を認識するための装置を提供する。

いくつかの実施例において、該装置は、解析結果に有効な意図のスロットが含まれない場合、現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるように構成されたスプライシングユニットをさらに含む。

いくつかの実施例において、スプライシングユニットはさらに、以前に保存されていた履歴テキストが存在する場合、現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得し、新しい解析結果に有効な意図のスロットが含まれない場合、現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させ、新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている。

いくつかの実施例において、スプライシングユニットはさらに、現在のテキストと履歴テキストとをスプライシングし、スプライシングに成功した場合、スプライシング後の現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するように構成されている。

いくつかの実施例において、スプライシングユニットはさらに、スプライシングに失敗した場合、履歴テキストを現在のテキストにリセットし、現在のテキストのみを意味解析モデルに入力するように構成されている。

いくつかの実施例において、該装置は、解析結果が有効な意図のスロットを含むとともに一定の結果である場合、解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、解析すべきテキストが取得されたことに応答して、解析すべきテキストと対応関係テーブルとをマッチングし、マッチングに成功した場合、意味解析モデルを介さずに、解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニットをさらに含む。

第３態様において、本開示の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶する記憶装置と、を含む音声を認識するための電子機器であって、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサが第１態様のいずれか一項に記載の方法を実施する、音声を認識するための電子機器を提供する。

第４態様において、本開示の実施例はコンピュータプログラムが記憶されているコンピュータ可読媒体であって、プログラムがプロセッサによって実行されると、第１態様のいずれか一項に記載の方法を実施する、コンピュータ可読媒体を提供する。

第５態様において、本開示の実施例はコンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、第１態様のいずれか一項に記載の方法を実現する、コンピュータプログラムを提供する。

本開示の実施形態が提供する音声を認識するための方法および装置は、意味解析モデルを構築することによって、音声を認識すると同時に意図を解析し、有効な意図に対しては、認識・解析フローを予定より早く完了することで、音声の認識・解析の速度を大きく向上させることができ、無効な意図に対しては、音声エンドポイントの時間を自動的に延長し、有効な意図を認識するまで認識を継続することで、認識の精度を向上させることができる。

以下の図面を参照してなされた非限定的な実施形態に対する詳細な説明を読むことによって、本開示のその他の特徴、目的、および利点はより明らかになるであろう。
本開示の一実施形態が適用可能な例示的なシステムアーキテクチャである。本開示に係る音声を認識するための方法の一実施形態のフローチャートである。本開示に係る音声を認識するための方法の１つの適用シーンの概略図である。本開示に係る音声を認識するための方法の別の実施形態のフローチャートである。本開示に係る音声を認識するための装置の一実施形態の構成概略図である。本開示の実施形態の実施を実現する電子機器に適したコンピュータシステムの構成概略図である。

以下、本開示について、添付の図面および実施形態に関連してさらに詳細に説明する。本明細書に記載された特定の実施形態は、発明への限定ではなく、関連する発明を説明するためにのみ使用されることを理解されたい。なお、説明を容易にするために、図面には、関連する発明に関連する部分のみが示されている。

なお、本開示における実施形態および実施形態における特徴は、衝突しない前提で、互いに組み合わせられてもよい。以下、本開示について図面を参照し、実施形態に関連して詳細に説明する。

図１は、本開示の音声を認識するための方法または音声を認識するための装置の一実施形態が適用可能な例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、マイク１０１、コントローラ１０２、音声認識サーバ１０３、意味理解サーバ１０４を含むことができる。ネットワークは、コントローラ１０２と、音声認識サーバ１０３と、意味理解サーバ１０４との間に通信リンクを提供するための媒体である。ネットワークは、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、マイク１０１を使用してコントローラ１０２に音声を入力することができる。次いで、コントローラ１０２は、ネットワークを介して音声認識サーバ１０３、意味理解サーバ１０４と対話して、メッセージ等を受信または送信する。マイク１０１は、無人車等のモバイル装置に取り付けられた音声入力機器であってもよいし、携帯電話、コンピュータ等の内蔵機器であってもよい。コントローラは、車載機器であってもよいし、携帯電話、コンピュータ等の内蔵機器であってもよい。コントローラ１０２は、情報を送受信する機能を有する。

コントローラ１０２はまた、オフライン音声認識および意味理解の機能を備える。例えば、オフラインで呼び覚まし語などを認識することができる。オフラインで音声認識ができない場合には、音声を音声認識サーバに送信し、音声認識を行い、文字を取得する必要がある。さらに文字を意味理解サーバに送信し、命令を取得する。

音声認識サーバ１０３は、コントローラ１０２から送信された音声を受信し、音声における語彙内容をキー、バイナリコード、文字シーケンスなどのコンピュータ読み取り可能な入力に変換するためのものである。話者認識や話者確認とは異なる。後者は、その中に含まれる語彙内容ではなく、音声を発する話者の認識や確認を試みる。音声認識サーバ１０２には、音声認識システムが取り付けられている。音声認識システムは一般的に訓練と復号化の２段階に分けられる。訓練とは、アノテーションが付与された大量の音声データにより音響モデルを訓練することをいう。復号化とは、訓練集合外の音声データを音響モデルと言語モデルにより文字として認識することをいう。訓練された音響モデルの良し悪しが、認識精度に直接影響を与える。

意味理解サーバ１０３は、コントローラ１０２から送信された文字の結果を受信し、文字の結果に基づいて意味解析を行うためのものである。意味解析とは、様々な手法を用いて、１つのテキストが表す意味内容を学習・理解することであり、如何なる言語への理解も意味解析の範疇に属するものであり得る。１つのテキストは通常、語、文、段落から構成される。理解対象の言語単位によっては、意味解析はさらに語彙レベルの意味解析、文レベルの意味解析、章又は節レベルの意味解析に分けられる。一般的には、語彙レベルの意味解析は単語の意味をどのように獲得または区別するかに注目する。文レベルの意味解析は文全体が表現する意味を解析しようとする。章又は節レベルの意味解析は自然言語テキストの内在的な構造を研究し、テキストユニット(文、従属節や段落であってもよい)間の意味関係を理解することを目的としている。簡単に言えば、意味解析の目標は、効率的なモデルやシステムを構築することにより、各言語単位(語彙、文、章節などを含む)の自動的意味解析を実施し、テキスト全体の表現の真の意味を理解することである。

なお、音声認識サーバ１０３、意味理解サーバ１０４は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバがハードウェアである場合には、複数のサーバからなる分散サーバクラスターとして実施することができ、単一のサーバとして実施することもできる。サーバはソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するために使用される複数のソフトウェアまたはソフトウェアモジュール)として実施することができ、単一のソフトウェアまたはソフトウェアモジュールとして実施することもできる。ここでは具体的な限定はしない。

なお、本開示の実施形態によって提供される音声を認識するための方法は、一般的にコントローラ１０２によって実行される。それに応じて、音声を認識するための装置は、一般的にコントローラ１０２内に配置される。

図１のマイク、コントローラ、音声認識サーバ、意味理解サーバの数は概略的なものに過ぎないことを理解されたい。実施のニーズに応じて、任意の数のマイク、コントローラ、音声認識サーバ、意味理解サーバを有することができる。

図２を参照すると、本開示に係る音声を認識するための方法の一実施形態のフローチャート２００が示されている。この音声を認識するための方法は、以下のステップ（ステップ２０１〜２０６）を含む。

ステップ２０１：音声フレームが検出されたことに応答して、リアルタイムで音声フレームを現在のテキストに変換する。

本実施形態では、音声を認識するための方法の実行主体(例えば、図１に示すコントローラ)は、有線接続方式または無線接続方式によりマイクから連続した音声フレームをリアルタイムで取得することができる。音声フレームが取得される度に、音声フレームの平均エネルギーが計算される。平均エネルギーの計算方法は、従来技術を使用することができるので、これ以上説明しない。平均エネルギーが予め設定されたスタートポイント閾値よりも大きい第１の音声フレームが検出されたことに応答して、リアルタイムで第１の音声フレームおよび第１の音声フレームの後の音声フレームを、ＡＳＲ(ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ)技術によって現在のテキストに変換する。

ステップ２０２：以前に保存されていた履歴テキストが存在しない場合、現在のテキストを意味解析モデルに入力し、解析結果を取得する。

本実施形態では、前回の音声認識後に解析に失敗した場合、音声認識結果を履歴テキストとして保存する。前回の認識に成功した場合、履歴テキストはない。履歴テキストがない場合、現在認識されている現在のテキストを意味解析モデルに直接入力する。このモデルは、「○○を聴きたい」、「○○までナビゲートする」といったユーザの意図を判断・解析するために用いられ、対応する意図のスロットを解析することができる。モデルは通常のシーンをカバーし、車両制御命令、ナビゲーション命令、音楽命令、電話命令などを含む。意味解析モデルは、スロット埋込み(ＳｌｏｔＦｉｌｌｉｎｇ)技術によって実施される。スロット埋込み技術とは、ユーザの意図をユーザの明確な命令に変換するために情報を補完する過程である。現在のスロット認識方法には主に知識に基づくスロット認識とモデルに基づくスロット認識の２つの方法がある。

(１)知識に基づくスロット認識方法では、マニュアルで構築した知識ベースを用いて、一定のルールマッチングによりスロット認識を行う。

(２)モデルに基づくスロット認識方法では、スロット埋込み問題をシーケンスアノテーション問題に変換し、統計的機械学習モデルを用いてスロット認識を行う。

ステップ２０３：解析結果が有効な意図のスロットを含む場合、音声エンドポイントの検出を終了して認識を完了する。

本実施形態では、通常のシーンは、「○○を聴きたい」、「○○までナビゲートする」など、対応する構文を備えている。意味解析モデルからこれらのシーンの特徴語にマッチした場合、エンドポイント検出の認識最適化を行い、エンドポイント認識を予定より早く終了することができる。百科事典のような他のシーンは、これに該当しない。

ここでは音声区間検出技術に係わる。音声区間検出技術とは、人間が発話を開始してから発話を終了するまでの音声をノイズ環境において検出すること、すなわち人間の話した文のスタートポイントとエンドポイントを検出することである。毎回の音声認識の流れでは、音声認識エンジンが処理を開始する前に、音声区間検出技術により音声データを分割する必要がある。音声フレームが取得される度に、当該音声フレームの平均エネルギーが計算される。その後、当該音声フレームの平均エネルギーが予め設定されたスタートポイント閾値と比較される。当該音声フレームの平均エネルギーが予め設定されたスタートポイント閾値よりも大きい場合、当該音声フレームは認識すべき音声の開始フレームであるとみなされる。

本出願の技術的解決手段では、開始フレームとそれ以降の音声フレームをリアルタイムで認識し、音声認識の中間認識結果を取得することで、意味が完全であればユーザが命令を言い終えたと考え、ユーザが言い終わったかどうかを判断するためにエネルギーを検出する必要はない。もうしばらく沈黙期間を待つことなく、認識結果を返すことができる。一方、従来技術では、エンドポイントが検出されてから、スタートポイントからエンドポイントまでの音声を合わせて認識する必要がある。

ステップ２０４：有効な意図のスロットに対応する命令を出力し、履歴テキストを空にする。

本実施形態では、ユーザが入力した話し言葉を機械が実行可能な命令に変換し、対応する実行モジュールに出力して実行することができる。例えば、ユーザが「『私と私の祖国』を聴きたい」と言うと、「『私と私の祖国』という曲を再生する」という命令に変換し、マルチメディアモジュールに出力して実行させる。履歴テキストに基づく解析である場合、解析成功後に履歴テキストを空にする必要がある。

ステップ２０５：以前に保存されていた履歴テキストが存在する場合、現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得する。

本実施形態では、以前に保存されていた履歴テキストが存在する場合、前回にユーザの意図の解析に成功しなかったことを意味する。前回にユーザは言い終わっていないか、ポーズがあった可能性がある。現在受信している音声は前回に受信したものの補足である。そのため、現在のテキストと履歴テキストとを合わせて意味解析モデルに入力し、新しい解析結果を取得する必要がある。現在のテキストと履歴テキストとをスプライシングする。スプライシングに成功した場合、スプライシングされた現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得する。スプライシングに失敗した場合、履歴テキストを現在のテキストにリセットし、現在のテキストのみを意味解析モデルに入力する。

例えば、履歴テキストが「行きたい」であり、現在のテキストが「朝陽大悦城」である場合、両者をスプライシングすると、「朝陽大悦城に行きたい」となり得る。これを意味解析モデルに入力し、「朝陽大悦城までナビゲートしてほしい」というユーザの意図を認識することができる。一方、履歴テキストが「行きたい」であり、現在のテキストが「聴きたい」である場合、履歴テキスト「行きたい」を捨て、履歴テキストを「聴きたい」にリセットする。

現在のテキストで有効な意図のスロットが解析できる場合、解析結果を直接取得し、履歴テキストを空にする。

ステップ２０６：解析結果に有効な意図のスロットが含まれない場合、現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させる。

本実施形態では、ユーザが完全に言い終わっていなく、有効な意図のスロットが解析できない場合、認識された現在のテキストを履歴テキストとして保存することができる。新しい音声フレームを引き続き検出し、音声エンドポイントを自動的に遅延させる。パワーとタイムアウトに基づいてエンドポイントを確定することではない。

図３を参照すると、図３は、本実施形態に係る音声を認識するための方法の適用シーンの概略図である。図３の適用シーンでは、電話を入れることを制御する音声対話中に、ユーザが「打…（「電話を掛ける」における「掛ける」に相当する）」と言ったときに、音声フレームの平均エネルギーが計算され、該音声フレームの平均エネルギーが予め設定されたスタートポイント閾値よりも大きいことが検出されると、これを第１の音声フレームとする。第１の音声フレームと第１の音声フレーム以降の音声フレームを連続して音声認識し、現在のテキストを取得し、現在のテキストを意味解析モデルに入力し、解析結果を取得する。もし、ユーザが発話中に特定の語「打電話給…（「…に電話を掛ける」に相当する）」と発話してポーズをとった場合、有効な意図のスロットが解析できない。そこで、現在のテキスト「打電話給…」を履歴テキストとして保存し、ユーザが音声を入力し続けるのを待つ。そして、新しい音声フレームから「父親（「お父さん」に相当する）」を認識すると、履歴テキスト「打電話給…」と現在のテキスト「父親」をスプライシングした後、意味解析モデルに入力し、解析結果を取得する。それには有効な意図のスロットが含まれるため、音声認識を終了し、「打電話給父親（「お父さんに電話を掛ける」に相当する）」という命令をダイヤルモジュールに出力する。

さらに図４を参照すると、音声を認識するための方法の別の実施形態の流れ４００が示されている。音声を認識するための方法の流れ４００は、以下のステップ（ステップ４０１〜４０８）を含む。

ステップ４０１：音声フレームが検出されたことに応答して、リアルタイムで音声フレームを現在のテキストに変換する。

ステップ４０１はステップ２０１と実質的に同じであるので、これ以上説明しない。

ステップ４０２：現在のテキストとキャッシュ命令対応関係テーブルとをマッチングする。

本実施形態では、キャッシュ命令とテキストとの対応関係を予め記憶しておくことができる。キャッシュ命令は、取得された意味解析の結果が一定の結果である場合に限ってキャッシュすることができ、「…までナビゲートしてほしい」というような動的結果である場合、キャッシュすることができない。キャッシュ命令としては、例えば「その車のドアを開けてほしい」など、一般化された命令をキャッシュすることができる。予め記憶されているキャッシュ命令のほかに、使用中においても、認識解析された命令をキャッシュ命令として随時記憶することができる。

ステップ４０３：マッチングに成功した場合、現在のテキストにマッチしたキャッシュ命令を出力する。

本実施形態では、音声を受信してテキストに変換した後、このテキストとキャッシュ命令対応関係テーブルとを直接マッチングする。テキストに対応するキャッシュ命令が見つかれば、意味解析モデルに再入力して解析を行う必要がない。エンドポイントの検出を予定より早く終了し、繰り上げて命令を返す。

ステップ４０４：マッチングに失敗し、かつ以前に保存されていた履歴テキストが存在しない場合、現在のテキストを意味解析モデルに入力し、解析結果を取得する。

ステップ４０５：解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了する。

ステップ４０６：有効な意図のスロットに対応する命令を出力し、履歴テキストを空にする。

ステップ４０７：以前に保存されていた履歴テキストが存在する場合、現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得する。

ステップ４０８：解析結果には有効な意図のスロットが含まれない場合、現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させる。

ステップ４０４〜ステップ４０８は、ステップ２０２〜２０６と実質的に同じであるので、これ以上説明しない。

図４から分かるように、図２の対応する実施形態と比較して、本実施形態における音声を認識するための方法の流れ４００は、例えば、「運転席の窓を開く」というような「非動的な（非ダイナミックな）結果」すなわち意味解析の結果が固定される結果の最適化プロセスを具体化しており、エンドポイントの検出をより早く終了でき、反応速度を向上させることができる。

さらに図５を参照すると、上述した各図に示す方法の実施形態として、本開示は、様々な電子機器に具体的に適用可能な、図２に示す方法の実施形態に対応する音声を認識するための装置の一実施形態を提供する。

図５に示すように、本実施形態に係る音声を認識するための装置５００は、音声フレームが検出されたことに応答して、リアルタイムで音声フレームを現在のテキストに変換するように構成された変換ユニット５０１と、以前に保存されていた履歴テキストが存在しない場合、現在のテキストを意味解析モデルに入力し、解析結果を取得するように構成された解析ユニット５０２と、解析結果には有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するように構成された判断ユニット５０３と、有効な意図のスロットに対応する命令を出力する出力ユニット５０４とを備える。

本実施形態では、音声を認識する装置５００の変換ユニット５０１、解析ユニット５０２、判断ユニット５０３、出力ユニット５０４の具体的な処理は、図２の対応する実施形態のステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４を参照することができる。

本実施形態のいくつかのオプションの実施形態では、装置５００は、解析結果には有効な意図のスロットが含まれない場合、現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるように構成されたスプライシングユニット(図示せず)をさらに含む。

本実施形態のいくつかのオプションの実施形態では、スプライシングユニットはさらに、以前に保存されていた履歴テキストが存在する場合、現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得し、新しい解析結果には有効な意図のスロットが含まれない場合、現在のテキストを履歴テキスとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させ、新しい解析結果には有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている。

本実施形態のいくつかのオプションの実施形態では、スプライシングユニットはさらに、現在のテキストと履歴テキストとをスプライシングし、スプライシングに成功した場合、スプライシング後の現在のテキストと履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するように構成されている。

本実施形態のいくつかのオプションの実施形態では、スプライシングユニットはさらに、スプライシングに失敗した場合、履歴テキストを現在のテキストにリセットし、現在のテキストのみを意味解析モデルに入力するように構成されている。

本実施形態のいくつかのオプションの実施形態では、装置５００は、解析結果には有効な意図のスロットが含まれるとともに一定の結果である場合、解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、解析すべきテキストが取得されたことに応答して、解析すべきテキストと対応関係テーブルとをマッチングし、マッチングに成功した場合、意味解析モデルを介さずに、解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニット(図示せず)をさらに含む。

次に図６を参照すると、本開示の実施形態の実施に適した電子機器(例えば、図１のコントローラ)６００の構成概略図が示されている。図６に示すコントローラは一例に過ぎず、本開示の実施形態の機能および使用範囲にいかなる制限も与えるべきではない。

図６に示すように、電子機器６００は、読み取り専用メモリ(ＲОＭ)６０２に記憶されているプログラム、または記憶装置６０８からランダムアクセスメモリ(ＲＡＭ)６０３にロードされたプログラムに応じて様々な適切な動作および処理を実行する処理装置(例えば、ＣＰＵ、グラフィックスプロセッサなど)６０１を含むことができる。ＲＡＭ６０３には、電子機器６００の動作に必要な各種のプログラムおよびデータも記憶されている。処理装置６０１、ＲОＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。バス６０４には、入出力(Ｉ／Ｏ)インタフェース６０５も接続されている。

一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどの入力装置６０６、液晶ディスプレイ(ＬＣＤ)、スピーカ、振動子などの出力装置６０７、テープ、ハードディスクなどの記憶装置６０８、および通信装置６０９は、Ｉ／Ｏインタフェース６０５に接続することができる。通信装置６０９は、データを交換するために、電子機器６００が他の装置と無線または有線通信を行うことを可能にすることができる。図６は、様々な装置を有する電子機器６００を示しているが、図示した全ての装置を実施または備えることが要求されていないことを理解されたい。代替的に、より多くまたはより少ない装置を実施または備えることができる。図６に示す各ブロックは、１つの装置を表してもよく、必要に応じて複数の装置を表してもよい。

特に、本開示の実施形態によれば、フローチャートを参照して記述したプロセスは、コンピュータソフトウェアプログラムとして実施されることが可能である。例えば、本開示の実施形態は、フローチャートに示された方法を実行するためのプログラムコードを含む、コンピュータ可読媒体上に担持されたコンピュータプログラム製品を含む。このような実施形態では、コンピュータプログラムは、通信装置６０９を介してネットワークからダウンロードされインストールされたり、記憶装置６０８からインストールされたり、ＲОＭ６０２からインストールされたりすることができる。このコンピュータプログラムが処理装置６０１によって実行されると、本開示の実施形態の方法に限定された上記機能が実行される。なお、本開示の実施形態で説明したコンピュータ可読媒体は、コンピュータ可読信号媒体若しくはコンピュータ可読記憶媒体、または上記２つの任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置若しくはデバイス、または以上の任意の組み合わせであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例は、１本または複数本の導線で電気的に接続された、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(ＲＡＭ)、読み取り専用メモリ(ＲОＭ)、消去可能プログラマブル読取り専用メモリ(ＥＰＲОＭまたはフラッシュメモリ)、携帯型コンパクトディスク読取り専用メモリ(ＣＤ−ＲОＭ)、光記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限られない。本開示の実施形態では、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを含むまたは記憶する任意の有形の媒体であり得る。本開示の実施形態では、コンピュータ可読信号媒体は、ベースバンド内においてまたはキャリアの一部として伝播された、コンピュータ可読プログラムコードを搬送しているデータ信号を含んでもよい。このような伝播されたデータ信号は、電磁信号、光信号、または上述の任意の適切な組み合わせを含むが、これらに限られない様々な形態を採用することができる。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。このコンピュータ可読信号媒体は、命令実行システム、装置またはデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは、電線、光ケーブル、ＲＦ(無線周波数)など、または上記の任意の適切な組み合わせを含むが、これらに限られない任意の適切な媒体で伝送することができる。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、個別に存在しており、該電子機器に組み込まれていないものであってもよい。上述したコンピュータ可読媒体は、上述した１つまたは複数のプログラムが電子機器によって実行されると、音声フレームが検出されたことに応答して、リアルタイムで音声フレームを現在のテキストに変換し、以前に保存されていた履歴テキストが存在しない場合、現在のテキストを意味解析モデルに入力し、解析結果を取得し、解析結果には有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、有効な意図のスロットに対応する命令を出力する。

本出願の実施形態の動作を実行するためのコンピュータプログラムコードは、１つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語や、「Ｃ」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザのコンピュータ上で実行されることも、部分的にユーザのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、または完全にリモートコンピュータまたはサーバ上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができる。または、外部のコンピュータに接続されることができる（例えば、インターネットサービスプロバイダーによるインターネット経由で接続される）。

図面におけるフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法、およびコンピュータプログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック関数を実施するための１つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている２つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施することも、または専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。

本開示の実施形態において説明されたユニットは、ソフトウェアまたはハードウェアによって実施され得る。説明されたユニットはプロセッサに内蔵されてもよい。例えば、「変換ユニットと、解析ユニットと、判断ユニットと、出力ユニットとを含むプロセッサ」と説明することができる。なお、これらのユニットの名称は、場合によってはユニット自体を限定するものではない。例えば、変換ユニットについては、「音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するユニット」と説明することもできる。

上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴（それだけに限定されない）とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴（それだけに限定されない）とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項１：
音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するステップと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するステップと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するステップと、
前記有効な意図のスロットに対応する命令を出力するステップと
を含む、音声を認識するための方法。
請求項２：
前記方法は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップをさらに含む、請求項１に記載の方法。
請求項３：
前記方法は、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップと、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するステップと
をさらに含む、請求項２に記載の方法。
請求項４：
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
前記現在のテキストと前記履歴テキストとをスプライシングするステップと、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、を含む、請求項３に記載の方法。
請求項５：
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するステップと
を含む、請求項４に記載の方法。
請求項６：
前記方法は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶するステップと、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングするステップと、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すステップと
をさらに含む、請求項１〜５のいずれか一項に記載の方法。
請求項７：
音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するように構成された変換ユニットと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するように構成された解析ユニットと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するように構成された判断ユニットと、
前記有効な意図のスロットに対応する命令を出力するように構成された出力ユニットと
を含む、音声を認識するための装置。
請求項８：
前記装置は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるように構成されたスプライシングユニットをさらに含む、請求項７に記載の装置。
請求項９：
前記スプライシングユニットはさらに、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得し、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させ、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている、請求項８に記載の装置。
請求項１０：
前記スプライシングユニットはさらに、
前記現在のテキストと前記履歴テキストとをスプライシングし、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するように構成されている、請求項９に記載の装置。
請求項１１：
前記スプライシングユニットはさらに、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するように構成されている、請求項１０に記載の装置。
請求項１２：
前記装置は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングし、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニットをさらに含む、請求項７〜１１のいずれか一項に記載の装置。
請求項１３：
１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶する記憶装置と、を含む音声を認識するための電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサが請求項１〜６のいずれか一項に記載の方法を実施する、音声を認識するための電子機器。
請求項１４：
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜６のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。

Claims

音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するステップと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するステップと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するステップと、
前記有効な意図のスロットに対応する命令を出力するステップと
を含む、音声を認識するための方法。
前記方法は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップをさらに含む、請求項１に記載の方法。
前記方法は、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるステップと、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するステップと
をさらに含む、請求項２に記載の方法。
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
前記現在のテキストと前記履歴テキストとをスプライシングするステップと、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するステップと、を含む、請求項３に記載の方法。
前記現在のテキストと前記履歴テキストとを意味解析モデルに入力するステップは、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するステップと
を含む、請求項４に記載の方法。
前記方法は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶するステップと、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングするステップと、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すステップと
をさらに含む、請求項１〜５のいずれか一項に記載の方法。
音声フレームが検出されたことに応答して、リアルタイムで前記音声フレームを現在のテキストに変換するように構成された変換ユニットと、
以前に保存されていた履歴テキストが存在しない場合、前記現在のテキストを意味解析モデルに入力し、解析結果を取得するように構成された解析ユニットと、
前記解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了するように構成された判断ユニットと、
前記有効な意図のスロットに対応する命令を出力するように構成された出力ユニットと
を含む、音声を認識するための装置。
前記装置は、
解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストとして保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させるように構成されたスプライシングユニットをさらに含む、請求項７に記載の装置。
前記スプライシングユニットはさらに、
以前に保存されていた履歴テキストが存在する場合、前記現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得し、
新しい解析結果に有効な意図のスロットが含まれない場合、前記現在のテキストを履歴テキストに合併して保存し、新しい音声フレームを引き続き検出し、音声エンドポイントの検出時間を遅延させ、
新しい解析結果に有効な意図のスロットが含まれる場合、音声エンドポイントの検出を終了して認識を完了し、履歴テキストを空にし、有効な意図のスロットに対応する命令を出力するように構成されている、請求項８に記載の装置。
前記スプライシングユニットはさらに、
前記現在のテキストと前記履歴テキストとをスプライシングし、
スプライシングに成功した場合、スプライシング後の現在のテキストと前記履歴テキストとを意味解析モデルに入力し、新しい解析結果を取得するように構成されている、請求項９に記載の装置。
前記スプライシングユニットはさらに、
スプライシングに失敗した場合、前記履歴テキストを前記現在のテキストにリセットし、前記現在のテキストのみを意味解析モデルに入力するように構成されている、請求項１０に記載の装置。
前記装置は、
前記解析結果が有効な意図のスロットを含むとともに一定の結果である場合、前記解析結果をキャッシュ命令とし、キャッシュ命令と現在のテキストとの対応関係テーブルを記憶し、
解析すべきテキストが取得されたことに応答して、解析すべきテキストと前記対応関係テーブルとをマッチングし、
マッチングに成功した場合、意味解析モデルを介さずに、前記解析すべきテキストに対応するキャッシュ命令を直接返すように構成されたキャッシュユニットをさらに含む、請求項７〜１１のいずれか一項に記載の装置。
１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶する記憶装置と、を含む音声を認識するための電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサが請求項１〜６のいずれか一項に記載の方法を実施する、音声を認識するための電子機器。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜６のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。