JP2023520861A - 音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器 - Google Patents

音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器 Download PDF

Info

Publication number
JP2023520861A
JP2023520861A JP2022558093A JP2022558093A JP2023520861A JP 2023520861 A JP2023520861 A JP 2023520861A JP 2022558093 A JP2022558093 A JP 2022558093A JP 2022558093 A JP2022558093 A JP 2022558093A JP 2023520861 A JP2023520861 A JP 2023520861A
Authority
JP
Japan
Prior art keywords
recognition
channel
class
audio signal
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022558093A
Other languages
English (en)
Inventor
ティエン、チュアン
パン、フーピン
ニウ、ジェンウェイ
ユー、カイ
Original Assignee
深▲せん▼地平▲線▼机器人科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深▲せん▼地平▲線▼机器人科技有限公司 filed Critical 深▲せん▼地平▲線▼机器人科技有限公司
Publication of JP2023520861A publication Critical patent/JP2023520861A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器を開示する。【解決手段】当該方法は、少なくとも1チャネルのオーディオ信号を取得するステップと、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識して、第1クラスの認識結果を得るステップと、キャッシュから記憶された認識データを決定するステップと、記憶された認識データに基づいて、第2クラスの認識結果を生成するステップと、音声認識モデルを利用して、第1クラスの認識結果及び第2クラスの認識結果を処理して、前記少なくとも1チャネルのオーディオ信号に対応する少なくとも1つの語句認識結果を得るステップと、前記語句認識結果に対して語意解析を行って、少なくとも1つの解析結果を得るステップと、少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するステップと、を含む。本開示の実施例は、少なくとも1チャネルのオーディオ信号の処理効率を向上させ、マルチチャネル音声対話のシーンにおいても依然として低リソース消費や低処理遅延の要件を満たすことができるのに役立つ。【選択図】図2

Description

関連出願の相互参照
本願は、2021年3月16日に中国国家知的財産権局に提出された、出願番号が202110279812.4であり、発明の名称が「音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器」である中国特許出願の優先権を主張し、その内容の全ては援用により本願に組み込まれる。
本開示は、コンピュータ技術の分野に関し、特に、音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器に関する。
人工知能技術の継続的な進歩に伴い、ヒューマンコンピュータインタラクションも大きな進歩を遂げた。知能型音声対話技術は、自動車、ロボット、家電製品、中央制御システム、アクセス制御システム、ATM機などのさまざまな機器に適用できる。
例えば、車載音声対話シーンにおいて、音声対話システムは、1チャネルの音声信号しか受信しないことが一般的であり、当該音声信号を処理した後、ユーザにフィードバックする。人工知能技術の発展に伴い、音声対話システムは、より効率的で、知能的で、個性化される方向に発展している。
本開示の実施例は、音声対話(voice interaction)方法、装置、コンピュータ可読記憶媒体及び電子機器を提供する。
本開示の実施例は、音声対話方法を提供し、当該方法は、少なくとも1チャネルのオーディオ信号を取得するステップと、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、音声認識モデルにより第1クラスの認識結果を得るステップと、キャッシュから少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定するステップと、記憶された認識データに基づいて、第2クラスの認識結果を生成するステップと、音声認識モデルを利用して、第1クラスの認識結果及び第2クラスの認識結果を処理して、前記少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得るステップと、前記語句認識結果に対して語意解析を行って、少なくとも1つの解析結果を得るステップと、少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するステップと、を含む。
本開示の実施例の別の態様によれば、音声対話装置を提供し、当該装置は、少なくとも1チャネルのオーディオ信号を取得するための取得モジュールと、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、音声認識モデルにより第1クラスの認識結果を得るための認識モジュールと、キャッシュから少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定するための決定モジュールと、記憶された認識データに基づいて、第2クラスの認識結果を生成するための第1生成モジュールと、音声認識モデルを利用して、第1クラスの認識結果及び第2クラスの認識結果を処理して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得るための処理モジュールと、各語句認識結果に対して語意解析をそれぞれ行って、少なくとも1つの解析結果を得るための解析モジュールと、少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するための第2生成モジュールと、を含む。
本開示の実施例の別の態様によれば、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、上記の音声対話方法を実行するためのコンピュータプログラムが記憶されている。
本開示の実施例の別の態様によれば、電子機器を提供し、電子機器は、プロセッサーと、プロセッサーが実行可能な命令を記憶するためのメモリとを含み、プロセッサーは、上記の音声対話方法を実現するために、メモリから実行可能な命令を読み取って、命令を実行するために用いられる。
本開示は、上記の実施例にて提供される音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器を基に、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、認識中に、キャッシュから記憶された認識データを抽出して認識結果の一部を生成し、認識結果の他の一部は、音声認識モデルによって生成されることにより、記憶された認識データを効果的に再利用し、音声認識モデルで全量データを処理する必要がなく、少なくとも1チャネルのオーディオ信号の処理効率を向上させ、マルチチャネル音声対話のシーンにおいても依然として低リソース消費や低処理遅延の要件を満たすことができるのに役立つ。
以下、図面及び実施例により、本開示の技術的解決手段について詳細に説明する。
本開示の上記及び他の目的、特徴や利点は、本開示の実施例についての図面を併せてのより詳細な説明によって明らかになるであろう。図面は、本開示の実施例に対するさらなる理解を提供するために用いられるとともに、本明細書の一部を構成し、本開示の実施例と共に本開示を解釈するために用いられものであり、本開示を限定するものではない。図面において、同じ参照符号は一般的に同じ部材又はステップを示す。
本開示に適用されるシステムの図である。 本開示の例示的な一実施例にて提供される音声対話方法の概略フローチャートである。 本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。 本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。 本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。 本開示の別の例示的な実施例にて提供される音声対話方法の概略フローチャートである。 本開示の実施例による音声対話方法の適用シーンの概略図である。 本開示の例示的な一実施例にて提供される音声対話装置の概略構造図である。 本開示の別の例示的な実施例にて提供される音声対話装置の概略構造図である。 本開示の例示的な一実施例にて提供される電子機器の構造図である。
以下、添付図面を参照しながら、本開示の例示的な実施例について詳細に説明する。説明された実施例は、本開示のすべての実施例ではなく、本開示の一部の実施例に過ぎないことは明らかで、本開示は、本明細書に記載の例示的な実施例に限定されるものではないことを理解されたい。
なお、特に明記しない限り、これらの実施例に記載された部材及びステップの相対的な配置、数式及び値は本開示の範囲を限定するものではない。
当業者であれば、本開示の実施例における「第1」、「第2」などの用語は異なるステップ、機器又はモジュールなどを区別するために用いられるだけで、いかなる特定の技術的意味を表すものでもなく、それらの間の必然的な論理的順序を表すものでもないことを理解できる。
さらに、本開示の実施例において、「複数」とは、2つ又は2つ以上を意味し、「少なくとも1つ」とは、1つ、2つ又は2つ以上を意味することも理解されたい。
さらに、本開示の実施例に言及されるいずれか1つの部材、データ又は構造は、明確に限定されていないか又は文脈上逆の示唆が与えられない場合、一般的に、1つ又は複数であると理解できることも理解されたい。
また、本開示において、「及び/又は」という用語は、関連オブジェクトの関連関係を説明するためのものにすぎず、三種類の関係が存在することを表し、例えば、A及び/又はBは、Aが単独で存在する場合、AとBが同時に存在する場合、Bが単独で存在する場合の3つの場合を表すことができる。また、本開示において、符号「/」は、一般に、前後関連するオブジェクトが「又は」の関係であることを示す。
さらに、本開示の各実施例に対する説明は、各実施例間の相違点を強調し、その同じ又は類似の点は互いに参照することができ、簡潔にするために、詳細な説明を省略したことも理解されたい。
また、図面に示されている各部分の寸法は、説明の便宜上、実際の比例関係に従って描かれたものではないことを理解されたい。
以下、少なくとも1つの例示的な実施例に対する説明は、実際には例示的なものにすぎず、本開示及びその応用又は使用に対するいかなる限定ではない。
関連分野の一般技術者に知られている技術、方法及び機器について詳細に説明しないが、適切な場合、前記技術、方法及び機器は明細書の一部と見なされるべきである。
なお、以下の図面において、同様の符号及び文字は同様の項目を表しており、そのため、ある項目が、一度、ある図面において定義されると、それ以降の図面においては更なる説明を要しない。
本開示の実施例は、多くの他の汎用又は専用のコンピューティングシステム環境又は構成と一緒に操作できる端末機器、コンピュータシステム、サーバなどの電子機器に適用できる。端末機器、コンピュータシステム、サーバなどの電子機器と一緒に使用するのに適した周知の端末機器、コンピューティングシステム、環境及び/又は構成の例として、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド型又はラップトップ型機器、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び上記いずれか1つのシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末機器、コンピュータシステム、サーバなどの電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能な命令(プログラムモジュールなど)の一般的なコンテキストで記載されてもよい。一般に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実現するルーチン、プログラム、目標プログラム、コンポーネント、論理、データ構造などを含み得る。コンピュータシステム/サーバは分散型クラウドコンピューティング環境内で実施でき、分散型クラウドコンピューティング環境において、タスクは、通信ネットワークによってリンクされたリモート処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶機器を含むローカル又はリモートコンピューティングシステムの記憶媒体上に位置してもよい。
出願の概要
現在の音声対話技術は、通常、マルチチャネル音声信号の同時処理ができず、1チャネルの音声信号の同時処理のみができるため、マルチユーザ、個性化の音声認識要件を満たすことができなく、そのため、本開示の技術的解決手段では、音声対話技術を、マルチチャネル音声を認識するシーンに適用する必要がある。
現在、音声認識モデルは、音声信号に対して全量データの処理を行う必要があることにより、音声認識の効率が低く、対話の遅延が大きくなり、特に、マルチチャネル音声を認識するシーンで、マルチユーザの音声対話システムに対する高効率、個性化の要件を満たすことができない。
例示的なシステム
図1は、本開示の実施例による音声対話方法又は音声対話装置を適用できる例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末機器101、ネットワーク102及びサーバ103を含み得る。ネットワーク102は、端末機器101とサーバ103との間に通信リンクを提供するための媒体である。ここで、ネットワーク102は、例えば有線、無線通信リンク、または光ファイバーケーブルなどの様々な接続タイプを含むが、これらに限定されない。
ユーザは、端末機器101を使用してネットワーク102を介してサーバ103と対話して、メッセージなどの受送信ができる。端末機器101には、音声認識アプリケーション、マルチメディアアプリケーション、検索型アプリケーション、ウェブブラウザアプリケーション、ショッピング型アプリケーション、インスタントメッセンジャーなどの様々な通信クライアントアプリケーションがインストールされていてもよい。
端末機器101は、電子機器であってもよく、当該電子機器は、車載端末、携帯電話、ノートパーソコン、デジタル放送受信機、PDA(Personal Digital Assistant、携帯情報端末)、PAD(タブレットコンピュータ)、PMP(Portable Media Player、ポータブルマルチメディアプレーヤー)などのモバイル端末、及びデジタルTV、デスクトップ型コンピュータ、スマート家電などの固定端末などを含むが、これらに限定されない。
サーバ103は、端末機器101からアップロードされたオーディオ信号を認識するバックグラウンド音声認識サーバなどの様々なサービス機能を提供できる機器であってもよい。当該バックグラウンド音声認識サーバは、受信したオーディオを処理して、音声対話機器を制御するための命令を取得し、当該命令を端末機器101にフィードバックすることができる。
なお、本開示の実施例にて提供される音声対話方法は、サーバ103によって実行されてもよいし、端末機器101によって実行されてもよく、対応して、音声対話装置は、サーバ103に設置されてもよいし、端末機器101に設置されてもよい。
図1における端末機器101、ネットワーク102及びサーバ103の数は例示にすぎないことを理解されたい。実装の要件に応じて、任意の数の端末機器、ネットワーク及び/又はサーバを配置でき、本願は、これに対して限定しない。また、オーディオ信号をリモートから取得する必要がない場合、上記システムアーキテクチャは、ネットワーク102を含まず、サーバ又は端末機器のみを含んでもよい。例えば、端末機器101とサーバ103とが有線の方法で接続されている場合、前記ネットワーク102は省略されてもよい。
例示的な方法
図2は、本開示の例示的な一実施例にて提供される音声対話方法の概略フローチャートである。本実施例の方法は、電子機器(図1に示す端末機器101又はサーバ103)に適用できる。図2に示すように、当該方法は、以下のようなステップを含む。
ステップ201で、少なくとも1チャネルのオーディオ信号を取得する。
本実施例において、電子機器は、ローカルから又はリモートから少なくとも1チャネルのオーディオ信号を取得できる。例示として、本実施例が車載の音声認識シーンに適用される場合、上記の少なくとも1チャネルのオーディオ信号は、車両に搭載された少なくとも1つのマイクロフォンによって収集された、車内の少なくとも1つの乗客の音声信号であり得る。
ステップ202で、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、音声認識モデルにより第1クラスの認識結果を得る。
本実施例において、電子機器は、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識でき、認識中に、当該プリセットの音声認識モデルによって第1クラスの認識結果を得る。ここで、当該プリセットの音声認識モデルは、事前に大量の音声信号サンプルを利用して訓練して得たモデルであってもよい。当該プリセットの音声認識モデルは、入力された少なくとも1チャネルのオーディオ信号を認識して、少なくとも1つの語句認識結果を得るために用いられる。
通常、プリセットの音声認識モデルは、複数のサブモデルを含んでもよく、例えば、音声学サブモデル、言語サブモデル、復号ネットワークサブモデルなどを含む。さらに、音声学サブモデルは、オーディオ信号に対して音節分割を行うために用いられ、言語サブモデルは、各音節を単語に変換するために用いられ、復号ネットワークサブモデルは、複数の単語から最適な組合せを選択してセンテンスを得るために用いられる。
上記のステップ202で、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識する過程において、電子機器は、通常、先に、キャッシュから現在の処理段階に対応する認識データが存在するか否かを検索し、対応する認識データがキャッシュに存在しないと、上記のステップ202を実行し、認識データを取得し、当該認識データを第1クラスの認識結果とする。
ステップ203で、キャッシュから記憶された少なくとも1チャネルのオーディオ信号に関する認識データを決定する。
本実施例において、電子機器は、キャッシュから少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定できる。通常、上記の音声認識モデルの認識過程に、電子機器は、通常、先に、キャッシュから現在の処理段階に対応する認識データが存在するか否かを検索し、はいであれば、当該認識データを抽出する。
ステップ204で、記憶された認識データに基づいて、第2クラスの認識結果を生成する。
本実施例において、電子機器は、上記のステップ203で抽出された記憶された認識データに基づいて、第2クラスの認識結果を生成できる。例示として、上記の記憶された認識データを第2クラスの認識結果としてもよいし、上記の記憶された認識データを一定に処理した後、第2クラスの認識結果を得てもよく、ここで、前記一定の処理過程には、認識データに対する一定比例のスケーリング、正規化処理などが含まれる。
なお、上記の第1クラスの認識結果及び第2クラスの認識結果は、通常、例えば音節の確率スコア、単語の確率スコアなどの音声認識モデル処理中に得られる中間結果である。
ステップ205で、音声認識モデルを利用して、第1クラスの認識結果及び第2クラスの認識結果を処理して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得る。
本実施例において、電子機器は、音声認識モデルを利用して、第1クラスの認識結果及び第2クラスの認識結果を処理して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得ることができる。通常、第1クラスの認識結果及び第2クラスの認識結果がいずれも音声認識モデルの処理によって得られる中間結果であるため、当該音声認識モデルを利用して上記の第1クラスの認識結果及び第2クラスの認識結果を一層処理する必要がある。
一例示として、上記の第1クラスの認識結果及び第2クラスの認識結果は、オーディオ信号を認識して得られる各音節の確率スコア及び各単語の確率スコアを含んでもよく、音声認識モデルは、1つのオーディオ信号に対して、パス検索アルゴリズム(例えばViterbiアルゴリズム)を利用して、オーディオ信号に対応する認識された複数の単語から1つの最適なパス(path)を決定し、当該最適なパスに応じてセンテンスを取得して語句認識結果とすることができる。ここで、1チャネルのオーディオ信号は、1つの語句認識結果に対応でき、すると、マルチチャネルオーディオ信号はマルチチャネル語句認識結果に対応する。
ステップ206で、各語句認識結果に対して語意解析をそれぞれ行って、少なくとも1つの解析結果を得る。
本実施例において、電子機器は、少なくとも1つの語句認識結果における各結果に対して語意解析を行って、少なくとも1つの解析結果を得ることができる。ここで、上記の少なくとも1つの解析結果における各解析結果は1つのオーディオ信号に対応する。ここで、上記の少なくとも1つの解析結果は構造化されたデータであり得る。例えば、語句認識結果が「エアコンの温度を25度に設定する」ということである場合、対応する解析結果は、「ドメイン=車の制御、意図=エアコンの温度設定、スロット位置=<温度値=25>」である。
なお、語句認識結果に対する語意解析の方法として、例えばルールエンジン、ニューラルネットワークエンジンなどの方法を採用できる。
ステップ207で、少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成する。
本実施例において、電子機器は、少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成することができる。ここで、上記の音声対話機器は、本開示の音声対話方法を実行するための上記の電子機器であってもよいし、上記の電子機器に通信可能に接続される電子機器であってもよい。例示として、音声対話機器が車載エアコンである場合、解析結果が「ドメイン=車の制御、意図=エアコンの温度設定、スロット位置=<温度値=25>」であると、車載エアコンを所定のプリセット温度に設定するように制御するための命令を生成することができ、前記所定のプリセット温度は25℃である。
本開示の実施例にて提供される方法は、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、認識中に、キャッシュから記憶された認識データを抽出して認識結果の一部を生成し、認識結果の他の一部は音声認識モデルによって生成されることにより、記憶された認識データを効果的に再利用し、音声認識モデルで全量データを処理する必要がなく、さらに、少なくとも1チャネルのオーディオ信号に対する処理効率を向上させ、マルチチャネル音声対話のシーンにおいて、電子機器に対する低リソース消費、低処理遅延の要件を満たす。
一部の選択可能な実施形態において、上記の電子機器は、プリセットの音声認識モデルの認識過程に得た認識データをキャッシュに記憶することもできる。具体的には、ある認識ステップに対応する認識データが上記のキャッシュに存在しない場合、音声認識モデルが当該認識ステップを実行して、得られた認識データをキャッシュに記憶する必要があり、それにより、後での当該認識データの再利用が容易になる。
本実施形態は、音声認識モデルの認識過程に得た認識データをキャッシュに記憶することにより、認識データの再利用を実現でき、キャッシュにおける認識データを更新し続ける。また、モデルの認識過程に、より多くの記憶された認識データを使用することにより、音声認識の効率を一層向上させた。
一部の選択可能な実施形態において、上記のステップ201の具体的な実行プロセスは下記のとおりである。
まず、オーディオ収集装置によって収集された初期オーディオ信号を受信する。
ここで、前記オーディオ収集装置の数は、1つであっても、複数であってもよく、少なくとも1チャネルの初期オーディオ信号を収集するために用いられる。上記の初期オーディオ信号は、オーディオ収集装置が少なくとも1つのユーザの音声を収集して得る信号であってもよい。例えば、複数のオーディオ収集装置を備え、かつ、各オーディオ収集装置は、車両内の各座席の周囲に取り付けられ、各オーディオ収集装置は、対応する座席の乗客の音声を収集するために用いられ、このとき、収集されたオーディオ信号には、通常、複数のユーザの混合音声信号が含まれる。
次に、初期オーディオ信号に対して音源分離処理を行って、少なくとも1チャネルのオーディオ信号を得る。
ここで、上記の音源分離処理方法として、既存の技術を採用してもよく、例えばブラインド信号源分離(Blind Source Separation、BSS)アルゴリズムを採用して、複数のユーザの音声信号を分離して、得られた各々チャネルのオーディオ信号は、それぞれ1人のユーザに対応する。車載音声対話のシーンにおいて、音源分離処理により、さらに、得られた各々チャネルのオーディオ信号を該当するオーディオ収集装置に対応させることができ、各オーディオ収集装置が該当する座席の近傍に取り付けられているため、得られた各々チャネルのオーディオ信号を該当する座席に対応させることができる。音源分離技術により、複数のユーザの音声信号を分離するとともに、異なるオーディオ収集装置と1対1の対応関係を確立させることを実現でき、具体的な実現プロセスは、従来の技術方法を参照でき、本実施例では詳細な説明を省略する。
本実施形態は、初期オーディオ信号に対する音源分離により、複数のユーザの音声を分離することができ、それにより、後の各音声認識結果を該当するユーザに対応させるため、複数のユーザ音声対話の正確性を向上させた。
一部の選択可能な実施形態において、図3に示すように、ステップ202は、下記のようなサブステップを含み得る。
ステップ2021で、各々チャネルのオーディオ信号にそれぞれ対応する音声認識インスタンス(実例)を決定する。
ここで、音声認識インスタンスは、コードによって構築されてもよく、各々の音声認識インスタンスは1チャネルのオーディオ信号に対応し、各々の音声認識インスタンスは、対応する1チャネルのオーディオ信号の認識のために用いられる。
ステップ2022で、決定された各音声認識インスタンスを並行に実行する。
例示として、マルチスレッド方法を採用して各音声認識インスタンスの並行実行を実現できるか、又は、各音声認識インスタンスをそれぞれ異なるCPUで実行して、並行実行を実現することもできる。
ステップ2023で、各音声認識インスタンスが、それぞれ前記プリセットの音声認識モデルを利用することによって、対応するオーディオ信号を認識する。
具体的には、各音声認識インスタンスは、上記のプリセットの音声認識モデルを並行に又は個別に呼び出して、該当する音声信号を認識することができ、それにより、オーディオ信号の並行認識を実現した。通常、少なくとも1チャネルのオーディオ信号を認識する際に、先に、プリセットの音声認識モデルをメモリにロードしておき、各音声認識インスタンスが当該プリセットの音声認識モデルを共有することができる。なお、各音声認識インスタンスを利用してオーディオ信号を認識するとき、上記のキャッシュを共同使用してもよいため、各音声認識インスタンスに対する認識効率を向上させる。
本実施形態は、各々のオーディオ信号に対応する音声認識インスタンスを構築すること、及び、各音声認識インスタンスを並行に実行することにより、複数のユーザの音声を同時に認識することを実現でき、また、各音声認識インスタンスは、1つの音声認識モデルを共同使用して音声信号を認識すること、及び、同じキャッシュを共同使用して認識データの記憶及び呼び出しを行うことにより、少なくとも1チャネルのオーディオ信号の音声認識を並行で行うこと、及び認識に必要なリソースを共有することを実現し、マルチユーザ音声対話シーンでの音声認識効率を向上させ、認識済みのデータが共同使用されるキャッシュに記憶されているため、後の認識過程に記憶済みの認識データを、繰り返して認識することを必要とせずに直接呼び出せばよく、さらに、メモリリソースを大幅に節約する。
一部の選択可能な実施形態において、図4に示すように、ステップ206は、下記のようなサブステップを含み得る。
ステップ2061で、得られた各語句認識結果にそれぞれ対応する語意解析インスタンス(実例)を決定する。
ここで、語意解析インスタンスは、コードによって構築されてもよく、各々の語意解析インスタンスは、1チャネルのオーディオ信号の1つの語句認識結果に対応し、語意解析インスタンスは、語句認識結果に対する構造化解析のために用いられる。
ステップ2062で、決定された各語意解析インスタンスを並行に実行する。
例示として、マルチスレッド方法を採用して各語意解析インスタンスの並行実行を実現できるか、又は、各語意解析インスタンスをそれぞれ異なるCPUで実行して、並行実行を実現することもできる。
ステップ2063で、各語意解析インスタンスにより、対応する語句認識結果に対して語意解析をそれぞれ行う。
具体的には、各語意解析インスタンスが事前に設置されたルールエンジン、ニューラルネットワークエンジンなどのモジュールを並行に呼び出して、語句認識結果に対する並行解析を実現することができる。
本実施形態は、各々の語句認識結果に対応する語意解析インスタンスを構築すること、及び、各語意解析インスタンスを並行に実行することにより、複数のユーザの音声に対する認識及び解析を同時に行うことを実現し、それにより、音声対話を同時に行えるリンクを複数構築し、そして、各語意解析インスタンスは1つの語意リソースセットを共同使用することにより、マルチユーザ音声対話シーンでの音声認識効率も向上させる。
さらに、図5を参照すると、音声対話方法の又一つの実施例の概略フローチャートを示し、本実施例において、図5に示すように、上記の図2に示す実施例に加え、ステップ202は、下記のステップを含み得る。
ステップ2024で、音声認識モデルに含まれている音声学サブモデルを利用して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する音節集合及び音節集合内の音節にそれぞれ対応する第1確率スコアを決定する。
ここで、音声学サブモデルは、入力されたオーディオ信号の音節分割のために用いられる。例示として、音声学サブモデルは、隠れマルコフモデル(HMM、Hidden Markov Model)、混合ガウスモデル(GMM、Gaussian Mixture Model)などを含み得るが、これらに限定されない。前記第1確率スコアは、音節が正確に分割される確率を特徴付けるために用いられる。
ステップ2025で、音声認識モデルに含まれている言語サブモデルを利用して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する単語集合を決定する。
ここで、言語サブモデルは、上記の音節集合に応じて単語集合を決定するために用いられ、例示として、言語サブモデルは、n-gram言語モデル、ニューラルネットワーク言語モデルなどを含み得るが、これらに限定されない。
ステップ2026で、単語集合内の単語に対して、当該単語に対応する第2確率スコアがキャッシュに存在するか否かを決定する。
存在しないと、前記言語サブモデルを利用して当該単語に対応する第2確率スコアを決定する。ここで、当該第2確率スコアは、認識された単語が現れる確率を特徴付けるために用いられる。例えば、「つける」の後に「エアコン」が現れる確率をコンピューティングすると、単語「エアコン」に対応する第2確率スコアになる。
ある単語の確率スコアを決定する必要のあるとき、電子機器は、まず、キャッシュから現在の単語の第2確率スコアが存在するか否かを検索し、存在しないと、言語サブモデルを使用して当該単語の第2確率スコアをコンピューティングする。本実施例において、言語サブモデルのデータ処理量が大きいため、処理コストを節約するために、キャッシュを使用して前記言語サブモデルによって生成される第2確率スコアを事前に記憶しておき、さらに、使用時に直接当該キャッシュから前記第2確率スコアを取得することができる。
ステップ2027で、第1確率スコア及び言語サブモデルによって決定された第2確率スコアに基づいて、第1クラスの認識結果を決定する。
例示として、各第1確率スコアおよび各第2確率スコアを第1クラスの認識結果として決定することができる。
言語サブモデルのデータ処理量が大きいため、上記の図5に対応する実施例にて提供される方法は、キャッシュが言語サブモデルによって生成される第2確率スコアを記憶するために専用されることにより、キャッシュはよりまとを絞って役割を果たし、即ち、データ処理量が大きく、頻繁なデータアクセスを伴うプロセスに的を絞ってキャッシュを適用し、キャッシュを使用して演算リソースを節約する役割を十分に果たし、キャッシュ内の冗長データが少なくなり、音声認識の効率を向上させる。
さらに、図6を参照すると、音声対話方法の又の実施例の概略フローチャートを示し、本実施例において、図6に示すように、上記の図5に示す実施例に加え、ステップ203は、さらに、下記のようなステップを含み得る。
ステップ2031で、単語集合内の単語に対して、当該単語に対応する第2確率スコアがキャッシュに存在するか否かを決定する。
存在すると、キャッシュ内の第2確率スコアを当該単語の第2確率スコア言語サブモデルとして決定する。
例示として、「つける」の後に「エアコン」が現れる確率をコンピューティングする必要がある場合、コンピューティングの前に、先に、キャッシュからコンピューティングした「エアコン」に対応する第2確率スコアを前に記憶しておいたか否かを検索し、記憶されていると、直接キャッシュから取り出して使用することができ、それにより、繰り返してコンピューティングすることを避ける。記憶されていないと、直接キャッシュから取り出して使用することができず、再度コンピューティングする必要がある。
ステップ2032で、第1確率スコア及びキャッシュから決定した第2確率スコアに基づいて、第2クラスの認識結果を決定する。
例示として、各第1確率スコア及びキャッシュから決定した第2確率スコアを第2クラスの認識結果として決定することができる。
上記の図6に対応する実施例にて提供される方法は、単語に対応する第2確率スコアを決定するとき、先に、キャッシュから第2確率スコアを検索し、検索された第2確率スコアを単語の第2確率スコアとして決定することにより、より的を絞って言語サブモデルの演算量を低下させ、かつ、言語サブモデルの認識過程に占有されるメモリリソースも少なくなり、音声認識の効率を一層向上させる。
一部の選択可能な実施形態において、上記の図5又は図6に対応する実施例に基づいて、上記のステップ205は、下記のように実行され得る。
まず、第1クラスの認識結果及び第2クラスの認識結果にそれぞれ含まれる第1確率スコア及び第2確率スコアにしたがって、音声認識モデルに含まれる復号ネットワーク内で単語集合の目標パス(path)を決定する。
ここで、復号ネットワークは、上記の単語集合に基づいて構築したネットワークであり、当該ネットワークに基づいて、第1確率スコア及び第2確率スコアにしたがって、ネットワーク内で単語の組み合わせの最適なパスを検索し、当該パスが目標パスである。
なお、音節に対応する確率スコア及び単語に対応する確率スコアにしたがって、最適なパスを決定する方法は、従来の技術であり、ここでは詳細な説明を省略する。
その後、当該目標パスに基づいて、少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を生成する。
具体的には、目標パスに対応する単語を組み合わせてできたセンテンスを語句認識結果として決定できる。
本実施形態は、第1確率スコア及び言語サブモデルコンピューティングを利用して得られた第2確率スコア、並びに、キャッシュから抽出された第2確率スコアにより、復号ネットワーク内で目標パスを検索して、語句認識結果を生成し、復号時にキャッシュ内の記憶された第2確率スコアを十分に利用することを実現して、語句認識結果を生成する効率を向上させる。
図7に示すように、本実施例の音声対話方法の適用シーンの概略図を示す。図7の適用シーンにおいて、音声対話方法は車載音声対話システムに適用される。
図7に示すように、マルチチャネルオーディオ信号は、それぞれ、運転席対話チェーン701、助手席対話チェーン702及び他の対話チェーン703に含まれる1つの対話チェーンに対応する。ここで、運転席対話チェーン701は、ドライバが車載音声対話システムと対話するために用いられ、助手席対話チェーン702は、助手席の位置の乗客が車載音声対話システムと対話するために用いられ、他の対話チェーン703は、他の座席の乗客が車載音声対話システムと対話するために用いられる。
また、復号リソース704は、音声認識モデル7041及びキャッシュ7042を含み、語意リソース705は、語句認識結果を解析するためのルールエンジン7051と、ニューラルネットワークエンジン7052とを含む。図7から分かるように、運転席対話チェーン701において、電子機器は、運転席の音声信号に対して音声認識インスタンスAを生成し、助手席の音声に対して音声認識インスタンスBを生成し、各音声認識インスタンスは1つの復号リソース704セットを共同使用し、かつ、並行に実行して、語句認識結果C及び語句認識結果Dを得る。
その後、電子機器は、語意インスタンスE及び語意インスタンスFを構築し、語意インスタンスE及び語意インスタンスFは、1つの語意リソースセットを共同使用し、語句認識結果C及び語句認識結果Dをそれぞれ解析して、構造化の解析結果G及び解析結果Hを得る。
またその後、電子機器は、解析結果G及び解析結果Hに基づいて命令I、命令Jなどを生成し、例えば、命令Iは、エアコンをつけるために用いられ、命令Jは、車の窓を閉じるために用いられる。車載音声対話機器は、当該命令I及び命令Jに基づいて、対応する機能K及び機能Hを実行する。同様に、他の対話チェーン703の実行プロセスは、上記の運転席対話チェーン701及び助手席対話チェーン702と類似するため、ここでは、詳細な説明を省略する。
例示的な装置
図8は、本開示の例示的な一実施例にて提供される音声対話装置の概略構造図である。本実施例は、電子機器に適用でき、図8に示すように、音声対話装置は、取得モジュール801、認識モジュール802、決定モジュール803、第1生成モジュール804、処理モジュール805、解析モジュール806及び第2生成モジュール807を含む。
ここで、取得モジュール801は、少なくとも1チャネルのオーディオ信号を取得するために用いられ、認識モジュール802は、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、音声認識モデルにより第1クラスの認識結果を得るために用いられ、決定モジュール803は、キャッシュから少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定するために用いられ、第1生成モジュール804は、記憶された認識データに基づいて、第2クラスの認識結果を生成するために用いられ、処理モジュール805は、音声認識モデルを利用して、第1クラスの認識結果及び第2クラスの認識結果を処理して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得るために用いられ、解析モジュール806は、各語句認識結果に対する語意解析をそれぞれ行って、少なくとも1つの解析結果を得るために用いられ、第2生成モジュール807は、少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するために用いられる。
本実施例において、取得モジュール801は、ローカルから又はリモートから少なくとも1チャネルのオーディオ信号を得ることができる。例示として、本実施例が車載の音声認識シーンに適用される場合、上記の少なくとも1チャネルのオーディオ信号は、車両に搭載された少なくとも1つのマイクロフォンによって収集された、車内の少なくとも1つの乗客の音声信号であり得る。
本実施例において、認識モジュール802は、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、音声認識モデルにより第1クラスの認識結果を得ることができる。ここで、音声認識モデルは、事前に大量の音声信号サンプルを利用して訓練して得たモデルであってもよい。音声認識モデルは、入力されたオーディオ信号を認識して、語句認識結果を得るために用いられる。
通常、音声認識モデルは、複数のサブモデルを含んでもよく、例えば、音声学サブモデル(オーディオ信号に対して音節分割を行うために用いられる)、言語サブモデル(各音節を単語に変換するために用いられる)、復号ネットワーク(複数の単語から最適な組合せを選択してセンテンスを得るために用いられる)を含む。
上記の音声認識モデルが認識する過程において、認識モジュール802は、通常、先に、キャッシュから現在の処理段階に対応する認識データを検索し、対応する認識データがキャッシュに存在しない場合、上記の音声認識モデルを利用して認識し、得られた認識データを第1クラスの認識結果とする。
本実施例において、決定モジュール803は、キャッシュから少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定できる。通常、上記の音声認識モデルが認識する過程において、決定モジュール803は、通常、先に、キャッシュから現在の処理段階に対応する認識データを検索し、該当する認識データがキャッシュに存在する場合、当該認識データを抽出する。
本実施例において、第1生成モジュール804は、上記の抽出された記憶された認識データに基づいて、第2クラスの認識結果を生成することができる。例示として、上記の記憶された認識データを第2クラスの認識結果としてもよいし、上記の記憶された認識データを一定処理した後(例えばデータに対する一定の比例でのスケーリング、正規化処理など)に第2クラスの認識結果を得てもよい。
なお、上記の第1クラスの認識結果及び第2クラスの認識結果は、通常、音声認識モデル処理中に得られた中間結果であり、例えば音節の確率スコア、単語の確率スコアなどである。
本実施例において、処理モジュール805は、音声認識モデルを利用して、第1クラスの認識結果及び第2クラスの認識結果を処理して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を得ることができる。通常、第1クラスの認識結果及び第2クラスの認識結果は、音声認識モデルの処理によって得られた中間結果であるため、音声認識モデルは、第1クラスの認識結果及び第2クラスの認識結果を一層処理する必要がある。例示として、第1クラスの認識結果及び第2クラスの認識結果は、オーディオ信号を認識した後に得られる各音節の確率スコア及び各単語の確率スコアを含んでもよく、音声認識モデルは、1つのオーディオ信号に対して、パス検索アルゴリズム(例えばViterbiアルゴリズム)を利用して、オーディオ信号に対応する認識された複数の単語から1つの最適なパスを決定し、得られたセンテンスを語句認識結果とする。
本実施例において、解析モジュール806は、各語句認識結果に対して語意解析をそれぞれ行って、少なくとも1つの解析結果を得ることができる。ここで、上記の少なくとも1つの解析結果のうち、各解析結果は1つのオーディオ信号に対応する。一般に、解析結果は、構造化されたデータであり得る。例えば、語句認識結果は「エアコンの温度を25度に設定する」ということであり、解析結果は、「ドメイン=車の制御、意図=エアコンの温度設定、スロット位置=<温度値=25>」ということである。
なお、語句に対して語句解析を行う方法として、従来の技術を採用してもよい。例えば、ルールエンジン、ニューラルネットワークエンジンなどを使用する。
本実施例において、第2生成モジュール807は、少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成することができる。ここで、上記の音声対話機器は、上記の音声対話装置が設置されている電子機器であってもよいし、上記の電子機器に通信可能に接続される電子機器であってもよい。例示として、音声対話機器が車載エアコンである場合、解析結果が「ドメイン=車の制御、意図=エアコンの温度設定、スロット位置=<温度値=25>」ということであると、車載エアコンを25℃に設定するように制御するための命令を生成することができる。
図9を参照すると、図9は、本開示の別の例示的な実施例にて提供される音声対話装置の概略構造図である。
一部の選択可能な実施形態において、当該装置は、さらに、音声認識モデルが認識する過程に得た認識データをキャッシュに記憶するための記憶モジュール808を含む。
一部の選択可能な実施形態において、取得モジュール801は、オーディオ収集装置によって収集された初期オーディオ信号を受信するための受信ユニット8011と、初期オーディオ信号に対して音源分離処理を行って、少なくとも1チャネルのオーディオ信号を得るための処理ユニット8012と、を含む。
一部の選択可能な実施形態において、認識モジュール802は、少なくとも1チャネルのオーディオ信号にそれぞれ対応する音声認識インスタンスを決定するための第1決定ユニット8021と、決定された各音声認識インスタンスを並行に実行するための第1実行ユニット8022と、各音声認識インスタンスが音声認識モデルをそれぞれ利用して、対応するオーディオ信号を認識するための認識ユニット8023とを含む。
一部の選択可能な実施形態において、解析モジュール806は、得られた各語句認識結果にそれぞれ対応する語意解析インスタンスを決定するための第2決定ユニット8061と、決定された各語意解析インスタンスを並行に実行するための第2実行ユニット8062と、各語意解析インスタンスにより、対応する語句認識結果に対して語意解析をそれぞれ行うための解析ユニット8063と、を含む。
一部の選択可能な実施形態において、認識モジュール802は、音声認識モデルに含まれている音声学サブモデルを利用して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する音節集合及び音節集合内の音節にそれぞれ対応する第1確率スコアを決定するための第3決定ユニット8024と、音声認識モデルに含まれている言語サブモデルを利用して、少なくとも1チャネルのオーディオ信号にそれぞれ対応する単語集合を決定するための第4決定ユニット8025と、単語集合内の単語に対して、当該単語に対応する第2確率スコアがキャッシュに存在するか否かを決定し、存在しないと、言語サブモデルを利用して当該単語に対応する第2確率スコアを決定するための第5決定ユニット8026と、第1確率スコア及び言語サブモデルによって決定された第2確率スコアに基づいて、第1クラスの認識結果を決定するための第6決定ユニット8027と、を含む。
一部の選択可能な実施形態において、決定モジュール803は、単語集合内の単語に対して、当該単語に対応する第2確率スコアがキャッシュに存在するか否かを決定し、存在すると、キャッシュ内の第2確率スコアを当該単語の第2確率スコア言語サブモデルとして決定するための第7決定ユニット8031と、第1確率スコア及びキャッシュから決定した第2確率スコアに基づいて、第2クラスの認識結果を決定するための第8決定ユニット8032と、を含む。
一部の選択可能な実施形態において、処理モジュール805は、第1クラスの認識結果及び第2クラスの認識結果にそれぞれ含まれている第1確率スコア及び第2確率スコアにしたがって、音声認識モデルに含まれる復号ネットワーク内で単語集合の目標パスを決定するための第9決定ユニット8051と、目標パスに基づいて、少なくとも1チャネルのオーディオ信号にそれぞれ対応する語句認識結果を生成するための生成ユニット8052と、を含む。
本開示の上記の実施例にて提供される音声対話装置は、プリセットの音声認識モデルを利用して少なくとも1チャネルのオーディオ信号を認識し、認識中に、キャッシュから記憶された認識データを抽出して認識結果の一部を生成し、認識結果の他の一部は、音声認識モデルによって生成されるため、音声認識モデルで全量データを処理することを必要とせずに、記憶された認識データを効果的に再利用し、少なくとも1チャネルのオーディオ信号の処理効率を向上させ、マルチチャネル音声対話のシーンにおいても依然として低リソース消費や低処理遅延の要件を満たすことができるのに役立つ。
例示的な電子機器
以下、図10を参照しながら本開示の実施例に係る電子機器について説明する。当該電子機器は、図1に示す端末機器101及びサーバ103のいずれか一方又は両方であってもよいし、これらから独立したスタンドアロン機器であってもよく、当該スタンドアロン機器は、端末機器101及びサーバ103と通信して、これらから収集された入力信号を受信することができる。
図10は、本開示の実施例による電子機器のブロック図を示す。
図10に示すように、電子機器1000は、少なくとも1つのプロセッサー1001及び少なくとも1つのメモリ1002を含む。
ここで、少なくとも1つのプロセッサー1001のうちのいずれか1つのプロセッサーは、中央処理装置(central processing unit、CPU)又はデータ処理能力及び/又は命令実行能力を持っている他の形態の処理装置であってもよく、所望の機能を実行するように電子機器1000内の他のコンポーネントを制御できる。
メモリ1002は、揮発性メモリ及び/又は不揮発性メモリなどの様々な形態のコンピュータ可読記憶媒体に含まれる1つ又は複数のコンピュータプログラム製品を含んでもよい。揮発性メモリは、例えばランダムアクセスメモリ(Random Access Memory、RAM)及び/又はキャッシュメモリ(cache)などを含んでもよい。ここで、不揮発性メモリは、例えば読み取り専用メモリ(Read-Only Memory、ROM)、ハードディスク、フラッシュメモリなどを含んでもよい。コンピュータ可読記憶媒体に1つ又は複数のコンピュータプログラム命令を記憶することができ、プロセッサー1001は、上記の本開示の各実施例における音声対話方法及び/又は他の所望の機能を実現するために、プログラム命令を実行できる。コンピュータ可読記憶媒体に、認識データなどの様々な内容も記憶できる。
一例では、電子機器1000は、さらに、バスシステム及び/又は他の形態の接続機構(図示せず)を介して互に接続されている入力装置1003及び出力装置1004を含んでもよい。
例えば、当該電子機器は、端末機器101又はサーバ103である場合、入力装置1003は、オーディオ信号を入力するためのマイクロフォンなどの機器であってもよい。当該電子機器は、スタンドアロン機器ある場合、入力装置1003は、端末機器101及びサーバ103から入力されたオーディオ信号を受信するための通信ネットワークコネクタであってもよい。
出力装置1004により、外部に、音声対話機器が対応する機能を実行する命令などの様々な情報を出力することができる。出力装置1004は、ディスプレイ、スピーカー、プリンター、通信ネットワーク及びそれらに接続されるリモート出力装置などをさらに含んでもよい。
当然のことながら、説明の簡略化のために、図10には、電子機器1000内の本開示に係わるコンポーネントの一部のみが示されており、バスや入出力インタフェースなどのコンポーネントは省略された。このほか、具体的な応用状況に応じて、電子機器1000は任意の適切な他のコンポーネントをさらに含んでもよい。
例示的なコンピュータプログラム製品及びコンピュータ可読記憶媒体
本開示の実施例は、上記の方法及び機器以外に、コンピュータプログラム命令を含むコンピュータプログラム製品であってもよく、前記コンピュータプログラム命令がプロセッサーによって実行されると、前記プロセッサーが本明細書の上記「例示的な方法」に記載の本開示の様々な実施例による音声対話方法におけるステップを実行する。
前記コンピュータプログラム製品は、1つ又は複数のプログラミング言語の任意の組み合わせで、本開示の実施例の操作を実行するためのプログラムコードを作成することができ、前記プログラミング言語は、Java(登録商標)、C++などのオブジェクト指向プログラミング言語、及び「C」言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザコンピューティング機器上で実行されても、一部がユーザ機器上で実行されても、スタンドアロンソフトウェアパッケージとして実行されても、一部がユーザコンピューティング機器上で、一部がリモートコンピューティング機器上で実行されても、完全にリモートコンピューティング機器もしくはサーバ上で実行されてもよい。
また、本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であってもよく、前記コンピュータプログラム命令がプロセッサーによって実行されると、プロセッサーが本明細書の上記「例示的な方法」に記載の本開示の様々な実施例による音声対話方法におけるステップを実行する。
前記コンピュータ可読記憶媒体は、1つ又は複数の可読媒体の任意の組み合わせを採用することができる。可読媒体は、可読信号媒体又は可読記憶媒体であり得る。可読記憶媒体は、電気、磁気、光学、電磁、赤外線、又は半導体のシステム、装置、又はデバイス、あるいはそれらの任意の組み合わせを含み得るが、これらに限定されない。可読記憶媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数のワイヤを有する電気接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスク(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含む。
以上、具体的な実施例と併せて本開示の基本原理を説明したが、本開示で言及された利点、長所、効果は、限定ではなく、例示にすぎず、各実施例が、これらの利点、長所、効果を備えなければならないと考えるべきではないことを理解されたい。また、上記開示の具体的な詳細は、限定ではなく、例示的な役割及び理解を容易にするための役割を果たすためのものにすぎず、上記の詳細は、本開示が必ず上記の具体的な詳細で実現されるように限定するものではない。
本明細書における各実施例は、逐次的な方法で説明され、各実施例では、他の実施例との相違点を中心に説明し、各実施例間の同一又は類似の部分は、互に参照すればよい。システムの実施例については、基本的に方法の実施例に対応するため、比較的簡単に説明したが、関連する箇所は方法の実施例の説明の一部を参照すればよい。
本開示に係るデバイス、装置、機器、システムのブロック図は、単なる例示的な例にすぎず、必ずブロック図に示される方式で接続、配置、構成されることを要求又は暗示することを意図していない。当業者であれば、これらのデバイス、装置、機器、システムを任意の方法で接続、配置、構成してもよいことを分かるだろう。「含む」、「備える」、「有する」などの用語はオープン型語彙であり、「を含むが、それらに限定されない」ということを意味し、それと互換的に使用され得る。本明細書に使用される「又は」と「及び」という用語は、「及び/又は」という用語を指し、文脈上で明らかに別の意味を示さない限り、それらと互換的に使用され得る。本明細書に使用される「たとえば」という単語は、「例えば、しかし、これに限定されない」というフレーズを意味し、それと互換的に使用され得る。
本開示の方法及び装置は、多くの方式で実現することが可能である。例えば、本開示の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって実現できる。前記方法のステップに用いられる上記の順序は、単に説明するためのものにすぎず、本開示の方法のステップは、特に明記されない限り、上記で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は、記録媒体に記録されたプログラムとして実施されてもよく、これらのプログラムは、本開示による方法を実現するための機械可読命令を含む。したがって、本開示は、本開示による方法を実行するためのプログラムを記憶した記録媒体も含む。
なお、本開示の装置、機器及び方法において、各部材又はステップは、分解及び/又は再組合せしてもよい。これらの分解及び/又は再組合せは、本開示の等価解決手段と見なすべきである。
開示された態様についての上記の説明は、当業者が本開示を作成又は使用することを可能にするために提供される。当業者にとって、これらの態様に対する様々な修正は明らかであり、本明細書に定義された一般原理は、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に制限されることを意図しておらず、本明細書に開示された原理及び新規特徴と一致する最も広い範囲に従う。
例示及び説明の目的のために、上記の説明を提示した。さらに、この説明は、本開示の実施例を本明細書に開示されている形態に制限することを意図していない。以上、複数の例示的な態様及び実施例を説明したが、当業者であれば、それらの特定の変形、修正、変更、追加、及びサブセットを認識できるであろう。

Claims (10)

  1. 少なくとも1チャネルのオーディオ信号を取得するステップと、
    プリセットの音声認識モデルを利用して前記少なくとも1チャネルのオーディオ信号を認識し、前記音声認識モデルにより第1クラスの認識結果を得るステップと、
    キャッシュから前記少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定するステップと、
    前記記憶された認識データに基づいて、第2クラスの認識結果を生成するステップと、
    前記音声認識モデルを利用して、前記第1クラスの認識結果及び前記第2クラスの認識結果を処理して、前記少なくとも1チャネルのオーディオ信号に対応する少なくとも1つの語句認識結果を得るステップと、
    前記語句認識結果に対して語意解析を行って、少なくとも1つの解析結果を得るステップと、
    前記少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するステップと、を含む、
    音声対話方法。
  2. 少なくとも1チャネルのオーディオ信号を取得する前記ステップは、
    オーディオ収集装置によって収集された初期オーディオ信号を受信するステップと、
    前記初期オーディオ信号に対して音源分離処理を行って、前記少なくとも1チャネルのオーディオ信号を得るステップと、を含む、
    請求項1に記載の方法。
  3. プリセットの音声認識モデルを利用して前記少なくとも1チャネルのオーディオ信号を認識し、前記音声認識モデルにより第1クラスの認識結果を得る前記ステップは、
    前記少なくとも1チャネルのオーディオ信号にそれぞれ対応する音声認識インスタンスを決定するステップと、
    決定された各音声認識インスタンスを並行に実行するステップと、
    各音声認識インスタンスが、それぞれ前記音声認識モデルを利用して、対応するオーディオ信号を認識するステップと、を含む、
    請求項1に記載の方法。
  4. 前記語句認識結果に対して語意解析を行って、少なくとも1つの解析結果を得るステップは、
    得られた各語句認識結果にそれぞれ対応する語意解析インスタンスを決定するステップと、
    決定された各語意解析インスタンスを並行に実行するステップと、
    各語意解析インスタンスにより、対応する語句認識結果に対して語意解析をそれぞれ行って、前記少なくとも1つの解析結果を得るステップと、を含む、
    請求項3に記載の方法。
  5. プリセットの音声認識モデルを利用して前記少なくとも1チャネルのオーディオ信号を認識し、前記音声認識モデルにより第1クラスの認識結果を得る前記ステップは、
    前記音声認識モデルに含まれている音声学サブモデルを利用して、前記少なくとも1チャネルのオーディオ信号にそれぞれ対応する音節集合及び前記音節集合内の音節に対応する第1確率スコアを決定するステップと、
    前記音声認識モデルに含まれている言語サブモデルを利用して、前記少なくとも1チャネルのオーディオ信号にそれぞれ対応する単語集合を決定するステップと、
    前記単語集合内の単語に基づいて、当該単語に対応する第2確率スコアが前記キャッシュに存在するか否かを決定するステップと、
    存在しないと、前記言語サブモデルを利用して、当該単語に対応する第2確率スコアを決定するステップと、
    前記第1確率スコア及び前記言語サブモデルによって決定された第2確率スコアに基づいて、前記第1クラスの認識結果を決定するステップと、を含む、
    請求項1に記載の方法。
  6. キャッシュから前記少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定する前記ステップは、
    前記単語集合内の単語に対して、当該単語に対応する第2確率スコアが前記キャッシュに存在するか否かを決定するステップと、
    存在すると、前記キャッシュ内の第2確率スコアを当該単語の第2確率スコア言語サブモデルとして決定するステップと、
    前記第1確率スコアと、前記キャッシュから決定された第2確率スコアに基づいて、第2クラスの認識結果を決定するステップと、を含む、
    請求項5に記載の方法。
  7. 前記音声認識モデルを利用して、前記第1クラスの認識結果及び前記第2クラスの認識結果を処理して、前記少なくとも1チャネルのオーディオ信号に対応する少なくとも1つの語句認識結果を得る前記ステップは、
    前記第1クラスの認識結果及び前記第2クラスの認識結果にそれぞれ含まれる第1確率スコア及び第2確率スコアにしたがって、前記音声認識モデルに含まれる復号ネットワーク内で前記単語集合の目標パスを決定するステップと、
    前記目標パスに基づいて、前記少なくとも1チャネルのオーディオ信号に対応する少なくとも1つの語句認識結果を生成するステップと、を含む、
    請求項6に記載の方法。
  8. 少なくとも1チャネルのオーディオ信号を取得するための取得モジュールと、
    プリセットの音声認識モデルを利用して前記少なくとも1チャネルのオーディオ信号を認識し、前記音声認識モデルにより第1クラスの認識結果を得るための認識モジュールと、
    キャッシュから前記少なくとも1チャネルのオーディオ信号に関する記憶された認識データを決定するための決定モジュールと、
    前記記憶された認識データに基づいて、第2クラスの認識結果を生成するための第1生成モジュールと、
    前記音声認識モデルを利用して、前記第1クラスの認識結果及び前記第2クラスの認識結果を処理して、前記少なくとも1チャネルのオーディオ信号に対応する少なくとも1つの語句認識結果を得るための処理モジュールと、
    前記語句認識結果に対して語意解析を行って、少なくとも1つの解析結果を得るための解析モジュールと、
    前記少なくとも1つの解析結果に基づいて、音声対話機器を制御して該当する機能を実行させるための命令を生成するための第2生成モジュールと、を含む、
    音声対話装置。
  9. コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令が実行されると、請求項1~7のいずれか1項に記載の方法を実現する、
    コンピュータ可読記憶媒体。
  10. プロセッサーと、
    前記プロセッサーが実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサーは、請求項1~7のいずれか1項に記載の方法を実現するために、前記メモリから前記実行可能な命令を読み取って、前記命令を実行するために用いられる。
    電子機器。
JP2022558093A 2021-03-16 2022-02-16 音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器 Pending JP2023520861A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110279812.4 2021-03-16
CN202110279812.4A CN113066489B (zh) 2021-03-16 2021-03-16 语音交互方法、装置、计算机可读存储介质及电子设备
PCT/CN2022/076422 WO2022193892A1 (zh) 2021-03-16 2022-02-16 语音交互方法、装置、计算机可读存储介质及电子设备

Publications (1)

Publication Number Publication Date
JP2023520861A true JP2023520861A (ja) 2023-05-22

Family

ID=76560535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022558093A Pending JP2023520861A (ja) 2021-03-16 2022-02-16 音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器

Country Status (4)

Country Link
US (1) US20240005917A1 (ja)
JP (1) JP2023520861A (ja)
CN (1) CN113066489B (ja)
WO (1) WO2022193892A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066489B (zh) * 2021-03-16 2024-10-29 深圳地平线机器人科技有限公司 语音交互方法、装置、计算机可读存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2007093789A (ja) * 2005-09-27 2007-04-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2013080476A (ja) * 2011-09-30 2013-05-02 Apple Inc バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
JP2013218095A (ja) * 2012-04-09 2013-10-24 Clarion Co Ltd 音声認識サーバ統合装置および音声認識サーバ統合方法
JP2017156839A (ja) * 2016-02-29 2017-09-07 富士通株式会社 ポインティング支援装置、ポインティング支援方法およびポインティング支援プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002533771A (ja) * 1998-12-21 2002-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識履歴にもとづく言語モデル
CN1201284C (zh) * 2002-11-15 2005-05-11 中国科学院声学研究所 一种语音识别系统中的快速解码方法
US10013981B2 (en) * 2015-06-06 2018-07-03 Apple Inc. Multi-microphone speech recognition systems and related techniques
US10453445B2 (en) * 2016-02-16 2019-10-22 Carnegie Mellon University System and method for multi-user GPU-accelerated speech recognition engine for client-server architectures
CN108573706B (zh) * 2017-03-10 2021-06-08 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN109215631A (zh) * 2017-07-05 2019-01-15 松下知识产权经营株式会社 语音识别方法、程序、语音识别装置和机器人
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
CN108510990A (zh) * 2018-07-04 2018-09-07 百度在线网络技术(北京)有限公司 语音识别方法、装置、用户设备及存储介质
CN109215630B (zh) * 2018-11-14 2021-01-26 北京羽扇智信息科技有限公司 实时语音识别方法、装置、设备及存储介质
CN109727603B (zh) * 2018-12-03 2020-11-03 百度在线网络技术(北京)有限公司 语音处理方法、装置、用户设备及存储介质
CN112071310B (zh) * 2019-06-11 2024-05-07 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质
KR102688685B1 (ko) * 2019-07-30 2024-07-25 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110415697A (zh) * 2019-08-29 2019-11-05 的卢技术有限公司 一种基于深度学习的车载语音控制方法及其系统
CN110473531B (zh) * 2019-09-05 2021-11-09 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备、系统及存储介质
CN110661927B (zh) * 2019-09-18 2022-08-26 平安科技(深圳)有限公司 语音交互方法、装置、计算机设备及存储介质
CN113066489B (zh) * 2021-03-16 2024-10-29 深圳地平线机器人科技有限公司 语音交互方法、装置、计算机可读存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2007093789A (ja) * 2005-09-27 2007-04-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2013080476A (ja) * 2011-09-30 2013-05-02 Apple Inc バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
JP2013218095A (ja) * 2012-04-09 2013-10-24 Clarion Co Ltd 音声認識サーバ統合装置および音声認識サーバ統合方法
JP2017156839A (ja) * 2016-02-29 2017-09-07 富士通株式会社 ポインティング支援装置、ポインティング支援方法およびポインティング支援プログラム

Also Published As

Publication number Publication date
WO2022193892A1 (zh) 2022-09-22
US20240005917A1 (en) 2024-01-04
CN113066489B (zh) 2024-10-29
CN113066489A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
KR102371188B1 (ko) 음성 인식 장치 및 방법과 전자 장치
CN106373569B (zh) 语音交互装置和方法
WO2022105861A1 (zh) 用于识别语音的方法、装置、电子设备和介质
US10629186B1 (en) Domain and intent name feature identification and processing
US20220139389A1 (en) Speech Interaction Method and Apparatus, Computer Readable Storage Medium and Electronic Device
US20200219384A1 (en) Methods and systems for ambient system control
CN114038457B (zh) 用于语音唤醒的方法、电子设备、存储介质和程序
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
US12087305B2 (en) Speech processing
CN111210824B (zh) 语音信息处理方法、装置、电子设备及存储介质
US20240013784A1 (en) Speaker recognition adaptation
US20240331686A1 (en) Relevant context determination
CN114913590B (zh) 一种数据的情感识别方法、装置、设备及可读存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
JP2023520861A (ja) 音声対話方法、装置、コンピュータ可読記憶媒体及び電子機器
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
US11775617B1 (en) Class-agnostic object detection
CN109887490A (zh) 用于识别语音的方法和装置
CN116075888A (zh) 用于减少云服务中的延迟的系统和方法
KR20210066651A (ko) 전자 장치 및 이의 제어 방법
US20230317066A1 (en) Shared encoder for natural language understanding processing
CN116092485A (zh) 语音识别模型的训练方法及装置、语音识别方法及装置
CN115132195A (zh) 语音唤醒方法、装置、设备、存储介质及程序产品
CN112487180B (zh) 文本分类方法和装置、计算机可读存储介质和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240123

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240906

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240930