JP2021192114A

JP2021192114A - 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム

Info

Publication number: JP2021192114A
Application number: JP2021143144A
Authority: JP
Inventors: 知踐王; Zhijian Wang; 勝銭; Sheng Qian
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2021-09-02
Publication date: 2021-12-16
Anticipated expiration: 2041-09-02
Also published as: US20220068277A1; CN112466280B; CN112466280A; JP7264957B2; KR20210120936A

Abstract

【課題】音声インタラクション時の応答正確性を向上することができる、音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、識別対象音声を取得することと、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することと、識別特徴に基づいて応答信頼度を取得することと、応答信頼度が所定の応答条件を満たすと判定された場合、識別対象音声に応答することと、を含む。【選択図】図１

Description

本願は、コンピュータ技術分野に関し、特に、音声処理、ディープラーニング技術分野における音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムに関する。

従来技術において音声インタラクションを行う時に、音声への誤った応答を回避するために、音声への応答を行うか否かを音声の信頼度によって判定する必要がある。従来技術では、音声の信頼度を取得する時に、通常、音声自体の特徴又は音声に対応するテキストの特徴により信頼度を取得する。しかし、音声又は音声に対応するテキストのみによって信頼度を取得する時に、取得された信頼度の正確性が通常低く、これにより、音声が誤って応答されて、音声インタラクション時の応答正確性が低下する。

本願が技術課題を解決するために採用する技術手段としては、識別対象音声を取得することと、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することと、前記識別特徴に基づいて応答信頼度を取得することと、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答することとを含む音声インタラクション方法を提供する。

本願が技術課題を解決するために採用する技術手段としては、識別対象音声を取得するための取得手段と、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出するための識別手段と、前記識別特徴に基づいて応答信頼度を取得するための処理手段と、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答するための応答手段とを含む音声インタラクション装置を提供する。

少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続するメモリとを含み、前記メモリに、前記少なくとも１つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが上記方法を実行することができることを特徴とする電子機器。

コンピュータに上記方法を実行させるためのコンピュータコマンドを記憶していることを特徴とする非一時的なコンピュータ読取可能な記憶媒体。

プロセッサによって実行される時に、上記音声インタラクション方法が実行されるコンピュータプログラム。

上記発明における一実施例は、本願において音声インタラクション時の応答正確性を向上することができるという利点又は格別な効果を有する。音声を認識する過程で生じる認識特徴を抽出することで応答信頼度を取得するという技術手段を採用したため、従来技術において音声又はテキストのみを利用して信頼度を取得することによる信頼度の正確性が低いという技術課題を克服し、より正確な応答信頼度を取得することができるため、音声インタラクション時の応答正確性を向上した技術効果を奏する。

以下、上記の選択可能な手段が有する他の効果について、具体的な実施例を参照しながら説明する。

図面は、本方案がよりよく理解されるためのものであり、本願に対する限定を構成しない。

図１は本願の第１の実施例による概略図である。図２は本願の第２の実施例による概略図である。図３は本願の第３の実施例による概略図である。図４は本願の実施例の音声インタラクション方法を実現するための電子機器のブロック図である。

以下、図面に合わせて本願の例示的な実施例について説明する。その中、理解に役立つように本願の実施例の各詳細を含み、これらはあくまで例示的なものであると理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることに認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。

図１は、本願の第１の実施例による概略図である。図１に示すように、本実施例の音声インタラクション方法は、具体的には、以下のステップを含んでもよい。

Ｓ１０１において、識別対象音声を取得する。

Ｓ１０２において、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。

Ｓ１０３において、前記識別特徴に基づいて応答信頼度を取得する。

Ｓ１０４において、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答する。

本実施例の音声インタラクション方法は、音声識別モデルが識別対象音声を認識する過程で生じる識別特徴を取得することにより、識別対象音声の応答信頼度を取得し、取得された識別特徴により豊富な情報を含むため、より正確な応答信頼度を取得することができ、応答信頼度の正確性を向上したうえで、識別対象音声への誤った応答を大幅に回避し、音声インタラクション時の応答正確性を向上した。

本実施例の実行主体は、端末機器であってもよく、端末機器は、スマートフォン、スマート家電、スマートスピーカー又は車載音声インタラクション機器などであってもよい。本実施例の実行主体は、端末機器とクラウドサーバとを含んでもよく、端末機器が識別対象音声をクラウドサーバに送信した後、クラウドサーバが音声識別を行い、識別特徴に基づいて取得された応答信頼度を端末機器に返し、端末機器が当該応答信頼度に基づいて識別対象音声に応答するか否かを判定する。

本実施例において、Ｓ１０１を実行して取得された識別対象音声は、ユーザが端末機器と音声インタラクションを行う時に発した音声であり、例えば、識別対象音声は、ユーザが端末機器に発した照会の音声であってもよいし、ユーザが端末機器に発した制御音声であってもよい。

本実施例において、Ｓ１０１を実行して識別対象音声を取得した後、Ｓ１０２を実行して音声識別モデルを利用して識別対象音声の識別結果を取得し、音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。

その中、本実施例における音声識別モデルは、ディープラーニングモデルであり、複数のニューラルネットワーク層を含み、入力された音声に基づいてテキストを出力するために使用される。したがって、本実施例において、Ｓ１０２を実行し、音声識別モデルを利用して識別対象音声の識別結果をテキストとして取得する。

具体的には、本実施例において、Ｓ１０２を実行して音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する時、採用できる選択可能な実現形態は、音声識別モデルが、入力された音声を特徴ベクトルに変換するための入力層と、入力層の特徴ベクトルに対してアテンションメカニズムの算出を行うためのアテンション層と、アテンション層の算出結果をテキストにマッピングするための出力層とを含み、音声識別モデルにおいて出力層より前に位置するアテンション層の識別過程における出力を識別特徴として抽出することである。

その中、本実施例の音声識別モデルにおけるアテンション層は、アテンションメカニズムの算出を１回のみ行ってもよく、アテンションメカニズムの算出を複数回行ってもよい。なお、本実施例において、音声識別モデルのネットワーク構造を限定せず、上記入力層、アテンション層及び出力層のネットワーク構造に加えて、入力層、プーリング層、畳み込み層及び出力層のネットワーク構造であってもよく、入力層、プーリング層、畳み込み層、アテンション層及び出力層のネットワーク構造であってもよい。

すなわち、本実施例で抽出される識別特徴は、音声識別モデルにおいて最後から２番目の層に位置するニューラルネットワーク層の出力であり、最後から２番目の層のニューラルネットワーク層の出力は、出力層がテキストを取得するために使用されるため、この層の出力は、音声がテキストに変換される前の最も包括的な情報をカバーし、音声のみ又はテキストのみから特徴を抽出することと比較して、本実施例で抽出された識別特徴は、より豊富な情報を含み、抽出された識別特徴の正確性を向上した。

本実施例において、Ｓ１０２を実行して音声識別モデルを利用して識別結果と識別特徴とを取得した後、Ｓ１０３を実行して識別特徴に基づいて応答信頼度を取得し、本実施例で取得された応答信頼度は、識別対象音声に応答するか否かを判定するために使用される。

本実施例において、Ｓ１０３を実行する時、識別特徴のみに基づいて応答信頼度を取得することができ、例えば、識別特徴を予めトレーニングされたディープラーニングモデルに入力し、当該ディープラーニングモデルの出力を応答信頼度としてもよいし、他の情報を組み合わせて応答信頼度を取得してもよい。

本実施例では、Ｓ１０３を実行して識別特徴に基づいて応答信頼度を取得した後、Ｓ１０４を実行して応答信頼度が所定の応答条件を満たすと判定された場合、識別対象音声に応答する。その中、本実施例において、識別対象音声に応答することは、識別対象音声に対応する照会結果を取得することであってもよいし、識別対象音声に対応する操作を実行することであってもよい。

本実施例において、Ｓ１０４を実行して応答信頼度が所定の応答条件を満たすかを判定する時、応答信頼度が所定の閾値を超えるか否かを判定してもよく、超えれば、応答信頼度が所定の応答条件を満たすと判定され、超えなければ、満たさないと判定される。

なお、本実施例において、Ｓ１０４を実行して応答信頼度が所定の応答条件を満たさないと判定されると、識別対象音声への応答を行わず、ユーザが再度音声を入力するのを待ってもよいし、ユーザに提示情報を返して、ユーザに再度音声を入力するように促してもよい。

本実施例による上記方法によれば、音声識別モデルが識別対象音声を認識する過程で生じる識別特徴を取得することにより、識別対象音声の応答信頼度を取得し、さらに応答信頼度に基づいて識別対象音声に応答するか否かを判定し、識別特徴により豊富な情報を含むため、より正確な応答信頼度を取得することができ、識別対象音声への誤った応答を回避し、音声インタラクション時の応答正確性を向上した。

図２は、本願の第２の実施例による概略図である。図２に示すように、本実施例の音声インタラクション方法は、具体的には、以下のステップを含んでもよい。

Ｓ２０１において、識別対象音声を取得する。

Ｓ２０２において、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。

Ｓ２０３において、前記識別結果の分野情報を特定し、前記分野情報と前記識別特徴とに基づいて応答信頼度を取得する。

Ｓ２０４において、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答する。

すなわち、本実施例の音声インタラクション方法は、音声識別モデルが識別対象音声を認識する過程で生じる識別特徴を取得し、識別対象音声の識別結果に対応する分野情報を組み合わせることにより、識別対象音声の応答信頼度を取得し、応答信頼度を取得するための情報がより豊富であり、取得された応答信頼度の正確性をさらに向上し、音声インタラクション時の応答正確性を向上した。

本実施例において、Ｓ２０３を実行して識別結果の分野情報を特定し、特定された分野情報は、識別結果が属する分野、例えば、金融、科学技術、音楽などの分野を示すために使用される。

具体的には、本実施例において、Ｓ２０３を実行して識別結果の分野情報を特定する時、採用できる選択可能な実現形態は、識別結果を予めトレーニングされた分野識別モデルに入力し、分野識別モデルの出力結果を識別結果の分野情報とすることである。その中、本実施例において、予めトレーニングをすることにより分野識別モデルを取得し、当該分野識別モデルは、入力されたテキストに基づいて、当該テキストに対応する分野情報を出力することができる。

なお、本実施例において、Ｓ１０４を実行して分野情報と識別特徴とに基づいて応答信頼度を取得する時、採用できる選択可能な実現形態は、分野情報と識別特徴とを予めトレーニングされた信頼モデルに入力し、信頼モデルの出力結果を応答信頼度とすることである。その中、本実施例において、予めトレーニングをすることにより信頼モデルを取得し、当該信頼モデルは、入力された分野情報と識別特徴とに基づいて、音声に対応する応答信頼度を出力することができる。

したがって、本実施例において、分野情報と識別特徴との２つの部分のコンテンツを組み合わせて、識別対象音声の応答信頼度を取得することができ、応答信頼度の正確性を向上した。

図３は、本願の第３の実施例による概略図である。図３に示すように、本実施例の音声インタラクション装置は、
識別対象音声を取得するための取得手段３０１と、
音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出するための識別手段３０２と、
前記識別特徴に基づいて応答信頼度を取得するための処理手段３０３と、
前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答するための応答手段３０４と、を含む。

本実施例において、取得手段３０１により取得された識別対象音声は、ユーザが端末機器と音声インタラクションを行う時に発した音声であり、例えば、取得手段３０１は、ユーザが端末機器に発した照会の音声を取得してもよく、ユーザが端末機器に発した制御音声を取得してもよい。

本実施例において、取得手段３０１により識別対象音声を取得した後、識別手段３０２により音声識別モデルを利用して識別対象音声の識別結果を取得し、音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。

その中、本実施例における音声識別モデルは、ディープラーニングモデルであり、複数のニューラルネットワーク層を含み、入力された音声に基づいてテキストを出力するために使用される。したがって、識別手段３０２は、音声識別モデルを利用して識別対象音声の識別結果をテキストとして取得する。

具体的には、本実施例において、識別手段３０２により音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する時、採用できる選択可能な実現形態は、音声識別モデルが入力層、アテンション層及び出力層を含み、音声識別モデルにおける出力層の前に位置するアテンション層の識別過程における出力を識別特徴として抽出することである。

本実施例において、識別手段３０２により音声識別モデルを利用して識別結果と識別特徴とを取得した後、処理手段３０３により識別特徴に基づいて応答信頼度を取得し、本実施例で取得された応答信頼度は、識別対象音声に応答するか否かを判定するために使用される。

本実施例における処理手段３０３は、識別特徴のみに基づいて応答信頼度を取得してもよく、例えば、識別特徴を予めトレーニングされたディープラーニングモデルルに入力し、当該ディープラーニングモデルの出力を応答信頼度としてもよいし、他の情報を組み合わせて応答信頼度を取得してもよい。

本実施例における処理手段３０３が識別特徴に基づいて応答信頼度を取得する時、採用できる選択可能な実現形態は、識別結果の分野情報を特定し、分野情報と識別特徴とに基づいて応答信頼度を取得することである。

本実施例において、処理手段３０３により識別結果に基づいて特定された分野情報は、識別結果が属する分野、例えば、金融、科学技術、音楽などの分野を示すために使用される。

具体的には、本実施例における処理手段３０３が識別結果の分野情報を特定する時、採用できる選択可能な実現形態は、識別結果を予めトレーニングされた分野識別モデルに入力し、分野識別モデルの出力結果を識別結果の分野情報とすることである。その中、本実施例において、予めトレーニングをすることにより分野識別モデルを取得し、当該分野識別モデルは、入力されたテキストに基づいて、当該テキストに対応する分野情報を出力することができる。

なお、本実施例における処理手段３０３が分野情報と識別特徴とに基づいて応答信頼度を取得する時、採用できる選択可能な実現形態は、分野情報と識別特徴とを予めトレーニングされた信頼モデルに入力し、信頼モデルの出力結果を応答信頼度とすることである。その中、本実施例において、予めトレーニングをすることにより信頼モデルを取得し、当該信頼モデルは、入力された分野情報と識別特徴とに基づいて出力音声に対応する応答信頼度を出力することができる。

本実施例において、処理手段３０３により応答信頼度を取得した後、応答手段３０４により応答信頼度が所定の応答条件を満たすと判定された場合、識別対象音声に応答する。その中、本実施例において、識別対象音声に応答することは、識別対象音声に対応する照会結果を取得することであってもよいし、識別対象音声に対応する操作を実行することであってもよい。

本実施例における応答手段３０４は、応答信頼度が所定の応答条件を満たすかを判定する時、応答信頼度が所定の閾値を超えるか否かを判定してもよく、超えれば、応答信頼度が所定の応答条件を満たすと判定し、超えなければ、満たさないと判定する。

なお、本実施例における応答手段３０４は、応答信頼度が所定の応答条件を満たさないと判定すると、識別対象音声への応答を行わず、ユーザが再度音声を入力するのを待ってもよいし、ユーザに提示情報を返して、ユーザに再度音声を入力するように促してもよい。

本願による実施例によれば、本願は、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムをさらに提供する。

図４に示すように、本願の実施例の音声インタラクション方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はさらに、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似のコンピューティング装置などの様々な形態の移動装置を表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本明細書に記載及び／又は要求される本願の実現を限定することを意図しない。

図４に示すように、当該電子機器は、１又は複数のプロセッサ４０１と、メモリ４０２と、高速インターフェースと低速インターフェースとを含む、各コンポーネントを接続するためのインターフェースとを含む。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに実装されてもよく、又は、必要に応じて他の形態で実装されてもよい。プロセッサは、メモリに記憶されて外部入力／出力装置（例えば、インターフェースに結合された表示機器）にＧＵＩのグラフィック情報を表示するコマンドを含む、電子機器内で実行されるコマンドを処理してもよい。他の実施形態において、必要に応じて複数のプロセッサ及び／又は複数のバスを複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続し、各機器が必要な動作の一部（例えば、サーバアレイ、ブレードサーバのセット、又はマルチプロセッサシステム）を提供するようにしてもよい。図４では、１つのプロセッサ４０１を例とする。

メモリ４０２は、本願による非一時的なコンピュータ読取可能な記憶媒体である。その中、前記メモリに少なくとも１つのプロセッサによって実行され得るコマンドが記憶されることで、前記少なくとも１つのプロセッサが本願による音声インタラクション方法を実行することができる。本願の非一時的なコンピュータ読取可能な記憶媒体は、コンピュータに本願による音声インタラクション方法を実行させるためのコンピュータコマンドを記憶している。

メモリ４０２は、非一時的なコンピュータ読取可能な記憶媒体であり、本願の実施例における音声インタラクション表情画像の方法に対応するプログラムコマンド／モジュール（例えば、図３に示す取得手段３０１、識別手段３０２、処理手段３０３及び応答手段３０４）などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよい。プロセッサ４０１は、メモリ４０２に記憶された非一時的なソフトウェアプログラム、コマンド及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例における音声インタラクション方法を実現する。

メモリ４０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ４０２は、高速ランダムアクセスメモリを含んでもよく、例えば、少なくとも１つのディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的な固体メモリデバイスなどの非一時的なメモリをさらに含んでもよい。幾つかの実施例において、メモリ４０２は、プロセッサ４０１から遠隔に設けられたメモリを選択的に含み、これら遠隔メモリは、ネットワークを介して音声インタラクション方法の電子機器に接続されてもよい。上記ネットワークの例としては、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
音声インタラクション方法の電子機器は、入力装置４０３と出力装置４０４とをさらに含んでもよい。プロセッサ４０１、メモリ４０２、入力装置４０３及び出力装置４０４は、バス又は他の形態で接続されてもよく、図４では、バスによる接続を例とする。

入力装置４０３は、入力されたデジタル又は文字情報を受信し、音声インタラクション方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成してもよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置４０４は、表示機器、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されない。幾つかの実施形態において、表示機器はタッチスクリーンであってもよい。

ここに説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現され得る。これらの各種実施形態は、１つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この１つ又は複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び／又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とに転送してもよい。

これらの算出プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械コマンドを含み、高級プロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で実施されてもよい。本明細書で使用される用語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」は、機械読取可能な信号である機械コマンドを受信する機械読取可能な媒体を含む、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ））を指す。「機械読取可能な信号」という用語は、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレー）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスシステムにおけるホスト製品の１つであり、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」又は「ＶＰＳと略称する」）において管理の困難さが大きく、サービスの拡張性が弱いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってもよい。

本願の実施例による技術案によれば、音声認識モデルが識別対象音声を認識する過程で生成された認識特徴を取得することにより、識別対象音声の応答信頼度を取得し、取得された認識特徴により豊富な情報を含むため、より正確な応答信頼度を取得することができ、応答信頼度の正確性を向上したうえで、識別対象音声への誤った応答を大幅に回避し、音声インタラクション時の応答正確性を向上した。

上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。

上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本願の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

識別対象音声を取得することと、
音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することと、
前記識別特徴に基づいて応答信頼度を取得することと、
前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答することとを含む、音声インタラクション方法。
前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することは、
前記音声識別モデルが入力層、アテンション層及び出力層を含むことと、
前記音声識別モデルにおける出力層の前に位置するアテンション層の識別過程における出力を前記識別特徴して抽出することとを含む、請求項１に記載の方法。
前記識別特徴に基づいて応答信頼度を取得することは、
前記識別結果の分野情報を特定することと、
前記分野情報と前記識別特徴とに基づいて応答信頼度を取得することとを含む、請求項１に記載の方法。
前記識別結果の分野情報を特定することは、
前記識別結果を予めトレーニングされた分野識別モデルに入力し、前記分野識別モデルの出力結果を前記識別結果の分野情報とすることを含む、請求項３に記載の方法。
前記分野情報と前記識別特徴とに基づいて応答信頼度を取得することは、
前記分野情報と前記識別特徴とを予めトレーニングされた信頼モデルに入力し、前記信頼モデルの出力結果を前記応答信頼度とすることを含む、請求項３に記載の方法。
識別対象音声を取得するための取得手段と、
音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出するための識別手段と、
前記識別特徴に基づいて応答信頼度を取得するための処理手段と、
前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答するための応答手段と、を含む、音声インタラクション装置。
前記識別手段は、前記音声識別モデルの出力層の識別過程における入力を識別特徴抽出とする時、具体的に、
前記音声識別モデルが入力層、アテンション層及び出力層を含むことと、
前記音声識別モデルにおける出力層の前に位置するアテンション層の識別過程における出力を前記識別特徴として抽出することとを実行する、請求項６に記載の装置。
前記処理手段は、前記識別特徴に基づいて応答信頼度を取得する時、具体的に、
前記識別結果の分野情報を特定することと、
前記分野情報と前記識別特徴とに基づいて応答信頼度を取得することとを実行する、請求項６に記載の装置。
前記処理手段は、前記識別結果の分野情報を特定する時、具体的に、
前記識別結果を予めトレーニングされた分野識別モデルに入力し、前記分野識別モデルの出力結果を前記識別結果の分野情報とすることを実行する、請求項８に記載の装置。
前記処理手段は、前記分野情報と前記識別特徴とに基づいて応答信頼度を取得する時、具体的に、
前記分野情報と前記識別特徴とを予めトレーニングされた信頼モデルに入力し、前記信頼モデルの出力結果を前記応答信頼度とすることを実行する、請求項８に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続するメモリとを含む電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが請求項１〜５のいずれか一項に記載の方法を実行することができる、電子機器。
コンピュータに請求項１〜５のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している非一時的なコンピュータ読取可能な記憶媒体。
プロセッサによって実行される時に、請求項１〜５のいずれか一項に記載の音声インタラクション方法が実行されるコンピュータプログラム。