JP2021192114A - 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム - Google Patents

音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2021192114A
JP2021192114A JP2021143144A JP2021143144A JP2021192114A JP 2021192114 A JP2021192114 A JP 2021192114A JP 2021143144 A JP2021143144 A JP 2021143144A JP 2021143144 A JP2021143144 A JP 2021143144A JP 2021192114 A JP2021192114 A JP 2021192114A
Authority
JP
Japan
Prior art keywords
identification
voice
model
feature
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021143144A
Other languages
English (en)
Other versions
JP7264957B2 (ja
Inventor
知踐 王
Zhijian Wang
勝 銭
Sheng Qian
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021192114A publication Critical patent/JP2021192114A/ja
Application granted granted Critical
Publication of JP7264957B2 publication Critical patent/JP7264957B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声インタラクション時の応答正確性を向上することができる、音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、識別対象音声を取得することと、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することと、識別特徴に基づいて応答信頼度を取得することと、応答信頼度が所定の応答条件を満たすと判定された場合、識別対象音声に応答することと、を含む。【選択図】図1

Description

本願は、コンピュータ技術分野に関し、特に、音声処理、ディープラーニング技術分野における音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムに関する。
従来技術において音声インタラクションを行う時に、音声への誤った応答を回避するために、音声への応答を行うか否かを音声の信頼度によって判定する必要がある。従来技術では、音声の信頼度を取得する時に、通常、音声自体の特徴又は音声に対応するテキストの特徴により信頼度を取得する。しかし、音声又は音声に対応するテキストのみによって信頼度を取得する時に、取得された信頼度の正確性が通常低く、これにより、音声が誤って応答されて、音声インタラクション時の応答正確性が低下する。
本願が技術課題を解決するために採用する技術手段としては、識別対象音声を取得することと、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することと、前記識別特徴に基づいて応答信頼度を取得することと、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答することとを含む音声インタラクション方法を提供する。
本願が技術課題を解決するために採用する技術手段としては、識別対象音声を取得するための取得手段と、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出するための識別手段と、前記識別特徴に基づいて応答信頼度を取得するための処理手段と、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答するための応答手段とを含む音声インタラクション装置を提供する。
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続するメモリとを含み、前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが上記方法を実行することができることを特徴とする電子機器。
コンピュータに上記方法を実行させるためのコンピュータコマンドを記憶していることを特徴とする非一時的なコンピュータ読取可能な記憶媒体。
プロセッサによって実行される時に、上記音声インタラクション方法が実行されるコンピュータプログラム。
上記発明における一実施例は、本願において音声インタラクション時の応答正確性を向上することができるという利点又は格別な効果を有する。音声を認識する過程で生じる認識特徴を抽出することで応答信頼度を取得するという技術手段を採用したため、従来技術において音声又はテキストのみを利用して信頼度を取得することによる信頼度の正確性が低いという技術課題を克服し、より正確な応答信頼度を取得することができるため、音声インタラクション時の応答正確性を向上した技術効果を奏する。
以下、上記の選択可能な手段が有する他の効果について、具体的な実施例を参照しながら説明する。
図面は、本方案がよりよく理解されるためのものであり、本願に対する限定を構成しない。
図1は本願の第1の実施例による概略図である。 図2は本願の第2の実施例による概略図である。 図3は本願の第3の実施例による概略図である。 図4は本願の実施例の音声インタラクション方法を実現するための電子機器のブロック図である。
以下、図面に合わせて本願の例示的な実施例について説明する。その中、理解に役立つように本願の実施例の各詳細を含み、これらはあくまで例示的なものであると理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることに認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。
図1は、本願の第1の実施例による概略図である。図1に示すように、本実施例の音声インタラクション方法は、具体的には、以下のステップを含んでもよい。
S101において、識別対象音声を取得する。
S102において、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。
S103において、前記識別特徴に基づいて応答信頼度を取得する。
S104において、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答する。
本実施例の音声インタラクション方法は、音声識別モデルが識別対象音声を認識する過程で生じる識別特徴を取得することにより、識別対象音声の応答信頼度を取得し、取得された識別特徴により豊富な情報を含むため、より正確な応答信頼度を取得することができ、応答信頼度の正確性を向上したうえで、識別対象音声への誤った応答を大幅に回避し、音声インタラクション時の応答正確性を向上した。
本実施例の実行主体は、端末機器であってもよく、端末機器は、スマートフォン、スマート家電、スマートスピーカー又は車載音声インタラクション機器などであってもよい。本実施例の実行主体は、端末機器とクラウドサーバとを含んでもよく、端末機器が識別対象音声をクラウドサーバに送信した後、クラウドサーバが音声識別を行い、識別特徴に基づいて取得された応答信頼度を端末機器に返し、端末機器が当該応答信頼度に基づいて識別対象音声に応答するか否かを判定する。
本実施例において、S101を実行して取得された識別対象音声は、ユーザが端末機器と音声インタラクションを行う時に発した音声であり、例えば、識別対象音声は、ユーザが端末機器に発した照会の音声であってもよいし、ユーザが端末機器に発した制御音声であってもよい。
本実施例において、S101を実行して識別対象音声を取得した後、S102を実行して音声識別モデルを利用して識別対象音声の識別結果を取得し、音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。
その中、本実施例における音声識別モデルは、ディープラーニングモデルであり、複数のニューラルネットワーク層を含み、入力された音声に基づいてテキストを出力するために使用される。したがって、本実施例において、S102を実行し、音声識別モデルを利用して識別対象音声の識別結果をテキストとして取得する。
具体的には、本実施例において、S102を実行して音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する時、採用できる選択可能な実現形態は、音声識別モデルが、入力された音声を特徴ベクトルに変換するための入力層と、入力層の特徴ベクトルに対してアテンションメカニズムの算出を行うためのアテンション層と、アテンション層の算出結果をテキストにマッピングするための出力層とを含み、音声識別モデルにおいて出力層より前に位置するアテンション層の識別過程における出力を識別特徴として抽出することである。
その中、本実施例の音声識別モデルにおけるアテンション層は、アテンションメカニズムの算出を1回のみ行ってもよく、アテンションメカニズムの算出を複数回行ってもよい。なお、本実施例において、音声識別モデルのネットワーク構造を限定せず、上記入力層、アテンション層及び出力層のネットワーク構造に加えて、入力層、プーリング層、畳み込み層及び出力層のネットワーク構造であってもよく、入力層、プーリング層、畳み込み層、アテンション層及び出力層のネットワーク構造であってもよい。
すなわち、本実施例で抽出される識別特徴は、音声識別モデルにおいて最後から2番目の層に位置するニューラルネットワーク層の出力であり、最後から2番目の層のニューラルネットワーク層の出力は、出力層がテキストを取得するために使用されるため、この層の出力は、音声がテキストに変換される前の最も包括的な情報をカバーし、音声のみ又はテキストのみから特徴を抽出することと比較して、本実施例で抽出された識別特徴は、より豊富な情報を含み、抽出された識別特徴の正確性を向上した。
本実施例において、S102を実行して音声識別モデルを利用して識別結果と識別特徴とを取得した後、S103を実行して識別特徴に基づいて応答信頼度を取得し、本実施例で取得された応答信頼度は、識別対象音声に応答するか否かを判定するために使用される。
本実施例において、S103を実行する時、識別特徴のみに基づいて応答信頼度を取得することができ、例えば、識別特徴を予めトレーニングされたディープラーニングモデルに入力し、当該ディープラーニングモデルの出力を応答信頼度としてもよいし、他の情報を組み合わせて応答信頼度を取得してもよい。
本実施例では、S103を実行して識別特徴に基づいて応答信頼度を取得した後、S104を実行して応答信頼度が所定の応答条件を満たすと判定された場合、識別対象音声に応答する。その中、本実施例において、識別対象音声に応答することは、識別対象音声に対応する照会結果を取得することであってもよいし、識別対象音声に対応する操作を実行することであってもよい。
本実施例において、S104を実行して応答信頼度が所定の応答条件を満たすかを判定する時、応答信頼度が所定の閾値を超えるか否かを判定してもよく、超えれば、応答信頼度が所定の応答条件を満たすと判定され、超えなければ、満たさないと判定される。
なお、本実施例において、S104を実行して応答信頼度が所定の応答条件を満たさないと判定されると、識別対象音声への応答を行わず、ユーザが再度音声を入力するのを待ってもよいし、ユーザに提示情報を返して、ユーザに再度音声を入力するように促してもよい。
本実施例による上記方法によれば、音声識別モデルが識別対象音声を認識する過程で生じる識別特徴を取得することにより、識別対象音声の応答信頼度を取得し、さらに応答信頼度に基づいて識別対象音声に応答するか否かを判定し、識別特徴により豊富な情報を含むため、より正確な応答信頼度を取得することができ、識別対象音声への誤った応答を回避し、音声インタラクション時の応答正確性を向上した。
図2は、本願の第2の実施例による概略図である。図2に示すように、本実施例の音声インタラクション方法は、具体的には、以下のステップを含んでもよい。
S201において、識別対象音声を取得する。
S202において、音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。
S203において、前記識別結果の分野情報を特定し、前記分野情報と前記識別特徴とに基づいて応答信頼度を取得する。
S204において、前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答する。
すなわち、本実施例の音声インタラクション方法は、音声識別モデルが識別対象音声を認識する過程で生じる識別特徴を取得し、識別対象音声の識別結果に対応する分野情報を組み合わせることにより、識別対象音声の応答信頼度を取得し、応答信頼度を取得するための情報がより豊富であり、取得された応答信頼度の正確性をさらに向上し、音声インタラクション時の応答正確性を向上した。
本実施例において、S203を実行して識別結果の分野情報を特定し、特定された分野情報は、識別結果が属する分野、例えば、金融、科学技術、音楽などの分野を示すために使用される。
具体的には、本実施例において、S203を実行して識別結果の分野情報を特定する時、採用できる選択可能な実現形態は、識別結果を予めトレーニングされた分野識別モデルに入力し、分野識別モデルの出力結果を識別結果の分野情報とすることである。その中、本実施例において、予めトレーニングをすることにより分野識別モデルを取得し、当該分野識別モデルは、入力されたテキストに基づいて、当該テキストに対応する分野情報を出力することができる。
なお、本実施例において、S104を実行して分野情報と識別特徴とに基づいて応答信頼度を取得する時、採用できる選択可能な実現形態は、分野情報と識別特徴とを予めトレーニングされた信頼モデルに入力し、信頼モデルの出力結果を応答信頼度とすることである。その中、本実施例において、予めトレーニングをすることにより信頼モデルを取得し、当該信頼モデルは、入力された分野情報と識別特徴とに基づいて、音声に対応する応答信頼度を出力することができる。
したがって、本実施例において、分野情報と識別特徴との2つの部分のコンテンツを組み合わせて、識別対象音声の応答信頼度を取得することができ、応答信頼度の正確性を向上した。
図3は、本願の第3の実施例による概略図である。図3に示すように、本実施例の音声インタラクション装置は、
識別対象音声を取得するための取得手段301と、
音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出するための識別手段302と、
前記識別特徴に基づいて応答信頼度を取得するための処理手段303と、
前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答するための応答手段304と、を含む。
本実施例において、取得手段301により取得された識別対象音声は、ユーザが端末機器と音声インタラクションを行う時に発した音声であり、例えば、取得手段301は、ユーザが端末機器に発した照会の音声を取得してもよく、ユーザが端末機器に発した制御音声を取得してもよい。
本実施例において、取得手段301により識別対象音声を取得した後、識別手段302により音声識別モデルを利用して識別対象音声の識別結果を取得し、音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する。
その中、本実施例における音声識別モデルは、ディープラーニングモデルであり、複数のニューラルネットワーク層を含み、入力された音声に基づいてテキストを出力するために使用される。したがって、識別手段302は、音声識別モデルを利用して識別対象音声の識別結果をテキストとして取得する。
具体的には、本実施例において、識別手段302により音声識別モデルの出力層の識別過程における入力を識別特徴として抽出する時、採用できる選択可能な実現形態は、音声識別モデルが入力層、アテンション層及び出力層を含み、音声識別モデルにおける出力層の前に位置するアテンション層の識別過程における出力を識別特徴として抽出することである。
その中、本実施例の音声識別モデルにおけるアテンション層は、アテンションメカニズムの算出を1回のみ行ってもよく、アテンションメカニズムの算出を複数回行ってもよい。なお、本実施例において、音声識別モデルのネットワーク構造を限定せず、上記入力層、アテンション層及び出力層のネットワーク構造に加えて、入力層、プーリング層、畳み込み層及び出力層のネットワーク構造であってもよく、入力層、プーリング層、畳み込み層、アテンション層及び出力層のネットワーク構造であってもよい。
本実施例において、識別手段302により音声識別モデルを利用して識別結果と識別特徴とを取得した後、処理手段303により識別特徴に基づいて応答信頼度を取得し、本実施例で取得された応答信頼度は、識別対象音声に応答するか否かを判定するために使用される。
本実施例における処理手段303は、識別特徴のみに基づいて応答信頼度を取得してもよく、例えば、識別特徴を予めトレーニングされたディープラーニングモデルルに入力し、当該ディープラーニングモデルの出力を応答信頼度としてもよいし、他の情報を組み合わせて応答信頼度を取得してもよい。
本実施例における処理手段303が識別特徴に基づいて応答信頼度を取得する時、採用できる選択可能な実現形態は、識別結果の分野情報を特定し、分野情報と識別特徴とに基づいて応答信頼度を取得することである。
本実施例において、処理手段303により識別結果に基づいて特定された分野情報は、識別結果が属する分野、例えば、金融、科学技術、音楽などの分野を示すために使用される。
具体的には、本実施例における処理手段303が識別結果の分野情報を特定する時、採用できる選択可能な実現形態は、識別結果を予めトレーニングされた分野識別モデルに入力し、分野識別モデルの出力結果を識別結果の分野情報とすることである。その中、本実施例において、予めトレーニングをすることにより分野識別モデルを取得し、当該分野識別モデルは、入力されたテキストに基づいて、当該テキストに対応する分野情報を出力することができる。
なお、本実施例における処理手段303が分野情報と識別特徴とに基づいて応答信頼度を取得する時、採用できる選択可能な実現形態は、分野情報と識別特徴とを予めトレーニングされた信頼モデルに入力し、信頼モデルの出力結果を応答信頼度とすることである。その中、本実施例において、予めトレーニングをすることにより信頼モデルを取得し、当該信頼モデルは、入力された分野情報と識別特徴とに基づいて出力音声に対応する応答信頼度を出力することができる。
本実施例において、処理手段303により応答信頼度を取得した後、応答手段304により応答信頼度が所定の応答条件を満たすと判定された場合、識別対象音声に応答する。その中、本実施例において、識別対象音声に応答することは、識別対象音声に対応する照会結果を取得することであってもよいし、識別対象音声に対応する操作を実行することであってもよい。
本実施例における応答手段304は、応答信頼度が所定の応答条件を満たすかを判定する時、応答信頼度が所定の閾値を超えるか否かを判定してもよく、超えれば、応答信頼度が所定の応答条件を満たすと判定し、超えなければ、満たさないと判定する。
なお、本実施例における応答手段304は、応答信頼度が所定の応答条件を満たさないと判定すると、識別対象音声への応答を行わず、ユーザが再度音声を入力するのを待ってもよいし、ユーザに提示情報を返して、ユーザに再度音声を入力するように促してもよい。
本願による実施例によれば、本願は、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムをさらに提供する。
図4に示すように、本願の実施例の音声インタラクション方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はさらに、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似のコンピューティング装置などの様々な形態の移動装置を表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本明細書に記載及び/又は要求される本願の実現を限定することを意図しない。
図4に示すように、当該電子機器は、1又は複数のプロセッサ401と、メモリ402と、高速インターフェースと低速インターフェースとを含む、各コンポーネントを接続するためのインターフェースとを含む。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに実装されてもよく、又は、必要に応じて他の形態で実装されてもよい。プロセッサは、メモリに記憶されて外部入力/出力装置(例えば、インターフェースに結合された表示機器)にGUIのグラフィック情報を表示するコマンドを含む、電子機器内で実行されるコマンドを処理してもよい。他の実施形態において、必要に応じて複数のプロセッサ及び/又は複数のバスを複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続し、各機器が必要な動作の一部(例えば、サーバアレイ、ブレードサーバのセット、又はマルチプロセッサシステム)を提供するようにしてもよい。図4では、1つのプロセッサ401を例とする。
メモリ402は、本願による非一時的なコンピュータ読取可能な記憶媒体である。その中、前記メモリに少なくとも1つのプロセッサによって実行され得るコマンドが記憶されることで、前記少なくとも1つのプロセッサが本願による音声インタラクション方法を実行することができる。本願の非一時的なコンピュータ読取可能な記憶媒体は、コンピュータに本願による音声インタラクション方法を実行させるためのコンピュータコマンドを記憶している。
メモリ402は、非一時的なコンピュータ読取可能な記憶媒体であり、本願の実施例における音声インタラクション表情画像の方法に対応するプログラムコマンド/モジュール(例えば、図3に示す取得手段301、識別手段302、処理手段303及び応答手段304)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために使用されてもよい。プロセッサ401は、メモリ402に記憶された非一時的なソフトウェアプログラム、コマンド及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例における音声インタラクション方法を実現する。
メモリ402は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ402は、高速ランダムアクセスメモリを含んでもよく、例えば、少なくとも1つのディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的な固体メモリデバイスなどの非一時的なメモリをさらに含んでもよい。幾つかの実施例において、メモリ402は、プロセッサ401から遠隔に設けられたメモリを選択的に含み、これら遠隔メモリは、ネットワークを介して音声インタラクション方法の電子機器に接続されてもよい。上記ネットワークの例としては、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
音声インタラクション方法の電子機器は、入力装置403と出力装置404とをさらに含んでもよい。プロセッサ401、メモリ402、入力装置403及び出力装置404は、バス又は他の形態で接続されてもよく、図4では、バスによる接続を例とする。
入力装置403は、入力されたデジタル又は文字情報を受信し、音声インタラクション方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成してもよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置404は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されない。幾つかの実施形態において、表示機器はタッチスクリーンであってもよい。
ここに説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路(ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現され得る。これらの各種実施形態は、1つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この1つ又は複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び/又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とに転送してもよい。
これらの算出プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械コマンドを含み、高級プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施されてもよい。本明細書で使用される用語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」は、機械読取可能な信号である機械コマンドを受信する機械読取可能な媒体を含む、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指す。「機械読取可能な信号」という用語は、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレー)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスシステムにおけるホスト製品の1つであり、従来の物理ホスト及びVPSサービス(「Virtual Private Server」又は「VPSと略称する」)において管理の困難さが大きく、サービスの拡張性が弱いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってもよい。
本願の実施例による技術案によれば、音声認識モデルが識別対象音声を認識する過程で生成された認識特徴を取得することにより、識別対象音声の応答信頼度を取得し、取得された認識特徴により豊富な情報を含むため、より正確な応答信頼度を取得することができ、応答信頼度の正確性を向上したうえで、識別対象音声への誤った応答を大幅に回避し、音声インタラクション時の応答正確性を向上した。
上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。
上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本願の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (13)

  1. 識別対象音声を取得することと、
    音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することと、
    前記識別特徴に基づいて応答信頼度を取得することと、
    前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答することとを含む、音声インタラクション方法。
  2. 前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出することは、
    前記音声識別モデルが入力層、アテンション層及び出力層を含むことと、
    前記音声識別モデルにおける出力層の前に位置するアテンション層の識別過程における出力を前記識別特徴して抽出することとを含む、請求項1に記載の方法。
  3. 前記識別特徴に基づいて応答信頼度を取得することは、
    前記識別結果の分野情報を特定することと、
    前記分野情報と前記識別特徴とに基づいて応答信頼度を取得することとを含む、請求項1に記載の方法。
  4. 前記識別結果の分野情報を特定することは、
    前記識別結果を予めトレーニングされた分野識別モデルに入力し、前記分野識別モデルの出力結果を前記識別結果の分野情報とすることを含む、請求項3に記載の方法。
  5. 前記分野情報と前記識別特徴とに基づいて応答信頼度を取得することは、
    前記分野情報と前記識別特徴とを予めトレーニングされた信頼モデルに入力し、前記信頼モデルの出力結果を前記応答信頼度とすることを含む、請求項3に記載の方法。
  6. 識別対象音声を取得するための取得手段と、
    音声識別モデルを利用して前記識別対象音声の識別結果を取得し、前記音声識別モデルの出力層の識別過程における入力を識別特徴として抽出するための識別手段と、
    前記識別特徴に基づいて応答信頼度を取得するための処理手段と、
    前記応答信頼度が所定の応答条件を満たすと判定された場合、前記識別対象音声に応答するための応答手段と、を含む、音声インタラクション装置。
  7. 前記識別手段は、前記音声識別モデルの出力層の識別過程における入力を識別特徴抽出とする時、具体的に、
    前記音声識別モデルが入力層、アテンション層及び出力層を含むことと、
    前記音声識別モデルにおける出力層の前に位置するアテンション層の識別過程における出力を前記識別特徴として抽出することとを実行する、請求項6に記載の装置。
  8. 前記処理手段は、前記識別特徴に基づいて応答信頼度を取得する時、具体的に、
    前記識別結果の分野情報を特定することと、
    前記分野情報と前記識別特徴とに基づいて応答信頼度を取得することとを実行する、請求項6に記載の装置。
  9. 前記処理手段は、前記識別結果の分野情報を特定する時、具体的に、
    前記識別結果を予めトレーニングされた分野識別モデルに入力し、前記分野識別モデルの出力結果を前記識別結果の分野情報とすることを実行する、請求項8に記載の装置。
  10. 前記処理手段は、前記分野情報と前記識別特徴とに基づいて応答信頼度を取得する時、具体的に、
    前記分野情報と前記識別特徴とを予めトレーニングされた信頼モデルに入力し、前記信頼モデルの出力結果を前記応答信頼度とすることを実行する、請求項8に記載の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続するメモリとを含む電子機器であって、
    前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1〜5のいずれか一項に記載の方法を実行することができる、電子機器。
  12. コンピュータに請求項1〜5のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している非一時的なコンピュータ読取可能な記憶媒体。
  13. プロセッサによって実行される時に、請求項1〜5のいずれか一項に記載の音声インタラクション方法が実行されるコンピュータプログラム。
JP2021143144A 2020-12-01 2021-09-02 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム Active JP7264957B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011388093.1 2020-12-01
CN202011388093.1A CN112466280B (zh) 2020-12-01 2020-12-01 语音交互方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
JP2021192114A true JP2021192114A (ja) 2021-12-16
JP7264957B2 JP7264957B2 (ja) 2023-04-25

Family

ID=74805723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021143144A Active JP7264957B2 (ja) 2020-12-01 2021-09-02 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20220068277A1 (ja)
JP (1) JP7264957B2 (ja)
KR (1) KR20210120936A (ja)
CN (1) CN112466280B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674732B (zh) * 2021-08-16 2022-05-17 北京百度网讯科技有限公司 语音置信度检测方法、装置、电子设备和存储介质
CN114399992B (zh) * 2021-12-03 2022-12-06 北京百度网讯科技有限公司 语音指令响应方法、装置及存储介质
CN114357994A (zh) * 2022-01-06 2022-04-15 京东科技信息技术有限公司 意图识别处理和置信度判断模型的生成方法及装置
KR20240021622A (ko) 2022-08-10 2024-02-19 주식회사 엠티이지 동영상에 포함된 음성 처리 방법 및 서버

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040919A (ja) * 2015-08-20 2017-02-23 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識装置、音声認識方法及び音声認識システム
JP2019086958A (ja) * 2017-11-06 2019-06-06 ヤマハ株式会社 言語解析方法およびプログラム
JP2019219574A (ja) * 2018-06-21 2019-12-26 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
JP2020009264A (ja) * 2018-07-10 2020-01-16 Kddi株式会社 アノテーション支援装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392188B1 (en) * 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
WO2002091355A1 (en) * 2001-05-08 2002-11-14 Intel Corporation High-order entropy error functions for neural classifiers
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN105529028B (zh) * 2015-12-09 2019-07-30 百度在线网络技术(北京)有限公司 语音解析方法和装置
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US11100384B2 (en) * 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
CN108694940B (zh) * 2017-04-10 2020-07-03 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
CN110875039B (zh) * 2018-08-30 2023-12-01 阿里巴巴集团控股有限公司 语音识别方法和设备
CN109036384B (zh) * 2018-09-06 2019-11-15 百度在线网络技术(北京)有限公司 语音识别方法和装置
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN110610707B (zh) * 2019-09-20 2022-04-22 科大讯飞股份有限公司 语音关键词识别方法、装置、电子设备和存储介质
CN110767223B (zh) * 2019-09-30 2022-04-12 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
CN111145748B (zh) * 2019-12-30 2022-09-30 广州视源电子科技股份有限公司 音频识别置信度确定方法、装置、设备及存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
KR20210119181A (ko) * 2020-03-24 2021-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN111402861B (zh) * 2020-03-25 2022-11-15 思必驰科技股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111739521B (zh) * 2020-06-19 2021-06-22 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040919A (ja) * 2015-08-20 2017-02-23 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識装置、音声認識方法及び音声認識システム
JP2019086958A (ja) * 2017-11-06 2019-06-06 ヤマハ株式会社 言語解析方法およびプログラム
JP2019219574A (ja) * 2018-06-21 2019-12-26 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
JP2020009264A (ja) * 2018-07-10 2020-01-16 Kddi株式会社 アノテーション支援装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIANYAN ZHOU, ET AL.: "CNN WITH PHONETIC ATTENTION FOR TEXT-INDEPENDENT SPEAKER VERIFICATION", ASRU 2019, JPN6022045191, December 2019 (2019-12-01), pages 718 - 725, XP033718875, ISSN: 0004904964, DOI: 10.1109/ASRU46091.2019.9003826 *

Also Published As

Publication number Publication date
US20220068277A1 (en) 2022-03-03
CN112466280B (zh) 2021-12-24
CN112466280A (zh) 2021-03-09
JP7264957B2 (ja) 2023-04-25
KR20210120936A (ko) 2021-10-07

Similar Documents

Publication Publication Date Title
US10275022B2 (en) Audio-visual interaction with user devices
JP2021192114A (ja) 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
JP7074964B2 (ja) セッション推奨方法、装置及び電子機器
EP3848819A1 (en) Method and apparatus for retrieving video, device and medium
WO2016206113A1 (en) Technologies for device independent automated application testing
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
JP2021108098A (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
CN111488740A (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
US20210097993A1 (en) Speech recognition control method and apparatus, electronic device and readable storage medium
CN111968631B (zh) 智能设备的交互方法、装置、设备及存储介质
EP3832492A1 (en) Method and apparatus for recommending voice packet, electronic device, and storage medium
JP7267379B2 (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
JP2021114284A (ja) 句読点予測方法および装置
KR20150087665A (ko) 핸드라이팅 정보 운용 방법 및 이를 지원하는 전자 장치
JP2021197157A (ja) キーポイントの特定方法及び装置、機器、記憶媒体
US20210096814A1 (en) Speech control method, speech control device, electronic device, and readable storage medium
CN111708477B (zh) 按键识别方法、装置、设备以及存储介质
CN112133307A (zh) 人机交互方法、装置、电子设备及存储介质
CN116483246A (zh) 一种输入控制方法、装置、电子设备及存储介质
US20210097991A1 (en) Speech control method and apparatus, electronic device, and readable storage medium
CN110674262B (zh) 词语识别方法、装置、电子设备和介质
CN111966432B (zh) 验证码处理方法、装置、电子设备以及存储介质
CN111352685B (zh) 一种输入法键盘的展示方法、装置、设备及存储介质
JP2022020063A (ja) 対話処理方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230413

R150 Certificate of patent or registration of utility model

Ref document number: 7264957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150