JP2021076818A - 音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 - Google Patents

音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2021076818A
JP2021076818A JP2020098617A JP2020098617A JP2021076818A JP 2021076818 A JP2021076818 A JP 2021076818A JP 2020098617 A JP2020098617 A JP 2020098617A JP 2020098617 A JP2020098617 A JP 2020098617A JP 2021076818 A JP2021076818 A JP 2021076818A
Authority
JP
Japan
Prior art keywords
voice
voice signal
possibility
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020098617A
Other languages
English (en)
Other versions
JP7063937B2 (ja
Inventor
ジージャン ワン
Zhijian Wang
ジージャン ワン
ジンフェン バイ
Jinfeng Bai
ジンフェン バイ
シェン チェン
Sheng Qian
シェン チェン
レイ ジア
Lei Jia
レイ ジア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021076818A publication Critical patent/JP2021076818A/ja
Application granted granted Critical
Publication of JP7063937B2 publication Critical patent/JP7063937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】複数の次元から音声対話デバイスが取得した音声信号に応答するか否かを決定することで、より正確で且つインテリジェントに音声対話制御を実現し、ユーザ体験を向上させる。【解決手段】音声対話方法は、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するステップと、音声特徴とテキストに基づき、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するステップと、テキストに基づいて、音声信号が前記実行可能なコマンドである第1の可能性を判定するステップと、音声特徴に基づいて音声信号が実行可能なコマンドである第2の可能性を判定するステップと、類似度、第1の可能性および前記第2の可能性に基づいて、前記音声信号の処理に関する情報を決定するステップと、を備える。【選択図】図2

Description

本開示の実施例は主に人工知能分野に関し、さらに具体的には、音声対話をするための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。
音声対話技術とは、人間が音声で機械と対話する技術であり、自然言語の対話に類似する音声対話体験を実現する。ヒューマンコンピュータインタラクションは、マウス及びキーボードとスクリーンとを協力させることによりインタラクションするコンピュータ時代から、タッチパネルで直接インタラクションするスマートフォン時代に進んで来る。マンマシンインタラクションの方式はますます簡単となり、対話の支障が少なくなる。人工知能及び移動インターネットの発展に伴い、人と人との間の自然言語に類似する音声対話は、徐ヒューマンコンピュータインタラクションの新型の方式になりつつある。音声対話は、入力帯域幅が大きいことと、正確性が高いことと、移動の便利性に優れることと、利用しやすいこと等の利点を兼ね、ヒューマンコンピュータインタラクションに最適な対話方式の一つである。
音声対話によってヒューマンコンピュータインタラクションを実現することで、情報の処理効率を向上させるとともに、ユーザと機械とのインタラクションがより便利になる。しかしながら、このようなインタラクションでは、多くの解決すべき問題がある。
本開示の実施例によれば、音声対話のための方案が提供される。
本開示の第1の態様においては、音声対話の方法を提供する。この方法は、音声対話するための方法であって、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するステップと、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するステップと、テキストに基づいて、音声信号が実行可能なコマンドである第1の可能性を判定するステップと、音声特徴に基づいて、音声信号が前記実行可能なコマンドである第2の可能性を判定するステップと、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定するステップとを含む。
本開示の第2態様においては、音声対話のための装置を提供する。この装置は、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するように配置されるテキスト決定部と、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するように配置される第1の類似度決定部と、テキストに基づいて、前記音声信号が実行可能なコマンドである第1の可能性を判定するように配置される第1の可能性判定部と、音声特徴に基づいて、音声信号が実行可能なコマンドである第2の可能性を判定するように配置される第2の可能性判定部と、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定するように配置される第1の情報決定部とを含む。
本開示の第3態様において、電子機器であって、1または複数のプロセッサと、1または複数のコンピュータプログラムを記憶した記憶装置と、を備え、前記1又は複数のコンピュータプログラムが前記1又は複数のプロセッサにより実行されと、前記1または複数のプロセッサに本開示の第1の態様に記載の方法を実現させる電子機器を提供する。
本開示の第4態様において、プロセッサにより実行されると、本開示の第1の態様に記載の方法を実現するコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
なお、本開示の発明の概要の記述内容は、本開示の実施例の肝要の特徴、又は重要な特徴を限定するためのものではなく、本開示の範囲を限定するためのものでもない。本発明の他の特徴は、以下の記述より容易に理解される。
以下に図面を参照しながら詳細に説明することにより、本開示の各実施例の上記の特徴及び他の特徴、利点はより明らかになる。図面における同様又は類似の符号が同様又は類似の素子を示す。
本開示の複数の実施例を実施可能な環境100を示す模式図である。 本発明の幾つかの実施例に係る音声対話の方法200のフローチャートである。 本発明の幾つかの実施例に係る音声対話の方法300のフローチャートである。 本開示の幾つかの実施例に係る音声対話に用いられる装置400のブロック図である。 本開示の複数の実施例を実施可能なデバイス500のブロック図を示す。
以下は、本発明の実施例について、図面を参照して詳細に説明する。本開示の幾つかの実施例を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に記述の実施例に限定されると解釈されるべきではない。逆に、これらの実施例は、本開示をより完全に理解するためのものである。本開示の図面及び実施例は、本開示の保護範囲を限定するものではなく、例示的なものである。
本開示の実施例の説明において、用語「…を含む」及び類似の用語は、開放的に含むと解釈すべきであり、即ち、「…を含むが、これに限られない」という意味である。用語「…に基づく」は、「…の少なくとも一部に基づく」と解釈されるべきである。また、用語「一実施例」または「当該実施例」は、「少なくとも一つの実施例」として解釈されるべきものである。「第1」、「第2」等の用語は、異なるオブジェクトを意味してもよいし、同一のオブジェクトを意味してもよい。また、以下に他の明確な定義を含む場合もある。
音声対話を実現する時、主に「一回のウェイクアップは、一回の対話」いう方式を採用する。該対話方式は、ウェイクアップワード検出の技術と製品ポリシーとの結合によるものであり、ユーザがデバイスを起動させるウェイクアップワードを発話すると、当該デバイス内蔵されたウェイクアップワード検出モジュールは、該ウェイクアップワード信号を検出し、すると、認識用のリスニングを起動する。音声尾点を検出した場合、又は予め設定された時間に達してリスニングが終了した場合、リスニング期間に受信した音声を認識して、ユーザの要求に応答することを主な特徴とする。
しかし、「一回のウェイクアップは一回のインタラクション」の方式には、様々な問題がある。第一、ユーザがデバイスと対話する度に、ウェイクアップワードを発話する必要があり、毎回の対話が複雑になる。第二、ユーザーがウェイクアップした直後にデバイスに発話しない場合、デバイスが誤応答する恐れがある。また、例えば夜間の休息時間等、適切でない時間に誤ってウェイクアップした場合、ユーザ体験が非常に悪い。
本開示の実施例に基づき、音声インタラクションの改善方法を提供する。この態様では、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストが決定される。そして、音声特徴とテキストとに基づいて、テキスト中の要素についての参照音声特徴と、要素についての音声特徴との類似度を決定する。また、テキストおよび音声の特徴に基づいて、音声信号が実行可能なコマンドである第1の可能性および第2の可能性を判定する。そして、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定する。該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それによりより正確で、スマートに音声対話制御を実現し、ユーザ体験を向上させる。
図1は、本開示の複数の実施例が実施可能な環境100の概略図である。該例示の環境100では、マンマシンインタラクションを行う際に、得られた音声信号110が管理デバイス120に送信される。
音声信号110は、ユーザとの対話を実行する任意の音声対話デバイスにより取得することができる。幾つかの実施例において、ユーザが、音声対話デバイスに対し発話すると、音声110が取得されることができる。幾つかの実施例において、音声対話デバイスがユーザの周囲に存在する場合、ユーザが他の人と対話すると、音声対話デバイスは、音声信号110を取得することができる。幾つかの実施例において、音声信号110は、例えば、テレビ内の発話音声のような、音声対話デバイスにより受信された他の音声信号であってもよい。幾つかの実施例において、音声信号110は、一回のウェイクアップで、複数回の対話を実行する音声対話デバイスによって取得される。上記の例は、本開示を説明するためのものに過ぎず、本開示を具体的に限定するものではない。
音声対話デバイスは、ユーザの音声指示を収集するための、互いに関連する集音器(例えば、1つ又は複数のマイクロフォン)を有してもよい。音声対話デバイスは、音声を再生するための、互いに関連する音響再生装置(例えば、1または複数のスピーカ)をさらに備えてもよい。
音声対話デバイスは、音声信号を介して制御及び/又は対話を行う可能であれば、如何なる電子デバイスであってもよい。音声対話デバイスは、例として、スマートボックス、音声対話テレビボックス、スマート家電、音声個人指導機、スマートロボット、地図ナビゲーションデバイス、スマートウェアラブルデバイス等が挙げられるが、それらに限られまい。音声対話デバイスは、音声対話アプリケーションがインストールされた他の電子装置であってもよい。音声対話アプリケーションは、例えば、音声アシスタントアプリケーション、スマートカーシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオ・ビデオ再生アプリケーション、スマートアシスタントアプリケーションなどであってもよい。このような音声対話アプリケーションがインストールされる電子デバイスは、例として、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット端末、インターネットノード、通信装置、デスクトップコンピュータ、ノート型コンピュータ、インタネットにアクセス可能なノートブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーション装置、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤ、デジタルカメラ/ビデオカメラ、測位装置、電子ブック装置、ゲーム装置又は上記各項目の任意の組み合わせが挙げられるが、それらに限られない。
例えば、音声対話デバイスがスマートボックスである場合、音声指令は「***歌手の歌を再生してください」などであってもよく、音声対話デバイスは、音声信号が正しく認識された後に、対応する歌を検索してユーザのために再生することができる。
音声対話デバイスと対話する際に、一般的に、ウェイクアップワードを用いて、音声対話デバイスを対話状態とするようにウェイクアップする必要がある。音声対話デバイスは、一回のウェイクアップで複数回の対話をサポートすることができる。一回のウェイクアップで複数回の対話の場合では、一旦、音声対話デバイスがウェイクアップされた後、例えば音声を発しているなど、デバイスが動作状態にあれば、ユーザは、再びウェイクアップワードを発することなく、直接音声インタラクションデバイスと対話することができる。これにより、対話の支障が低減し、ユーザの対話の意欲が向上する。幾つかの実施例において、対話は、例えば、電気の問い合わせ等のような問い合わせのカテゴリに属する場合、音声対話デバイスの回答が完了してから一定の期間(例えば一日)内に、ユーザは、デバイスを再びウェイクアップすることなく、対話を継続することができる。
音声信号110は、管理デバイス120に送信され、処理される。管理デバイス120は、受信した音声信号110に基づいて、音声信号110が、ユーザにより発され、音声対話デバイスにより実行されるコマンドであるか否かを判断する。肯定である場合、管理デバイス120は、実行の指令を含む情報130、或いは、請求されるコンテンツを含む情報130を音声対話デバイスに処理させるように送信する。
幾つかの実施例において、管理デバイス120は、クラウド側に位置する計算装置であり、音声対話デバイスからアップロードされた音声データを処理するために用いられる。幾つかの実施例において、管理デバイス120は、音声対話デバイスと同一のデバイスである。これにより、音声信号110は、音声信号110を受信した音声対話デバイスにより処理されることも可能である。音声対話デバイスは、音声信号110により実行されるコマンドであるか否かを直接認識する。幾つかの実施例において、管理デバイス120は、パーソナルコンピュータ、サーバコンピュータ、携帯型又は膝上型のデバイス、モバイルデバイス(例えば携帯電話、PDA(Personal Digital Assistant)、メディアプレーヤ等)、マルチプロセッサシステム、消費電子製品、小型コンピュータ、大型コンピュータ、これらのシステム又はデバイスのうちのいずれかを含む分散計算環境等を含むがこれらに限られない。
なお、図1に示した環境は例示的なものに過ぎず、本発明を具体的に限定するものではないと理解されるべきである。
以上、図1に、本開示の複数の実施例が実施可能な環境100の模式図が示される。次に、図2を参照しながら、本開示の幾つかの実施例に係る音声対話方法200のフローチャートについて説明する。方法200は、図1の管理デバイス120や他の任意の適切な装置で実施することができる。
ステップ202において、管理デバイス120は、受信した音声信号110の音声特徴に基づいて、音声信号110に対応するテキストを決定する。管理デバイス120は、受信した音声信号110に対して、音声認識器を用いて音声認識処理を行う。音声認識器により、受信した音声信号110を音声信号110に対応するテキストとして認識することができる。幾つかの実施例において、音声信号110は様々な音声特徴を含むことができ、音声特徴は、例えば、声紋特徴、イントネーション特徴、又は音声を記述する他の適切な特徴であってもよいが、それらに限らない。なお、上述した音声特徴の例は、本開示の実施の形態を説明するためのものであり、本開示の具体的な限定を表すものではない。
管理デバイス120は、音声信号110を受信する。幾つかの実施例において、管理デバイス120は、音声信号110を処理する装置である場合、管理デバイス120は、音声対話デバイスによりリアルタイムにアップロードされる音声信号110を受信するために用いられる。幾つかの実施例において、管理デバイス120は音声対話デバイスと同一のものであり、音声対話デバイスにおいて直接処理する。
また、管理デバイス120は、声認識器により、音受信した音声信号110から音声特徴を抽出する。音声認識器は、音声信号110に対応するテキストを生成する際にも、抽出される音声特徴を必要とする。幾つかの実施例において、該音声特徴はメルケプストラム係数MFCC特徴である。上記の例は、本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、どのようなパラメータで音声特徴を表すかについて、必要に応じて任意に設定することができる。
ボックス204では、管理デバイス120は、音声特徴とテキストとに基づいて、テキスト中の要素の参照音声特徴と、その要素に関する目標音声特徴との類似度を決定する。幾つかの実施例において、該要素は、テキスト中の字を指す。幾つかの実施例において、該要素はテキストにおける一つの音節を指す。幾つかの実施例において、当該要素はテキスト中の一つの文字を指す。上記の例は本開示を説明するためのものであり、本開示を具体的に限定するものではない。
幾つかの実施例において、管理デバイス120は音声特徴から、テキストにおける要素に対応する参照音声特徴を特定する。管理デバイス120内のアライメント識別器は、識別されたテキストを用いて、テキスト内の各要素に対応する音声特徴を特定する。
アライメント識別器は、各要素に対応する音声特徴を特定する際に、各要素に対応する基準の音声特徴を取得する。その後、取得された基準の音声特徴と音声特徴とを比較し、各要素に対応する目標音声特徴の開始時刻及び終了時刻を特定する。これにより、アライメント識別器は、テキスト中の要素に対応する開始時刻と終了時刻とから定まる所定時間を有する目標音声特徴を得ることができる。
管理デバイス120は、要素に対応する基準の音声特徴と目標音声特徴とに基づいて、基準の音声特徴と目標音声特徴との類似度を決定する。
管理デバイス120は、各要素に対応する目標音声特徴を取得した後、事前に訓練されたニューラルネットワークモデルに、目標音声特徴と基準音声特徴とを入力して、基準音声特徴と目標音声特徴との類似度を決定する。幾つかの実施例において、目標音声特徴と参照音声特徴との類似度が高い場合、認識された字が正確であることである。類似度が低い場合、認識されたワードが正確ではないことである。そして、要素毎の類似度に基づいて、取得されたテキスト内の要素全体の類似度を決定する。1つの実施形態において、要素全体の類似度は、各要素の類似度を合計し、そして平均化することにより決定することができる。
ステップ206において、管理デバイス120は、テキストに基づいて、音声信号110が実行可能なコマンドである第1の可能性を判定する。管理デバイス120は、テキスト全体に基づいて、受信した音声信号110が音声対話デバイスと対話しようとする音声信号であるか否かを判断する。
テキストによって音声信号が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルによって実施される。該ニューラルネットワークモデルはニューラルネットワークNN、コンボリューションニューラルネットワークCNN又は再帰的ニューラルネットワークRNN等であってもよい。
このニューラルネットワークモデルを訓練する際には、音声対話デバイスと音声対話するための音声のテキストをポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声のテキストをネガティブサンプルとして訓練する。したがって、テキストを事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためものであることの信頼度値、即ち、第1の可能性を決定することができる。幾つかの実施例において、第1の可能性の値は0〜1の間である。
ステップ208において、管理デバイス120は、音声特徴に基づいて、音声信号110が実行可能なコマンドである第2の可能性を判定する。
音声特徴により音声信号110が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルにより実施される。該ニューラルネットワークモデルはニューラルネットワークNN、コンボリューションニューラルネットワークCNN又は再帰ニューラルネットワークRNN等であってもよい。幾つかの実施例において、使用される音声特徴はメルケプストラム係数MFCC特徴である。
このニューラルネットワークモデルを訓練する際に、音声対話デバイスと音声対話するための音声の音声特徴をポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声の音声特徴をネガティブサンプルとして訓練する。したがって、音声特徴を事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためのものであることの信頼度値、即ち、第2の可能性を判定することができる。
ブロック210では、管理デバイス120は、類似度、第1の可能性、および第2の可能性に基づいて、音声信号110の処理に関する情報130を決定する。
管理デバイス120は、取得したテキスト要素との類似度、第1の可能性、第2の可能性を融合して、音声信号110が音声対話デバイスと対話する音声信号であるか否かを判定する。次に、図3を参照して、類似度、第1の可能性、および第2の可能性に基づいて、音声信号110の処理に関する情報を決定する処理の詳細について説明する。
該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それにより、さらに正確で且つスマートな音声対話制御を実現でき、ユーザ体験を向上させる。
以上、図2を参照しながら、本発明の幾つかの実施例に係る音声対話方法200のフローチャートについて説明した。次に、図3を参照して、図2のブロック210における音声信号の処理に関する情報を決定する処理の詳細について説明する。図3は、本開示の幾つかの実施例に係る音声対話方法300のフローチャートを示す。図3の方法300は、図1の管理デバイス120や他の任意の適切な装置で実行することができる。
ステップ302において、管理デバイス120は、類似度、第1の可能性、第2の可能性に基づいて、音声信号110が実行可能なコマンドであるか否かを判定する。管理デバイス120は、類似度、第1の可能性、第2の可能性を取得する際に、類似度の第1の閾値、第1の可能性の第2の閾値、第2の可能性の第3の閾値を取得してもよい。幾つかの実施例において、第1の閾値は0.5とし、第2の閾値は0.3とし、第3の閾値は0.8とする。
幾つかの実施例において、類似度が第1の閾値より大きくなり、第1の可能性が第2の閾値より大きくなり、且つ、第2の可能性が第3の閾値より大きくなる場合、音声信号110が実行可能なコマンドであると判定し、即ち、音声信号110が音声対話デバイスと対話するためのものであると判定する。
幾つかの実施例において、類似度、第1の可能性、及び第2の可能性の三つのうちの二つの値が、対応する閾値より大きくなり、且つ閾値よりも所定の割合高い場合(例えば閾値より20%高い場合)、該音声信号110が実行可能なコマンドであると判定し、即ち、音声信号110が音声対話デバイスと対話するためのものであると判定する。
音声信号110が実行可能なコマンドではないと判定された場合、即ち、音声信号110が音声対話デバイスと対話するものではないと判定された場合、該音声信号110に対して処理を行わない。
音声信号110が実行可能なコマンドであると判定された場合、ステップ304において、管理デバイス120は、音声信号110に対して意味解析を行う。音声信号110が音声対話デバイスと対話するためであると判定された場合、該音声信号110に対してさらに処理を行う必要がある。
ステップ306において、管理デバイス120は、意味解析の結果に基づいて、音声信号110に対応する処理モデルを決定する。
一実施例において、管理デバイス120は、意味解析の結果に基づいて、テキストに関連する分野を判定する。幾つかの実施例において、テキストに関連する分野を確定するプロセスも事前に訓練されたニューラルネットワークモデルによって実施される。このニューラルネットワークモデルを訓練する際に所定のテキスト及びその対応する分野を使用して訓練する。該ニューラルネットワークモデルを訓練した後、テキストをニューラルネットワークモデルに入力して、テキストに対応する分野を直接取得することができる。
管理デバイス120は、候補モデルのセットの中から、分野に対応する処理モデルを選出する。管理デバイス120は、テキストの分野を特定すると、候補モデルのセットの中から、その分野に対応するモデルを選択する。幾つかの実施例において、該モデルはニューラルネットワークモデルである。このモデルを訓練する際に、意味に応じてコマンドを実行する必要があると判断されたテキストをポジティブサンプルとし、意味に応じて実行する必要がないと判断されたテキストをネガティブサンプルとする。
ブロック308では、管理デバイス120は、処理モデルにより、テキストを用いて、音声信号110の処理に関する情報130を決定し、情報130は、音声信号110を処理するか否かを示す。
テキストがニューラルネットワークモデルに入力すると、その意味から、当該テキストが、実行されるコマンドである可能性を判定することができる。一実施例において、可能性の値は0〜1の間である。可能性が1に近い場合は、実行可能なコマンドであることである、0に近い場合は、実行可能なコマンドではないことである。
実行されるコマンドであるか否かの判定は、必要に応じて所定の閾値を設定することにより行うことができる。実行されるコマンドであれば、対応する動作を実行する。実行されるコマンドではない場合、何の動作もしない。
上述した方法によれば、音声対話デバイスと対話する音声であるか否かを判定した後、さらに意味に基づいて動作するか否かを決定することができる。これにより、音声対話時の音声コマンドの実行の正確性が向上し、音声コマンドを誤って実行してしまうことを抑制し、ユーザ体験を改善することができる。
図4は、本開示の実施例に係る音声対話装置400の概略ブロック図である。図4に示すように、装置400は、受信した音声信号の音声特徴に基づいて、当該音声信号に対応するテキストを決定するテキスト決定部402を備えてもよい。また、装置400は、前記音声特徴と前記テキストとに基づいて、前記テキスト中の要素の基準音声特徴と前記音声特徴中の要素の目標音声特徴との類似度を判定する第1の類似度判定部404をさらに備えていてもよい。また、装置400は、テキストに基づいて、音声信号が実行可能なコマンドである第1の可能性を判定する第1の可能性判定部406をさらに備えていてもよい。また、装置400は、前記音声特徴に基づいて、前記音声信号が実行可能なコマンドである第2の可能性を判定する第2の可能性判定部408をさらに備えていてもよい。また、装置400は、類似度、第1の可能性、および第2の可能性に基づいて、音声信号の処理に関する情報を決定する第1の情報決定部410をさらに備えていてもよい。
幾つかの実施形態では、第1の類似度判定部404は、音声特徴の中から、テキスト中の要素に対応する参照用音声特徴を特定する参照用音声特徴判定部と、要素に対する参照用音声特徴と目標音声特徴とに基づいて、参照用音声特徴と目標音声特徴との類似度を判定する第2の類似度判定部とを含む。
第1の情報判定部410は、類似度、第1の可能性、第2の可能性に基づいて、音声信号が実行可能なコマンドであるか否かを判定する第1の実行可能コマンド判定部と、音声信号が実行可能なコマンドであると判定された場合に、当該音声信号に対して意味解析を行う意味解析部と、意味解析の結果に基づいて、当該音声信号に対応する処理モデルを決定する第1の処理モデル決定部と、処理モデルにより、テキストを用いることにより、当該音声信号に対する処理に関する情報を決定する第2の情報判定部とを含む。当該情報は、当該音声信号を処理するか否かを示すものである。
幾つかの実施例において、第1の実行可能コマンド判定部は、類似度が第1の閾値より大きくなり、第1の可能性が第2の閾値より大きくなり、且つ第2の可能性が第3の閾値より大きくなることに応答し、音声信号が前記実行可能なコマンドであると判定する第2の実行可能コマンド判定部を含む。
幾つかの実施例では、前記第1の処理モデル決定部は分野決定部を含み、それは意味解析の結果に基づき、テキストに関連する分野を決定するように構成される。及び第2の処理モデル決定部であって、それは一組の候補モデルから分野の処理モデルを選択するように構成される。
ある実施形態において、音声対話装置400は、音声信号を受信する受信部と、受信した音声信号から音声特徴を抽出する抽出部とをさらに備える。
図5は、本開示の一実施形態に係る電子デバイス500の概略構成を示すブロック図である。電子デバイス500は、図1の管理デバイス120を実現するために利用することができる。同図に示すように、この装置500は、ROM(Read Only Memory)502に記憶されているコンピュータプログラム指令、または記憶部508からRAM (Random Access Memory)503にロードされたコンピュータプログラム指令に基づいて、各種の動作および処理を実行可能な演算部501を備えている。また、RAM503には、装置500の動作に必要な各種プログラムやデータが記憶されている。演算部501、ROM502、およびRAM503は、バス504を介して相互に接続されている。バス504には、入出力(I/O)インタフェース505も接続されている。
I/Oインタフェース505には、例えば、キーボード、マウスなどの入力部506と、例えば、各種のディスプレイ、スピーカなどの出力部507と、例えば、磁気ディスク、光ディスクなどの記憶部508と、例えば、ネットワークカード、モデム、無線通信送受信機などの通信部509とを含むデバイス500の複数の部分が接続されている。通信部509は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データのやり取りを行うに用いられる。
演算部501は、様々な処理や演算機能を有する汎用的及び/又は専用的な処理コンポーネントであってよい。演算部501の例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、各種専用のAI(Asymmetric Intellite)演算チップ、各種動作機械学習モデルアルゴリズムの演算部、DSP(Digital Signal Processor)、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。演算部501は、上述した方法200、300等の各方法、処理を実行する。例えば、実施形態において、方法200及び300は、記憶部508等の機械可読媒体に格納されたコンピュータソフトウェアプログラムとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ROM502や通信部509を介して装置500にロードしたり、装置500にインストールしたりすることも可能である。コンピュータプログラムをRAM503にロードして演算装置501で実行することにより、上述した方法200、300の各ステップを実行することができる。また、他の実施形態において、演算部501は、実行方法500として、例えばファームウェアを利用するなど、他の任意の方法により構成されてもよい。
なお、上述した各機能の少なくとも一部は、1または複数のハードウェア・ロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、オンチップシステムのシステム(SOC)、負荷プログラマブルロジックデバイス(CPLD)などを含む。
本発明の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び/又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。
本発明において、機械可読媒体は、コマンド実行システム、装置又は装置が使用する、又はコマンド実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、1又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去及び書換可能なリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯可能なCD−ROM、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。
また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並列処理が有利であると考えられる。同様に、上記において幾つかの具体的な実現詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて1つの実施の形態としてもよい。逆に、1つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。
本開示の実施例は主に人工知能分野に関し、さらに具体的には、音声対話をするための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。
音声対話技術とは、人間が音声で機械と対話する技術であり、自然言語の対話に類似する音声対話体験を実現する。ヒューマンコンピュータインタラクションは、マウス及びキーボードとスクリーンとを協力させることによりインタラクションするコンピュータ時代から、タッチパネルで直接インタラクションするスマートフォン時代に進んで来る。マンマシンインタラクションの方式はますます簡単となり、対話の支障が少なくなる。人工知能及び移動インターネットの発展に伴い、人と人との間の自然言語に類似する音声対話は、徐ヒューマンコンピュータインタラクションの新型の方式になりつつある。音声対話は、入力帯域幅が大きいことと、正確性が高いことと、移動の便利性に優れることと、利用しやすいこと等の利点を兼ね、ヒューマンコンピュータインタラクションに最適な対話方式の一つである。
音声対話によってヒューマンコンピュータインタラクションを実現することで、情報の処理効率を向上させるとともに、ユーザと機械とのインタラクションがより便利になる。しかしながら、このようなインタラクションでは、多くの解決すべき問題がある。
本開示の実施例によれば、音声対話のための方案が提供される。
本開示の第1の態様においては、音声対話の方法を提供する。この方法は、音声対話するための方法であって、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するステップと、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するステップと、テキストに基づいて、音声信号が実行可能なコマンドである第1の可能性を判定するステップと、音声特徴に基づいて、音声信号が前記実行可能なコマンドである第2の可能性を判定するステップと、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定するステップとを含む。
本開示の第2態様においては、音声対話のための装置を提供する。この装置は、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストを決定するように配置されるテキスト決定部と、音声特徴とテキストに基づいて、テキストにおける要素の参照音声特徴と要素の目標音声特徴との間の類似度を決定するように配置される第1の類似度決定部と、テキストに基づいて、前記音声信号が実行可能なコマンドである第1の可能性を判定するように配置される第1の可能性判定部と、音声特徴に基づいて、音声信号が実行可能なコマンドである第2の可能性を判定するように配置される第2の可能性判定部と、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定するように配置される第1の情報決定部とを含む。
本開示の第3態様において、電子機器であって、1または複数のプロセッサと、1または複数のコンピュータプログラムを記憶した記憶装置と、を備え、前記1又は複数のコンピュータプログラムが前記1又は複数のプロセッサにより実行されと、前記1または複数のプロセッサに本開示の第1の態様に記載の方法を実現させる電子機器を提供する。
本開示の第4態様において、プロセッサにより実行されると、本開示の第1の態様に記載の方法を実現するコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
なお、本開示の発明の概要の記述内容は、本開示の実施例の肝要の特徴、又は重要な特徴を限定するためのものではなく、本開示の範囲を限定するためのものでもない。本発明の他の特徴は、以下の記述より容易に理解される。
本開示の第5態様において、プロセッサにより実行されると、本開示の第1の態様に記載の方法を実現するコンピュータプログラムを提供する。
以下に図面を参照しながら詳細に説明することにより、本開示の各実施例の上記の特徴及び他の特徴、利点はより明らかになる。図面における同様又は類似の符号が同様又は類似の素子を示す。
本開示の複数の実施例を実施可能な環境100を示す模式図である。 本発明の幾つかの実施例に係る音声対話の方法200のフローチャートである。 本発明の幾つかの実施例に係る音声対話の方法300のフローチャートである。 本開示の幾つかの実施例に係る音声対話に用いられる装置400のブロック図である。 本開示の複数の実施例を実施可能なデバイス500のブロック図を示す。
以下は、本発明の実施例について、図面を参照して詳細に説明する。本開示の幾つかの実施例を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に記述の実施例に限定されると解釈されるべきではない。逆に、これらの実施例は、本開示をより完全に理解するためのものである。本開示の図面及び実施例は、本開示の保護範囲を限定するものではなく、例示的なものである。
本開示の実施例の説明において、用語「…を含む」及び類似の用語は、開放的に含むと解釈すべきであり、即ち、「…を含むが、これに限られない」という意味である。用語「…に基づく」は、「…の少なくとも一部に基づく」と解釈されるべきである。また、用語「一実施例」または「当該実施例」は、「少なくとも一つの実施例」として解釈されるべきものである。「第1」、「第2」等の用語は、異なるオブジェクトを意味してもよいし、同一のオブジェクトを意味してもよい。また、以下に他の明確な定義を含む場合もある。
音声対話を実現する時、主に「一回のウェイクアップは、一回の対話」いう方式を採用する。該対話方式は、ウェイクアップワード検出の技術と製品ポリシーとの結合によるものであり、ユーザがデバイスを起動させるウェイクアップワードを発話すると、当該デバイス内蔵されたウェイクアップワード検出モジュールは、該ウェイクアップワード信号を検出し、すると、認識用のリスニングを起動する。音声尾点を検出した場合、又は予め設定された時間に達してリスニングが終了した場合、リスニング期間に受信した音声を認識して、ユーザの要求に応答することを主な特徴とする。
しかし、「一回のウェイクアップは一回のインタラクション」の方式には、様々な問題がある。第一、ユーザがデバイスと対話する度に、ウェイクアップワードを発話する必要があり、毎回の対話が複雑になる。第二、ユーザーがウェイクアップした直後にデバイスに発話しない場合、デバイスが誤応答する恐れがある。また、例えば夜間の休息時間等、適切でない時間に誤ってウェイクアップした場合、ユーザ体験が非常に悪い。
本開示の実施例に基づき、音声インタラクションの改善方法を提供する。この態様では、受信した音声信号の音声特徴に基づいて、音声信号に対応するテキストが決定される。そして、音声特徴とテキストとに基づいて、テキスト中の要素についての参照音声特徴と、要素についての音声特徴との類似度を決定する。また、テキストおよび音声の特徴に基づいて、音声信号が実行可能なコマンドである第1の可能性および第2の可能性を判定する。そして、類似度と、第1の可能性と、第2の可能性とに基づいて、音声信号の処理に関する情報を決定する。該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それによりより正確で、スマートに音声対話制御を実現し、ユーザ体験を向上させる。
図1は、本開示の複数の実施例が実施可能な環境100の概略図である。該例示の環境100では、マンマシンインタラクションを行う際に、得られた音声信号110が管理デバイス120に送信される。
音声信号110は、ユーザとの対話を実行する任意の音声対話デバイスにより取得することができる。幾つかの実施例において、ユーザが、音声対話デバイスに対し発話すると、音声110が取得されることができる。幾つかの実施例において、音声対話デバイスがユーザの周囲に存在する場合、ユーザが他の人と対話すると、音声対話デバイスは、音声信号110を取得することができる。幾つかの実施例において、音声信号110は、例えば、テレビ内の発話音声のような、音声対話デバイスにより受信された他の音声信号であってもよい。幾つかの実施例において、音声信号110は、一回のウェイクアップで、複数回の対話を実行する音声対話デバイスによって取得される。上記の例は、本開示を説明するためのものに過ぎず、本開示を具体的に限定するものではない。
音声対話デバイスは、ユーザの音声指示を収集するための、互いに関連する集音器(例えば、1つ又は複数のマイクロフォン)を有してもよい。音声対話デバイスは、音声を再生するための、互いに関連する音響再生装置(例えば、1または複数のスピーカ)をさらに備えてもよい。
音声対話デバイスは、音声信号を介して制御及び/又は対話を行う可能であれば、如何なる電子デバイスであってもよい。音声対話デバイスは、例として、スマートボックス、音声対話テレビボックス、スマート家電、音声個人指導機、スマートロボット、地図ナビゲーションデバイス、スマートウェアラブルデバイス等が挙げられるが、それらに限られまい。音声対話デバイスは、音声対話アプリケーションがインストールされた他の電子装置であってもよい。音声対話アプリケーションは、例えば、音声アシスタントアプリケーション、スマートカーシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオ・ビデオ再生アプリケーション、スマートアシスタントアプリケーションなどであってもよい。このような音声対話アプリケーションがインストールされる電子デバイスは、例として、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット端末、インターネットノード、通信装置、デスクトップコンピュータ、ノート型コンピュータ、インタネットにアクセス可能なノートブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーション装置、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤ、デジタルカメラ/ビデオカメラ、測位装置、電子ブック装置、ゲーム装置又は上記各項目の任意の組み合わせが挙げられるが、それらに限られない。
例えば、音声対話デバイスがスマートボックスである場合、音声指令は「***歌手の歌を再生してください」などであってもよく、音声対話デバイスは、音声信号が正しく認識された後に、対応する歌を検索してユーザのために再生することができる。
音声対話デバイスと対話する際に、一般的に、ウェイクアップワードを用いて、音声対話デバイスを対話状態とするようにウェイクアップする必要がある。音声対話デバイスは、一回のウェイクアップで複数回の対話をサポートすることができる。一回のウェイクアップで複数回の対話の場合では、一旦、音声対話デバイスがウェイクアップされた後、例えば音声を発しているなど、デバイスが動作状態にあれば、ユーザは、再びウェイクアップワードを発することなく、直接音声インタラクションデバイスと対話することができる。これにより、対話の支障が低減し、ユーザの対話の意欲が向上する。幾つかの実施例において、対話は、例えば、電気の問い合わせ等のような問い合わせのカテゴリに属する場合、音声対話デバイスの回答が完了してから一定の期間(例えば一日)内に、ユーザは、デバイスを再びウェイクアップすることなく、対話を継続することができる。
音声信号110は、管理デバイス120に送信され、処理される。管理デバイス120は、受信した音声信号110に基づいて、音声信号110が、ユーザにより発され、音声対話デバイスにより実行されるコマンドであるか否かを判断する。肯定である場合、管理デバイス120は、実行の指令を含む情報130、或いは、請求されるコンテンツを含む情報130を音声対話デバイスに処理させるように送信する。
幾つかの実施例において、管理デバイス120は、クラウド側に位置する計算装置であり、音声対話デバイスからアップロードされた音声データを処理するために用いられる。幾つかの実施例において、管理デバイス120は、音声対話デバイスと同一のデバイスである。これにより、音声信号110は、音声信号110を受信した音声対話デバイスにより処理されることも可能である。音声対話デバイスは、音声信号110により実行されるコマンドであるか否かを直接認識する。幾つかの実施例において、管理デバイス120は、パーソナルコンピュータ、サーバコンピュータ、携帯型又は膝上型のデバイス、モバイルデバイス(例えば携帯電話、PDA(Personal Digital Assistant)、メディアプレーヤ等)、マルチプロセッサシステム、消費電子製品、小型コンピュータ、大型コンピュータ、これらのシステム又はデバイスのうちのいずれかを含む分散計算環境等を含むがこれらに限られない。
なお、図1に示した環境は例示的なものに過ぎず、本発明を具体的に限定するものではないと理解されるべきである。
以上、図1に、本開示の複数の実施例が実施可能な環境100の模式図が示される。次に、図2を参照しながら、本開示の幾つかの実施例に係る音声対話方法200のフローチャートについて説明する。方法200は、図1の管理デバイス120や他の任意の適切な装置で実施することができる。
ステップ202において、管理デバイス120は、受信した音声信号110の音声特徴に基づいて、音声信号110に対応するテキストを決定する。管理デバイス120は、受信した音声信号110に対して、音声認識器を用いて音声認識処理を行う。音声認識器により、受信した音声信号110を音声信号110に対応するテキストとして認識することができる。幾つかの実施例において、音声信号110は様々な音声特徴を含むことができ、音声特徴は、例えば、声紋特徴、イントネーション特徴、又は音声を記述する他の適切な特徴であってもよいが、それらに限らない。なお、上述した音声特徴の例は、本開示の実施の形態を説明するためのものであり、本開示の具体的な限定を表すものではない。
管理デバイス120は、音声信号110を受信する。幾つかの実施例において、管理デバイス120は、音声信号110を処理する装置である場合、管理デバイス120は、音声対話デバイスによりリアルタイムにアップロードされる音声信号110を受信するために用いられる。幾つかの実施例において、管理デバイス120は音声対話デバイスと同一のものであり、音声対話デバイスにおいて直接処理する。
また、管理デバイス120は、声認識器により、音受信した音声信号110から音声特徴を抽出する。音声認識器は、音声信号110に対応するテキストを生成する際にも、抽出される音声特徴を必要とする。幾つかの実施例において、該音声特徴はメルケプストラム係数MFCC特徴である。上記の例は、本開示を説明するためのものであり、本開示を具体的に限定するものではない。当業者は、どのようなパラメータで音声特徴を表すかについて、必要に応じて任意に設定することができる。
ボックス204では、管理デバイス120は、音声特徴とテキストとに基づいて、テキスト中の要素の参照音声特徴と、その要素に関する目標音声特徴との類似度を決定する。幾つかの実施例において、該要素は、テキスト中の字を指す。幾つかの実施例において、該要素はテキストにおける一つの音節を指す。幾つかの実施例において、当該要素はテキスト中の一つの文字を指す。上記の例は本開示を説明するためのものであり、本開示を具体的に限定するものではない。
幾つかの実施例において、管理デバイス120は音声特徴から、テキストにおける要素に対応する参照音声特徴を特定する。管理デバイス120内のアライメント識別器は、識別されたテキストを用いて、テキスト内の各要素に対応する音声特徴を特定する。
アライメント識別器は、各要素に対応する音声特徴を特定する際に、各要素に対応する基準の音声特徴を取得する。その後、取得された基準の音声特徴と音声特徴とを比較し、各要素に対応する目標音声特徴の開始時刻及び終了時刻を特定する。これにより、アライメント識別器は、テキスト中の要素に対応する開始時刻と終了時刻とから定まる所定時間を有する目標音声特徴を得ることができる。
管理デバイス120は、要素に対応する基準の音声特徴と目標音声特徴とに基づいて、基準の音声特徴と目標音声特徴との類似度を決定する。
管理デバイス120は、各要素に対応する目標音声特徴を取得した後、事前に訓練されたニューラルネットワークモデルに、目標音声特徴と基準音声特徴とを入力して、基準音声特徴と目標音声特徴との類似度を決定する。幾つかの実施例において、目標音声特徴と参照音声特徴との類似度が高い場合、認識された字が正確であることである。類似度が低い場合、認識されたワードが正確ではないことである。そして、要素毎の類似度に基づいて、取得されたテキスト内の要素全体の類似度を決定する。1つの実施形態において、要素全体の類似度は、各要素の類似度を合計し、そして平均化することにより決定することができる。
ステップ206において、管理デバイス120は、テキストに基づいて、音声信号110が実行可能なコマンドである第1の可能性を判定する。管理デバイス120は、テキスト全体に基づいて、受信した音声信号110が音声対話デバイスと対話しようとする音声信号であるか否かを判断する。
テキストによって音声信号が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルによって実施される。該ニューラルネットワークモデルはニューラルネットワークNN、コンボリューションニューラルネットワークCNN又は再帰的ニューラルネットワークRNN等であってもよい。
このニューラルネットワークモデルを訓練する際には、音声対話デバイスと音声対話するための音声のテキストをポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声のテキストをネガティブサンプルとして訓練する。したがって、テキストを事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためものであることの信頼度値、即ち、第1の可能性を決定することができる。幾つかの実施例において、第1の可能性の値は0〜1の間である。
ステップ208において、管理デバイス120は、音声特徴に基づいて、音声信号110が実行可能なコマンドである第2の可能性を判定する。
音声特徴により音声信号110が実行可能なコマンドであることを確定する処理も事前に訓練されたニューラルネットワークモデルにより実施される。該ニューラルネットワークモデルはニューラルネットワークNN、コンボリューションニューラルネットワークCNN又は再帰ニューラルネットワークRNN等であってもよい。幾つかの実施例において、使用される音声特徴はメルケプストラム係数MFCC特徴である。
このニューラルネットワークモデルを訓練する際に、音声対話デバイスと音声対話するための音声の音声特徴をポジティブサンプルとし、音声対話デバイスと音声対話するのではない音声の音声特徴をネガティブサンプルとして訓練する。したがって、音声特徴を事前に訓練された当該ニューラルネットワークに入力することによって、音声信号が音声対話デバイスと対話するためのものであることの信頼度値、即ち、第2の可能性を判定することができる。
ブロック210では、管理デバイス120は、類似度、第1の可能性、および第2の可能性に基づいて、音声信号110の処理に関する情報130を決定する。
管理デバイス120は、取得したテキスト要素との類似度、第1の可能性、第2の可能性を融合して、音声信号110が音声対話デバイスと対話する音声信号であるか否かを判定する。次に、図3を参照して、類似度、第1の可能性、および第2の可能性に基づいて、音声信号110の処理に関する情報を決定する処理の詳細について説明する。
該方法により、複数の次元から音声対話デバイスが取得した音声信号に応答すべきか否か、及びどのように音声信号に応答するかを決定することができ、それにより、さらに正確で且つスマートな音声対話制御を実現でき、ユーザ体験を向上させる。
以上、図2を参照しながら、本発明の幾つかの実施例に係る音声対話方法200のフローチャートについて説明した。次に、図3を参照して、図2のブロック210における音声信号の処理に関する情報を決定する処理の詳細について説明する。図3は、本開示の幾つかの実施例に係る音声対話方法300のフローチャートを示す。図3の方法300は、図1の管理デバイス120や他の任意の適切な装置で実行することができる。
ステップ302において、管理デバイス120は、類似度、第1の可能性、第2の可能性に基づいて、音声信号110が実行可能なコマンドであるか否かを判定する。管理デバイス120は、類似度、第1の可能性、第2の可能性を取得する際に、類似度の第1の閾値、第1の可能性の第2の閾値、第2の可能性の第3の閾値を取得してもよい。幾つかの実施例において、第1の閾値は0.5とし、第2の閾値は0.3とし、第3の閾値は0.8とする。
幾つかの実施例において、類似度が第1の閾値より大きくなり、第1の可能性が第2の閾値より大きくなり、且つ、第2の可能性が第3の閾値より大きくなる場合、音声信号110が実行可能なコマンドであると判定し、即ち、音声信号110が音声対話デバイスと対話するためのものであると判定する。
幾つかの実施例において、類似度、第1の可能性、及び第2の可能性の三つのうちの二つの値が、対応する閾値より大きくなり、且つ閾値よりも所定の割合高い場合(例えば閾値より20%高い場合)、該音声信号110が実行可能なコマンドであると判定し、即ち、音声信号110が音声対話デバイスと対話するためのものであると判定する。
音声信号110が実行可能なコマンドではないと判定された場合、即ち、音声信号110が音声対話デバイスと対話するものではないと判定された場合、該音声信号110に対して処理を行わない。
音声信号110が実行可能なコマンドであると判定された場合、ステップ304において、管理デバイス120は、音声信号110に対して意味解析を行う。音声信号110が音声対話デバイスと対話するためであると判定された場合、該音声信号110に対してさらに処理を行う必要がある。
ステップ306において、管理デバイス120は、意味解析の結果に基づいて、音声信号110に対応する処理モデルを決定する。
一実施例において、管理デバイス120は、意味解析の結果に基づいて、テキストに関連する分野を判定する。幾つかの実施例において、テキストに関連する分野を確定するプロセスも事前に訓練されたニューラルネットワークモデルによって実施される。このニューラルネットワークモデルを訓練する際に所定のテキスト及びその対応する分野を使用して訓練する。該ニューラルネットワークモデルを訓練した後、テキストをニューラルネットワークモデルに入力して、テキストに対応する分野を直接取得することができる。
管理デバイス120は、候補モデルのセットの中から、分野に対応する処理モデルを選出する。管理デバイス120は、テキストの分野を特定すると、候補モデルのセットの中から、その分野に対応するモデルを選択する。幾つかの実施例において、該モデルはニューラルネットワークモデルである。このモデルを訓練する際に、意味に応じてコマンドを実行する必要があると判断されたテキストをポジティブサンプルとし、意味に応じて実行する必要がないと判断されたテキストをネガティブサンプルとする。
ブロック308では、管理デバイス120は、処理モデルにより、テキストを用いて、音声信号110の処理に関する情報130を決定し、情報130は、音声信号110を処理するか否かを示す。
テキストがニューラルネットワークモデルに入力すると、その意味から、当該テキストが、実行されるコマンドである可能性を判定することができる。一実施例において、可能性の値は0〜1の間である。可能性が1に近い場合は、実行可能なコマンドであることである、0に近い場合は、実行可能なコマンドではないことである。
実行されるコマンドであるか否かの判定は、必要に応じて所定の閾値を設定することにより行うことができる。実行されるコマンドであれば、対応する動作を実行する。実行されるコマンドではない場合、何の動作もしない。
上述した方法によれば、音声対話デバイスと対話する音声であるか否かを判定した後、さらに意味に基づいて動作するか否かを決定することができる。これにより、音声対話時の音声コマンドの実行の正確性が向上し、音声コマンドを誤って実行してしまうことを抑制し、ユーザ体験を改善することができる。
図4は、本開示の実施例に係る音声対話装置400の概略ブロック図である。図4に示すように、装置400は、受信した音声信号の音声特徴に基づいて、当該音声信号に対応するテキストを決定するテキスト決定部402を備えてもよい。また、装置400は、前記音声特徴と前記テキストとに基づいて、前記テキスト中の要素の基準音声特徴と前記音声特徴中の要素の目標音声特徴との類似度を判定する第1の類似度判定部404をさらに備えていてもよい。また、装置400は、テキストに基づいて、音声信号が実行可能なコマンドである第1の可能性を判定する第1の可能性判定部406をさらに備えていてもよい。また、装置400は、前記音声特徴に基づいて、前記音声信号が実行可能なコマンドである第2の可能性を判定する第2の可能性判定部408をさらに備えていてもよい。また、装置400は、類似度、第1の可能性、および第2の可能性に基づいて、音声信号の処理に関する情報を決定する第1の情報決定部410をさらに備えていてもよい。
幾つかの実施形態では、第1の類似度判定部404は、音声特徴の中から、テキスト中の要素に対応する参照用音声特徴を特定する参照用音声特徴判定部と、要素に対する参照用音声特徴と目標音声特徴とに基づいて、参照用音声特徴と目標音声特徴との類似度を判定する第2の類似度判定部とを含む。
第1の情報判定部410は、類似度、第1の可能性、第2の可能性に基づいて、音声信号が実行可能なコマンドであるか否かを判定する第1の実行可能コマンド判定部と、音声信号が実行可能なコマンドであると判定された場合に、当該音声信号に対して意味解析を行う意味解析部と、意味解析の結果に基づいて、当該音声信号に対応する処理モデルを決定する第1の処理モデル決定部と、処理モデルにより、テキストを用いることにより、当該音声信号に対する処理に関する情報を決定する第2の情報判定部とを含む。当該情報は、当該音声信号を処理するか否かを示すものである。
幾つかの実施例において、第1の実行可能コマンド判定部は、類似度が第1の閾値より大きくなり、第1の可能性が第2の閾値より大きくなり、且つ第2の可能性が第3の閾値より大きくなることに応答し、音声信号が前記実行可能なコマンドであると判定する第2の実行可能コマンド判定部を含む。
幾つかの実施例では、前記第1の処理モデル決定部は分野決定部を含み、それは意味解析の結果に基づき、テキストに関連する分野を決定するように構成される。及び第2の処理モデル決定部であって、それは一組の候補モデルから分野の処理モデルを選択するように構成される。
ある実施形態において、音声対話装置400は、音声信号を受信する受信部と、受信した音声信号から音声特徴を抽出する抽出部とをさらに備える。
図5は、本開示の一実施形態に係る電子デバイス500の概略構成を示すブロック図である。電子デバイス500は、図1の管理デバイス120を実現するために利用することができる。同図に示すように、この装置500は、ROM(Read Only Memory)502に記憶されているコンピュータプログラム指令、または記憶部508からRAM (Random Access Memory)503にロードされたコンピュータプログラム指令に基づいて、各種の動作および処理を実行可能な演算部501を備えている。また、RAM503には、装置500の動作に必要な各種プログラムやデータが記憶されている。演算部501、ROM502、およびRAM503は、バス504を介して相互に接続されている。バス504には、入出力(I/O)インタフェース505も接続されている。
I/Oインタフェース505には、例えば、キーボード、マウスなどの入力部506と、例えば、各種のディスプレイ、スピーカなどの出力部507と、例えば、磁気ディスク、光ディスクなどの記憶部508と、例えば、ネットワークカード、モデム、無線通信送受信機などの通信部509とを含むデバイス500の複数の部分が接続されている。通信部509は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データのやり取りを行うに用いられる。
演算部501は、様々な処理や演算機能を有する汎用的及び/又は専用的な処理コンポーネントであってよい。演算部501の例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、各種専用のAI(Asymmetric Intellite)演算チップ、各種動作機械学習モデルアルゴリズムの演算部、DSP(Digital Signal Processor)、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。演算部501は、上述した方法200、300等の各方法、処理を実行する。例えば、実施形態において、方法200及び300は、記憶部508等の機械可読媒体に格納されたコンピュータソフトウェアプログラムとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ROM502や通信部509を介して装置500にロードしたり、装置500にインストールしたりすることも可能である。コンピュータプログラムをRAM503にロードして演算装置501で実行することにより、上述した方法200、300の各ステップを実行することができる。また、他の実施形態において、演算部501は、実行方法500として、例えばファームウェアを利用するなど、他の任意の方法により構成されてもよい。
なお、上述した各機能の少なくとも一部は、1または複数のハードウェア・ロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、オンチップシステムのシステム(SOC)、負荷プログラマブルロジックデバイス(CPLD)などを含む。
本発明の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び/又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。
本発明において、機械可読媒体は、コマンド実行システム、装置又は装置が使用する、又はコマンド実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、1又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去及び書換可能なリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯可能なCD−ROM、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。
また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並列処理が有利であると考えられる。同様に、上記において幾つかの具体的な実現詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて1つの実施の形態としてもよい。逆に、1つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。

Claims (16)

  1. 音声対話するための方法であって、
    受信した音声信号の音声特徴に基づいて、前記音声信号に対応するテキストを決定するステップと、
    前記音声特徴と前記テキストとに基づいて、前記テキストにおける要素の参照音声特徴と前記音声特徴における前記要素の目標音声特徴との間の類似度を決定するステップと、
    前記テキストに基づいて、前記音声信号が実行可能なコマンドである第1の可能性を判定するステップと、
    前記音声特徴に基づいて、前記音声信号が前記実行可能なコマンドである第2の可能性を判定するステップと、
    前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号の処理に関する情報を決定するステップと、
    を含む方法。
  2. 前記類似度を決定するステップは、
    前記音声特徴から、前記テキスト中の前記要素に対応する前記参照音声特徴を特定するステップと、
    前記要素に対する前記参照音声特徴と前記目標音声特徴とに基づいて、前記類似度を決定するステップと、
    を含む、請求項1に記載の方法。
  3. 前記音声信号の処理に関する情報を決定するステップは、
    前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号が前記実行可能なコマンドであるか否かを判定するステップと、
    前記音声信号が実行可能なコマンドであると判定された場合に、前記音声信号に対して意味解析を行うステップと、
    前記意味解析の結果に基づいて、前記音声信号に対応する処理モデルを決定するステップと、
    前記処理モデルにおいて、前記テキストを用いることより、前記音声信号の処理に関する情報を決定するステップであって、前記情報は、前記音声信号を処理するか否かを示す情報であるステップと、
    を含む、請求項1に記載の方法。
  4. 前記音声信号が前記実行可能なコマンドであるか否かを判定するステップは、
    前記類似度が第1の閾値より大きく、前記第1の可能性が第2の閾値より大きく、前記第2の可能性が第3の閾値より大きいことに応答し、前記音声信号が前記実行可能なコマンドであると判定するステップを含む、請求項3に記載の方法。
  5. 前記音声信号に対応する処理モデルを決定するステップは、
    前記意味解析の結果に基づき、前記テキストに関連する分野を決定するステップ、
    候補モデルのセットの中から、前記分野に対応する前記処理モデルを選出するステップと
    を含む、請求項3に記載の方法。
  6. 前記音声信号を受信するステップと、
    受信した前記音声信号から前記音声特徴を抽出するステップと、
    をさらに含む、請求項1に記載の方法。
  7. 前記音声特徴は、声紋特徴を含む、請求項1に記載の方法。
  8. 音声対話するための装置であって、
    受信した音声信号の音声特徴に基づいて、前記音声信号に対応するテキストを決定するように配置されるテキスト決定部と、
    前記音声特徴と前記テキストに基づいて、前記テキストにおける要素の参照音声特徴と前記音声特徴における前記要素の目標音声特徴との間の類似度を決定するように配置される第1の類似度決定部と、
    前記テキストに基づいて、前記音声信号が実行可能なコマンドである第1の可能性を判定するように配置される第1の可能性判定部と、
    前記音声特徴に基づいて、前記音声信号が前記実行可能なコマンドである第2の可能性を判定するように配置される第2の可能性判定部と、
    前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号の処理に関する情報を決定するように配置される第1の情報決定部と、
    を含む、装置。
  9. 前記第1の類似度決定部は、
    前記音声特徴から、前記テキスト中の前記要素に対応する前記参照音声特徴を特定するように配置される参照音声特徴決定部と、
    前記要素に対する前記参照音声特徴と前記目標音声特徴とに基づいて、前記類似度を決定するように配置される第2の類似度決定部と、
    を含む、請求項8に記載の装置。
  10. 前記第1の情報決定部は、
    前記類似度と、前記第1の可能性と、前記第2の可能性とに基づいて、前記音声信号が前記実行可能なコマンドであるか否かを判定するように配置される第1の実行可能コマンド判定部と、
    前記音声信号が実行可能なコマンドであると判定された場合に、前記音声信号に対して意味解析を行うように配置される意味解析部と、
    前記意味解析の結果に基づいて、前記音声信号に対応する処理モデルを決定するように配置される第1の処理モデル決定部と、
    前記処理モデルにおいて、前記テキストを用いることより、前記音声信号の処理に関する情報を決定するように配置される第2の情報判定部であって、前記情報は、前記音声信号を処理するか否かを示す情報である第2の情報判定部と、
    を含む、請求項8に記載の装置。
  11. 前記第1の実行可能コマンド判定部は、
    前記類似度が第1の閾値より大きく、前記第1の可能性が第2の閾値より大きく、前記第2の可能性が第3の閾値より大きいことに応答し、前記音声信号が前記実行可能なコマンドであると判定するように配置される第2の実行可能コマンド判定部と、
    を含む、請求項10に記載の装置。
  12. 前記第1の処理モデル決定部は、
    前記意味解析の結果に基づき、前記テキストに関連する分野を決定するように配置される分野決定部と、
    候補モデルのセットの中から、前記分野に対応する前記処理モデルを選出するように配置される第2の処理モデル決定部と、
    を含む、請求項10に記載の装置。
  13. 前記音声信号を受信するように配置される受信部と、
    前記受信した音声信号から前記音声特徴を抽出するように配置される抽出部と、
    をさらに含む、請求項8に記載の装置。
  14. 前記音声特徴は声紋特徴を含む、請求項8に記載の装置。
  15. 電子機器であって、
    1または複数のプロセッサと、
    1または複数のコンピュータプログラムを記憶した記憶装置と、を備え、
    前記1又は複数のコンピュータプログラムが前記1又は複数のプロセッサにより実行されと、前記1または複数のプロセッサに請求項1〜7のいずれかに記載の方法を実現させる電子機器。
  16. プロセッサにより実行されると、請求項1〜6のいずれか1項に記載の方法を実現するコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2020098617A 2019-11-13 2020-06-05 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム Active JP7063937B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911108242.1 2019-11-13
CN201911108242.1A CN110706707B (zh) 2019-11-13 2019-11-13 用于语音交互的方法、装置、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021076818A true JP2021076818A (ja) 2021-05-20
JP7063937B2 JP7063937B2 (ja) 2022-05-09

Family

ID=69205349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020098617A Active JP7063937B2 (ja) 2019-11-13 2020-06-05 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US11393490B2 (ja)
JP (1) JP7063937B2 (ja)
CN (1) CN110706707B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674732B (zh) * 2021-08-16 2022-05-17 北京百度网讯科技有限公司 语音置信度检测方法、装置、电子设备和存储介质
CN113674742B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质
CN114242113B (zh) * 2021-12-16 2023-08-08 北京百度网讯科技有限公司 语音检测方法、训练方法、装置和电子设备
CN116402478B (zh) * 2023-06-07 2023-09-19 成都普朗克科技有限公司 基于语音交互的生成清单的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136568A (ja) * 2014-05-30 2018-08-30 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
JP2019139000A (ja) * 2018-02-08 2019-08-22 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341293A (ja) * 2003-05-16 2004-12-02 Toyota Motor Corp 音声を文字データに変換する装置と方法とそのためのプログラムと対話装置
FR2923928B1 (fr) * 2007-11-19 2009-12-04 Bonneton William Systeme d'interpretation simultanee automatique.
CN101996631B (zh) * 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
CN103685195A (zh) * 2012-09-21 2014-03-26 华为技术有限公司 用户验证处理方法、用户设备和服务器
CN105009203A (zh) * 2013-03-12 2015-10-28 纽昂斯通讯公司 用于检测语音命令的方法和装置
FR3029484B1 (fr) * 2014-12-09 2018-05-04 Continental Automotive France Procede d'interaction depuis le volant entre un utilisateur et un systeme embarque dans un vehicule
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
WO2017166133A1 (zh) * 2016-03-30 2017-10-05 华为技术有限公司 一种终端的语音解锁方法及终端
CN106782560B (zh) * 2017-03-06 2020-06-16 海信集团有限公司 确定目标识别文本的方法及装置
CN107240398B (zh) * 2017-07-04 2020-11-17 科大讯飞股份有限公司 智能语音交互方法及装置
CN109427336B (zh) * 2017-09-01 2020-06-16 华为技术有限公司 语音对象识别方法及装置
CN109686383B (zh) * 2017-10-18 2021-03-23 腾讯科技(深圳)有限公司 一种语音分析方法、装置及存储介质
CN108320738B (zh) * 2017-12-18 2021-03-02 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN107910003A (zh) * 2017-12-22 2018-04-13 智童时刻(厦门)科技有限公司 一种用于智能设备的语音交互方法及语音控制系统
CN108376543B (zh) * 2018-02-11 2021-07-13 深圳创维-Rgb电子有限公司 一种电器设备的控制方法、装置、设备和存储介质
CN110164427A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音交互方法、装置、设备以及存储介质
CN108932945B (zh) * 2018-03-21 2021-08-31 北京猎户星空科技有限公司 一种语音指令的处理方法及装置
CN109616126A (zh) * 2018-12-06 2019-04-12 珠海格力电器股份有限公司 一种语音数据处理方法、装置、存储介质及终端
CN109461446B (zh) * 2018-12-24 2019-10-01 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、系统及存储介质
CN110148405B (zh) * 2019-04-10 2021-07-13 北京梧桐车联科技有限责任公司 语音指令处理方法及装置、电子设备及存储介质
CN110085224B (zh) * 2019-04-10 2021-06-01 深圳康佳电子科技有限公司 智能终端全程语音操控处理方法、智能终端及存储介质
CN110081577A (zh) * 2019-04-30 2019-08-02 深圳创维空调科技有限公司 空调控制方法、装置、空调设备及存储介质
CN110377716B (zh) * 2019-07-23 2022-07-12 百度在线网络技术(北京)有限公司 对话的交互方法、装置及计算机可读存储介质
CN110415695A (zh) * 2019-07-25 2019-11-05 华为技术有限公司 一种语音唤醒方法及电子设备
CN110364143B (zh) * 2019-08-14 2022-01-28 腾讯科技(深圳)有限公司 语音唤醒方法、装置及其智能电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018136568A (ja) * 2014-05-30 2018-08-30 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
JP2019139000A (ja) * 2018-02-08 2019-08-22 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム

Also Published As

Publication number Publication date
US11393490B2 (en) 2022-07-19
US20210142819A1 (en) 2021-05-13
JP7063937B2 (ja) 2022-05-09
CN110706707A (zh) 2020-01-17
CN110706707B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
US11503155B2 (en) Interactive voice-control method and apparatus, device and medium
US10417344B2 (en) Exemplar-based natural language processing
JP7063937B2 (ja) 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
KR102315732B1 (ko) 음성 인식 방법, 디바이스, 장치, 및 저장 매체
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
CN108694940B (zh) 一种语音识别方法、装置及电子设备
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
US11455989B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
JP2022013610A (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
JP7178394B2 (ja) 音声信号を処理するための方法、装置、機器、および媒体
KR102596841B1 (ko) 사용자의 발화에 응답하여 하나 이상의 아이템을 제공하기 위한 전자 장치 및 방법
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN111444321B (zh) 问答方法、装置、电子设备和存储介质
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
CN112328308A (zh) 用于识别文本的方法和装置
CN111090769A (zh) 一种歌曲推荐的方法、装置、设备和计算机存储介质
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
CN112395414A (zh) 文本分类方法和分类模型的训练方法、装置、介质和设备
US11966663B1 (en) Speech processing and multi-modal widgets
Zhang et al. A Multimodal Activation Detection Model for Wake-Free Robots
CN115148188A (zh) 语种识别方法、装置、电子设备和介质
CN118675517A (zh) 语音交互方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220421

R150 Certificate of patent or registration of utility model

Ref document number: 7063937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150