JP2019139211A - 音声ウェイクアップ方法及び装置 - Google Patents

音声ウェイクアップ方法及び装置 Download PDF

Info

Publication number
JP2019139211A
JP2019139211A JP2018230515A JP2018230515A JP2019139211A JP 2019139211 A JP2019139211 A JP 2019139211A JP 2018230515 A JP2018230515 A JP 2018230515A JP 2018230515 A JP2018230515 A JP 2018230515A JP 2019139211 A JP2019139211 A JP 2019139211A
Authority
JP
Japan
Prior art keywords
wake
information
voice information
secondary determination
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018230515A
Other languages
English (en)
Other versions
JP6828001B2 (ja
Inventor
リー、チュン
Jun Li
ヤン、ルイ
Rui Yang
チャオ、リーフォン
Lifeng Zhao
チェン、シアオチエン
Xiaojian Chen
ツァオ、ユイシュー
Yushu Cao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019139211A publication Critical patent/JP2019139211A/ja
Application granted granted Critical
Publication of JP6828001B2 publication Critical patent/JP6828001B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声情報の二次検証を実現し、スマートデバイスが誤ってウェイクアップされる確率を低減させる音声ウェイクアップ方法及び装置を提供する。【解決手段】音声ウェイクアップ方法は、ユーザの音声情報を受信するステップと、音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップと、ウェイクアップ信頼度に基づいて音声情報が擬似ウェイクアップ音声情報であるか否かを確定するステップと、音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、音声情報に対して二次判断を行って二次判断結果を取得し、二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップとを含む。【選択図】図2

Description

本願の実施形態は、コンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特に音声ウェイクアップ方法及び装置に関する。
人工知能技術の発展及び音声技術の発達に従って、対話型を中心とするヒューマノイド対話インタラクションは、新たなインタラクションの革新になり、且つ製品化を逐次に実現した。例えば、スマートロボット、スマートサウンドボックス、スマートテレビ、スマート冷蔵庫などのようなスマートデバイスは、人間の両手をタッチインタラクションから解放することができる。
幾つかのシナリオにおいて、ユーザはウェイクアップ音声を利用してスマートデバイスをウェイクアップすることができる。そして、スマートデバイスは、ユーザの音声指令に対して応答することができる。
本願の実施形態は、音声ウェイクアップ方法及び装置を提供する。
第一の側面として、本願の実施形態は、ユーザの音声情報を受信するステップと、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップと、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定するステップと、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップと、を含む音声ウェイクアップ方法を提供する。
一部の実施形態において、記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップは、予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得するステップを含む。
一部の実施形態において、前記認識モデルはニューラルネットワークモデルであり、前記ニューラルネットワークモデルは、サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得するステップと、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することであって、前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示す、ことと、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含むトレーニングステップと、を実行する、という方式でトレーニングされる。
一部の実施形態において、前記ニューラルネットワークモデルをトレーニングするステップは、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する、ステップを更に含む。
一部の実施形態において、前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識が含まれる。
一部の実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップは、前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成するステップと、前記二次判断結果を受信するステップと、前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行するステップと、を含む。
第二の側面として、本願の実施形態は、端末から送信された擬似ウェイクアップ音声情報を受信するステップと、前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得するステップと、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするステップと、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、ステップと、を含む音声ウェイクアップ方法を更に提供する。
一部の実施形態において、前記マッチング結果に基づいて前記端末へ二次判断結果を送信するステップは、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信するステップと、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信するステップとを含む。
第三の側面として、本願の実施形態は、ユーザの音声情報を受信する受信ユニットと、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得する生成ユニットと、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定する第一確定ユニットと、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する第二確定ユニットと、を備える音声ウェイクアップ装置を提供する。
一部の実施形態において、前記生成ユニットは更に、予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得する。
一部の実施形態において、前記認識モデルはニューラルネットワークモデルであり、前記装置は、モデルトレーニングユニットを更に備え、前記モデルトレーニングユニットは、サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得する取得ユニットと、トレーニングステップを実行する実行ユニットと、を備え、前記トレーニングステップが、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することであって、前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示す、ことと、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含む。
一部の実施形態において、前記モデルトレーニングユニットは、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する調整ユニットを更に備える。
一部の実施形態において、前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識とが含まれる。
一部の実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、前記第二確定ユニットは更に、前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成し、前記二次判断結果を受信し、前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行する。
第四の側面として、本願の実施形態は、端末から送信された擬似ウェイクアップ音声情報を受信する情報受信ユニットと、前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する認識ユニットと、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするマッチングユニットと、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する情報送信ユニットであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、情報送信ユニットと、を備える音声ウェイクアップ装置を提供する。
一部の実施形態において、前記情報送信ユニットは更に、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信する。
第五の側面として、本願の実施形態は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されている記憶装置と、を備え、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第一の側面の何れか一つの実現形態に記載の方法を実現させる端末を提供する。
第六の側面として、本願の実施形態は、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、第一の側面の何れか一つの実現形態に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
第七の側面として、本願の実施形態は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されている記憶装置と、を備え、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第二の側面の何れか一つの実現形態に記載の方法を実現させるサーバを提供する。
第八の側面として、本願の実施形態は、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、第二の側面の何れか一つの実現形態に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
本願の実施形態により提供される音声ウェイクアップ方法及び装置は、まず、受信されたユーザの音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得し、その後、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定し、そして前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、及び前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する。これにより、音声情報の二次検証を実現し、スマートデバイスが誤ってウェイクアップされる確率を低減させることができる。
以下の図面による非限定的な実施例についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
本願を適用可能な例示的なシステムアーキテクチャ図である。 本願の音声ウェイクアップ方法による一つの実施例のフローチャートである。 本願の音声ウェイクアップ方法による一つの応用シナリオの模式図である。 本願の音声ウェイクアップ方法による他の実施例のフローチャートである。 本願の音声ウェイクアップ装置による一つの実施例の構成の模式図である。 本願の音声ウェイクアップ装置による他の実施例の構成の模式図である。 本願の実施例の端末デバイスを実現可能なコンピュータシステムの構成の模式図である。
以下、図面と実施例を参照しながら、本願を詳しく説明する。ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
なお、矛盾が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施例を併せて本願を詳しく説明する。
図1は、本願を適用可能な音声ウェイクアップ方法又は音声ウェイクアップ装置の実施例の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末デバイス101、102、103、ネットワーク104及びサーバ105を備えても良い。ネットワーク104は、端末デバイス101、102、103とサーバ105との間に通信リンクの媒体を提供するためである。ネットワーク104には、例えば有線、無線通信リンク又はファイバケーブルなどの各種の接続タイプが含まれても良い。
ユーザは、端末デバイス101、102、103を使用してネットワーク104を介してサーバ105とインタラクションしてメッセージなどを送受信することができる。端末デバイス101、102、103には、例えば、ウェブページブラウザアプリ、買物型アプリ、検索型アプリ、即時通信ツール、メールボックスエンド、交際型プラットフォームソフトウェアなどの各種のクライアントアプリがインストールされても良い。
端末デバイス101、102、103は、音声情報を受信可能な各種の電子デバイスであっても良く、スマートフォーン、スマートウォッチ、スマートロボット、スマートサウンドボックス、スマートテレビ、スマート冷蔵庫などを含むが、それらに限定されない。
サーバ105は、例えば端末デバイス101、102、103から送信される情報を処理するバックグラウンドサーバのような、各種のサービスを提供するサーバであっても良い。バックグラウンドサーバは、端末デバイス101、102、103から送信される音声情報に対して二次判断を行い、二次判断結果を端末デバイスにフィードバックすることができる。
説明すべきなのは、本願の図2に対応する実施例により提供される音声ウェイクアップ方法は、一般的に端末デバイス101、102、103により実行される。それに応じて、図5に対応する音声ウェイクアップ装置は、一般的に端末デバイス101、102、103に設置される。図4に対応する実施例により提供される音声ウェイクアップ方法は、一般的にサーバ105により実行される。それに応じて、図6に対応する音声ウェイクアップ装置は、一般的にサーバ105に設置される。
理解すべきなのは、図1における端末デバイス、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを備えても良い。
続いて図2を参照する。図2は、本願の音声ウェイクアップ方法による一つの実施例の手順200を示す。当該音声ウェイクアップ方法は、以下のステップを含む。
ステップ201において、ユーザの音声情報を受信する。
本実施例において、音声ウェイクアップ方法が運行される電子デバイス(例えば、図1に示された端末デバイス101、102、103)は、ユーザから送信される音声情報を受信することができる。例示として、前記電子デバイスは、作動状態にある時に、周囲の声をリアルタイムにモニターすることにより、ユーザの音声情報を受信することができる。
ステップ202において、音声情報に基づいて音声情報に対応するウェイクアップ信頼度を取得する。
本実施例において、前記電子デバイスは、各種の方式で、ステップ201において受信された音声情報に基づいて、当該音声情報に対応するウェイクアップ信頼度を取得することができる。なお、ウェイクアップ信頼度は、前記音声情報が前記電子デバイスをウェイクアップするためのウェイクアップ音声である確率を示すことができる。例示として、前記電子デバイスは、まず前記音声情報の特徴を抽出し、その後に前記音声情報の特徴と予め設定された標準ウェイクアップ音声情報の特徴とを照合し、最後に照合結果に基づいて前記音声情報のウェイクアップ信頼度を取得することができる。
本実施例の複数のオプションとなる実施形態において、前記ステップ201は、具体的に、前記電子デバイスがステップ201において受信された音声情報を予め構築された認識モデルに入力して、前記音声情報に対するウェイクアップ信頼度を取得可能であることを含んでも良い。ここで、前記認識モデルは、音声情報とウェイクアップ信頼度の対応関係を示すことができる。例示として、前記認識モデルは、まず前記音声情報における特徴情報を抽出して特徴ベクトルを取得し、その後に予め構築された特徴ベクトルとウェイクアップ信頼度の対応関係テーブルに基づいて、前記音声情報に対するウェイクアップ信頼度を取得することができる。説明すべきなのは、前記特徴ベクトルとウェイクアップ信頼度の対応関係テーブルは、技術者により大量の特徴ベクトルとウェイクアップ信頼度の統計で予め作成され、複数の特徴ベクトルとウェイクアップ信頼度の対応関係が記憶されている対応関係テーブルであっても良い。また、音声情報における特徴情報を抽出して特徴ベクトルを取得することは、現在によく研究し応用されている周知技術であるため、ここでは詳しく説明しない。
複数のオプションとなる実施形態において、前記認識モデルはニューラルネットワークモデルであっても良い。ここで、前記ニューラルネットワークモデルは、人工ニューラルネットワークであっても良い。人工ニューラルネットワークは、情報処理の観点から大脳ニューロンを抽象化して簡単なモデルを構築し、異なる接続手段で異なるグリッドを組み合わせる。一般的には、大量のノード(ニューロンとも呼ばれる)同士を互いに連結して構成され、各ノードが一つの特定の出力関数を示し、励起関数と呼ばれる。二つずつのノードの間の接続は、重み(パラメータとも言う)と呼ばれる、当該接続を通す信号に対する加重値を示す。ネットワークの出力は、ネットワークの接続方式、加重値及び励起関数の違いによって異なる。前記ニューラルネットワークモデルは、前記電子デバイス、又は前記ニューラルネットワークモデルをトレーニングするための他の電子デバイスにより、以下の方式でトレーニングされたものであっても良い。
まず、サンプルのセットを取得する。なお、サンプルには、サンプル音声情報とサンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれても良い。そして、以下のトレーニングステップを実行することができる。S1において、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力することにより、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することができる。なお、予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すことができる。S2において、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することができる。S3において、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定する。例示として、前記最適化目標は、予測情報と注釈情報の差分が所定の差分閾値よりも小さいことであっても良い。他の例示として、前記最適化目標は、前記初期ニューラルネットワークモデルの予測正確率が所定の正確率閾値よりも大きいことであっても良い。S4において、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることができる。ここで、前記初期ニューラルネットワークモデルは、トレーニングされていないニューラルネットワークモデル、又はトレーニングが完成されていないニューラルネットワークモデルであっても良い。
選択的に、前記ニューラルネットワークモデルをトレーニングするステップは、更に、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行することができるS5を含んでも良い。例示として、バックプロパゲーションアルゴリズム(Back Propgation Algorithm、BPアルゴリズム)と勾配降下法(例えばランダム勾配降下アルゴリズム)を採用して、前記初期ニューラルネットワークモデルのネットワークパラメータを調整することができる。説明すべきなのは、バックプロパゲーションアルゴリズムと勾配降下法が現在によく研究し応用されている周知技術であるため、ここでは詳しく説明しない。
複数のオプションとなる実施形態において、前記注釈情報には第一標識と第二標識が含まれても良い。なお、第一標識はウェイクアップ音声情報であると示し、第二標識はウェイクアップ音声情報ではないと示すことができる。例えば、第一標識は1、第二標識は0であっても良い。
ステップ203において、ウェイクアップ信頼度に基づいて音声情報が擬似ウェイクアップ音声情報であるか否かを確定する。
本実施例において、前記電子デバイスは、ステップ202において得られたウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定することができる。例示として、前記電子デバイスは、予め設定された少なくとも一つの閾値に基づいて、前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定することができる。例えば、一つの閾値を予め設置することができる。前記ウェイクアップ信頼度が当該閾値よりも大きい場合に、前記音声情報が前記電子デバイスをウェイクアップするためのウェイクアップ音声であると確定でき、この場合に前記電子デバイスによりウェイクアップ操作を実行することができる。前記ウェイクアップ信頼度が当該閾値よりも小さい場合に、前記音声情報が擬似ウェイクアップ音声情報であると確定することができる。また、例えば、小さい順で第一閾値、第二閾値及び第三閾値を順に設置することができる。前記ウェイクアップ信頼度が第一閾値よりも小さい場合に、前記音声情報が前記電子デバイスをウェイクアップするウェイクアップ音声ではないと確定し、前記ウェイクアップ信頼度が第一閾値よりも大きく且つ第二閾値よりも小さい場合に、前記音声情報が擬似ウェイクアップ音声情報であると確定することができる。前記ウェイクアップ信頼度が第二閾値よりも大きい場合に、前記音声情報が前記電子デバイスをウェイクアップするウェイクアップ音声であると確定でき、この場合に前記電子デバイスによりウェイクアップ操作を実行することができる。
ステップ204において、音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、音声情報に対して二次判断を行って二次判断結果を取得し、二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する。
本実施例において、前記電子デバイスは、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定することができる。
本実施例の複数のオプションとなる実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれても良い。前記ステップ204は、具体的に、まず前記電子デバイスにより前記音声情報をサービスエンドへ送信し、前記サービスエンドに前記音声情報に基づいて二次判断結果を生成させ、その後に前記電子デバイスにより前記サービスエンドから前記二次判断結果を受信し、最後に前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、前記電子デバイスによりウェイクアップ操作を実行することを含んでも良い。ここで、前記サービスエンドはハードウェアであっても良く、ソフトウェアであっても良い。前記サービスエンドはハードウェアである場合に、分散型のサーバグループであっても良く、単一のサーバであっても良い。前記サービスエンドがソフトウェアである場合に、分散型のサービスであっても良く、単一のソフトウェアにより提供されるサービスであっても良く、ここでは限定しない。
例示として、前記サービスエンドは、まず前記音声情報を音声認識して前記音声情報に対応するテキスト情報を取得し、その後に得られたテキスト情報と前記電子デバイスの目標ウェイクアップワードとをマッチングし、最後にマッチング結果に基づいて二次判断結果を生成することができる。ここで、前記電子デバイスの目標ウェイクアップワードは、前記電子デバイスをウェイクアップすることができる。一般的に、ユーザは目標ウェイクアップワードを言い出すことで前記電子デバイスにウェイクアップ操作を実行させることにより、前記電子デバイスを待機状態からウェイクアップ状態に切り替えることができる。前記電子デバイスはウェイクアップ状態にある場合に、ユーザとインタラクションを行うことができる。
続いて図3を参照する。図3は、本実施例の音声ウェイクアップ方法による応用シナリオの一つの模式図である。図3の応用シナリオにおいて、スマートデバイス301は、まずユーザから送信された音声情報を受信し、その後に前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得し、その後に前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定し、続いて前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報をサービスエンド302に送信し、サービスエンド302に前記音声情報に基づいて二次判断結果を生成させ、最後に前記二次判断結果を受信し、及び前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定することができる。
本願の前記実施例により提供された方法は、擬似ウェイクアップ音声情報に対して二次検証を行うことにより、スマートデバイスが誤ってウェイクアップされる確率を効率的に低減させることができる。
更に図4を参照する。図4は、音声ウェイクアップ方法の他の実施例の手順400を示す。当該音声ウェイクアップ方法の手順400は、以下のステップを含む。
ステップ401において、端末から送信された擬似ウェイクアップ音声情報を受信する。
本実施例において、音声ウェイクアップ方法が運行される電子デバイス(例えば図1に示されたサーバ105)は、有線又は無線の接続手段によりユーザが音声対話を行うように利用される端末から擬似ウェイクアップ音声情報を受信することができる。説明すべきなのは、前記無線の接続手段は、3G/4G接続、WiFi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee接続、UWB(ultra wideband)接続、及び既知又は将来に開発される他の無線接続手段を含むが、それらに限定されない。
ステップ402において、擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する。
本実施例において、前記電子デバイスは、ステップ401において受信された擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得することができる。例示として、前記電子デバイスは、擬似ウェイクアップ音声情報を音声認識して、擬似ウェイクアップ音声情報に対応するテキスト情報を取得することができる。説明すべきなのは、音声認識技術は、現在によく研究し応用されている周知技術であるため、ここでは詳しく説明しない。
ステップ403において、音声認識結果と端末の目標ウェイクアップワードとをマッチングする。
本実施例において、前記電子デバイスは、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングすることができる。例示として、前記音声認識結果に前記目標ウェイクアップワードが含まれている場合に、マッチングの成功と考え、前記音声認識結果に前記目標ウェイクアップワードが含まれていない場合に、マッチングの不成功と考えても良い。
ステップ404において、マッチング結果に基づいて端末へ二次判断結果を送信し、端末が二次判断結果に基づいて、ウェイクアップ操作を実行するか否かを確定する。
本実施例において、前記電子デバイスは、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末が前記二次判断結果に基づいて、ウェイクアップ操作を実行するか否かを確定させることができる。ここで、前記二次判断結果には、ウェイクアップ判明又は非ウェイクアップ判明が含まれても良い。
本実施例の複数のオプションとなる実施形態において、前記ステップ404は、具体的に、前記電子デバイスが、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信しても良いことを含んでも良い。
本願の前記実施例により提供された方法は、擬似ウェイクアップ音声情報を音声認識し、音声認識結果を端末の目標ウェイクアップワードとマッチングを行い、マッチング結果に基づいて二次判断結果を生成することができるため、擬似ウェイクアップ音声情報に対する検証を実現し、端末が誤ってウェイクアップされる確率を効率的に低減させることができる。
更に図5を参照する。前記各図に示された方法に対する実現として、本願は音声ウェイクアップ装置の一つの実施例を提供する。当該装置の実施例は図2に示された方法の実施例に対応する。
図5に示すように、本実施例の音声ウェイクアップ装置500は、受信ユニット501と、生成ユニット502と、第一確定ユニット503と、第二確定ユニット504とを備える。なお、受信ユニット501は、ユーザの音声情報を受信する。生成ユニット502は、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得する。第一確定ユニット503は、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定する。第二確定ユニット504は、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する。
本実施例において、音声ウェイクアップ装置500の受信ユニット501、生成ユニット502、第一確定ユニット503及び第二確定ユニット504の具体的な処理、及びそれによる技術効果は、図2に対応する実施例におけるステップ201、ステップ202、ステップ203及びステップ204の関連説明をそれぞれ参照することができ、ここでは詳しく説明しない。
本実施例の複数のオプションとなる実施形態において、前記生成ユニット502は更に、前記音声情報を予め構築された認識モデルに入力して前記音声情報に対するウェイクアップ信頼度を取得する。更に、前記認識モデルは音声情報とウェイクアップ信頼度の対応関係を示す。
本実施例の複数のオプションとなる実施形態において、前記認識モデルはニューラルネットワークモデルである。前記装置500は、モデルトレーニングユニット(未図示)を更に備えても良い。前記モデルトレーニングユニットは、サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得する取得ユニットと(未図示)、前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することであって、前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示す、ことと、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含むトレーニングステップを実行する実行ユニットと(未図示)を備えても良い。
本実施例の複数のオプションとなる実施形態において、前記モデルトレーニングユニットは更に、前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する調整ユニット(未図示)を備えても良い。
本実施例の複数のオプションとなる実施形態において、前記注釈情報には、第一標識と第二標識が含まれても良い。なお、第一標識はウェイクアップ音声情報であると示し、第二標識はウェイクアップ音声情報ではないと示す。
本実施例の複数のオプションとなる実施形態において、前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれても良い。前記第二確定ユニット504は更に、前記音声情報をサービスエンドへ送信して前記サービスエンドに前記音声情報に基づいて二次判断結果を生成させ、前記二次判断結果を受信し、前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行する。
続いて図6を参照する。前記各図に示された方法に対する実現として、本願は更に音声ウェイクアップ装置の一つの実施例を提供する。当該装置の実施例は、図4示された方法の実施例に対応する。
図6に示すように、本実施例の音声ウェイクアップ装置600は、情報受信ユニット601と、認識ユニット602と、マッチングユニット603と、情報送信ユニット604とを備える。なお、情報受信ユニット601は、端末から送信された擬似ウェイクアップ音声情報を受信する。認識ユニット602は、前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する。マッチングユニット603は、前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングする。情報送信ユニット604は、マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末が前記二次判断結果に基づいて、ウェイクアップ操作を実行するか否かを確定させる。なお、前記二次判断結果には、ウェイクアップ判明又は非ウェイクアップ判明が含まれる。
本実施例において、音声ウェイクアップ装置600の情報受信ユニット601、認識ユニット602、マッチングユニット603及び情報送信ユニット604の具体的な処理及びそれによる技術効果は、図4に対応する実施例におけるステップ401、ステップ402、ステップ403及びステップ404の関連説明をそれぞれ参照することができ、ここでは詳しく説明しない。
本実施例の複数のオプションとなる実施形態において、前記情報送信ユニット604は更に、前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信する。
以下に図7を参照する。図7は、本願の実施例の端末デバイスを実現可能なコンピュータシステム700の構成の模式図を示す。図7に示された端末デバイスは、例示的なものに過ぎず、本願の実施例の機能及び使用範囲に制限しない。
図7に示すように、コンピュータシステム700は、読み出し専用メモリ(ROM、Read Only Memory)702に記憶されているプログラム又は記憶部708からランダムアクセスメモリ(RAM、Random Access Memory)703にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理ユニット(CPU、Central Processing Unit)701を備える。RAM 703には、システム700の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU 701、ROM 702およびRAM 703は、バス704を介して互いに接続されている。入力/出力(I/O、Input / Output)インターフェース705もバス704に接続されている。
キーボード、マウスなどを含む入力部706、陰極線管(CRT、Cathode Ray Tube)、液晶ディスプレイ(LCD、Liquid Crystal Display)など、およびスピーカなどを含む出力部707、ハードディスクなどを含む記憶部708、およびLAN(ローカルエリアネットワーク、Local Area Network)カード、モデムなどを含むネットワークインターフェースカードの通信部709は、I/Oインターフェース705に接続されている。通信部709は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ710は、必要に応じてI/Oインターフェース705に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなリムーバブルメディア711は、必要に応じてドライブ710に取り付けられることにより、読み出されたコンピュータプログラムが必要に応じて記憶部708にインストールされる。
特に、本発明の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本開示の実施例はコンピュータ読み取り可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部709を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア711からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット(CPU)701により実行される場合に、本願の方法に限定される前記機能を実行する。説明すべきなのは、本願の前記コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体、或いは前記両者の任意の組合わせであっても良い。コンピュータ読み取り可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、装置又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読み取り可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは前記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読み取り可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、指令実行システム、装置又は部品に使用されても良く、それらに組合わせて使用されても良い。本願において、コンピュータ読み取り可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読み取り可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は前記任意の適当の組合わせを含むが、それらに限定されない。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であっても良い。当該コンピュータ読み取り可能な媒体は、指令実行システム、装置又は部品に使用され又はそれらと組合わせて使用されるプログラムを送信し、伝播又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは前記任意の適当の組み合わせを含むが、それらに限定されない。
図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。
本願の実施例に説明されたユニットはソフトウェアで実現されても良く、ハードウェアで実現されても良い。説明されたユニットは、プロセッサに設置されても良く、例えば、受信ユニットと、生成ユニットと、第一確定ユニットと、第二確定ユニットとを備えるプロセッサとして記載可能である。なお、これらのユニットの名称は場合によって当該ユニットの自身に対する限定とされない。例えば、受信ユニットは、「ユーザの音声情報を受信するユニット」として記載されても良い。
他の側面として、本願は更にコンピュータ読み取り可能な媒体を提供する。当該コンピュータ読み取り可能な媒体は、前記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。前記コンピュータ読み取り可能な媒体には、一つ又は複数のプログラムがロードされる。前記一つ又は複数のプログラムが当該装置により実行されると、当該装置に、ユーザの音声情報を受信し、前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得し、前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定し、前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するように実行させる。
以上の記載は、本願の好ましい実施例、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴(これらに限定されていない)とを互いに置き換えてなる技術方案も含まれる。

Claims (20)

  1. 音声ウェイクアップ(wake up)方法であって、
    ユーザの音声情報を受信するステップと、
    前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップと、
    前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定するステップと、
    前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップと、を含む方法。
  2. 前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップは、
    予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得するステップを含む請求項1に記載の方法。
  3. 前記認識モデルはニューラルネットワークモデルであり、前記ニューラルネットワークモデルは、
    サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得するステップと、
    トレーニングステップであって、
    前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することと、ここで前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すものであり、
    前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、
    比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、
    前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含むトレーニングステップと、を実行する、
    という方式でトレーニングされる、請求項2に記載の方法。
  4. 前記ニューラルネットワークモデルをトレーニングするステップは、
    前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する、ステップを更に含む請求項3に記載の方法。
  5. 前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識が含まれる、請求項3に記載の方法。
  6. 前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、
    前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップは、
    前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成するステップと、
    前記二次判断結果を受信するステップと、
    前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行するステップと、を含む請求項1に記載の方法。
  7. 音声ウェイクアップ方法であって、
    端末から送信された擬似ウェイクアップ音声情報を受信するステップと、
    前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得するステップと、
    前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするステップと、
    マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、ステップと、を含む方法。
  8. 前記マッチング結果に基づいて前記端末へ二次判断結果を送信するステップは、
    前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信するステップと、
    前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信するステップとを含む請求項7に記載の方法。
  9. 音声ウェイクアップ装置であって、
    ユーザの音声情報を受信する受信ユニットと、
    前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得する生成ユニットと、
    前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定する第一確定ユニットと、
    前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する第二確定ユニットと、
    を備える装置。
  10. 前記生成ユニットは更に、
    予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得する、請求項9に記載の装置。
  11. 前記認識モデルはニューラルネットワークモデルであり、
    前記装置は、モデルトレーニングユニットを更に備え、前記モデルトレーニングユニットは、
    サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得する取得ユニットと、
    トレーニングステップを実行する実行ユニットと、を備え、
    前記トレーニングステップが、
    前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することと、ここで前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すものであり、
    前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、
    比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、
    前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含む、請求項10に記載の装置。
  12. 前記モデルトレーニングユニットは、
    前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する調整ユニットを更に備える請求項11に記載の装置。
  13. 前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識とが含まれる請求項11に記載の装置。
  14. 前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、
    前記第二確定ユニットは更に、
    前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成し、
    前記二次判断結果を受信し、
    前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行する請求項9に記載の装置。
  15. 音声ウェイクアップ装置であって、
    端末から送信された擬似ウェイクアップ音声情報を受信する情報受信ユニットと、
    前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する認識ユニットと、
    前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするマッチングユニットと、
    マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する情報送信ユニットであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、情報送信ユニットと、
    を備える装置。
  16. 前記情報送信ユニットは更に、
    前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、
    前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信する請求項15に記載の装置。
  17. 端末であって、
    一つ又は複数のプロセッサと、
    一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1〜6の何れか一つに記載の方法を実現させる端末。
  18. コンピュータ読み取り可能な記憶媒体であって、
    コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、請求項1〜6の何れか一つに記載の方法を実現させるコンピュータ読み取り可能な記憶媒体。
  19. サーバであって、
    一つ又は複数のプロセッサと、
    一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項7又は8に記載の方法を実現させるサーバ。
  20. コンピュータ読み取り可能な記憶媒体であって、
    コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、請求項7又は8に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体。
JP2018230515A 2018-02-09 2018-12-10 音声ウェイクアップ方法及び装置 Active JP6828001B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810133876.1A CN108335696A (zh) 2018-02-09 2018-02-09 语音唤醒方法和装置
CN201810133876.1 2018-02-09

Publications (2)

Publication Number Publication Date
JP2019139211A true JP2019139211A (ja) 2019-08-22
JP6828001B2 JP6828001B2 (ja) 2021-02-10

Family

ID=62927330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018230515A Active JP6828001B2 (ja) 2018-02-09 2018-12-10 音声ウェイクアップ方法及び装置

Country Status (3)

Country Link
US (1) US11322138B2 (ja)
JP (1) JP6828001B2 (ja)
CN (1) CN108335696A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149688A1 (ko) * 2021-01-05 2022-07-14 삼성전자주식회사 전자 장치 및 이의 제어 방법

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215647A (zh) * 2018-08-30 2019-01-15 出门问问信息科技有限公司 语音唤醒方法、电子设备及非暂态计算机可读存储介质
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质
CN109273007B (zh) * 2018-10-11 2022-05-17 西安讯飞超脑信息科技有限公司 语音唤醒方法及装置
CN109346076A (zh) * 2018-10-25 2019-02-15 三星电子(中国)研发中心 语音交互、语音处理方法、装置和系统
CN109256134B (zh) * 2018-11-22 2021-11-02 深圳市同行者科技有限公司 一种语音唤醒方法、存储介质及终端
CN109378000B (zh) * 2018-12-19 2022-06-07 科大讯飞股份有限公司 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN109817219A (zh) * 2019-03-19 2019-05-28 四川长虹电器股份有限公司 语音唤醒测试方法及系统
WO2019160396A2 (ko) * 2019-04-11 2019-08-22 엘지전자 주식회사 안내 로봇 및 안내 로봇의 동작 방법
CN110277097B (zh) * 2019-06-24 2022-04-26 北京声智科技有限公司 数据处理方法及相关设备
CN110544468B (zh) * 2019-08-23 2022-07-12 Oppo广东移动通信有限公司 应用唤醒方法、装置、存储介质及电子设备
CN110473539B (zh) * 2019-08-28 2021-11-09 思必驰科技股份有限公司 提升语音唤醒性能的方法和装置
CN110534099B (zh) * 2019-09-03 2021-12-14 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备
CN110610699B (zh) 2019-09-03 2023-03-24 北京达佳互联信息技术有限公司 语音信号处理方法、装置、终端、服务器及存储介质
CN112445452A (zh) * 2019-09-04 2021-03-05 青岛海尔洗衣机有限公司 指令处理方法、装置、电子设备及可读存储介质
CN110570840B (zh) * 2019-09-12 2022-07-05 腾讯科技(深圳)有限公司 一种基于人工智能的智能设备唤醒方法和装置
CN110600029A (zh) * 2019-09-17 2019-12-20 苏州思必驰信息科技有限公司 用于智能语音设备的自定义唤醒方法和装置
CN110570861B (zh) * 2019-09-24 2022-02-25 Oppo广东移动通信有限公司 用于语音唤醒的方法、装置、终端设备及可读存储介质
CN110853633A (zh) * 2019-09-29 2020-02-28 联想(北京)有限公司 一种唤醒方法及装置
CN112581945A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
CN110689889B (zh) * 2019-10-11 2021-08-17 深圳追一科技有限公司 人机交互方法、装置、电子设备及存储介质
CN110718212A (zh) * 2019-10-12 2020-01-21 出门问问信息科技有限公司 语音唤醒方法、装置及系统、终端和计算机可读存储介质
CN110706691B (zh) * 2019-10-12 2021-02-09 出门问问信息科技有限公司 语音验证方法及装置、电子设备和计算机可读存储介质
CN112820283B (zh) * 2019-11-18 2024-07-05 浙江未来精灵人工智能科技有限公司 一种语音处理方法、设备及系统
CN110890093B (zh) * 2019-11-22 2024-02-09 腾讯科技(深圳)有限公司 一种基于人工智能的智能设备唤醒方法和装置
CN110941455B (zh) * 2019-11-27 2024-02-20 北京声智科技有限公司 主动唤醒方法、装置及电子设备
CN111081251B (zh) * 2019-11-27 2022-03-04 云知声智能科技股份有限公司 语音唤醒方法及装置
CN113066482A (zh) * 2019-12-13 2021-07-02 阿里巴巴集团控股有限公司 语音模型更新、语音数据处理方法、设备及存储介质
CN111063265B (zh) 2019-12-26 2021-02-02 深圳市华星光电半导体显示技术有限公司 拼接显示面板及拼接显示装置
CN111081225B (zh) * 2019-12-31 2022-04-01 思必驰科技股份有限公司 技能语音唤醒方法及装置
CN111176744A (zh) * 2020-01-02 2020-05-19 北京字节跳动网络技术有限公司 电子设备控制方法、装置、终端及存储介质
CN111491236A (zh) * 2020-04-23 2020-08-04 歌尔科技有限公司 一种主动降噪耳机及其唤醒方法、装置及可读存储介质
KR20210136463A (ko) * 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111614770B (zh) * 2020-05-22 2022-06-17 云知声智能科技股份有限公司 一种单一唤醒方法、装置和系统
CN111667818B (zh) * 2020-05-27 2023-10-10 北京声智科技有限公司 一种训练唤醒模型的方法及装置
CN111653276B (zh) * 2020-06-22 2022-04-12 四川长虹电器股份有限公司 一种语音唤醒系统及方法
CN111724766B (zh) * 2020-06-29 2024-01-05 合肥讯飞数码科技有限公司 语种识别方法、相关设备及可读存储介质
CN111880988B (zh) * 2020-07-09 2022-11-04 Oppo广东移动通信有限公司 一种声纹唤醒日志收集方法及装置
CN111883098B (zh) * 2020-07-15 2023-10-24 青岛海尔科技有限公司 语音处理方法及装置、计算机可读的存储介质、电子装置
CN111951793B (zh) * 2020-08-13 2021-08-24 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
CN111949178B (zh) * 2020-08-13 2022-02-22 百度在线网络技术(北京)有限公司 技能切换方法、装置、设备以及存储介质
CN112201239B (zh) * 2020-09-25 2024-05-24 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
CN112420043A (zh) * 2020-12-03 2021-02-26 深圳市欧瑞博科技股份有限公司 基于语音的智能唤醒方法、装置、电子设备及存储介质
CN113053377B (zh) * 2021-03-23 2024-09-03 南京地平线机器人技术有限公司 语音唤醒方法和装置、计算机可读存储介质、电子设备
CN113628622A (zh) * 2021-08-24 2021-11-09 北京达佳互联信息技术有限公司 语音交互方法、装置、电子设备及存储介质
CN113744734A (zh) * 2021-08-30 2021-12-03 青岛海尔科技有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN114420115A (zh) * 2021-12-20 2022-04-29 北京声智科技有限公司 唤醒方法、装置、电子设备及存储介质
CN114579192A (zh) * 2022-01-28 2022-06-03 北京声智科技有限公司 抗误唤醒的训练方法、装置、设备及存储介质
CN114915514B (zh) * 2022-03-28 2024-03-22 青岛海尔科技有限公司 意图的处理方法和装置、存储介质及电子装置
CN114999493A (zh) * 2022-05-07 2022-09-02 国网河北省电力有限公司建设公司 一种智能语音质检方法及电子设备
CN114743546B (zh) * 2022-05-17 2024-09-06 思必驰科技股份有限公司 降低智能语音误唤醒率的方法及装置、电子设备
CN115312049B (zh) * 2022-06-30 2024-06-25 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置
US20240054999A1 (en) * 2022-08-09 2024-02-15 Samsung Electronics Co., Ltd. Context-aware false trigger mitigation for automatic speech recognition (asr) systems or other systems
US20240119925A1 (en) * 2022-10-10 2024-04-11 Samsung Electronics Co., Ltd. System and method for post-asr false wake-up suppression
US20240274127A1 (en) * 2023-02-10 2024-08-15 Qualcomm Incorporated Latency reduction for multi-stage speech recognition

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05128286A (ja) * 1991-11-05 1993-05-25 Ricoh Co Ltd ニユーラルネツトワークによるキーワードスポツテイング方式
JP2014063088A (ja) * 2012-09-24 2014-04-10 Toshiba Corp 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2015184378A (ja) * 2014-03-20 2015-10-22 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
JP2016505888A (ja) * 2012-12-11 2016-02-25 アマゾン テクノロジーズ インコーポレイテッド 発話認識電力管理
US20160125877A1 (en) * 2014-10-29 2016-05-05 Google Inc. Multi-stage hotword detection
JP2017097373A (ja) * 2010-06-24 2017-06-01 本田技研工業株式会社 音声認識処理のための方法、車載システム及び不揮発性記憶媒体
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
JP2017181667A (ja) * 2016-03-29 2017-10-05 トヨタ自動車株式会社 音声認識装置および音声認識方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314876B (zh) * 2010-06-29 2013-04-10 株式会社理光 语音检索的方法和系统
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
KR102146462B1 (ko) * 2014-03-31 2020-08-20 삼성전자주식회사 음성 인식 시스템 및 방법
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN107123417B (zh) * 2017-05-16 2020-06-09 上海交通大学 基于鉴别性训练的定制语音唤醒优化方法及系统
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
CN107622770B (zh) * 2017-09-30 2021-03-16 百度在线网络技术(北京)有限公司 语音唤醒方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05128286A (ja) * 1991-11-05 1993-05-25 Ricoh Co Ltd ニユーラルネツトワークによるキーワードスポツテイング方式
JP2017097373A (ja) * 2010-06-24 2017-06-01 本田技研工業株式会社 音声認識処理のための方法、車載システム及び不揮発性記憶媒体
JP2014063088A (ja) * 2012-09-24 2014-04-10 Toshiba Corp 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2016505888A (ja) * 2012-12-11 2016-02-25 アマゾン テクノロジーズ インコーポレイテッド 発話認識電力管理
JP2015184378A (ja) * 2014-03-20 2015-10-22 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
US20160125877A1 (en) * 2014-10-29 2016-05-05 Google Inc. Multi-stage hotword detection
JP2017181667A (ja) * 2016-03-29 2017-10-05 トヨタ自動車株式会社 音声認識装置および音声認識方法
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149688A1 (ko) * 2021-01-05 2022-07-14 삼성전자주식회사 전자 장치 및 이의 제어 방법
US12131738B2 (en) 2021-01-05 2024-10-29 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof

Also Published As

Publication number Publication date
US11322138B2 (en) 2022-05-03
JP6828001B2 (ja) 2021-02-10
US20190251963A1 (en) 2019-08-15
CN108335696A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
JP6828001B2 (ja) 音声ウェイクアップ方法及び装置
EP3770905B1 (en) Speech recognition method, apparatus and device, and storage medium
EP3605537A1 (en) Speech emotion detection method and apparatus, computer device, and storage medium
US11189262B2 (en) Method and apparatus for generating model
US20210241775A1 (en) Hybrid speech interface device
CN111428010B (zh) 人机智能问答的方法和装置
CN111309883A (zh) 基于人工智能的人机对话方法、模型训练方法及装置
US10810993B2 (en) Sample-efficient adaptive text-to-speech
CN110288995B (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
CN107705788A (zh) 一种语音指令的校验方法及智能终端
CN114550705B (zh) 对话推荐方法、模型的训练方法、装置、设备及介质
CN110795939A (zh) 文本处理方法、装置
JP2019008771A (ja) 情報入力方法
KR20200074690A (ko) 전자 장치 및 이의 제어 방법
CN113257238B (zh) 预训练模型的训练方法、编码特征获取方法及相关装置
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
JP2019091012A (ja) 情報認識方法および装置
US20240321264A1 (en) Automatic speech recognition
CN110223694B (zh) 语音处理方法、系统和装置
CN115080739A (zh) 用于训练对话模型的方法以及用于输出应答信息的方法
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
CN113689868A (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
KR20200057501A (ko) 전자 장치 및 그의 와이파이 연결 방법
US11443735B2 (en) Method for generating filled pause detecting model corresponding to new domain and device therefor
EP3893143A1 (en) Corpus processing method, apparatus and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20201124

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20201202

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20201203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210120

R150 Certificate of patent or registration of utility model

Ref document number: 6828001

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250