JP2021196599A - 情報を出力するための方法および装置 - Google Patents

情報を出力するための方法および装置 Download PDF

Info

Publication number
JP2021196599A
JP2021196599A JP2020205115A JP2020205115A JP2021196599A JP 2021196599 A JP2021196599 A JP 2021196599A JP 2020205115 A JP2020205115 A JP 2020205115A JP 2020205115 A JP2020205115 A JP 2020205115A JP 2021196599 A JP2021196599 A JP 2021196599A
Authority
JP
Japan
Prior art keywords
information
wakeup
preset
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020205115A
Other languages
English (en)
Inventor
ネンジュン ウーヤン
Nengjun Ouyang
クー チャオ
Ke Zhao
ロン リウ
Rong Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021196599A publication Critical patent/JP2021196599A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

【課題】追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングする方法、装置、サーバ及び記憶媒体を提供する。【解決手段】方法は、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップと、音声情報に対して音声認識を実行し、認識結果を取得するステップと、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出するステップと、特徴情報に基づいて、反例トレーニングサンプルを生成するステップと、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得するステップと、を含む。【選択図】図2

Description

本願の実施例は、コンピュータ技術の分野、具体的にはデバイスウェイクアップの分野、特に情報を出力するための方法および装置に関する。
旅行の快適さに対する人々の要求がますます高まり、車載情報通信システムに搭載された音声アシスタントの普及率が高まるにつれて、人々は、旅行中にいくつかの車載制御を完了するために音声アシスタントの使用に徐々に依存するようになる。例えば、ナビゲート、音楽再生、空調制御などの機能は徐々に人々に受け入れられている。しかし、音声アシスタントは誤ってウェイクアップされることが多く、人々に多くのトラブルを引き起こし、旅行の安全性にも影響を与えるため、音声アシスタントをオフにする必要がある。これは、業界の車載音声アシスタントの問題点となっている。
本願の実施例は、情報を出力するための方法、装置、サーバ、および記憶媒体を提供する。
第一様態によれば、情報を出力するための方法が提供される。この方法は、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップと、上記音声情報に対して音声認識を実行し、認識結果を取得するステップと、上記認識結果には上記プリセットのウェイクアップワードが含まれていないと判定した場合、上記音声情報の特徴情報を抽出するステップと、上記特徴情報に基づいて、反例トレーニングサンプルを生成するステップと、上記反例トレーニングサンプルを使用して上記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップと、を含む。
第二様態によれば、情報を出力するための装置が提供される。この装置は、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するように構成された取得ユニットと、上記音声情報に対して音声認識を実行し、認識結果を取得するように構成された認識ユニットと、上記認識結果には上記プリセットのウェイクアップワードが含まれていないと判定した場合、上記音声情報の特徴情報を抽出するように構成された抽出ユニットと、上記特徴情報に基づいて、反例トレーニングサンプルを生成するように構成されたトレーニングユニットと、上記反例トレーニングサンプルを使用して上記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するように構成された出力ユニットと、を含む。
第三態様によれば、サーバが提供される。このサーバは、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶する記憶装置と、を含み、上記1つまたは複数のプログラムが上記1つまたは複数のプロセッサによって実行されるとき、上記1つまたは複数のプロセッサが第一態様の実施例のいずれか1つに記載の方法を実施するようにする。
第四態様によれば、コンピュータ可読媒体が提供される。このコンピュータ可読媒体は、コンピュータプログラムを記憶するコンピュータ可読媒体であって、このプログラムがプロセッサによって実行されるとき、第一態様の実施例のいずれか1つに記載の方法を実施する。
第五態様によれば、コンピュータプログラムが提供される。このコンピュータプログラムは、プロセッサによって実行されるとき、第一態様の実施例のいずれか1つに記載の方法を実施する。
本願の技術的解決手段によれば、従来のデバイスウェイクアップ方法が誤ってウェイクアップしやすいという問題を解決し、誤ったウェイクアップ時の音声情報を反例サンプルとして使用して、追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングすることができるため、コストを節約し、誤ったウェイクアップを自動的に抑制し、ウェイクアップの精度を向上させることができる。
このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明から容易に理解されるであろう。
本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。
本願の一実施例が適用され得る例示的なシステムアーキテクチャ図である。 本開示に係る情報を出力するための方法の一実施例のフローチャートである。 本開示に係る情報を出力するための方法の適用シナリオの概略図である。 本開示に係る情報を出力するための方法の別の実施例のフローチャートである。 本開示に係る情報を出力するための装置の一実施例の構造概略図である。 本願の実施例を実施するのに適したサーバのコンピュータシステムの構造概略図である。
以下、図面および実施例を参照して本願をさらに詳細に説明する。本明細書に記載の具体的な実施例は、関連発明を解釈するものにすぎず、当該発明を限定するものではないことを理解されたい。また、説明の便宜上、当該発明に関連する部分のみが図面に示されている。
なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。
図1は、本願の実施例が適用され得る、情報を出力するための方法または情報を出力するための装置の実施例の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供する媒体として機能している。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続形態を含み得る。
ユーザは、端末装置101、102、103を用いてネットワーク104を介してサーバ105と対話し、情報などを送受信することができる。端末装置101、102、103には、音声認識アプリケーションなどの様々な通信クライアントアプリケーションがインストールされ得る。端末装置101、102、103には、マイクアレイなどがさらに設置され得る。
端末装置101、102、103は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、音声ウェイクアップをサポートする様々な電子機器であり得る。端末装置101、102、103がソフトウェアである場合、それらは、上記に挙げた電子機器にインストールされ得る。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは具体的に限定しない。
サーバ105は、端末装置101、102、103に設置されたマイクアレイによって収集された音声をサポートするバックグラウンド音声サーバなど、様々なサービスを提供するサーバであり得る。バックグラウンド音声サーバは、受信した音声などのデータに対して分析などの処理を行い、処理結果(例えば、ウェイクアップ結果)を端末装置101、102、103にフィードバックすることができる。
なお、サーバ105は、ハードウェアであり得るか、またはソフトウェアであり得る。サーバ105がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバ105がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは具体的に限定しない。
なお、本願の実施例によって提供される情報を出力するための方法は、一般に、サーバ105によって実行される。それに応じて、情報を出力するための装置は、一般に、サーバ105に設置される。
図1の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定されてもよい。
さらに図2を参照すると、図2は、本願に係る情報を出力するための方法の一実施例のプロセス200を示す。本実施例における情報を出力するための方法は、以下のステップを含む。
ステップ201、デバイスがウェイクアップされる前に、所定期間の音声情報を取得する。
本実施例では、情報を出力するための方法の実行主体(例えば、図1に示すサーバ105)は、有線接続または無線接続を介して、デバイスがウェイクアップされる前に、所定期間の音声情報を取得することができる。上記デバイスは、車載コンピュータ、スマートフォンなどの様々な端末装置であり得る。上記デバイスには、少なくとも1つのニューラルネットワークからなるアルゴリズムであり得る音声ウェイクアップモデルが設けられ得る。上記音声ウェイクアップモデルは、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用される。プリセットのウェイクアップワードは、事前にトレーニングされたウェイクアップワードであり得る。上記プリセットの応答情報は、例えば、プリセットの出力情報であり得る。出力情報は、音声情報であり得るか、または文字情報であり得るか、またはハードウェアまたはソフトウェアに対する制御命令であり得る。上記音声ウェイクアップモデルは、事前にトレーニングされて上記デバイスに送信されるものであり得る。上記デバイスは、音声情報をリアルタイムで監視し、監視された音声情報を上記ウェイクアップモデルに送信することができる。上記ウェイクアップモデルは、上記音声情報を受信した後、プリセットの応答情報を出力して、デバイスがウェイクアップされたことを表明することができる。
デバイスがウェイクアップされた後、ウェイクアップされる前の所定期間の音声情報を実行主体に送信することができる。上記所定期間は、10分、5分など、実際の適用シナリオに応じて設定された任意の期間であり得る。
ステップ202、音声情報に対して音声認識を実行し、認識結果を取得する。
実行主体は、音声情報を受信した後、音声に対して音声認識を実行し、認識結果を取得することができる。本実施例では、実行主体は、従来の音声認識アルゴリズムを使用して、音声情報を認識することができる。上記音声認識アルゴリズムは、ディープニューラルネットワークなどを含み得る。上記認識結果には、文字が含まれ得る。
ステップ203、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出する。
実行主体は、上記認識結果にはプリセットのウェイクアップワードが含まれるか否かを判定することができる。含まれる場合は、デバイスが正常にウェイクアップされることを意味する。プリセットのウェイクアップワードが含まれていない場合は、デバイスが誤ってウェイクアップされることを意味する。このとき、実行主体は、上記音声情報の特徴情報を抽出することができる。具体的には、実行主体は、畳み込みニューラルネットワークなどの様々な音声処理アルゴリズムを使用して、音声情報の特徴情報を抽出することができる。上記特徴情報は、音素シーケンス、音節シーケンスなど、音声情報を表すことができる様々な特徴であり得る。
ステップ204、特徴情報に基づいて、反例トレーニングサンプルを生成する。
実行主体は、特徴情報を取得した後、反例トレーニングサンプルを生成することができる。具体的には、実行主体は、上記特徴情報を反例サンプルとして直接使用することができる。あるいは、実行主体は、上記特徴情報をさらに処理して、反例トレーニングサンプルを取得することができる。例えば、実行主体は、上記特徴情報におけるノイズを除去したり、上記特徴情報を傍受したりすることができる。
ステップ205、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得する。
実行主体は、上記反例トレーニングサンプルを取得した後、上記反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得することができる。具体的には、実行主体は、上記音声に含まれるウェイクアップワードを入力とし、空の情報を所望の出力として使用し、ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得することができる。
さらに図3を参照すると、図3は、本実施例に係る情報を出力するための方法の適用シナリオの概略図である。図3の適用シナリオでは、ユーザが車内で通話しているときに車載コンピュータから突然「私はいます」という音声が出る場合は、車載コンピュータが誤ってウェイクアップされたことを意味する。車載コンピュータは、ウェイクアップの2秒前の音声情報を圧縮して、サーバにアップロードすることができる。サーバは、上記音声情報を分析し、プリセットのウェイクアップワードが含まれていないと判定することができる。そうである場合、音声情報の特徴情報を抽出し、反例トレーニングサンプルを生成する。反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得する。
本願の上記実施例によって提供される情報を出力するための方法は、誤ったウェイクアップ時の音声情報を反例サンプルとして使用して、追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングすることができるため、コストを節約し、誤ったウェイクアップを自動的に抑制し、ウェイクアップの精度を向上させることができる。
さらに図4を参照すると、図4は、本願に係る情報を出力するための方法の別の実施例のプロセス400を示す。図4に示すように、本実施例における情報を出力するための方法は、以下のステップを含み得る。
ステップ401、デバイスがウェイクアップされる前に、所定期間の音声情報を取得する。
ステップ402、音声情報に対して音声認識を実行し、認識結果を取得する。
ステップ403、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出する。
ステップ404、特徴情報に基づいて、反例トレーニングサンプルを生成する。
ステップ405、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得する。
本実施例のいくつかの代替的な実施形態では、実行主体は、図2に示されていないステップによって、即ち、反例トレーニングサンプルの数を決定するステップ、および、反例トレーニングサンプルの数が所定数の閾値以上である場合、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングするステップによって、上記のステップ405を実施することができる。
本実施形態では、実行主体は、まず、反例トレーニングサンプルの数を決定することができる。数が所定数の閾値よりも大きい場合、各反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングすることができる。このようにして、ウェイクアップモデルの精度を確保することができる。
ステップ406、ウェイクアップワードを含む音声情報の特徴情報をトレーニング済みウェイクアップモデルに入力し、プリセットの応答情報が出力されるか否かを判定する。
本実施例では、実行主体は、トレーニング済みウェイクアップモデルを取得した後、ウェイクアップワードを含む音声情報の特徴情報を前記モデルに入力し、プリセットの応答情報が出力されるか否かを判定することができる。即ち、実行主体は、トレーニング済みウェイクアップモデルを検証することができる。プリセットの応答情報が出力される場合は、プリセットのウェイクアップモデルの効果が良好であることを意味する。プリセットの応答情報が出力できない場合は、このウェイクアップモデルが動作できないことを意味する。プリセットの応答情報が出力される場合、ステップ407を実行するが、プリセットの応答情報が出力されない場合、ステップ408を実行する。
ステップ407、プリセットの応答情報が出力される場合、トレーニング済みウェイクアップモデルを出力する。
ウェイクアップモデルがプリセットの応答情報を出力する場合、実行主体は、トレーニング済みウェイクアップモデルを出力することができる。例えば、端末装置がこのトレーニング済みウェイクアップモデルを使用して音声ウェイクアップを実行するように、各端末装置に送信することができる。
ステップ408、プリセットの応答情報が出力されない場合、アラーム情報を出力する。
ウェイクアップモデルがプリセットの応答情報を出力しない場合は、ウェイクアップモデルが動作できないことを意味するため、この場合にアラーム情報を出力する必要がある。このアラーム情報は、ウェイクアップモデルの調整に介入するように技術者に通知するために使用される。
本願の上記実施例によって提供される情報を出力するための方法は、ウェイクアップモデルをトレーニングした後、ウェイクアップワードを含む音声情報の特徴情報を使用して、ウェイクアップモデルを検証し、トレーニング済みウェイクアップモデルの有効性を確保し、無効になった場合に直ちに技術者に通知することができる。
さらに図5を参照すると、上記各図に示された方法の実施形態として、本願は、図2に示す方法の実施例に対応する、情報を出力するための装置の一実施例を提供する。この装置は様々な電子機器に特に適用できる。
図5に示すように、本実施例に係る情報を出力するための装置500は、取得ユニット501、認識ユニット502、抽出ユニット503、トレーニングユニット504、および出力ユニット505を含む。
取得ユニット501は、デバイスがウェイクアップされる前に、所定期間の音声情報を取得するように構成される。ここで、デバイスには、プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルが設けられる。
認識ユニット502は、音声情報に対して音声認識を実行し、認識結果を取得するように構成される。
抽出ユニット503は、認識結果にはプリセットのウェイクアップワードが含まれていないと判定した場合、音声情報の特徴情報を抽出するように構成される。
トレーニングユニット504は、特徴情報に基づいて、反例トレーニングサンプルを生成するように構成される。
出力ユニット505は、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するように構成される。
本実施例のいくつかの代替的な実施形態では、トレーニングユニット504は、ウェイクアップワードを含む音声情報の特徴情報をトレーニング済みウェイクアップモデルに入力し、プリセットの応答情報が出力されるか否かを判定するステップと、プリセットの応答情報が出力される場合、トレーニング済みウェイクアップモデルを出力するステップと、を実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、装置500は、ウェイクアップワードを含む音声情報の特徴情報をトレーニング済みウェイクアップモデルに入力し、プリセットの応答情報が出力されるか否かを判定するステップと、プリセットの応答情報が出力される場合、トレーニング済みウェイクアップモデルを出力するステップとを実行するように構成された、図5に示されていないアラームユニットをさらに含む。
本実施例のいくつかの代替的な実施形態では、トレーニングユニット504は、反例トレーニングサンプルの数を決定するステップと、反例トレーニングサンプルの数が所定数の閾値以上である場合、反例トレーニングサンプルを使用してウェイクアップモデルをトレーニングするステップと、を実行するようにさらに構成される。
本実施例のいくつかの代替的な実施形態では、取得ユニット501は、デバイスがプリセットのウェイクアップワードによってウェイクアップされる場合、デバイスがウェイクアップされる前に、所定期間の音声情報を取得するようにさらに構成される。
情報を出力するための装置500に記載のユニット501から505は、それぞれ、図2を参照して説明された方法の各ステップに対応することを理解されたい。従って、情報を出力するための方法について上述した操作および特徴は、装置500およびそれに含まれるユニットにも適用可能であるため、ここではその説明を省略する。
本願の実施例によれば、本願は、電子機器および可読記憶媒体をさらに提供する。
図6に示すように、図6は、本願の実施例に係る情報を出力するための方法を実施するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本願の実施形態を限定することを意図したものではない。
図6に示すように、この電子機器は、1つまたは複数のプロセッサ601と、メモリ602と、高速インターフェースおよび低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバス603を介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、GUIのグラフィック情報が外部入力/出力装置(例えば、インターフェースに結合された表示装置)に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子機器で実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数本のバス603は、必要に応じて、複数のメモリとともに使用され得る。同様に、それは、(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして)いくつかの必要な操作を提供する複数の電子機器に接続され得る。図6には、プロセッサ601が例として挙げられる。
メモリ602は、本願によって提供される非一時的コンピュータ可読記憶媒体である。ここで、メモリ602には、少なくとも1つのプロセッサが本願によって提供される情報を出力するための方法を実行できるように、少なくとも1つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願によって提供される情報を出力するための方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。
非一時的コンピュータ可読記憶媒体として、メモリ602は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例における情報を出力するための方法に対応するプログラム命令/モジュール(例えば、図5に示す取得ユニット501、認識ユニット502、抽出ユニット503、トレーニングユニット504、および出力ユニット505)などのモジュールとを記憶するために使用され得る。プロセッサ601は、メモリ602に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法の実施例における情報を出力するための方法を実施する。
メモリ602は、オペレーティングシステムおよび少なくとも1つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、情報を出力するための方法を実施するための電子機器によって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ602は、高速ランダムアクセスメモリを含み得、また、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ602は、任意選択で、プロセッサ601に対して遠隔的に設定されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、情報を出力するための方法を実施するための電子機器に接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
情報を出力するための方法を実施するための電子機器は、入力装置604および出力装置605をさらに含み得る。プロセッサ601、メモリ602、入力装置604、および出力装置605は、バスまたはその他の手段を介して接続され得るが、図6にはバス603による接続が例として挙げられる。
入力装置604は、入力された数字または文字情報を受信し、情報を出力するための方法を実施するための電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができるものであり、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置605は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含み得る。この表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであり得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および/またはアセンブリ/機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、またはミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、またはフロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、このバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが含まれる。
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント−サーバの関係を有するコンピュータプログラムによって生成される。
本願の実施例の技術的解決手段によれば、誤ったウェイクアップ時の音声情報を反例サンプルとして使用して、追加の記録コーパスを必要とせずにウェイクアップモデルをトレーニングすることができるため、コストを節約し、誤ったウェイクアップを自動的に抑制し、ウェイクアップの精度を向上させることができる。
ステップの並べ替え、追加、または削除は、上記の様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本願に記載の各ステップは、本願に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次、または異なる順序で実行され得るが、本明細書に限定されない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本願の精神と原則の範囲内で行われた修正、同等置換、改良などは、本願の保護範囲に含まれるべきである。

Claims (13)

  1. プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップと、
    前記音声情報に対して音声認識を実行し、認識結果を取得するステップと、
    前記認識結果には前記プリセットのウェイクアップワードが含まれていないと判定した場合、前記音声情報の特徴情報を抽出するステップと、
    前記特徴情報に基づいて、反例トレーニングサンプルを生成するステップと、
    前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップと、を含む、
    情報を出力するための方法。
  2. 前述した前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップは、
    前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
    前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を含む、
    請求項1に記載の方法。
  3. 前記プリセットの応答情報が出力されない場合、アラーム情報を出力するステップをさらに含む、
    請求項2に記載の方法。
  4. 前述した前記トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得するステップは、
    前記反例トレーニングサンプルの数を決定するステップと、
    前記反例トレーニングサンプルの数が所定数の閾値以上である場合、前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングするステップと、を含む、
    請求項1に記載の方法。
  5. 前述したデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップは、
    前記デバイスが前記プリセットのウェイクアップワードによってウェイクアップされる場合、前記デバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップを含む、
    請求項4に記載の方法。
  6. プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するように構成された取得ユニットと、
    前記音声情報に対して音声認識を実行し、認識結果を取得するように構成された認識ユニットと、
    前記認識結果には前記プリセットのウェイクアップワードが含まれていないと判定した場合、前記音声情報の特徴情報を抽出するように構成された抽出ユニットと、
    前記特徴情報に基づいて、反例トレーニングサンプルを生成するように構成されたトレーニングユニットと、
    前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するように構成された出力ユニットと、を含む、
    情報を出力するための装置。
  7. 前記トレーニングユニットは、
    前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
    前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を実行するようにさらに構成される、
    請求項6に記載の装置。
  8. 前記装置は、
    前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
    前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を実行するように構成されたアラームユニットをさらに含む、
    請求項7に記載の装置。
  9. 前記トレーニングユニットは、
    前記反例トレーニングサンプルの数を決定するステップと、
    前記反例トレーニングサンプルの数が所定数の閾値以上である場合、前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングするステップと、を実行するようにさらに構成される、
    請求項6に記載の装置。
  10. 前記取得ユニットは、
    前記デバイスが前記プリセットのウェイクアップワードによってウェイクアップされる場合、前記デバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップを実行するようにさらに構成される、
    請求項1に記載の装置。
  11. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶する記憶装置と、を含み、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されるとき、前記1つまたは複数のプロセッサが請求項1−5のいずれか一項に記載の方法を実施するようにする、
    サーバ。
  12. コンピュータプログラムを記憶するコンピュータ可読媒体であって、このプログラムがプロセッサによって実行されるとき、請求項1−5のいずれか一項に記載の方法を実施する、コンピュータ可読媒体。
  13. このプログラムがプロセッサによって実行されるとき、請求項1−5のいずれか一項に記載の方法を実施する、コンピュータプログラム。
JP2020205115A 2020-06-10 2020-12-10 情報を出力するための方法および装置 Pending JP2021196599A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010522739.4A CN111640426A (zh) 2020-06-10 2020-06-10 用于输出信息的方法和装置
CN202010522739.4 2020-06-10

Publications (1)

Publication Number Publication Date
JP2021196599A true JP2021196599A (ja) 2021-12-27

Family

ID=72330700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020205115A Pending JP2021196599A (ja) 2020-06-10 2020-12-10 情報を出力するための方法および装置

Country Status (4)

Country Link
US (1) US11587550B2 (ja)
EP (1) EP3923272B1 (ja)
JP (1) JP2021196599A (ja)
CN (1) CN111640426A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114886B (zh) * 2020-09-17 2024-03-29 北京百度网讯科技有限公司 误唤醒音频的获取方法和装置
CN112071323B (zh) * 2020-09-18 2023-03-21 阿波罗智联(北京)科技有限公司 误唤醒样本数据的获取方法、装置和电子设备
CN112233681A (zh) * 2020-10-10 2021-01-15 北京百度网讯科技有限公司 一种误唤醒语料确定方法、装置、电子设备和存储介质
CN112489648B (zh) * 2020-11-25 2024-03-19 广东美的制冷设备有限公司 唤醒处理阈值调整方法、语音家电、存储介质
CN112712801B (zh) * 2020-12-14 2024-02-02 北京有竹居网络技术有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN112712799A (zh) * 2020-12-23 2021-04-27 大众问问(北京)信息科技有限公司 一种误触发语音信息的获取方法、装置、设备及存储介质
CN113129874B (zh) * 2021-04-27 2022-05-10 思必驰科技股份有限公司 语音唤醒方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101583912B (zh) * 2007-01-22 2012-03-28 皇家飞利浦电子股份有限公司 唤醒刺激控制系统
JP2011180729A (ja) * 2010-02-26 2011-09-15 Sony Corp 情報処理装置、キーワード登録方法及びプログラム
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
US10354635B2 (en) * 2017-11-01 2019-07-16 Bose Corporation Adaptive nullforming for selective audio pick-up
US11430421B2 (en) * 2017-11-01 2022-08-30 Bose Corporation Adaptive null forming and echo cancellation for selective audio pick-up
CN108320733B (zh) 2017-12-18 2022-01-04 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
KR20190084789A (ko) * 2018-01-09 2019-07-17 엘지전자 주식회사 전자 장치 및 그 제어 방법
US10574890B2 (en) * 2018-01-12 2020-02-25 Movidius Ltd. Methods and apparatus to operate a mobile camera for low-power usage
EP3756087A4 (en) * 2018-06-05 2021-04-21 Samsung Electronics Co., Ltd. PASSIVE WAKE-UP PROCESSES AND SYSTEMS OF A USER INTERACTION DEVICE
US11423295B2 (en) * 2018-07-26 2022-08-23 Sap Se Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning
US11620525B2 (en) * 2018-09-25 2023-04-04 Advanced Micro Devices, Inc. Dropout for accelerated deep learning in heterogeneous architectures
KR20200059054A (ko) * 2018-11-20 2020-05-28 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN109637537B (zh) 2018-12-28 2020-06-30 北京声智科技有限公司 一种自动获取标注数据优化自定义唤醒模型的方法
US10728656B1 (en) * 2019-01-07 2020-07-28 Kikago Limited Audio device and audio processing method
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11282500B2 (en) * 2019-07-19 2022-03-22 Cisco Technology, Inc. Generating and training new wake words
US11222287B2 (en) * 2019-07-25 2022-01-11 International Business Machines Corporation Machine learning for failure event identification and prediction
CN110517670A (zh) * 2019-08-28 2019-11-29 苏州思必驰信息科技有限公司 提升唤醒性能的方法和装置
US11373760B2 (en) * 2019-10-12 2022-06-28 International Business Machines Corporation False detection rate control with null-hypothesis
US10984086B1 (en) * 2019-10-18 2021-04-20 Motorola Mobility Llc Methods and systems for fingerprint sensor triggered voice interaction in an electronic device
CN111081217B (zh) * 2019-12-03 2021-06-04 珠海格力电器股份有限公司 一种语音唤醒方法、装置、电子设备及存储介质
US20210191845A1 (en) * 2019-12-23 2021-06-24 Ab Initio Technology Llc Unit testing of components of dataflow graphs
US11308959B2 (en) * 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11269597B2 (en) * 2020-03-31 2022-03-08 Sap Se Real-time code recommendations using machine learning and reinforcement learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备

Also Published As

Publication number Publication date
EP3923272A1 (en) 2021-12-15
US20210390947A1 (en) 2021-12-16
CN111640426A (zh) 2020-09-08
EP3923272B1 (en) 2023-05-24
US11587550B2 (en) 2023-02-21

Similar Documents

Publication Publication Date Title
JP2021196599A (ja) 情報を出力するための方法および装置
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
US11435980B2 (en) System for processing user utterance and controlling method thereof
CN105793921A (zh) 基于部分热词发起动作
CN111694433B (zh) 语音交互的方法、装置、电子设备及存储介质
US10996922B2 (en) Electronic apparatus for processing user utterance
CN107948437B (zh) 熄屏显示方法和装置
US20210090562A1 (en) Speech recognition control method and apparatus, electronic device and readable storage medium
JP2021114284A (ja) 句読点予測方法および装置
US11474780B2 (en) Method of providing speech recognition service and electronic device for same
CN112309384B (zh) 一种语音识别方法、装置、电子设备及介质
TW201942896A (zh) 一種搜尋方法以及一種應用該方法的電子裝置
CN111326146A (zh) 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质
JP2019175453A (ja) ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN113823313A (zh) 语音处理方法、装置、设备以及存储介质
KR20190114325A (ko) 사용자 음성 입력을 처리하는 장치
CN112382292A (zh) 基于语音的控制方法和装置
CN113488050B (zh) 语音唤醒方法、装置、存储介质及电子设备
CN112306560B (zh) 用于唤醒电子设备的方法和装置
CN114333017A (zh) 一种动态拾音方法、装置、电子设备及存储介质
CN111312243B (zh) 设备交互方法和装置
CN109036379B (zh) 语音识别方法、设备及存储介质
CN114171063A (zh) 一种实时话务客户情绪分析辅助方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210830

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220921

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230516