JP7158217B2 - 音声認識方法、装置及びサーバ - Google Patents

音声認識方法、装置及びサーバ Download PDF

Info

Publication number
JP7158217B2
JP7158217B2 JP2018167826A JP2018167826A JP7158217B2 JP 7158217 B2 JP7158217 B2 JP 7158217B2 JP 2018167826 A JP2018167826 A JP 2018167826A JP 2018167826 A JP2018167826 A JP 2018167826A JP 7158217 B2 JP7158217 B2 JP 7158217B2
Authority
JP
Japan
Prior art keywords
word
voice
pronunciation
wake
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018167826A
Other languages
English (en)
Other versions
JP2019133127A (ja
Inventor
ジージエン・ワーン
ション・チエン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2019133127A publication Critical patent/JP2019133127A/ja
Application granted granted Critical
Publication of JP7158217B2 publication Critical patent/JP7158217B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声認識技術分野に関し、特に音声認識方法、装置及びサーバに関する。
電子機器の発展に伴い、電子機器の重要な構成部分である電子機器の制御システム例えば音声制御システムも発展しつつあり、音声認識技術の急速発展に伴い、様々な音声認識ソフトウェアも出現し、それにより人と電子機器とのコミュニケーションが簡単且つ興味深くなる。人と電子機器との音声制御を行う時の誤操作を避けるために、ウェイクアップワードを設定することができ、電子機器が自体にマッチングするウェイクアップワードを受信すると、外部の音声制御情報を受信して、音声制御情報に応じて対応する操作を実行する。
ユーザーが電子機器と音声対話を行うたびに、電子機器がユーザーの音声を受信し、ユーザーの音声をサーバに伝送し、サーバによって音声認識を行い、次に、ユーザーの指示通りに操作する。しかしながら、ユーザーの音声に含まれる情報がより多く、サーバがユーザーの音声を認識する時、音声全体を認識してから、ユーザーの指示に関連する有用な情報を選別し、次に、ユーザーの指示を実行する必要がある。このように、音声認識中のデータ処理量がより大きく、音声認識の効率を低下させてしまう。
背景技術における一つ又は複数の技術的問題を解決又は緩和するために、本発明の実施例は音声認識方法、装置及びサーバを提供し、それにより少なくとも1つの有益な選択肢を提供する。
第一態様において、本発明の実施例は音声認識方法を提供し、
クライアントが送信したユーザーの音声を受信することと、
前記音声の音響特性に基づいて、前記音声におけるウェイクアップワードに対応する発音を認識することと、
前記ウェイクアップワードの発音にミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップすることと、を含む。
第一態様と合わせて、本発明の第一態様の第一実施形態において、
前記音声の音響特性に基づいて、前記音声におけるウェイクアップワードに対応する発音を認識することは、
前記発音を認識経路に予め記憶されるウェイクアップマッチングワードにマッチングし、前記発音における音声の一部が前記認識経路に予め記憶されるウェイクアップマッチングワードにマッチングする場合、前記音声の一部をウェイクアップワードとして認識することを含む。
第一態様と合わせて、本発明の第一態様の第二実施形態において、前記ウェイクアップワードの発音にミュートマークを表記することにより、音声を認識する時にミュートマークを表記したウェイクアップワードの発音をスキップすることは、
復号アルゴリズムを用いて前記ミュートマークが表記されたウェイクアップワードを認識する時、前記ウェイクアップワードの発音が終了するまで、ミュートを維持することを含む。
第一態様と合わせて、本発明の第一態様の第三実施形態において、前記ウェイクアップワードの発音の最初にミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップした後、前記方法は、
復号アルゴリズムを用いて前記音声におけるウェイクアップワード以外のほかの音声を認識することを更に含む。
第二態様において、本発明の実施例は音声認識装置を提供し、
クライアントが送信したユーザーの音声を受信するように配置される受信モジュールと、
前記音声の音響特性に基づいて、前記音声におけるウェイクアップワードに対応する発音を認識する第一認識モジュールと、
前記ウェイクアップワードの発音にミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップするように配置されるミュートモジュールと、を備える。
第二態様と合わせて、本発明の第二態様の第一実施形態において、前記第一認識モジュールは、
前記発音を認識経路に予め記憶されるウェイクアップマッチングワードにマッチングし、前記発音における音声の一部が前記認識経路に予め記憶されるウェイクアップマッチングワードにマッチングする場合、前記音声の一部をウェイクアップワードとして認識するように配置されるマッチングサブモジュールを備える。
第二態様と合わせて、本発明の第二態様の第二実施形態において、前記ミュートモジュールは、
復号アルゴリズムを用いて前記ミュートマークが表記されたウェイクアップワードを認識する時、前記ウェイクアップワードの発音が終了するまで、ミュートを維持するように配置されるミュートサブモジュールを備える。
第二態様と合わせて、本発明の第二態様の第三実施形態において、前記装置は、前記ウェイクアップワードの発音の最初にミュートマークを表記する場合、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップした後、復号アルゴリズムを用いて前記音声におけるウェイクアップワード以外のほかの音声を認識するように配置される第二認識モジュールを更に備える。
第三態様において、前記サーバは、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶するための記憶装置と、を備え、
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに上記第一態様における音声認識方法を実現させる。
第四態様において、本発明の実施例は、音声認識装置に使用されるコンピュータソフトウェア命令を記憶することに用いられ、前記コンピュータソフトウェア命令が上記第一態様における音声認識方法を実行するための音声認識装置に関するプログラムを含むコンピュータ可読記憶媒体を提供する。
上記技術案のうち一つの技術案は、本発明の実施例における技術案において、ユーザーの音声におけるウェイクアップワードにミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップし、このように、複雑な復号アルゴリズムを用いて音声を認識する時、ユーザーの指示に関連しないウェイクアップワードを認識することを避け、復号アルゴリズムによるデータ処理量を減少させ、音声認識効率を向上させるという利点又は有益な効果を有する。
上記概説は明細書の目的のために説明されたが、何らかの形態で本発明を限定するものではない。上記例示的な態様、実施形態及び特徴に加えて、図面及び以下の詳細な説明を参照することによって、本発明のさらなる態様、実施形態及び特徴は分かりやすくなる。
図面では、特に断りがない限り、複数の図面に亘って同じ符号で同一又は類似する部材又は要素を示す。これらの図面は必ずしも一定の比例に応じて描かれているとは限らない。理解すべきなのは、これらの図面は本発明開示のいくつかの実施形態を描いているためのものであり、本発明の範囲を制限するためのものであると見なされるべきではない。
本発明の実施例1に係る音声認識方法のフローチャートである。 本発明の実施例2に係る音声認識方法のフローチャートである。 本発明の実施例3に係る音声認識装置の模式図である。 本発明の実施例4に係るサーバの模式図である。
以下、ある例示的な実施例を簡単に説明する。当業者が認識できる通り、本発明の趣旨又は範囲を逸脱せずに、種々の異なる態様で説明された実施例を修正することができる。従って、図面及び説明が実質的に例示的なものであって、制限的なものではないと見なされている。
ワンショット(one-shot)は現在流行している音声対話技術である。このような技術は「ウェイクアップワード+音声語義認識」の一体化方式を用いて、ウェイクアップワードと音声制御とのゼロ間隔、ゼロ遅延、シームレス接続を実現し、従来の一問一答形式を廃止し、ユーザーの音声制御ステップを大幅に簡素化し、情報フィードバックを実現し、簡素化し、操作の容易化を実現する。one-shotの特徴は、認識ウェイクアップ及び語義理解を一体化し、音声対話の統一性及び一貫性を確保し、操作を実現することである。簡単な例を挙げれば、過去のスマート音声対話方式は一問一答であり、ユーザーがウェイクアップワード命令を出し、機器が待機情報をフィードバックしてから、対話を開始することができ、例えば、
ユーザー:「こんにちは、度ちゃん」(ユーザーがウェイクアップワードを送信することにより機器をウェイクアップさせる)。
機器:「何にかお手伝いことはございますか?」(電子機器がウェイクアップワードに対してフィードバックし、情報受信状態にあると示される)。
ユーザー:「空港へ行きたいです。」
機器:「空港へナビゲーションしましょう。」
One-shot技術は一言で完了でき、「ウェイクアップワード+音声語義認識」の一体化を実現し、例えば、
ユーザー:「今日は、度ちゃん、空港へ行きたいです。」
機器:「空港へナビゲーションしましょう。」という対話を実現する。
従来の音声対話技術に比べて、このような体験がより効率的である。
音声ウェイクアップ及びよく使用される音声認識命令がローカルに記憶され、クライアント(又は電子機器)はユーザーの音声を受信して、ユーザーの音声に正確且つ直ちに応答することができる。同時に、ユーザーの音声をクラウドサーバに送信し、クラウドサーバによって音声認識及び語義理解を処理する。クライアントプラスクラウドサーバのハイブリッドエンジン処理によって、応答速度を確保するだけでなく、対話精度も確保する。しかしながら、従来技術において、クライアントがユーザーの音声をサーバに送信し、サーバがユーザーのすべての音声を認識する必要があり、且つこの音声にはユーザーの指示に関連しない情報が存在する可能性がある。このため、本発明の実施例は音声認識方法を提供し、クラウドサーバが音声認識を行う時、ユーザーの指示に関連しないウェイクアップワードをフィルタリングすることにより、クラウドサーバの音声認識効率を向上させる。
実施例1
本発明の実施例は音声認識方法を提供する。図1は本発明の実施例に係る音声認識方法のフローチャートである。本発明の実施例の音声認識方法は以下のステップを含む。
S101では、クライアントが送信したユーザーの音声を受信する。
以上のように、本発明の実施例の実行主体がクラウドサーバである。
クライアントは音声対話機能を有する電子機器、例えば音響、音声対話機能を有するロボット、車載音声対話システム、音声対話機能を有するクエリアプリケーション及び地図アプリケーション等を含んでもよい。
クライアントがユーザーの音声を検出する場合、クライアントのローカルに記憶される音声ウェイクアップ及びよく使用される音声認識命令に基づいてウェイクアップワードが存在すると決定することができ、この時、クライアントがウェイクアップされる。次に、クライアントがユーザーの音声をクラウドサーバに送信する。
S102では、前記音声の音響特性に基づいて、前記音声におけるウェイクアップワードに対応する発音を認識する。
音響特性の抽出及び選択が音声認識の重要な段階の1つである。音響特性の抽出が情報の大幅圧縮過程であるだけでなく、信号デコンボリューション過程でもある。例えば、基音検出及び線形予測分析方法を用いて音響特性を抽出することができる。
S103では、前記ウェイクアップワードの発音にミュートマークを表記することにより、音声を認識する時にミュートマークが表されたウェイクアップワードの発音をスキップする。
一実施形態において、音声対話中に、ミュートマークを符号<s>で示し、その意味はsilenceである。認識中にこの符号が存在する場合、結果が出現せず、又は空の結果が出現すると表す。
例えば、「xiaoduxiaodu」のウェイクアップワードの前に<s>を追加し、その認識過程は以下のとおりである。
<s>(01) D$[wb] x_T0 iao_T3 d_T0 u_T4 x_T0 iao_T3 d_T0 u_T4[wb]
真のミュート認識過程は以下のとおりである。
<s>(02) D$[wb]
2つの出力結果が同様であり、つまりいずれもミュートである。
本発明の実施例における技術案において、ユーザーの音声におけるウェイクアップワードにミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップし、このように、複雑な復号アルゴリズムを用いて音声を認識する時、ユーザーの指示に関連しないウェイクアップワードを認識することを避け、復号アルゴリズムによるデータ処理量を減少させ、音声認識効率を向上させる。
実施例2
実施例1を基に、本発明の実施例は音声認識方法を提供する。図2は本発明の実施例に係る音声認識方法のフローチャートである。本発明の実施例の音声認識方法は以下のステップを含む。
S201では、クライアントが送信したユーザーの音声を受信する。
S202では、前記発音を認識経路に予め記憶されるウェイクアップマッチングワードにマッチングし、前記発音における音声の一部が前記認識経路に予め記憶されるウェイクアップマッチングワードにマッチングする場合、前記音声の一部をウェイクアップワードとして認識する。
具体的に、クラウドサーバはウェイクアップワードに対応する音声を予め記憶し、次に、音声認識ルールに従って、受信された音声を予め記憶されるウェイクアップワードに対応する音声にマッチングすることができ、音声の一部がウェイクアップワードにマッチングする場合、該ウェイクアップワードの前にミュート符号<s>を表記することができ、この符号の意味はミュート(silence)である。ウェイクアップワードの発音は一般的に差異のより大きな2つの字の重字発音であり、このような発音が通常の音声に出現する頻度は少ないため、一般的に通常の認識結果に影響を与えることがない。
このステップは実施例1におけるステップS102に対応する。
S203では、復号アルゴリズムを用いて前記ミュートマークが表記されたウェイクアップワードを認識する時、前記ウェイクアップワードの発音が終了するまで、ミュートを維持する。
ここで、音声認識過程は、音響特性を与えた場合で、対応する可能性の最も高い連語を検索する過程である。例えば、機械学習アルゴリズムに基づいて音響モデルを予め構築し、抽出された音響特性を音響モデルに送信して処理し、次に、音響モデルから認識された音声に対応する符号列を出力する。
このステップは実施例1におけるステップS103に対応する。
S204では、復号アルゴリズムを用いて前記音声におけるウェイクアップワード以外のほかの音声を認識する。
一般的に、復号アルゴリズムを用いて音声認識を行うことは音声対話技術のコア技術の1つである。そのタスクは入力された音声に対して、音響学、言語モデル及び辞書に基づいて、該音声を出力できる確率の最も高い単語列を検索することである。
本発明の実施例において、ウェイクアップワードのフィルタリングを完了した後、復号アルゴリズムに基づいてウェイクアップワードの後のほかの音声を認識し続けることができ、例えば、ユーザーが「度ちゃん、度ちゃん、空港へ行きたいです」の指示を送信する場合、「度ちゃん、度ちゃん」をフィルタリングし、「空港へ行きたいです」を認識し始める。
本発明の実施例のさらなる効果は、中国語には音が同じであるが字が異なる場合があるため、ウェイクアップ時に誤操作しやすく、例えば、ウェイクアップワードが「度ちゃん、度ちゃん」である場合、正確なマッチングを行う時、「杜ちゃん、杜ちゃん」と認識されるおそれがあり、ファジーマッチングを行う時、認識時に個別の字に対する認識が忘れられた場合、強制的にフィルタリングすると、通常の結果における上位複数の字も処理され、このため、フィルタリングに失敗してしまい、本発明の実施例において、ウェイクアップワードをフィルタリングし、且つ認識せず、それによりこれらの問題を避けることができる。
実施例3
本発明の実施例は音声認識装置を提供する。図3は本発明の実施例に係る音声認識装置の模式図である。本発明の実施例の音声認識装置は、
クライアントが送信したユーザーの音声を受信するように配置される受信モジュール31と、
前記音声の音響特性に基づいて、前記音声におけるウェイクアップワードに対応する発音を認識する第一認識モジュール32と、
前記ウェイクアップワードの発音にミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップするように配置されるミュートモジュール33と、を備える。
具体的に、前記第一認識モジュール32は、
前記発音を認識経路に予め記憶されるウェイクアップマッチングワードにマッチングし、前記発音における音声の一部が前記認識経路に予め記憶されるウェイクアップマッチングワードにマッチングする場合、前記音声の一部をウェイクアップワードとして認識するように配置されるマッチングサブモジュール321を備える。
具体的に、前記ミュートモジュール33は、
復号アルゴリズムを用いて前記ミュートマークが表記されたウェイクアップワードを認識する時、前記ウェイクアップワードの発音が終了するまで、ミュートを維持するように配置されるミュートサブモジュール331を備える。
更に、前記装置は、
前記ウェイクアップワードの発音の最初にミュートマークを表記する場合、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップした後、復号アルゴリズムを用いて前記音声におけるウェイクアップワード以外のほかの音声を認識するように配置される第二認識モジュール34を更に備える。
本発明の実施例における技術案は、ユーザーの指示に関係しないウェイクアップワードを認識することを避けることができ、復号アルゴリズムによるデータ処理量を減少させ、音声認識効率を向上させ、有益な効果は実施例1と同様であり、詳細な説明は省略する。
実施例4
本発明の実施例4は情報分類設備を提供し、図4に示すように、該設備はメモリ41及びプロセッサ42を備え、メモリ41にプロセッサ42で実行できるコンピュータプログラムが記憶される。プロセッサ42が前記コンピュータプログラムを実行する時、上記実施例における情報分類方法を実現する。メモリ41及びプロセッサ42の数が1つ又は複数であってもよい。
該設備は、
メモリ41及びプロセッサ42を外部設備と通信させるための通信インターフェース43を更に備える。
メモリ41は高速RAMメモリを含んでもよいし、不揮発性メモリ(non-volatile memory)、例えば少なくとも1つの磁気ディスク記憶装置を更に含んでもよい。
メモリ41、プロセッサ42及び通信インターフェース43が独立して実現される場合、メモリ41、プロセッサ42及び通信インターフェース43がバスを介して互いに接続されて相互間の通信を実現することができる。前記バスはインダストリ・スタンダード・アーキテクチャ(ISA、Industry Standard Architecture)バス、ペリフェラル・コンポーネント・インターコネクト(PCI、Peripheral Component Interconnect)バス又は拡張インダストリ・スタンダード・アーキテクチャ(EISA、Extended Industry Standard Architecture)バス等であってもよい。前記バスをアドレスバス、データバス、制御バス等に分けてもよい。容易に示すために、図4に一本のみの太線で示すが、一本のみのバス又は1つのみのタイプのバスがあると示すことではない。
好ましくは、具体的に実現する時、メモリ41、プロセッサ42及び通信インターフェース43が一枚のチップに統合される場合、メモリ41、プロセッサ44及び通信インターフェース43が内部インターフェースを介して相互間の通信を実現することができる。
実施例5
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
該プログラムがプロセッサにより実行される場合、図1~図2におけるいずれかの実施例に示す方法を実現する。
本明細書の説明において、参照用語「一実施例」、「いくつかの実施例」、「例」、「具体例」、又は「いくつかの例」等の説明とは該実施例又は例を参照しながら説明された具体的な特徴、構造、材料又は特徴が本発明の少なくとも1つの実施例又は例に含まれることを意味する。且つ、説明された具体的な特徴、構造、材料又は特徴はいずれか1つ又は複数の実施例又は例で適切な態様で結合してもよい。また、矛盾しない限り、当業者は本明細書に説明された異なる実施例又は例及び異なる実施例又は例の特徴を結合及び組み合わせすることができる。
また、用語「第1」、「第2」は説明目的でのみ使用されており、相対重要性を指示又は示唆したり、指示した技術的特徴の数を黙示的に指示したりするものではない。従って、「第1」、「第2」を付けて定義された特徴は少なくとも1つの該特徴を明示的又は黙示的に含むと理解できる。本発明の説明において、「複数」は、特に断らない限り、2つ又は2つ以上を意味する。
当業者は、フローチャート又はここでほかの態様で説明された任意の過程又は方法についての説明が、特定の論理機能又は過程を実現するための1つ又はそれ以上のステップを含む実行可能命令コードのモジュール、セグメント又は一部を示すと理解されてもよく、且つ本発明の好適な実施形態の範囲はほかの実現を含み、図示又は検討された順序ではなく、関わる機能に応じて基本同時の態様又は逆順序で機能を実行してもよいことを理解すべきである。
フローチャートに示し又はここでほかの態様で説明された論理及び/又はステップは、例えば、論理機能を実現するための実行可能命令の順番付けリストであると見なされてもよく、具体的に任意のコンピュータ可読媒体で命令実行システム、装置又は設備(例えばコンピュータに基づくシステム、プロセッサを備えるシステム又は命令実行システム、装置又は設備から命令を取得して命令を実行することができるほかのシステム)に使用されてもよく、又はこれらの命令実行システム、装置又は設備と合わせて使用されてもよい。本明細書は、「コンピュータ可読媒体」がプログラムを包含、記憶、通信、伝播又は伝送することにより命令を実行するためのシステム、装置又は設備又はこれらの命令実行システム、装置又は設備を合わせて使用する任意の装置であってもよい。
本発明の実施例に記載のコンピュータ可読媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記2つの組み合わせであってもよい。コンピュータ可読記憶媒体のさらなる具体例は少なくとも(非網羅的リスト)1つ又は複数の配線を有する電気接続部(電子装置)、ポータブルコンピュータケース(磁気装置)、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、光ファイバー装置、及びポータブルリードオンリメモリ(CDROM)を含む。また、例えば用紙又はほかの媒体を光学的に走査し、次に編集、解釈し又は必要な時にほかの適切な態様で処理して電子態様で前記プログラムを取得し、次にそれをコンピュータメモリに記憶することができるため、コンピュータ可読記憶媒体は更にその上に前記プログラムを印刷できる用紙又はほかの適切な媒体であってもよい。
本発明の実施例において、コンピュータ可読プログラムコードを運ぶコンピュータ可読信号媒体はベースバンド又は搬送波の一部として伝播するデータ信号に含まれてもよい。このような伝播するデータ信号は様々な形態を用いてもよく、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、それらに限らない。コンピュータ可読信号媒体は更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、入力法又はデバイスに使用され又はそれと合わせて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送されてもよく、上記媒体は無線、電線、光ケーブル、無線周波数(Radio Frequency、RF)等、又は上記任意の適切な組み合わせを含むが、それらに限らない。
理解すべきなのは、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現されてもよい。上記実施形態において、複数のステップ又は方法はメモリに記憶されて適切な命令実行システムで実行するソフトウェア又はファームウェアにより実現されてもよい。例えば、ハードウェアにより実現される場合は、別の実施形態と同様に、データ信号に対して論理機能を実現するための論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する特定用途向け統合回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)等の本分野で公知の技術のいずれか一項又はそれらの組み合わせにより実現されてもよい。
当業者は、上記実施例方法におけるステップの全部又は一部を実現するために、プログラムによって関連するハードウェアを命令することにより完了することができ、前記プログラムが一種のコンピュータ可読記憶媒体に記憶されてもよく、該プログラムが実行時に方法実施例における1つのステップ又はその組み合わせを含むと理解される。
また、本発明の各実施例における各機能ユニットが1つの処理モジュールに統合されてもよく、各ユニットが独立して物理的に存在してもよく、2つ又は2つ以上のユニットが1つのモジュールに統合されてもよい。上記統合されたモジュールはハードウェアの形で実現されてもよいし、ソフトウェア機能モジュールの形で実現されてもよい。前記統合されたモジュールはソフトウェア機能モジュールの形で実現されて独立した製品として販売又は使用される時、1つのコンピュータ可読記憶媒体に記憶されてもよい。前記記憶媒体はリードオンリメモリ、磁気ディスク又は光ディスク等であってもよい。
以上の説明は本発明の具体的な実施形態であって、本発明の保護範囲はこれに限らず、当業者が本発明に開示された技術的範囲内に、容易に想到し得る種々の変更又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は前記特許請求の保護範囲に準じる。
31 受信モジュール
32 第一認識モジュール
321 マッチングサブモジュール
33 ミュートモジュール
331 ミュートサブモジュール
34 第二認識モジュール
41 メモリ
42 プロセッサ
43 通信インターフェース

Claims (11)

  1. 音声認識方法であって、
    クライアントがユーザーの音声を検出し、前記クライアントのローカルに記憶されたウェイクアップワードに基づいて、前記ユーザーの音声にウェイクアップワードが含まれることを決定する場合、前記クライアントがローカルにてウェイクアップされ、前記ユーザーの音声をクラウドサーバに送信することと、
    前記クラウドサーバが前記クライアント送信した前記ユーザーの音声を受信することと、
    前記クラウドサーバが受信された前記ユーザーの音声の音響特性に基づいて、前記ユーザーの音声におけるウェイクアップワードに対応する発音を認識することと、
    前記クラウドサーバが識別された前記ウェイクアップワードの発音にミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップすることと、を含むことを特徴とする音声認識方法。
  2. 前記クラウドサーバが受信された前記ユーザーの音声の音響特性に基づいて、前記ユーザーの音声におけるウェイクアップワードに対応する発音を認識することは、
    前記クラウドサーバが前記発音を認識経路に予め記憶されるウェイクアップマッチングワードにマッチングし、前記発音における音声の一部が前記認識経路に予め記憶されるウェイクアップマッチングワードにマッチングする場合、前記音声の一部をウェイクアップワードとして認識することを含むことを特徴とする請求項1に記載の方法。
  3. 識別された前記ウェイクアップワードの発音にミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップすることは、
    復号アルゴリズムを用いて前記ミュートマークが表記されたウェイクアップワードを認識する場合、前記ウェイクアップワードの発音が終了するまで、ミュートを維持することを含むことを特徴とする請求項1に記載の方法。
  4. 前記ウェイクアップワードの発音の最初にミュートマークを表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音をスキップした後、前記方法は、
    復号アルゴリズムを用いて前記ユーザーの音声におけるウェイクアップワード以外のほかの音声を認識することを更に含むことを特徴とする請求項1に記載の方法。
  5. 音声認識装置であって、
    クライアントがユーザーの音声を検出し、前記クライアントのローカルに記憶されるウェイクアップワードに基づいて、前記ユーザーの音声にウェイクアップワードが含まれることを決定する場合、前記クライアントをローカルにてウェイクアップし、前記ユーザーの音声をクラウドサーバに送信するように配置されるウェイクアップ・送信モジュールと、
    前記クライアントが送信した前記ユーザーの音声を、前記クラウドサーバが受信するように配置される受信モジュールと、
    前記音声の音響特性に基づいて、前記ユーザーの音声における前記ウェイクアップワードに対応する発音を、前記クラウドサーバが認識するように配置される第一認識モジュールと、
    前記ウェイクアップワードの発音にミュートマークを、前記クラウドサーバが表記することにより、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音を、前記クラウドサーバがスキップするように配置されるミュートモジュールと、を備えることを特徴とする音声認識装置。
  6. 前記第一認識モジュールは、
    前記発音を、前記クラウドサーバが認識経路に予め記憶されるウェイクアップマッチングワードにマッチングし、前記発音における音声の一部が前記認識経路に予め記憶されるウェイクアップマッチングワードにマッチングする場合、前記音声の一部を、前記クラウドサーバが前記ウェイクアップワードとして認識するように配置されるマッチングサブモジュールを備えることを特徴とする請求項5に記載の装置。
  7. 前記ミュートモジュールは、
    復号アルゴリズムを用いて前記ミュートマークが表記されたウェイクアップワードを、前記クラウドサーバが認識する時、前記ウェイクアップワードの発音が終了するまで、ミュートを、前記クラウドサーバが維持するように配置されるミュートサブモジュールを備えることを特徴とする請求項5に記載の装置。
  8. 前記装置は、前記ウェイクアップワードの発音の最初にミュートマークを表記する場合、音声を認識する時にミュートマークが表記されたウェイクアップワードの発音を、前記クラウドサーバがスキップした後、復号アルゴリズムを用いて前記ユーザーの音声におけるウェイクアップワード以外のほかの音声を、前記クラウドサーバが認識するように配置される第二認識モジュールを更に備えることを特徴とする請求項5に記載の装置。
  9. サーバであって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶するための記憶装置と、を備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに請求項1~4のいずれか一項に記載の方法を実現させることを特徴とするサーバ。
  10. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    該プログラムがプロセッサにより実行される場合、請求項1~4のいずれか一項に記載の方法を実現することを特徴とするコンピュータ可読記憶媒体。
  11. コンピュータにおいて、プロセッサにより実行される場合、請求項1~4のいずれか一項に記載の方法を実現することを特徴とするプログラム。
JP2018167826A 2018-01-29 2018-09-07 音声認識方法、装置及びサーバ Active JP7158217B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810085826.0 2018-01-29
CN201810085826.0A CN108039175B (zh) 2018-01-29 2018-01-29 语音识别方法、装置及服务器

Publications (2)

Publication Number Publication Date
JP2019133127A JP2019133127A (ja) 2019-08-08
JP7158217B2 true JP7158217B2 (ja) 2022-10-21

Family

ID=62096894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018167826A Active JP7158217B2 (ja) 2018-01-29 2018-09-07 音声認識方法、装置及びサーバ

Country Status (3)

Country Link
US (1) US11398228B2 (ja)
JP (1) JP7158217B2 (ja)
CN (1) CN108039175B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111066082B (zh) * 2018-05-25 2020-08-28 北京嘀嘀无限科技发展有限公司 一种语音识别系统和方法
CN108962262B (zh) * 2018-08-14 2021-10-08 思必驰科技股份有限公司 语音数据处理方法和装置
CN109065044B (zh) * 2018-08-30 2021-04-02 出门问问信息科技有限公司 唤醒词识别方法、装置、电子设备及计算机可读存储介质
CN109360552B (zh) * 2018-11-19 2021-12-24 广东小天才科技有限公司 一种自动过滤唤醒词的方法及系统
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN112837694B (zh) * 2021-01-29 2022-12-06 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
US20240265921A1 (en) * 2021-09-30 2024-08-08 Sonos, Inc. Conflict management for wake-word detection processes

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270919A1 (en) 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212590A (ja) * 1998-01-23 1999-08-06 Olympus Optical Co Ltd 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
DE60239005D1 (de) * 2001-10-12 2011-03-03 Nuance Comm Austria Gmbh Spracherkennungsvorrichtung mit markierung von erkannten textteilen
WO2005046195A1 (en) * 2003-11-05 2005-05-19 Nice Systems Ltd. Apparatus and method for event-driven content analysis
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
CN101385075B (zh) * 2006-02-07 2015-04-22 Lg电子株式会社 用于编码/解码信号的装置和方法
CN101110929A (zh) * 2006-07-19 2008-01-23 上海乐金广电电子有限公司 数字多媒体文件的播放控制方法
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
US11393461B2 (en) * 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9349373B1 (en) * 2013-03-14 2016-05-24 Verint Americas Inc. Biometrics platform provider
CN104254056B (zh) * 2013-06-27 2018-04-27 腾讯科技(深圳)有限公司 一种免打扰消息传输方法、装置及系统
US9329833B2 (en) * 2013-12-20 2016-05-03 Dell Products, L.P. Visual audio quality cues and context awareness in a virtual collaboration session
US9413891B2 (en) * 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
CN103943105A (zh) 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
JP2016024378A (ja) * 2014-07-22 2016-02-08 Necパーソナルコンピュータ株式会社 情報処理装置、その制御方法及びプログラム
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
CN104754364A (zh) * 2015-03-30 2015-07-01 合一信息技术(北京)有限公司 视频广告语音交互系统及方法
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
CN105959772B (zh) * 2015-12-22 2019-04-23 合一网络技术(北京)有限公司 流媒体与字幕即时同步显示、匹配处理方法、装置及系统
CN105913843A (zh) * 2016-04-20 2016-08-31 乐视控股(北京)有限公司 语音叫车方法、语音叫车装置和语音叫车系统
CN107071575A (zh) * 2016-06-13 2017-08-18 腾讯科技(北京)有限公司 贴片媒体文件播放方法和装置
US20180018961A1 (en) * 2016-07-13 2018-01-18 Google Inc. Audio slicer and transcription generator
US10360910B2 (en) * 2016-08-29 2019-07-23 Garmin Switzerland Gmbh Automatic speech recognition (ASR) utilizing GPS and sensor data
CN106598666A (zh) 2016-12-10 2017-04-26 北京小米移动软件有限公司 静音模式的切换方法及装置
CN106782554B (zh) * 2016-12-19 2020-09-25 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106847273B (zh) * 2016-12-23 2020-05-05 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
US10593328B1 (en) * 2016-12-27 2020-03-17 Amazon Technologies, Inc. Voice control of remote device
US9911413B1 (en) * 2016-12-28 2018-03-06 Amazon Technologies, Inc. Neural latent variable model for spoken language understanding
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN106898352B (zh) 2017-02-27 2020-09-25 联想(北京)有限公司 语音控制方法及电子设备
CN107146605B (zh) * 2017-04-10 2021-01-29 易视星空科技无锡有限公司 一种语音识别方法、装置及电子设备
CN107123418B (zh) * 2017-05-09 2020-12-25 广东小天才科技有限公司 一种语音消息的处理方法及移动终端
CN107452401A (zh) * 2017-05-27 2017-12-08 北京字节跳动网络技术有限公司 一种广告语音识别方法及装置
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN107608799B (zh) * 2017-08-15 2019-03-22 北京小蓦机器人技术有限公司 一种用于执行交互指令的方法、设备及存储介质
US10706845B1 (en) * 2017-09-19 2020-07-07 Amazon Technologies, Inc. Communicating announcements
US10152966B1 (en) * 2017-10-31 2018-12-11 Comcast Cable Communications, Llc Preventing unwanted activation of a hands free device
US10546585B2 (en) * 2017-12-29 2020-01-28 Comcast Cable Communications, Llc Localizing and verifying utterances by audio fingerprinting
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270919A1 (en) 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
那須悠,藤村浩司,"LSTM-CTCを用いた音響イベント検出・除去音声認識システムの検討",電子情報通信学会技術研究報告,2016年8月29日,第116巻,第209号,p.121-126

Also Published As

Publication number Publication date
JP2019133127A (ja) 2019-08-08
US11398228B2 (en) 2022-07-26
US20190237071A1 (en) 2019-08-01
CN108039175B (zh) 2021-03-26
CN108039175A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
US11503155B2 (en) Interactive voice-control method and apparatus, device and medium
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
CN109065044B (zh) 唤醒词识别方法、装置、电子设备及计算机可读存储介质
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
CN113327609B (zh) 用于语音识别的方法和装置
CN111090728A (zh) 一种对话状态跟踪方法、装置及计算设备
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
US20200265843A1 (en) Speech broadcast method, device and terminal
WO2017166631A1 (zh) 语音信号处理方法、装置和电子设备
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
CN109243468A (zh) 语音识别方法、装置、电子设备及存储介质
JPH09127978A (ja) 音声認識方法及び装置及びコンピュータ制御装置
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
JP7544989B2 (ja) ルックアップテーブルリカレント言語モデル
WO2022267405A1 (zh) 语音交互方法、系统、电子设备及存储介质
EP3550449A1 (en) Search method and electronic device using the method
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
CN110020429A (zh) 语义识别方法及设备
CN111508481B (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
US11238865B2 (en) Function performance based on input intonation
JP2015052745A (ja) 情報処理装置、制御方法、及びプログラム
CN116978381A (zh) 音频数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211118

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220311

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220725

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220906

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20221006

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20221006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221011

R150 Certificate of patent or registration of utility model

Ref document number: 7158217

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150