JP6541630B2 - スピーチエンドポインティング - Google Patents

スピーチエンドポインティング Download PDF

Info

Publication number
JP6541630B2
JP6541630B2 JP2016179291A JP2016179291A JP6541630B2 JP 6541630 B2 JP6541630 B2 JP 6541630B2 JP 2016179291 A JP2016179291 A JP 2016179291A JP 2016179291 A JP2016179291 A JP 2016179291A JP 6541630 B2 JP6541630 B2 JP 6541630B2
Authority
JP
Japan
Prior art keywords
speech
voice
particular user
query
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016179291A
Other languages
English (en)
Other versions
JP2017078848A (ja
Inventor
シッディ・タドパトリカル
マイケル・ブキャナン
プラヴィール・クマール・グプタ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/923,637 external-priority patent/US20170110118A1/en
Priority claimed from US15/196,663 external-priority patent/US10269341B2/en
Application filed by Google LLC filed Critical Google LLC
Publication of JP2017078848A publication Critical patent/JP2017078848A/ja
Application granted granted Critical
Publication of JP6541630B2 publication Critical patent/JP6541630B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願の相互参照
本出願は、その内容が参照により組み込まれている、2015年10月19日に出願された米国仮出願第62/243,463号の利益を主張するものである。
本開示は、概して音声認識に関し、1つの特定の実施態様は、スピーチのエンドポインティングに関する。
自然言語処理システムは、通常、ユーザが話すことを開始した時点と終了した時点とを決定するエンドポインタを使用する。いくつかの従来のエンドポインタは、発話が始まる、または終わる時点を決定する際に、単語間のポーズの持続時間の値を求める。例えば、ユーザが、「what is <長いポーズ> for dinner」と言うと、従来のエンドポインタは、長いポーズにおいて音声入力を分割する可能性があり、また、完全なフレーズ「what is for dinner」の代わりに、不完全なフレーズ「what is」の処理を図るよう、自然言語処理システムに命令する可能性がある。エンドポインタが、音声入力について間違った開始点または終了点を示す場合、自然言語処理システムを使用した音声入力の処理の結果は、不正確または望ましくないものになる可能性がある。
様々なユーザが、自分のモバイルデバイス上で、音声入力を使用しながら、様々な快適度を有することができる。一部のユーザは、音声入力機能を頻繁に使用して、話している最中に、ためらうことなく音声クエリを形成する可能性がある。他のユーザは、ためらうことなく頻繁にまたは素早くクエリを定式化するようには、音声入力機能を使用しない可能性がある。経験豊富なユーザであればあるほど、ユーザのスピーチにおける短いポーズを測定した後にユーザの音声クエリの処理を始めるシステムから利益を得ることができる。経験の少ないユーザであればあるほど、ユーザのスピーチにおけるより長いポーズを測定して、その経験の少ないユーザが話すことを終了したことを確認した後にユーザの音声クエリの処理を始めるシステムから利益を得ることができる。
特定のユーザの音声クエリに適用するポーズ長を決定するために、システムは、特定のユーザの以前の音声クエリを分析する。特定のユーザについて、システムは、音声クエリ頻度、以前の音声クエリの単語間のポーズ長、以前の音声クエリの完全性、および以前の音声クエリの長さを調べる。より頻繁に音声クエリを話すユーザは、それほど頻繁に音声クエリを話さないユーザに比べて、ユーザの音声クエリに適用するより短いポーズ長から、利益を得ることができる。以前の音声クエリの単語間に短い平均ポーズ長を有するユーザは、単語間により長い平均ポーズ長を有するユーザよりも短いポーズ長から、利益を得ることができる。完全な音声クエリを話すユーザは、それほど頻繁には完全なクエリを話さないユーザよりも短いポーズ長から、利益を得ることができる。より長い音声クエリを話すユーザは、より短い音声クエリを話すユーザよりも短いポーズ長から利益を得ることができる。システムが、特定のユーザの音声クエリに適用する適切なポーズ長を算出すると、システムは、特定のユーザのポーズ長を使用して、特定のユーザのそれ以降の発話中に、エンドポイントを生成することができる。
一般的に、本明細書に記載された本発明の主題の別の革新的な態様は、特定のユーザによって話された音声クエリを含む音声クエリログデータにアクセスすることと、特定のユーザによって話された音声クエリを含む音声クエリログデータに基づいて、特定のユーザによって話された音声クエリを含む音声クエリログデータから、ポーズ閾値を決定することと、特定のユーザから発話を受信することと、特定のユーザが少なくともポーズ閾値に等しい期間について話すことを止めたと決定することと、特定のユーザが少なくともポーズ閾値に等しい期間について話すことを止めたという決定に基づいて、発話を音声クエリとして処理することと、の動作を含む方法において実施され得る。
これらおよび他の実施形態は、それぞれ任意選択的に、以下の特徴のうちの1つまたは複数を含むことができる。特定のユーザによって話された音声クエリを含む音声クエリログデータからポーズ閾値を決定する動作は、特定のユーザを、音声認識システムの上級者ユーザとして、または音声認識システムの初心者ユーザとして分類することと、特定のユーザを、音声認識システムの上級者ユーザとして、または音声認識システムの初心者ユーザとして分類することに基づいて、ポーズ閾値を決定することと、を含む。音声クエリログデータは、それぞれの音声クエリに関連するタイムスタンプ、それぞれの音声クエリが完全であるか否かを示すデータ、およびそれぞれの音声クエリに関連するスピーチポーズ間隔を含む。特定のユーザによって話された音声クエリを含む音声クエリログデータからポーズ閾値を決定する動作は、それぞれの音声クエリに関連するタイムスタンプ、それぞれの音声クエリが完全であるか否かを示すデータ、およびそれぞれの音声クエリに関連するスピーチポーズ間隔に基づいて、ポーズ閾値を決定することを含む。
動作は、音声クエリログデータに基づいて、1日毎の特定のユーザによって話された音声クエリの平均数を決定することをさらに含む。ポーズ閾値を決定する動作は、1日毎の特定のユーザによって話された音声クエリの平均数にさらに基づく。動作は、音声クエリログデータに基づいて、特定のユーザによって話された音声クエリの平均長を決定することをさらに含む。ポーズ閾値を決定する動作は、特定のユーザによって話された音声クエリの平均長にさらに基づく。動作は、音声クエリログデータに基づいて、特定のユーザによって話された音声クエリに対する平均ポーズ間隔を決定することをさらに含む。ポーズ閾値を決定する動作は、特定のユーザによって話された音声クエリに対する平均ポーズ間隔にさらに基づく。
本態様の他の実施形態は、対応するシステム、装置、およびコンピュータ記憶デバイスに記録されたコンピュータプログラムを含み、それらのそれぞれが、この方法の動作を行うように構成される。
本明細に記載された本発明の主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するために実施され得る。ユーザは、コンピューティングデバイスの音声入力能力を使用して、ユーザにとって心地よいペースで話をすることができる。発話は、発話の意図された終点においてエンドポイントされ、自然言語処理システムによる、より正確な、または望しい自然言語処理出力と、より高速な処理とをもたらすことができる。
本明細に記載された本発明の主題の1つまたは複数の実施形態の詳細は、添付図面および以下の記載において示される。本発明の主題の他の特徴、態様、および利点は、当該記載、図面、および特許請求の範囲から明らかとなるであろう。
特定のユーザについて、ユーザが音声クエリを話すことを終了したか否かを決定する際に使用される、例示的な発話および信号の図である。 特定のユーザの音声入力での経験に基づいて、特定のユーザを分類する例示的なシステムの図である。 特定のユーザの音声入力での経験に基づいて、特定のユーザを分類し、かつ、その特定のユーザが音声クエリを話すことを終了したか否かを決定する、例示的なプロセスの図である。 本明細書に記載されたプロセス、またはプロセスの一部が実施され得るコンピューティングデバイスのブロック図である。
様々な図面における同じ参照番号および名称は、同じ要素を示す。
図1は、特定のユーザについて、ユーザが音声クエリを話すことを終了したか否かを決定する際に使用される例示的な発話および信号の図式100である。全般的に、図式100は、コンピューティングデバイス121が着信オーディオ入力を処理している時に、コンピューティングデバイス121によって生成される、または検出される信号103〜118を図示する。コンピューティングデバイス121は、コンピューティングデバイス121のマイクロホンまたはその他のオーディオ入力デバイスを通して、発話124に対応するオーディオデータを受信し、ユーザ127に割り当てられたユーザプロファイルに応じて、発話124のトランスクリプションを生成する。
発話タイミング130は、発話124(図1における「Text Mom love you」)を行っているユーザ127の様々な単語のタイミングを表す。ユーザ127は、それぞれの単語間のポーズ長を長くして、それぞれの単語を話す。それぞれの単語間のドットの数は、それぞれの単語間のポーズ長に比例する。それぞれのドットは、100ミリ秒などの特定の期間を表すことができる。1番目の単語133、「Text」の後に、300ミリ秒に対応することのできる3ドットのポーズ136が続く。2番目の単語139、「Mom」の後に、800ミリ秒に対応することのできる8ドットのポーズ142が続く。3番目の単語145、「love」の後に、1.2秒に対応することのできる12ドットのポーズ148が続く。4番目の単語151、「you」の後に、ポーズ154が続く。図1では、ポーズ154は、2秒に対応することのできる20ドットである。単語151は、発話124の最後にあるので、単語151の後のポーズは、ユーザ127が話すことを止めていることから、ポーズ154よりもずっと長い可能性がある。これらのポーズおよび以下に説明されるその他のポーズは、2つの単語間の自然な無言時間を表し、ユーザが積極的に話すことを止めたことを表すものではない。
いくつかの実施態様では、コンピューティングデバイス121は、ユーザ127の特徴を何も考慮することなく、汎用エンドポイント信号103および完全クエリ信号106を生成することができる。完全クエリ信号106は、発話124の生成されたトランスクリプションが完全な発話を表すという、コンピューティングデバイス121によって行われる評価を表す。コンピューティングデバイス121は、生成されたトランスクリプションを、ユーザ127および他のユーザが以前に行った1つまたは複数の完全な発話と比較する。コンピューティングデバイス121は、コンピューティングデバイス121の音声認識装置が新しい単語を識別した後、生成されたトランスクリプションを完全な発話と比較してもよい。例えば、ユーザ127が、単語133を話した後、コンピューティングデバイス121の音声認識装置は、トランスクリプション「text」を生成する。コンピューティングデバイス121は、「text」を他の完全な発話と比較して、「text」が完全な発話ではないと決定する。ユーザ127が、単語139を話した後、音声認識装置は、コンピューティングデバイス121が完全であると識別するトランスクリプション「text mom」を生成する。単語151の後に同様の決定がなされる。ユーザ127が単語145を話した後、音声認識装置は、コンピューティングデバイス121が不完全であると識別するトランスクリプション「text mom love」を生成する。
汎用エンドポイント信号103は、ユーザ127が話すことを終了したという、コンピューティングデバイス121によって行われた評価を表す。コンピューティングデバイス121は、スピーチオーディオ間のポーズの長さに基づいて、汎用エンドポイント信号103を生成し得る。コンピューティングデバイス121は、発話124のトランスクリプションを生成することなく、汎用エンドポイント信号103を生成し得る。例えば、コンピューティングデバイス121は、単語133に対応するオーディオデータを受信し得る。ポーズ136中、コンピューティングデバイス121は、ポーズ136中に経過する時間を測定する。ポーズ136は、300ミリ秒だけ続く可能性がある。汎用エンドポイント閾値が、600ミリ秒など、300ミリ秒より長いと、コンピューティングデバイス121は、汎用エンドポインタをトリガしないこととなる。コンピューティングデバイス121は、単語139に対応するオーディオデータを受信した後、ポーズ142の継続時間を測定する。ポーズ142の600ミリ秒が経過した後、コンピューティングデバイス121は、汎用エンドポインタをトリガし、汎用エンドポイント信号103は、エンドポイントに達したことを示す。汎用エンドポイント信号103が発話124のエンドポイントを示し、完全クエリ信号106が、発話124が完全であることを示すと、コンピューティングデバイスは、発話124について、トランスクリプション157、「text mom」を生成する。
いくつかの実施態様では、コンピューティングデバイス121は、発話124のエンドポイントを識別する際に、ユーザ127の特徴を考慮に入れることができる。一方では、初心者ユーザは、コンピューティングデバイス121に話しかけるのにどの用語が適切であるかに関してよく分かっていない可能性があるために、単語間のポーズを長くとって話す可能性が高い。他方では、上級者ユーザは、コンピューティングデバイス121の音声入力技術をより容易に使いこなし、その技術に精通している可能性があるので、より短い単語間のポーズで、話す可能性がある。従って、コンピューティングデバイス121は、コンピューティングデバイス121がどのようにユーザを分けるかに応じて、ポーズを識別する前に時間量を長くする、または短くすることができる。
初心者ポーズ検出装置信号109は、コンピューティングデバイス121が、発話124に対応するオーディオデータにおいてポーズを検出することを示し、この場合、検出されたポーズ長は、汎用エンドポインタに対応するポーズ長よりも長い。例えば、コンピューティングデバイス121は、ユーザ127が初心者ユーザとして分類される場合、1秒の長さのポーズを検出することができる。このポーズ閾値を発話124に適用すると、コンピューティングデバイス121は、それらのポーズがそれぞれ、300ミリ秒、800ミリ秒の長さであることから、ポーズ136および142中に、初心者長ポーズを検出しないこととなる。コンピューティングデバイス121は、ポーズ148および154中に初心者長ポーズを検出する。初心者ポーズ検出装置信号109に示されるように、コンピューティングデバイス121は、ユーザ127が単語145を話した後のポーズ148中に、1秒のポーズを検出する。コンピューティングデバイス121はまた、ユーザが単語151を話した後のポーズ154中に、1秒のポーズを検出する。
コンピューティングデバイス121は、ユーザを初心者として分類する場合、初心者ポーズ検出装置信号109および完全クエリ信号106に基づいて、発話124に対するスピーチエンドポイントを決定する。コンピューティングデバイス121が、ポーズ148中の初心者ポーズ検出装置信号109のポーズなどのポーズを検出すると、コンピューティングデバイス121は、発話124が完全であるか否かを決定する。ポーズ148中、完全クエリ信号106は、発話124が完全でないことを示す。コンピューティングデバイス121が初心者長ポーズを検出した場合でも、発話124は完全ではないので、コンピューティングデバイス121は、引き続き、発話124のオーディオデータを処理する。ポーズ154中、コンピューティングデバイス121は、初心者長ポーズを検出し、完全クエリ信号106は、発話が完全であることを示し、それによって、初心者エンドポイント信号112によって示されるように、発話124のエンドポイントを生成する。ユーザ127が初心者として分類される場合、発話124のエンドポイントは、単語151の後であり、発話124のトランスクリプション160は、「Text Mom love you」である。
上級者ポーズ検出装置信号115は、コンピューティングデバイス121が、発話124に対応するオーディオデータにおいてポーズを検出することを示し、この場合、検出されたポーズ長は、汎用エンドポインタに対応するポーズ長よりも短い。例えば、コンピューティングデバイス121は、ユーザ127が上級者ユーザとして分類される場合、300ミリ秒の長さのポーズを検出することができる。このポーズ閾値を発話124に適用すると、コンピューティングデバイス121は、ポーズ136、142、148、および154中に、上級者長ポーズを検出する。300ミリ秒より短いポーズはないことから、発話124内の全てのポーズは、上級者長ポーズ検出を含む。
コンピューティングデバイス121は、ユーザを上級者として分類する場合、上級者ポーズ検出装置信号115と完全クエリ信号106とを結合して、発話124に対するスピーチエンドポイントを決定する。コンピューティングデバイス121が、ポーズ136中の上級者ポーズ検出装置信号115のポーズなどのポーズを検出すると、コンピューティングデバイス121は、発話124が完全であるか否かを決定する。ポーズ136中、完全クエリ信号106は、発話124が完全ではないことを示す。コンピューティングデバイス121が上級者長ポーズを検出した場合でも、発話124は完全ではないので、コンピューティングデバイス121は、引き続き、発話124のオーディオデータを処理する。ポーズ142中、コンピューティングデバイス121は、上級者長ポーズを検出し、完全クエリ信号106は、発話が完全であることを示し、それによって、上級者エンドポイント信号118によって示されるように、発話124のエンドポイントを生成する。ユーザ127が上級者として分類される場合、発話124のエンドポイントは、単語139の後であり、発話124のトランスクリプション163は、「Text Mom」である。
図2は、特定のユーザの音声入力での経験に基づいて、その特定のユーザを分類する例示的なシステム200の図である。いくつかの実施態様では、システム200は、コンピューティングデバイス121などの、特定のユーザが音声入力の際に使用するコンピューティングデバイス内に含まれてもよい。いくつかの実施態様では、システムは、音声入力のトランスクリプションを処理するサーバ内に含まれてもよい。
システム200は、音声クエリ205を含む。音声クエリログ205は、ユーザがシステム200に提供する以前の音声クエリを格納する。音声クエリログ205は、検索クエリ、例えば「cat videos」、およびコマンドクエリ、例えば「call mom」を含んでもよい。音声クエリログ205は、それぞれの格納された音声クエリについて、タイムスタンプ、単語間のそれぞれのポーズの持続時間を示すデータ、および他の音声クエリとの比較に基づいた、音声クエリが完全であるか不完全であるかを示すデータを含んでもよい。
クエリログ210は、ユーザのボブによって提供された音声クエリを示す。クエリログ210内の音声クエリは、3つの音声クエリを含み、それぞれの音声クエリは、完全表示「[C]」または不完全表示「[I]」を含む。それぞれの音声クエリは、ボブが音声クエリを話した日付および時間を示すタイムスタンプを含む。それぞれの音声クエリは、話された単語間のポーズ間隔を示すデータを含む。例えば、「cat videos」は、ボブが、「cat」と「video」との間で、200ミリ秒、間を空けたことを示すデータを含む可能性がある。「Call ... mom」は、ボブが、「call」と「mom」との間で1秒、間を空けたことを示すデータを含む可能性がある。
クエリログ215は、ユーザのアリスによって提供された音声クエリを示す。クエリログ215内の音声クエリは、5つの音声クエリを含み、それぞれの音声クエリは、完全表示「[C]」または不完全表示「[I]」を含む。それぞれの音声クエリは、アリスが音声クエリを話した日付および時間を示すタイムスタンプを含む。それぞれの音声クエリは、話された単語間のポーズ間隔を示すデータを含む。例えば、「Text Sally that I'll be ten minutes late」は、アリスが、「text」と「Sally」との間で1ミリ秒、間を空け、「Sally」と「that」との間で300ミリ秒、間を空け、「that」と「I'll」との間で、1.5秒、間を空けたことを示し、また、その他の単語間でのポーズ間隔も示すデータを含む可能性がある。「Call mom」は、アリスが「call」と「mom」との間で300ミリ秒、間を空けたことを示すデータを含む可能性がある。
音声クエリプロセッサ220は、音声クエリログ205から受信された音声クエリを処理する。音声クエリプロセッサ220は、各ユーザについて音声クエリ経験スコアを生成する。音声クエリ経験スコアは、特定のユーザが音声クエリで有する経験レベルを示す。音声クエリ経験スコアが高いほど、その特定のユーザが、音声クエリを話すことにおいて、より経験がある可能性があることを示す。例えば、ボブに対する音声クエリ経験スコアを生成するために、音声クエリプロセッサ220は、クエリログ210を処理する。
音声クエリプロセッサ220は、クエリ完全性プロセッサ225を含む。クエリ完全性プロセッサ225は、各ユーザについて、それぞれの音声クエリに対する完全性データにアクセスし、ユーザの音声クエリ経験スコアを調整する。特定のユーザについて、完全な音声クエリが多く、不完全な音声クエリが少ない場合、クエリ完全性プロセッサ225は、音声クエリ経験スコアを上げる。特定のユーザについて、不完全な音声クエリが多く、完全な音声クエリが少ない場合、クエリ完全性プロセッサ225は、音声クエリ経験スコアを下げる。クエリ完全性プロセッサ225は、音声クエリ経験スコアを上げるか下げるかについて決定する際に、完全なクエリの不完全なクエリに対する比率を、完全性比率閾値と比較することができる。例えば、ボブは、1つの不完全なクエリと2つの完全なクエリを有する。その情報に基づいて、クエリ完全性プロセッサ225は、ボブの音声クエリ経験スコアを下げることができる。アリスは、不完全なクエリがなく、5つの完全なクエリを有する。その情報に基づいて、クエリ完全性プロセッサ225は、アリスの音声クエリ経験スコアを上げることができる。
音声クエリプロセッサ220は、クエリ長プロセッサ230を含む。クエリ長プロサッサ230は、各ユーザについて、それぞれの音声クエリの長さを算出し、そのユーザの音声クエリ経験スコアを調整する。特定のユーザについて、長い音声クエリが多く、短い音声クエリが少ない場合、音声クエリプロセッサ220は、音声クエリ経験スコアを上げる。特定のユーザについて、短い音声クエリが多く、長い音声クエリが少ない場合、音声クエリプロセッサ220は、音声クエリ経験スコアを下げる。クエリ長プロセッサ230は、閾値を使用して、音声クエリが長いか短いかを決定することができる。クエリ長プロセッサ230は、音声クエリ経験スコアを上げるか下げるかについて決定する際に、長いクエリの短いクエリに対する比率を、長さ比率閾値と比較することができる。例えば、ボブは、1つの不完全なクエリと2つの完全なクエリを有する。その情報に基づいて、クエリ完全性プロセッサ225は、ボブの音声クエリ経験スコアを下げることができる。アリスは、不完全な音声クエリがなく、5つの完全な音声クエリを有する。その情報に基づいて、クエリ完全性プロセッサ225は、アリスの音声クエリ経験スコアを上げることができる。
音声クエリプロセッサ220は、ポーズ間隔プロセッサ235を含む。ポーズ間隔プロセッサ235は、各ユーザについて、ユーザの音声クエリに対する単語間の平均ポーズ長を算出する。ポーズ間隔プロセッサ235は、各ユーザに対する平均ポーズ長を、ポーズ閾値と比較して、ユーザの音声クエリ経験スコアを上げるか下げるかを決定することができる。ポーズ閾値を上回る平均ポーズ長は、音声クエリ経験スコアを下げる。ポーズ閾値を下回る平均ポーズ長は、音声クエリ経験スコアを上げる。例えば、ボブは、1.2秒の平均ポーズ長であり得る。アリスは、200ミリ秒の平均ポーズ長であり得る。ポーズ閾値が1秒であれば、ポーズ間隔プロセッサ235は、アリスについて音声クエリ経験スコアを上げ、ボブについて音声クエリ経験スコアを下げる。
音声クエリプロセッサ220は、クエリカウンタ240を含む。クエリカウンタ240は、各ユーザについて、提示された音声クエリの数を算出し、音声クエリ経験スコアを調整する。特定のユーザが多くの音声クエリを提供する場合、音声クエリプロセッサ220は、音声クエリ経験スコアを上げる。特定のユーザが提供する音声クエリが少ない場合、音声クエリプロセッサ220は、音声クエリ経験スコアを下げる。クエリ長プロセッサ230は、1日当たりの音声クエリ閾値を使用して、その閾値を音声クエリの1日当たりの平均数と比較して、ユーザの提示する音声クエリが多いか少ないかを決定することができる。例えば、1日当たりの音声クエリ閾値は、1クエリ/日である。クエリログ210に基づくと、ボブは、1クエリ/日よりも少なくクエリを提示した。従って、クエリカウンタ240は、ボブの音声クエリ経験スコアを下げる。アリスは、クエリログ215に基づくと、1クエリ/日よりも多くクエリを提示した。従って、クエリカウンタ240は、アリスの音声クエリ経験スコアを上げる。
音声クエリプロセッサ220内に含まれたプロセッサのそれぞれは、閾値と対応するユーザの値との差に比例する量だけ、ユーザの音声クエリ経験スコアを上げる、または下げることができる。例えば、アリスは、平均2.5音声クエリ/日で、ボブは、平均0.125クエリ/日である。1クエリ/日の1日当たりの音声クエリ閾値の場合、アリスは、閾値を超える1.5で、ボブは、閾値を下回る0.875である。クエリカウンタ240は、ある係数を1.5倍することによって、アリスの音声クエリ経験スコアを上げ、その同じ係数を0.875倍することによって、ボブの音声クエリ経験スコアを下げる。
音声クエリプロセッサ220は、ユーザプロファイラ245に、各ユーザの音声クエリ経験スコアを提供する。ユーザプロファイラ245は、ユーザの音声クエリ経験スコアに基づいて、音声クエリ経験プロファイルを、各ユーザに割り当てる。音声プロファイラ245は、プロファイル閾値250にアクセスして、各ユーザの音声クエリ経験スコアを音声クエリ経験プロファイルと合わせる。それぞれの音声クエリ経験プロファイルは、音声クエリ経験スコアの範囲に対応することができる。例えば、ある上級者プロファイルは、80〜100の範囲に対応する可能性がある。ある初心者プロファイルは、0〜20の範囲に対応する可能性がある。他のプロファイルは、20〜80の音声クエリ経験スコアの範囲にある可能性がある。図2の例では、ボブは、18の音声クエリ経験スコアを有する可能性があり、アリスは、88の音声クエリ経験スコアを有する可能性がある。従って、ボブは、初心者として分類され、アリスは、上級者として分類される。その後、ユーザプロファイラ245は、各ユーザに対する音声クエリ経験プロファイルを、プロファイル記憶装置255に格納する。プロファイル260は、プロファイル記憶装置255に格納された、アリスおよびボブのプロファイルを示す。
それぞれの音声クエリ経験プロファイルは、システム200が、後で、これからの発話に対するエンドポイントを生成する際に使用する、異なるポーズ長閾値に対応する。図1および上記に示されるように、上級者プロファイルは、発話をエンドポイントするために使用される300ミリ秒のポーズ長閾値に対応する。初心者プロファイルは、1秒のポーズ長閾値に対応する。システム200は、600ミリ秒のポーズ長閾値を有する中間プロファイルなどの他のプロファイルを定義することができる。いくつかの実施態様では、システム200は、ユーザにプロファイルを割り当てずに、ポーズ長閾値をユーザに割り当てることができる。システムは、音声クエリ経験スコアを生成し、その音声クエリ経験スコアに反比例するポーズ長閾値を算出することができる。
図3は、特定のユーザの音声入力での経験に基づいて、特定のユーザを分類し、かつその特定のユーザが音声クエリを話すことを終了したか否かを決定する、例示的なプロセス300の図である。プロセス300は、図1からのコンピューティングデバイス121、または図2からのコンピューティングデバイス200などのコンピューティングデバイスによって行われ得る。プロセス300は、ユーザの以前の音声クエリを分析して、これからのユーザがクエリを話すことを終了したか否かを決定する際に使用するためのポーズ閾値を決定する。
コンピューティングデバイスは、音声クエリログデータにアクセスする(310)。コンピューティングデバイスは、特定のユーザについてポーズ閾値を決定する(320)。コンピューティングデバイスは、特定のユーザから発話を受信する(330)。コンピューティングデバイスは、特定のユーザがポーズ閾値について話すことを止めたと決定する(340)。コンピューティングデバイスは、この発話を音声クエリとして処理する(350)。
図4は、クライアントまたは1つもしくは複数のサーバとして、本明細書に記載されたシステムおよび方法を実施するために使用されてもよいコンピューティングデバイス400のブロック図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すものである。
コンピューティングデバイス400は、プロセッサ402、メモリ404、記憶デバイス406、メモリ404および高速拡張ポート410に接続する高速インタフェース408、ならびに低速バス414および記憶デバイス406に接続する低速インタフェース412を含む。構成要素402、404、406、408、410、および412のそれぞれは、様々なバスを使用して相互接続され、必要に応じて、共通のマザーボード上にまたは他の方法で取り付けられてもよい。プロセッサ402は、コンピューティングデバイス400内で実行する命令を処理することができ、この命令は、高速インタフェース408に接続されたディスプレイ416などの外部入出力デバイス上にGUI用のグラフィカル情報を表示するよう求める、メモリ404または記憶デバイス406に格納された命令を含む。他の実施態様では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使用されてもよい。また、複数のコンピューティングデバイス400は、例えば、サーババンク、ブレードサーバ群、またはマルチプロセッサシステムとして、必要な動作の一部を提供するそれぞれのデバイスと接続されてもよい。
コンピューティングデバイス400は、図に示されるように、多くの様々な形態で実施されてもよい。例えば、コンピューティングデバイス400は、標準サーバ420として、またはそのようなサーバ群において複数回、実施されてもよい。コンピューティングデバイス400はまた、ラックサーバシステム424の一部として実施されてもよい。さらに、コンピューティングデバイス400は、ラップトップコンピュータ422などのパーソナルコンピュータにおいて実施されてもよい。代替えとして、コンピューティングデバイス400からの構成要素は、モバイルデバイス(図示せず)において他の構成要素と組合せられてもよい。このようなデバイスのそれぞれは、コンピューティングデバイス400の1つまたは複数を含んでもよく、システム全体は、互いに通信する複数のコンピューティングデバイス400から構成されてもよい。
本明細書に記載されたシステムおよび方法の様々な実施態様は、デジタル電子回路、集積回路、特別に設計されたASIC(Application Specific Integrated Circuit、特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこのような実施態様の組合せ、において実現され得る。これらの様々な実施態様は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスとの間で、データおよび命令を送受信するように接続された、特別なまたは一般的な目的であり得る、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で、実行可能かつ/または解釈可能である1つまたは複数のコンピュータプログラムにおける実施態様を含むことができる。
本明細書に記載されたシステムおよび技法は、例えば、データサーバとしてバックエンド構成要素を含む、または、例えばアプリケーションサーバといったミドルウェア構成要素を含む、または、例えば、それを通してユーザが、本明細書に記載されたシステムおよび技法の実施態様と相互作用することができる、グラフィカルユーザインタフェースもしくはウェブブラウザを有するクライアントコンピュータといったフロントエンド構成要素を含む、コンピューティングシステムにおいて、あるいはこのようなバックエンド、ミドルウェア、またはフロントエンドの構成要素の任意の組合せにおいて、実施され得る。システムの構成要素は、例えば、通信ネットワークといったデジタルデータ通信の任意の形態または媒体によって、相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」:Local Area Network)、広域ネットワーク(「WAN」:Wide Area Network)、およびインターネットを含む。
多くの実施形態が説明された。それにも関わらず、本発明の趣旨および範囲から外れることなく、様々な修正がなされてもよいことが理解されよう。さらに、図において描写されたロジックフローは、望ましい結果を達成するのに、示された特定の順番、または連番である必要はない。さらに、他のステップが提供されてもよく、または記載されたフローからステップが削除されてもよく、また記載されたシステムに他の構成要素が加えられてもよく、またはそのシステムから構成要素が取り除かれてもよい。従って、他の実施形態は、以下の特許請求の範囲内にある。
100 図式
103 汎用エンドポイント信号
103 信号
106 完全クエリ信号
106 信号
109 初心者ポーズ検出装置信号
109 信号
112 初心者 エンドポイント信号
112 信号
115 上級者ポーズ検出装置信号
115 信号
118 上級者エンドポイント信号
118 信号
121 コンピューティングデバイス
124 発話
127 ユーザ
130 発話タイミング
133 1番目の単語
133 単語
136 ポーズ
139 2番目の単語
139 単語
142 ポーズ
145 3番目の単語
145 単語
148 ポーズ
151 4番目の単語
151 単語
154 ポーズ
157 トランスクリプション
160 トランスクリプション
163 トランスクリプション
200 例示的なシステム
200 システム
200 コンピューティングデバイス
205 音声クエリ
205 音声クエリログ
210 クエリログ
215 クエリログ
220 音声クエリプロセッサ
225 クエリ完全性プロセッサ
230 クエリ長プロセッサ
235 ポーズ間隔プロセッサ
240 クエリカウンタ
245 ユーザプロファイラ
245 音声プロファイラ
250 プロファイル閾値
255 プロファイル記憶装置
260 プロファイル
300 例示的なプロセス
300 プロセス
400 コンピューティングデバイス
402 プロセッサ
402 構成要素
404 メモリ
404 構成要素
406 記憶デバイス
406 構成要素
408 高速インタフェース
408 構成要素
410 高速拡張ポート
410 構成要素
412 低速インタフェース
412 構成要素
414 低速バス
416 ディスプレイ
420 標準サーバ
422 ラップトップコンピュータ
424 ラックサーバシステム

Claims (12)

  1. コンピュータ実施方法であって、
    特定のユーザによって話された音声クエリを含む音声クエリログデータにアクセスするステップと、
    特定のユーザによって話された音声クエリを含む前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定するステップであって、前記音声クエリログデータは、それぞれ音声クエリが完全であるか否かを示すデータを含み、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定するステップが、それぞれの音声クエリが完全であるか否かを示す前記データに基づいて、前記ポーズ閾値を決定することを含む、ステップと、
    前記特定のユーザから、発話を受信するステップであって、音声クエリが完全であるか否かは、1つまたは複数の完全な発話と前記受信された発話との比較によって決定される、ステップと、
    前記特定のユーザが、少なくとも前記ポーズ閾値に等しい期間について話すことを止めたと決定するステップと、
    前記特定のユーザが、少なくとも前記ポーズ閾値に等しい期間について話すことを止めたという決定に基づいて、前記発話を、音声クエリとして処理するステップと
    を含む、コンピュータ実施方法。
  2. 前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータから前記ポーズ閾値を決定するステップが、
    前記特定のユーザを、音声認識システムの上級者ユーザとして、または前記音声認識システムの初心者ユーザとして分類することと、
    前記特定のユーザを、前記音声認識システムの前記上級者ユーザとして、または前記音声認識システムの前記初心者ユーザとして分類することに基づいて、前記ポーズ閾値を決定することと
    を含む、請求項1に記載の方法。
  3. 前記音声クエリログデータが、それぞれの音声クエリに関連するタイムスタンプ、およびそれぞれの音声クエリに関連するスピーチポーズ間隔を含み、
    前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定するステップが、それぞれの音声クエリに関連する前記タイムスタンプ、およびそれぞれの音声クエリに関連する前記スピーチポーズ間隔に基づいて、前記ポーズ閾値を決定することを含む、請求項1に記載の方法。
  4. 前記音声クエリログデータに基づいて、1日毎の前記特定のユーザによって話された音声クエリの平均数を決定するステップを含み、
    前記ポーズ閾値を決定するステップが、1日毎の前記特定のユーザによって話された音声クエリの前記平均数にさらに基づく、請求項1に記載の方法。
  5. 前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリの平均長を決定するステップを含み、
    前記ポーズ閾値を決定するステップが、前記特定のユーザによって話された音声クエリの前記平均長にさらに基づく、請求項1に記載の方法。
  6. 前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリについての平均ポーズ間隔を決定するステップを含み、
    前記ポーズ閾値を決定するステップが、前記特定のユーザによって話された音声クエリについての前記平均ポーズ間隔にさらに基づく、請求項1に記載の方法。
  7. システムであって、
    1つまたは複数のコンピュータと、 前記1つまたは複数のコンピュータによって実行された場合、前記1つまたは複数のコンピュータに、
    特定のユーザによって話された音声クエリを含む音声クエリログデータにアクセスすることと、
    特定のユーザによって話された音声クエリを含む前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定することと、
    前記特定のユーザから、発話を受信することと、
    前記特定のユーザが少なくとも前記ポーズ閾値に等しい期間について話すことを止めたと決定することと、
    前記特定のユーザが少なくとも前記ポーズ閾値に等しい期間について話すことを止めたという決定に基づいて、前記発話を、音声クエリとして処理することと
    を含む動作を行わせるように動作可能である命令を記憶する1つまたは複数の記憶デバイスと
    を備え、
    前記音声クエリログデータは、それぞれ音声クエリが完全であるか否かを示すデータを含み、前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定することが、それぞれの音声クエリが完全であるか否かを示す前記データに基づいて、前記ポーズ閾値を決定することを含み、音声クエリが完全であるか否かは、1つまたは複数の完全な発話と前記受信された発話との比較によって決定される、システム。
  8. 前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータから前記ポーズ閾値を決定することが、
    前記特定のユーザを、音声認識システムの上級者ユーザとして、または前記音声認識システムの初心者ユーザとして分類することと、
    前記特定のユーザを、前記音声認識システムの前記上級者ユーザとして、または前記音声認識システムの前記初心者ユーザとして分類することに基づいて、前記ポーズ閾値を決定することと
    を含む、請求項7に記載のシステム。
  9. 前記音声クエリログデータが、それぞれの音声クエリに関連するタイムスタンプ、およびそれぞれの音声クエリに関連するスピーチポーズ間隔を含み、
    前記特定のユーザによって話された音声クエリを含む前記音声クエリログデータからポーズ閾値を決定することが、それぞれの音声クエリに関連する前記タイムスタンプ、およびそれぞれの音声クエリに関連する前記スピーチポーズ間隔に基づいて、前記ポーズ閾値を決定することを含む、請求項7に記載のシステム。
  10. 前記動作が、前記音声クエリログデータに基づいて、1日毎の前記特定のユーザによって話された音声クエリの平均数を決定することをさらに含み、
    前記ポーズ閾値を決定することが、1日毎の前記特定のユーザによって話された音声クエリの前記平均数にさらに基づく、請求項7に記載のシステム。
  11. 前記動作が、前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリの平均長を決定することをさらに含み、
    前記ポーズ閾値を決定することが、前記特定のユーザによって話された音声クエリの前記平均長にさらに基づく、請求項7に記載のシステム。
  12. 前記動作が、前記音声クエリログデータに基づいて、前記特定のユーザによって話された音声クエリについての平均ポーズ間隔を決定することをさらに含み、
    前記ポーズ閾値を決定することが、前記特定のユーザによって話された音声クエリについての前記平均ポーズ間隔にさらに基づく、請求項7に記載のシステム。
JP2016179291A 2015-10-19 2016-09-14 スピーチエンドポインティング Active JP6541630B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201562243463P 2015-10-19 2015-10-19
US62/243,463 2015-10-19
US14/923,637 US20170110118A1 (en) 2015-10-19 2015-10-27 Speech endpointing
US14/923,637 2015-10-27
US15/196,663 US10269341B2 (en) 2015-10-19 2016-06-29 Speech endpointing
US15/196,663 2016-06-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016246365A Division JP6420306B2 (ja) 2015-10-19 2016-12-20 スピーチエンドポインティング

Publications (2)

Publication Number Publication Date
JP2017078848A JP2017078848A (ja) 2017-04-27
JP6541630B2 true JP6541630B2 (ja) 2019-07-10

Family

ID=58666238

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016179291A Active JP6541630B2 (ja) 2015-10-19 2016-09-14 スピーチエンドポインティング
JP2016246365A Active JP6420306B2 (ja) 2015-10-19 2016-12-20 スピーチエンドポインティング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016246365A Active JP6420306B2 (ja) 2015-10-19 2016-12-20 スピーチエンドポインティング

Country Status (4)

Country Link
US (2) US11062696B2 (ja)
JP (2) JP6541630B2 (ja)
KR (1) KR101942521B1 (ja)
CN (1) CN107068147B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543812A (zh) * 2017-09-22 2019-03-29 吴杰 一种特定真人行为快速建模方法
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
CN108446370B (zh) * 2018-03-15 2019-04-26 苏州思必驰信息科技有限公司 语音数据统计方法和系统
JP7096707B2 (ja) * 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN109360551B (zh) * 2018-10-25 2021-02-05 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109599130B (zh) * 2018-12-10 2020-10-30 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109961787A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 确定采集结束时间的方法及装置
CN109767792B (zh) * 2019-03-18 2020-08-18 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
EP3797363A1 (en) 2019-05-06 2021-03-31 Rovi Guides, Inc. Systems and methods for leveraging acoustic information of voice queries
CN110223697B (zh) * 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及系统
WO2021014612A1 (ja) * 2019-07-24 2021-01-28 日本電信電話株式会社 発話区間検出装置、発話区間検出方法、プログラム
CN110619873A (zh) 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
US11551665B2 (en) * 2019-09-12 2023-01-10 Oracle International Corporation Dynamic contextual dialog session extension
US11749265B2 (en) * 2019-10-04 2023-09-05 Disney Enterprises, Inc. Techniques for incremental computer-based natural language understanding
KR20210050901A (ko) * 2019-10-29 2021-05-10 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
CN112382279B (zh) * 2020-11-24 2021-09-14 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN113516994B (zh) * 2021-04-07 2022-04-26 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH084676B2 (ja) 1987-12-09 1996-01-24 松下電器産業株式会社 コードレスアイロン
JPH07104676B2 (ja) * 1988-02-29 1995-11-13 日本電信電話株式会社 適応形発声終了検出方法
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3069531B2 (ja) * 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
US6453292B2 (en) 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
WO2000046789A1 (fr) 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP4341111B2 (ja) 1999-08-18 2009-10-07 ソニー株式会社 記録再生装置および記録再生方法
IT1315917B1 (it) 2000-05-10 2003-03-26 Multimedia Technologies Inst M Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati.
US7277853B1 (en) 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7177810B2 (en) 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20050108011A1 (en) 2001-10-04 2005-05-19 Keough Steven J. System and method of templating specific human voices
US7035807B1 (en) 2002-02-19 2006-04-25 Brittain John W Sound on sound-annotations
US7665024B1 (en) 2002-07-22 2010-02-16 Verizon Services Corp. Methods and apparatus for controlling a user interface based on the emotional state of a user
JP4433704B2 (ja) * 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
US7756709B2 (en) 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
CN100456356C (zh) * 2004-11-12 2009-01-28 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
WO2006069381A2 (en) 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking confidence
US7689423B2 (en) 2005-04-13 2010-03-30 General Motors Llc System and method of providing telematically user-optimized configurable audio
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8756057B2 (en) 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US7603633B2 (en) 2006-01-13 2009-10-13 Microsoft Corporation Position-based multi-stroke marking menus
US20090149166A1 (en) 2006-04-24 2009-06-11 Hakem Mohamedali Habib Method, system and apparatus for conveying an event reminder
CN101197131B (zh) 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
US7881933B2 (en) 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
US8364485B2 (en) 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
WO2009101837A1 (ja) 2008-02-13 2009-08-20 Nec Corporation 記号挿入装置および記号挿入方法
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN101308653A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
CA2680304C (en) 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
DE102008058883B4 (de) 2008-11-26 2023-07-27 Lumenvox Corporation Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
CN101872616B (zh) * 2009-04-22 2013-02-06 索尼株式会社 端点检测方法以及使用该方法的系统
WO2010124247A2 (en) 2009-04-24 2010-10-28 Advanced Brain Monitoring, Inc. Adaptive performance trainer
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8768705B2 (en) * 2009-10-27 2014-07-01 Cisco Technology, Inc. Automated and enhanced note taking for online collaborative computing sessions
KR101377459B1 (ko) 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
US10705794B2 (en) * 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition
US20120089392A1 (en) 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
KR101250668B1 (ko) * 2011-05-23 2013-04-03 수원대학교산학협력단 Gmm을 이용한 응급 단어 인식 방법
US9763617B2 (en) 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
US9043413B2 (en) 2011-11-15 2015-05-26 Yahoo! Inc. System and method for extracting, collecting, enriching and ranking of email objects
CN103165127B (zh) * 2011-12-15 2015-07-22 佳能株式会社 声音分段设备和方法以及声音检测系统
KR20130101943A (ko) * 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
US9202086B1 (en) 2012-03-30 2015-12-01 Protegrity Corporation Tokenization in a centralized tokenization environment
US9445245B2 (en) * 2012-07-02 2016-09-13 At&T Intellectual Property I, L.P. Short message service spam data analysis and detection
US8600746B1 (en) 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
JP6122642B2 (ja) * 2013-01-10 2017-04-26 株式会社Nttドコモ 機能実行システム及び発話例出力方法
US20140214883A1 (en) * 2013-01-29 2014-07-31 Google Inc. Keyword trending data
DK2994908T3 (da) 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
US9437186B1 (en) 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
GB2519117A (en) 2013-10-10 2015-04-15 Nokia Corp Speech processing
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
CN104700830B (zh) * 2013-12-06 2018-07-24 中国移动通信集团公司 一种语音端点检测方法及装置
US9418660B2 (en) 2014-01-15 2016-08-16 Cisco Technology, Inc. Crowd sourcing audio transcription via re-speaking
US9311932B2 (en) 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US9530412B2 (en) 2014-08-29 2016-12-27 At&T Intellectual Property I, L.P. System and method for multi-agent architecture for interactive machines
US9666192B2 (en) 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10121471B2 (en) 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
JP7104676B2 (ja) * 2019-10-02 2022-07-21 株式会社三共 遊技機

Also Published As

Publication number Publication date
JP2017078848A (ja) 2017-04-27
KR20170045709A (ko) 2017-04-27
CN107068147B (zh) 2020-10-20
JP6420306B2 (ja) 2018-11-07
US11710477B2 (en) 2023-07-25
US20210312903A1 (en) 2021-10-07
CN107068147A (zh) 2017-08-18
KR101942521B1 (ko) 2019-01-28
JP2017078869A (ja) 2017-04-27
US11062696B2 (en) 2021-07-13
US20190318721A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
JP6541630B2 (ja) スピーチエンドポインティング
US10269341B2 (en) Speech endpointing
US11996085B2 (en) Enhanced speech endpointing
US9754584B2 (en) User specified keyword spotting using neural network feature extractor
US8843369B1 (en) Speech endpointing based on voice profile
US8775191B1 (en) Efficient utterance-specific endpointer triggering for always-on hotwording
US9589564B2 (en) Multiple speech locale-specific hotword classifiers for selection of a speech locale
US11862162B2 (en) Adapting an utterance cut-off period based on parse prefix detection
US20170069308A1 (en) Enhanced speech endpointing
US20170110118A1 (en) Speech endpointing
EP3739583B1 (en) Dialog device, dialog method, and dialog computer program
CN114385800A (zh) 语音对话方法和装置
KR20230113368A (ko) 검출들의 시퀀스에 기반한 핫프레이즈 트리거링
JP7248087B2 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
US20240212678A1 (en) Multi-participant voice ordering
CN114267339A (zh) 语音识别处理方法及系统、设备以及存储介质
JP5623345B2 (ja) 会話データ解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190513

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190611

R150 Certificate of patent or registration of utility model

Ref document number: 6541630

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250