JP7163424B2 - 自動化された発話発音帰属化 - Google Patents

自動化された発話発音帰属化 Download PDF

Info

Publication number
JP7163424B2
JP7163424B2 JP2021000457A JP2021000457A JP7163424B2 JP 7163424 B2 JP7163424 B2 JP 7163424B2 JP 2021000457 A JP2021000457 A JP 2021000457A JP 2021000457 A JP2021000457 A JP 2021000457A JP 7163424 B2 JP7163424 B2 JP 7163424B2
Authority
JP
Japan
Prior art keywords
user
determining
candidate
user profile
user profiles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021000457A
Other languages
English (en)
Other versions
JP2021060620A (ja
Inventor
ジャスティン・ルイス
リサ・タケハナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2021060620A publication Critical patent/JP2021060620A/ja
Application granted granted Critical
Publication of JP7163424B2 publication Critical patent/JP7163424B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/54Presence management, e.g. monitoring or registration for receipt of user log-on information, or the connection status of the users

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

本明細書は、一般的には発話認識(speech recognition)に関係する。
所定のコンピューティングデバイスは、発話認識機能性、例えば音声起動デバイスを有し、ユーザの言葉への適切な応答を提供することができる。発話認識機能性を伴うこれらのコンピューティングデバイスのうちのいくつかは、共用デバイスであって、複数のユーザにその共用デバイスと対話させるものである。加えて、特定のユーザは、発話認識機能性を有するいくつもの異なるデバイスと対話することがある。これらの実例の各々において、発話認識機能性を伴うコンピューティングデバイスは、コンピューティングデバイスと現在対話している特定のユーザを識別することの困難さを有することがある。よって、コンピューティングデバイスとのユーザの対話は、しばしば、望ましくない結果をもたらす。
本開示は、ユーザが、デバイスにおいて受信される、話される言葉(spoken utterance)と正確に関連付けられることを可能とする。本開示は、さらには、デバイスが、適切なオーディオ応答を提供するなど、適切なアクションを遂行することにより、話される言葉の受信に応答することを可能とする。結果として、ユーザのアカウントまたは情報は、複数のデバイスにわたってリンクされ得るものであり、ユーザが対話するすべてのデバイスにわたって、統一されたユーザエクスペリエンスを創出する。その同じ統一されたユーザエクスペリエンスが、さらには、共用デバイスと対話する各々のユーザに対して提供される。
本明細書において説明される主題の1つの革新的態様は、共用デバイスと関連付けられている候補ユーザプロファイルを決定するステップと、候補ユーザプロファイルから、共用デバイスと関連付けられていると決定される候補ユーザプロファイルのうちの少なくとも1つと関連付けられる候補発音属性を識別するステップと、共用デバイスにおいて、話される言葉を受信するステップと、受信される発音属性を、話される言葉に対応する、受信されるオーディオデータに基づいて決定するステップと、受信される発音属性を、候補発音属性のうちの少なくとも1つと比較するステップと、特定の発音属性を、候補発音属性から、受信される発音属性の、候補発音属性のうちの少なくとも1つとの比較の結果に基づいて選択するステップと、候補発音属性から選択される特定の発音属性を、話される言葉と関連付けられるオーディオを出力するために提供するステップとのアクションを含む方法において具現化される。
これらおよび他の実装形態は、各々任意選択で、後に続く特徴のうちの1つまたは複数を含み得る。実例として、共用デバイスと関連付けられている候補ユーザプロファイルを決定するステップは、複数のユーザプロファイルの各々と共用デバイスとの間の関係性を決定するステップと、各々のユーザプロファイルに対して、関係性が、ユーザプロファイルと共用デバイスとの間の関連付けを示すかどうかを決定するステップと、共用デバイスとの関連付けを示す関係性を有する各々のユーザプロファイルに対して、ユーザプロファイルを、共用デバイスと関連付けられる候補ユーザプロファイルのうちの1つであると識別するステップとを含み得る。
本明細書において説明される主題の別の態様によれば、複数のユーザプロファイルの各々に対して、関係性は、ユーザプロファイルが共用デバイスに対してログインされたかどうか、または、ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスが共用デバイスと通信したかどうかの記録を含む。
本明細書において説明される主題の別の態様によれば、複数のユーザプロファイルの各々に対して、関係性は、共用デバイスに対する、ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスの地理的近接性を含む。
本明細書において説明される主題のさらに別の態様によれば、複数のユーザプロファイルの各々に対して、関係性は、ソーシャルコネクティビティ(social connectivity)を含み、ソーシャルコネクティビティは、少なくとも1つのソーシャルコネクティビティメトリックに基づく。
本明細書において説明される主題の別の態様は、話される言葉へのオーディオ応答を提供するステップであって、オーディオ応答は、候補発音属性から選択される特定の発音を含む、提供するステップのアクションを含む方法において具現化される。
所定の実装形態において、候補ユーザプロファイルのうちの各々のユーザプロファイルは、規準識別子(canonical identifier)と関連付けられる1つまたは複数の発音属性を含み、規準識別子は、特定の発音を表す。
これらの態様の他の実装形態は、対応するシステム、装置、および、コンピュータ記憶デバイス上で符号化される、方法のアクションを遂行するように構成されるコンピュータプログラムを含む。
本開示の実装形態は、いくつもの技術的利点を提供し、それらの利点のうちの一部が、下記でより詳細に説明される。例えば、特定の名前、キーワード、または語句の、発話認識および発音は、しばしば計算コストが高く、本開示の実装形態は、ユーザを識別すること、発話認識を遂行することと関連付けられる計算負荷を減少し、オーディオ出力においての正しい発音を提供する。別の例として、本開示により提供されるプロセスの合理化は、要される帯域幅を低減すること、および、電池電力節約を提供することの技術的利点を生み出す。さらに別の例として、本開示は、例えば、候補名前、単語、または語句の数を低減することにより、発話認識においての翻音正確性を増大することの技術的利点を提供する。
1つまたは複数の実装形態の詳細が、付随する図面、および、下記の説明において記載される。他の特徴および利点は、説明、図面、および、特許請求の範囲から明らかになるであろう。
所定の実装形態による、発話発音帰属化システム(speech pronunciation attribution system)の動作に対する例線図を図示する図である。 所定の実装形態による、発話発音帰属化のための例システムを図示する図である。 所定の実装形態による、発話発音帰属化プロセスに対する例フローチャートを図示する図である。 ここで説明される技法を実装するために使用され得る、コンピューティングデバイスおよびモバイルコンピューティングデバイスの例を図示する図である。
様々な図面においての、同類の参照番号および名称は、同類の要素を指示する。
図1は、発話発音帰属化システムの動作に対する例線図100を図示する。ユーザ102は、言葉104/106を話すことができる。ユーザ102は、モバイルデバイスなどのユーザデバイス110を有し得る。1つの実例において、ユーザは、ユーザの名前または特定のキーワードを含む言葉104を話すことができる。別の実例において、ユーザは、ユーザの存在を指示する言葉106を話すことができる。言葉104/106は、共用デバイスなどのコンピューティングデバイス120において受信され得る。コンピューティングデバイス120は、下記でより詳細に説明されるシステムおよびプロセスに基づいて、ユーザと関連付けられる、ユーザの名前または別のキーワードもしくは語句の適正な発音を、決定および出力することができる。例えば、ユーザの名前は「Justen」であることがあり、その「Justen」は、「Justin」- JUH-stinのようにではなく、「Justine」- Juss-TEENのように発音される。共用デバイス120は、適切な発音をJUH-stin 122およびJuss-TEEN 124から決定することができる。よって、共用デバイス120は、その言葉に、適正な発音Juss-TEENを含む返答130によって応答することができる。
一般的に、本開示の1つの実装形態は、ユーザが、デバイスにおいて受信される、話される言葉と正確に関連付けられることを可能とする。本開示の1つの実装形態は、さらには、デバイスが、適切なオーディオ応答を提供するなど、適切なアクションを遂行することにより、話される言葉の受信に応答することを可能とする。
例えば、デバイスは、話される言葉と関連付けられたユーザにとって聞き慣れた様式において発音される、1つまたは複数の単語を含むオーディオ応答を提供することができる。このことは、オーディオ応答が、ユーザにとって、より認識可能であり、理解するのがより容易であるという結果を生み出し得る。発話を理解する限られた能力を有するユーザに対し、そのようなユーザがデバイスと対話することをより容易にする、特定の利益が存し得る。追加的または代替的に、デバイスは、ユーザのプロファイルに代わって電子メールを送出するなど、話される言葉と関連付けられたユーザに代わってアクションを遂行することができる。
本開示の説明される実装形態が、デバイス、および/または、サーバなどの別のコンピューティング装置の形で実装されるとき、話される言葉とユーザとの間の関連付けは、信頼性の高い、および、技術的に効率的な様式において形成される。
例えば、1つの実装形態によれば、デバイスおよび/または他のコンピューティング装置は、デバイスと具体的に関連付けられるユーザプロファイルのセットを決定し、デバイスにおいての話される言葉の受信を基に、プロファイルの決定されたセットから、少なくとも1つのユーザプロファイルを、話される言葉と関連付けられていると識別することができる。この識別は、ユーザプロファイルのセット内のユーザプロファイルの発音属性の、話される言葉の属性との比較に基づくものであり得る。
デバイスと具体的に関連付けられるユーザプロファイルのセットの初期決定は、本明細書において解説されるような、様々な技術的手立てにおいて履行され得る。デバイスと関連付けられるユーザプロファイルの初期セットの決定は、話される言葉の、ユーザプロファイルの発音属性との比較は、ユーザプロファイルの初期セットが決定されなかった場合より、計算コストが著しく低いということを意味し得る。
本開示の実装形態は、デバイスにより、話される言葉の受信に応答して遂行されるアクションが、適切であり、誤りがちではないという効果を有し得る。さらにまた、話される言葉と個々のユーザとの間の関連付けは、様式であって、処理構成要素およびメモリ構成要素の両方の、その様式の使用の見地において効率的である、様式において行われる。このことは、本開示を実装するデバイスおよび/または他のコンピューティング装置が、限られた処理能力を有するときでさえ、応答が適時の様式において提供されることを可能とし得る。
図1を参照すると、名前の特定の発音を、リンクされたアカウントを伴う個人に対して帰属化することを、複数の個人を含むオーディオ環境において、デバイスとの個人の履歴対話、個人のモバイルデバイスの近接性、およびアカウント登録などの様々な要因に基づいて行うための機構が提供され得る。この様式において、例えば、ユーザ名は、例えば音声アシスタント、オーディオインターフェイス、または同類のものとして働く共用デバイスにより正しく発音される。本明細書において説明される実装形態は、特定の人の名前の発音を正しく識別すること、および、一部の事例において、個人に属する特有のアカウントまたはユーザプロファイルをオーディオキューに基づいて識別することの複雑な技術的問題を解決する。そのようにするために、複数のユーザプロファイルを特有のデバイスに関して帰属化し、次いで、それらの複数のユーザプロファイルのうちの1つを、受信されるオーディオ信号とマッチングする機構が、コンピューティングデバイスの形で実装される。ユーザプロファイルをオーディオ信号とマッチングする後、システムは、ユーザプロファイルの中で指定される、または、ユーザと関連付けられる、適正な発音によって、オーディオベースの返答をユーザに提供する能力がある。かくして、システムは、正しく応答し、ユーザに関与することを、それらのユーザの名前を誤って発音することなく行う。
ユーザプロファイルが、共用デバイスと連関している際に帰属化され得る1つの手立ては、デバイスを以前に使用したユーザプロファイルの記憶されるリストに基づく。これらのユーザプロファイルは、デバイスに対してログインし、アクションに係わることにより直接的に、または、別のデバイスを経てデバイスと対話することにより間接的に、デバイスを使用したものであり得る。ユーザプロファイルが、共用デバイスと連関していることに応じて帰属化され得る別の手立ては、デバイス近接性に基づく。例えば、1つまたは複数の付近のデバイスが検出され得るものであり、それらの付近のデバイスの各々と関連付けられるユーザプロファイルが、次いで、共用デバイスと関連付けられ得る。共用デバイスがオーディオ応答においてユーザの参照を行うことを必要とするとき、共用デバイスは、ユーザが、付近のデバイスと関連付けられるユーザプロファイルのうちの1つにより表される公算が大きいと決定することができる。Wi-Fi、Bluetooth(登録商標)、可聴下音、受信されるオーディオレベル、GPS、または同類のもの、または、それらの任意の組み合わせを含むが、それらに制限されない、任意の数の技術が、デバイス近接性を決定するために実装され得る。
ユーザプロファイルを、共用デバイスと連関している際に帰属化するための、上記で説明された先行使用および近接性に対する代替案として、または、それらの先行使用および近接性に加えて、ソーシャルコネクションが、さらには使用され得る。この様式において、共用デバイスと同じ部屋内に第2のデバイスを有さず、共用デバイスとまだ対話していない潜在的ユーザが識別され得る。例えば、そのような潜在的ユーザのセットが、すでに識別されたユーザプロファイルと関連付けられるソーシャルコネクションの集合体から生成され得る。そのソーシャルコネクティビティは、ユーザ対話、ソーシャルグラフ、または同類のものに基づくものであり得る。加えて、ソーシャルコネクションの集合体は、共用デバイスの付近にない、または、共用デバイスのしきい値距離の範囲内にない者を排除するためにフィルタリングされ得る。
候補ユーザプロファイルのセットが識別されると、各々のプロファイルと関連付けられる発音属性の集合体が、個々のユーザの名前を、そのユーザが話すときに認識するための発音属性の候補リストとして使用され得る。例えば、比較が、1つまたは複数の発音属性により表される特有の発音と、ユーザの名前に関するオーディオセグメントとの間で行われ得る。本開示の1つの技術的利点は、名前、または、使用すべきシステムの発話認識構成要素に対する、候補名前または候補発音属性のリストを決定することにより、オーディオパーシングの正確性および速度が、著しく改善されるということである。別の技術的利点は、特定の候補ユーザプロファイルを、利用可能なすべてのユーザプロファイルから決定することにより、例えば、ユーザが彼の名前を言うときにユーザが言い及んでいる、すべての「John Smith」のうちからの特定の「John Smith」が決定され得るということである。
図2は、発話発音帰属化のための例システム200を図示する。システム200は、複数のユーザが直接的または間接的のいずれかで対話し得るコンピューティングデバイスであり得る、共用デバイス220を含み得る。例えば、共用デバイス220は、オーディオを受信するためのマイクロホン230と、オーディオを出力するためのスピーカ280とを含み得る。マイクロホン230は、例えば、ユーザからの、または別のデバイスからの音声入力210を受信し得る。共用デバイス220は、音声入力210としての話される言葉に対応するオーディオデータを受信し得る。共用デバイス220の発話認識構成要素は、音声入力210としての話される言葉に対応する、受信されるオーディオデータを分析し得る。
共用デバイス220は、ユーザプロファイルデータベース240にアクセスし得る。ユーザプロファイルデータベース240は、すべての登録されるユーザのリストを含み得る。ユーザプロファイルデータベース240は、さらには、ユーザプロファイルデータベース240内に記憶されるユーザの各々と関連付けられる情報を記憶し得る。例えば、各々のユーザは、ユーザに関しての情報を含む、ユーザと関連付けられるユーザプロファイルを有し得る。ユーザプロファイル内に含まれ得る情報の1つのまとまりは、ユーザの名前、または、ユーザと関連付けられる他の単語もしくは語句の発音である。ユーザの名前の記憶される発音は、発音属性を含み得る。システムは、発音を表す規準識別子を発音属性に基づいてセットし、規準識別子を、ユーザと関連付けして記憶し得る。
共用デバイス220は、記憶媒体内に記憶される候補ユーザプロファイルリスト250を含み得る、または、その候補ユーザプロファイルリスト250にアクセスし得る。候補ユーザプロファイルリスト250は、共用デバイス220と関連付けられると識別されたユーザのリストを含み得る。候補ユーザプロファイルリスト250は、ユーザプロファイルデータベース240内に記憶されているような、上記で説明されたユーザプロファイル情報のすべてを含み得る。候補ユーザプロファイルリスト250は、さらには、共用デバイス220とのユーザの先行対話と関連性のある情報を含み得る。上記で説明されたように、候補ユーザプロファイルリスト250内に記憶される各々の候補ユーザプロファイルは、いくつかの手立てにおいて、共用デバイス220と関連付けられているように決定され得る。例えば、ユーザプロファイルが共用デバイス220に対してログインされたかどうか、または、ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスが共用デバイス220と通信したかどうかの記録が、決定および記憶され得る。下記でより詳細に説明される他の例として、共用デバイスに対する、ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスの地理的近接性が決定され得るものであり、または、ソーシャルコネクティビティが、少なくとも1つのソーシャルコネクティビティメトリックに基づいて決定され得る。加えて、これらの機構の任意の組み合わせが、共用デバイス220と関連付けられている、候補ユーザプロファイルリスト250に対するユーザプロファイルを決定するために使用され得る。
共用デバイス220は、近接性検出器260を含み得る、または、その近接性検出器260にアクセスし得る。近接性検出器260は、ユーザ、または、ユーザと関連付けられるデバイスの地理的近接性を、いくつかの手立てのいずれかにおいて決定し得る。例えば、近接性検出器260は、Wi-Fi信号もしくは接続、Bluetooth(登録商標)信号もしくは接続、または、何らかの他の連結性信号もしくは接続、または、それらの任意の組み合わせを使用して、共用デバイス220に対する、ユーザ、または、ユーザと関連付けられるデバイスの地理的近接性を決定し得る。別の例として、近接性検出器260は、GPSセンサもしくは信号、または、何らかの他の測位センサもしくは信号を使用して、共用デバイス220に対する、ユーザ、または、ユーザと関連付けられるデバイスの地理的近接性を決定し得る。さらなる例として、近接性検出器260は、可聴下音を使用して、例えば、共用デバイス220に対する、他のデバイスの近接性を決定するための可聴下トークンをブロードキャストまたは受信することにより、共用デバイス220に対する、ユーザ、または、ユーザと関連付けられるデバイスの地理的近接性を決定し得る。さらに別の例として、近接性検出器260は、付近のデバイスにおいての受信されるオーディオ信号の相対的なオーディオ強度を比較して、共用デバイス220に対する、ユーザ、または、ユーザと関連付けられるデバイスの地理的近接性を決定し得る。例えば、ユーザの音声が最も大きいということを示す、受信されるオーディオ信号の強度が最も高い、デバイス、または複数のデバイスは、言葉を話すユーザと関連付けられる公算が最も大きく、そのユーザまたはデバイスと関連付けられるユーザプロファイルが識別され得る。
共用デバイス220は、ソーシャルコネクティビティデータベース270にアクセスし得る。ソーシャルコネクティビティデータベース270は、1つまたは複数の、ソーシャルグラフ、または先行ユーザ対話、または同類のものを含み得る。それぞれのユーザの間の関係性の強度を示す、アフィニティスコアが、さらには、算出され、ソーシャルコネクティビティデータベース270内に記憶され得る。上記で説明されたように、ソーシャルコネクティビティデータベース270内のソーシャルコネクティビティデータは、それらのユーザが、共用デバイス220の近くにない、または、共用デバイス220と以前に対話しなかったときでさえ、共用デバイス220と関連付けられるような候補ユーザプロファイルを決定するために使用され得る。例えば、あらかじめ決定されたしきい値を満たすアフィニティスコアを伴うすべてのユーザは、共用デバイス220と関連付けられて、候補ユーザプロファイルリスト250内に候補ユーザプロファイルとして含まれ得る。
上記で説明されたように、共用デバイス220が、マイクロホン230において、音声入力210としての話される言葉に対応するオーディオデータを受信すると、共用デバイス220は、受信されるオーディオデータを、候補ユーザプロファイルリスト250から決定される候補発音属性と比較することにより、その受信されるオーディオデータを分析し得る。特定の発音属性が、比較に基づいて候補発音属性から識別され得るものであり、特定の発音属性を使用する適切な発音が、スピーカ280からのオーディオ出力290において提供され得る。スピーカ280は、共用デバイス220によって含まれ得るものであり、または、共用デバイス220と関連付けられ得る、もしくは接続され得る。かくして、共用デバイス220は、識別される特定の発音属性により指定される適正な発音を使用するオーディオ出力290によって、音声入力210に応答し得る。
図3は、発話発音帰属化プロセス300に対する例フローチャートを図示する。発話発音帰属化プロセス300は、310において、共用デバイスと関連付けられている候補ユーザプロファイルを決定することを含み得る。共用デバイスと関連付けられている候補ユーザプロファイルの、この決定は、複数のユーザプロファイルの各々と共用デバイスとの間の関係性を決定することと、各々のユーザプロファイルに対して、その関係性が、ユーザプロファイルと共用デバイスとの間の関連付けを示すかどうかを決定することとを含み得る。次いで、共用デバイスとの関連付けを示す関係性を有する各々のユーザプロファイルに対して、ユーザプロファイルは、共用デバイスと関連付けられる候補ユーザプロファイルのうちの1つであると識別され得る。
複数のユーザプロファイルの各々と共用デバイスとの間の関係性が、ユーザプロファイルと共用デバイスとの間の関連付けを示すかどうかを決定することのプロセスは、例えば、ユーザプロファイルが共用デバイスに対してログインされたかどうか、または、ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスが共用デバイスと通信したかどうかを決定することを含み得る。決定される、複数のユーザプロファイルの各々と共用デバイスとの間の関係性は、例えば、共用デバイスに対する、ユーザプロファイルと関連付けられる少なくとも1つのユーザデバイスの地理的近接性を含み得る。別の例として、決定される、複数のユーザプロファイルの各々と共用デバイスとの間の関係性は、ソーシャルコネクティビティを含み得るものであり、ソーシャルコネクティビティは、少なくとも1つのソーシャルコネクティビティメトリックに基づく。例えば、上記で説明されたように、ソーシャルコネクティビティは、1つもしくは複数のソーシャルグラフ、ユーザの間の1つもしくは複数の対話、または、ユーザの間の算出されたアフィニティスコア、または同類のもの、または、それらの任意の組み合わせに基づくものであり得る。
図3を参照すると、320において、プロセスは、候補ユーザプロファイルから、共用デバイスと関連付けられていると決定される候補ユーザプロファイルのうちの少なくとも1つと関連付けられる候補発音属性を識別することを含み得る。例えば、候補ユーザプロファイルは、名前、語句、または他のキーワードの発音を表す、1つまたは複数の発音属性を含み得る。候補ユーザプロファイルは、候補ユーザプロファイルと関連付けられる1つまたは複数の発音属性を表す規準識別子を含み得る。例えば、ユーザの名前は、候補ユーザプロファイルと関連付けられる発音属性に基づいて、名前の発音の記述であり得る規準形式にパースされ得る。かくして、候補ユーザプロファイルのうちの少なくとも1つと関連付けられる、候補規準識別子が識別され得る。
330において、話される言葉が、共用デバイスにおいて受信され得る。話される言葉は、ユーザの名前、特定のキーワード、特定の語句もしくはコマンド、または同類のものに対応し得る。話される言葉は、例えば、共用デバイスの、または、共用デバイスと関連付けられるマイクロホンにおいて受信され得る。受信される発音属性が、340において、話される言葉に対応する、受信されるオーディオデータに基づいて決定され得る。例えば、発話認識プロセスが、発音属性を、話される言葉に対応する、受信されるオーディオデータに基づいて決定するために呼び出され得る。
受信される発音属性は、350において、候補発音属性のうちの少なくとも1つと比較され得る。例えば、受信される発音属性は、候補発音属性と、受信される発音属性との間の、公算が大きいマッチが存するかどうかを決定するために、候補発音属性と比較され得る。受信される発音属性は、複数の候補発音属性の各々と比較され得るものであり、マッチの公算または確率が、複数の候補発音属性の各々に関して、受信される発音属性に対して決定され得る。
360において、特定の発音属性が、候補発音属性から、受信される発音属性の、候補発音属性のうちの少なくとも1つとの比較の結果に基づいて選択され得る。例えば、特定の発音属性は、特定の発音属性と、受信される発音属性との間のマッチを識別することに基づいて選択され得る。特定の発音属性は、例えば、候補発音属性のうちの1つと、受信される発音属性との間のマッチの、最も公算が大きい、または、最も高い確率を識別することに基づいて選択され得る。
候補発音属性から選択される特定の発音属性は、370において、話される言葉と関連付けられるオーディオを出力するために提供され得る。例えば、共用デバイスは、特定の発音属性に基づく名前または単語の適正な発音を含む、話される言葉への返答を生成することができる。かくして、プロセス300は、話される言葉へのオーディオ応答を提供することであって、オーディオ応答は、候補発音属性から選択される特定の発音を含む、提供することを含み得る。
一部の実例において、受信されるオーディオデータは、候補ユーザプロファイルからの複数のユーザプロファイルと関連付けられていると決定されることがある。このことは、複数のユーザが、例えば、同じ名前または同様の名前を共用するときに起こり得る。これらの実例において、選択されるユーザプロファイルは、ユーザに、名字、電話番号、電子メールアドレス、もしくは同類のものなどの、別のまとまりの識別する情報を求める、または、その識別する情報に関して尋ねることにより、複数のユーザプロファイルを決定するときに訂正され得る。この更正は、ユーザが、特有のアクション、例えば、そのユーザに特有の何かを記録することに関して帰属化されることを必要とするときに進行するのみであり得る。
他の実例において、表されるユーザに対する的確なユーザプロファイルが、特定のアクションを遂行するために直ちに必要とされないときに、複数のユーザプロファイルが決定される場合、同じ発音が、ユーザに適切に話しかけるために使用されることが、すなわち、発音は複数のユーザの間で共用されるので、ユーザが実際には複数のユーザのうちのどれであるかに関わらず、行われ得る。これらの実例において、システムは、発音属性の参照を行う状態、例えば、名前の発音されるバージョン、および、受信されるオーディオデータと関連付けられていると決定される複数の候補ユーザプロファイルを記憶し得る。システムは、次いで、ユーザとの対話のために、その記憶される状態を参照し得る。システムが、複数のユーザプロファイルの中の特有のユーザプロファイルに対する帰属化を要するイベントまたはアクションに遭遇するとき、システムは、上記で説明されたような更正、例えば、識別する情報をユーザに要求して、言葉を話したユーザに対する特定のユーザプロファイルを決定することを進行し得る。
このプロセスによれば、正しい発音が識別されると、その発音が複数のユーザプロファイルと関連付けられるとしても、ユーザは、そのユーザの名前により実体として参照を行われ得るが、ユーザのアクションは、ユーザのアカウントに対して帰属化され得るものではない。これらの実例において、システムは、特有のユーザプロファイルを要さない、アクションのセットであって、そのシステムがそのセットにおいてユーザに関与することができる、アクションのセット、すなわち、発音される名前のみの状態と、特有のユーザのプロファイルを要する、アクションの第2のセット、すなわち、ユーザ特有の状態とを有する。システムが、発音される名前のみの状態において動作しており、特有のユーザのプロファイルを要するアクションに対して、ユーザ特有の状態において関与することを必要とするとき、次いで、システムは、ユーザに、アカウントのうちのどれがユーザのものであるかを指定するためのユーザ特有の情報を提供することを要求するイベントを処理し得る。
この様式において、ユーザは、ユーザへのオーディオ返答を進行するために、一意的に識別可能な情報をユーザに要求する、または、その情報をユーザから取得することの必要性を遅らせて、共用デバイスと、より有機的に対話することができる。かくして、共用デバイスは、どのユーザが存在するか、または、その共用デバイスと対話しているかを区別することができるのみならず、さらには、正しい発音を使用して、返答し、ユーザに関与することができる。
図4は、ここで説明される技法とともに使用され得る、一般のコンピュータデバイス400、および、一般のモバイルコンピュータデバイス450の例を図示する。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および、他の適切なコンピュータなどの、様々な形式のデジタルコンピュータを表すことを意図される。コンピューティングデバイス450は、携帯情報端末、携帯電話、スマートフォン、および、他の同様のコンピューティングデバイスなどの、様々な形式のモバイルデバイスを表すことを意図される。ここで示される構成要素、それらの構成要素の接続および関係性、ならびに、それらの構成要素の機能は、単に例示的であるように定められ、本文書において説明および/または特許請求される実装形態を制限するようには定められない。
コンピューティングデバイス400は、プロセッサ402と、メモリ404と、記憶デバイス406と、メモリ404および高速拡張ポート410に接続する高速インターフェイス408と、低速バス414および記憶デバイス406に接続する低速インターフェイス412とを含む。構成要素402、404、406、408、410、および412の各々は、様々なバスを使用して相互接続され、共通マザーボード上に、または、適宜他の様式において装着され得る。プロセッサ402は、高速インターフェイス408に結合されるディスプレイ416などの外部入出力デバイス上で、GUIのためのグラフィカル情報を表示するために、メモリ404内に、または、記憶デバイス406上に記憶される命令を含む、コンピューティングデバイス400の中の実行のための命令を処理し得る。他の実装形態において、複数のプロセッサ、および/または、複数のバスが、適宜、複数のメモリ、および、メモリのタイプと併せて使用され得る。さらには、複数のコンピューティングデバイス400が接続され得るものであり、各々のデバイスは、(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の一部分を提供する。
メモリ404は、コンピューティングデバイス400の中の情報を記憶する。1つの実装形態において、メモリ404は、1つまたは複数の揮発性メモリユニットである。別の実装形態において、メモリ404は、1つまたは複数の不揮発性メモリユニットである。メモリ404は、さらには、磁気または光学ディスクなどの、別の形式のコンピュータ可読媒体であり得る。
記憶デバイス406は、大容量記憶域をコンピューティングデバイス400用に提供する能力がある。1つの実装形態において、記憶デバイス406は、フロッピーディスクデバイス、ハードディスクデバイス、光学ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成の形のデバイスを含むデバイスのアレイなどのコンピュータ可読媒体であり得るものであり、あるいは、そのコンピュータ可読媒体を内包し得る。コンピュータプログラム製品が、情報担体の形で有形に具現化され得る。コンピュータプログラム製品は、さらには、上記で説明されたものなどの、実行されるときに1つまたは複数の方法を遂行する命令を内包し得る。情報担体は、メモリ404、記憶デバイス406、または、プロセッサ402上のメモリなどの、コンピュータまたは機械可読媒体である。
高速コントローラ408は、コンピューティングデバイス400に対する帯域幅集中動作を管理し、一方で、低速コントローラ412は、より低い帯域幅集中動作を管理する。機能のそのような割り振りは、単に例示的なものである。1つの実装形態において、高速コントローラ408は、メモリ404、ディスプレイ416(例えば、グラフィックスプロセッサまたはアクセラレータを通して)に、および、様々な拡張カード(示されない)を受け入れ得る高速拡張ポート410に結合される。実装形態において、低速コントローラ412は、記憶デバイス406および低速拡張ポート414に結合される。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、Ethernet、ワイヤレスEthernet)を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナ、または、スイッチもしくはルータなどのネットワーキングデバイスなどの、1つまたは複数の入出力デバイスに、例えば、ネットワークアダプタを通して、結合され得る。
コンピューティングデバイス400は、図において示されるように、いくつかの異なる形式の形で実装され得る。例えば、そのコンピューティングデバイス400は、標準的なサーバ420として、または、そのようなサーバのグループの形で、複数の回数、実装され得る。そのコンピューティングデバイス400は、さらには、ラックサーバシステム424の部分として実装され得る。加えて、そのコンピューティングデバイス400は、ラップトップコンピュータ422などのパーソナルコンピュータの形で実装され得る。代替的に、コンピューティングデバイス400からの構成要素は、デバイス450などの、モバイルデバイス(示されない)内の他の構成要素と組み合わされ得る。そのようなデバイスの各々は、コンピューティングデバイス400、450のうちの1つまたは複数を内包し得るものであり、システム全体は、互いと通信する複数のコンピューティングデバイス400、450から編成され得る。
コンピューティングデバイス450は、構成要素の中でもとりわけ、プロセッサ452と、メモリ464と、ディスプレイ454などの入出力デバイスと、通信インターフェイス466と、トランシーバ468とを含む。デバイス450は、さらには、追加的な記憶域を提供するための、マイクロドライブまたは他のデバイスなどの記憶デバイスを設けられ得る。構成要素452、464、454、466、および468の各々は、様々なバスを使用して相互接続され、構成要素のうちの何個かは、共通マザーボード上に、または、適宜、他の様式において装着され得る。
プロセッサ452は、メモリ464内に記憶される命令を含む、コンピューティングデバイス450の中の命令を実行し得る。プロセッサは、別々の、および複数の、アナログおよびデジタルプロセッサを含む、チップのチップセットとして実装され得る。プロセッサは、例えば、ユーザインターフェイス、デバイス450により実行されるアプリケーション、および、デバイス450によるワイヤレス通信の制御などの、デバイス450の他の構成要素の協調を可能にし得る。
プロセッサ452は、ディスプレイ454に結合される制御インターフェイス458およびディスプレイインターフェイス456を通してユーザと通信し得る。ディスプレイ454は、例えば、TFT LCD(薄膜トランジスタ液晶ディスプレイ)、またはOLED(有機発光ダイオード)ディスプレイ、または、他の適切なディスプレイ技術であり得る。ディスプレイインターフェイス456は、ディスプレイ454を駆動して、グラフィカルおよび他の情報をユーザに提示するための適切な回路網を備え得る。制御インターフェイス458は、コマンドをユーザから受信し、それらのコマンドを、プロセッサ452への発信のために変換し得る。加えて、外部インターフェイス462が、他のデバイスとのデバイス450のニアエリア通信(near area communication)を可能なものとするように、プロセッサ452と通信している様態で設けられ得る。外部インターフェイス462は、例えば、一部の実装形態においてはワイヤード通信を、または、他の実装形態においてはワイヤレス通信を可能にし得るものであり、複数のインターフェイスが、さらには使用され得る。
メモリ464は、コンピューティングデバイス450の中の情報を記憶する。メモリ464は、1つまたは複数のコンピュータ可読媒体、1つまたは複数の揮発性メモリユニット、あるいは、1つまたは複数の不揮発性メモリユニットのうちの、1つまたは複数として実装され得る。拡張メモリ454が、さらには、設けられ、例えばSIMM(シングルインラインメモリモジュール)カードインターフェイスを含み得る拡張インターフェイス452を通してデバイス450に接続され得る。そのような拡張メモリ454は、デバイス450に対する追加の記憶空間を提供し得るものであり、または、さらには、デバイス450に対するアプリケーションもしくは他の情報を記憶し得る。具体的には、拡張メモリ454は、上記で説明されたプロセスを履行または補完するための命令を含み得るものであり、さらにはセキュアな情報を含み得る。かくして、例えば、拡張メモリ454は、デバイス450に対するセキュリティモジュールとして設けられ得るものであり、デバイス450のセキュアな使用を可能なものにする命令によってプログラムされ得る。加えて、セキュアなアプリケーションが、SIMMカードによって、追加的な情報と併せて、識別する情報をSIMMカード上にハッキング不可能な様式において配置するなどして提供され得る。
メモリは、例えば、下記で論考されるような、フラッシュメモリおよび/またはNVRAMメモリを含み得る。1つの実装形態において、コンピュータプログラム製品は、情報担体の形で有形に具現化される。コンピュータプログラム製品は、上記で説明されたものなどの、実行されるときに1つまたは複数の方法を遂行する命令を内包する。情報担体は、メモリ464、拡張メモリ454、プロセッサ452上のメモリなどの、コンピュータもしくは機械可読媒体、または、例えばトランシーバ468もしくは外部インターフェイス462を介して受信され得る、伝搬される信号である。
デバイス450は、必要な場合に、デジタル信号処理回路網を含み得る通信インターフェイス466を通してワイヤレスに通信し得る。通信インターフェイス466は、中でもとりわけ、GSM(登録商標)音声通話、SMS、EMS、またはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなどの、様々なモードまたはプロトコルのもとでの通信を可能にし得る。そのような通信は、例えば、無線周波数トランシーバ468を通して行われ得る。加えて、狭域通信が、Bluetooth(登録商標)、WiFi、または、他のそのようなトランシーバ(示されない)を使用するなどして行われ得る。加えて、GPS(全地球測位システム)受信機モジュール450が、デバイス450上で実行されるアプリケーションにより、適切なように使用され得る、追加的なナビゲーションおよびロケーションに関係付けられるワイヤレスデータを、デバイス450に提供し得る。
デバイス450は、さらには、話される情報をユーザから受信し、その情報を使用可能なデジタル情報に変換することができる、オーディオコーデック460を使用して可聴に通信し得る。オーディオコーデック460は、同じように、例えばデバイス450のハンドセットにおいて、スピーカを通してなどして、ユーザに対する可聴音を生成し得る。そのような音は、音声電話通話からの音を含み得るものであり、記録された音(例えば、音声メッセージ、音楽ファイル、その他)を含み得るものであり、さらには、デバイス450上で動作するアプリケーションにより生成される音を含み得る。
コンピューティングデバイス450は、図において示されるように、いくつかの異なる形式の形で実装され得る。例えば、そのコンピューティングデバイス450は、携帯電話480として実装され得る。そのコンピューティングデバイス450は、さらには、スマートフォン482、携帯情報端末、または、他の同様のモバイルデバイスの部分として実装され得る。
いくつかの実装形態が説明された。それでも、様々な修正が、本開示の趣旨および範囲から逸脱することなく行われ得るということが理解されるであろう。例えば、上記で示された様々な形式のフローは、ステップが再順序付けされた、追加された、または除去された様態で使用され得る。
本明細書において説明される、本発明の実装形態、および、機能的動作のすべては、本明細書において開示される構造、および、それらの構造の構造的均等物を含む、デジタル電子回路網の形で、または、コンピュータソフトウェア、ファームウェア、もしくはハードウェアの形で、あるいは、それらのうちの1つまたは複数の組み合わせの形で実装され得る。本発明の実装形態は、1つまたは複数のコンピュータプログラム製品、すなわち、データ処理装置による実行のために、または、データ処理装置の動作を制御するために、コンピュータ可読媒体上で符号化されるコンピュータプログラム命令の、1つまたは複数のモジュールとして実装され得る。コンピュータ可読媒体は、機械可読記憶デバイス、機械可読記憶基板、メモリデバイス、機械可読の伝搬される信号を生じさせる組成物、または、それらのうちの1つもしくは複数の組み合わせであり得る。用語「データ処理装置」は、例として、プログラマブルプロセッサ、コンピュータ、または、複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を包含する。装置は、ハードウェアに加えて、当該のコンピュータプログラムに対する実行環境を創出するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、または、それらのうちの1つもしくは複数の組み合わせを成すコードを含み得る。伝搬される信号は、適した受信機装置への送信のために情報を符号化するために生成される、人工的に生成される信号、例えば、機械で生成される電気、光学、または電磁信号である。
コンピュータプログラム(さらには、プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとして知られている)は、コンパイラ型またはインタプリタ型言語を含む、任意の形式のプログラミング言語の形で書き記され得るものであり、そのコンピュータプログラムは、コンピューティング環境においての使用に適した、スタンドアローンプログラムとして、または、モジュール、コンポーネント、サブルーチン、もしくは他のユニットとしてということを含めて、任意の形式の形で展開され得る。コンピュータプログラムは、必ずしも、ファイルシステムにおいてのファイルに対応しない。プログラムは、他のプログラムもしくはデータを保持するファイルの一部分内に(例えば、マークアップ言語文書内に記憶される1つまたは複数のスクリプト)、当該のプログラムに専用の単一のファイル内に、または、複数の協調ファイル(例えば、1つまたは複数の、モジュール、サブプログラム、または、コードの一部分を記憶するファイル)内に記憶され得る。コンピュータプログラムは、1つのコンピュータ上で、または、1つの地点に置かれ、もしくは、複数の地点にわたって分散され、通信ネットワークにより相互接続される、複数のコンピュータ上で実行されるように展開され得る。
これらのコンピュータプログラム(さらには、プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとして知られている)は、プログラマブルプロセッサに対する機械命令を含み、高水準手続き型および/もしくはオブジェクト指向プログラミング言語の形で、ならびに/または、アセンブリ/機械言語の形で実装され得る。本明細書において使用される際、用語「機械可読媒体」、「コンピュータ可読媒体」は、機械命令を機械可読信号として受信する機械可読媒体を含めて、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される、任意のコンピュータプログラム製品、装置、および/またはデバイス(例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。用語「機械可読信号」は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
本明細書において説明されるプロセスおよび論理フローは、1つまたは複数のコンピュータプログラムを実行して、入力データを基に動作し、出力を生成することにより、機能を遂行する、1つまたは複数のプログラマブルプロセッサにより遂行され得る。プロセスおよび論理フローは、さらには、専用論理回路網、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)により遂行され得るものであり、装置は、さらには、その専用論理回路網として実装され得る。
コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用の両方のマイクロプロセッサ、ならびに、任意の種類のデジタルコンピュータの、任意の1つまたは複数のプロセッサを含む。一般的には、プロセッサは、命令およびデータを、読み出し専用メモリ、またはランダムアクセスメモリ、または両方から受信することになる。コンピュータの本質的な要素は、命令を遂行するためのプロセッサ、ならびに、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般的には、コンピュータは、さらには、データを記憶するための1つもしくは複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、もしくは光学ディスクを含むことになり、または、それらの大容量記憶デバイスからデータを受信するために、もしくは、それらの大容量記憶デバイスにデータを転送するために、もしくは両方のために動作可能に結合されることになる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。なおまた、コンピュータは、別のデバイス、例えば、ほんの数例を挙げると、タブレットコンピュータ、移動電話、携帯情報端末(PDA)、モバイルオーディオプレーヤ、全地球測位システム(GPS)受信機内に埋め込まれ得る。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス;磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク;光磁気ディスク;ならびに、CD ROMおよびDVD-ROMディスクを含む、すべての形式の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路網により補完され得る、または、専用論理回路網内に組み込まれ得る。
ユーザとの対話を可能にするために、本発明の実装形態は、情報をユーザに表示するためのディスプレイデバイス、例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、ユーザが入力をコンピュータに提供することがそれらによりできる、キーボード、および、ポインティングデバイス、例えば、マウスまたはトラックボールとを有するコンピュータ上で実装され得る。他の種類のデバイスが、なおその上に、ユーザとの対話を可能にするために使用され得るものであり、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであり得るものであり、ユーザからの入力は、音響、発話、または触覚入力を含む、任意の形式の形で受信され得る。
本発明の実装形態は、バックエンド構成要素を、例えばデータサーバとして含む、あるいは、ミドルウェア構成要素、例えばアプリケーションサーバを含む、あるいは、フロントエンド構成要素、例えば、ユーザが本発明の実装形態と対話することがそれらを通してできる、グラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータを、または、1つもしくは複数の、そのようなバックエンド、ミドルウェア、もしくはフロントエンド構成要素の任意の組み合わせを含む、コンピューティングシステムの形で実装され得る。システムの構成要素は、任意の形式または媒体のデジタルデータ通信、例えば、通信ネットワークにより相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、例えばインターネットを含む。
コンピューティングシステムは、クライアントとサーバとを含み得る。クライアントおよびサーバは、一般的には、互いから遠隔にあり、典型的には、通信ネットワークを通して対話する。クライアントおよびサーバの関係性は、それぞれのコンピュータ上で実行され、互いとのクライアント-サーバ関係性を有する、コンピュータプログラムによって生起する。
本開示は、多くの詳述を内包するが、これらの詳述は、本発明の、または、特許請求され得るものの、範囲に関する制限と解されるべきではなく、むしろ、本発明の特定の実装形態に特有の特徴の説明と解されるべきである。別々の実装形態の文脈において、本明細書において説明される所定の特徴が、さらには、単一の実装形態の形で組み合わせて実装され得る。逆に、単一の実装形態の文脈において説明される様々な特徴が、さらには、複数の実装形態の形で別々に、または、任意の適した部分的組み合わせの形で実装され得る。なおまた、特徴は、所定の組み合わせにおいて作動すると上記で説明されていることがあり、そのようなものとして初期に特許請求されることさえあるが、特許請求される組み合わせからの1つまたは複数の特徴は、一部の事例において、組み合わせから削除されることがあり、特許請求される組み合わせは、部分的組み合わせ、または、部分的組み合わせの変形形態に向けられるものであり得る。
同様に、動作が、特定の順序において、図面において図示されるが、このことは、そのような動作は、示される特定の順序において、もしくは、逐次的な順序において遂行されるということを、または、すべての例解される動作は、望ましい結果を達成するように遂行されるということを要すると理解されるべきではない。所定の状況において、マルチタスキングおよび並列処理が有利であることがある。なおまた、上記で説明された実装形態においての様々なシステム構成要素の分離は、そのような分離をすべての実装形態において要すると理解されるべきではなく、説明されたプログラム構成要素およびシステムは、一般的には、単一のソフトウェア製品の形に一体に統合され得る、または、複数のソフトウェア製品の形へとパッケージ化され得るということが理解されるべきである。
HTMLファイルが言及される各々の実例において、他のファイルタイプまたはフォーマットが代用されてもよい。実例として、HTMLファイルは、XML、JSON、プレーンテキスト、または、他のタイプのファイルにより置換され得る。なおまた、テーブルまたはハッシュテーブルが言及される場合、他のデータ構造(スプレッドシート、リレーショナルデータベース、または構造化ファイルなど)が使用されてもよい。
ここで説明されるシステムおよび技法の様々な実装形態は、デジタル電子回路網、集積回路網、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/または、それらの組み合わせの形で現実化され得る。これらの様々な実装形態は、記憶システム、少なくとも1つの入力デバイス、および、少なくとも1つの出力デバイスから、データおよび命令を受信するために、ならびに、それらの記憶システム、少なくとも1つの入力デバイス、および、少なくとも1つの出力デバイスに、データおよび命令を送信するために結合される、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能である、1つまたは複数のコンピュータプログラムの形の実装形態を含み得る。
かくして、本開示の特定の実装形態が説明された。他の実装形態が、後に続く特許請求の範囲の範囲内にある。例えば、特許請求の範囲において記載されるアクションは、異なる順序において遂行されてもよく、それでもなお、望ましい結果を達成し得る。いくつかの実装形態が説明された。それでも、様々な修正が、本開示の趣旨および範囲から逸脱することなく行われ得るということが理解されるであろう。例えば、上記で示された様々な形式のフローは、ステップが再順序付けされた、追加された、または除去された様態で使用され得る。よって、他の実装形態が、後に続く特許請求の範囲の範囲内にある。
100 例線図
102 ユーザ
104 言葉
106 言葉
110 ユーザデバイス
120 コンピューティングデバイス、共用デバイス
122 JUH-stin
124 Juss-TEEN
130 返答
200 システム
210 音声入力
220 共用デバイス
230 マイクロホン
240 ユーザプロファイルデータベース
250 候補ユーザプロファイルリスト
260 近接性検出器
270 ソーシャルコネクティビティデータベース
280 スピーカ
290 オーディオ出力
300 発話発音帰属化プロセス、プロセス
400 コンピュータデバイス、コンピューティングデバイス
402 プロセッサ、構成要素
404 メモリ、構成要素
406 記憶デバイス、構成要素
408 高速インターフェイス、構成要素、高速コントローラ
410 高速拡張ポート、構成要素
412 低速インターフェイス、構成要素、低速コントローラ
414 低速バス、低速拡張ポート
416 ディスプレイ
420 標準的なサーバ
422 ラップトップコンピュータ
424 ラックサーバシステム
450 モバイルコンピュータデバイス、コンピューティングデバイス、デバイス、GPS(全地球測位システム)受信機モジュール
452 プロセッサ、構成要素、拡張インターフェイス
454 ディスプレイ、構成要素、拡張メモリ
456 ディスプレイインターフェイス
458 制御インターフェイス
460 オーディオコーデック
462 外部インターフェイス
464 メモリ、構成要素
466 通信インターフェイス、構成要素
468 トランシーバ、構成要素、無線周波数トランシーバ
480 携帯電話
482 スマートフォン

Claims (14)

1つまたは複数のプロセッサによって実施される方法であって、
共用デジタルアシスタントデバイスにおいて、ユーザの話される言葉を受信するステップと、
前記話される言葉が、複数の候補ユーザプロファイルとマッチングすると決定するステップと、
前記話される言葉が、前記共用デジタルアシスタントデバイスのアシスタントによって実行されるべきアクションに関連付けられたコマンドに対応すると決定するステップと、
前記アシスタントによって実行されるべき前記アクションが、特有のユーザプロファイルに帰属化されるべきであると決定するステップと、
前記アクションが前記特有のユーザプロファイルに帰属化されるべきであるとの前記決定に基づいて、前記候補ユーザプロファイルのうちの特定のユーザプロファイルを選択するステップであって、
前記特定のユーザプロファイルの前記選択が、
前記共用デジタルアシスタントデバイスのユーザインターフェースにおいて、識別する情報に関わる質問を提供するステップと、
前記共用デジタルアシスタントデバイスにおいて、前記質問に応答するユーザ入力を受信するステップと、
前記質問に応答する前記ユーザ入力と、前記複数の候補ユーザプロファイルのうちの少なくとも1つについての対応する識別する情報とを比較するステップと、
前記比較に基づいて、前記複数の候補ユーザプロファイルのうちの特定のユーザプロファイルを、前記特有のユーザプロファイルとして、識別するステップと
を含む、ステップと、
前記特定のユーザプロファイルの前記識別に続いて、
前記アクションを前記特定のユーザプロファイルに帰属化させるステップと、
前記ユーザの前記話される言葉に対応する前記コマンドに関連付けられた前記アクションを実行するステップと、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記コマンド、前記アクション、または前記帰属化に関わるオーディオ出力を提供するステップと
を含む、方法。
前記候補ユーザプロファイルの各々が、対応する発音属性に関連付けられている、請求項1に記載の方法。
前記オーディオ出力が、前記特定のユーザプロファイルに関連付けられた前記対応する発音属性のうちの1つまたは複数を含む、請求項2に記載の方法。
前記比較が、前記質問に応答する前記ユーザ入力と、前記複数の候補ユーザプロファイルのうちの少なくとも1つに関連付けられた前記対応する発音属性とを比較するステップをさらに含む、請求項2に記載の方法。
前記話される言葉が、前記複数の候補ユーザプロファイルとマッチングすると決定するステップが、
前記話される言葉の1つまたは複数の発音属性を決定するステップと、
前記話される言葉の前記1つまたは複数の発音属性と、複数のユーザプロファイルに関連付けられた対応する発音属性と比較するステップと、
前記比較に基づいて、前記複数のユーザプロファイルの前記複数の候補ユーザプロファイルを識別するステップと
を含む、請求項2に記載の方法。
前記識別する情報は電話番号を含む、請求項1に記載の方法。
前記共用デジタルアシスタントデバイスにおいて、ユーザの追加の話される言葉を受信するステップと、
前記追加の話される言葉が、前記共用デジタルアシスタントデバイスの前記アシスタントによって実行されるべき追加のアクションに関連付けられた追加のコマンドに対応すると決定するステップと、
前記追加の話される言葉が、複数の候補ユーザプロファイルにマッチングすると決定するステップと、
前記追加の話される言葉が、前記複数の候補ユーザプロファイルにマッチングするとの前記決定に続いて、
前記アシスタントによって実行されるべき前記追加のアクションが、データベースにおいて、特有のユーザプロファイルに帰属化されることを必要としないと決定するステップと、
前記追加のアクションが、前記特有のユーザプロファイルに帰属化されることを必要としないとの前記決定に基づいて、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記追加のアクションまたは前記追加のコマンドに関わる追加のオーディオ出力を提供するステップと
をさらに含む、請求項1に記載の方法。
1つまたは複数のコンピュータと、命令を記憶した1つまたは複数の記憶デバイスとを備えるシステムであって、前記命令は、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、
共用デジタルアシスタントデバイスにおいて、ユーザの話される言葉を受信することと、
前記話される言葉が、複数の候補ユーザプロファイルとマッチングすると決定することと、
前記話される言葉が、前記共用デジタルアシスタントデバイスのアシスタントによって実行されるべきアクションに関連付けられたコマンドに対応すると決定することと、
前記アシスタントによって実行されるべき前記アクションが、特有のユーザプロファイルに帰属化されるべきであると決定することと、
前記アクションが前記特有のユーザプロファイルに帰属化されるべきであるとの前記決定に基づいて、前記候補ユーザプロファイルのうちの特定のユーザプロファイルを選択することであって、
前記特定のユーザプロファイルの前記選択が、
前記共用デジタルアシスタントデバイスのユーザインターフェースにおいて、識別する情報に関わる質問を提供することと、
前記共用デジタルアシスタントデバイスにおいて、前記質問に応答するユーザ入力を受信することと、
前記質問に応答する前記ユーザ入力と、前記複数の候補ユーザプロファイルのうちの少なくとも1つについての対応する識別する情報とを比較することと、
前記比較に基づいて、前記複数の候補ユーザプロファイルのうちの特定のユーザプロファイルを、前記特有のユーザプロファイルとして、識別することと
を含む、選択することと、
前記特定のユーザプロファイルの前記識別に続いて、
前記アクションを前記特定のユーザプロファイルに帰属化させることと、
前記ユーザの前記話される言葉に対応する前記コマンドに関連付けられた前記アクションを実行することと、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記コマンド、前記アクション、または前記帰属化に関わるオーディオ出力を提供することと
を含む動作を実行させるように動作可能である、システム。
前記候補ユーザプロファイルの各々が、対応する発音属性に関連付けられている、請求項8に記載のシステム。
前記オーディオ出力が、前記特定のユーザプロファイルに関連付けられた前記対応する発音属性のうちの1つまたは複数を含む、請求項9に記載のシステム。
前記比較が、前記質問に応答する前記ユーザ入力と、前記複数の候補ユーザプロファイルのうちの少なくとも1つに関連付けられた前記対応する発音属性とを比較することをさらに含む、請求項9に記載のシステム。
前記話される言葉が、前記複数の候補ユーザプロファイルとマッチングすると決定することが、
前記話される言葉の1つまたは複数の発音属性を決定することと、
前記話される言葉の前記1つまたは複数の発音属性と、複数のユーザプロファイルに関連付けられた対応する発音属性と比較することと、
前記比較に基づいて、前記複数のユーザプロファイルの前記複数の候補ユーザプロファイルを識別することと
を含む、請求項9に記載のシステム。
前記識別する情報は電話番号を含む、請求項8に記載のシステム。
前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、
前記共用デジタルアシスタントデバイスにおいて、ユーザの追加の話される言葉を受信することと、
前記追加の話される言葉が、前記共用デジタルアシスタントデバイスの前記アシスタントによって実行されるべき追加のアクションに関連付けられた追加のコマンドに対応すると決定することと、
前記追加の話される言葉が、複数の候補ユーザプロファイルにマッチングすると決定することと、
前記追加の話される言葉が、前記複数の候補ユーザプロファイルにマッチングするとの前記決定に続いて、
前記アシスタントによって実行されるべき前記追加のアクションが、データベースにおいて、特有のユーザプロファイルに帰属化されることを必要としないと決定することと、
前記追加のアクションが、前記特有のユーザプロファイルに帰属化されることを必要としないとの前記決定に基づいて、
前記共用デジタルアシスタントデバイスの前記ユーザインターフェースにおいて、前記追加のアクションまたは前記追加のコマンドに関わる追加のオーディオ出力を提供することと
を含む動作を実行させるように動作可能である命令をさらに含む、請求項8に記載のシステム。
JP2021000457A 2016-12-29 2021-01-05 自動化された発話発音帰属化 Active JP7163424B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/394,104 2016-12-29
US15/394,104 US10013971B1 (en) 2016-12-29 2016-12-29 Automated speech pronunciation attribution

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019535755A Division JP6821814B2 (ja) 2016-12-29 2017-07-19 自動化された発話発音帰属化

Publications (2)

Publication Number Publication Date
JP2021060620A JP2021060620A (ja) 2021-04-15
JP7163424B2 true JP7163424B2 (ja) 2022-10-31

Family

ID=59485451

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019535755A Active JP6821814B2 (ja) 2016-12-29 2017-07-19 自動化された発話発音帰属化
JP2021000457A Active JP7163424B2 (ja) 2016-12-29 2021-01-05 自動化された発話発音帰属化

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019535755A Active JP6821814B2 (ja) 2016-12-29 2017-07-19 自動化された発話発音帰属化

Country Status (8)

Country Link
US (3) US10013971B1 (ja)
EP (1) EP3485486B1 (ja)
JP (2) JP6821814B2 (ja)
KR (2) KR102276282B1 (ja)
CN (2) CN108257608B (ja)
DE (2) DE102017121913A1 (ja)
GB (1) GB2558353A (ja)
WO (1) WO2018125289A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013971B1 (en) * 2016-12-29 2018-07-03 Google Llc Automated speech pronunciation attribution
US11632345B1 (en) * 2017-03-31 2023-04-18 Amazon Technologies, Inc. Message management for communal account
US20190073994A1 (en) * 2017-09-05 2019-03-07 Microsoft Technology Licensing, Llc Self-correcting computer based name entity pronunciations for speech recognition and synthesis
US10930274B2 (en) 2018-11-30 2021-02-23 International Business Machines Corporation Personalized pronunciation hints based on user speech
WO2020213767A1 (ko) * 2019-04-19 2020-10-22 엘지전자 주식회사 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
US11263400B2 (en) * 2019-07-05 2022-03-01 Google Llc Identifying entity attribute relations
KR20210089295A (ko) * 2020-01-07 2021-07-16 엘지전자 주식회사 인공지능 기반의 정보 처리 방법
CN111554300B (zh) * 2020-06-30 2021-04-13 腾讯科技(深圳)有限公司 音频数据处理方法、装置、存储介质及设备
US11615795B2 (en) 2020-08-03 2023-03-28 HCL America Inc. Method and system for providing secured access to services rendered by a digital voice assistant
US20220417047A1 (en) * 2021-06-25 2022-12-29 Microsoft Technology Licensing, Llc Machine-learning-model based name pronunciation
US20230138820A1 (en) * 2021-10-28 2023-05-04 Microsoft Technology Licensing, Llc Real-time name mispronunciation detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334301A (ja) 2006-06-16 2007-12-27 Storz Endoskop Produktions Gmbh ユーザプロファイル管理コンポーネントを備えた音声認識システム
JP2016122183A (ja) 2014-12-09 2016-07-07 アップル インコーポレイテッド 音声合成における同綴異音異義語の曖昧さの解消

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029200A (en) 1989-05-02 1991-07-02 At&T Bell Laboratories Voice message system using synthetic speech
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
TW274135B (ja) 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
JP3542026B2 (ja) 2000-05-02 2004-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
US6738738B2 (en) 2000-12-23 2004-05-18 Tellme Networks, Inc. Automated transformation from American English to British English
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US7043431B2 (en) 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US6985865B1 (en) 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7027832B2 (en) * 2001-11-28 2006-04-11 Qualcomm Incorporated Providing custom audio profile in wireless device
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
WO2005027093A1 (en) 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
US7266495B1 (en) 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
ATE426526T1 (de) * 2003-10-21 2009-04-15 Johnson Controls Tech Co System und verfahren zur auswahl eines benutzersprachprofils fur eine vorrichtung in einem fahrzeug
US7299181B2 (en) 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems
US8255223B2 (en) 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
CN101443787B (zh) 2006-02-17 2012-07-18 徕美股份公司 用于ocr系统中的不确定识别单词的验证的方法和系统
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
GB2457855B (en) 2006-11-30 2011-01-12 Nat Inst Of Advanced Ind Scien Speech recognition system and speech recognition system program
US20080153465A1 (en) 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101266600A (zh) * 2008-05-07 2008-09-17 陈光火 多媒体多语言互动同步翻译方法
US8510103B2 (en) 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
CA2795812A1 (en) * 2010-04-07 2011-10-13 Max Value Solutions INTL, LLC Method and system for name pronunciation guide services
CN102682763B (zh) 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US20120253817A1 (en) 2011-04-04 2012-10-04 Mitel Networks Corporation Mobile speech attendant access
US9009041B2 (en) 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US20130110511A1 (en) 2011-10-31 2013-05-02 Telcordia Technologies, Inc. System, Method and Program for Customized Voice Communication
US8719202B1 (en) * 2011-11-22 2014-05-06 Intellectual Ventures Fund 79 Llc Methods, devices, and mediums associated with monitoring and managing exercise fitness
CN104854537B (zh) * 2013-01-04 2018-08-10 英特尔公司 与计算设备的多距离、多模态自然用户交互
US9460088B1 (en) 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
US9298811B2 (en) * 2013-07-15 2016-03-29 International Business Machines Corporation Automated confirmation and disambiguation modules in voice applications
CN103442290A (zh) * 2013-08-15 2013-12-11 安徽科大讯飞信息科技股份有限公司 基于电视终端用户及语音的信息提供方法及系统
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US9489943B2 (en) 2013-10-16 2016-11-08 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
US9263032B2 (en) 2013-10-24 2016-02-16 Honeywell International Inc. Voice-responsive building management system
US9589562B2 (en) 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US10102852B2 (en) 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10832684B2 (en) 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing
US10013971B1 (en) * 2016-12-29 2018-07-03 Google Llc Automated speech pronunciation attribution

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334301A (ja) 2006-06-16 2007-12-27 Storz Endoskop Produktions Gmbh ユーザプロファイル管理コンポーネントを備えた音声認識システム
JP2016122183A (ja) 2014-12-09 2016-07-07 アップル インコーポレイテッド 音声合成における同綴異音異義語の曖昧さの解消

Also Published As

Publication number Publication date
JP6821814B2 (ja) 2021-01-27
GB2558353A (en) 2018-07-11
US10559296B2 (en) 2020-02-11
KR20210088743A (ko) 2021-07-14
US10013971B1 (en) 2018-07-03
US20180286382A1 (en) 2018-10-04
CN110349591B (zh) 2021-02-26
CN108257608B (zh) 2019-06-28
JP2020503561A (ja) 2020-01-30
US20200243063A1 (en) 2020-07-30
DE202017105741U1 (de) 2018-04-03
CN110349591A (zh) 2019-10-18
US20180190262A1 (en) 2018-07-05
EP3485486B1 (en) 2019-11-13
KR102276282B1 (ko) 2021-07-12
JP2021060620A (ja) 2021-04-15
WO2018125289A1 (en) 2018-07-05
US11081099B2 (en) 2021-08-03
GB201715809D0 (en) 2017-11-15
EP3485486A1 (en) 2019-05-22
CN108257608A (zh) 2018-07-06
DE102017121913A1 (de) 2018-07-05
KR102493292B1 (ko) 2023-01-30
KR20190100309A (ko) 2019-08-28

Similar Documents

Publication Publication Date Title
JP7163424B2 (ja) 自動化された発話発音帰属化
US10438593B2 (en) Individualized hotword detection models
US11430442B2 (en) Contextual hotwords
JP6474762B2 (ja) 発話者の検証のための動的な閾値
KR102201937B1 (ko) 후속 음성 쿼리 예측
JP6509903B2 (ja) コロケーション情報を使用した話者照合
US9576578B1 (en) Contextual improvement of voice query recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221019

R150 Certificate of patent or registration of utility model

Ref document number: 7163424

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150